IBM 推出高效 LLM 基准测试方法，计算成本降低99%

导读站长之家（ChinaZ.com）6月4日消息:IBM 研究发布了一项突破性的 LLM（大型语言模型）基准测试方法，承诺将计算成本降低高达99%。传统的...

站长之家（ChinaZ.com）6月4日消息:IBM 研究发布了一项突破性的 LLM（大型语言模型）基准测试方法，承诺将计算成本降低高达99%。传统的基准测试，如斯坦福的 HELM，需要耗费超过一天的时间，并且成本高达1万美元，这对开发人员和研究人员来说是一个昂贵的过程。随着 LLMs 能力的增强，基准测试的过程变得更加严格，需要大量的计算能力和时间。

IBM 的创新方法源自以色列的 IBM 研究实验室，由 Leshem Choshen 领导的团队开发了一种新方法，大幅降低基准测试的成本。他们并非运行全尺寸基准测试，而是设计了一个使用原始基准测试规模的1% 的 “微型” 版本。令人惊讶的是，这些微型基准测试已被证明几乎同样有效，可以在98% 的准确度内估计出全尺寸测试的性能。

该团队利用人工智能从完整基准测试中选择最具代表性的问题，包含在微小版本中。这种选择性方法确保较小的基准测试仍然高度预测整体模型性能，消除了不贡献有意义评估的冗余或无关紧要的问题。

IBM 的高效方法引起了 AI 社区的关注，尤其是在2023年 NeurIPS 的高效 LLM 比赛中。面临使用有限计算资源评估大量模型的挑战，组织者与 IBM 合作实施了一个名为 Flash HELM 的简化基准测试。这种高效方法使他们能够迅速淘汰表现较差的模型，并将计算资源集中在最有前途的候选模型上，从而进行及时和具有成本效益的评估。

Flash HELM 的成功展示了 IBM 高效基准测试方法的潜力，促使其在 IBM 的 watsonx 平台上评估所有 LLMs。成本节约可观;例如，在像 HELM 这样的基准测试中评估 Granite13B 模型可能耗费高达1000个 GPU 小时，但使用高效基准测试方法显著降低了这些成本。

高效基准测试不仅降低成本，还通过允许更快速地迭代和测试新算法来加速创新。IBM 研究人员，包括 Youssef Mroueh 在内，指出这些方法使得更快速、更经济的评估成为可能，促进了更加灵活的发展过程。

这一概念已经超出了 IBM 的范畴。斯坦福实施了 Efficient-HELM，这是其传统基准测试的简化版本，为开发人员提供了选择示例数量和希望分配的计算资源量的灵活性。这一做法强调了一个新兴共识，即更大的基准测试不一定意味着更好的评估。

“大型基准测试不一定通过变得更大而增加价值，”Choshen 说。“这是我们的见解，我们希望它能够引领更快速、更经济的 LLM 性能评估方法。”

IBM 的高效基准测试方法代表了人工智能领域的重大进步，为评估先进语言模型所需的不断增加的成本和资源需求提供了实际解决方案。

相关热词：

免责声明：本文由用户上传，如有侵权请联系删除！

生活知识小技巧网

首页

国内研究

国外研究

健康新闻

健康资讯

养生资讯

社会百态

医学前沿

社会动态

生活知识

每日动态

IBM 推出高效 LLM 基准测试方法，计算成本降低99%

相关推荐

最新文章

头条推荐 | 热门文章 | 精选文章

胡桃仁的功效与作用（胡桃仁）

脸上好多小疙瘩不光滑图片（脸上好多小疙瘩不光滑）

cf怎么全屏不留黑边（cf怎么全屏）

nba全明星03年（2003nba全明星）

卷心菜做法大全家常菜（卷心菜做法）

高二英语听力训练（高二英语听力）

brabus什么牌子车（brabus）

建国大业片尾曲《红》歌词（建国大业片尾曲）

雪莉桶（雪莉）

赛尔号勇者之塔的隐藏boss（赛尔号勇者之塔在哪）

IBM 推出高效 LLM 基准测试方法，计算成本降低99%

比特币矿工向人工智能企业投入数百万美元，寻求数十亿美元回报

AmbientGPT有哪些功能免费吗？怎么使用方法详细教程指南

广州火车南站到白云机场地铁怎么走（广州火车南站）

对外开放格局的形成过程和特点（对外开放格局的形成）

武林外传YY武器任务流程（武林外传yy武器任务）

环球金融中心门票政策（环球金融中心门票）

夜来城外一尺雪小驾炭车辗冰辙（夜来城外一尺雪）

寂寞的花朵也在春风中微笑是什么意思（寂寞的花）

软格机和硬格机的区别（软格机）

时间复杂度的概念（时间复杂度）

易感期by落秋水（易后）

驴打滚（马打滚）

白瓜子种植高产技术（白瓜）

麻豆爱分享（麻豆）

汉字福的起源和演变（汉字福）

正确的走路姿势瘦小腿的方法（正确的走路姿势瘦小腿）

孕妇喝水多好还是喝水少好（孕妇喝水多好吗）

中原工学院张雪峰点评（中原工学院是几本）

dnf天空版（dnf天空模拟器）