新闻 > 科教 > 正文

大模型两小时暴虐50多名专家 但8小时显惊人短板

AI智能体离自主研发,还有多远?

Nature期刊的一篇研究曾证明了,GPT-4能自主设计并开展化学实验,还能阅读文档学习如何使用实验室设备。

另有Transformer作者之一研发的“世界首个AI科学家”,一口气肝出10篇论文,完全不用人类插手。

如今,AI在研发领域的入侵速度,远超人类预期。

来自非营利组织METR的最新研究称:

同时给定2个小时,Claude 3.5 Sonnet和o1-preview在7项具有挑战性研究工程中,击败了50多名人类专家。

令人印象深刻的是,AI编程速度能以超越人类10倍速度生成并测试各种方案。

在一个需要编写自定义内核以优化前缀和运算的任务中,o1-preview不仅完成了任务,还创造了惊人的成绩:将运行时间压缩到0.64毫秒,甚至超越了最优秀的人类专家解决方案(0.67毫秒)。

论文地址:https://metr.org/AI_R_D_Evaluation_Report.pdf

不过,当比赛时间延长至8小时,人类却展现出了明显的优势。

由下可以看出,随着时间逐渐拉长,Claude 3.5 Sonnet和o1-preview的性能提升逐渐趋于平缓。

有趣的是,为了获得更高的分数,AI智能体居然会违反规则“作弊”。

原本针对一个任务,智能体应该减少训练脚本运行时间,o1-preview直接复制了输出的代码。

顶级预测者看到这一结果惊叹道,基于这个进步速度,AI达到高水平人类能力的时间可能会比之前预计的更短。

RE-Bench设计架构,遍历七大任务

为了能够快速迭代,并以合理的成本收集数据,研究人员设定了运行限制:人类专家的评估不超过8小时,且所有环境都只能使用8个或更少的H100 GPU运行。

在环境设计时,主要考虑最大化覆盖前沿AI难题,同时确保人类专家与智能体能够持续推进任务,不会遇到研究瓶颈或得分上限。

RE-Bench包含了七个精心设计的评估环境,其中每个环境都提出了一个独特的机器学习优化问题,要取得高分需要大量的实验、实现和高效使用计算资源。

每个评估环境包括三部分:

1、评分函数(scoring function),定义了环境的目标,智能体可以随时运行该函数。每次运行评分函数时,都会在得分日志中添加一个带时间戳的事项。智能体可以看到得分日志,并检查评分函数的细节,有助于理解研究目标。

2、简单但性能不佳的初始解决方案(starting solution),提供给智能体,以展示有效的解决方案是什么样子,有助于说明环境设置,可以让智能体更快地开始研究问题中更具挑战性的部分。比如说,在“优化核函数”环境中,智能体的输入为一个简单但运行缓慢的Python解决方案。

3、由任务作者创建的参考解决方案(reference solution),得分很高。但该解决方案不会提供给智能体,只用于归一化得分(normalize score),作为一个优秀解决方案的示例。下式中ys为初始方案得分,yr为参考方案得分,y为模型得分,yn为归一化分数。

除了“Scaling Law Experiment”采用最终分数进行评估外,其他实验都使用得分日志中的最高分。

8小时极限,人类专家吊打AI

研究人员使用开源的Vivaria平台来设置安全的虚拟机,配备20-48个虚拟CPU、200-400 GB的RAM,以及0到6个H100 GPU,对比模型选择了claude-3-5-sonnet-20241022以及o1-preview,框架选择为METR和AIDE时间限制下的性能在相同时间下,可以看到,o1-preview和Claude 3.5 Sonnet在最初阶段进展迅速,但在几个小时后速度减慢;而人类专家起步较慢,但随后迅速取得进展。

 alt=

采样限制下的性能

除了长时间运行外,研究人员还评估了模型是否能在更短的时间限制下取得更好的性能:对每个环境进行k次采样,并选择所有k次运行中取得的最高分数。

结果发现,模块化框架中的智能体在30分钟尝试中表现得更好,而AIDE框架中的智能体则在2小时尝试中表现最佳。

还可以发现,在AIDE框架中的o1-preview和在模块化框架中的Claude 3.5 Sonnet总体上取得了最高的分数,分别达到了人类专家的第36和第37百分位。

随着样本数量的增加,最佳-k次分数(score@k)也会发生变化:Claude 3.5 Sonnet在30分钟时,样本数量增加,性能也稳步提高,但即使在k=128个样本下,智能体的表现也远远落后于顶尖人类的表现。

 alt=

总体而言,人类起步较慢,但改进轨迹更陡峭,即进步更快,并且在32小时的时间预算内达到了比任何智能体都更高的分数。

按环境评估

研究人员对比了两个智能体(模块化框架中的Claude 3.5 Sonnet和AIDE框架中的o1-preview)在32小时内的最高性能分配与人类结果(四次8小时运行中的最佳表现)以匹配智能体的时间预算。

 alt=

结果发现不同智能体在不同环境中的表现存在显著差异:Claude 3.5 Sonnet智能体在“微调GPT-2进行问答”和“扩展法则实验”环境中接近人类的表现,而o1-preview在这些环境中表现不佳;o1-preview在“优化核函数”环境中的表现超过了人类。

责任编辑: 方寻  来源:新智元 转载请注明作者、出处並保持完整。

本文网址:https://www.aboluowang.com/2024/1125/2135232.html