📢 转载信息
原文链接:https://www.technologyreview.com/2026/02/05/1132254/this-is-the-most-misunderstood-graph-in-ai/
原文作者:Grace Huckins
MIT Technology Review Explains: 让我们(《麻省理工科技评论》的)作家们梳理复杂、混乱的技术世界,帮助您理解即将到来的趋势。 您可以在此处阅读更多本系列文章。
每当OpenAI、谷歌或Anthropic发布新的前沿大型语言模型时,人工智能界都会屏住呼吸。直到AI研究非营利组织METR(代表“模型评估与威胁研究”)更新了自去年3月首次发布以来在AI论述中扮演重要角色的“现在具有标志性的图表”,大家才会松一口气。该图表表明,某些AI能力正以指数速度发展,而最近的模型发布甚至超越了这一本已令人印象深刻的趋势。
Anthropic于去年11月底发布的最新最强模型Claude Opus 4.5的情况确实如此。12月,METR宣布Opus 4.5似乎能够独立完成一项需要人类大约五小时才能完成的任务——这比即使是指数趋势预测的水平也有了巨大的进步。一位Anthropic的安全研究人员发推称,鉴于这些结果,他将改变研究方向;公司另一名员工则简单地写道:“妈妈快来接我,我害怕。”
但事实比这些戏剧性的反应所暗示的要复杂得多。首先,METR对特定模型能力的估计带有显著的误差范围。正如METR在X平台上明确指出的那样,Opus 4.5可能只能定期完成需要人类大约两小时的任务,也可能在需要人类长达20小时的任务上取得成功。考虑到该方法固有的不确定性,无法确定确切情况。
METR技术人员Sydney Von Arx表示:“人们对这张图表做了很多过度解读。”
从更根本上讲,METR图表并非衡量整个AI能力,它也从未声称如此。为了构建该图表,METR主要对模型进行编码任务测试,通过衡量或估计人类完成每项任务所需的时间来评估其难度——而这一衡量标准并非所有人都接受。Claude Opus 4.5可能能够完成某些需要人类五小时的任务,但这并不意味着它已接近取代人类工作者。
METR的成立是为了评估前沿AI系统带来的风险。尽管它最出名的是指数趋势图,但它也与AI公司合作,对它们的系统进行了更详细的评估,并发表了其他几项独立研究项目,其中包括一项2025年7月广受关注的研究,该研究表明AI编码助手实际上可能正在拖慢软件工程师的速度。
然而,指数图表为METR赢得了声誉,而该组织似乎与该图表常常被夸大的反应之间存在复杂的关系。1月份,引入该图表的论文的其中一位主要作者Thomas Kwa发表了一篇博客文章,回应了一些批评,并明确指出了其局限性,METR目前正在着手准备一份更全面的常见问题解答文档。但Kwa对这些努力能否有意义地改变讨论持悲观态度。他说:“我认为,无论我们做什么,炒作机器都会把所有的免责声明都剥离掉。”
尽管如此,METR团队确实认为该图表对AI进步的轨迹有其有意义的见解。“你绝对不应该把自己的生活系于这张图表,”Von Arx说。“但同时,”她补充道,“我敢打赌这个趋势会持续下去。”
METR图表复杂性的一个问题在于,它看起来比实际要复杂得多。X轴很简单:它追踪每种模型的发布日期。但Y轴才是棘手之处。它记录了每个模型的“时间视界”(time horizon),这是一个由METR创建的不寻常指标——根据Kwa和Von Arx的说法,这个指标经常被误解。
要确切了解模型的“时间视界”是什么,了解METR在计算这些指标时所做的所有工作会有所帮助。首先,METR团队收集了一系列任务,从快速的多项选择题到详细的编码挑战——所有这些都与软件工程相关。然后,他们让人类程序员尝试了其中大部分任务,并评估了他们完成所需的时间。通过这种方式,他们为任务分配了一个人类基准时间。有些任务专家只需几秒钟,而有些则需要几个小时。
当METR对大型语言模型进行测试时,他们发现先进的模型可以轻松完成快速任务——但当模型尝试处理那些需要人类花费更多时间完成的任务时,它们的准确性开始下降。研究人员根据模型的性能,计算出模型能成功完成任务的人类任务时间尺度上的50%点。这个点就是该模型的时间视界。
所有这些细节都包含在METR发布原始时间视界图的博客文章和学术论文中。但METR图表经常在社交媒体上传播,而没有这些背景信息,“时间视界”指标的真正含义就会在混乱中迷失。一种常见的误解是,图表上的数字——例如Claude Opus 4.5的五小时左右——代表模型可以独立运行的时间长度。它们不是。它们代表的是人类完成模型可以成功执行的任务所需的时间。Kwa经常遇到这种错误,以至于他在最近的博客文章开头特意指出了这一点,当被问及他想在网络上传播的图表版本中添加什么信息时,他说他会在提到任务完成时间的地方都加上“人类”这个词。
尽管“时间视界”概念复杂且被广泛误解,但它也具有一些基本逻辑:时间视界为一个小时的模型可以自动化软件工程师工作的一小部分,而时间视界为40小时的模型则可能独立完成数天的工作量。但一些专家质疑,人类在任务上花费的时间是否是量化AI能力的有效指标。研究模型评估的加州大学伯克利分校的博士生Inioluwa Deborah Raji说:“我不认为因为某件事花费的时间更长,它就必然是更难的任务,这并非既定事实。”
Von Arx表示,她最初也怀疑时间视界是否是正确的衡量标准。让她信服的是看到她和同事们分析的结果。当他们计算出2025年初所有主要模型的50%时间视界,并将它们都绘制在图表上时,他们发现顶级模型的“时间视界”随时间推移而增加——而且,进步的速度正在加快。大约每七个月,时间视界就会翻一番,这意味着最先进的模型可以完成2020年中期需要人类九秒、2023年初需要4分钟、2024年底需要40分钟的任务。“我可以对它是否有意义进行所有理论上的探讨,但这个趋势是存在的,”Von Arx说。
正是这种戏剧性的模式使METR图表一炮而红。许多人是通过阅读《AI 2027》了解到的,这是一篇病毒式的科幻故事兼定量预测,声称超级智能AI可能在2030年消灭人类。《AI 2027》的作者根据METR图表进行了一些预测并进行了广泛引用。用Von Arx的话说,“当很多人通过这种相当主观的解读来了解你的工作时,这有点奇怪。”
当然,许多人引用METR图表时并未想象大规模的死亡和破坏。对于一些AI助推者来说,这种指数趋势表明AI将很快带来一个经济快速增长的时代。例如,风险投资公司红杉资本(Sequoia Capital)最近发布了一篇文章,标题为《2026年:这就是AGI》,其中利用METR图表论证了可以充当员工或承包商的AI即将到来。红杉资本的合伙人兼该文章的作者之一Sonya Huang说:“我们提出这个激进观点的真正原因在于:‘当你的计划以世纪来衡量时,你该怎么办?’”
然而,模型仅在METR图表上达到一个小时的时间视界,并不意味着它可以在现实世界中替代一小时的人类工作。首先,模型评估所依据的任务并不能反映真实世界工作的复杂性和混乱性。在他们最初的研究中,Kwa、Von Arx及其同事根据模型的得分是否明确、以及模型在犯错时是否能轻松重新开始等标准,量化了每项任务的“混乱程度”(对于混乱任务,这两个问题的答案都是否定的)。他们发现模型在处理混乱任务时的表现明显更差,尽管总体改进的模式在混乱和非混乱任务中都适用。
而且,即使是METR考虑的最混乱的任务,也无法提供关于AI接管大多数工作能力的太多信息,因为该图表几乎完全基于编码任务。伊利诺伊大学厄巴纳-香槟分校计算机科学助理教授Daniel Kang说:“一个模型可以在编码方面变得更好,但这并不会神奇地让它在其他任何方面都变得更好。”在一项后续研究中,Kwa及其同事确实发现其他领域任务的时间视界似乎也呈指数轨迹,但那项工作要非正式得多。
尽管存在这些局限性,许多人仍然钦佩该团队的研究。Kang告诉我:“METR的研究是此类工作中设计最严谨的研究之一。”就连前纽约大学教授、著名的LLM批评家Gary Marcus也在一篇博客文章中称赞了该图表背后的许多工作“非常出色”。
几乎可以肯定,一些人会继续将METR图表解读为我们被AI引发的厄运的预兆,但实际上它远没有那么耸人听闻:它是一个精心构建的科学工具,为人们对AI进步的直觉感受提供了具体的数字衡量。正如METR员工会坦承的那样,该图表远非完美的仪器。但在一个新颖且快速发展的领域,即使是不完美的工具也能具有巨大的价值。
Von Arx说:“这是一群人在诸多限制下尽力而为,试图创造一个衡量标准。它在很多方面都有着深刻的缺陷。”她接着说,“但我也认为,它是同类工作中的佼佼者之一。”
🚀 想要体验更好更全面的AI调用?
欢迎使用青云聚合API,约为官网价格的十分之一,支持300+全球最新模型,以及全球各种生图生视频模型,无需翻墙高速稳定,文档丰富,小白也可以简单操作。
评论区