📢 转载信息
原文链接:https://www.sciencedaily.com/releases/2026/03/260313002650.htm
原文作者:Texas A&M University
随着人工智能系统在长期使用的学术基准测试中开始取得极高分数,研究人员发现了一个日益严重的问题:曾经能够挑战机器的测试,现在已经不够难了。诸如“大规模多任务语言理解”(MMLU)等曾被视为极具挑战性的评估指标,如今已无法准确衡量当今先进AI模型的能力。

为了解决这一问题,一个由近1000名研究人员组成的全球团队(其中包括来自德克萨斯农工大学的一位教授)开发了一种新型测试。他们的目标是构建一份既广泛、难度极高,又植根于人类专家知识的试卷,以解决当前AI系统仍难以应对的难题。
“人类最后考卷”:挑战AI的底线
研究成果即是“人类最后考卷”(Humanity's Last Exam, 简称HLE),这是一份包含2500个问题的评估试卷,涵盖数学、人文科学、自然科学、古语言以及多个高度专业化的学术领域。该项目的详细信息已在《自然》杂志上发表。
德克萨斯农工大学计算机科学与工程系教学副教授Tung Nguyen博士是该项目的贡献者之一。他参与编写并完善了其中的许多问题。Nguyen表示:“当AI系统开始在人类基准测试中表现极其出色时,人们很容易误认为它们正接近人类水平的理解力。但HLE提醒我们,智能不仅仅是模式识别,它更关乎深度、语境和专业知识。”
全球协作:测量AI的局限
来自世界各地的专家共同编写并评审了这些问题。每一个题目都经过精心设计,确保拥有唯一且可验证的答案,并排除了通过简单的互联网搜索即可获取答案的可能性。
这些题目源于高级学术挑战,包括翻译古代帕尔米拉铭文、识别鸟类微小的解剖结构,或是分析圣经希伯来语发音的详细特征。
研究团队用领先的AI系统对每一个问题进行了测试。如果任何模型能够正确回答问题,该题就会从最终考卷中剔除。这一流程确保了考卷的难度始终略高于当前AI系统所能可靠解决的水平。
初步测试结果证实了该策略的有效性。即便是强大的AI模型也在考试中表现挣扎:GPT-4o 仅获得了2.7%的得分,Claude 3.5 Sonnet 达到4.1%,OpenAI的 o1 模型表现稍好,达到8%。目前最先进的系统,如 Gemini 3.1 Pro 和 Claude Opus 4.6,准确率仅在40%到50%之间。
为何需要全新的AI基准?
Nguyen强调,AI超越旧测试不仅是一个技术问题。“如果没有准确的评估工具,政策制定者、开发者和用户就有可能误读AI系统的实际能力。基准测试是衡量进展和识别风险的基石。”
根据研究团队的说法,在最初为人类设计的测试中获得高分,并不一定意味着AI具备了真正的智能。这些基准测试主要衡量的是AI完成特定人类学习任务的能力,而非捕捉深层理解。
这不仅是衡量工具,更是人类价值的体现
尽管名称听起来有些震撼,但“人类最后考卷”并非暗示人类正变得过时。相反,它突显了人类所独有的深厚知识与专业积淀。
“这不是一场与AI的竞赛,”Nguyen解释说,“这是一种理解这些系统在何处强大、在何处挣扎的方法。这种理解有助于我们构建更安全、更可靠的技术。重要的是,它提醒了我们为什么人类的专业知识依然至关重要。”
🚀 想要体验更好更全面的AI调用?
欢迎使用青云聚合API,约为官网价格的十分之一,支持300+全球最新模型,以及全球各种生图生视频模型,无需翻墙高速稳定,文档丰富,小白也可以简单操作。
评论区