科学家构建史上最难AI测试，结果令人大跌眼镜-青云TOP-AI综合资源站平台|青云聚合API大模型调用平台|全网AI资源导航平台

📢 转载信息

原文链接：https://www.sciencedaily.com/releases/2026/03/260313002650.htm

原文作者：Texas A&M University

随着人工智能系统在长期使用的学术基准测试中开始取得极高分数，研究人员发现了一个日益严重的问题：曾经能够挑战机器的测试，现在已经不够难了。诸如“大规模多任务语言理解”（MMLU）等曾被视为极具挑战性的评估指标，如今已无法准确衡量当今先进AI模型的能力。

Humanity’s Last Exam Tests AI Limits

为了解决这一问题，一个由近1000名研究人员组成的全球团队（其中包括来自德克萨斯农工大学的一位教授）开发了一种新型测试。他们的目标是构建一份既广泛、难度极高，又植根于人类专家知识的试卷，以解决当前AI系统仍难以应对的难题。

“人类最后考卷”：挑战AI的底线

研究成果即是“人类最后考卷”（Humanity's Last Exam, 简称HLE），这是一份包含2500个问题的评估试卷，涵盖数学、人文科学、自然科学、古语言以及多个高度专业化的学术领域。该项目的详细信息已在《自然》杂志上发表。

德克萨斯农工大学计算机科学与工程系教学副教授Tung Nguyen博士是该项目的贡献者之一。他参与编写并完善了其中的许多问题。Nguyen表示：“当AI系统开始在人类基准测试中表现极其出色时，人们很容易误认为它们正接近人类水平的理解力。但HLE提醒我们，智能不仅仅是模式识别，它更关乎深度、语境和专业知识。”

全球协作：测量AI的局限

来自世界各地的专家共同编写并评审了这些问题。每一个题目都经过精心设计，确保拥有唯一且可验证的答案，并排除了通过简单的互联网搜索即可获取答案的可能性。

这些题目源于高级学术挑战，包括翻译古代帕尔米拉铭文、识别鸟类微小的解剖结构，或是分析圣经希伯来语发音的详细特征。

研究团队用领先的AI系统对每一个问题进行了测试。如果任何模型能够正确回答问题，该题就会从最终考卷中剔除。这一流程确保了考卷的难度始终略高于当前AI系统所能可靠解决的水平。

初步测试结果证实了该策略的有效性。即便是强大的AI模型也在考试中表现挣扎：GPT-4o 仅获得了2.7%的得分，Claude 3.5 Sonnet 达到4.1%，OpenAI的 o1 模型表现稍好，达到8%。目前最先进的系统，如 Gemini 3.1 Pro 和 Claude Opus 4.6，准确率仅在40%到50%之间。

为何需要全新的AI基准？

Nguyen强调，AI超越旧测试不仅是一个技术问题。“如果没有准确的评估工具，政策制定者、开发者和用户就有可能误读AI系统的实际能力。基准测试是衡量进展和识别风险的基石。”

根据研究团队的说法，在最初为人类设计的测试中获得高分，并不一定意味着AI具备了真正的智能。这些基准测试主要衡量的是AI完成特定人类学习任务的能力，而非捕捉深层理解。

这不仅是衡量工具，更是人类价值的体现

尽管名称听起来有些震撼，但“人类最后考卷”并非暗示人类正变得过时。相反，它突显了人类所独有的深厚知识与专业积淀。

“这不是一场与AI的竞赛，”Nguyen解释说，“这是一种理解这些系统在何处强大、在何处挣扎的方法。这种理解有助于我们构建更安全、更可靠的技术。重要的是，它提醒了我们为什么人类的专业知识依然至关重要。”

🚀 想要体验更好更全面的AI调用？

欢迎使用青云聚合API，约为官网价格的十分之一，支持300+全球最新模型，以及全球各种生图生视频模型，无需翻墙高速稳定，文档丰富，小白也可以简单操作。

目录CONTENT

科学家构建史上最难AI测试，结果令人大跌眼镜

“人类最后考卷”：挑战AI的底线

全球协作：测量AI的局限

为何需要全新的AI基准？

这不仅是衡量工具，更是人类价值的体现

评论区