科学家构建史上最难的AI测试，结果令人惊讶-青云TOP-AI综合资源站平台|青云聚合API大模型调用平台|全网AI资源导航平台

📢 转载信息

原文链接：https://www.sciencedaily.com/releases/2026/03/260313002650.htm

原文作者：Texas A&M University

科学家构建史上最难的AI测试，结果令人惊讶

Humanity’s Last Exam Tests AI Limits — 科学家们构建了一个庞大的“人类最后的考试”来挑战AI——而结果显示，即使是最聪明的系统也还有很长的路要走。图片来源：Shutterstock

随着人工智能系统在长期使用的学术基准测试中取得极高的分数，研究人员注意到一个日益严重的问题：曾经能够挑战机器的测试，现在已经不够难了。像“大规模多任务语言理解”（MMLU）这样先前被认为要求极高的考试，现在已经无法正确衡量当前先进AI模型的性能。

为了解决这个问题，一个由近1000名研究人员组成的全球团队，其中包括来自德克萨斯农工大学的一位教授，开发了一种新型测试。他们的目标是创建一个广泛、困难且基于专家人类知识的考试，而这是当前AI系统仍然难以处理的。

最终的成果是“人类最后的考试”（HLE），这是一个包含2500个问题的评估，涵盖数学、人文科学、自然科学、古代语言以及广泛的高度专业化学术领域。该项目的详细信息发表在Nature杂志上，关于该考试的更多信息可在lastexam.ai上找到。

众多贡献者之一是德克萨斯农工大学计算机科学与工程系的教学副教授Tung Nguyen博士。Nguyen帮助撰写和完善了许多考试题目。

“当AI系统在人类基准测试中表现得非常好时，人们很容易认为它们正在接近人类水平的理解能力，”Nguyen说。“但HLE提醒我们，智能不仅仅是模式识别——它关乎深度、背景和专业知识。”

考试的目的不是为了欺骗或击败人类考生。相反，其目标是仔细识别AI系统仍然存在不足的领域。

衡量AI极限的全球性努力

来自世界各地的专家撰写和审查了“人类最后的考试”中的问题。每个问题都经过精心设计，使其有一个清晰、可验证的答案。这些问题也被设计成难以通过简单的互联网搜索快速解决。

主题来自高级学术挑战。一些任务涉及翻译古代帕尔米拉铭文，而另一些则要求识别鸟类细微的解剖结构或分析圣经希伯来语发音的详细特征。

研究人员测试了每个问题与领先AI系统的匹配度。如果任何模型能够正确回答某个问题，该问题就会被从最终考试中移除。这一过程确保了测试始终超出当前AI系统能够可靠解决的范围。

早期测试证实了该策略的有效性。即使是强大的AI模型在考试中也举步维艰。GPT-4o的得分仅为2.7%，而Claude 3.5 Sonnet达到了4.1%。OpenAI的o1模型表现稍好，得分为8%。迄今为止，最强大的系统，包括Gemini 3.1 Pro和Claude Opus 4.6，准确率在40%到50%之间。

为何需要新的AI基准

Nguyen解释说，AI超越旧测试的问题不仅仅是一个技术问题。他贡献了HLE的2500个公开问题中的73个，是贡献者中第二多的，并且撰写了与数学和计算机科学相关的大部分问题。

“没有准确的评估工具，政策制定者、开发人员和用户就有可能误解AI系统实际能做什么，”他说。“基准测试为衡量进展和识别风险提供了基础。”

研究团队认为，在最初为人类设计的测试中获得高分并不一定表明真正的智能。这些基准主要衡量AI在完成为人类学习者设计的特定任务方面的能力，而不是捕捉更深层次的理解。

不是威胁，而是工具

尽管名称具有戏剧性，“人类最后的考试”并非暗示人类正在过时。相反，它突显了仍然独属于人类的大量知识和专业知识。

“这不是一场与AI的竞赛，”Nguyen说。“这是一种了解这些系统在哪里表现出色、在哪里挣扎的方法。这种理解有助于我们构建更安全、更可靠的技术。而且，重要的是，它提醒我们为什么人类的专业知识仍然很重要。”

构建长期的AI基准

“人类最后的考试”旨在成为未来AI系统的持久透明基准。为了支持这一目标，研究人员公开了一些问题，同时保留了大部分问题以防止AI模型简单地死记硬背答案。

“目前，《人类最后的考试》代表了AI与人类智能之间差距的最清晰评估之一，”Nguyen说，“尽管技术进步迅速，但这种差距依然存在。”

大规模国际研究行动

Nguyen强调，该项目的规模证明了跨学科和跨国界合作的价值。

“这个项目的非凡之处在于其规模，”他说。“几乎每个学科的专家都做出了贡献。不只是计算机科学家；还有历史学家、物理学家、语言学家、医学研究人员。这种多样性恰恰暴露了当今AI系统的不足——也许具有讽刺意味的是，是人类的共同努力。”

🚀 想要体验更好更全面的AI调用？

欢迎使用青云聚合API，约为官网价格的十分之一，支持300+全球最新模型，以及全球各种生图生视频模型，无需翻墙高速稳定，文档丰富，小白也可以简单操作。

目录CONTENT

科学家构建史上最难的AI测试，结果令人惊讶

科学家构建史上最难的AI测试，结果令人惊讶

评论区