AI 基准测试已经失效，我们需要什么样的替代方案？-青云TOP-AI综合资源站平台|青云聚合API大模型调用平台|全网AI资源导航平台

📢 转载信息

原文链接：https://www.technologyreview.com/2026/03/31/1134833/ai-benchmarks-are-broken-heres-what-we-need-instead/

原文作者：Angela Aristidou

几十年来，人工智能一直通过一个核心标准来评估：机器是否超越了人类。从国际象棋到高等数学，从代码编写到文章写作，AI 模型和应用的表现始终是在与人类完成任务的能力进行对比。这种框架极具吸引力：在有明确对错的孤立问题上进行 AI 与人类的对比，非常容易标准化、比较和优化。它能生成排行榜，也能博得媒体头条。

A photo illustration shows a humanoid over textures of standardized tests and MRI brain scans.

但问题在于：AI 在实际应用中的使用方式，几乎从不符合基准测试的设定。虽然研究人员和业界已开始通过超越静态测试，转向更动态的评估方法来改善基准测试，但这些创新只解决了一部分问题。因为它们依然是在人类团队和组织工作流之外评估 AI 的表现，而 AI 的真实效能恰恰是在这些复杂的环境中发挥出来的。

为何 AI 表现常与测试结果脱节？

虽然 AI 在真空中进行任务级别的评估，但它实际是在混乱、复杂且通常涉及多人交互的环境中使用的。其性能（或不足之处）往往要在长时间使用后才会显现。这种错位导致我们对 AI 的能力产生误解，忽略了系统性风险，并误判了其经济和社会后果。

为了缓解这一问题，我们需要将视角从狭隘的方法转向能够评估 AI 如何在团队、工作流和组织中长期运作的基准测试。我将这种新方法称为 HAIC 基准测试——即“人机协作、情境化评估”（Human–AI, Context-Specific Evaluation）。

构建更好的测试

要缩小基准测试与现实表现之间的差距，我们必须关注 AI 模型实际使用的环境。关键问题在于：AI 能否作为团队中高效的参与者？它能否产生持久的共同价值？HAIC 基准测试从以下四个维度重构了当前的评估体系：

分析单位的变化：从个人和单一任务的表现，转向团队和工作流的表现。
时间跨度的拓展：从有标准答案的一次性测试，转向考察长期影响。
衡量标准的深化：从单纯的正误和速度，转向组织成果、协作质量及错误可检测性。
系统效应：从孤立的输出结果，转向评估上游和下游的连锁后果。

这种转变是根本性的。在高风险环境中，系统层面的影响比任务层面的准确性更为关键。它也有助于校准目前过度膨胀的生产力预期。现实中的专业能力（如医生和律师）是在实际工作流程中，通过持续的反馈循环和问责结构来评估的。如果 AI 系统旨在与专业人士协作，那么其影响力就应该以纵向视角来评判，反映其在多次交互中的实际表现。

HAIC 方法确实会让基准测试变得更复杂、更耗费资源，也更难标准化。但如果继续在脱离工作世界的“消毒”环境中评估 AI，我们终将无法理解它到底能为我们带来什么。为了负责任地部署 AI，我们必须衡量真正重要的事情：不仅是模型能够独立完成什么，更是当人类团队在现实中与它合作时，它能促成什么，或者破坏什么。

🚀 想要体验更好更全面的AI调用？

欢迎使用青云聚合API，约为官网价格的十分之一，支持300+全球最新模型，以及全球各种生图生视频模型，无需翻墙高速稳定，文档丰富，小白也可以简单操作。

目录CONTENT

AI 基准测试已经失效，我们需要什么样的替代方案？

为何 AI 表现常与测试结果脱节？

构建更好的测试

评论区