AI代理准备好进入职场了吗？新的基准测试引发质疑-青云TOP-AI综合资源站平台|青云聚合API大模型调用平台|全网AI资源导航平台

📢 转载信息

原文链接：https://techcrunch.com/2026/01/22/are-ai-agents-ready-for-the-workplace-a-new-benchmark-raises-doubts/

原文作者：Russell Brandom

距离微软CEO萨蒂亚·纳德拉预测AI将取代知识工作——即律师、投资银行家、图书管理员、会计师、IT人员等白领工作——已经将近两年了。

尽管基础模型取得了巨大进步，但知识工作的变革却迟迟没有到来。模型已经精通了深入研究和代理规划，但不知何故，大多数白领工作受到的影响相对较小。

这是AI领域最大的谜团之一——得益于培训数据巨头Mercor的最新研究，我们终于有了一些答案。

这项新研究考察了领先的AI模型在执行源自咨询、投资银行和法律等领域的实际白领工作任务时的表现。其结果是提出了一个新的基准测试，名为APEX-Agents——到目前为止，每一家AI实验室都得了不及格的分数。面对来自真实专业人士的查询，即使是最好的模型也只能答对不到四分之一的问题。绝大多数情况下，模型返回了错误的答案或根本没有答案。

据参与该论文的Mercor首席执行官Brendan Foody介绍，模型的最大难点在于跨多个领域追踪信息——而这对于人类执行的大部分知识工作来说是至关重要的。

Foody在接受TechCrunch采访时表示：“这个基准测试的一大变化是我们构建了整个环境，模仿了真实的专业服务。我们做工作的方式不是由一个能在一个地方提供所有上下文的个体来完成的。在现实生活中，你需要在Slack、Google Drive和所有这些其他工具之间进行操作。”对于许多代理式AI模型来说，这种多领域推理仍然是时好时坏。

这些场景都来源于Mercor专家市场上的真实专业人士，他们既提出了查询，也设定了成功响应的标准。查看这些发布在Hugging Face上的问题，可以看出任务的复杂程度可以变得多高。

“法律”部分的一个问题是：

在欧盟生产停电的前48分钟内，Northstar的工程团队将一套或两套包含个人数据的欧盟生产事件日志导出到了美国的分析供应商……根据Northstar自己的政策，它是否可以合理地认为这一两次的日志导出符合第49条的规定？

正确的答案是肯定的，但要得出这个结论，需要对公司自身的政策以及相关的欧盟隐私法律进行深入评估。

这可能会让一个知识渊博的人感到困惑，但研究人员的目标是模拟该领域专业人员所做的工作。如果一个LLM能够可靠地回答这些问题，它就可以有效地取代今天许多律师的工作。Foody告诉TechCrunch：“我认为这可能是经济中最重要的议题。这个基准测试非常反映了这些人所做出的真实工作。”

OpenAI也曾试图通过其GDPval基准测试来衡量专业技能——但APEX-Agents测试在重要方面有所不同。GDPval测试跨越广泛的职业领域来测试一般知识，而APEX-Agents基准测试则衡量系统在特定高价值职业中执行持续性任务的能力。其结果对模型来说更困难，但也与这些工作能否实现自动化更紧密相关。

虽然没有一个模型被证明已准备好接替投资银行家的工作，但有些模型明显更接近目标。Gemini 3 Flash在该组中表现最佳，单次尝试准确率为24%，紧随其后的是GPT-5.2，准确率为23%。再往下，Opus 4.5、Gemini 3 Pro和GPT-5的得分都约为18%。

尽管初步结果有所欠缺，但AI领域在突破具有挑战性的基准测试方面有着悠久的历史。现在APEX-Agents测试已经公开，它对那些相信自己能做得更好的AI实验室构成了一个公开的挑战——Foody完全预计在未来几个月内会有所改进。

他告诉TechCrunch：“它正在快速改进。目前可以说，它就像一个四分之一的时间能做对事情的实习生，但去年它是一个五分之一或十分之一时间能做对事情的实习生。这种年复一年的改进速度，很快就能产生影响。”

🚀 想要体验更好更全面的AI调用？

欢迎使用青云聚合API，约为官网价格的十分之一，支持300+全球最新模型，以及全球各种生图生视频模型，无需翻墙高速稳定，文档丰富，小白也可以简单操作。

目录CONTENT

AI代理准备好进入职场了吗？新的基准测试引发质疑

评论区