AI代理人作为自由职业者的表现非常糟糕-青云TOP-AI综合资源站平台|青云聚合API大模型调用平台|全网AI资源导航平台

📢 转载信息

原文链接：https://www.wired.com/story/ai-agents-are-terrible-freelance-workers/

原文作者：Will Knight

即使是最好的人工智能 代理人，根据一项挑战AI大规模取代办公室员工观点的实验结果来看，他们在在线自由职业工作中的表现也相当糟糕。

由数据标注公司Scale AI和非营利组织人工智能安全中心（CAIS）的研究人员开发的一项新基准“远程劳动力指数”（Remote Labor Index），衡量了前沿AI模型自动化具有经济价值的工作的能力。

研究人员为几家领先的AI代理人布置了一系列模拟的自由职业任务，结果发现，即使是最能干的代理人也只能完成不到3%的工作，在总计143,991美元的潜在收入中，仅赚取了1,810美元。研究人员测试了几种工具，发现最能干的是来自中国初创公司Manus的工具，其次是xAI的Grok、Anthropic的Claude、OpenAI的ChatGPT和Google的Gemini。

CAIS主任Dan Hendrycks表示：“我希望这能更准确地反映AI能力现状。”他补充说，尽管过去一年左右某些代理人的能力有了显著提高，但这并不意味着这种速度会持续下去。

🔥 字体大小要求：
正文段落：font-size: 18px; line-height: 1.8;
二级标题h2：font-size: 28px; font-weight: bold; margin: 30px 0 20px 0;
三级标题h3：font-size: 22px; font-weight: bold; margin: 25px 0 15px 0;

引人注目的AI进步引发了关于AI很快将超越人类智能并取代大量劳动力的猜测。今年三月，Anthropic首席执行官Dario Amodei曾表示，在短短几个月内，90%的编码工作将被自动化。

以往的AI浪潮也曾引发过关于工作岗位被取代的错误预测，例如曾预测AI算法将“迫在眉睫”地取代放射科医生。

研究人员通过经过验证的Upwork工人生成了一系列自由职业任务。这些任务涵盖了图形设计、视频编辑、游戏开发以及数据抓取等行政杂务。他们将每项工作的描述、执行工作所需的文件夹目录以及人类完成项目的示例组合在一起。

Hendrycks表示，尽管近年来AI模型在编码、数学和逻辑推理方面有所改进，但它们在同时使用不同工具和执行涉及多个步骤的复杂任务时仍然很吃力。“它们没有长期记忆存储，也无法从经验中持续学习。它们不能像人类一样在工作中学习新技能，”他说。

这项分析是对OpenAI在九月发布的一项衡量经济工作表现的基准GDPval的回应，该基准声称可以衡量具有经济价值的工作。根据GDPval的数据，像GPT-5这样的前沿AI模型在跨越一系列办公室工作的220个任务上正接近人类的能力。OpenAI未对置评请求作出回应。

“我们对AI和工作岗位的问题争论了很多年，但其中大部分都是假设性或理论性的，”Scale AI研究总监Bing Liu补充道。

Liu和Hendrycks承认，新的基准并不是衡量AI经济影响的完美标准。许多职业包含该测量未涵盖的任务。在现实中，许多自由职业者也可能以增强生产力的方式使用AI作为工具。

然而，AI正在抢走工作的观点正在获得动力。本周，亚马逊宣布将裁员14,000人，并部分将此归咎于生成式人工智能的快速崛起。亚马逊人力体验与技术高级副总裁Beth Galetti在一份公开分享的备忘录中写道：“这一代AI是我们自互联网以来见过的最具变革性的技术。它使公司能够比以往任何时候都更快地进行创新（在现有市场细分和全新的市场细分中）。”

不过，如果远程劳动力指数有任何指示的话，AI不太可能接替这些被裁掉的职位。

您是否担心AI会抢走您的工作？请发送电子邮件至 ailab@wired.com 告知我。

这是Will Knight的AI Lab 时事通讯的一个版本。往期时事通讯请点击此处阅读。

🚀 想要体验更好更全面的AI调用？

欢迎使用青云聚合API，约为官网价格的十分之一，支持300+全球最新模型，以及全球各种生图生视频模型，无需翻墙高速稳定，文档丰富，小白也可以简单操作。

目录CONTENT

AI代理人作为自由职业者的表现非常糟糕

评论区