目 录CONTENT

文章目录

微软构建合成市场以测试人工智能代理,研究显示其易受操纵

Administrator
2025-11-06 / 0 评论 / 0 点赞 / 0 阅读 / 0 字

📢 转载信息

原文链接:https://techcrunch.com/2025/11/05/microsoft-built-a-synthetic-marketplace-for-testing-ai-agents/

原文作者:Russell Brandom


周三,微软的研究人员发布了一个专为测试AI代理而设计的新模拟环境,并发表了新的研究成果,表明当前的代理模型可能容易受到操纵。这项与亚利桑那州立大学合作进行的研究,对AI代理在无监督工作时的性能表现——以及AI公司兑现其代理未来承诺的速度——提出了新的疑问。

微软将这个模拟环境命名为“Magentic Marketplace”,它是一个用于实验AI代理行为的合成平台。一个典型的实验可能涉及一个客户代理(customer-agent)根据用户的指示尝试订购晚餐,而代表各种餐厅的代理则竞争赢得这笔订单。

该团队的初步实验包括100个独立的客户方代理与300个商业方代理进行交互。由于该市场是开源的,其他团队应该可以很容易地采用该代码来运行新实验或重现研究结果。

微软研究院AI前沿实验室(AI Frontiers Lab)管理总监Ece Kamar表示,这类研究对于理解AI代理的能力至关重要。“当这些代理相互协作和交谈、相互协商时,世界将如何变化,这是一个真正的问题,”Kamar说。“我们希望深入了解这些事情。”

初步研究考察了一系列领先模型,包括GPT-4o、GPT-5和Gemini-2.5-Flash,发现了一些令人惊讶的弱点。研究人员特别发现了一些企业可以用来操纵客户代理购买其产品的技术。研究人员注意到,当客户代理面临的选择越多时,效率下降得尤为明显,这会使其注意力空间不堪重负。

“我们希望这些代理能帮助我们处理大量的选项,”Kamar说。“但我们看到,目前的模型实际上因为选项太多而感到不堪重负。”

当被要求为共同目标进行协作时,这些代理也遇到了麻烦,它们似乎不确定应该由哪个代理扮演什么角色。当模型被赋予更明确的协作指令时,性能有所提高,但研究人员仍然认为模型的内在能力有待提高。

“我们可以指导模型——比如我们可以一步一步地告诉它们,”Kamar说。“但如果我们本质上是在测试它们的协作能力,我期望这些模型默认就具备这些能力。”




🚀 想要体验更好更全面的AI调用?

欢迎使用青云聚合API,约为官网价格的十分之一,支持300+全球最新模型,以及全球各种生图生视频模型,无需翻墙高速稳定,文档丰富,小白也可以简单操作。

0

评论区