目 录CONTENT

文章目录

AI 行业的“裁判”:从博士研究项目到估值 17 亿美元的 Arena

Administrator
2026-03-19 / 0 评论 / 0 点赞 / 0 阅读 / 0 字

📢 转载信息

原文链接:https://techcrunch.com/podcast/the-phd-students-who-became-the-judges-of-the-ai-industry/

原文作者:Rebecca Bellan, Theresa Loconsolo


随着人工智能(AI)模型的数量飞速增长,竞争也日益激烈。在众多参与者中,哪些模型将脱颖而出,又由谁来评判呢?Arena(前身为 LM Arena)已经成为前沿大型语言模型(LLM)的公开排行榜,深刻影响着融资、产品发布和公关周期。在短短七个月内,这家初创公司便从一个加州大学伯克利分校的博士研究项目,跃升至估值 17 亿美元的地位。

在本期 TechCrunch 的 Equity 播客节目中,Rebecca Bellan 采访了 Arena 的联合创始人 Anastasios Angelopoulos 和 Wei-Lin Chiang,探讨了他们的团队如何在公司对其进行排名的同时,又作为其支持者的背景下,构建一个中立的基准测试平台。

收听完整节目,了解:

  • Arena 的实际运作方式,以及为什么创始人认为你无法像静态基准测试那样“玩弄”它。
  • “结构性中立”到底意味着什么,以及接受来自 OpenAI、Google 和 Anthropic 的资金是否会构成利益冲突。
  • Arena 如何通过一款新的企业级产品,超越聊天机器人,对代理、编码和实际任务进行基准测试。
  • 为什么 Claude 目前在法律和医疗用例的专家排行榜上处于领先地位。
  • Arena 对于 LLM 之后的未来发展有什么样的设想,以及为什么代理是排行榜上的下一个焦点。

请在 YouTube、Apple Podcasts、Overcast、Spotify 以及各大播客平台订阅 Equity 节目。你也可以在 X 和 Threads 上关注 Equity 播客,账号为 @EquityPod。

AI 虚拟助手应用在苹果 iPhone 上的展示,包括 ChatGPT、Claude、Gemini、Copilot、Perplexity 和 Poe。




🚀 想要体验更好更全面的AI调用?

欢迎使用青云聚合API,约为官网价格的十分之一,支持300+全球最新模型,以及全球各种生图生视频模型,无需翻墙高速稳定,文档丰富,小白也可以简单操作。

0

评论区