📢 转载信息
原文链接:https://techcrunch.com/podcast/the-phd-students-who-became-the-judges-of-the-ai-industry/
原文作者:Rebecca Bellan, Theresa Loconsolo
随着人工智能(AI)模型的数量飞速增长,竞争也日益激烈。在众多参与者中,哪些模型将脱颖而出,又由谁来评判呢?Arena(前身为 LM Arena)已经成为前沿大型语言模型(LLM)的公开排行榜,深刻影响着融资、产品发布和公关周期。在短短七个月内,这家初创公司便从一个加州大学伯克利分校的博士研究项目,跃升至估值 17 亿美元的地位。
在本期 TechCrunch 的 Equity 播客节目中,Rebecca Bellan 采访了 Arena 的联合创始人 Anastasios Angelopoulos 和 Wei-Lin Chiang,探讨了他们的团队如何在公司对其进行排名的同时,又作为其支持者的背景下,构建一个中立的基准测试平台。
收听完整节目,了解:
- Arena 的实际运作方式,以及为什么创始人认为你无法像静态基准测试那样“玩弄”它。
- “结构性中立”到底意味着什么,以及接受来自 OpenAI、Google 和 Anthropic 的资金是否会构成利益冲突。
- Arena 如何通过一款新的企业级产品,超越聊天机器人,对代理、编码和实际任务进行基准测试。
- 为什么 Claude 目前在法律和医疗用例的专家排行榜上处于领先地位。
- Arena 对于 LLM 之后的未来发展有什么样的设想,以及为什么代理是排行榜上的下一个焦点。
请在 YouTube、Apple Podcasts、Overcast、Spotify 以及各大播客平台订阅 Equity 节目。你也可以在 X 和 Threads 上关注 Equity 播客,账号为 @EquityPod。

🚀 想要体验更好更全面的AI调用?
欢迎使用青云聚合API,约为官网价格的十分之一,支持300+全球最新模型,以及全球各种生图生视频模型,无需翻墙高速稳定,文档丰富,小白也可以简单操作。
评论区