📢 转载信息
原文作者:Russell Brandom
周一,Anthropic 发布了其旗舰模型的最新版本 Opus 4.5。这是 Anthropic 4.5 系列模型中最后一个发布的版本,此前 Sonnet 4.5 于九月发布,Haiku 4.5 于十月发布。
正如预期的那样,新版本的 Opus 在一系列基准测试中展现了最先进的性能,包括编码基准测试(SWE-Bench 和 Terminal-bench)、工具使用测试(tau2-bench 和 MCP Atlas)以及通用问题解决测试(ARC-AGI 2, GPQA Diamond)。
值得注意的是,Opus 4.5 是第一个在经过验证的 SWE-Bench(一项受人尊敬的编码基准测试)中得分超过 80% 的模型。
Anthropic 还强调了 Opus 的计算机使用和电子表格处理能力,并发布了一系列并行产品来展示模型在这些场景中的表现。随着 Opus 4.5 的推出,Anthropic 将更广泛地提供其 Claude for Chrome 和 Claude for Excel 产品——这两个产品此前处于试点阶段。Chrome 扩展程序将向所有 Max 用户开放,而专注于 Excel 的模型将向 Max、Team 和 Enterprise 用户开放。
Opus 4.5 还为长上下文操作带来了内存改进,这需要对其内存管理方式进行重大修改。
Anthropic 研究产品管理主管 Dianne Na Penn 告诉 TechCrunch:“我们在 Opus 4.5 的训练中对通用长上下文质量进行了改进,但上下文窗口本身是不足够的。与仅仅拥有更长的上下文窗口相比,知道应该记住哪些正确的细节才真正重要。”
这些更改还为付费 Claude 用户带来了一个期待已久的“无尽聊天”功能,当模型达到其上下文窗口限制时,该功能将允许聊天不间断地继续进行。模型将压缩其上下文记忆,而不会向用户发出警告。
许多升级都是着眼于 Agentic(智能体)用例,特别是 Opus 作为主导智能体指挥一组由 Haiku 驱动的子智能体的场景。管理这些任务需要对工作记忆有很强的掌握能力,这正是 Penn 描述的内存改进能够真正发挥价值的地方。
Penn 补充道:“这就是像记忆这样的基础知识变得非常重要的原因,因为 Claude 需要能够探索代码库和大型文档,并且要知道何时回溯和重新检查某些内容。”
Opus 4.5 将面临其他最近发布的尖端模型的激烈竞争,最引人注目的是 OpenAI 的 GPT 5.1(于 11 月 12 日发布)和 Google 的 Gemini 3(于 11 月 18 日发布)。
🚀 想要体验更好更全面的AI调用?
欢迎使用青云聚合API,约为官网价格的十分之一,支持300+全球最新模型,以及全球各种生图生视频模型,无需翻墙高速稳定,文档丰富,小白也可以简单操作。
评论区