目 录CONTENT

文章目录

Claude Opus 4.5 现已在 Amazon Bedrock 中可用

Administrator
2025-11-25 / 0 评论 / 0 点赞 / 0 阅读 / 0 字

📢 转载信息

原文链接:https://aws.amazon.com/blogs/machine-learning/claude-opus-4-5-now-in-amazon-bedrock/

原文作者:Jonathan Evans


Anthropic 最新的基础模型 Claude Opus 4.5 现已在 Amazon Bedrock 中提供。Amazon Bedrock 是一项全托管服务,提供来自领先人工智能公司的各种高性能基础模型。Opus 4.5 在人工智能系统所能做的事情上迈出了有意义的一步,并在编码、智能体、计算机使用和办公任务方面树立了新标准。它的性能超过了 Sonnet 4.5 和 Opus 4.1,同时成本仅为前代产品的三分之一

在本文中,我将向您展示该模型的不同之处,引导您了解关键业务应用,并演示如何在 Amazon Bedrock 上使用 Opus 4.5 的新工具使用功能。最后,您将了解如何将此模型的能力用于生产智能体部署。

Claude Opus 4.5:该模型的不同之处

Opus 4.5 是 Anthropic 在 Opus 系列中最先进的模型,专为构建能够以最少监督进行推理、规划和执行复杂任务的复杂人工智能智能体的开发人员而设计。它通过改进现有用例的性能并为复杂工作流增加新功能来升级 Sonnet 4.5。

该模型在专业软件工程方面表现出色,在 SWE-bench Verified 上达到了 80.9% 的准确率,有助于将多天的开发项目缩短为数小时的任务。它可以独立工作,包括改进的多语言编码能力,以及增强的行为,如更高效的代码、更好的测试覆盖率和更清晰的架构选择。在办公效率方面,该模型可以端到端地处理复杂项目。它驱动的智能体能够创建具有专业水准的 PowerPoint 演示文稿、Excel 电子表格和 Word 文档,包括对合同和 NDA 进行文档红线标记。该模型还可以生成更高质量的 React 和 HTML 产物。它在金融等精度至关重要的行业保持着一致性和准确性,并在整个长期项目中跨文件维护上下文

这是 Anthropic 目前最好的视觉模型,在 MMMU 基准测试中取得了 80.7% 的成绩,适用于依赖复杂视觉解释和多步导航的工作流——例如分析设计模型、处理具有复杂布局的文档或自动化基于浏览器的任务——其计算机使用性能还有进一步的提升。

该模型为智能体开发人员带来了两项关键改进。工具搜索功能允许智能体处理数百个工具,通过动态发现和仅加载它们需要的工具,而不是预先加载所有定义——这在扩展到大型工具库时,可以潜在节省数万个 token 并防止模式混乱。工具使用示例功能允许您直接在工具定义中提供样本工具调用,从而提高了复杂模式(带有嵌套对象或数组)的准确性。

Opus 4.5 性能基准测试

Opus 4.5 性能基准测试
来源https://www.anthropic.com/news/claude-opus-4-5

业务应用和用例

Opus 4.5 在以下用例中表现出色:

  • 软件开发:构建能够跨整个项目编写和重构代码、管理全栈架构或设计智能体系统的智能体,这些系统能将高层目标分解为可执行的步骤。此版本的 Claude 涵盖了整个开发生命周期:Opus 4.5 用于生产代码和复杂的智能体(在工作流中使用的工具超过 10 个,如端到端软件工程、网络安全或金融分析),Sonnet 4.5 用于快速迭代和规模化的用户体验,Haiku 4.5 用于子智能体和免费层级产品。Opus 4.5 可以分析技术文档、规划软件实现、编写所需代码,并在整个过程中跟踪需求和架构上下文
  • 企业运营和办公任务:从头到尾管理复杂的项目。Opus 4.5 利用记忆力来维护跨文件的上下文和一致性,并改进了电子表格、幻灯片和文档的创建能力。该模型可以处理持续的企业项目,实现手动工作流的自动化
  • 金融分析:跨越复杂的信息系统——监管文件、市场报告、内部数据——以实现预测建模和主动合规。该模型的一致性和准确性使其在精度至关重要的金融和其他行业中非常有用。
  • 网络安全:为安全工作流带来专业级的分析能力,关联日志、安全问题数据库和安全情报,以进行安全事件检测和自动化事件响应

与 Amazon Bedrock AgentCore 集成

Amazon Bedrock 为在生产环境中部署 Opus 4.5 提供了企业基础。这项全托管服务提供了一个统一的基础模型 API,具有企业级的安全性、合规性和治理

Opus 4.5 与 Amazon Bedrock AgentCore 集成,后者提供了构建生产智能体所需的基础架构和基本组件。AgentCore 包括用于在会话中维护上下文的持久化内存,用于将您的 API 和 Lambda 函数转换为智能体兼容工具的工具网关,以及内置的 身份和访问管理,用于安全地访问资源。您可以部署和监控智能体,实现完整的会话隔离、长期运行的工作流支持(长达 8 小时)和可观测性功能——这样您就可以专注于构建智能体,而不是管理基础架构。

Amazon Bedrock AgentCore 为生产部署提供了额外的功能。工具网关只需最少的代码即可将您现有的 API 和 Lambda 函数转换为智能体兼容工具——与模型的工具搜索功能协同工作,以编排数百个工具。通过 Amazon CloudWatch 实现的内置可观测性,可以跟踪智能体工作流中的 token 使用量、延迟和错误率。

开始使用

今天即可通过 Amazon Bedrock 访问 Opus 4.5 模型。我将演示模型的工具搜索功能——该功能允许智能体使用数百个工具,而无需将所有定义预先加载到上下文中。首先,我导入所需的模块并设置 Amazon Bedrock 客户端:

# Import required libraries
import boto3
import json
# Create a session and Bedrock client
session = boto3.Session()
bedrock_client = session.client( service_name='bedrock-runtime', region_name='us-east-1'

对于此示例,我将定义多个带有 defer_loading 的工具以启用工具搜索。这允许模型按需发现和加载所需的工具,而不是预先加载所有定义:

# Define tools with tool search enabled
tools = [ # Enable tool search - allows dynamic tool discovery { "type": "tool_search_tool_regex", "name": "tool_search_tool_regex" }, # Tools marked with defer_loading are discovered on-demand { "name": "get_weather", "description": "Get current weather for a location", "input_schema": { "type": "object", "properties": { "location": {"type": "string"}, "unit": {"type": "string", "enum": ["celsius", "fahrenheit"]} }, "required": ["location"] }, "defer_loading": True, # Provide example inputs to improve accuracy for complex schemas "input_examples": [ {"location": "San Francisco, CA", "unit": "fahrenheit"}, {"location": "Tokyo, Japan", "unit": "celsius"} ] }, { "name": "search_documentation", "description": "Search AWS documentation", "input_schema": { "type": "object", "properties": { "query": {"type": "string"}, "service": {"type": "string"} }, "required": ["query"] }, "defer_loading": True, "input_examples": [ {"query": "Lambda pricing", "service": "lambda"}, {"query": "S3 bucket policies"} ] }, { "name": "analyze_logs", "description": "Analyze application logs for errors", "input_schema": { "type": "object", "properties": { "log_file": {"type": "string"}, "time_range": {"type": "string"} }, "required": ["log_file"] }, "defer_loading": True, "input_examples": [ {"log_file": "/var/log/app.log", "time_range": "last 24 hours"}, {"log_file": "/var/log/error.log"} ] } ]

现在我使用 invoke_model API 调用模型,并将 effort 参数设置为 medium

# Construct the request with beta features enabled
request_body = { "anthropic_version": "bedrock-2023-05-31", # Enable beta features: tool search, tool examples, and effort parameter "anthropic_beta": ["tool-search-tool-2025-10-19", "tool-examples-2025-10-29", "effort-2025-11-24"], "max_tokens": 4096, "temperature": 0.7, # Set effort to "medium" for balanced token usage "output_config": { "effort": "medium" }, "messages": [ { "role": "user", "content": "What's the weather in Seattle?" } ], "tools": tools
} )
# Invoke the model
response = bedrock_client.invoke_model( modelId="global.anthropic.claude-opus-4-5-20251101-v1:0", body=json.dumps(request_body) # Parse the response
response_body = json.loads(response['body'].read())

模型使用工具搜索功能从库中找到相关工具(get_weather),而无需预先加载所有工具定义。effort 参数(测试版中可用)控制模型在思考、工具调用和响应中自由使用 token 的程度。您可以将其设置为 high 以获得最佳结果,设置为 medium 以实现平衡使用,或设置为 low 以实现保守的 token 使用。

智能体开发的关键特性

Opus 4.5 具有几项使其非常适合构建生产智能体的功能。该模型在扩展工作流中保持连贯性,为运行跨越数小时或数天的多步骤流程的智能体提供一致的决策。改进的工具处理意味着智能体能更可靠地与外部系统、API 和软件接口交互——模型能更准确地选择正确的工具并解释结果。Opus 4.5 还跨对话轮次跟踪信息并维护上下文,帮助智能体随着时间的推移积累知识并根据历史记录做出决策。

effort 参数(测试版中可用)让您可以控制 token 使用量。当质量最重要时,您可以将其设置为 high 以获得最佳结果;设置为 medium 以获得平衡的性能;或设置为 low 以保守地使用 token。Opus 4.5 会根据此设置调整跨思考、工具调用和响应的 token 支出。对于生产部署,Amazon Bedrock AgentCore 通过与 CloudWatch 的集成提供监控和可观测性,实时跟踪 token 使用量(在调整 effort 参数时非常有用),以及延迟指标、会话持续时间和错误率,以帮助优化智能体性能和管理成本。

定价

该模型的定价为每百万输入 token 5 美元,每百万输出 token 25 美元,使得 Opus 级别的智能得以普及,成本仅为前代产品的三分之一

可用性和访问

此模型今天可通过 Amazon Bedrock 上的跨区域推理获得,该功能会自动将请求路由到跨 AWS 区域的可用容量,以便在需求高峰期获得更高的吞吐量。

将此模型用于处理长期任务、协调多个工具或在扩展会话中维护上下文的智能体。

有关可用性、定价和模型规格的详细信息,请访问 Amazon Bedrock 文档

结论

本文向您展示了如何在 Amazon Bedrock 中开始使用 Claude Opus 4.5。Opus 4.5 在复杂的、长期运行的工作流(如软件开发和企业运营)中表现出色。Opus 4.5 在工具处理、上下文管理和决策制定方面的能力,使其对于构建在生产环境中可靠运行的智能体极具价值。该模型非常适用于软件工程、研究综合和企业工作流自动化的智能体。

我鼓励您尝试将 Opus 4.5 用于您自己的智能体工作流。考虑其能力如何改进您组织中的手动流程,或支持新型自动化。Opus 4.5 的功能与 Amazon Bedrock 的企业功能相结合,为生产级 AI 智能体奠定了基础。

要开始使用,请尝试在 Amazon Bedrock 控制台中使用该模型,探索技术文档,并查看 Anthropic 的 Claude 模型详情页面以获取更多关于其功能的信息。要大规模部署智能体,请在 Amazon Bedrock AgentCore 中探索 Opus 4.5,以获得具有工具编排和监控的托管基础架构。

我很高兴听到您使用此模型构建的产品——请在下面的评论中分享您的经验和智能体用例!


关于作者

Jonathan EvansJonathan Evans 是 AWS 生成式 AI 的全球解决方案架构师,他帮助客户利用 Amazon Bedrock 上 Anthropic Claude 模型的尖端 AI 技术来解决复杂的业务挑战。Jonathan 拥有 AI/ML 工程背景和在云中支持机器学习工作流的实践经验,热衷于使先进的 AI 对各种规模的组织都具有可访问性和影响力




🚀 想要体验更好更全面的AI调用?

欢迎使用青云聚合API,约为官网价格的十分之一,支持300+全球最新模型,以及全球各种生图生视频模型,无需翻墙高速稳定,文档丰富,小白也可以简单操作。

0

评论区