📢 转载信息
原文作者:Christian Kamwangala, Jarryd Konar, Jared Dean, Melanie Li, and Saurabh Trikande
使用 Amazon Bedrock 构建 AI 应用程序时,吞吐量方面的挑战可能会影响您应用程序的可扩展性。 AWS af-south-1 区域中推出的全局跨区域推理(Global cross-Region inference)改变了这一现状。您现在可以从开普敦区域调用模型,而 Amazon Bedrock 会自动将请求路由到具有可用容量的区域。您的应用程序将获得一致的响应时间,用户将获得可靠的体验,并且您的 Amazon CloudWatch 和 AWS CloudTrail 日志将集中保留在 af-south-1 中。
在开普敦区域(af-south-1)的 Amazon Bedrock 上使用 Anthropic Claude Sonnet 4.5、Haiku 4.5 和 Opus 4.5 的全局跨区域推理,使您能够访问 Claude 4.5 模型家族。南非客户现在可以使用全局推理配置文件,以增强的吞吐量和弹性来访问这些模型。全局跨区域推理将请求路由到全球受支持的商业区域,从而优化资源并实现更高的吞吐量——这在高峰使用时段尤为重要。该功能支持 Amazon Bedrock 提示词缓存、批量推理、Amazon Bedrock 智能防护(Guardrails)、Amazon Bedrock 知识库等。
在本文中,我们将介绍全局跨区域推理如何路由请求以及您的数据驻留位置,然后展示如何配置所需的 AWS 身份和访问管理 (IAM) 权限,并使用全局推理配置文件资源名称 (ARN) 来调用 Claude 4.5 模型。我们还将介绍如何为您的工作负载请求配额增加。完成之后,您将在 af-south-1 中实现一个可工作的全局跨区域推理部署。
理解跨区域推理
跨区域推理是一项强大的功能,组织可以利用它将推理处理无缝地分布到多个区域。此功能有助于您在扩展构建时获得更高的吞吐量,使您的生成式 AI 应用程序即使在重负载下也能保持响应速度和可靠性。
Amazon Bedrock 中的推理配置文件(Inference profile)定义了一个基础模型 (FM) 以及它可以路由模型调用请求的一个或多个区域。推理配置文件基于两个关键概念运行:
- 源区域 (Source Region) – 提交 API 请求的区域
- 目标区域 (Destination Region) – Amazon Bedrock 可以将请求路由以进行推理的区域
跨区域推理通过安全的 AWS 网络运行,并对传输中和静态存储中的数据进行端到端加密。当客户从源区域提交推理请求时,跨区域推理会通过 Amazon Bedrock 管理的网络智能地将请求路由到为推理配置文件配置的目标区域之一。
关键区别在于,虽然推理处理(瞬态计算)可能发生在另一个区域,但静态数据——包括日志、知识库和存储的配置——旨在保留在您的源区域内。请求通过 Bedrock 管理的 AWS 全球网络传输。跨区域推理期间传输的数据是加密的,并保留在安全的 AWS 网络内。无论哪个区域处理请求,敏感信息都旨在在整个推理过程中受到保护,并且加密后的响应会被返回到源区域中的您的应用程序。
Amazon Bedrock 提供两种类型的跨区域推理配置文件:
- 地理跨区域推理 (Geographic cross-Region inference):Amazon Bedrock 自动在定义的地理区域(美国、欧盟、澳大利亚和日本)内选择最佳的商业区域来处理您的推理请求。(推荐用于具有数据驻留需求的使用案例。)
- 全局跨区域推理 (Global cross-Region inference):全局跨区域推理通过允许将推理请求路由到全球受支持的商业区域,进一步增强了跨区域推理,从而优化可用资源并实现更高的模型吞吐量。(推荐用于没有数据驻留需求的使用案例)。
监控和日志记录
通过从 af-south-1 进行全局跨区域推理,您的请求可以在 AWS 全球基础设施的任何地方进行处理。但是,Amazon CloudWatch 和 AWS CloudTrail 日志记录在 af-south-1 中,通过将您的记录保留在一个位置,简化了监控工作。
数据安全性和合规性
安全性和合规性是 AWS 与每个客户之间的共同责任。全局跨区域推理旨在维护数据安全。跨区域推理期间传输的数据由 Amazon Bedrock 加密,并旨在保留在安全的 AWS 网络内。无论哪个区域处理请求,敏感信息在整个推理过程中都保持受保护。客户有责任正确配置其应用程序和 IAM 策略,并评估全局跨区域推理是否符合其特定的安全和合规性要求。由于全局跨区域推理将请求路由到全球受支持的商业区域,因此您应评估此方法是否符合您的监管义务,包括《个人信息保护法》(POPIA) 和其他特定行业要求。我们建议咨询您的法律和合规团队,以确定适合您特定用例的适当方法。
实施全局跨区域推理
要使用 Claude 4.5 模型的全局跨区域推理,开发人员必须完成以下关键步骤:
- 使用全局推理配置文件 ID – 在向 Amazon Bedrock 发出 API 调用时,指定全局 Claude 4.5 模型的推理配置文件 ID(例如,
global.anthropic.claude-opus-4-5-20251101-v1:0)。这适用于InvokeModel和ConverseAPI。 - 配置 IAM 权限 – 授予访问潜在目标区域中推理配置文件和 FM 的 IAM 权限。在下一节中,我们将提供更多详细信息。您还可以阅读有关推理配置先决条件的更多信息。
实施 Claude 4.5 模型的全局跨区域推理非常简单,只需对现有应用程序代码进行少量更改。以下是如何在 Python 中更新代码的示例:
import boto3
import json
# 连接到您部署区域的 Bedrock
bedrock = boto3.client('bedrock-runtime', region_name='af-south-1')
# 使用 Opus 4.5 的全局跨区域推理推理配置文件
model_id = "global.anthropic.claude-opus-4-5-20251101-v1:0"
# 发起请求 - 全局 CRIS 会自动路由到全球最佳 AWS 区域
response = bedrock.converse(
messages=[
{
"role": "user",
"content": [{"text": "Explain cloud computing in 2 sentences."}]
}
],
modelId=model_id,
)
print("Response:", response['output']['message']['content'][0]['text'])
print("Token usage:", response['usage'])
print("Total tokens:", response['usage']['totalTokens'])
如果您使用的是 Amazon Bedrock InvokeModel API,则可以通过更改模型 ID 快速切换到不同的模型,如调用模型代码示例中所述。
全局跨区域推理的 IAM 策略要求
全局跨区域推理需要三个特定的权限,因为路由机制跨越多个范围:您的区域推理配置文件、您源区域中的 FM 定义以及全局级别的 FM 定义。没有这三个,服务就无法解析模型、验证您的访问权限并将请求路由到跨区域。访问 Anthropic 模型需要在使用前提交用例。此提交可以在单个账户级别或通过组织的管理账户集中完成。要提交您的用例,请使用 PutUseCaseForModelAccess API 或在 Amazon Bedrock 的 AWS 管理控制台中选择 Anthropic 模型。需要 AWS Marketplace 权限才能启用模型,并且可以根据支持的情况限定于特定的产品 ID。
以下示例 IAM 策略提供了细粒度控制:
{
"Version": "2012-10-17",
"Statement": [
{
"Sid": "GrantGlobalCrisInferenceProfileRegionAccess",
"Effect": "Allow",
"Action": "bedrock:InvokeModel",
"Resource": [
"arn:aws:bedrock:af-south-1:<ACCOUNT>:inference-profile/global.<MODEL NAME>"
],
"Condition": {
"StringEquals": {
"aws:RequestedRegion": "af-south-1"
}
}
},
{
"Sid": "GrantGlobalCrisInferenceProfileInRegionModelAccess",
"Effect": "Allow",
"Action": "bedrock:InvokeModel",
"Resource": [
"arn:aws:bedrock:af-south-1::foundation-model/<MODEL NAME>"
],
"Condition": {
"StringEquals": {
"aws:RequestedRegion": "af-south-1",
"bedrock:InferenceProfileArn": "arn:aws:bedrock:af-south-1:<ACCOUNT>:inference-profile/global.<MODEL NAME>"
}
}
},
{
"Sid": "GrantGlobalCrisInferenceProfileGlobalModelAccess",
"Effect": "Allow",
"Action": "bedrock:InvokeModel",
"Resource": [
"arn:aws:bedrock:::foundation-model/<MODEL NAME> "
],
"Condition": {
"StringEquals": {
"aws:RequestedRegion": "unspecified",
"bedrock:InferenceProfileArn": "arn:aws:bedrock:af-south-1:<ACCOUNT>:inference-profile/global.<MODEL NAME>"
}
}
}
]
}
该策略包含三个部分。第一个语句授予对 af-south-1 中区域推理配置文件的访问权限,以便用户可以从南非调用指定的全局跨区域推理配置文件。第二个语句提供对区域 FM 资源的访问权限,服务需要该权限才能在区域上下文中了解请求的模型。第三个语句授予对全局 FM 资源的访问权限,这使得跨区域路由能够正常工作。
在实施这些策略时,请验证是否包含了三个 ARN:
- 区域推理配置文件 ARN 遵循模式
arn:aws:bedrock:af-south-1:<ACCOUNT>:inference-profile/global.<MODEL NAME>。这授予对源区域中全局推理配置文件的访问权限。 - 区域 FM 使用
arn:aws:bedrock:af-south-1::foundation-model/<MODEL NAME>。这授予对af-south-1中模型定义的访问权限。 - 全局 FM 需要
arn:aws:bedrock:::foundation-model/<MODEL NAME>。这授予对跨区域模型的访问权限——请注意,此 ARN 故意省略了区域和账户部分,以便实现跨区域路由。
全局 FM ARN 没有指定区域或账户,这是故意的,也是跨区域功能所必需的。
关于服务控制策略 (SCPs) 的重要提示:如果您的组织使用特定于区域的 SCP,请验证 "aws:RequestedRegion": "unspecified" 是否未包含在拒绝区域列表中,因为全局跨区域推理请求使用此区域值。使用限制性 SCP(除明确批准的区域外拒绝多个区域)的组织需要明确允许此值才能启用全局跨区域推理功能。
如果您的组织认为由于数据驻留或合规性要求,全局跨区域推理不适用于某些工作负载,您可以通过以下两种方法之一禁用它:
- 移除 IAM 权限 – 移除一个或多个所需的三条 IAM 策略语句。因为全局跨区域推理需要这三个语句才能工作,移除其中一个语句会导致对全局推理配置文件的请求返回“访问被拒绝”错误。
- 实施显式拒绝策略 – 创建一个拒绝策略,通过条件
"aws:RequestedRegion": "unspecified"专门针对全局跨区域推理配置文件。这种方法清晰地记录了您的安全意图,并且显式拒绝会优先于(即使之后意外添加了允许策略)。
请求全局跨区域推理的请求限制增加
当从 af-south-1 使用全局跨区域推理配置文件时,您可以通过 AWS 服务配额控制台请求配额增加。由于这是一个全局限制,请求必须在您的源区域(af-south-1)中提出。
在请求增加之前,请使用您模型的消耗速率计算所需的配额。对于 Sonnet 4.5 和 Haiku 4.5,输出令牌具有五倍的消耗速率——每个输出令牌会消耗配额中的 5 个令牌——而输入令牌保持 1:1 的比例。每个请求的总令牌消耗量为:
输入令牌数 + 缓存写入输入令牌 + (输出令牌数 x 消耗速率)
要请求增加限制:
- 登录到
af-south-1中的AWS 服务配额控制台。 - 在导航窗格中,选择 AWS 服务。
- 找到并选择 Amazon Bedrock。
- 搜索特定的全局跨区域推理配额(例如,Claude Sonnet 4.5 V1 的每分钟全局跨区域模型推理令牌)。
- 选择配额,然后选择请求账户级别的增加。
- 输入您所需的配额值并提交请求。
结论
全局跨区域推理还将 Claude 4.5 模型家族带到了开普敦区域,使您能够访问其他区域中可用的相同功能。您可以在本地区域使用 Sonnet 4.5、Haiku 4.5 和 Opus 4.5 进行构建,而路由基础设施会透明地处理分发。要开始使用,请更新您的应用程序以使用全局推理配置文件 ID,配置适当的 IAM 权限,并在您的应用程序使用全球 AWS 基础设施时监控性能。请访问 Amazon Bedrock 控制台,探索全局跨区域推理如何增强您的 AI 应用程序。有关更多信息,请参阅以下资源:
关于作者
Christian Kamwangala 是 AWS 的 AI/ML 和生成式 AI 解决方案架构师专家,他与企业客户合作设计、优化和部署生产级 AI 解决方案。他的专业知识在于推理优化——平衡大规模部署的性能、成本和延迟。在工作之余,他喜欢探索自然并与家人朋友共度时光。
Jarryd Konar 是 AWS 驻开普敦、南非的高级云支持工程师。他专注于帮助客户在云中设计、优化和运营 AI/ML 和生成式 AI 工作负载。Jarryd 与客户密切合作,在整个 AWS AI/ML 服务组合中实施最佳实践,将复杂的技术要求转化为实用、可扩展的解决方案。他热衷于构建支持客户和团队的可持续和安全的 AI 系统。
Melanie Li 博士是 AWS 驻悉尼、澳大利亚的高级生成式 AI 解决方案架构师专家,她的重点是与客户合作,使用最先进的 AI/ML 工具构建解决方案。她一直积极参与 APJ 地区的多个生成式 AI 项目,利用大型语言模型 (LLM) 的强大功能。在加入 AWS 之前,李博士曾在金融和零售行业担任数据科学家职位。
Saurabh Trikande 是 Amazon Bedrock 和 Amazon SageMaker 推理的高级产品经理。他热衷于与客户和合作伙伴合作,目标是实现 AI 的民主化。他专注于部署复杂 AI 应用程序、使用多租户模型进行推理、成本优化以及使生成式 AI 模型部署更容易等核心挑战。在空闲时间,Saurabh 喜欢徒步旅行、学习创新技术、关注 TechCrunch 并与家人共度时光。
Jared Dean 是 AWS 的首席 AI/ML 解决方案架构师。Jared 与跨行业的客户合作开发可提高效率的机器学习应用程序。他对所有与 AI、技术和烧烤相关的事物都感兴趣。
🚀 想要体验更好更全面的AI调用?
欢迎使用青云聚合API,约为官网价格的十分之一,支持300+全球最新模型,以及全球各种生图生视频模型,无需翻墙高速稳定,文档丰富,小白也可以简单操作。
评论区