📢 转载信息
原文作者:Dan Ferguson, Deepti Ragha, Dmitry Soldatkin, Lokeshwaran Ravi, Ram Vegiraju, and Sadaf Fardeen
在2025年,Amazon SageMaker AI 在四个维度上实现了核心基础设施的显著改进:容量、价格性能、可观测性和可用性。在本系列文章中,我们将讨论这些改进及其带来的益处。在第一部分中,我们将讨论通过发布灵活训练计划 (Flexible Training Plans) 带来的容量改进,并介绍推理工作负载的价格性能提升。在第二部分中,我们将讨论在可观测性、模型定制和模型托管方面所做的增强。
SageMaker 的灵活训练计划
SageMaker AI 训练计划现在支持推理端点,将最初专为训练工作负载设计的强大容量预留功能扩展到了应对推理部署中对 GPU 可用性的关键挑战。部署大型语言模型 (LLMs) 进行推理需要可靠的 GPU 容量,尤其是在关键评估期间、有限时间的生产测试或可预测的突发工作负载中。容量限制可能会延迟部署并影响应用程序性能,特别是在按需容量变得不可预测的峰值时段。训练计划可以通过在指定时间段内预留计算容量来帮助解决此问题,从而在团队最需要时提供可预测的 GPU 可用性。
预留工作流程旨在实现简单性和灵活性。您首先需要搜索符合您特定要求的可用容量产品——选择实例类型、数量、持续时间和期望的时间窗口。当您找到合适的方案后,可以创建一个预留,该预留会生成一个 Amazon 资源名称 (ARN),作为您获得保证容量的关键。预付的、透明的定价模式有助于支持准确的预算规划,同时最大程度地减少对基础设施可用性的担忧,因此团队可以将精力集中在评估指标和模型性能上,而不是担心在需要时容量是否可用。
在整个预留生命周期中,团队可以保持操作灵活性来管理其端点,以适应不断变化的需求。您可以在保持相同预留容量的同时更新端点以使用新的模型版本,从而在评估期间进行迭代测试和完善。可扩展性功能可帮助团队在预留限制内调整实例数量,支持初始部署保守但需要更高吞吐量测试的场景。这种灵活性有助于确保团队不会被局限于僵化的基础设施决策,同时仍然能够在关键时间窗口内受益于预留的容量。
通过支持端点更新、可扩展性功能和无缝的容量管理,训练计划可以帮助您控制有时限的推理工作负载的 GPU 可用性和成本。无论您是运行竞争性模型基准测试以选择性能最佳的变体、进行有限时间的 A/B 测试以验证模型改进,还是在产品发布期间处理可预测的流量高峰,面向推理端点的训练计划都能帮助团队获得所需的容量保证,并提供透明的预付定价。这种方法对于那些进行为期一周或一个月的评估项目的数据科学团队尤其有价值,因为提前预留特定 GPU 实例的能力可以最大限度地减少按需可用性的不确定性,并实现更可预测的项目时间和预算。
欲了解更多信息,请参阅Amazon SageMaker AI 现已支持推理的灵活训练计划容量。
价格性能
2025 年对 SageMaker AI 所做的增强通过四项关键功能帮助优化推理经济性。灵活训练计划扩展到具有透明预付定价的推理端点。推理组件增加了多可用区 (Multi-AZ) 可用性以及扩展期间的并行模型副本放置,有助于加快部署。EAGLE-3 推测解码在推理请求上实现了更高的吞吐量改进。动态多适配器推理实现了 LoRA 适配器的按需加载。
推理组件的改进
只有当生成模型在生产环境中提供预测时,它们才能开始创造价值。随着应用程序的扩展,推理基础设施必须与模型本身一样具有动态性和可靠性。这就是 SageMaker AI 推理组件发挥作用的地方。推理组件提供了一种在端点内管理模型推理的模块化方式。每个推理组件代表一个自包含的计算、内存和模型配置单元,可以独立创建、更新和扩展。这种设计有助于您以更大的灵活性操作生产端点。您可以部署多个模型、快速调整容量,并在不重新部署整个端点的情况下安全地推出更新。对于运行实时或高吞吐量应用程序的团队来说,推理组件可以为推理工作流程带来精细的控制。在接下来的部分中,我们将回顾 SageMaker AI 推理组件的三个主要增强功能,使它们在生产环境中更加强大。这些更新增加了 Multi-AZ 高可用性、多租户工作负载的受控并发性以及用于更快响应流量激增的并行扩展。总而言之,它们有助于使大规模运行 AI 更加弹性、可预测和高效。
通过 Multi-AZ 高可用性构建弹性
生产系统面临着相同的现实:故障总是会发生。单个硬件故障、网络问题或可用区中断都可能中断推理流量并影响用户体验。现在,SageMaker AI 推理组件会自动将工作负载分布到多个可用区。您可以为每个可用区运行多个推理组件副本,SageMaker AI 会智能地将流量路由到健康且有可用容量的实例。这种分布在部署的每一层都增加了容错能力。
Multi-AZ 高可用性提供了以下好处:
- 通过跨可用区分散推理工作负载,最大限度地减少单点故障
- 在出现问题时自动故障转移到健康的实例
- 保持高正常运行时间以满足严格的 SLA 要求
- 通过灵活的部署模式实现成本与弹性的平衡
例如,运行实时欺诈检测的金融服务公司可以从该功能中受益。通过将推理组件部署到三个可用区,如果一个可用区离线,流量可以无缝重定向到剩余的可用区,从而在可靠性至关重要时有助于不间断地进行欺诈检测。
并行扩展和 NVMe 缓存
生产中的流量模式很少是稳定的。前一刻您的系统很安静;下一刻,它就被请求淹没了。以前,扩展推理组件是顺序发生的——每个新模型副本都在前一个副本初始化后才开始。在高峰期,这种顺序过程可能会增加几分钟的延迟。借助并行扩展,当实例和所需资源可用时,SageMaker AI 现在可以同时部署多个推理组件副本。这有助于缩短响应流量激增所需的时间,并提高对可变工作负载的响应能力。例如,如果一个实例需要三个模型副本,它们现在会并行部署,而不是互相等待。并行扩展有助于加速模型副本在推理组件上的部署,但不会加速流量超过预置容量时的模型扩展速度。NVMe 缓存通过缓存模型工件和映像,有助于加速已预置推理组件的模型扩展。NVMe 缓存减少扩展时间的能力有助于在流量激增期间减少推理延迟,通过更快的缩减降低闲置成本,并为服务不可预测或波动的(volatile)工作负载提供更大的弹性。
EAGLE-3
SageMaker AI 引入了(基于 Extrapolation Algorithm for Greater Language-model Efficiency (EAGLE) 的)自适应推测解码,以帮助加速生成式 AI 推理。这项增强功能支持六种模型架构,并帮助您使用 SageMaker 提供的或您自己的应用程序特定数据进行优化,以获得高度自适应、针对工作负载特定的结果。该解决方案简化了从优化作业创建到部署的工作流程,使得无需影响生成质量即可无缝地大规模交付低延迟的生成式 AI 应用程序。EAGLE 通过直接从模型的隐藏层预测未来标记(token)而不是依赖外部草稿模型来工作,从而实现更准确的预测和更少的拒绝。SageMaker AI 会根据模型架构自动在 EAGLE-2 和 EAGLE-3 之间进行选择,初始支持 LlamaForCausalLM、Qwen3ForCausalLM、Qwen3MoeForCausalLM、Qwen2ForCausalLM、GptOssForCausalLM (EAGLE-3) 和 Qwen3NextForCausalLM (EAGLE-2)。您可以从头开始训练 EAGLE 模型、重新训练现有模型,或使用 SageMaker JumpStart 中的预训练模型,并可以灵活地使用通过 Data Capture 等功能收集的自定义数据集来迭代改进性能。优化工作流程与现有的 SageMaker AI 基础设施通过熟悉的 API (create_model, create_endpoint_config, create_endpoint) 无缝集成,并支持广泛使用的训练数据格式,包括 ShareGPT 以及 OpenAI 的聊天和补全(completions)。优化作业期间会自动生成基准测试结果,从而清晰地显示 TTFT(Time to First Token)和吞吐量等指标的性能提升,经过训练的 EAGLE 模型相比基础模型和仅在内置数据集上训练的 EAGLE 模型显示出显著的性能提升。
要运行 EAGLE-3 优化作业,请在 AWS 命令行界面 (AWS CLI) 中运行以下命令:
aws sagemaker --region us-west-2 create-optimization-job \ --optimization-job-name <job-name> \ --account-id <account-id> \ --deployment-instance-type ml.p5.48xlarge \ --max-instance-count 10 \ --model-source '{ "SageMakerModel": { "ModelName": "Created Model name" } }' \ --optimization-configs'{ "ModelSpeculativeDecodingConfig": { "Technique": "EAGLE", "TrainingDataSource": { "S3DataType": "S3Prefix", "S3Uri": "Enter custom train data location" } } }' \ --output-config '{ "S3OutputLocation": "Enter optimization output location" }' \ --stopping-condition '{"MaxRuntimeInSeconds": 432000}' \ --role-arn "Enter Execution Role ARN"
有关更多详细信息,请参阅Amazon SageMaker AI 推出基于 EAGLE 的自适应推测解码以加速生成式 AI 推理。
SageMaker AI 推理上的动态多适配器推理
SageMaker AI 增强了在 re:Invent 2024 上推出的高效多适配器推理功能,现在该功能支持在推理调用期间动态加载和卸载 LoRA 适配器,而不是在端点创建时固定它们。此增强功能有助于优化按需模型托管场景的资源利用率。
以前,适配器会在 CreateInferenceComponent API 调用期间下载到磁盘并加载到内存中。通过动态加载,适配器使用轻量级的同步 CreateInferenceComponent API 进行注册,然后仅在首次调用时下载并加载到内存中。这种方法支持您可以在单个端点上注册数千个微调适配器的用例,同时保持低延迟推理。
系统实现了智能内存管理,在资源受限时逐出最不常用的模型。当内存达到容量(由 SAGEMAKER_MAX_NUMBER_OF_ADAPTERS_IN_MEMORY 环境变量控制)时,系统会自动卸载不活动的适配器,以为新请求的适配器腾出空间。同样,当磁盘空间受限时,最近最少使用的适配器将从存储中清除。这种多层缓存策略有助于跨 CPU、GPU 内存和磁盘实现最佳资源利用率。
为了实现安全和合规性对齐,您可以使用 DeleteInferenceComponent API 明确删除适配器。删除后,SageMaker 会将适配器从基础推理组件容器中卸载并从实例的磁盘中删除,从而有助于客户数据的完全清理。删除过程会异步完成并带有自动重试功能,让您在满足严格数据保留要求的同时控制适配器生命周期。
这种动态适配器加载功能支持 SageMaker AI 的无服务器模型定制功能,该功能可帮助您使用监督微调、强化学习和直接偏好优化等技术来微调 Amazon Nova、DeepSeek、Llama 和 Qwen 等流行 AI 模型。当您通过无服务器定制界面完成微调后,输出的 LoRA 适配器权重会无缝流入部署——您可以使用多适配器推理组件部署到 SageMaker AI 端点。训练配方中的托管配置会自动包含适当的动态加载设置,有助于确保定制模型可以高效部署,而无需您在端点创建时管理基础结构或加载适配器。
以下步骤说明了您如何在实践中利用此功能:
- 使用基础模型创建基础推理组件:
import boto3
sagemaker = boto3.client('sagemaker')
# Create base inference component with foundation model
response = sagemaker.create_inference_component(
InferenceComponentName='llama-base-ic',
EndpointName='my-endpoint',
Specification={
'Container': {
'Image': 'your-container-image',
'Environment': {
'SAGEMAKER_MAX_NUMBER_OF_ADAPTERS_IN_MEMORY': '10'
}
},
'ComputeResourceRequirements': {
'NumberOfAcceleratorDevicesRequired': 2,
'MinMemoryRequiredInMb': 16384
}
}
)
- 注册您的 LoRA 适配器:
# Register adapter - completes in < 1 second
response = sagemaker.create_inference_component(
InferenceComponentName='my-custom-adapter',
EndpointName='my-endpoint',
Specification={
'BaseInferenceComponentName': 'llama-base-ic',
'Container': {
'ArtifactUrl': 's3://amzn-s3-demo-bucket/adapters/customer-support/'
}
}
)
- 调用您的适配器(它会在首次使用时自动加载):
runtime = boto3.client('sagemaker-runtime')
# Invoke with adapter - loads into memory on first call
response = runtime.invoke_endpoint(
EndpointName='my-endpoint',
InferenceComponentName='llama-base-ic',
TargetModel='s3://amzn-s3-demo-bucket/adapters/customer-support/',
ContentType='application/json',
Body=json.dumps({'inputs': 'Your prompt here'})
)
- 在不再需要时删除适配器:
sagemaker.delete_inference_component(
InferenceComponentName='my-custom-adapter'
)
这种动态加载功能与 SageMaker 现有的推理基础设施无缝集成,支持相同的基础模型,并保持与标准 InvokeEndpoint API 的兼容性。通过将适配器注册与资源分配解耦,您现在可以更具成本效益地部署和管理更多 LoRA 适配器,仅为您主动提供推理服务的计算资源付费。
结论
2025 年的 SageMaker AI 增强功能代表着使生成式 AI 推理在生产工作负载中更具可访问性、可靠性和成本效益方面取得了重大飞跃。通过使灵活训练计划支持推理端点,您可以精确获得所需的 GPU 容量——无论是用于关键模型评估、有限时间的测试,还是处理流量高峰。推理组件引入的多可用区高可用性、受控并发性和带有 NVMe 缓存的并行扩展,有助于确保生产部署能够快速扩展,同时跨可用区保持弹性。EAGLE-3 的自适应推测解码在不牺牲输出质量的情况下提高了吞吐量,而动态多适配器推理则帮助团队在单个端点上更高效地管理更多微调的 LoRA 适配器。这些功能共同帮助降低了大规模运行 AI 的操作复杂性和基础设施成本,使团队能够专注于通过模型交付价值,而不是管理底层基础设施。
这些改进直接解决了当今 AI 实践者面临的一些最紧迫的挑战:确保可靠的计算容量、在规模上实现低延迟推理,以及管理多模型部署日益增长的复杂性。通过结合透明的容量预留、智能资源管理以及有助于实现可衡量吞吐量提升的性能优化,SageMaker AI 帮助组织自信地部署生成式 AI 应用程序。模型定制和部署之间的无缝集成——微调后的适配器直接从训练流向生产托管——进一步加速了从实验到生产的历程。
准备好加速您的生成式 AI 推理工作负载了吗?请探索面向推理端点的灵活训练计划以确保您下一轮评估周期的 GPU 容量,实施 EAGLE-3 推测解码以帮助提高现有部署的吞吐量,或者使用动态多适配器推理更高效地服务于定制模型。请参阅Amazon SageMaker AI 文档开始使用,并请继续关注本系列的第二部分,我们将深入探讨可观测性和模型定制的改进。在评论区分享您的经验和问题——我们很想听听这些功能如何改变您的 AI 工作负载。
🚀 想要体验更好更全面的AI调用?
欢迎使用青云聚合API,约为官网价格的十分之一,支持300+全球最新模型,以及全球各种生图生视频模型,无需翻墙高速稳定,文档丰富,小白也可以简单操作。
评论区