目 录CONTENT

文章目录

Amazon SageMaker AI 端点增强指标:更深入的洞察,实现更优性能

Administrator
2026-03-25 / 0 评论 / 0 点赞 / 0 阅读 / 0 字

📢 转载信息

原文链接:https://aws.amazon.com/blogs/machine-learning/enhanced-metrics-for-amazon-sagemaker-ai-endpoints-deeper-visibility-for-better-performance/

原文作者:Dan Ferguson and Marc Karp


在生产环境中运行机器学习(ML)模型,不仅仅需要基础设施的弹性和扩展效率,您还需要近乎持续的性能和资源利用率可见性。当延迟增加、调用失败或资源受限时,您需要立即获得洞察,以便在问题影响客户之前进行诊断和解决。

此前,Amazon SageMaker AI 提供的 Amazon CloudWatch 指标虽然能够提供有用的高层级可见性,但它们是跨所有实例和容器的聚合指标。尽管对整体健康监控有帮助,但这些聚合指标掩盖了单个实例和容器的细节,使得定位瓶颈、优化资源利用率或进行有效故障排查变得困难。

现在,SageMaker AI 端点支持带有可配置发布频率的增强指标。此次发布提供了监控、排查和优化生产端点所需的精细化可见性。借助 SageMaker AI 端点的增强指标,我们现在可以深入研究容器级和实例级指标,从而实现以下功能:

  1. 查看特定模型副本的指标:通过推理组件(Inference Components)在 SageMaker AI 端点部署多个模型副本时,查看每个模型副本的并发请求、GPU 和 CPU 利用率等指标,有助于诊断问题并洞察生产工作负载的流量模式。
  2. 查看每个模型的成本:在多个模型共享同一基础设施的情况下,计算每个模型的真实成本可能很复杂。通过增强指标,我们现在可以通过跟踪推理组件级别的 GPU 分配来计算并关联每个模型的成本。

新功能介绍

增强指标引入了两类具有多种粒度的指标:

  • EC2 资源利用率指标:在实例和容器级别跟踪 CPU、GPU 和内存消耗。
  • 调用指标:通过精确的维度监控请求模式、错误、延迟和并发性。

实例级指标:适用于所有端点

每个 SageMaker AI 端点现在都可以访问实例级指标,让您能够了解端点中每个 Amazon EC2 实例上发生的情况。

资源利用率

跟踪每个主机的 CPU 利用率、内存消耗以及每块 GPU 的利用率和内存使用情况。当出现问题时,您可以立即识别出需要关注的具体实例。对于基于加速器的实例,您将看到每个加速器的利用率指标。

调用指标

通过深入到实例级别来跟踪请求模式、错误和延迟。利用精确的维度监控调用、4XX/5XX 错误、模型延迟和开销延迟,帮助您精准定位出现问题的实例。这些指标有助于诊断流量分配不均、识别容易出错的实例,并将性能问题与特定资源关联起来。

容器级指标:针对推理组件

如果您正在使用推理组件在单个端点上托管多个模型,现在可以获得容器级的可见性。

资源利用率

监控每个容器的资源消耗。查看每个模型副本的 CPU、内存、GPU 利用率和 GPU 内存使用情况。这有助于您了解哪些推理组件模型副本正在消耗资源,并在多租户场景中保持公平分配,同时识别性能出现问题的容器。

配置增强指标

只需在创建端点配置时添加一个参数,即可启用增强指标:

response = sagemaker_client.create_endpoint_config(
    EndpointConfigName='my-config',
    ProductionVariants=[{
        'VariantName': 'AllTraffic',
        'ModelName': 'my-model',
        'InstanceType': 'ml.g6.12xlarge',
        'InitialInstanceCount': 2
    }],
    MetricsConfig={
        'EnableEnhancedMetrics': True,
        'MetricsPublishFrequencyInSeconds': 10, # 默认 60s
    })

创建操作仪表板

Operational Dashboards enabled by enhanced metrics

您可以利用随附的笔记本以编程方式创建结合这些指标的 CloudWatch 仪表板,实现集群级资源利用率监控、模型成本追踪等可视化功能。




🚀 想要体验更好更全面的AI调用?

欢迎使用青云聚合API,约为官网价格的十分之一,支持300+全球最新模型,以及全球各种生图生视频模型,无需翻墙高速稳定,文档丰富,小白也可以简单操作。

0

评论区