Amazon SageMaker AI 端点增强指标：更深入的洞察，实现更优性能-青云TOP-AI综合资源站平台|青云聚合API大模型调用平台|全网AI资源导航平台

📢 转载信息

原文链接：https://aws.amazon.com/blogs/machine-learning/enhanced-metrics-for-amazon-sagemaker-ai-endpoints-deeper-visibility-for-better-performance/

原文作者：Dan Ferguson and Marc Karp

在生产环境中运行机器学习（ML）模型，不仅仅需要基础设施的弹性和扩展效率，您还需要近乎持续的性能和资源利用率可见性。当延迟增加、调用失败或资源受限时，您需要立即获得洞察，以便在问题影响客户之前进行诊断和解决。

此前，Amazon SageMaker AI 提供的 Amazon CloudWatch 指标虽然能够提供有用的高层级可见性，但它们是跨所有实例和容器的聚合指标。尽管对整体健康监控有帮助，但这些聚合指标掩盖了单个实例和容器的细节，使得定位瓶颈、优化资源利用率或进行有效故障排查变得困难。

现在，SageMaker AI 端点支持带有可配置发布频率的增强指标。此次发布提供了监控、排查和优化生产端点所需的精细化可见性。借助 SageMaker AI 端点的增强指标，我们现在可以深入研究容器级和实例级指标，从而实现以下功能：

查看特定模型副本的指标：通过推理组件（Inference Components）在 SageMaker AI 端点部署多个模型副本时，查看每个模型副本的并发请求、GPU 和 CPU 利用率等指标，有助于诊断问题并洞察生产工作负载的流量模式。
查看每个模型的成本：在多个模型共享同一基础设施的情况下，计算每个模型的真实成本可能很复杂。通过增强指标，我们现在可以通过跟踪推理组件级别的 GPU 分配来计算并关联每个模型的成本。

新功能介绍

增强指标引入了两类具有多种粒度的指标：

EC2 资源利用率指标：在实例和容器级别跟踪 CPU、GPU 和内存消耗。
调用指标：通过精确的维度监控请求模式、错误、延迟和并发性。

实例级指标：适用于所有端点

每个 SageMaker AI 端点现在都可以访问实例级指标，让您能够了解端点中每个 Amazon EC2 实例上发生的情况。

资源利用率

跟踪每个主机的 CPU 利用率、内存消耗以及每块 GPU 的利用率和内存使用情况。当出现问题时，您可以立即识别出需要关注的具体实例。对于基于加速器的实例，您将看到每个加速器的利用率指标。

调用指标

通过深入到实例级别来跟踪请求模式、错误和延迟。利用精确的维度监控调用、4XX/5XX 错误、模型延迟和开销延迟，帮助您精准定位出现问题的实例。这些指标有助于诊断流量分配不均、识别容易出错的实例，并将性能问题与特定资源关联起来。

容器级指标：针对推理组件

如果您正在使用推理组件在单个端点上托管多个模型，现在可以获得容器级的可见性。

资源利用率

监控每个容器的资源消耗。查看每个模型副本的 CPU、内存、GPU 利用率和 GPU 内存使用情况。这有助于您了解哪些推理组件模型副本正在消耗资源，并在多租户场景中保持公平分配，同时识别性能出现问题的容器。

配置增强指标

只需在创建端点配置时添加一个参数，即可启用增强指标：

response = sagemaker_client.create_endpoint_config(
    EndpointConfigName='my-config',
    ProductionVariants=[{
        'VariantName': 'AllTraffic',
        'ModelName': 'my-model',
        'InstanceType': 'ml.g6.12xlarge',
        'InitialInstanceCount': 2
    }],
    MetricsConfig={
        'EnableEnhancedMetrics': True,
        'MetricsPublishFrequencyInSeconds': 10, # 默认 60s
    })

创建操作仪表板

Operational Dashboards enabled by enhanced metrics

您可以利用随附的笔记本以编程方式创建结合这些指标的 CloudWatch 仪表板，实现集群级资源利用率监控、模型成本追踪等可视化功能。

🚀 想要体验更好更全面的AI调用？

欢迎使用青云聚合API，约为官网价格的十分之一，支持300+全球最新模型，以及全球各种生图生视频模型，无需翻墙高速稳定，文档丰富，小白也可以简单操作。

目录CONTENT

Amazon SageMaker AI 端点增强指标：更深入的洞察，实现更优性能

新功能介绍

实例级指标：适用于所有端点

资源利用率

调用指标

容器级指标：针对推理组件

资源利用率

配置增强指标

创建操作仪表板

评论区