目 录CONTENT

文章目录

AWS HyperPod 现在支持多实例 GPU,以最大化生成式 AI 任务的 GPU 利用率

Administrator
2025-11-26 / 0 评论 / 0 点赞 / 0 阅读 / 0 字

📢 转载信息

原文链接:https://aws.amazon.com/blogs/machine-learning/hyperpod-now-supports-multi-instance-gpu-to-maximize-gpu-utilization-for-generative-ai-tasks/

原文作者:Amazon Web Services (AWS) 博客


AWS HyperPod 是一项专为大规模机器学习(ML)训练而设计的创新基础设施解决方案,可帮助客户以最高的速度和最低的成本训练大型语言模型(LLM)和其他生成式 AI 模型。今天,我们很高兴地宣布,AWS HyperPod 现在支持多实例 GPU (MIG),从而为训练和推理工作负载提供更大的灵活性和更高的 GPU 利用率。


MIG 简介

NVIDIA MIG 允许用户将单个 A100 或 H100 GPU 划分为最多七个完全隔离的 GPU 实例。每个实例都具有专用的内存、缓存和计算资源,这些资源是完全独立的,以便在不同用户之间进行更精细的资源隔离和共享。

在生成式 AI 时代,客户面临着一个关键挑战:如何高效地管理 GPU 资源,特别是在训练模型和进行推理时。虽然大型模型训练需要大量的 GPU 资源,但许多推理任务或中小型模型训练任务无法完全利用单个高性能 GPU 的全部能力,导致资源浪费。


HyperPod 支持 MIG 的价值

通过将 MIG 集成到 HyperPod 中,客户现在可以在单个 HyperPod 集群中混合使用全尺寸 GPU 和 MIG 实例。这带来了多项优势:

  • 最大化 GPU 利用率:对于推理工作负载或较小的训练任务,客户可以使用 MIG 实例,从而提高 GPU 的整体利用率,降低成本。
  • 更细粒度的资源分配:MIG 提供了更细粒度的 GPU 资源分配,使客户能够更精确地匹配工作负载需求与可用资源。
  • 提高集群密度:在相同的物理空间内,MIG 允许客户运行更多独立的推理服务或更小的训练任务,从而提高集群密度。

HyperPod 最初设计用于大规模训练,通过集成 MIG,它现在可以更好地服务于整个生成式 AI 工作流,从超大规模的预训练到高效的微调和低延迟推理。


架构演进:从训练到推理

AWS HyperPod 基于 AWS EC2 UltraClusters 架构构建,旨在提供前所未有的规模和性能。HyperPod 提供了专用的高带宽、低延迟网络,如 EFA(Elastic Fabric Adapter)和 AWS Trainium/Inferentia 芯片的集成支持,以优化大规模 ML 任务。

过去,HyperPod 的优势主要体现在其能够快速扩展到数千个 GPU 进行 LLM 训练。现在,通过 MIG 支持,HyperPod 扩展了其适用范围,成为一个统一的平台,可以高效地处理所有阶段的生成式 AI 工作负载。

HyperPod 支持多实例 GPU

如何使用 MIG 与 HyperPod 结合

客户可以使用标准的 NVIDIA 工具和 AWS 提供的工具来配置和利用 MIG 实例。这包括使用 NVIDIA 驱动程序、CUDA 工具包以及与 AWS 机器学习服务(如 Amazon SageMaker)的集成。

例如,一个拥有 8 个 A100 GPU 的 HyperPod 节点,现在可以配置为 1 个全尺寸 GPU 供大模型训练使用,其余 7 个 GPU 则被划分为 49 个 MIG 实例,专门用于部署高并发的推理服务

<示例配置,假设每个 A100 可分割为 7 个 MIG 实例>

// 示例:在 HyperPod 中配置 GPU 资源

// 节点配置:8 x A100 GPU
// 任务 A (训练): 1 x Full GPU
// 任务 B (推理): 7 x A100 GPU 转换为 7 * 7 = 49 MIG 实例

// 通过 GPU 调度器和 MIG 驱动程序进行资源隔离和管理

案例:成本效益和可访问性

对于许多企业而言,推理成本是运营生成式 AI 应用的主要开销。通过 MIG,AI 团队可以更精细地打包推理请求,确保 GPU 资源得到最大化利用,而不是让空闲的计算能力浪费时间。

AWS 持续致力于提供最高性能和最低成本的 ML 基础设施。HyperPod 对 MIG 的支持标志着一个重要的里程碑,它将 HyperPod 从一个纯粹的训练平台转变为一个端到端的生成式 AI 基础设施解决方案,覆盖从研究到生产部署的每一个环节。


要开始在 AWS HyperPod 上使用 MIG,请参阅最新的 AWS 文档或联系您的 AWS 客户经理了解详细的部署指南。


🚀 想要体验更好更全面的AI调用?

欢迎使用青云聚合API,约为官网价格的十分之一,支持300+全球最新模型,以及全球各种生图生视频模型,无需翻墙高速稳定,文档丰富,小白也可以简单操作。

0

评论区