目 录CONTENT

文章目录

使用Amazon SageMaker AI上的AWQ和GPTQ进行训练后权重和激活的量化,加速LLM推理

Administrator
2026-01-10 / 0 评论 / 0 点赞 / 0 阅读 / 0 字

📢 转载信息

原文链接:https://aws.amazon.com/blogs/machine-learning/accelerating-llm-inference-with-post-training-weight-and-activation-using-awq-and-gptq-on-amazon-sagemaker-ai/

原文作者:Amazon Web Services


大型语言模型(LLM)的普及正在改变各个行业,但其巨大的计算需求和较高的推理延迟仍然是主要的挑战。为了解决这些问题,研究人员开发了各种量化技术,通过减小模型大小和计算成本来提高推理效率。本文重点介绍了两种强大的后训练量化(PTQ)方法:Activation-aware Weight Quantization (AWQ)Generative Pre-trained Transformer Quantization (GPTQ),并展示了如何在Amazon SageMaker上高效地利用它们来加速LLM推理。

量化是将模型权重和/或激活从高精度(例如FP16或BF16)转换为低精度(例如INT8或INT4)的过程。这可以显著减小模型大小,并允许在支持低精度计算的硬件上实现更快的推理速度。


AWQ与GPTQ概述

AWQ和GPTQ都是专门为LLM设计的PTQ技术,旨在最小化量化引入的精度损失。它们的核心目标是实现高压缩率(通常为4位)的同时,保持与原始模型相当的准确性。

GPTQ (Generative Pre-trained Transformer Quantization)

GPTQ是一种高效的权重量化方法。它使用一种称为Hessian-aware的方法来识别哪些权重对模型性能影响最大,从而优先对那些影响较小的权重进行更激进的量化。

  • 工作原理: GPTQ通过迭代地优化量化过程,最小化由量化引起的误差,通常只对权重进行量化。
  • 优势: 极高的压缩率(通常为4位),推理速度快。

AWQ (Activation-aware Weight Quantization)

AWQ是另一种流行的权重量化技术,但它引入了对激活的考量。它通过分析输入激活的敏感性来决定如何量化权重。

  • 工作原理: AWQ观察到,只有一小部分权重对激活的输出敏感。因此,它通过保护这些敏感的权重(不进行或进行较少量化)来减少精度损失。
  • 优势: 针对LLM进行了优化,通常在4位量化下能获得比其他方法更好的精度。

AWQ vs GPTQ Comparison Graph


在Amazon SageMaker上部署量化模型

Amazon SageMaker提供了一个完全托管的环境来构建、训练和部署机器学习模型。为了加速量化LLM的推理,SageMaker集成了对AWQ和GPTQ量化模型的原生支持,特别是通过其优化的推理容器和TensorRT-LLM库。

使用SageMaker模型并行化(Model Parallelism)

对于非常大的模型,即使是量化后的模型也可能无法完全放入单个GPU的内存中。SageMaker支持模型并行化,允许将模型分散到多个GPU上,从而支持更大的模型规模。

优化推理性能

部署量化模型后,关键在于优化推理吞吐量和延迟。SageMaker利用以下机制来最大化性能:

  1. 低精度内核: 利用现代GPU(如NVIDIA H100或A100)支持的INT4或INT8计算内核。
  2. TensorRT-LLM集成: SageMaker通常使用TensorRT-LLM后端,该后端为GPTQ和AWQ量化模型提供了高度优化的CUDA内核。
  3. 批量推理(Batching): 动态批量处理请求以提高GPU利用率。

示例:使用AWQ量化Llama 2 70B模型

假设我们想部署一个Llama-2-70B模型,并使用AWQ将其量化到4位,以在SageMaker Endpoint上运行。

部署过程通常涉及以下步骤:

  1. 量化准备: 使用Hugging Face Transformers和相关的量化库(如AutoAWQ)对原始BF16模型进行量化,生成量化后的权重文件(通常是INT4)。
  2. 选择SageMaker容器: 选择一个支持加速LLM推理的SageMaker Deep Learning Container(DLC),确保其包含必要的TensorRT-LLM或vLLM支持。
  3. 模型上传: 将量化后的模型工件(包括权重和配置)上传到Amazon S3。
  4. SageMaker部署: 使用SageMaker SDK或控制台创建模型和配置Endpoint,指定正确的推理脚本和所需的实例类型(如ml.g5.48xlarge或支持H100的实例)。

关键点: 在SageMaker上,当部署AWQ或GPTQ量化模型时,您需要确保推理容器知道如何正确加载和使用这些低精度权重,通常是通过配置TensorRT-LLM的引擎构建过程。


量化带来的收益

通过在SageMaker上实施AWQ或GPTQ量化,用户可以获得显著的业务和技术效益:

  • 成本节约: 4位量化可以将内存需求减少高达75%,这意味着可以使用更少或更低成本的GPU实例来托管相同的模型。
  • 更低延迟: 减少内存带宽和计算需求,直接转化为更快的响应时间,这对实时应用至关重要。
  • 更高吞吐量: 在相同的实例上,更小的模型允许处理更多的并发请求。

例如,对于一个70B参数的模型,从BF16(约140GB)量化到INT4(约35GB),可以将部署成本大幅降低,并使模型更容易装入主流加速器中。


总结

AWQ和GPTQ是加速LLM推理的有效策略,它们通过智能地执行后训练量化,在保持模型性能的同时,实现了显著的资源优化。Amazon SageMaker平台提供了强大的工具和优化环境,使得在生产环境中部署这些量化模型变得简单而高效。开发者可以利用这些技术,以更低的成本和更快的速度,将尖端的LLM应用推向市场。




🚀 想要体验更好更全面的AI调用?

欢迎使用青云聚合API,约为官网价格的十分之一,支持300+全球最新模型,以及全球各种生图生视频模型,无需翻墙高速稳定,文档丰富,小白也可以简单操作。

0

评论区