📢 转载信息
原文作者:Amazon Web Services
大型语言模型(LLM)的普及正在改变各个行业,但其巨大的计算需求和较高的推理延迟仍然是主要的挑战。为了解决这些问题,研究人员开发了各种量化技术,通过减小模型大小和计算成本来提高推理效率。本文重点介绍了两种强大的后训练量化(PTQ)方法:Activation-aware Weight Quantization (AWQ) 和 Generative Pre-trained Transformer Quantization (GPTQ),并展示了如何在Amazon SageMaker上高效地利用它们来加速LLM推理。
量化是将模型权重和/或激活从高精度(例如FP16或BF16)转换为低精度(例如INT8或INT4)的过程。这可以显著减小模型大小,并允许在支持低精度计算的硬件上实现更快的推理速度。
AWQ与GPTQ概述
AWQ和GPTQ都是专门为LLM设计的PTQ技术,旨在最小化量化引入的精度损失。它们的核心目标是实现高压缩率(通常为4位)的同时,保持与原始模型相当的准确性。
GPTQ (Generative Pre-trained Transformer Quantization)
GPTQ是一种高效的权重量化方法。它使用一种称为Hessian-aware的方法来识别哪些权重对模型性能影响最大,从而优先对那些影响较小的权重进行更激进的量化。
- 工作原理: GPTQ通过迭代地优化量化过程,最小化由量化引起的误差,通常只对权重进行量化。
- 优势: 极高的压缩率(通常为4位),推理速度快。
AWQ (Activation-aware Weight Quantization)
AWQ是另一种流行的权重量化技术,但它引入了对激活的考量。它通过分析输入激活的敏感性来决定如何量化权重。
- 工作原理: AWQ观察到,只有一小部分权重对激活的输出敏感。因此,它通过保护这些敏感的权重(不进行或进行较少量化)来减少精度损失。
- 优势: 针对LLM进行了优化,通常在4位量化下能获得比其他方法更好的精度。

在Amazon SageMaker上部署量化模型
Amazon SageMaker提供了一个完全托管的环境来构建、训练和部署机器学习模型。为了加速量化LLM的推理,SageMaker集成了对AWQ和GPTQ量化模型的原生支持,特别是通过其优化的推理容器和TensorRT-LLM库。
使用SageMaker模型并行化(Model Parallelism)
对于非常大的模型,即使是量化后的模型也可能无法完全放入单个GPU的内存中。SageMaker支持模型并行化,允许将模型分散到多个GPU上,从而支持更大的模型规模。
优化推理性能
部署量化模型后,关键在于优化推理吞吐量和延迟。SageMaker利用以下机制来最大化性能:
- 低精度内核: 利用现代GPU(如NVIDIA H100或A100)支持的INT4或INT8计算内核。
- TensorRT-LLM集成: SageMaker通常使用TensorRT-LLM后端,该后端为GPTQ和AWQ量化模型提供了高度优化的CUDA内核。
- 批量推理(Batching): 动态批量处理请求以提高GPU利用率。
示例:使用AWQ量化Llama 2 70B模型
假设我们想部署一个Llama-2-70B模型,并使用AWQ将其量化到4位,以在SageMaker Endpoint上运行。
部署过程通常涉及以下步骤:
- 量化准备: 使用Hugging Face Transformers和相关的量化库(如AutoAWQ)对原始BF16模型进行量化,生成量化后的权重文件(通常是INT4)。
- 选择SageMaker容器: 选择一个支持加速LLM推理的SageMaker Deep Learning Container(DLC),确保其包含必要的TensorRT-LLM或vLLM支持。
- 模型上传: 将量化后的模型工件(包括权重和配置)上传到Amazon S3。
- SageMaker部署: 使用SageMaker SDK或控制台创建模型和配置Endpoint,指定正确的推理脚本和所需的实例类型(如
ml.g5.48xlarge或支持H100的实例)。
关键点: 在SageMaker上,当部署AWQ或GPTQ量化模型时,您需要确保推理容器知道如何正确加载和使用这些低精度权重,通常是通过配置TensorRT-LLM的引擎构建过程。
量化带来的收益
通过在SageMaker上实施AWQ或GPTQ量化,用户可以获得显著的业务和技术效益:
- 成本节约: 4位量化可以将内存需求减少高达75%,这意味着可以使用更少或更低成本的GPU实例来托管相同的模型。
- 更低延迟: 减少内存带宽和计算需求,直接转化为更快的响应时间,这对实时应用至关重要。
- 更高吞吐量: 在相同的实例上,更小的模型允许处理更多的并发请求。
例如,对于一个70B参数的模型,从BF16(约140GB)量化到INT4(约35GB),可以将部署成本大幅降低,并使模型更容易装入主流加速器中。
总结
AWQ和GPTQ是加速LLM推理的有效策略,它们通过智能地执行后训练量化,在保持模型性能的同时,实现了显著的资源优化。Amazon SageMaker平台提供了强大的工具和优化环境,使得在生产环境中部署这些量化模型变得简单而高效。开发者可以利用这些技术,以更低的成本和更快的速度,将尖端的LLM应用推向市场。
🚀 想要体验更好更全面的AI调用?
欢迎使用青云聚合API,约为官网价格的十分之一,支持300+全球最新模型,以及全球各种生图生视频模型,无需翻墙高速稳定,文档丰富,小白也可以简单操作。
评论区