使用Amazon SageMaker AI上的AWQ和GPTQ进行训练后权重和激活的量化，加速LLM推理-青云TOP-AI综合资源站平台|青云聚合API大模型调用平台|全网AI资源导航平台

📢 转载信息

原文链接：https://aws.amazon.com/blogs/machine-learning/accelerating-llm-inference-with-post-training-weight-and-activation-using-awq-and-gptq-on-amazon-sagemaker-ai/

原文作者：Amazon Web Services

大型语言模型（LLM）的普及正在改变各个行业，但其巨大的计算需求和较高的推理延迟仍然是主要的挑战。为了解决这些问题，研究人员开发了各种量化技术，通过减小模型大小和计算成本来提高推理效率。本文重点介绍了两种强大的后训练量化（PTQ）方法：Activation-aware Weight Quantization (AWQ) 和 Generative Pre-trained Transformer Quantization (GPTQ)，并展示了如何在Amazon SageMaker上高效地利用它们来加速LLM推理。

量化是将模型权重和/或激活从高精度（例如FP16或BF16）转换为低精度（例如INT8或INT4）的过程。这可以显著减小模型大小，并允许在支持低精度计算的硬件上实现更快的推理速度。

AWQ与GPTQ概述

AWQ和GPTQ都是专门为LLM设计的PTQ技术，旨在最小化量化引入的精度损失。它们的核心目标是实现高压缩率（通常为4位）的同时，保持与原始模型相当的准确性。

GPTQ (Generative Pre-trained Transformer Quantization)

GPTQ是一种高效的权重量化方法。它使用一种称为Hessian-aware的方法来识别哪些权重对模型性能影响最大，从而优先对那些影响较小的权重进行更激进的量化。

工作原理： GPTQ通过迭代地优化量化过程，最小化由量化引起的误差，通常只对权重进行量化。
优势： 极高的压缩率（通常为4位），推理速度快。

AWQ (Activation-aware Weight Quantization)

AWQ是另一种流行的权重量化技术，但它引入了对激活的考量。它通过分析输入激活的敏感性来决定如何量化权重。

工作原理： AWQ观察到，只有一小部分权重对激活的输出敏感。因此，它通过保护这些敏感的权重（不进行或进行较少量化）来减少精度损失。
优势： 针对LLM进行了优化，通常在4位量化下能获得比其他方法更好的精度。

AWQ vs GPTQ Comparison Graph

在Amazon SageMaker上部署量化模型

Amazon SageMaker提供了一个完全托管的环境来构建、训练和部署机器学习模型。为了加速量化LLM的推理，SageMaker集成了对AWQ和GPTQ量化模型的原生支持，特别是通过其优化的推理容器和TensorRT-LLM库。

使用SageMaker模型并行化（Model Parallelism）

对于非常大的模型，即使是量化后的模型也可能无法完全放入单个GPU的内存中。SageMaker支持模型并行化，允许将模型分散到多个GPU上，从而支持更大的模型规模。

优化推理性能

部署量化模型后，关键在于优化推理吞吐量和延迟。SageMaker利用以下机制来最大化性能：

低精度内核： 利用现代GPU（如NVIDIA H100或A100）支持的INT4或INT8计算内核。
TensorRT-LLM集成： SageMaker通常使用TensorRT-LLM后端，该后端为GPTQ和AWQ量化模型提供了高度优化的CUDA内核。
批量推理（Batching）： 动态批量处理请求以提高GPU利用率。

示例：使用AWQ量化Llama 2 70B模型

假设我们想部署一个Llama-2-70B模型，并使用AWQ将其量化到4位，以在SageMaker Endpoint上运行。

部署过程通常涉及以下步骤：

量化准备： 使用Hugging Face Transformers和相关的量化库（如AutoAWQ）对原始BF16模型进行量化，生成量化后的权重文件（通常是INT4）。
选择SageMaker容器： 选择一个支持加速LLM推理的SageMaker Deep Learning Container（DLC），确保其包含必要的TensorRT-LLM或vLLM支持。
模型上传： 将量化后的模型工件（包括权重和配置）上传到Amazon S3。
SageMaker部署： 使用SageMaker SDK或控制台创建模型和配置Endpoint，指定正确的推理脚本和所需的实例类型（如ml.g5.48xlarge或支持H100的实例）。

关键点： 在SageMaker上，当部署AWQ或GPTQ量化模型时，您需要确保推理容器知道如何正确加载和使用这些低精度权重，通常是通过配置TensorRT-LLM的引擎构建过程。

量化带来的收益

通过在SageMaker上实施AWQ或GPTQ量化，用户可以获得显著的业务和技术效益：

成本节约： 4位量化可以将内存需求减少高达75%，这意味着可以使用更少或更低成本的GPU实例来托管相同的模型。
更低延迟： 减少内存带宽和计算需求，直接转化为更快的响应时间，这对实时应用至关重要。
更高吞吐量： 在相同的实例上，更小的模型允许处理更多的并发请求。

例如，对于一个70B参数的模型，从BF16（约140GB）量化到INT4（约35GB），可以将部署成本大幅降低，并使模型更容易装入主流加速器中。

总结

AWQ和GPTQ是加速LLM推理的有效策略，它们通过智能地执行后训练量化，在保持模型性能的同时，实现了显著的资源优化。Amazon SageMaker平台提供了强大的工具和优化环境，使得在生产环境中部署这些量化模型变得简单而高效。开发者可以利用这些技术，以更低的成本和更快的速度，将尖端的LLM应用推向市场。

🚀 想要体验更好更全面的AI调用？

欢迎使用青云聚合API，约为官网价格的十分之一，支持300+全球最新模型，以及全球各种生图生视频模型，无需翻墙高速稳定，文档丰富，小白也可以简单操作。

目录CONTENT

使用Amazon SageMaker AI上的AWQ和GPTQ进行训练后权重和激活的量化，加速LLM推理