📢 转载信息
原文链接:https://www.ithome.com/0/887/680.htm
原文作者:IT之家
华为重磅发布:SINQ AI量化技术,为大模型部署带来革命性突破
IT之家 10 月 6 日消息,华为苏黎世计算系统实验室于 9 月 26 日发布了全新的开源量化(Quantization)技术——SINQ(Sinkhorn 归一化量化)。这项技术的发布,旨在显著降低大语言模型(LLM)的显存需求和运行成本,为AI模型的部署和推理带来了新的可能性。
SINQ 的一大亮点是它无需复杂的校准过程,可以直接无缝集成到现有的工作流中。更重要的是,华为已经通过 Apache 2.0 许可证,在 GitHub 和 Hugging Face 上公开了相关代码,这意味着任何组织都可以免费使用、修改和进行商业化部署。
显著的性能提升:显存占用锐减 60% 至 70%
SINQ 的核心优势在于其出色的模型压缩能力。根据官方测试数据,该技术能将不同规模模型的显存占用普遍减少 60% 至 70%。这意味着,过去需要超过 60GB 显存才能顺畅运行的超大型模型,现在或许仅需约 20GB 的显存环境即可部署和运行。
这一突破使得过去依赖企业级 GPU(如 NVIDIA A100 80GB 或 H100)的计算任务,现在仅需一张消费级显卡(如 NVIDIA RTX 4090,售价约 1600 美元)即可完成。对于云端服务提供商和用户而言,这意味着每小时的算力成本也将大幅下降。
两大技术创新驱动:双轴采样与快速归一化算法
SINQ 之所以能实现如此显著的性能飞跃,主要归功于两大技术创新:
- 双轴采样策略: SINQ 摒弃了传统的单尺度因子量化方法,转而采用“双轴采样”策略。该方法分别为矩阵的行和列设置独立的缩放向量,从而更灵活地分散量化过程中产生的误差,并有效抑制了异常值对模型精度的负面影响。
- Sinkhorn 启发式快速归一化: 引入了一种受 Sinkhorn 迭代启发的快速归一化算法。该算法能够高效地平衡矩阵行列的标准差,从而最小化量化过程中出现的“矩阵不平衡”现象,确保量化后的模型精度得到有效保持。
全面超越主流方法,量化速度惊人
在性能评估阶段,SINQ 的表现全面超越了多种主流的免校准量化方法(如 RTN、HQQ)。在处理 Qwen3、LLaMA 等多种主流模型时,SINQ 在 WikiText2 等标准测试集上显著降低了模型的困惑度(Perplexity),其性能水平已接近甚至达到了需要数据校准的方案级别。
此外,SINQ 的量化速度也令人印象深刻:比 HQQ 快约 2 倍,比 AWQ 快 30 倍以上,这极大地满足了研究和生产环境中对效率的严苛要求。
名词解释:量化与困惑度
量化(Quantization): 这是一种模型压缩技术。其原理是通过降低模型内部数据(如权重参数)的精度来减小模型的体积和显存占用。你可以将其理解为将一张高精度的照片(如浮点数表示)压缩成一张文件更小、但肉眼看起来差别不大的普通照片(如整数表示),从而使模型运行得更快、资源消耗更少。
困惑度(Perplexity): 这是评估语言模型性能的常用指标。它衡量的是模型对于一段新文本的“惊讶”或“不确定”程度。困惑度越低,表示模型对文本的预测越准确,语言能力也就越强。
参考链接:
- Github 仓库
- Hugging Face 页面
- 论文链接:SINQ: Sinkhorn-Normalized Quantization for Calibration-Free Low-Precision LLM Weights
- 官方介绍页面
广告声明:文内含有的对外跳转链接(包括不限于超链接、二维码、口令等形式),用于传递更多信息,节省甄选时间,结果仅供参考,IT之家所有文章均包含本声明。
🚀 想要体验更好更全面的AI调用?
欢迎使用青云聚合API,约为官网价格的十分之一,支持300+全球最新模型,以及全球各种生图生视频模型,无需翻墙高速稳定,小白也可以简单操作。
青云聚合API官网https://api.qingyuntop.top
支持全球最新300+模型:https://api.qingyuntop.top/pricing
详细的调用教程及文档:https://api.qingyuntop.top/about
评论区