目 录CONTENT

文章目录

使用Unsloth在NVIDIA GPU上微调LLM(大型语言模型)

Administrator
2025-12-31 / 0 评论 / 0 点赞 / 0 阅读 / 0 字

📢 转载信息

原文链接:https://blogs.nvidia.com/blog/rtx-ai-garage-fine-tuning-unsloth-dgx-spark/

原文作者:Annamalai Chockalingam


现代工作流程展示了生成式AI和智能体AI在PC上无尽的可能性。

其中一些例子包括训练一个用于处理产品支持问题的聊天机器人,或构建一个用于管理个人日程的私人助理。然而,挑战依然存在,即如何让一个小型语言模型对专业化的智能体任务做出始终如一、高准确度的响应。

这就是微调的作用所在。

Unsloth是全球使用最广泛的开源LLM微调框架之一,它提供了一种易于上手的方式来定制模型。它专为在NVIDIA GPU上进行高效、低内存的训练而优化——这些GPU涵盖了从GeForce RTX台式机和笔记本电脑RTX PRO工作站,再到全球最小的AI超级计算机DGX Spark

另一个强大的微调起点是刚刚宣布的NVIDIA Nemotron 3开源模型、数据和库系列。Nemotron 3推出了最高效的开源模型系列,是智能体AI微调的理想选择。

教AI新本领

微调就像是给一个AI模型进行一次有针对性的训练。通过与特定主题或工作流程相关的示例,模型通过学习新模式和适应手头的任务来提高其准确性。

为模型选择微调方法取决于开发人员希望调整原始模型的程度。根据目标,开发人员可以使用以下三种主要的微调方法之一:

参数高效微调(如LoRA或QLoRA)

  • 工作原理:只更新模型的一小部分,以实现更快、更低成本的训练。这是一种更智能、更有效的方式来增强模型,而无需对其进行大幅修改。
  • 目标用例:在几乎所有传统上应用完全微调的场景中都很有用——包括增加领域知识、提高编码准确性、使模型适应法律或科学任务、优化推理能力,或调整语气和行为。
  • 要求:小型到中型数据集(100-1,000个提示-样本对)。

全模型微调

  • 工作原理:更新模型的所有参数——有助于教会模型遵循特定的格式或风格。
  • 目标用例:高级用例,例如构建必须就特定主题提供帮助、坚持在某些护栏内并以特定方式响应的AI代理和聊天机器人。
  • 要求:大型数据集(1,000个以上的提示-样本对)。

强化学习

  • 工作原理:使用反馈或偏好信号来调整模型的行为。模型通过与其环境的交互来学习,并利用反馈随着时间的推移进行自我改进。这是一种复杂的高级技术,它交织了训练和推理过程——并且可以与参数高效微调和全模型微调技术结合使用。有关详细信息,请参阅Unsloth的强化学习指南
  • 目标用例:提高模型在特定领域(如法律或医学)的准确性,或构建可以代表用户编排操作的自主代理。
  • 要求:包含动作模型、奖励模型以及模型从中学习的环境的过程。

另一个需要考虑的因素是每种方法所需的VRAM。下表概述了在Unsloth上运行每种微调方法的VRAM要求。

Unsloth上的微调要求。

Unsloth:在NVIDIA GPU上快速微调的途径

LLM微调是一项内存和计算密集型工作负载,需要在每个训练步骤中通过数十亿次矩阵乘法来更新模型权重。这种繁重的并行工作负载需要NVIDIA GPU的强大能力才能快速有效地完成整个过程。

Unsloth在此工作负载中表现出色,它将复杂数学运算转换为高效的自定义GPU内核,从而加速AI训练。

Unsloth有助于在NVIDIA GPU上将Hugging Face transformers库的性能提高2.5倍。这些针对GPU的特定优化,结合Unsloth的易用性,使微调对更广泛的AI爱好者和开发人员社区变得触手可及。

该框架是为NVIDIA硬件构建和优化的——从GeForce RTX笔记本电脑到RTX PRO工作站和DGX Spark——在减少VRAM消耗的同时提供最佳性能

Unsloth提供了有用的指南,介绍如何入门和管理不同的LLM配置、超参数和选项,以及示例笔记本和分步工作流程。

请查看以下一些Unsloth指南:

了解如何在NVIDIA DGX Spark上安装Unsloth。阅读NVIDIA技术博客,深入了解NVIDIA Blackwell平台上微调和强化学习的内容。

对于动手实践的本地微调演练,请观看Matthew Berman在下面视频中展示的,在NVIDIA GeForce RTX 5090上使用Unsloth运行的强化学习过程。

现已推出:NVIDIA Nemotron 3 开源模型系列

新的Nemotron 3开源模型系列——包括Nano、Super和Ultra尺寸——基于一种新的混合潜在专家混合(MoE)架构构建,推出了最高效的开源模型系列,具有领先的准确性,是构建智能体AI应用的理想选择。

Nemotron 3 Nano 30B-A3B现已上市,是该系列中计算效率最高的模型。它针对软件调试、内容摘要、AI助理工作流程和信息检索等任务进行了优化,推理成本低廉。其混合MoE设计提供了:

  • 推理时推理令牌减少高达60%,显著降低了推理成本。
  • 100万个令牌的上下文窗口,使模型能够为长篇、多步骤任务保留更多信息。

Nemotron 3 Super是一款用于多智能体应用的高精度推理模型,而Nemotron 3 Ultra则面向复杂的AI应用。预计两者都将在2026年上半年推出。

NVIDIA今天还发布了一套开源的训练数据集和最先进的强化学习库。Nemotron 3 Nano的微调已在Unsloth上可用。

立即从Hugging Face下载Nemotron 3 Nano,或通过Llama.cpp和LM Studio进行实验。

DGX Spark:紧凑型AI动力站

DGX Spark能够在紧凑的桌面超级计算机中实现本地微调并带来令人难以置信的AI性能,使开发人员能够获得比典型PC更多的内存。

DGX Spark基于NVIDIA Grace Blackwell架构构建,可提供高达一PetaFLOPS的FP4 AI性能,并包含128GB的统一CPU-GPU内存,为开发人员提供了在本地运行更大模型、更长上下文窗口和更具挑战性的训练工作负载的足够空间。

对于微调,DGX Spark支持:

  • 更大的模型尺寸。参数超过300亿的模型通常会超出消费级GPU的VRAM容量,但在DGX Spark的统一内存中可以舒适地容纳。
  • 更先进的技术。全模型微调和基于强化学习的工作流程——这些工作流程需要更多的内存和更高的吞吐量——在DGX Spark上的运行速度明显更快。
  • 本地控制,无需云端排队。开发人员可以本地运行计算密集型任务,而无需等待云实例或管理多个环境。

DGX Spark的优势不仅限于LLM。例如,高分辨率的扩散模型通常需要比典型桌面更多的内存。凭借FP4支持和大型统一内存,DGX Spark可以在短短几秒内生成1,000张图像,并为创意或多模态管道维持更高的吞吐量。

下表显示了在DGX Spark上微调Llama模型系列的性能情况。

在DGX Spark上微调Llama模型系列的性能。

随着微调工作流程的不断发展,新的Nemotron 3开源模型系列提供了为RTX系统和DGX Spark优化的高可扩展推理和长上下文性能。

了解更多关于DGX Spark如何实现密集型AI任务的信息。

#ICYMI — NVIDIA RTX AI PC的最新进展

🚀 FLUX.2 图像生成模型现已发布,针对NVIDIA RTX GPU进行了优化

Black Forest Labs的最新模型提供FP8量化版本,可减少VRAM并提高40%的性能。

Nexa.ai 通过Hyperlink扩展本地AI在RTX PC上的能力,实现智能体搜索

新的设备端搜索智能体实现了3倍更快的检索增强生成(RAG)索引和2倍更快的LLM推理,将一个密集的1GB文件夹的索引时间从大约15分钟缩短到仅四到五分钟。此外,DeepSeek OCR现在可以通过NexaSDK在GGUF中本地运行,在RTX GPU上提供图表、公式和多语言PDF的即插即用解析。

🤝Mistral AI 发布针对NVIDIA GPU优化的一系列新模型

新的Mistral 3模型已从云端到边缘进行了优化,可通过Ollama和Llama.cpp进行快速的本地实验。

🎨Blender 5.0 发布,带来HDR色彩和主要的性能提升

此次发布增加了ACES 2.0宽色域/HDR色彩、NVIDIA DLSS(使毛发和毛皮渲染速度提高5倍)、对海量几何体的更好处理以及Grease Pencil的运动模糊。

FacebookInstagramTikTokX上关注NVIDIA AI PC,并通过订阅RTX AI PC时事通讯保持信息灵通。在LinkedInX上关注NVIDIA Workstation。

请参阅有关软件产品信息的声明




🚀 想要体验更好更全面的AI调用?

欢迎使用青云聚合API,约为官网价格的十分之一,支持300+全球最新模型,以及全球各种生图生视频模型,无需翻墙高速稳定,文档丰富,小白也可以简单操作。

0

评论区