📢 转载信息
原文链接:https://machinelearningmastery.com/top-7-small-language-models-you-can-run-on-a-laptop/
原文作者:Jason Brownlee
大型语言模型(LLM)在许多应用程序中具有惊人的能力,但它们通常需要昂贵的加速器和大量的内存才能运行。对于希望在本地设备(例如笔记本电脑)上利用这些模型的人来说,这是一个重大障碍。
幸运的是,小型语言模型(SLM)的兴起正在改变这种状况。这些模型经过精心设计,在参数量较小(通常少于 100 亿)的情况下,仍能提供强大的性能,使其非常适合在消费级硬件上运行。
本文将介绍 7 款出色的 SLM,它们专为在笔记本电脑上运行而设计。
关键要点:
- 小型语言模型(SLM)是参数量较小的 LLM,旨在提供强大的性能而无需昂贵的硬件。
- 笔记本电脑上可以运行的最佳 SLM 包括 Microsoft Phi-3 Mini、Google Gemma 2B 和 Meta Llama 3 8B。
- 部署 SLM 通常需要 GGUF 或 GPTQ 等量化格式,以便在 CPU 或低端 GPU 上运行。
什么是小型语言模型(SLM)?
小型语言模型(SLM)是一个相对较新的术语,用于描述那些在能力和大小之间取得平衡的模型。虽然没有正式的定义,但通常认为 SLM 的参数量在 10 亿到 100 亿之间。
与拥有数千亿甚至数万亿参数的 LLM 相比,SLM 在以下方面具有优势:
- 更小的内存占用: 它们需要更少的 VRAM 或 RAM 才能加载和运行。
- 更快的推理速度: 在同等硬件上,它们的生成速度更快。
- 更低的部署成本: 它们可以在消费级硬件、边缘设备甚至移动设备上运行。
尽管规模较小,但现代 SLM,特别是那些经过高质量数据训练的模型,在许多基准测试中都表现出色,有时甚至可以与早期的、更大的模型相媲美。
在笔记本电脑上运行 SLM 的先决条件
要在笔记本电脑上本地运行任何 SLM,通常需要使用特定于推理的优化格式。
量化格式
量化是将模型的浮点权重压缩成较低位宽(例如 4 位或 8 位整数)的过程。这可以显著减少模型文件大小和运行时内存需求,而对性能的影响很小。
在本地运行 SLM 时,您最常遇到的两种格式是:
- GGUF (GPT-Generated Unified Format): 专为 CPU/内存运行而设计,广泛用于 llama.cpp 框架。GGUF 模型是本地部署最灵活的选择。
- GPTQ: 一种更侧重于 GPU 运行的量化方法,通常在 Hugging Face Transformers 库中用于在低端 GPU 上实现加速。
硬件考量
虽然这些模型设计为“小”,但仍需要一定的资源:
- 内存(RAM/VRAM): 至少需要 8GB RAM 才能运行最小的模型,推荐 16GB 或更多。对于 GPU 加速,推荐至少 6GB VRAM。
- CPU 性能: 如果完全在 CPU 上运行(使用 GGUF),核心数量和时钟速度很重要。
笔记本电脑上排名前 7 的小型语言模型
以下是当前可用于在本地笔记本电脑上运行的 7 个最值得关注的小型语言模型。
1. Microsoft Phi-3 Mini
Phi-3 系列是 Microsoft 推出的一个突破性系列,它证明了高质量训练数据可以带来惊人的性能提升。
关键信息:
- 参数量: 38 亿(3.8B)
- 发布者: Microsoft
- 亮点: 在其规模下,Phi-3 Mini 在推理和编码任务上表现出接近 7B 模型的性能,但只需要大约一半的计算资源。它非常适合需要快速、高质量响应的本地应用程序。
- 可用性: 可通过 Hugging Face Hub 获取,并提供 GGUF 格式。
2. Meta Llama 3 8B
Llama 3 系列是 Meta 最新的开源模型,其中 8B 版本是 SLM 领域的一个重要竞争者。
关键信息:
- 参数量: 80 亿(8B)
- 发布者: Meta
- 亮点: 尽管参数量为 8B,但在许多基准测试中,它击败了许多参数量大得多的模型。它是目前最强大的“小”模型之一,是开源领域的黄金标准。
- 运行要求: 8B 模型在 4 位量化下,通常需要大约 5-6GB 的内存才能稳定运行。
3. Google Gemma 2B
Gemma 是 Google 基于 Gemini 模型技术构建的轻量级开源模型系列。
关键信息:
- 参数量: 20 亿(2B)
- 发布者: Google
- 亮点: 2B 版本非常适合资源极其受限的设备。它在生成和理解方面表现良好,并且易于加载和运行。
- 许可: 具有相对宽松的商业使用许可。
4. Mistral 7B
Mistral 7B 是 Mistral AI 的早期模型,它为 SLM 设定了性能标准,是本地部署的长期热门选择。
关键信息:
- 参数量: 70 亿(7B)
- 发布者: Mistral AI
- 亮点: 凭借其高效的架构(包括分组查询注意力),Mistral 7B 提供了卓越的速度和性能平衡。它在编码和逻辑推理方面表现出色。
5. Qwen 1.5 4B
Qwen(通义千问)是阿里巴巴开源的一系列强大模型,Qwen 1.5 4B 是一个强大的轻量级选项。
关键信息:
- 参数量: 40 亿(4B)
- 发布者: 阿里巴巴(Alibaba Cloud)
- 亮点: 在中文处理方面具有显著优势,同时在多语言任务上也表现出色。其性能与许多 7B 级的模型相当。
6. Zephyr 7B Beta
Zephyr 模型是基于 Mistral 7B 通过指令微调(Instruction Tuning)创建的聊天模型。
关键信息:
- 参数量: 70 亿(7B)
- 发布者: Hugging Face 团队/Hugging Face H4 团队
- 亮点: 这是一个经过优化的聊天模型,通过偏好建模进行微调,使其对话响应更自然、更有帮助。它在遵循指令方面非常可靠。
7. TinyLlama 1.1B
TinyLlama 的目标是提供一个极小的、可快速迭代的模型,用于研究和快速原型设计。
关键信息:
- 参数量: 11 亿(1.1B)
- 发布者: 社区驱动项目
- 亮点: 它的内存需求极低,可以在配置较低的笔记本电脑上快速运行,尽管其推理能力不如其他模型强大,但它在概念验证方面非常有用。
如何开始本地运行
要在本地运行这些模型,您需要一个推理引擎。最流行、最推荐的工具是 llama.cpp 及其 Python 绑定。
使用 llama.cpp/Ollama
要利用这些模型的 GGUF 格式,llama.cpp 是首选工具。它优化了在 CPU 上运行,并支持 GPU 加速(如果您的系统支持)。
推荐步骤:
- 下载推理引擎: 使用 Ollama(它封装了 llama.cpp,更易于使用)或直接编译 llama.cpp。
- 获取模型文件: 从 Hugging Face Hub 下载所需模型的 GGUF 版本(通常可以在模型页面上的“Files and versions”选项卡中找到)。
- 运行: 使用 CLI 命令或 GUI 界面(如 LM Studio)加载模型文件并开始交互。
例如,使用 Ollama,您只需一行命令即可下载并运行 Llama 3 8B(或任何其他支持的模型,如果提供 Ollama 格式):
ollama run llama3:8b
使用 Transformers 库
对于希望在 GPU 上使用 GPTQ 量化模型的用户,可以使用 Hugging Face Transformers 库。
虽然这需要更多的配置(特别是设置 CUDA 和 PyTorch),但它允许您利用现代 GPU 的全部潜力,特别是对于 7B 和 8B 规模的模型。
总结
SLM 的快速发展使得强大的生成式 AI 应用程序不再是云计算服务的专属。借助 Phi-3 Mini、Llama 3 8B 或 Gemma 2B 等模型,您可以在标准笔记本电脑上实现快速、私密和经济高效的本地 AI 推理。
如果您正在寻找最佳的平衡点,Llama 3 8B 通常是首选,因为它在性能和资源需求之间提供了最出色的组合。然而,对于资源极其有限的场景,Phi-3 Mini 正在成为新的标杆。
🚀 想要体验更好更全面的AI调用?
欢迎使用青云聚合API,约为官网价格的十分之一,支持300+全球最新模型,以及全球各种生图生视频模型,无需翻墙高速稳定,文档丰富,小白也可以简单操作。
评论区