您可以在笔记本电脑上运行的 7 大小型语言模型-青云TOP-AI综合资源站平台|青云聚合API大模型调用平台|全网AI资源导航平台

📢 转载信息

原文链接：https://machinelearningmastery.com/top-7-small-language-models-you-can-run-on-a-laptop/

原文作者：Jason Brownlee

大型语言模型（LLM）在许多应用程序中具有惊人的能力，但它们通常需要昂贵的加速器和大量的内存才能运行。对于希望在本地设备（例如笔记本电脑）上利用这些模型的人来说，这是一个重大障碍。

幸运的是，小型语言模型（SLM）的兴起正在改变这种状况。这些模型经过精心设计，在参数量较小（通常少于 100 亿）的情况下，仍能提供强大的性能，使其非常适合在消费级硬件上运行。

本文将介绍 7 款出色的 SLM，它们专为在笔记本电脑上运行而设计。

关键要点：

小型语言模型（SLM）是参数量较小的 LLM，旨在提供强大的性能而无需昂贵的硬件。
笔记本电脑上可以运行的最佳 SLM 包括 Microsoft Phi-3 Mini、Google Gemma 2B 和 Meta Llama 3 8B。
部署 SLM 通常需要 GGUF 或 GPTQ 等量化格式，以便在 CPU 或低端 GPU 上运行。

什么是小型语言模型（SLM）？

小型语言模型（SLM）是一个相对较新的术语，用于描述那些在能力和大小之间取得平衡的模型。虽然没有正式的定义，但通常认为 SLM 的参数量在 10 亿到 100 亿之间。

与拥有数千亿甚至数万亿参数的 LLM 相比，SLM 在以下方面具有优势：

更小的内存占用： 它们需要更少的 VRAM 或 RAM 才能加载和运行。
更快的推理速度： 在同等硬件上，它们的生成速度更快。
更低的部署成本： 它们可以在消费级硬件、边缘设备甚至移动设备上运行。

尽管规模较小，但现代 SLM，特别是那些经过高质量数据训练的模型，在许多基准测试中都表现出色，有时甚至可以与早期的、更大的模型相媲美。

在笔记本电脑上运行 SLM 的先决条件

要在笔记本电脑上本地运行任何 SLM，通常需要使用特定于推理的优化格式。

量化格式

量化是将模型的浮点权重压缩成较低位宽（例如 4 位或 8 位整数）的过程。这可以显著减少模型文件大小和运行时内存需求，而对性能的影响很小。

在本地运行 SLM 时，您最常遇到的两种格式是：

GGUF (GPT-Generated Unified Format)： 专为 CPU/内存运行而设计，广泛用于 llama.cpp 框架。GGUF 模型是本地部署最灵活的选择。
GPTQ： 一种更侧重于 GPU 运行的量化方法，通常在 Hugging Face Transformers 库中用于在低端 GPU 上实现加速。

硬件考量

虽然这些模型设计为“小”，但仍需要一定的资源：

内存（RAM/VRAM）： 至少需要 8GB RAM 才能运行最小的模型，推荐 16GB 或更多。对于 GPU 加速，推荐至少 6GB VRAM。
CPU 性能： 如果完全在 CPU 上运行（使用 GGUF），核心数量和时钟速度很重要。

笔记本电脑上排名前 7 的小型语言模型

以下是当前可用于在本地笔记本电脑上运行的 7 个最值得关注的小型语言模型。

1. Microsoft Phi-3 Mini

Phi-3 系列是 Microsoft 推出的一个突破性系列，它证明了高质量训练数据可以带来惊人的性能提升。

关键信息：

参数量： 38 亿（3.8B）
发布者： Microsoft
亮点： 在其规模下，Phi-3 Mini 在推理和编码任务上表现出接近 7B 模型的性能，但只需要大约一半的计算资源。它非常适合需要快速、高质量响应的本地应用程序。
可用性： 可通过 Hugging Face Hub 获取，并提供 GGUF 格式。

2. Meta Llama 3 8B

Llama 3 系列是 Meta 最新的开源模型，其中 8B 版本是 SLM 领域的一个重要竞争者。

关键信息：

参数量： 80 亿（8B）
发布者： Meta
亮点： 尽管参数量为 8B，但在许多基准测试中，它击败了许多参数量大得多的模型。它是目前最强大的“小”模型之一，是开源领域的黄金标准。
运行要求： 8B 模型在 4 位量化下，通常需要大约 5-6GB 的内存才能稳定运行。

3. Google Gemma 2B

Gemma 是 Google 基于 Gemini 模型技术构建的轻量级开源模型系列。

关键信息：

参数量： 20 亿（2B）
发布者： Google
亮点： 2B 版本非常适合资源极其受限的设备。它在生成和理解方面表现良好，并且易于加载和运行。
许可： 具有相对宽松的商业使用许可。

4. Mistral 7B

Mistral 7B 是 Mistral AI 的早期模型，它为 SLM 设定了性能标准，是本地部署的长期热门选择。

关键信息：

参数量： 70 亿（7B）
发布者： Mistral AI
亮点： 凭借其高效的架构（包括分组查询注意力），Mistral 7B 提供了卓越的速度和性能平衡。它在编码和逻辑推理方面表现出色。

5. Qwen 1.5 4B

Qwen（通义千问）是阿里巴巴开源的一系列强大模型，Qwen 1.5 4B 是一个强大的轻量级选项。

关键信息：

参数量： 40 亿（4B）
发布者： 阿里巴巴（Alibaba Cloud）
亮点： 在中文处理方面具有显著优势，同时在多语言任务上也表现出色。其性能与许多 7B 级的模型相当。

6. Zephyr 7B Beta

Zephyr 模型是基于 Mistral 7B 通过指令微调（Instruction Tuning）创建的聊天模型。

关键信息：

参数量： 70 亿（7B）
发布者： Hugging Face 团队/Hugging Face H4 团队
亮点： 这是一个经过优化的聊天模型，通过偏好建模进行微调，使其对话响应更自然、更有帮助。它在遵循指令方面非常可靠。

7. TinyLlama 1.1B

TinyLlama 的目标是提供一个极小的、可快速迭代的模型，用于研究和快速原型设计。

关键信息：

参数量： 11 亿（1.1B）
发布者： 社区驱动项目
亮点： 它的内存需求极低，可以在配置较低的笔记本电脑上快速运行，尽管其推理能力不如其他模型强大，但它在概念验证方面非常有用。

如何开始本地运行

要在本地运行这些模型，您需要一个推理引擎。最流行、最推荐的工具是 llama.cpp 及其 Python 绑定。

使用 llama.cpp/Ollama

要利用这些模型的 GGUF 格式，llama.cpp 是首选工具。它优化了在 CPU 上运行，并支持 GPU 加速（如果您的系统支持）。

推荐步骤：

下载推理引擎： 使用 Ollama（它封装了 llama.cpp，更易于使用）或直接编译 llama.cpp。
获取模型文件： 从 Hugging Face Hub 下载所需模型的 GGUF 版本（通常可以在模型页面上的“Files and versions”选项卡中找到）。
运行： 使用 CLI 命令或 GUI 界面（如 LM Studio）加载模型文件并开始交互。

例如，使用 Ollama，您只需一行命令即可下载并运行 Llama 3 8B（或任何其他支持的模型，如果提供 Ollama 格式）：

ollama run llama3:8b

使用 Transformers 库

对于希望在 GPU 上使用 GPTQ 量化模型的用户，可以使用 Hugging Face Transformers 库。

虽然这需要更多的配置（特别是设置 CUDA 和 PyTorch），但它允许您利用现代 GPU 的全部潜力，特别是对于 7B 和 8B 规模的模型。

总结

SLM 的快速发展使得强大的生成式 AI 应用程序不再是云计算服务的专属。借助 Phi-3 Mini、Llama 3 8B 或 Gemma 2B 等模型，您可以在标准笔记本电脑上实现快速、私密和经济高效的本地 AI 推理。

如果您正在寻找最佳的平衡点，Llama 3 8B 通常是首选，因为它在性能和资源需求之间提供了最出色的组合。然而，对于资源极其有限的场景，Phi-3 Mini 正在成为新的标杆。

🚀 想要体验更好更全面的AI调用？

欢迎使用青云聚合API，约为官网价格的十分之一，支持300+全球最新模型，以及全球各种生图生视频模型，无需翻墙高速稳定，文档丰富，小白也可以简单操作。

目录CONTENT

您可以在笔记本电脑上运行的 7 大小型语言模型

什么是小型语言模型（SLM）？

在笔记本电脑上运行 SLM 的先决条件

量化格式

硬件考量

笔记本电脑上排名前 7 的小型语言模型

1. Microsoft Phi-3 Mini

2. Meta Llama 3 8B

3. Google Gemma 2B

4. Mistral 7B

5. Qwen 1.5 4B

6. Zephyr 7B Beta

7. TinyLlama 1.1B

如何开始本地运行

使用 llama.cpp/Ollama

使用 Transformers 库

总结

评论区