减少生产环境中 LLM 幻觉的 7 种方法-青云TOP-AI综合资源站平台|青云聚合API大模型调用平台|全网AI资源导航平台

📢 转载信息

原文链接：https://www.kdnuggets.com/7-ways-to-reduce-hallucinations-in-production-llms

原文作者：Kanwal Mehreen

引言

幻觉不仅仅是模型自身的问题，在生产环境中，它们更是系统设计层面的挑战。最可靠的团队通过将模型建立在可信数据之上，强制实现可追溯性，并通过自动化检查和持续评估来限制输出，从而减少幻觉。

在本文中，我们将介绍开发人员和 AI 团队今天用于减少大型语言模型（LLM）应用程序中幻觉的七种经过验证且经过实地测试的策略。

1. 使用检索增强生成（RAG）来获取响应

如果您的应用程序必须准确反映内部政策、产品规格或客户数据，请不要让模型依赖记忆来回答。使用检索增强生成（RAG）来检索相关来源（例如文档、工单、知识库文章或数据库记录），并根据该特定上下文生成响应。

例如：

用户提问：“年费计划的退款政策是什么？”
您的系统检索当前的政策页面，并将其注入到提示中
助手回答并引用所使用的确切条款

2. 为关键声明要求提供引用

许多生产助手使用一个简单的操作规则：无来源，无答案。

Anthropic 的防护指南明确建议通过要求引用来使输出可审核，并让模型通过查找支持性引文来验证每个声明，撤回任何无法支持的声明。这个简单的技巧可以大大减少幻觉。

例如：

对于每个事实性的要点，模型必须附带一个来自检索到的上下文的引用
如果找不到引用，它必须回复“所提供的信息不足”

3. 使用工具调用代替自由格式回答

对于交易性或事实性查询，最安全的模式是：LLM — 工具/API — 经验证的记录系统 — 响应。

例如：

定价：查询计费数据库
工单状态：调用内部客户关系管理（CRM）应用程序编程接口（API）
政策规则：获取版本控制的政策文件

它不是让模型“回忆”事实，而是获取事实。LLM 成为一个路由器和格式化程序，而不是事实的来源。这个单一的设计决策消除了很大一部分幻觉。

4. 添加生成后验证步骤

许多生产系统现在都包含一个“裁判”或“评分”模型。工作流程通常遵循以下步骤：

生成答案
将答案和源文档发送给验证模型
对接地性或事实支持进行评分
如果低于阈值 — 重新生成或拒绝

一些团队还运行轻量级的词汇检查（例如关键词重叠或BM25评分）来验证声称的事实是否出现在源文本中。一种被广泛引用的研究方法是Chain-of-Verification (CoVe)：起草答案，生成验证问题，独立回答这些问题，然后生成最终的验证响应。这种多步骤验证流程显著减少了未经支持的声明。

5. 偏向引用而非释义

释义增加了细微的事实漂移的可能性。一个实用的防护措施是：

要求对事实性声明进行直接引用
仅在存在引用时允许摘要
拒绝引入未经支持的数字或名称的输出

这在法律、医疗保健和合规性用例中特别有效，因为这些领域对准确性至关重要。

6. 校准不确定性并优雅地失败

您无法完全消除幻觉。相反，生产系统会设计用于安全地失败。常用技术包括：

置信度评分
支持概率阈值
“信息不足”的备用响应
针对低置信度答案的人工干预升级

返回不确定性比返回自信的虚构信息更安全。在企业环境中，这种设计理念通常比挤压边际准确性收益更重要。

7. 持续评估和监控

减少幻觉并非一劳永逸。即使您今天提高了幻觉率，明天由于模型更新、文档更改和新用户查询，它也可能再次恶化。生产团队运行持续评估流程来：

评估每 N 次请求（或所有高风险请求）
跟踪幻觉率、引用覆盖率和拒绝的正确性
在指标下降时发出警报，并回滚提示或检索更改

用户反馈循环也至关重要。许多团队会记录每一次幻觉报告，并将其反馈给检索调整或提示调整。这区分了一个看起来准确的演示和一个保持准确的系统。

总结

在生产环境中减少 LLM 的幻觉不是关于找到一个完美的提示。当您将其视为一个架构问题时，可靠性就会提高。为了保持准确性：

将答案建立在真实数据上
优先使用工具而非记忆
添加验证层
设计安全的失败机制
持续监控

Kanwal Mehreen 是一位机器学习工程师和技术撰稿人，对数据科学以及人工智能与医学的交叉领域充满热情。她合著了电子书“Maximizing Productivity with ChatGPT”。作为 2022 年谷歌 APAC 生成奖学金获得者，她倡导多元化和学术卓越。她还被评为 Teradata Diversity in Tech Scholar、Mitacs Globalink Research Scholar 和 Harvard WeCode Scholar。Kanwal 是变革的坚定倡导者，她创立了 FEMCodes，旨在赋能 STEM 领域的女性。

🚀 想要体验更好更全面的AI调用？

欢迎使用青云聚合API，约为官网价格的十分之一，支持300+全球最新模型，以及全球各种生图生视频模型，无需翻墙高速稳定，文档丰富，小白也可以简单操作。

目录CONTENT

减少生产环境中 LLM 幻觉的 7 种方法

引言