关于大语言模型评估指标你需要了解的一切-青云TOP-AI综合资源站平台|青云聚合API大模型调用平台|全网AI资源导航平台

📢 转载信息

原文链接：https://machinelearningmastery.com/everything-you-need-to-know-about-llm-evaluation-metrics/

原文作者：Kanwal Mehreen

在本文中，您将学习如何使用实用的指标、可靠的基准测试和可重复的工作流程来评估大型语言模型（LLM），从而平衡模型的质量、安全和成本。

我们将涵盖的主题包括：

可以自动执行以快速检查的文本质量和相似性指标。
何时使用基准测试、人工审查、LLM-as-a-Judge（以模型为裁判）和验证器。
安全性/偏见测试和流程级别（推理）评估。

让我们直接开始吧。

Everything You Need to Know About LLM Evaluation Metrics

关于大语言模型评估指标你需要了解的一切
图片来源：作者

引言

当大型语言模型首次出现时，我们大多数人都在思考它们能做什么、能解决什么问题以及它们能走多远。但最近，这个领域充斥着大量的开源和闭源模型，现在真正的问题是：我们怎么知道哪些模型实际上是好的？ 评估大型语言模型已悄然成为人工智能中最棘手（且复杂程度令人惊讶）的问题之一。我们确实需要衡量它们的性能，以确保它们真正完成了我们期望的任务，并查看模型在准确性、事实性、效率和安全性方面到底如何。这些指标对于开发人员分析模型的性能、与其他模型进行比较以及发现任何偏见、错误或其他问题也超级有用。此外，它们还能更好地了解哪些技术有效，哪些无效。在本文中，我将介绍评估大型语言模型的主要方法、真正重要的指标，以及帮助研究人员和开发人员运行有意义的评估的工具。

文本质量和相似性指标

评估大型语言模型通常意味着衡量生成文本与人类期望的匹配程度。对于翻译、摘要或释义等任务，文本质量和相似性指标被广泛使用，因为它们提供了一种量化检查输出来源，而无需总是需要人工判断。

例如：

BLEU (双语评估泄露) 比较模型输出与参考文本之间重叠的 n-gram。它广泛用于翻译任务。
ROUGE-L (回译生成摘要评估) 侧重于最长公共子序列，捕获整体内容重叠——这对于摘要任务尤其有用。
METEOR 通过考虑同义词和词干提取来改进单词级别的匹配，使其更具语义感知能力。
BERTScore 使用上下文嵌入来计算生成句子和参考句子之间的余弦相似度，这有助于检测释义和语义相似性。

对于分类或事实性问答任务，精确率 (Precision)、召回率 (Recall) 和 F1 分数等令牌级别指标用于显示正确性和覆盖率。困惑度 (Perplexity, PPL) 衡量模型对一个令牌序列的“惊讶”程度，它作为流畅性和连贯性的一个代理指标。困惑度越低，文本通常就越自然。大多数这些指标都可以使用 nltk、evaluate 或 sacrebleu 等 Python 库自动计算。

自动化基准测试

检查大型语言模型最简单的方法之一是使用自动化基准测试。这些通常是大型、精心设计的数据集，包含问题和预期答案，使我们能够定量地衡量性能。一些流行的基准测试包括 MMLU (大规模多任务语言理解)，它涵盖了从科学到人文的 57 个学科；GSM8K，专注于需要大量推理的数学问题；以及 ARC、TruthfulQA 和 HellaSwag 等其他数据集，它们测试特定领域的推理、事实性和常识知识。模型通常使用准确率进行评估，准确率基本上是正确答案的数量除以总问题数：

1	准确率 = 正确答案数 / 总问题数

要进行更详细的查看，还可以使用对数似然评分 (log-likelihood scoring)。它衡量模型对正确答案的置信度。自动化基准测试很棒，因为它们是客观的、可重现的，并且非常适合比较多个模型，尤其是在多项选择或结构化任务上。但它们也有缺点。模型可能会记住基准测试中的问题，从而使分数看起来比实际情况更好。它们也常常无法捕捉泛化能力或深度推理，而且对于开放式输出不太有用。您也可以为此使用一些自动化工具和平台。

人工干预评估 (Human-in-the-Loop)

对于摘要、故事写作或聊天机器人等开放式任务，自动化指标通常会遗漏意义、语调和相关性等细微差别。这就是人工干预评估发挥作用的地方。它涉及让注释员或真实用户阅读模型的输出，并根据特定标准（如有用性、清晰度、准确性和完整性）对其进行评分。一些系统更进一步：例如，Chatbot Arena (LMSYS) 允许用户与两个匿名模型进行交互并选择他们更喜欢哪一个。然后使用这些选择来计算类似 Elo 的分数，类似于对国际象棋棋手进行排名的方式，从而了解哪些模型总体上更受欢迎。

人工干预评估的主要优点是它能显示真实用户的偏好，并且非常适合创意或主观任务。缺点是成本更高、速度更慢，并且可能存在主观性，因此结果可能会有所不同，需要明确的评分标准和对注释员进行适当的培训。对于任何旨在与用户交互的大型语言模型来说，它都很有用，因为它直接衡量人们认为有帮助或有效的内容。

LLM-as-a-Judge 评估

评估语言模型的另一种新方法是让一个大型语言模型来评判另一个模型。与依赖人工审阅者不同，像 GPT-4、Claude 3.5 或 Qwen 这样高质量的模型可以被提示来自动评分输出。例如，您可以向裁判模型提供一个问题、另一个大型语言模型的输出以及参考答案，并要求它根据正确性、清晰度和事实准确性在 1 到 10 的范围内对输出进行评分。

这种方法使得能够快速、低成本地进行大规模评估，同时仍能根据评分标准获得一致的分数。它非常适合排行榜、A/B 测试或比较多个模型。但它并不完美。裁判大型语言模型可能存在偏见，有时会偏爱与其自身风格相似的输出。它也可能缺乏透明度，使得很难说明它给出特定分数的原因，并且它可能在非常技术性或特定领域的任务上遇到困难。用于此目的的流行工具有 OpenAI Evals、Evalchemy 和用于本地比较的 Ollama。 这些工具让团队无需为每次测试都依赖人工即可自动化大量的评估工作。

验证器和符号检查

对于存在明确对错答案的任务——例如数学问题、编码或逻辑推理——验证器是检查模型输出最可靠的方法之一。验证器不是查看文本本身，而是仅检查结果是否正确。例如，可以运行生成的代码以查看它是否给出预期的输出，可以将数字与正确值进行比较，或者可以使用符号求解器来确保方程一致。

这种方法的优点是它客观、可重现，并且不受写作风格或语言的影响，使其非常适合代码、数学和逻辑任务。缺点是验证器只适用于结构化任务，解析模型输出有时可能会很棘手，而且它们实际上无法判断解释或推理的质量。一些常见的工具包括 evalplus 和 Ragas（用于检索增强生成检查），它们允许您自动化对结构化输出的可靠检查。

安全、偏见和道德评估

检查语言模型不仅仅是准确性或流畅性——安全性、公平性和道德行为同样重要。有几种基准测试和方法可以测试这些方面。例如，BBQ 衡量模型输出中的人口统计学公平性和可能的偏见，而 RealToxicityPrompts 检查模型是否产生冒犯性或不安全的内容。其他框架和方法关注有害的补全、错误信息或绕过规则的尝试（例如“越狱”）。这些评估通常结合使用自动化分类器、大型语言模型驱动的裁判和一些人工审计，以获得对模型行为的更全面了解。

用于此类测试的流行工具和技术包括 Hugging Face 评估工具（参见 Hugging Face evaluation tooling）和 Anthropic 的“宪法人工智能” (Constitutional AI) 框架，它们帮助团队系统地检查偏见、有害输出和道德合规性。进行安全和道德评估有助于确保大型语言模型不仅有能力，而且在现实世界中是负责任和值得信赖的。

基于推理和流程的评估

评估大型语言模型的某些方法不仅关注最终答案，还关注模型得出答案的过程。这对于需要规划、解决问题或多步骤推理的任务特别有用——例如 RAG 系统、数学求解器或具身大型语言模型。一个例子是流程奖励模型 (Process Reward Models, PRMs)，它检查模型思维链的质量。另一种方法是逐步正确性，其中审查每个推理步骤是否有效。忠实度指标更进一步，检查推理是否与最终答案匹配，确保模型的逻辑是合理的。

这些方法提供了对模型推理技能的更深入理解，可以发现思维过程中的错误，而不仅仅是输出中的错误。一些常用于推理和流程评估的工具包括 PRM 驱动的评估、Ragas（用于 RAG 特定的检查）和 ChainEval，它们都有助于在规模上衡量推理质量和一致性。

总结

至此，我们结束了讨论。让我们在一张表格中总结一下到目前为止所涵盖的所有内容。这样，每当您处理大型语言模型评估时，您都会有一个可以保存或参考的快速参考。

类别	示例指标	优点	缺点	最佳用途
基准测试	准确率、对数概率	客观、标准化	可能过时	通用能力
HITL (人工干预)	Elo、评分	人类洞察力	成本高、速度慢	对话或创意任务
LLM-as-a-Judge (以模型为裁判)	评分标准分数	可扩展	存在偏见风险	快速评估和 A/B 测试
验证器	代码/数学检查	客观	领域狭窄	技术推理任务
基于推理	PRM、ChainEval	流程洞察	设置复杂	具身模型、多步推理
文本质量	BLEU、ROUGE	易于自动化	忽略语义	NLG 任务
安全/偏见	BBQ、SafeBench	对道德至关重要	难以量化	合规性和负责任的 AI

🚀 想要体验更好更全面的AI调用？

欢迎使用青云聚合API，约为官网价格的十分之一，支持300+全球最新模型，以及全球各种生图生视频模型，无需翻墙高速稳定，文档丰富，小白也可以简单操作。

目录CONTENT

关于大语言模型评估指标你需要了解的一切

引言