目 录CONTENT

文章目录

麻省理工学院团队推出创新方法,精准测试AI文本分类器的可靠性

Administrator
2025-10-15 / 0 评论 / 0 点赞 / 2 阅读 / 0 字

📢 转载信息

原文链接:https://news.mit.edu/2025/new-way-test-how-well-ai-systems-classify-text-0813

原文作者:David Chandler | MIT Laboratory for Information and Decision Systems


告别模糊判断:麻省理工学院推出新方法,量化AI文本分类器的真实能力

随着大型语言模型(LLM)日益主导我们的日常生活,对这些系统可靠性的检验变得比以往任何时候都更加重要。无论是判断影评的好坏、区分新闻的商业或科技属性,还是确保聊天机器人不提供错误的财务或医疗建议,文本分类器的准确性至关重要。

现在,麻省理工学院信息与决策系统实验室(LIDS)的一个团队开发出一种创新的方法。该方法不仅能衡量这些文本分类器的工作效果,还能进一步指导如何提高它们的准确性。

A cartoon detective examines one of three file folders through a magnifying glass.

图注:一种新的评估方法可以衡量文本分类器完成任务的效率,并展示了如何使其更加准确。

图片来源:iStock

传统测试的局限性与新方法的诞生

检验这些分类系统的一个标准方法是创建“合成样本”——那些与已被分类的句子高度相似的文本。例如,研究人员可能会拿一个已被程序标记为“好评”的句子,通过改变一两个词语但保持其核心含义,看是否能“欺骗”分类器,使其判定为“差评”。或者,一条被标记为“错误信息”的句子是否可能被误判为“准确信息”。这种能够“愚弄”分类器的修改被称为“对抗性样本”。

LIDS 的主要研究科学家 Kalyan Veeramachaneni 表示,过去人们尝试了各种方法来寻找这些分类器的漏洞,但现有方法往往难以捕捉到它们本应发现的许多示例。

Veeramachaneni 指出,越来越多的公司正尝试实时使用这些评估工具,监控聊天机器人的输出,以确保它们不会产生不当回复。例如,银行使用聊天机器人回复账户余额查询等日常请求,但必须确保其回复绝不能被解释为财务建议,否则可能使公司承担法律责任。“在向最终用户展示聊天机器人的回复之前,他们想使用文本分类器来检测它是否提供了财务建议,”Veeramachaneni 说。因此,测试该分类器的可靠性就变得至关重要。

利用大模型定位“关键少数”词汇

“这些聊天机器人、摘要引擎等正在被广泛部署,”他解释道,无论是在处理外部客户还是组织内部(如提供人力资源信息)都一样。将文本分类器纳入流程中,以检测和过滤掉不该出现的言论,非常重要。

这就是对抗性样本发挥作用的地方——那些已经被分类,但经过轻微修改(同时保留相同含义)后会产生不同分类结果的句子。那么,如何确认修改后的句子含义是否相同呢?通过使用另一个大型语言模型(LLM)来解释和比较含义。Veeramachaneni 说:“如果 LLM 表示两个句子意思相同,但分类器却给出了不同的标签,那么这个句子就是对抗性的——它可以愚弄分类器。”

当研究人员检查这些对抗性句子时,他们发现“大多数情况下,这只是一个词的变化”,尽管使用 LLM 生成这些替代句的人通常没有意识到这一点。

进一步的分析,通过 LLM 分析了数以万计的样本,表明某些特定的词语对改变分类具有不成比例的影响。因此,对分类器准确性的测试可以集中在这个对结果影响最大的微小词汇子集上。在某些特定应用中,他们发现词汇表中 30,000 个单词中,仅有十分之一的 1% 词汇就造成了近一半的分类结果反转。

Veeramachaneni 介绍说,LIDS 的近期毕业生 Lei Xu(博士 '23),在论文工作的大部分分析中,“使用了许多有趣的估计技术来确定哪些是最有能力改变整体分类、能愚弄分类器的强大词汇。”目标是实现更具针对性的搜索,而不是梳理所有可能的词语替换,从而使生成对抗性样本的计算任务更易于管理。“他正有趣地利用大型语言模型来理解单个词汇的力量。”

然后,他还利用 LLM 搜索与这些强大词汇紧密相关的其他词汇,从而根据它们对结果的影响程度对词汇进行整体排序。一旦找到这些对抗性句子,就可以反过来用于重新训练分类器,使其能够考虑这些情况,从而增强分类器对错误的鲁棒性。

新指标与开源工具

使分类器更加准确听起来似乎不是一件大事,如果仅仅是把新闻文章分类或判断影评的好坏。但现在,分类器越来越多地应用于结果至关重要的场景中,无论是防止意外泄露敏感的医疗、财务或安全信息,还是帮助指导重要的研究(如化学化合物的特性或蛋白质折叠的生物医学应用),亦或是识别和阻止仇恨言论或已知错误信息。

基于这项研究,团队引入了一个新的度量标准,他们称之为 $p$,它提供了给定分类器对“单次词语攻击”的鲁棒性度量。鉴于此类误分类的重要性,研究团队已将他们的成果作为开放获取资源提供给任何人使用。该软件包包含两个组件:SP-Attack,用于生成对抗性句子来测试特定应用中的分类器;以及 SP-Defense,旨在通过生成和使用对抗性句子来重新训练模型,从而提高分类器的鲁棒性。

在一些测试中,竞争方法的对抗性攻击成功率高达 66%,而该团队的系统将该攻击成功率降低了近一半,降至 33.7%。Veeramachaneni 表示,在其他应用中,改进幅度只有 2% 左右,但即便是这样也至关重要,因为这些系统每天处理数十亿次的交互,即使是很小的百分比差异也可能影响数百万笔交易。

该团队的研究成果已于 7 月 7 日发表在《Expert Systems》期刊上,作者包括 LIDS 的 Xu、Veeramachaneni 和 Alnegheimish,以及来自法国马赛 IRD 的 Laure Berti-Equille 和来自西班牙胡安·卡洛斯国王大学的 Alfredo Cuesta-Infante。

论文链接:“Single word change is all you need: Using LLMs to create synthetic training examples for text classifiers”




🚀 想要体验更好更全面的AI调用?

欢迎使用青云聚合API,约为官网价格的十分之一,支持300+全球最新模型,以及全球各种生图生视频模型,无需翻墙高速稳定,小白也可以简单操作。

青云聚合API官网https://api.qingyuntop.top

支持全球最新300+模型:https://api.qingyuntop.top/pricing

详细的调用教程及文档:https://api.qingyuntop.top/about

0

评论区