AI模型也能被“洗脑”！仅需250份文件就能控制ChatGPT回应-青云TOP-AI综合资源站平台|青云聚合API大模型调用平台|全网AI资源导航平台

AI模型也能被“洗脑”！仅需250份文件就能控制ChatGPT回应

Administrator

2025-10-20 / 0 评论 / 0 点赞 / 5 阅读 / 0 字

10/20

📢 转载信息

原文链接：https://news.mydrivers.com/1/1081/1081047.htm

原文作者：黑白

AI模型也能被“洗脑”！仅需250份文件就能控制ChatGPT回应

快科技10月19日消息，Anthropic、英国AI安全研究所和艾伦·图灵研究所的最新联合研究发现：大语言模型（如Claude、ChatGPT和Gemini等）对数据中毒攻击的抵抗力远低于预期，攻击者仅需极少量的恶意文件就能在模型中植入“后门”。

这项研究针对参数规模从600万到130亿不等的AI模型进行了训练测试，研究人员发现，无论模型规模多大，攻击者只需插入大约250份被污染的文件，就能成功操控模型的响应方式。这一发现颠覆了以往认为模型越大攻击难度越高的传统观念。

对于测试中最大的130亿参数模型，250份恶意文件仅占总训练数据的0.00016%，然而当模型遇到特定的“触发短语”时，它就会按照被植入的后门行为，输出无意义的文本，而非正常的连贯回应。

研究人员还尝试通过持续的“干净数据”训练来消除后门，结果后门仍然在一定程度上持续存在。

虽然本次研究主要针对简单的后门行为，且测试模型规模尚未达到商业旗舰级水平，但研究人员呼吁业界必须改变安全实践。

🚀 想要体验更好更全面的AI调用？

欢迎使用青云聚合API，约为官网价格的十分之一，支持300+全球最新模型，以及全球各种生图生视频模型，无需翻墙高速稳定，文档丰富，小白也可以简单操作。