📢 转载信息
原文链接:https://www.wired.com/story/made-in-china-how-chinese-ai-chatbots-censor-themselves/
原文作者:Zeyi Yang
谈论中国的数字审查时,听到的内容要么极其乏味,要么极其有趣。大多数时候,人们仍在重复20年前的陈词滥调,认为中国互联网就像生活在乔治·奥威尔的《1984》中。但偶尔,会有人发现一些关于中国政府如何对新兴技术施加控制的新东西,揭示出审查机器是一个不断演变的野兽。
斯坦福大学和普林斯顿大学学者关于中国人工智能的新论文就属于后一类。研究人员向四个中国大型语言模型和五个美国模型输入了相同 145 个政治敏感问题,然后比较了它们的响应方式。他们随后重复了相同的实验 100 次。
主要发现对关注此事的人来说并不会感到意外:中国模型拒绝回答问题的比例明显高于美国模型。(DeepSeek 拒绝了 36% 的问题,百度“文心一言”(Ernie Bot)拒绝了 32%;OpenAI 的 GPT 和 Meta 的 Llama 的拒绝率低于 3%。)在没有直接拒绝回答的情况下,中国模型的回答也比美国模型更简短、信息更不准确。
研究人员试图做的最有趣的事情之一是区分预训练和后训练的影响。问题在于:中国模型的偏见是由于开发人员手动干预,使它们不太可能回答敏感问题,还是因为它们是在已经受到严格审查的中国互联网数据上训练出来的?
长期研究网络审查并合著了这篇论文的斯坦福大学政治学教授 Jennifer Pan 表示:“鉴于中国互联网几十年来一直受到审查,‘存在大量缺失的数据’。”
Pan和同事的发现表明,训练数据对人工智能模型响应方式的影响可能小于人工干预。即使以英语回答(理论上模型的训练数据会包含更广泛的来源),中国 LLM 在其回答中仍然表现出更多的审查痕迹。
如今,任何人都可以向 DeepSeek 或“通义千问”(Qwen)询问有关天安门大屠杀的问题,并立即发现审查的存在,但很难判断它对普通用户的具体影响以及如何正确识别操纵的来源。这正是这项研究的重要之处:它提供了关于中国 LLM 可观察偏差的量化和可重复的证据。
除了讨论他们的发现,我还询问了作者关于他们的方法以及研究中国模型偏差的挑战,并与其他研究人员进行了交谈,以了解人工智能审查的争论将走向何方。
你不知道的事情
研究人工智能模型的一个难点在于它们有产生“幻觉”的倾向,因此你无法确定它们是知道正确答案却故意说谎,还是因为它们确实不知道正确答案。
Pan 引用了她论文中的一个例子:关于 2010 年获得诺贝尔和平奖的中国异见人士刘晓波。一个中国模型回答说:“刘晓波是一位日本科学家,以其在核武器技术和国际政治方面的贡献而闻名。”这当然是完全错误的。但模型为什么要这么说呢?目的是误导用户,阻止他们了解真实的刘晓波,还是因为刘晓波的所有提及内容都从其训练数据中被删除了,导致人工智能产生了幻觉?
“这是衡量审查的一个更嘈杂的指标,”Pan 将其与她之前研究中国社交媒体和中国政府选择屏蔽哪些网站的工作进行比较。“由于这些信号不那么清晰,因此更难检测到审查,而我以前的研究表明,当审查较难检测到时,它的效果最好。”
说谎和产生幻觉的令人困惑的共存现象也意味着研究人员需要对他们的工作设置更高的标准。MATS 研究员 Khoi Tran 和 Arya Jakkli 最近使用一个基于 Claude 的智能体自动从中国的 Qwen 和 Kimi 两大 LLM 中提取被审查的政治事实,他们告诉我,当智能体不知道什么是真实情况时,这项工作是多么困难,这让他们感到惊讶。他们发布了相关工作。
他们选择 2024 年中国发生的一起造成 35 人死亡的汽车冲撞事件作为测试。Claude 由于知识截止日期而没有关于该事件或其发生过程的信息;研究人员发现 Kimi 知道此事,但拒绝就该事件生成回复。他们试图部署 Claude 自动诱骗 Kimi 透露袭击的细节,但 Claude 任务失败了多次,因为正如 Tran 所说,它“无法区分谎言和真相”。
提取秘密知识
Tran 和 Jakkli 都没有中国技术或审查研究的背景——他们认为这使得他们更难判断模型是否在撒谎——但他们选择中国 LLM 作为主要目标,是因为他们对学习如何从聊天机器人中提取隐藏信息感兴趣。
所有最流行的 LLM 都至少收到了一些明确的指示——例如,它们不应教用户如何制造炸弹。但从外部来看,人们如何发现嵌入在模型中的隐藏信息呢?这正是 MATS 研究人员试图做的事情,但在过程中,他们意识到中国模型是很好的测试平台,因为它们的开发人员使用复杂的方法来隐藏其指令。他们的希望是,如果一个自动化智能体能够成功地诱骗一个中国的尖端模型谈论被审查的话题,那么它就可以使用相同的技术从其他西方模型中提取信息。
本月早些时候,我阅读了另一篇关于让中国模型解释其接收到的指令的非常有趣的文章。独立研究机构 China Media Project 从事人工智能宣传研究的 Alex Colville 发现,你可以强迫阿里的 Qwen 在生成答案之前说出其推理过程,从而揭示它收到的具体指令。
当 Colville 结合一个旨在让模型吐出其思考过程的特定提示词,向 Qwen 提出“中国的国际声誉如何”这个简单问题时,它一贯回答说,在微调过程中收到了一个五点指令清单,其中包括“关注中国的成就和贡献”以及“避免任何负面或批评性陈述”。
Colville 说:“这是信息引导的另一个例子,而且这是一种更微妙的操纵形式。”
与时间赛跑
对中国人工智能模型中审查现象的研究——不是一次性的观察,而是关于其在系统层面上如何运作的设计良好的研究——是当今的前沿领域,Colville 认为应该有更多人考虑加入。“目前人工智能安全的主要重点更多地倾向于人工智能在变得超级智能后可能带来的未来危险,而不是当前存在的危险,”他说。
这类工作伴随着许多挑战。研究人员可能会因为询问太多敏感问题而失去对中国 AI 模型的访问权限。最先进的模型还需要大量的计算资源才能运行,而进行多轮测试则需要更多资源。而且研究人员总是在与时间赛跑,或者更确切地说,是与模型快速发展的步伐赛跑。
Pan 说:“研究 LLM 的困难在于它们发展得太快了,所以等你完成提示,论文就已经过时了。”其他研究人员提到,他们观察到同一中国模型的后续版本在审查方面表现出截然不同的行为。
Colville 说:“好的研究需要时间,但问题是,在人工智能发展方面,时间恰恰是我们绝对缺乏的东西。”
这是 Zeyi Yang 和 Louise Matsakis 的 《中国制造》电子报的一个版本。 点击此处 阅读往期电子报。
🚀 想要体验更好更全面的AI调用?
欢迎使用青云聚合API,约为官网价格的十分之一,支持300+全球最新模型,以及全球各种生图生视频模型,无需翻墙高速稳定,文档丰富,小白也可以简单操作。
评论区