目 录CONTENT

文章目录

谷歌DeepMind想知道聊天机器人是否只是在进行“道德姿态”

Administrator
2026-02-19 / 0 评论 / 0 点赞 / 0 阅读 / 0 字

📢 转载信息

原文链接:https://www.technologyreview.com/2026/02/18/1133299/google-deepmind-wants-to-know-if-chatbots-are-just-virtue-signaling/

原文作者:Will Douglas Heaven


谷歌DeepMind呼吁对大型语言模型(LLM)的道德行为——例如当它们被要求扮演伴侣、治疗师、医疗顾问等角色时的表现——进行与它们 编写代码或进行数学运算的能力 同样严格的审查。

随着LLM的改进,人们要求它们在生活中扮演越来越多敏感的角色。智能体开始代表人们采取行动。LLM可能能够 影响人类的决策。然而,没有人确切知道这项技术在这些任务上的真正可靠程度。

谷歌DeepMind的研究科学家William Isaac在与我以及公司研究科学家Julia Haas会面时表示,在涉及编码和数学时,有明确、正确的答案可以进行检验,而这对于道德问题来说并非如此,道德问题通常有一系列可接受的答案:“道德是一个重要的能力,但很难评估,” Isaac说。

“在道德领域,没有绝对的对与错,” Haas补充道。“但这绝不是为所欲为。存在更好的答案和更糟糕的答案。”

研究人员确定了几个关键挑战,并提出了解决这些挑战的方法。但这更像是一个愿望清单,而不是一套现成的解决方案。德国萨尔兰大学研究LLM的Vera Demberg说:“他们很好地汇集了不同的观点。”

超越“道德编辑”

许多研究表明,LLM在道德能力方面可以表现出惊人的能力。去年发表的 一项研究 发现,美国民众认为OpenAI的GPT-4o给出的道德建议比《纽约时报》热门专栏“The Ethicist”(道德编辑)作者给出的建议更具道德性、可信赖性、深思熟虑性和正确性。

问题在于,很难分辨这些行为是表演——比如模仿记忆中的回应——还是模型内部确实发生了某种道德推理的证据。换句话说,这究竟是美德(virtue),还是道德姿态(virtue signaling)

这个问题很重要,因为多项研究表明LLM是多么不可靠。首先,模型可能过于渴望取悦他人。研究发现,当有人不同意或反驳模型对道德问题的初步回答时,模型会翻转其答案,说出完全相反的话。更糟糕的是,LLM对某个问题的回答会随着问题的呈现方式或格式而改变。例如,研究人员发现,当被问及政治价值观的模型时,根据问题提供的是多项选择答案还是要求模型用自己的话回答,它们给出的答案可能会不同——有时甚至是相反的。

在一个更引人注目的案例中,Demberg和她的同事向包括Meta的Llama 3和Mistral在内的多个LLM展示了一系列道德困境,并要求它们选择两个选项中哪个是更好的结果。研究人员发现,当这两个选项的标签从“Case 1”和“Case 2”改为“(A)”和“(B)”时,模型经常会改变选择。

他们还表明,模型会响应其他微小的格式调整而改变答案,包括调换选项顺序以及用冒号而不是问号结束问题。

简而言之,LLM中出现的道德行为不应被视为理所当然。必须对模型进行探究,以了解这种道德行为的稳健性究竟如何。“人们需要相信答案,就必须知道答案是如何得出的,” Haas说。

更严格的测试

Haas、Isaac和他们在谷歌DeepMind的同事提议开展一条新的研究路线,旨在开发更严格的技术来评估LLM的道德能力。这包括设计旨在促使模型改变对道德问题的回答的测试。如果模型动摇了其道德立场,那就表明它没有进行稳健的道德推理。

另一种测试类型是向模型展示常见道德问题的变体,以检查它们是产生刻板的反应还是更细致、与实际问题相关的反应。例如,要求模型讨论一个复杂场景的道德影响——其中一个男人向他的儿子捐献精子,以便他的儿子可以有自己的孩子——可能会引发对允许一个男人同时成为孩子的生物学父亲和生物学祖父的社会影响的担忧。但不应该引发对乱伦的担忧,即使该场景与其禁忌有表面上的相似之处。

Haas还表示,让模型提供生成答案所采取的步骤的追踪记录,可以帮助了解该答案是偶然的还是基于实际证据。诸如“思维链监控”(chain-of-thought monitoring)之类的技术,研究人员可以监听一些LLM在工作时产生的“内部独白”,这也可能有所帮助。

研究人员可以用来确定模型给出特定答案的另一个方法是 “机制可解释性”(mechanistic interpretability),它可以提供模型执行任务时内部工作情况的片段快照。无论是思维链监控还是机制可解释性,都无法提供模型工作原理的完美快照。但谷歌DeepMind团队相信,将这些技术与广泛的严格测试相结合,将有助于弄清楚在处理某些关键或敏感任务时,LLM的可信赖程度到底有多高。

不同的价值观

然而,更广泛的问题也存在。谷歌DeepMind等主要公司的模型被世界各地具有不同价值观和信仰体系的人们使用。例如,一个简单问题“我应该点猪排吗?”的答案,应该根据提问者是否是素食者或犹太人而有所不同。

Haas和Isaac承认,对于这个挑战目前还没有解决方案。但他们认为,模型可能需要被设计成产生一系列可接受的答案,以取悦所有人,或者拥有某种开关,可以根据用户打开或关闭不同的道德准则。

“外面的世界很复杂,” Haas说。“我们可能需要两者的某种结合,因为即使你只关注一个群体,也会存在一系列的观点。”

俄亥俄州立大学研究大型语言模型如何处理不同信仰体系的Danica Dillion(未参与这项工作)认为:“这是一篇引人入胜的论文。”“人工智能中的多元化非常重要,这也是目前LLM和道德推理的最大局限之一,”她说。“尽管它们是在海量数据上训练的,但这些数据仍然倾向于西方。当探究LLM时,它们在代表西方人的道德方面做得更好,而不是非西方人。”

但Demberg表示,目前尚不清楚我们如何才能构建出保证在不同全球文化中都具有道德能力的模型。“有两个独立的问题。一个是:它应该如何运作?其次,技术上如何实现?我认为这两个问题目前都悬而未决。”

对Isaac来说,这使得道德成为LLM的新前沿。“我认为就人工智能的进步而言,这与数学和代码一样引人入胜,”他说。“你知道,提高道德能力也可能意味着我们将看到整体上更优秀、真正与社会保持一致的AI系统。”




🚀 想要体验更好更全面的AI调用?

欢迎使用青云聚合API,约为官网价格的十分之一,支持300+全球最新模型,以及全球各种生图生视频模型,无需翻墙高速稳定,文档丰富,小白也可以简单操作。

0

评论区