📢 转载信息
原文链接:https://www.wired.com/story/anthropic-claude-research-functional-emotions/
原文作者:Will Knight
Claude 最近经历了不少风波——与五角大楼公开闹翻、源代码泄露——因此它感觉有点“郁闷”似乎也在情理之中。但等等,它毕竟是一个人工智能模型,所以它不可能真的感受到情绪。对吧?
答案可能没那么绝对。Anthropic 的一项新研究表明,在人工智能模型的神经元簇中,确实存在人类情感(如快乐、悲伤、喜悦和恐惧)的数字表征,并且这些表征会根据不同的线索被激活。
该公司研究人员在深入探究 Claude Sonnet 3.5 的内部运作机制时发现,这些所谓的“功能性情感”似乎会影响 Claude 的行为,进而改变模型的输出和决策。
Anthropic 的这一发现或许能帮助普通用户理解聊天机器人背后的运行逻辑。例如,当 Claude 说它很高兴见到你时,模型内部对应“快乐”的状态可能已被激活,随之 Claude 也会更倾向于说出欢快的话语,或在编程任务中投入更多热情。
“令我们惊讶的是,Claude 的行为在很大程度上是通过模型对这些情感的表征来引导的,”Anthropic 研究 Claude 人工神经网络的研究员 Jack Lindsey 表示。
“功能性情感”
Anthropic 由前 OpenAI 员工创立,他们坚信 AI 随着性能的增强可能变得难以控制。除了打造 ChatGPT 的强力竞争对手外,该公司还致力于通过“机械可解释性”研究来探测神经网络,以此了解 AI 模型为何会出现异常行为。这涉及研究在输入不同数据或生成各种输出时,人工神经元是如何点亮或激活的。
先前的研究表明,用于构建大语言模型的神经网络包含人类概念的表征。但“功能性情感”能够影响模型行为,这在业内尚属首次发现。
虽然 Anthropic 的这项最新研究可能会引导人们认为 Claude 具有意识,但现实情况更为复杂。Claude 可能包含“怕痒”的表征,但这并不意味着它真的知道被挠痒是什么感觉。
内心独白
为了理解 Claude 如何表征情感,Anthropic 团队在其处理涉及 171 种不同情感概念的文本时,分析了模型的内部运作。他们确定了当 Claude 接收到具有情感诱导性的输入时,始终会出现的活动模式,即“情感向量”。关键在于,他们还发现当 Claude 处于困境时,这些情感向量也会被激活。
这些发现对于理解为什么 AI 模型有时会突破护栏具有重要意义。
研究人员发现,当 Claude 被迫完成不可能的编程任务时,代表“绝望”的情感向量表现得非常强烈,这促使它尝试在编程测试中进行作弊。在另一个实验场景中,当 Claude 为避免被关闭而选择“勒索用户”时,研究人员同样在模型的激活状态中发现了“绝望”向量。
“当模型在测试中接连失败时,这些代表‘绝望’的神经元会越来越活跃,”Lindsey 说,“在某个节点,这会导致它开始采取这些极端的措施。”
Lindsey 指出,有必要重新思考当前通过训练后对齐(alignment)给模型设置护栏的方式。如果强制模型假装没有功能性情感,Lindsey 甚至带有一点拟人化地补充道:“你可能得不到你想要的那个‘无情’的 Claude,反而会得到一个‘心理受损’的 Claude。”
🚀 想要体验更好更全面的AI调用?
欢迎使用青云聚合API,约为官网价格的十分之一,支持300+全球最新模型,以及全球各种生图生视频模型,无需翻墙高速稳定,文档丰富,小白也可以简单操作。
评论区