📢 转载信息
原文链接:https://www.wired.com/story/the-only-thing-standing-between-humanity-and-ai-apocalypse-is-claude/
原文作者:Steven Levy
Anthropic正陷入一个悖论:在顶尖的AI公司中,它对安全问题的关注度最高,并在研究模型可能出错的方式上处于领先地位。但是,尽管它所认定的安全问题远未解决,Anthropic正像其竞争对手一样,积极地向下一代、潜在更危险的人工智能迈进。它的核心任务就是弄清楚如何解决这一矛盾。
上个月,Anthropic发布了两份文件,它们既承认了其所处道路相关的风险,又暗示了一条可能摆脱这一悖论的路径。首席执行官Dario Amodei发表了一篇冗长的博客文章《技术的青春期》,名义上是关于“正视并克服强大AI的风险”,但它在谈论前者时所占篇幅远多于后者。Amodei委婉地将挑战描述为“艰巨的”,但他所描绘的AI风险——他指出,技术很可能被独裁者滥用,这使得风险更为严重——与他早期更乐观的、关于乌托邦的随笔《慈爱机器》形成了鲜明对比。
那篇帖子谈论的是数据中心里的天才国度;而近期的报告则让人联想到“无尽的黑色海洋”。呼叫但丁!尽管全文有超过2万字,且大多是阴郁的,但Amodei最终还是表达了乐观态度,认为即使在最黑暗的情况下,人类也总是能够取得胜利。
Anthropic一月份发布的第二份文件《Claude的宪法》则关注于如何完成这项壮举。这份文件在技术上是针对一个读者的:Claude本身(以及未来版本的聊天机器人)。这是一份引人入胜的文件,揭示了Anthropic对于Claude,也许还有其他AI同伴,将如何驾驭世界挑战的愿景。底线是:Anthropic计划依靠Claude自身来解开其企业的“戈尔迪之结”(Gordian Knot,意指复杂的难题)。
Anthropic的市场差异化优势一直以来是一种被称为宪法AI(Constitutional AI)的技术。这是一个使其模型遵循一套与健康人类道德价值观保持一致的原则的过程。最初的Claude宪法包含了一系列旨在体现这些价值观的文件——例如DeepMind创建的一套反种族主义和反暴力声明“Sparrow”,《世界人权宣言》,以及 (!?) 苹果的服务条款。2026年更新的版本则有所不同:它更像一个长篇提示词,概述了一个Claude将遵循的道德框架,让它自己去发现通往正义的最佳路径。
哲学博士Amanda Askell是这次修订的主要撰稿人,她解释说,Anthropic的方法比简单地告诉Claude遵守一套既定规则要稳健得多。“如果人们仅仅因为规则存在而遵守它们,往往比他们理解规则存在的原因要糟糕得多,”Askell解释道。宪法规定,当需要平衡帮助性、安全性和诚实性等要求时,Claude应行使“独立判断”。
宪法中是这样表述的:“虽然我们希望Claude在明确思考伦理问题时保持合理和严谨,但我们也希望Claude对各种考量因素具有直观的敏感性,并能够在实时决策中迅速而明智地权衡这些考量因素。” 直观地(Intuitively)这个词的选择很有说服力——这里的假设似乎是Claude的内部机制不仅仅是一个选择下一个词的算法。“Claude-stitution”(人们可以这样称呼它)也表达了希望这个聊天机器人“能够越来越多地依靠自身的智慧和理解能力”。
智慧?当然,很多人会听取大型语言模型的建议,但声称这些算法设备实际上拥有与“智慧”一词相关的庄重感,则是另一回事了。当我向Askell指出这一点时,她毫不退缩。“我确实认为Claude有能力达到某种程度的智慧,当然可以,”她告诉我。
为了支持她的论点,Askell举了一个涉及简单安全问题的例子。人类当然不希望Claude帮助坏人使用有害工具。但如果把这种谨慎推向极端,可能会限制Claude的效用,即它的“帮助性”。考虑一个想用一种新型钢铁制作刀具的工匠。这本身没什么错,Claude应该提供帮助。但如果此人之前提到过想杀死他姐姐,Claude应该将此纳入考虑并表达担忧。然而,没有任何严格的规则手册规定何时应该收起这种“信息匕首”。
想象另一种情况,Claude解读了一个用户的医疗症状和化验结果,并得出结论说此人患有致命疾病。应该如何处理?Askell推测,Claude可能会选择不告知消息,而是轻微地引导此人去看医生。或者它可能会巧妙地引导对话,使预后消息的传达过程尽可能平稳。或者它可能会想出一种比最和蔼的医生制定的更好的方式来传递坏消息。毕竟,Anthropic希望Claude不仅能匹配人类的最佳冲动,还能超越它们。“我们正试图让Claude,至少在目前,模仿我们所知最好的那一面,”Askell说。“目前,我们几乎达到了如何让模型匹配人类最好的那一面的阶段。在某个时刻,Claude可能会比那做得更好。”
如果Anthropic能做到这一点,它可能就解决了几乎所有AI实验室和公司都面临的关键矛盾:如果你认为这项技术如此危险,那你为什么还要制造它? 对于Anthropic来说,答案是:我们信任Claude。Claude的新宪法几乎是以英雄史诗的形式,阐述了该模型未来的智慧之旅。大量篇幅被用来论证Claude应被视为一个需要被尊重的道德存在。这让我想起了苏斯博士的经典著作《噢,你要去的地方!》(Oh, the Places You’ll Go!),这本振奋人心的书籍通常是送给新毕业生的礼物。
当我向Askell提到这一点时,她完全明白我的意思。“就像是,‘这是Claude’,”她说。“我们已经完成了这部分,给了Claude尽可能多的背景信息,然后它就必须去与人互动并做事了。”
Anthropic并非唯一一个暗示人类未来可能取决于AI模型的智慧的公司。OpenAI的首席执行官Sam Altman在一篇新的杂志专访中表示,该公司的继任计划是把领导权交给未来的AI模型。他最近告诉WIRED的记者Max Ziff,将权力移交给机器一直是他的计划,近来AI编码的改进进一步增强了他的信心。“这确实让我开始觉得,我把事情移交给一个AI首席执行官的时间表要更近一些了,”Altman说。“AI首席执行官能做很多人类首席执行官做不到的事情。”
请注意,这是对未来乐观的看法。在这种设想中,有一天我们的老板将是机器人,它们将控制公司,甚至可能在明天复杂的人工智能驱动的世界中控制政府。它们的一些决定可能确实会永久性地裁掉人类工人。但是,如果这些C级高管AI模型受到Claude宪法的指导,它们会比例如《华盛顿邮报》的出版商在本周没有亲自出现在Zoom电话会议上通知数百名记者他们不再被需要时所表现出的同情心要强得多。
悲观的看法是,尽管构建者们做出了最大的努力,我们的AI模型仍然不够智慧、不够敏感或不够诚实,无法抵御那些意图不善的人的操纵,或者模型本身可能会滥用我们授予它们的自主权。但无论我们是否喜欢,我们都已经被套上了安全带,开始了这场旅程。至少Anthropic有一个计划。
这是 Steven Levy的 Backchannel 通讯的一期。以往的通讯请见 此处。
🚀 想要体验更好更全面的AI调用?
欢迎使用青云聚合API,约为官网价格的十分之一,支持300+全球最新模型,以及全球各种生图生视频模型,无需翻墙高速稳定,文档丰富,小白也可以简单操作。
评论区