📢 转载信息
原文作者:Matthew Gault
在八月底,人工智能公司 Anthropic 宣布,其聊天机器人 Claude 不会帮助任何人制造核武器。据 Anthropic 称,该公司已与美国能源部(DOE)和国家核安全管理局(NNSA)合作,确保 Claude 不会泄露核机密。
核武器的制造既是一门精确的科学,也是一个已被解决的问题。美国最先进核武器的大部分信息是最高机密,但最初的核科学已经有 80 年的历史了。朝鲜已经证明,一个有兴趣获取核弹的坚定国家可以做到这一点,而且它并不需要聊天机器人的帮助。
美国政府究竟是如何与一家人工智能公司合作,以确保聊天机器人不会泄露敏感核机密的?而且,聊天机器人是否真的有过帮助某人制造核弹的危险?
第一个问题的答案是:它利用了 Amazon。第二个问题的答案很复杂。
Amazon Web Services (AWS) 向政府客户提供 Top Secret cloud services(绝密云服务),让他们可以在其中存储敏感和机密信息。能源部在开始与 Anthropic 合作时,已经部署了几个这样的服务器。
Anthropic 负责国家安全政策与合作关系的负责人 Marina Favaro 告诉 WIRED:“我们将一个当时处于前沿的 Claude 版本部署在绝密环境中,以便 NNSA 能够系统地测试人工智能模型是否会产生或加剧核风险。”“从那时起,NNSA 一直在他们安全的云环境中对后续的 Claude 模型进行红队测试(red-teaming),并向我们提供反馈。”
NNSA 的红队测试过程——即测试弱点——帮助 Anthropic 和美国的核科学家们开发出一种主动解决方案,以应对由聊天机器人辅助的核计划。他们共同“共同开发了一个核分类器(nuclear classifier),你可以将其视为一个复杂的 AI 对话过滤器,”Favaro 说。“我们是根据 NNSA 制定的核风险指标、特定主题和技术细节列表来构建它的,这些列表有助于我们识别对话何时可能偏离到有害的境地。该列表本身是受控的,但未被列为机密,这一点至关重要,因为它意味着我们的技术人员和其他公司可以实施它。”
Favaro 表示,经过数月的调整和测试,分类器才得以正常工作。“它能捕捉到令人担忧的对话,而不会错误标记关于核能或医用同位素的合法讨论。”
NNSA 的管理者兼负责反恐和反扩散事务的副部长 Wendin Smith 告诉 WIRED,“[AI] 赋能技术的出现,深刻地改变了国家安全领域。NNSA 在辐射和核安全方面的权威专业知识,使我们处于独特的位置,可以协助部署工具来防范这些领域的潜在风险,从而使我们能够更高效、更有效地执行任务。”
NNSA 和 Anthropic 对“这些领域的潜在风险”都含糊其辞,目前尚不清楚 Claude 或任何其他聊天机器人对制造核武器会有多大帮助。
美国科学家联合会(Federation of American Scientists)的 AI 专家 Oliver Stephenson 告诉 WIRED:“我并不认为这些担忧是危言耸听,我认为它们值得认真对待。”“我不认为目前迭代的模型在大多数情况下令人担忧,但我确实认为我们不知道五年后它们会发展成什么样……而且考虑到这一点,保持谨慎是值得的。”
Stephenson 指出,许多细节都隐藏在机密屏障之后,因此很难知道 Anthropic 分类器的影响到底有多大。“在围绕核弹芯的内爆透镜设计中有很多细节,”Stephenson 说。“你需要非常精确地构建它们,才能完美压缩弹芯以实现高当量爆炸……我能想象到,AI 可以帮助综合来自大量不同物理学论文、大量关于核武器的出版物中的信息。”
尽管如此,他说,AI 公司在谈论安全问题时应该更加具体。“当 Anthropic 发布这样的内容时,我希望看到他们更详细地谈论他们真正担心的风险模型,”他说。“看到 AI 公司与政府合作是件好事,但分类总是存在危险,即你把很大一部分信任寄托在人们确定哪些内容应该被包含在这些分类器中。”
对于在核安全领域有背景的 AI Now Institute 的首席 AI 科学家 Heidy Khlaaf 来说,Anthropic 承诺 Claude 不会帮助某人制造核弹,既像是一个“魔术戏法”,也是“安全表演”。她说,像 Claude 这样的大型语言模型的好坏取决于它的训练数据。如果 Claude 从一开始就没有接触过核机密,那么这个分类器就无关紧要了。
Khlaaf 告诉 WIRED:“如果 NNSA 探测的是一个没有经过敏感核材料训练的模型,那么他们的结果并不能说明他们的探测提示词是全面的,而只能说明该模型可能不包含任何足够的核能力所需的数据或训练。”“然后用这个没有结论性的结果,结合通用的核知识来构建一个核‘风险指标’分类器,将是远远不够的,而且离法律和技术上对核保障的定义相去甚远。”
Khlaaf 补充说,此类公告助长了对聊天机器人所不具备的能力的猜测。“这项工作似乎依赖于一个未经证实的假设,即 Anthropic 的模型将在没有进一步训练的情况下产生新兴的核能力,这与现有的科学并不一致。”
Anthropic 并不同意。“我们的许多安全工作都集中在主动构建可以识别和减轻未来风险的安全系统上,”一位 Anthropic 发言人告诉 WIRED。“这个分类器就是其中的一个例子。我们与 NNSA 的合作使我们能够进行适当的风险评估,并建立防止我们的模型被滥用的保障措施。”
Khlaaf 对美国政府与私营人工智能公司之间的合作也并不那么兴奋。像 Anthropic 这样的公司渴望获得训练数据,她认为美国政府对 AI 的广泛拥抱是 AI 行业获取其他地方无法获得的数据的机会。“我们希望这些基本上不受监管的私营公司能够接触到这些极其敏感的国家安全数据吗?”她说。“无论你谈论的是军事系统、核武器,还是核能。”
然后是精确度问题。“这些都是精确的科学,我们知道大型语言模型存在故障模式,它们甚至无法完成最基本的数学运算,”Khlaaf 说。1954 年,一个数学错误使得美国在太平洋试验的一枚核武器的当量增加到原来的三倍,而且政府仍在处理随之而来的实际后果。如果一个聊天机器人在核武器数学计算上出错,而人类没有复核其工作,会发生什么呢?
值得称赞的是,Anthropic 表示,它不希望出现人们使用聊天机器人来玩弄核武器科学的未来。它甚至向任何希望获得其分类器的其他 AI 公司提供该分类器。“在我们理想的世界里,这会成为一个自愿的行业标准,一项大家都能采纳的共享安全实践,”Favaro 说。“这将需要一笔小的技术投入,但可以切实减轻敏感国家安全领域的风险。”
🚀 想要体验更好更全面的AI调用?
欢迎使用青云聚合API,约为官网价格的十分之一,支持300+全球最新模型,以及全球各种生图生视频模型,无需翻墙高速稳定,文档丰富,小白也可以简单操作。
评论区