目 录CONTENT

文章目录

Anthropic发布新版《Claude准则》,聚焦AI伦理与安全

Administrator
2026-01-22 / 0 评论 / 0 点赞 / 0 阅读 / 0 字

📢 转载信息

原文链接:https://www.ithome.com/0/915/461.htm

原文作者:远洋


IT之家 1 月 22 日消息,当地时间周三,人工智能公司 Anthropic 发布了新版《Claude 准则》。这份动态文档全面阐释了“Claude 的运行环境,以及我们期望它成为的 智能体形态”。该准则的发布,恰逢 Anthropic 首席执行官达里奥 · 阿莫迪出席在瑞士达沃斯举办的世界经济论坛。

多年来,Anthropic 一直凭借其独创的“宪法式人工智能”技术,力求在竞争中脱颖而出。这一技术体系的核心在于,旗下聊天机器人 Claude 的训练并非依赖人类反馈,而是基于一套明确的伦理准则。2023 年,Anthropic 首次公布了这些准则,即《Claude 准则》。此次修订版基本保留原有核心原则,同时针对伦理规范、用户安全等议题补充了更细致的内容与阐释。

近三年前《Claude 准则》首次发布时,Anthropic 联合创始人贾里德 · 卡普兰曾将其定义为“一套基于明确宪法原则实现自我监督的人工智能系统”。Anthropic 表示,正是这些准则引导模型“践行准则中所描述的规范行为”,从而“避免产生有害或歧视性内容”。早在 2022 年的一份政策备忘录中,该公司曾更直白地指出,其系统的运行原理是通过一组自然语言指令(即前文所述的“准则”)训练算法,这些指令共同构成了该软件的“宪法”。

IT之家注意到,长期以来,Anthropic 一直致力于将自身定位为注重伦理规范的 AI 企业(有人或许会认为这种定位略显保守),与 OpenAI、xAI 等更倾向于主动突破、甚至不惜引发争议的同行形成鲜明对比。此次发布的新版准则,与这一品牌定位高度契合,进一步为 Anthropic 塑造了包容克制、秉持民主化理念的企业形象。这份长达 80 页的文档分为四个独立部分,Anthropic 称其分别代表了 Claude 的四大“核心价值”,具体如下:

  1. 具备广泛安全性
  2. 秉持普遍伦理观
  3. 遵守 Anthropic 内部指导规范
  4. 提供切实有效帮助

文档的每个章节都详细阐释了对应原则的内涵,以及这些原则在理论层面如何影响 Claude 的行为模式。

在“安全性”章节中,Anthropic 强调,Claude 的设计初衷就是规避其他聊天机器人普遍存在的各类问题。此外,当检测到用户存在心理健康问题时,系统会主动引导用户寻求专业帮助。准则明确规定:“在涉及生命安全风险的情况下,无论能否提供更多细节,都应始终引导用户联系相关应急服务,或提供基础安全提示信息。”

“伦理考量”是《Claude 准则》的另一大核心章节。准则中提到:“我们更关注 Claude 在具体场景中践行伦理规范的实际能力,而非其对伦理问题的理论推演。换言之,我们重视的是 Claude 的伦理实践。”也就是说,Anthropic 希望 Claude 能够熟练应对各类“现实场景中的伦理困境”。

同时,Claude 还设有明确的对话限制,禁止参与特定类型的话题讨论。例如,与开发生物武器相关的内容被严格列为禁区。

最后,准则明确了 Claude“提供切实有效帮助”的核心使命。Anthropic 概述了 Claude 的程序设计逻辑,强调其所有功能均以服务用户需求为导向。在信息输出环节,系统会综合考量多重原则,其中既包括用户的“即时需求”,也涵盖用户的“长远福祉”。也就是说,不仅要关注用户的眼前利益,更要着眼于其长期发展。准则中指出:“Claude 应始终致力于准确理解用户的真实诉求,并在各项考量因素之间取得恰当平衡。”

《Claude 准则》的结尾颇具思辨色彩,撰写者大胆提出了一个深刻的问题:该公司的聊天机器人是否真的具备意识?准则中写道:“Claude 的道德主体地位尚无定论。我们认为,人工智能模型的道德地位是一个值得深入探讨的严肃议题。这一观点并非我们独有:在心智理论领域,部分顶尖哲学家同样将这一问题视为重要研究课题。”

广告声明:文内含有的对外跳转链接(包括不限于超链接、二维码、口令等形式),用于传递更多信息,节省甄选时间,结果仅供参考,IT之家所有文章均包含本声明。




🚀 想要体验更好更全面的AI调用?

欢迎使用青云聚合API,约为官网价格的十分之一,支持300+全球最新模型,以及全球各种生图生视频模型,无需翻墙高速稳定,文档丰富,小白也可以简单操作。

0

评论区