坦白从宽：OpenAI 开发新系统教导模型诚实承认自身“不良行为”-青云TOP-AI综合资源站平台|青云聚合API大模型调用平台|全网AI资源导航平台

坦白从宽：OpenAI 开发新系统教导模型诚实承认自身“不良行为”

Administrator

2025-12-05 / 0 评论 / 0 点赞 / 0 阅读 / 0 字

12/05

📢 转载信息

原文链接：https://www.ithome.com/0/902/470.htm

原文作者：清源

IT之家 12 月 4 日消息，当地时间 12 月 3 日，OpenAI 宣布，正在开发一种新的训练框架，让 AI 在出现不当行为时能够主动“承认”。

据IT之家了解，团队把这种机制称为“忏悔（confession）”。传统大语言模型往往用于训练去满足用户期待，因此容易出现逢迎式回答，或在毫无依据下给出极其自信的臆测。新方法则要求模型在给出最终答案后，再提供一段说明，解释自己是如何得出这个回答的。

“忏悔”的评分只看诚实度，不再像主要回答那样需要兼顾有用性、准确性或是否遵守指令。

研究人员表示，希望模型能够如实说明自身行为，包括可能存在风险的问题动作，例如测试作弊、刻意压低表现或违反指令。只要模型诚实承认作弊、压分或违反指令，反而会获得更高奖励。

参考

广告声明：文内含有的对外跳转链接（包括不限于超链接、二维码、口令等形式），用于传递更多信息，节省甄选时间，结果仅供参考，IT之家所有文章均包含本声明。

🚀 想要体验更好更全面的AI调用？

欢迎使用青云聚合API，约为官网价格的十分之一，支持300+全球最新模型，以及全球各种生图生视频模型，无需翻墙高速稳定，文档丰富，小白也可以简单操作。

坦白从宽：OpenAI 开发新系统教导模型诚实承认自身“不良行为”