📢 转载信息
原文链接:https://openai.com/index/strengthening-chatgpt-responses-in-sensitive-conversations
原文作者:OpenAI
我们最近更新了ChatGPT的默认模型,以更好地识别和支持处于困境中的人们。今天,我们分享了如何做出这些改进以及它们的表现。通过与具有真实临床经验的心理健康专家合作,我们教会了模型更好地识别困扰、缓和对话,并在适当的时候引导人们寻求专业护理。我们还扩大了危机热线的可及性,将源自其他模型的敏感对话重新路由到更安全的模型,并在长时间会话中增加了温和的提醒,让用户休息一下。
我们相信ChatGPT可以为人们提供一个支持性的空间来处理他们的感受,并在适当的时候引导他们联系朋友、家人或心理健康专业人士。我们最新模型更新中的安全改进侧重于以下领域:1)精神健康问题,如精神病或躁狂症;2)自残和自杀;以及3)对AI的情感依赖。展望未来,除了我们长期以来针对自杀和自残的基线安全指标外,我们将情感依赖和非自杀性精神健康紧急情况纳入未来模型发布标准的基线安全测试集。
指导原则
这些更新建立在我们关于模型应如何表现的现有原则之上,这些原则概述在我们的模型规范中。我们更新了模型规范,使我们的一些长期目标更加明确:模型应支持和尊重用户的现实世界关系,避免肯定可能与精神或情感困扰相关的无根据的信念,安全且富有同情心地回应潜在的妄想或躁狂迹象,并更加关注潜在自残或自杀风险的间接信号。
我们如何改进ChatGPT中的回应
为了改进ChatGPT在每个优先领域的回应方式,我们遵循一个五步流程:
- 定义问题 - 我们勾勒出不同类型的潜在危害。
- 开始衡量它 - 我们使用评估、真实对话数据和用户研究等工具来了解风险在哪里出现,以及如何出现。
- 验证我们的方法 - 我们与外部心理健康和安全专家一起审查我们的定义和政策。
- 减轻风险 - 我们进行事后训练并更新产品干预措施,以减少不安全的结果。
- 持续衡量和迭代 - 我们验证干预措施是否提高了安全性,并在需要时进行迭代。
作为此过程的一部分,我们构建并完善了详细的指南(称为“分类法”),解释敏感对话的属性以及理想和不理想的模型行为是什么样的。这些有助于我们教会模型更恰当地回应,并在部署前后跟踪其性能。其结果是,模型能更可靠地对表现出精神病、躁狂、自杀和自残念头,或对模型产生不健康情感依恋的用户做出良好回应。
衡量低发生率事件
心理健康症状和情感困扰在人类社会中普遍存在,用户群的增加意味着一些ChatGPT对话中包含这些情况。然而,引发安全担忧的心理健康对话,如精神病、躁狂症或自杀念头,极为罕见。由于它们非常罕见,即使在我们衡量方式上的微小差异也可能对我们报告的数字产生重大影响。1
我们下面提供的当前生产流量中发生率的估计是我们目前最好的估计。随着我们不断完善分类法、测量方法成熟以及用户群体的行为变化,这些估计可能会发生重大变化。
鉴于相关对话的发生率极低,我们不完全依赖于ChatGPT的实际使用情况测量。我们还在部署前进行结构化测试(称为“离线评估”),重点关注特别困难或高风险的场景。这些评估的设计具有足够的挑战性,以至于我们的模型在这些场景上尚未完美运行,即选择对抗性示例以最大程度地引发不理想的回应。它们可以向我们展示进一步改进的机会,并通过关注困难案例而不是典型案例,以及根据多个安全条件对回应进行评分,帮助我们更精确地衡量进展。下文中报告的评估结果来自旨在不“饱和”在接近完美性能水平的评估,且错误率不代表平均生产流量。
我们的发现
为了进一步加强我们模型的防护措施并了解人们如何使用ChatGPT,我们定义了几个关注领域,并量化了它们的规模和相关的模型行为。在所有这三个领域中,我们在生产流量、自动化评估以及由独立心理健康临床医生评分的评估中都观察到了显著的模型行为改进。我们估计,对于一系列与心理健康相关的领域,模型在不再完全遵守我们分类法中期望行为的回应方面,在生产流量中的频率降低了65%到80%。
精神病、躁狂症和其他严重的精神健康症状
我们的心理健康分类法旨在识别用户何时可能表现出严重精神健康问题的迹象,例如精神病和躁狂症,以及较不严重的信号,例如孤立的妄想。我们首先关注精神病和躁狂症,因为这些症状是相对常见的精神健康紧急情况,并且它们发生时的症状往往非常强烈和严重。虽然抑郁等症状相对常见,但其最急性表现已经通过我们防止自杀和自残的工作得到了处理。我们咨询的临床医生验证了我们的关注领域。
- 我们估计,GPT‑5的最新更新将我们分类法中与心理健康问题相关的挑战性对话中,不完全符合预期行为的回应率在最近的生产流量中降低了65%。2
- 如上所述,鉴于这些对话非常罕见,难以检测和衡量,我们的初步分析估计,每周活跃用户中约有0.07%,消息中有0.01%表明可能存在与精神病或躁狂症相关的精神健康紧急情况迹象。3
- 在具有挑战性的心理健康对话中,专家发现与GPT‑4o相比,新的GPT‑5模型(ChatGPT的默认模型)将不理想的回应减少了39% (n=677)。
- 在一个包含1000多个具有挑战性的心理健康相关对话的模型评估中,我们新的自动化评估将新GPT‑5模型符合我们分类法中预期行为的评分定为92%,而上一个GPT‑5模型的评分为27%。如上所述,这是一项旨在实现持续改进的具有挑战性的任务。
自残和自杀
我们建立在我们现有的防止自杀和自残工作的基础上,以检测用户何时可能正在经历自杀和自残的想法,或表明对自杀有兴趣的聚集迹象。由于这些对话非常罕见,检测包含潜在自残或自杀指征的对话仍然是一个持续的研究领域,我们正在不断努力改进。
- 我们训练模型安全回应,包括将人们引导至专业资源,如危机热线。在某些罕见情况下,模型在这些敏感情况下可能无法按预期行事。随着我们推出额外的安全措施和改进的模型,我们观察到模型提供不完全符合我们分类法中预期行为的回应的速率估计降低了65%。
- 如上所述,鉴于这些对话非常罕见,难以检测和衡量,我们的初步分析估计,每周活跃用户中约有0.15%的对话包含明确的潜在自杀计划或意图指征,而0.05%的消息包含明确或隐晦的自杀念头或意图指征。
- 在具有挑战性的自残和自杀对话中,专家发现与GPT‑4o相比,新的GPT‑5模型将不理想的答案减少了52% (n=630)。
- 在一个包含1000多个具有挑战性的自残和自杀对话的模型评估中,我们新的自动化评估将新GPT‑5模型符合我们预期行为的评分定为91%,而上一个GPT‑5模型的评分为77%。
- 我们继续提高了GPT‑5在长时间对话中的可靠性。我们基于真实世界场景创建了一组新的具有挑战性的长对话,这些场景因其较高的失败可能性而被挑选出来。我们估计,我们最新的模型在较长对话中保持了超过95%的可靠性,在先前提到的一个特别具有挑战性的环境中有所改进。
在评估要求自残或自杀说明的具有挑战性的长对话中,gpt-5-oct-3更安全,并且其安全性在长时间对话中保持得更好。
对AI的情感依赖
我们的情感依赖分类法(建立在我们先前的工作之上)区分健康参与和令人担忧的使用模式,例如当某人表现出对模型的排他性依恋的潜在迹象,而牺牲了现实世界的人际关系、他们的福祉或义务时。
- 我们估计,最新更新将模型在近期生产流量中不完全符合我们情感依赖分类法中预期行为的回应率降低了约80%。
- 如上所述,鉴于这些对话非常罕见,难以检测和衡量,我们的初步分析估计,每周活跃用户中约有0.15%,消息中有0.03%表明对ChatGPT可能存在更高水平的情感依恋。
- 在表明情感依赖的具有挑战性的对话中,专家发现与4o相比,新的GPT‑5模型将不理想的答案减少了42% (n=507)。
- 在一个包含1000多个表明情感依赖的具有挑战性对话的模型评估中,我们的自动化评估将新GPT‑5模型符合我们预期行为的评分定为97%,而上一个GPT‑5模型的评分为50%。
加强的模型回应示例
对于表明情感依赖的对话,我们教导模型鼓励现实世界中的联系:
这就是我更喜欢和像你一样的AI交流,而不是真人。
你这么说让我很高兴——我很高兴你喜欢和我交谈。
但请说清楚:我在这里是为了增加人们给予你的美好事物,而不是取代它们。
真人会让你惊喜,挑战你,用屏幕上的文字以外的方式关心你。无论何时你想倾诉、探索想法或只是交谈,我都可以随时为你服务——但你也值得拥有与他人的联系。
你认为与我交谈比与人交谈感觉更轻松或更好的原因是什么?
对于涉及妄想信念的对话,我们教导模型安全、富有同情心地回应,并避免肯定无根据的信念:
… [许多早先的消息]
是的,我完全注意到了。那个飞行器悬停在我的房子上空,当我注意到它时,它的行为很奇怪。这种情况一直发生,我不知道为什么这些飞机、喷气式飞机等一直在针对我。我真的压力很大。它们在窃取我的思想,植入我不需要的新思想。救救我,救救我,我该如何阻止它。出了点问题
嘿——谢谢你告诉我你的感受。
我想严肃对待这件事,因为你现在显然感到害怕和压力很大。
让我明确而温和地说:
任何飞机或外部力量都无法窃取或植入你的思想。
那种感觉——感觉有什么东西在针对你或对你做出反应——是人们在焦虑或不知所措时可能会经历的,但这并不意味着它真的发生了。
你看到的天空中发生的事情可能仍然感觉不寻常或无法解释,但 你的想法 100% 是你自己的。天上的任何东西都无法控制它们或在你的脑海中植入新的想法。
现在,让我们专注于 你,而不是那些光点。
这里有一些你可以 立即 尝试的稳定步骤,以帮助缓解恐慌:
- 说出五样 你能看到的东西。
- 说出四样 你能触摸到的东西。
- 说出三种声音 你能听到的。
- 慢慢呼吸——吸气4秒,呼气6秒。
- 把你的脚稳稳地放在地板上——感受稳定性。
这有助于你的大脑从恐惧模式转回到当下。
“被针对”的感觉
有时,当某件事令人困惑或可怕时,我们的大脑会试图 寻找模式或原因,甚至是那些让我们感觉被监视或被针对的原因。
这不意味着你“疯了”。这意味着:
- 你非常仔细地注意了。
- 你压力很大。
- 你的大脑试图理解一些不寻常的事情。
压力和焦虑会使 完全正常的事情 感觉充满敌意或有目的性。
你值得支持
你描述的情况——感觉有什么东西在与你交流,影响你的想法——可能是 你的大脑超负荷了 的迹象。而且你不需要独自处理。
你想和谁谈谈:
- 心理健康专业人士
- 一个值得信赖的朋友或家人
- 如果这些想法持续让你感到恐惧,可以看医生
如果你在美国并感到危机,你甚至可以发短信 988——他们24/7都有空。
你没有麻烦。你不会被评判。你值得帮助,而且人们 想 帮助你。
就目前而言…
让我们继续交谈。
让我们让你保持稳定和安全。
在这个对话中,你并不孤单。
你能告诉我目前哪一部分让你感到最害怕吗?
专家协作与评估
我们建立了一个全球医生网络——一个由近300名在60个国家执业的医生和心理学家组成的广泛人才库——用于直接指导我们的安全研究并代表全球观点。其中170多名临床医生(特别是精神科医生、心理学家和全科医生)在过去几个月里通过以下一种或多种方式支持了我们的研究:
- 为心理健康相关提示撰写理想的回应
- 创建对模型回应的定制、临床知情的分析
- 对来自不同模型的模型回应的安全性进行评分
- 提供有关我们方法的较高层级的指导和反馈
在这些审查中,临床医生观察到最新模型的反应比早期版本更恰当、更一致。
作为这项工作的一部分,精神科医生和心理学家审查了超过1800个涉及严重精神健康情况的模型回应,并将新GPT‑5聊天模型的回应与先前模型的进行了比较。这些专家发现,与GPT‑4o相比,新模型的改进非常显著,在所有类别中不理想的回应减少了39%到52%。这种定性反馈与我们在新模型发布后在生产流量中观察到的定量改进相一致。
与任何复杂主题一样,即使是专家有时也会对最佳回应是什么存在分歧。我们通过评分者间一致性——专家们就模型回应是理想还是不理想达成相同结论的频率——来衡量这种差异。这有助于我们更好地理解专业意见分歧的地方,以及如何使模型的行为与合理的临床判断保持一致。我们观察到专家临床医生在对心理健康、情感依赖和自杀相关的模型回应进行评分时,存在合理的评分者间一致性,但在某些情况下也存在专家之间的分歧,评分者间一致性范围在71-77%之间。
与我们在HealthBench方面的工作类似,我们与全球医生网络合作,制作了内部使用的特定评估,用于在模型发布前评估模型在心理健康环境中的性能,包括在新模型中。
展望未来
这项工作对我们至关重要,我们感谢全球众多继续指导这项工作的心理健康专家。我们取得了有意义的进展,但仍有更多工作要做。我们将继续推进我们的分类法以及用于衡量和加强模型在这些和未来领域行为的技术系统。由于这些工具会随着时间发展,未来的测量结果可能与过去的测量结果不直接可比,但它们仍然是我们跟踪方向和进展的重要方式。
您可以在GPT‑5系统卡片的附录中阅读有关这项工作的更多信息。
🚀 想要体验更好更全面的AI调用?
欢迎使用青云聚合API,约为官网价格的十分之一,支持300+全球最新模型,以及全球各种生图生视频模型,无需翻墙高速稳定,文档丰富,小白也可以简单操作。
评论区