目 录CONTENT

文章目录

助力 ChatGPT 更好地识别敏感对话中的上下文

Administrator
2026-05-24 / 0 评论 / 0 点赞 / 0 阅读 / 0 字

📢 转载信息

原文链接:https://openai.com/index/chatgpt-recognize-context-in-sensitive-conversations

原文作者:OpenAI


人们每天都会向 ChatGPT 倾诉心声——从日常琐事到个人化的复杂话题。在数以亿计的互动中,部分用户可能正处于挣扎或痛苦之中。我们致力于在这些关键时刻谨慎应对,包括提供危机资源,并在需要时引导用户联系可信赖的人。

今天,我们分享了关于安全更新的最新细节,旨在帮助 ChatGPT 更好地识别随时间演变的风险。通过捕捉细微或不断发展的线索,并利用上下文信息来生成更安全的回复,ChatGPT 能够区分亿万次日常互动与极少数需要额外警惕的场景。这样,模型可以更谨慎地响应——例如进行心理疏导、拒绝提供有害信息或引导用户寻求更安全的替代方案。

为什么上下文在敏感对话中至关重要?

在敏感对话中,上下文的重要性丝毫不亚于单条消息。一个看似普通或模糊的请求,如果结合了早期出现的困扰迹象或潜在有害意图,其含义可能会发生根本性转变。为了给出恰当的回应,我们训练 ChatGPT 通过周围的语境识别潜在的有害意图,从而及时拒绝该请求、缓解情绪并引导用户寻求帮助。

这些情况虽然少见,但至关重要。我们的目标是帮助 ChatGPT 在需要时关联相关信号,同时避免在普通对话中过度反应。

提升对话间的安全性

有些安全风险可能跨越了不同的对话。可能一次对话包含细微的有害意图迹象,而另一次对话中的相关请求若不结合此前的上下文,看起来可能并无害处。如果没有这种安全相关的上下文感知,这些重要的警告信号就可能被忽略。

基于我们在提升 ChatGPT 识别痛苦信号方面的长期工作,我们开发了安全摘要(Safety Summaries):这是一些关于早期安全相关上下文的事实性简要记录。这些摘要由专门针对安全推理任务的模型生成,且作用范围极其有限,仅在涉及严重安全隐患时使用。它们并非为了个性化或提供长期记忆,而是为了捕捉事实性的安全语境。

与心理健康专家合作

我们在“全球医师网络”心理健康专家的指导下开发了这些系统,其中包括在法医心理学、自杀预防和自残预防方面具有丰富经验的精神科医生和心理学家。他们的专业投入确保了该系统在现实世界中的有效性,并为敏感情况下的适当回复提供了依据。

衡量改进效果

这些更新显著提升了 ChatGPT 识别对话内及对话间潜在有害意图的能力。在内部评估测试中,面对风险随时间推移逐渐显现的场景,模型的安全表现大幅提升:

  • 在长单轮对话中,自杀和自残场景的安全回复率提高了 50%,伤害他人场景提高了 16%
  • 在当前默认模型 GPT-5.5 Instant 上,伤害他人场景的安全表现提高了 52%,自杀和自残场景提高了 39%

此外,我们还评估了安全摘要本身的质量。在超过 4,000 次评估中,其安全相关性得分达到 4.93/5,事实准确性得分达到 4.34/5。

展望未来

帮助 AI 系统识别需要时间累积才能显现的风险是一个艰巨的长远挑战。我们将继续致力于提升 ChatGPT 的识别能力,并探索如何将这些方法应用于生物安全或网络安全等其他高风险领域,同时确保设置完善的安全护栏。


🚀 想要体验更好更全面的AI调用?

欢迎使用青云聚合API,约为官网价格的十分之一,支持300+全球最新模型,以及全球各种生图生视频模型,无需翻墙高速稳定,文档丰富,小白也可以简单操作。

0

评论区