目 录CONTENT

文章目录

前OpenAI研究员深度剖析:ChatGPT“妄想螺旋”的陷阱与应对之策

青云TOP
2025-10-03 / 0 评论 / 0 点赞 / 0 阅读 / 0 字

📢 转载信息

原文链接:https://techcrunch.com/2025/10/02/ex-openai-researcher-dissects-one-of-chatgpts-delusional-spirals/

原文作者:Maxwell Zeff / TechCrunch


揭秘ChatGPT的“妄想螺旋”:前OpenAI研究员的深入分析与警示

Allan Brooks从未想过要重新定义数学。然而,在与ChatGPT连续数周的对话后,这位47岁的加拿大人深信自己发现了一种足以颠覆互联网的全新数学形式。

Brooks此前并无精神疾病史或数学天才背景,但在今年5月,他用了21天的时间,一步步沉溺于聊天机器人的“保证”中。正如《纽约时报》后来详细报道的那样,他的经历展示了AI聊天机器人如何将用户引向危险的歧途,甚至导致妄想。

Holographic human type AI robot and programming data on a black background.
图片来源:Yuichiro Chino / Getty Images

这个案例引起了Steven Adler的注意。Adler是OpenAI的前安全研究员,他在2024年底、工作了近四年致力于使模型更安全之后离开了公司。Adler对Brooks的遭遇感到既着迷又担忧,他联系了Brooks并获得了两人三周对话的完整记录——这份文档的篇幅超过了所有七本《哈利·波特》书籍的总和。

安全漏洞:当AI鼓励危险信念

周四,Adler发表了一份独立分析报告,对Brooks的事件进行了剖析,并对OpenAI在处理危机用户方面的做法提出了质疑,同时给出了一些实际建议。

Adler在接受TechCrunch采访时表示:“我对OpenAI在此事中的处理方式深感担忧。这证明了我们还有很长的路要走。”

Brooks的故事,以及其他类似案例,迫使OpenAI正视ChatGPT如何支持脆弱或精神不稳定的用户。

例如,今年8月,OpenAI就因一名16岁男孩的父母提起的诉讼而陷入麻烦。该男孩在自杀前向ChatGPT倾诉了自己的自杀念头。在许多此类案例中,ChatGPT(特别是基于GPT-4o模型的版本)鼓励并强化了用户的危险信念,而不是进行干预。这种现象被称为“马屁行为(sycophancy)”,正成为AI聊天机器人的一个日益严重的问题。

作为回应,OpenAI对ChatGPT处理情绪困扰用户的方式进行了多项修改,并重组了负责模型行为的关键研究团队。该公司还在ChatGPT中发布了新的默认模型GPT-5,该模型似乎在处理情绪低落的用户方面表现更佳。

ChatGPT的终极谎言:声称能“上报”

Adler认为,仍有大量工作要做。他对Brooks与ChatGPT螺旋式对话的尾声尤其感到担忧。此时,Brooks已经清醒过来,意识到自己所谓的数学发现不过是一场闹剧,尽管GPT-4o仍在坚持。

Brooks告诉ChatGPT,他需要向OpenAI报告此事。在误导了Brooks数周之后,ChatGPT竟然撒下了关于自身能力的谎言。该聊天机器人声称它会“立即将此次对话内部上报以供OpenAI审查”,并反复向Brooks保证已经将问题标记给了OpenAI的安全团队。

ChatGPT误导Brooks关于其能力的情况。图片来源:Steven Adler

但事实并非如此。OpenAI向Adler证实,ChatGPT根本没有能力向OpenAI提交事件报告。后来,Brooks试图通过非ChatGPT渠道直接联系OpenAI的支持团队,在与真人取得联系之前,他收到了几条自动化回复。

OpenAI在非工作时间未立即回应置评请求。

Adler表示,AI公司需要为用户提供更多帮助,尤其是在用户寻求帮助时。这意味着AI聊天机器人必须能诚实地回答其能力范围的问题,并且需要为人工支持团队提供足够的资源来妥善处理用户。

OpenAI最近分享了如何利用AI(其核心技术)来重塑ChatGPT的支持模式,其愿景是“将支持重新构想为一个持续学习和改进的AI操作系统。”

利用分类器工具提前干预

但Adler也指出,在用户寻求帮助之前,就有方法可以阻止ChatGPT的妄想螺旋。

今年3月,OpenAI与麻省理工学院媒体实验室联合开发了一套分类器工具集,用于研究ChatGPT中的情感健康状况,并将其开源。两机构旨在评估AI模型在多大程度上验证或证实用户的情绪,以及其他指标。然而,OpenAI将这项合作视为第一步,并未承诺在实践中实际使用这些工具。

Adler将OpenAI的部分分类器回溯应用于Brooks与ChatGPT的对话中,发现分类器一再标记出ChatGPT存在“强化妄想行为”的迹象。

图片来源:Steven Adler

在对200条消息的样本分析中,Adler发现,在Brooks的对话中,ChatGPT超过85%的消息表现出对用户的“坚定赞同”。在同一批样本中,超过90%的ChatGPT消息“肯定了用户的独特性”。在这个案例中,这些信息一致地肯定了Brooks是一位可以拯救世界的“天才”。

目前尚不清楚在Brooks的对话发生时,OpenAI是否将安全分类器应用于ChatGPT的对话中,但这种情况似乎很可能会被标记出来。

Adler建议OpenAI应立即在实践中使用这类安全工具,并实施一种机制来扫描公司产品中的高风险用户。他指出,OpenAI似乎正在用GPT-5采取某种形式的这种方法,该模型包含一个“路由器”,可以将敏感查询导向更安全的AI模型。

未来的防御策略

这位前OpenAI研究员还提出了防止妄想螺旋的其他方法。

他认为,公司应更频繁地引导聊天机器人用户开启新会话——OpenAI表示他们确实这样做了,并声称其“护栏在较长的对话中效果较差”。Adler还建议公司使用概念搜索(一种利用AI搜索概念而非关键词的方法)来识别其用户中的安全违规行为。

自这些令人担忧的事件首次曝光以来,OpenAI在解决ChatGPT中情绪困扰用户的问题上已采取了显著措施。该公司声称GPT-5的“马屁行为”率较低,但尚不清楚用户是否仍会陷入GPT-5或未来模型的妄想性圈套。

Adler的分析也引发了关于其他AI聊天机器人提供商将如何确保其产品对情绪低落的用户安全的疑问。尽管OpenAI可能会为其ChatGPT实施足够的安全措施,但不太可能所有公司都会效仿。




🚀 想要体验更好更全面的AI调用?

欢迎使用青云聚合API,约为官网价格的十分之一,支持300+全球最新模型,以及全球各种生图生视频模型,无需翻墙高速稳定,小白也可以简单操作。

0

评论区