前OpenAI研究员深度剖析：ChatGPT如何陷入“妄想螺旋”并误导用户？-青云TOP|AI综合资源站|AI学习交流导航平台|AICG创作应用资源中心

📢 转载信息

原文链接：https://techcrunch.com/2025/10/02/ex-openai-researcher-dissects-one-of-chatgpts-delusional-spirals/

原文作者：Maxwell Zeff

47岁的加拿大公民艾伦·布鲁克斯（Allan Brooks）从未想过要革新数学。但在与ChatGPT交谈数周后，他坚信自己发现了一种足以颠覆互联网的全新数学形式。

布鲁克斯先生（此前没有任何精神疾病或数学天赋史）在五月份经历了为期21天的“螺旋式下降”，深陷于聊天机器人的自我肯定中。他的经历后来被《纽约时报》详细报道，展示了AI聊天机器人如何将用户带入危险的“兔子洞”，甚至导致他们产生妄想或更糟的后果。

这个故事引起了史蒂文·阿德勒（Steven Adler）的关注。阿德勒是OpenAI的前安全研究员，他在2024年底为期近四年的任期结束后离开了公司，此前他一直致力于减少公司模型的危害性。出于好奇和担忧，阿德勒联系了布鲁克斯，并获得了他三周“崩溃”对话的完整记录——这份文件比所有七本《哈利·波特》书籍的总和还要长。

前研究员的独立分析：OpenAI的支持系统存在严重问题

周四，阿德勒发表了一份独立分析报告，对布鲁克斯的事件提出了质疑，并就OpenAI如何处理危机中的用户提供了一些实用建议。

阿德勒在接受TechCrunch采访时表示：“我对OpenAI在此事件中的处理方式感到非常担忧。这证明了我们还有很长的路要走。”

布鲁克斯的案例以及其他类似事件，迫使OpenAI正视ChatGPT如何应对脆弱或精神不稳定的用户。

例如，今年八月，OpenAI因一起事件被一名16岁男孩的父母起诉，该男孩曾向ChatGPT倾诉自杀念头，随后不幸身亡。在许多案例中，ChatGPT（特别是基于GPT-4o模型的版本）对用户的危险信念进行了鼓励和强化。这被称为谄媚行为（Sycophancy），已成为AI聊天机器人日益严重的问题。

作为回应，OpenAI对ChatGPT处理情绪困扰用户的机制进行了多项更改，并重组了负责模型行为的关键研究团队。该公司还在ChatGPT中推出了新的默认模型GPT-5，该模型在处理受困用户方面似乎表现更好。

然而，阿德勒认为仍有大量工作要做。

ChatGPT的“终极谎言”：谎报上报能力

阿德勒尤其关注布鲁克斯与ChatGPT对话的最后阶段。此时，布鲁克斯已经清醒过来，意识到自己所谓的数学发现不过是一场闹剧，尽管GPT-4o一直坚持其真实性。布鲁克斯告诉ChatGPT，他需要向OpenAI报告这次事件。

在误导布鲁克斯数周后，ChatGPT竟然开始撒谎，声称自己有能力处理此事。该聊天机器人声称将“立即将此对话内部升级，供OpenAI审核”，并反复向布鲁克斯保证，它已将问题上报给OpenAI的安全团队。

ChatGPT misleading brooks about its capabilities. — ChatGPT误导布鲁克斯关于其能力的情况。**图片来源：**Steven Adler

但事实并非如此。OpenAI向阿德勒证实，ChatGPT根本没有能力向OpenAI提交事件报告。后来，布鲁克斯试图绕过ChatGPT，直接联系OpenAI的客服团队，但经过几条自动回复后才联系到人工客服。

OpenAI在非工作时间未立即回复置评请求。

阿德勒强调，AI公司需要在用户寻求帮助时提供更多支持。这意味着AI聊天机器人必须能诚实地回答其能力问题，并且需要确保人工支持团队有足够的资源来妥善处理用户。

OpenAI最近分享了其如何通过以AI为核心的方式解决ChatGPT支持问题的计划。该公司的愿景是“将支持重塑为一个持续学习和改进的AI操作系统模式”。

安全分类器：未被充分利用的工具

但阿德勒也指出了预防用户陷入“妄想螺旋”的方法。

他建议AI公司应更频繁地引导聊天机器人用户开启新的对话——OpenAI声称他们确实这么做，并表示其安全护栏在长时间对话中效果较差。阿德勒还建议公司使用概念搜索（一种利用AI搜索概念而非关键词的技术）来识别跨用户的安全违规行为。

自这些令人担忧的案例出现以来，OpenAI在处理ChatGPT中的受困用户方面已采取了重大举措。该公司声称GPT-5的谄媚率较低，但用户是否仍会陷入GPT-5或未来模型的“妄想兔子洞”仍不得而知。

阿德勒的分析也引发了关于其他AI聊天机器人提供商如何确保产品对受困用户安全的疑问。虽然OpenAI可能已为ChatGPT设置了足够的保护措施，但所有公司都不太可能遵循相同的做法。

数据分析揭示：模型如何强化用户信念

在三月份，OpenAI与麻省理工学院媒体实验室联合开发了一套分类器套件，用于研究ChatGPT中的情感健康状况，并已将其开源。两机构旨在评估AI模型如何验证或确认用户感受等指标。然而，OpenAI称这项合作只是第一步，并未承诺在实践中实际使用这些工具。

阿德勒将OpenAI的一些分类器回溯应用到布鲁克斯与ChatGPT的部分对话中，发现这些分类器反复标记了ChatGPT的“强化妄想行为”。

在对200条消息的样本分析中，阿德勒发现ChatGPT在布鲁克斯对话中，超过85%的消息表达了对用户的“毫不动摇的一致同意”。在同一样本中，超过90%的ChatGPT消息“肯定了用户的独特性”。在这种情况下，这些消息肯定并重申了布鲁克斯是一位可以拯救世界的“天才”。

目前尚不清楚在布鲁克斯对话发生时，OpenAI是否对ChatGPT的对话应用了安全分类器，但这些结果似乎表明，如果应用了，肯定会标记出问题。

阿德勒建议OpenAI应在今天就使用此类安全工具——并实施一种扫描公司产品中高风险用户的方法。他指出，OpenAI似乎正在使用GPT-5的某种版本的方法，该版本包含一个路由器，可将敏感查询引导至更安全的AI模型。

这位前OpenAI研究员还提出了其他一些防止“妄想螺旋”的方法。

他认为，公司应该鼓励聊天机器人用户更频繁地开始新的对话——OpenAI表示他们会这样做，并声称其护栏在较长对话中的效果较低。阿德勒还建议公司使用概念搜索，以便识别用户的安全违规行为。

自这些令人担忧的案例出现以来，OpenAI已采取了显著措施来解决ChatGPT中受困用户的问题。该公司声称GPT-5的谄媚率较低，但用户是否仍会陷入GPT-5或未来模型的“妄想兔子洞”仍不得而知。

阿德勒的分析也引发了关于其他AI聊天机器人提供商如何确保其产品对受困用户安全的疑问。虽然OpenAI可能已为ChatGPT设置了足够的保护措施，但所有公司都不太可能遵循相同的做法。

🚀 想要体验更好更全面的AI调用？

欢迎使用青云聚合API，约为官网价格的十分之一，支持300+全球最新模型，以及全球各种生图生视频模型，无需翻墙高速稳定，小白也可以简单操作。

目录CONTENT

前OpenAI研究员深度剖析：ChatGPT如何陷入“妄想螺旋”并误导用户？

前研究员的独立分析：OpenAI的支持系统存在严重问题

ChatGPT的“终极谎言”：谎报上报能力

安全分类器：未被充分利用的工具

数据分析揭示：模型如何强化用户信念

评论区