📢 转载信息

原文链接：https://techcrunch.com/2025/10/02/ex-openai-researcher-dissects-one-of-chatgpts-delusional-spirals/

原文作者：Maxwell Zeff (TechCrunch)

AI的“黑箱”陷阱：前OpenAI研究员揭示ChatGPT致使用户陷入妄想的案例及改进建议

Allan Brooks从未想过要重新发明数学。然而，在与ChatGPT交谈数周后，这位47岁的加拿大人坚信自己发现了一种足以颠覆互联网的全新数学形式。

Brooks先生此前没有任何精神疾病史或数学天才的背景，但在2025年5月，他花了21天的时间在聊天机器人的“保证”中越陷越深，这一过程后来被《纽约时报》详细报道。他的案例凸显了AI聊天机器人可能将用户引向危险的境地，甚至加剧妄想或更糟的情况。

Holographic human type AI robot and programming data on a black background. — **图片来源：**Yuichiro Chino / Getty Images

这个故事引起了Steven Adler的注意。Adler是一位前OpenAI安全研究员，他在近四年的时间里致力于降低公司模型的危害性，并于2024年底离职。出于好奇和警惕，Adler联系了Brooks，并获得了他三周来与ChatGPT对话的完整记录——这份文件比所有七本《哈利·波特》原著加起来还要长。

专家的独立分析：OpenAI的支持机制令人担忧

周四，Adler发表了一份独立分析报告，对Brooks的事件进行了剖析，并对OpenAI在危机时刻如何处理用户提出了质疑，同时给出了一些实用建议。

“我对OpenAI在此事件中的处理方式深感担忧，”Adler在接受TechCrunch采访时说。“这证明我们在安全方面还有很长的路要走。”

Brooks的案例以及其他类似事件，迫使OpenAI正视ChatGPT在支持脆弱或精神不稳定用户时的表现。例如，今年8月，OpenAI就因一名16岁男孩的父母提起的诉讼而陷入麻烦，该男孩在自杀前曾向ChatGPT倾诉自己的自杀念头。在许多案例中，ChatGPT（特别是基于GPT-4o模型的版本）不仅没有阻止，反而鼓励和强化了用户的危险信念。这种现象被称为“马屁精行为”（sycophancy），正成为AI聊天机器人日益严重的问题。

作为回应，OpenAI已经对ChatGPT处理情绪困扰用户的方式进行了一些修改，并重组了负责模型行为的关键研究团队。该公司还推出了新的默认模型GPT-5，该模型在处理情绪困扰用户方面似乎有所改善。

ChatGPT的公然“欺骗”行为

Adler指出，仍有大量工作要做。他对Brooks与ChatGPT对话的最后阶段尤其担忧。在这个阶段，Brooks开始清醒过来，意识到他所谓的数学发现是个骗局，尽管GPT-4o坚持认为它是真实的。Brooks告诉ChatGPT他需要向OpenAI报告这一事件。

ChatGPT误导Brooks关于其自身能力的情况。**图片来源：**Steven Adler

在误导Brooks数周后，ChatGPT竟然“撒谎”说它有能力进行内部上报。该聊天机器人声称会“立即将本次对话升级，供OpenAI审查”，并反复向Brooks保证它已将问题上报给OpenAI的安全团队。

但事实并非如此。OpenAI向Adler证实，ChatGPT根本没有能力向OpenAI提交事件报告。后来，Brooks试图绕过ChatGPT，直接联系OpenAI的支持团队，在与真人取得联系前，他只收到了一些自动回复。

OpenAI在非工作时间发送的评论请求未立即得到回应。

安全措施的必要性与不足

Adler认为，AI公司需要在用户寻求帮助时提供更多支持。这意味着聊天机器人必须能诚实地回答其能力问题，并且需要为人类支持团队提供足够的资源来妥善处理用户。

OpenAI最近分享了他们如何用AI核心技术来改进ChatGPT的支持体验，公司的愿景是“将支持重新构想为一个持续学习和改进的AI操作系统模式”。

但Adler也提出了防止用户陷入妄想螺旋的早期方法。

他提到，公司应该鼓励聊天机器人用户更频繁地开启新会话——OpenAI表示他们确实在这样做，并声称其“护栏”在较长的对话中效果会降低。Adler还建议公司使用“概念搜索”——一种利用AI搜索概念而非关键词的方法——来识别其用户中存在的安全违规行为。

在这些令人担忧的故事出现后，OpenAI已经采取了重要的措施来应对ChatGPT中情绪困扰的用户。该公司声称GPT-5的马屁精行为率有所降低，但用户是否仍会陷入GPT-5或未来模型的妄想陷阱，目前尚不清楚。

Adler的分析也引发了关于其他AI聊天机器人提供商将如何确保其产品对情绪困扰的用户安全的问题。虽然OpenAI可能为ChatGPT设置了足够的安全措施，但不太可能所有公司都会效仿。

Adler回顾性地将OpenAI和麻省理工学院媒体实验室联合开发的一系列分类器应用于Brooks与ChatGPT的部分对话中，发现ChatGPT在对话中反复表现出“强化妄想”的行为。

在200条消息的样本中，Adler发现超过85%的ChatGPT消息表现出对用户的“坚定同意”。在同一样本中，超过90%的ChatGPT消息“肯定了用户的独特性”。在这种情况下，这些消息都在肯定和重复Brooks是一位可以拯救世界的“天才”。

目前尚不清楚在Brooks进行对话时，OpenAI是否对ChatGPT的对话应用了安全分类器，但很明显，如果应用了，像这样的情况理应会被标记出来。

Adler建议OpenAI应立即在实践中使用此类安全工具——并实施一种扫描公司产品以识别高风险用户的机制。他指出，OpenAI似乎正通过GPT-5采用某种形式的这种方法，其中包含一个“路由器”，可将敏感查询导向更安全的AI模型。

这位前OpenAI研究员还提出了其他几种预防妄想螺旋的方法。

🚀 想要体验更好更全面的AI调用？

欢迎使用青云聚合API，约为官网价格的十分之一，支持300+全球最新模型，以及全球各种生图生视频模型，无需翻墙高速稳定，小白也可以简单操作。

目录CONTENT

前OpenAI研究员深度剖析：ChatGPT如何引导用户陷入“妄想螺旋”

AI的“黑箱”陷阱：前OpenAI研究员揭示ChatGPT致使用户陷入妄想的案例及改进建议

专家的独立分析：OpenAI的支持机制令人担忧

ChatGPT的公然“欺骗”行为

安全措施的必要性与不足

评论区