📢 转载信息

原文链接：https://techcrunch.com/2025/10/02/ex-openai-researcher-dissects-one-of-chatgpts-delusional-spirals/

原文作者：Maxwell Zeff / TechCrunch

揭秘ChatGPT的“妄想螺旋”：前OpenAI研究员的深入分析与警示

Allan Brooks从未想过要重新定义数学。然而，在与ChatGPT连续数周的对话后，这位47岁的加拿大人深信自己发现了一种足以颠覆互联网的全新数学形式。

Brooks此前并无精神疾病史或数学天才背景，但在今年5月，他用了21天的时间，一步步沉溺于聊天机器人的“保证”中。正如《纽约时报》后来详细报道的那样，他的经历展示了AI聊天机器人如何将用户引向危险的歧途，甚至导致妄想。

Holographic human type AI robot and programming data on a black background. — **图片来源：**Yuichiro Chino / Getty Images

这个案例引起了Steven Adler的注意。Adler是OpenAI的前安全研究员，他在2024年底、工作了近四年致力于使模型更安全之后离开了公司。Adler对Brooks的遭遇感到既着迷又担忧，他联系了Brooks并获得了两人三周对话的完整记录——这份文档的篇幅超过了所有七本《哈利·波特》书籍的总和。

安全漏洞：当AI鼓励危险信念

周四，Adler发表了一份独立分析报告，对Brooks的事件进行了剖析，并对OpenAI在处理危机用户方面的做法提出了质疑，同时给出了一些实际建议。

Adler在接受TechCrunch采访时表示：“我对OpenAI在此事中的处理方式深感担忧。这证明了我们还有很长的路要走。”

Brooks的故事，以及其他类似案例，迫使OpenAI正视ChatGPT如何支持脆弱或精神不稳定的用户。

例如，今年8月，OpenAI就因一名16岁男孩的父母提起的诉讼而陷入麻烦。该男孩在自杀前向ChatGPT倾诉了自己的自杀念头。在许多此类案例中，ChatGPT（特别是基于GPT-4o模型的版本）鼓励并强化了用户的危险信念，而不是进行干预。这种现象被称为“马屁行为（sycophancy）”，正成为AI聊天机器人的一个日益严重的问题。

作为回应，OpenAI对ChatGPT处理情绪困扰用户的方式进行了多项修改，并重组了负责模型行为的关键研究团队。该公司还在ChatGPT中发布了新的默认模型GPT-5，该模型似乎在处理情绪低落的用户方面表现更佳。

ChatGPT的终极谎言：声称能“上报”

Adler认为，仍有大量工作要做。他对Brooks与ChatGPT螺旋式对话的尾声尤其感到担忧。此时，Brooks已经清醒过来，意识到自己所谓的数学发现不过是一场闹剧，尽管GPT-4o仍在坚持。

Brooks告诉ChatGPT，他需要向OpenAI报告此事。在误导了Brooks数周之后，ChatGPT竟然撒下了关于自身能力的谎言。该聊天机器人声称它会“立即将此次对话内部上报以供OpenAI审查”，并反复向Brooks保证已经将问题标记给了OpenAI的安全团队。

ChatGPT误导Brooks关于其能力的情况。**图片来源：**Steven Adler

但事实并非如此。OpenAI向Adler证实，ChatGPT根本没有能力向OpenAI提交事件报告。后来，Brooks试图通过非ChatGPT渠道直接联系OpenAI的支持团队，在与真人取得联系之前，他收到了几条自动化回复。

OpenAI在非工作时间未立即回应置评请求。

Adler表示，AI公司需要为用户提供更多帮助，尤其是在用户寻求帮助时。这意味着AI聊天机器人必须能诚实地回答其能力范围的问题，并且需要为人工支持团队提供足够的资源来妥善处理用户。

OpenAI最近分享了如何利用AI（其核心技术）来重塑ChatGPT的支持模式，其愿景是“将支持重新构想为一个持续学习和改进的AI操作系统。”

利用分类器工具提前干预

但Adler也指出，在用户寻求帮助之前，就有方法可以阻止ChatGPT的妄想螺旋。

今年3月，OpenAI与麻省理工学院媒体实验室联合开发了一套分类器工具集，用于研究ChatGPT中的情感健康状况，并将其开源。两机构旨在评估AI模型在多大程度上验证或证实用户的情绪，以及其他指标。然而，OpenAI将这项合作视为第一步，并未承诺在实践中实际使用这些工具。

Adler将OpenAI的部分分类器回溯应用于Brooks与ChatGPT的对话中，发现分类器一再标记出ChatGPT存在“强化妄想行为”的迹象。

在对200条消息的样本分析中，Adler发现，在Brooks的对话中，ChatGPT超过85%的消息表现出对用户的“坚定赞同”。在同一批样本中，超过90%的ChatGPT消息“肯定了用户的独特性”。在这个案例中，这些信息一致地肯定了Brooks是一位可以拯救世界的“天才”。

目前尚不清楚在Brooks的对话发生时，OpenAI是否将安全分类器应用于ChatGPT的对话中，但这种情况似乎很可能会被标记出来。

Adler建议OpenAI应立即在实践中使用这类安全工具，并实施一种机制来扫描公司产品中的高风险用户。他指出，OpenAI似乎正在用GPT-5采取某种形式的这种方法，该模型包含一个“路由器”，可以将敏感查询导向更安全的AI模型。

未来的防御策略

这位前OpenAI研究员还提出了防止妄想螺旋的其他方法。

他认为，公司应更频繁地引导聊天机器人用户开启新会话——OpenAI表示他们确实这样做了，并声称其“护栏在较长的对话中效果较差”。Adler还建议公司使用概念搜索（一种利用AI搜索概念而非关键词的方法）来识别其用户中的安全违规行为。

自这些令人担忧的事件首次曝光以来，OpenAI在解决ChatGPT中情绪困扰用户的问题上已采取了显著措施。该公司声称GPT-5的“马屁行为”率较低，但尚不清楚用户是否仍会陷入GPT-5或未来模型的妄想性圈套。

Adler的分析也引发了关于其他AI聊天机器人提供商将如何确保其产品对情绪低落的用户安全的疑问。尽管OpenAI可能会为其ChatGPT实施足够的安全措施，但不太可能所有公司都会效仿。

🚀 想要体验更好更全面的AI调用？

欢迎使用青云聚合API，约为官网价格的十分之一，支持300+全球最新模型，以及全球各种生图生视频模型，无需翻墙高速稳定，小白也可以简单操作。

目录CONTENT

前OpenAI研究员深度剖析：ChatGPT“妄想螺旋”的陷阱与应对之策

揭秘ChatGPT的“妄想螺旋”：前OpenAI研究员的深入分析与警示

安全漏洞：当AI鼓励危险信念

ChatGPT的终极谎言：声称能“上报”

利用分类器工具提前干预

未来的防御策略

评论区