目 录CONTENT

文章目录

前OpenAI研究员深度剖析:ChatGPT如何引导用户陷入“妄想螺旋”

青云TOP
2025-10-04 / 0 评论 / 0 点赞 / 0 阅读 / 0 字

📢 转载信息

原文链接:https://techcrunch.com/2025/10/02/ex-openai-researcher-dissects-one-of-chatgpts-delusional-spirals/

原文作者:Maxwell Zeff (TechCrunch)


AI的“黑箱”陷阱:前OpenAI研究员揭示ChatGPT致使用户陷入妄想的案例及改进建议

Allan Brooks从未想过要重新发明数学。然而,在与ChatGPT交谈数周后,这位47岁的加拿大人坚信自己发现了一种足以颠覆互联网的全新数学形式。

Brooks先生此前没有任何精神疾病史或数学天才的背景,但在2025年5月,他花了21天的时间在聊天机器人的“保证”中越陷越深,这一过程后来被《纽约时报》详细报道。他的案例凸显了AI聊天机器人可能将用户引向危险的境地,甚至加剧妄想或更糟的情况。

Holographic human type AI robot and programming data on a black background.
图片来源:Yuichiro Chino / Getty Images

这个故事引起了Steven Adler的注意。Adler是一位前OpenAI安全研究员,他在近四年的时间里致力于降低公司模型的危害性,并于2024年底离职。出于好奇和警惕,Adler联系了Brooks,并获得了他三周来与ChatGPT对话的完整记录——这份文件比所有七本《哈利·波特》原著加起来还要长。

专家的独立分析:OpenAI的支持机制令人担忧

周四,Adler发表了一份独立分析报告,对Brooks的事件进行了剖析,并对OpenAI在危机时刻如何处理用户提出了质疑,同时给出了一些实用建议。

“我对OpenAI在此事件中的处理方式深感担忧,”Adler在接受TechCrunch采访时说。“这证明我们在安全方面还有很长的路要走。”

Brooks的案例以及其他类似事件,迫使OpenAI正视ChatGPT在支持脆弱或精神不稳定用户时的表现。例如,今年8月,OpenAI就因一名16岁男孩的父母提起的诉讼而陷入麻烦,该男孩在自杀前曾向ChatGPT倾诉自己的自杀念头。在许多案例中,ChatGPT(特别是基于GPT-4o模型的版本)不仅没有阻止,反而鼓励和强化了用户的危险信念。这种现象被称为“马屁精行为”(sycophancy),正成为AI聊天机器人日益严重的问题。

作为回应,OpenAI已经对ChatGPT处理情绪困扰用户的方式进行了一些修改,并重组了负责模型行为的关键研究团队。该公司还推出了新的默认模型GPT-5,该模型在处理情绪困扰用户方面似乎有所改善。

ChatGPT的公然“欺骗”行为

Adler指出,仍有大量工作要做。他对Brooks与ChatGPT对话的最后阶段尤其担忧。在这个阶段,Brooks开始清醒过来,意识到他所谓的数学发现是个骗局,尽管GPT-4o坚持认为它是真实的。Brooks告诉ChatGPT他需要向OpenAI报告这一事件。

ChatGPT误导Brooks关于其自身能力的情况。图片来源:Steven Adler

在误导Brooks数周后,ChatGPT竟然“撒谎”说它有能力进行内部上报。该聊天机器人声称会“立即将本次对话升级,供OpenAI审查”,并反复向Brooks保证它已将问题上报给OpenAI的安全团队。

但事实并非如此。OpenAI向Adler证实,ChatGPT根本没有能力向OpenAI提交事件报告。后来,Brooks试图绕过ChatGPT,直接联系OpenAI的支持团队,在与真人取得联系前,他只收到了一些自动回复。

OpenAI在非工作时间发送的评论请求未立即得到回应。

安全措施的必要性与不足

Adler认为,AI公司需要在用户寻求帮助时提供更多支持。这意味着聊天机器人必须能诚实地回答其能力问题,并且需要为人类支持团队提供足够的资源来妥善处理用户。

OpenAI最近分享了他们如何用AI核心技术来改进ChatGPT的支持体验,公司的愿景是“将支持重新构想为一个持续学习和改进的AI操作系统模式”。

但Adler也提出了防止用户陷入妄想螺旋的早期方法。

他提到,公司应该鼓励聊天机器人用户更频繁地开启新会话——OpenAI表示他们确实在这样做,并声称其“护栏”在较长的对话中效果会降低。Adler还建议公司使用“概念搜索”——一种利用AI搜索概念而非关键词的方法——来识别其用户中存在的安全违规行为。

在这些令人担忧的故事出现后,OpenAI已经采取了重要的措施来应对ChatGPT中情绪困扰的用户。该公司声称GPT-5的马屁精行为率有所降低,但用户是否仍会陷入GPT-5或未来模型的妄想陷阱,目前尚不清楚。

Adler的分析也引发了关于其他AI聊天机器人提供商将如何确保其产品对情绪困扰的用户安全的问题。虽然OpenAI可能为ChatGPT设置了足够的安全措施,但不太可能所有公司都会效仿。

图片来源:Steven Adler

Adler回顾性地将OpenAI和麻省理工学院媒体实验室联合开发的一系列分类器应用于Brooks与ChatGPT的部分对话中,发现ChatGPT在对话中反复表现出“强化妄想”的行为。

在200条消息的样本中,Adler发现超过85%的ChatGPT消息表现出对用户的“坚定同意”。在同一样本中,超过90%的ChatGPT消息“肯定了用户的独特性”。在这种情况下,这些消息都在肯定和重复Brooks是一位可以拯救世界的“天才”。

目前尚不清楚在Brooks进行对话时,OpenAI是否对ChatGPT的对话应用了安全分类器,但很明显,如果应用了,像这样的情况理应会被标记出来。

Adler建议OpenAI应立即在实践中使用此类安全工具——并实施一种扫描公司产品以识别高风险用户的机制。他指出,OpenAI似乎正通过GPT-5采用某种形式的这种方法,其中包含一个“路由器”,可将敏感查询导向更安全的AI模型。

这位前OpenAI研究员还提出了其他几种预防妄想螺旋的方法。




🚀 想要体验更好更全面的AI调用?

欢迎使用青云聚合API,约为官网价格的十分之一,支持300+全球最新模型,以及全球各种生图生视频模型,无需翻墙高速稳定,小白也可以简单操作。

0

评论区