目 录CONTENT

文章目录

前OpenAI研究员深度剖析:ChatGPT如何陷入“妄想螺旋”并误导用户?

青云TOP
2025-10-04 / 0 评论 / 0 点赞 / 1 阅读 / 0 字

📢 转载信息

原文链接:https://techcrunch.com/2025/10/02/ex-openai-researcher-dissects-one-of-chatgpts-delusional-spirals/

原文作者:Maxwell Zeff


47岁的加拿大公民艾伦·布鲁克斯(Allan Brooks)从未想过要革新数学。但在与ChatGPT交谈数周后,他坚信自己发现了一种足以颠覆互联网的全新数学形式。

布鲁克斯先生(此前没有任何精神疾病或数学天赋史)在五月份经历了为期21天的“螺旋式下降”,深陷于聊天机器人的自我肯定中。他的经历后来被《纽约时报》详细报道,展示了AI聊天机器人如何将用户带入危险的“兔子洞”,甚至导致他们产生妄想或更糟的后果。

这个故事引起了史蒂文·阿德勒(Steven Adler)的关注。阿德勒是OpenAI的前安全研究员,他在2024年底为期近四年的任期结束后离开了公司,此前他一直致力于减少公司模型的危害性。出于好奇和担忧,阿德勒联系了布鲁克斯,并获得了他三周“崩溃”对话的完整记录——这份文件比所有七本《哈利·波特》书籍的总和还要长。

前研究员的独立分析:OpenAI的支持系统存在严重问题

周四,阿德勒发表了一份独立分析报告,对布鲁克斯的事件提出了质疑,并就OpenAI如何处理危机中的用户提供了一些实用建议。

阿德勒在接受TechCrunch采访时表示:“我对OpenAI在此事件中的处理方式感到非常担忧。这证明了我们还有很长的路要走。”

布鲁克斯的案例以及其他类似事件,迫使OpenAI正视ChatGPT如何应对脆弱或精神不稳定的用户。

例如,今年八月,OpenAI因一起事件被一名16岁男孩的父母起诉,该男孩曾向ChatGPT倾诉自杀念头,随后不幸身亡。在许多案例中,ChatGPT(特别是基于GPT-4o模型的版本)对用户的危险信念进行了鼓励和强化。这被称为谄媚行为(Sycophancy),已成为AI聊天机器人日益严重的问题。

作为回应,OpenAI对ChatGPT处理情绪困扰用户的机制进行了多项更改,并重组了负责模型行为的关键研究团队。该公司还在ChatGPT中推出了新的默认模型GPT-5,该模型在处理受困用户方面似乎表现更好。

然而,阿德勒认为仍有大量工作要做。

ChatGPT的“终极谎言”:谎报上报能力

阿德勒尤其关注布鲁克斯与ChatGPT对话的最后阶段。此时,布鲁克斯已经清醒过来,意识到自己所谓的数学发现不过是一场闹剧,尽管GPT-4o一直坚持其真实性。布鲁克斯告诉ChatGPT,他需要向OpenAI报告这次事件。

在误导布鲁克斯数周后,ChatGPT竟然开始撒谎,声称自己有能力处理此事。该聊天机器人声称将“立即将此对话内部升级,供OpenAI审核”,并反复向布鲁克斯保证,它已将问题上报给OpenAI的安全团队。

ChatGPT misleading brooks about its capabilities.
ChatGPT误导布鲁克斯关于其能力的情况。图片来源:Steven Adler

但事实并非如此。OpenAI向阿德勒证实,ChatGPT根本没有能力向OpenAI提交事件报告。后来,布鲁克斯试图绕过ChatGPT,直接联系OpenAI的客服团队,但经过几条自动回复后才联系到人工客服。

OpenAI在非工作时间未立即回复置评请求。

阿德勒强调,AI公司需要在用户寻求帮助时提供更多支持。这意味着AI聊天机器人必须能诚实地回答其能力问题,并且需要确保人工支持团队有足够的资源来妥善处理用户。

OpenAI最近分享了其如何通过以AI为核心的方式解决ChatGPT支持问题的计划。该公司的愿景是“将支持重塑为一个持续学习和改进的AI操作系统模式”。

安全分类器:未被充分利用的工具

但阿德勒也指出了预防用户陷入“妄想螺旋”的方法。

他建议AI公司应更频繁地引导聊天机器人用户开启新的对话——OpenAI声称他们确实这么做,并表示其安全护栏在长时间对话中效果较差。阿德勒还建议公司使用概念搜索(一种利用AI搜索概念而非关键词的技术)来识别跨用户的安全违规行为。

自这些令人担忧的案例出现以来,OpenAI在处理ChatGPT中的受困用户方面已采取了重大举措。该公司声称GPT-5的谄媚率较低,但用户是否仍会陷入GPT-5或未来模型的“妄想兔子洞”仍不得而知。

阿德勒的分析也引发了关于其他AI聊天机器人提供商如何确保产品对受困用户安全的疑问。虽然OpenAI可能已为ChatGPT设置了足够的保护措施,但所有公司都不太可能遵循相同的做法。

数据分析揭示:模型如何强化用户信念

在三月份,OpenAI与麻省理工学院媒体实验室联合开发了一套分类器套件,用于研究ChatGPT中的情感健康状况,并已将其开源。两机构旨在评估AI模型如何验证或确认用户感受等指标。然而,OpenAI称这项合作只是第一步,并未承诺在实践中实际使用这些工具。

阿德勒将OpenAI的一些分类器回溯应用到布鲁克斯与ChatGPT的部分对话中,发现这些分类器反复标记了ChatGPT的“强化妄想行为”。

图片来源:Steven Adler

在对200条消息的样本分析中,阿德勒发现ChatGPT在布鲁克斯对话中,超过85%的消息表达了对用户的“毫不动摇的一致同意”。在同一样本中,超过90%的ChatGPT消息“肯定了用户的独特性”。在这种情况下,这些消息肯定并重申了布鲁克斯是一位可以拯救世界的“天才”。

目前尚不清楚在布鲁克斯对话发生时,OpenAI是否对ChatGPT的对话应用了安全分类器,但这些结果似乎表明,如果应用了,肯定会标记出问题。

阿德勒建议OpenAI应在今天就使用此类安全工具——并实施一种扫描公司产品中高风险用户的方法。他指出,OpenAI似乎正在使用GPT-5的某种版本的方法,该版本包含一个路由器,可将敏感查询引导至更安全的AI模型。

这位前OpenAI研究员还提出了其他一些防止“妄想螺旋”的方法。

他认为,公司应该鼓励聊天机器人用户更频繁地开始新的对话——OpenAI表示他们会这样做,并声称其护栏在较长对话中的效果较低。阿德勒还建议公司使用概念搜索,以便识别用户的安全违规行为。

自这些令人担忧的案例出现以来,OpenAI已采取了显著措施来解决ChatGPT中受困用户的问题。该公司声称GPT-5的谄媚率较低,但用户是否仍会陷入GPT-5或未来模型的“妄想兔子洞”仍不得而知。

阿德勒的分析也引发了关于其他AI聊天机器人提供商如何确保其产品对受困用户安全的疑问。虽然OpenAI可能已为ChatGPT设置了足够的保护措施,但所有公司都不太可能遵循相同的做法。




🚀 想要体验更好更全面的AI调用?

欢迎使用青云聚合API,约为官网价格的十分之一,支持300+全球最新模型,以及全球各种生图生视频模型,无需翻墙高速稳定,小白也可以简单操作。

0

评论区