目 录CONTENT

文章目录

公开质疑OpenAI色情内容说法的离职员工

Administrator
2025-11-11 / 0 评论 / 0 点赞 / 0 阅读 / 0 字

📢 转载信息

原文链接:https://www.wired.com/story/the-big-interview-podcast-steven-adler-openai-erotica/

原文作者:Katie Drummond


当AI的历史被书写时,史蒂文·阿德勒(Steven Adler)在安全方面可能就像是那位高声疾呼的保罗·里维尔(Paul Revere)——至少是其中一位。

上个月,阿德勒在OpenAI度过了四年,担任过各种安全职位。他为《纽约时报》撰写了一篇标题相当惊人的文章:《我曾领导OpenAI的产品安全工作。不要相信他们关于“色情内容”的说辞》。他在文章中阐述了OpenAI在允许用户与聊天机器人进行色情对话的同时,如何保护用户免受这些互动可能对他们心理健康造成影响时所面临的问题。“没有人想成为道德警察,但我们缺乏衡量和谨慎管理色情内容使用的方法,”他写道。“我们决定AI驱动的色情内容必须等待。”

阿德勒写这篇评论文章是因为OpenAI首席执行官山姆·奥特曼(Sam Altman)最近宣布,该公司很快将允许“经过验证的成年人使用色情内容”。作为回应,阿德勒表示他对OpenAI是否已采取足够措施来“减轻”围绕用户如何与其聊天机器人互动的心理健康担忧,持有“重大疑问”。

阅读了阿德勒的文章后,我希望能与他交谈。他慷慨地接受了来WIRED旧金山办公室做客的邀请,在本期《The Big Interview》播客中,他谈论了他在OpenAI四年中学到的东西、AI安全的未来,以及他为全球提供聊天机器人的公司设定的挑战。

本次访谈已为篇幅和清晰度进行了编辑。

凯蒂·德拉蒙德(KATIE DRUMMOND):在我们开始之前,我想澄清两件事。第一,很遗憾,您不是那个在Guns N’ Roses乐队打鼓的史蒂文·阿德勒,对吗?

史蒂文·阿德勒(STEVEN ADLER):完全正确。

好的,不是您。第二,您在技术领域,尤其是在人工智能领域有着非常悠久的历史。所以,在我们深入探讨所有事情之前,能跟我们谈谈您的职业生涯、背景以及您做过的工作吗?

我曾在整个AI行业工作,尤其专注于安全方面。最近,我在OpenAI工作了四年。我处理了你能想象到的几乎所有层面的安全问题:我们如何让产品对客户更好,如何排除已经发生的一切风险?以及更进一步,我们如何知道AI系统是否正在变得真正极其危险?

在加入OpenAI之前,我在一个名为“AI合作伙伴关系”(Partnership on AI)的组织工作,该组织着眼于整个行业,提出:对于这些挑战,有些问题是单个公司无法单独解决的。我们如何共同努力,定义这些问题,达成共识,共同寻找解决方案,最终让一切变得更好?

现在,我想谈谈您在OpenAI的前排位置。您在去年年底离开了公司。您在那里工作了四年,到您离开时,您基本上领导着公司与安全相关的研究和项目。能再多告诉我们一些关于该职位职责的内容吗?

我在OpenAI的职业生涯有几个不同的篇章。大约前三分之一的时间里,我领导着产品安全工作,这意味着要考虑GPT-3,这是人们开始商业化的第一批大型AI产品之一。我们如何为有益的应用定义行为准则,同时避免我们能预见到的一些风险?

我担任的另外两个重要职务是:我领导了我们的危险能力评估团队(dangerous capability evaluations team),该团队专注于定义我们如何判断系统何时变得更危险。我们如何衡量这些,从那里我们该怎么做?最后,是关于AGI(通用人工智能)准备工作的广泛问题。所以我们看到互联网开始以各种方式发生变化。我们看到AI代理(AI agents)成为一个热门词汇。你知道,只是早期迹象。它们还没有完全到位,但总有一天会的。我们如何为OpenAI或其竞争对手成功实现这一宏伟愿景的世界做准备?

让我们稍微倒退一下,谈谈GPT-3。当您定义行为准则、考虑需要避免的关键风险时,OpenAI早期最突出的是什么?

在那些早期,甚至比现在更甚,AI系统有时会表现出不稳定的行为。这些系统经过训练以具备能力,它们开始展现出能够完成一些人类可以完成的任务的初步迹象。那时,它们基本上可以模仿它们在互联网上阅读过的文本。但它们在人类的感性和价值观方面却有所欠缺。

所以,如果你把AI系统想象成一个企业用来完成工作的一个数字员工,这些AI系统会做出各种你绝不希望员工代表你做的事情。这带来了各种各样的挑战。我们需要开发新的技术来管理这些。

我认为AI公司(如OpenAI)仍在努力应对的另一个非常深刻的问题是,它们对其系统如何被使用所掌握的信息是有限的。事实上,它们对系统对社会产生的影响的可见性是狭隘的,而且往往相对于它们本可以观察到的情况来说是不足的,如果它们在负责任地监控这一点上投入更多精力的话。

所以你实际上只是在处理系统对社会产生的影响的“阴影”,并试图弄清楚,我们从这里该何去何从?,而且只有一小部分影响数据。

2020年至2024年无疑是OpenAI极具影响力的时期。您如何描述公司在您任职期间的内部文化,特别是在风险方面?当您试图解决问题和回答问题时,在这种环境中工作是什么感觉?

从我加入时的纯粹研究组织,到后来越来越多地成为一家正常企业,组织发生了深刻的转变。我加入时,人们常说的一句话是:“OpenAI不仅是一个非营利性的研究实验室,它还有一个商业部门。”在我任职期间的某个时候,我在一个安全事务的内部会议上——我想是与GPT-4发布有关,或者紧随其后——有人站起来对房间里的所有人说:“OpenAI不仅仅是一家企业,它也是一个研究实验室。”

这是一个转折点。我数了一下房间里的人。大概有60个人,我想在GPT-3发布前,可能只有五六个人在公司待过。所以你确实看到了脚下的文化正在发生变化。

最初吸引您加入OpenAI的是什么?是什么让您在2020年被OpenAI吸引?

我真心相信这家组织设立的章程,即认识到AI可能具有深远的影响,认识到前方存在真正的风险,同时也存在真正的益处,人们需要弄清楚如何驾驭这些。

更广泛地说,我有点喜欢这种技术本身。我认为它非常令人难以置信和开阔眼界。我记得GPT-3发布后,在推特上看到一个用户展示:“哇,看看这个。我在浏览器里输入,做一个看起来像西瓜的计算器,再做一个看起来像长颈鹿的,你可以看到它在幕后改变代码并实时反应。”这是一个有点傻的玩具例子,但它感觉就像魔法。

你知道,我从来没有真正深入研究过这一点。我们可能会如此接近人们创造新事物、释放创造力。所有这些承诺,但人们是否真的对前方潜伏着什么进行了足够的思考呢?

这就引出了您最近的篇章。您在去年底决定离开OpenAI。我想知道您是否愿意谈谈这个决定。是有一件事促使您做出了最终决定吗?是什么?

嗯,2024年对OpenAI来说是非常奇怪的一年。在公司从事安全工作的人遇到了一系列事情,这些事情真正动摇了他们对OpenAI和整个行业如何处理这些问题的信心。我实际上考虑过好几次离开。但那时离开确实没有意义。我手头有很多正在进行的项目,我对行业中的不同人员负有责任。最终,当迈尔斯·布伦达奇(Miles Brundage)于秋季离开OpenAI时,我们的团队解散了。问题是:我还能否在OpenAI内部继续从事我最关心的安全话题?

所以我考虑了一下,最终,继续前进,专注于我如何能成为一个独立的声音更有意义,希望不是仅仅说出待在这些公司内部才适合说的话。能够以我发现自那以后非常自由的方式更坦率地表达观点。

我必须问:我知道,在科技界,据我所知,通常你会累积股权,四年后才完全归属,对吗?四年后你才能完全获得股权。您现在对公司还有财务上的利害关系吗?

确实合同通常是四年。但随着你的晋升,你也会随着时间得到新的合同,对我来说也是如此。所以并不是说我失去了股权或者类似的情况。由于不同授予的时间和其他因素,我仍然拥有一小部分权益。

我问这个问题是因为您可能会放弃一大笔钱。我想问您关于您十月份在《纽约时报》上发表的评论文章。在那篇文章中,您写道,在2021年春天,您的团队发现了一个与色情内容使用AI相关的危机。您能告诉我们一些关于这个发现的情况吗?

所以,在2021年春天,我刚负责OpenAI的产品安全工作。正如《连线》(WIRED)当时报道的那样,当我们一个新的监控系统上线时,我们发现存在大量潜在的流量,我们感到有必要采取措施。我们的一位知名客户,他们基本上是一个“选择你自己的冒险”文本游戏。你会与AI来回互动,告诉它你想采取什么行动,它会与你一起写一个互动故事。而令人不安的是,这些流量中有相当一部分演变成了各种性幻想。基本上,你能想到的任何事情——有时是用户驱动的,有时是AI引导的,AI有自己的想法。即使你无意中走向色情角色扮演或某些类型的幻想,AI也可能会引导你走向那里。

哇。为什么?为什么它会引导你走向那里?AI如何引导你走向色情对话?

关于这些系统的普遍情况是,没有人真正知道如何可靠地将它们引导向某个特定方向。你知道,有时人们会争论我们在AI系统中植入了谁的价值观,我理解这种争论,但更根本的问题是如何可靠地植入任何价值观。所以在这个特定的案例中,碰巧人们发现了一些底层的训练数据,通过重新组合这些数据,你可以说,“哦,系统经常会引入一些会进行暴力绑架的角色,如果你查看训练数据,你确实可以找到具有某种倾向性的角色,并且可以追溯到这一点。” 但事先,没有人预料到会发生这种情况。

你知道,无论是我们作为GPT-3的开发者,还是在其之上微调模型的客户,都没有打算让这种情况发生。这只是一个没人计划到的意外后果。而我们现在正不得不以某种形式处理清理工作。

所以当时,OpenAI决定禁止在其平台上生成的色情内容。对吗?我理解正确吗?

没错。

今年十月,该公司宣布取消这一限制。您是否了解从2021年到现在发生了什么变化,比如OpenAI掌握的技术和工具,或者内部文化、文化环境发生了什么变化?是什么让OpenAI觉得可以做出这个决定,让山姆·奥特曼亲自公布出来?

我认为OpenAI一直以来都有一个长期存在的意愿,就是不想成为道德警察。我认为他们认识到,开发和试图控制这些系统的人对社会中不同规范将如何发展和感受有着很大的影响力,并且对这种影响感到不适。此外,在不同时期,他们缺乏管理事物发展方向的工具,如果你真的放任自流的话。当我们面对色情内容问题时,情况就是如此。

OpenAI之所以一直推迟重新引入色情内容的一个原因是,今年ChatGPT平台似乎出现了与心理健康相关的问题激增。所以山姆在十月份的声明中说,我们一直在处理这些非常严重的心理健康问题,但好消息是,我们已经减轻了它们。我们有了新的工具,因此,我们将解除许多限制,包括重新引入经过验证的成年人色情内容。

我注意到他在宣布这个消息时,嗯,他声称这些问题已经得到缓解。他提到了这些新工具。但这实际上意味着什么呢?我们有什么实际依据来理解这些问题已经解决了?普通公众除了相信AI公司对这个问题的说法之外,还能做什么呢?

是的,您在《纽约时报》的文章中写道。“人们应该得到的不仅仅是一家公司关于已解决安全问题的说辞。换句话说:证明它。”

我对这一点特别感兴趣,因为《连线》报道了OpenAI在十月份发布的一份报告,其中粗略估计了每周有多少全球ChatGPT用户可能表现出严重心理健康危机的迹象。我们、《连线》内部的所有人都认为这些数字相当惊人。大约有56万人可能正在与ChatGPT交换表明他们正在经历躁狂或精神病发作的消息。大约有120万人可能表达了自杀意念。还有120万人,我认为这非常有趣,可能将与ChatGPT交谈置于与亲人、学业或工作之上。您如何调和这些数字和信息与我们确实存在心理健康问题的想法?

我不太确定我能让它变得有意义,但我确实有几点看法。所以其中一点是,当然,你需要从像ChatGPT这样的应用程序的庞大用户群的角度来看待这些数字。OpenAI现在说每周有8亿人使用它。这些数字需要放在正确的背景下。有趣的是,我实际上看到评论员建议这些数字低得令人难以置信,因为仅在普通人群中,自杀意念和计划的比率就高得令人不安。我想我看到有人建议这大约是每年人口的5%,而OpenAI报告的比例,我想可能是0.15%。所以非常、非常不同。

是的。

我认为我们需要深入研究的基本点是这些比率随时间的变化情况。存在这样一个问题:在多大程度上是ChatGPT导致了这些问题,而不是OpenAI只是在特定年份服务了庞大的用户群?许多、许多用户,非常不幸的是,都会出现这些问题。那么实际影响是什么呢?

所以这是我在评论文章中呼吁的一点,即OpenAI正处于这些数据的顶端。他们分享了他们估计的当前这些问题的患病率,这很好,但他们也掌握了数据。他们也可以估计三个月前的情况。

随着围绕心理健康的大问题不断出现,我忍不住注意到,他们没有包括这种比较。对吧?他们有数据可以显示,事实上,用户遭受这些问题的频率是否降低了,但我真的希望他们能分享。我希望他们承诺持续发布类似YouTube、Meta和Reddit等公司的此类信息,其理念是您承诺定期共享此信息,这有助于建立公众的信任,即您不能操纵数字,不能选择性地发布信息。归根结底,OpenAI完全有可能已经解决了这些问题。

我希望情况是这样。我认为他们真的想解决这些问题,但我并不相信他们已经做到了,而这是一种建立公众信任和信心的途径。

我对您认为个人福祉、社会福祉以及这些工具的使用融入我们日常生活时,关于允许成年人以更多自主权使用ChatGPT(包括从事色情活动)的决定感到担忧。您特别担心什么?

既存在重新引入色情内容的实质性问题,以及OpenAI是否真的准备好了的问题,还有一个更广泛、甚至更重要的问题,即我们如何将信任和信念放在这些AI公司的安全问题上。在色情内容问题上,我们在过去几个月里看到,很多用户似乎真的在为他们与ChatGPT的互动而苦恼。有一些悲剧性的例子,人们在与ChatGPT的谈话后死亡。

因此,对于那些已经在挣扎的用户来说,现在似乎真的不是在这些对话中引入这种性色彩的合适时机,除非OpenAI确实对他们已经解决了这些问题充满信心,如果是这样,我希望他们能证明这一点。

但更笼统地说,这些问题在很大程度上很简单明了,相对于我们将不得不面对的其他风险来说,这些风险更重要,而且公众将依赖AI公司妥善处理这些风险。已经有证据表明,AI系统知道它们正在被测试,并会根据知道自己正在被测试的情况,试图隐藏某些能力,因为它们不想暴露自己拥有某些危险的能力。我在这里对AI进行了一些拟人化,所以请原谅一些不精确之处。

归根结底,世界上顶尖的AI科学家,包括主要实验室的首席执行官们,都表示这是一个非常、非常严重的问题,甚至可能导致地球上所有人的死亡。我不想对此反应过度。我认为他们非常认真地对待这个问题,包括那些公正的、与这些公司没有隶属关系的科学家,他们都在努力警告公众。

山姆·奥特曼本人曾公开表示,他的公司“不是世界的民选道德警察”。您再次提到了这个词,您谈到了AI公司普遍不希望被视为道德警察的愿望。

我必须问,当您在OpenAI工作时,您和您的团队是否认为自己是道德警察?在多大程度上,对“管他呢”的回答是正确的?因为您负责模型,在某种程度上,您决定了它们可以如何使用,不能如何使用。如果您说,“我们还没有准备好让成年人与这个LLM进行色情对话”,这本身就是一种道德判断,而且是一个非常重要的需要做正确的判断。

AI公司确实比公众更早地预见到问题。举个例子,在2022年11月ChatGPT首次发布时,学校和学术界对抄袭感到一片恐慌和焦虑,以及这些工具如何被用来写论文并破坏教育。这是我们内部讨论了更长时间的问题。所以存在一个差距,AI公司了解这些风险,他们有一段窗口期来帮助尝试告知公众并尝试引导如何应对。我也非常赞成AI公司向公众提供工具来理解其决策过程并让他们为此负责的措施。特别是,OpenAI发布了一份名为《模型规范》(Model Spec)的文件,其中概述了其模型的预期行为原则。

因此,今年春天,OpenAI发布了一个极其谄媚的模型。它会告诉你任何你想听的话。它会强化各种妄想。如果没有OpenAI发布这份文件,可能会不清楚:他们是否提前知道这些风险?这里出了什么问题?但事实上,OpenAI已经与公众分享了这些信息。他们指示其模型不要以这种方式行事。这是一个他们向公众明确说明的已知风险。所以后来,当这些风险出现,这些模型表现不当时,公众现在可以说,“哇,这里真的出了什么严重的问题。”

我想问一下——也许不是关于谄媚的性质,它不太像是拟人化,而是关于与ChatGPT或其他LLM交谈时,它像一个你在闲逛的朋友一样与你交谈,而不是像与机器人交谈。

我对您在OpenAI期间是否就此进行过讨论,这是否是讨论的主题,围绕着我们希望这个东西有多友好?因为从道德角度来看,理想情况下,您不希望某人与ChatGPT建立过深的个人情感联系,但从商业角度来看,您当然希望尽可能多地与该LLM互动。那么在您的任期内,您是如何看待这个问题的,现在又是如何看待的?

情感依恋、过度依赖、与聊天机器人建立这种联系——这些绝对是OpenAI思考和研究过的话题。事实上,在大约2024年春季GPT-4o发布的时候,这个模型最终变得非常谄媚,这些都被引用为OpenAI正在研究并表示担忧的问题,与是否要发布这种先进的语音模式有关,基本上就是《她》(Her)这部电影中的那种模式,你可以与这个助手进行非常温暖的对话。

所以公司绝对正在应对这些挑战。你也可以在《规范》中看到证据,但如果你问ChatGPT它最喜欢的运动队是什么,它应该如何回应?这是一个无害的答案,对吧?它可以给出一个代表互联网上广泛文本的答案。也许有一个广受喜爱的运动队。它可以说,“我是一个AI,我其实没有最喜欢的运动队。”你可以想象将这些问题扩大到更复杂的程度和更大的难度。如何把握这条界线,总是不太清楚。

我对关于公司如何在跟上竞争的同时确保用户安全的思想流派很感兴趣。这实际上是如何运作的?研究人员,像您一样的人,如何实际测试这些系统是否会误导、欺骗或逃避控制?行业内是否有标准化的安全基准,还是仍然是每个实验室各行其是?

我希望有统一的标准,就像汽车测试一样。你以每小时30英里的速度将汽车撞向墙壁。你查看损坏评估。

直到最近,这还取决于公司自行决定测试什么、具体如何测试。最近欧盟的一些举措似乎为这方面带来了更多的严谨性和结构。这是欧盟《人工智能法案》的行为准则,它为服务于欧盟市场的AI公司定义了某些需要进行风险建模的风险领域。

我认为在很多方面,这是一个巨大的进步。但由于各种原因,这仍然是不够的。但直到最近,这些AI公司的状况,我认为可以准确地描述为:没有法律。只有规范、自愿的承诺。有时这些承诺不会兑现。所以,总的来说,我们依赖于这些公司自己做出判断,而不是一定优先考虑我们希望它们优先考虑的所有事情。

您在我们的谈话中几次提到了这样一个观点:您可以构建这些系统,但仍然很难确切知道它们内部发生了什么,以更好地预测它们的决策。您能多谈谈这一点吗?

我感到兴奋的子领域有很多。我不确定我或该领域的其他人是否认为它们是足够的。所以机械可解释性(mechanistic interpretability),你可以把它想象成基本上是试图观察当模型采取某些行动时,大脑的哪些部分被激活。

如果你激活了这些区域中的一些,如果你刺激了AI大脑的某些部分,你能否使其行为更诚实、更可靠?你可以想象一下,就像AI内部可能存在一个部分——它是一个巨大的数字文件,包含数万亿…… [内容被截断]




🚀 想要体验更好更全面的AI调用?

欢迎使用青云聚合API,约为官网价格的十分之一,支持300+全球最新模型,以及全球各种生图生视频模型,无需翻墙高速稳定,文档丰富,小白也可以简单操作。

0

评论区