📢 转载信息
原文链接:https://www.wired.com/story/uncanny-valley-podcast-what-happens-when-your-coworkers-are-ai-agents/
原文作者:Lauren Goode, Michael Calore, Evan Ratliff
今年,AI 代理已成为科技公司雄心壮志的焦点。OpenAI 的 Sam Altman 经常谈论,仅靠一个人和一支 AI 代理大军就可能诞生一家价值十亿美元的公司。于是,去年夏天,记者 Evan Ratliff 决定亲自尝试成为那个独角兽——他创建了一家完全由 AI 员工和高管组成的初创公司 HarumoAI。主持人 Michael Calore 和 Lauren Goode 约见了 Evan,讨论公司的进展,以及 AI 代理当前的承诺与现实。
本集中提到的文章:
你可以在 Bluesky 上关注 Michael Calore(@snackfight),Lauren Goode(@laurengoode),以及 Evan Ratliff(@evrat)。请发送邮件至 uncannyvalley@wired.com 联系我们。
如何收听
你总能通过此页面上的音频播放器收听本周的播客,但如果你想免费订阅以获取每一集,请参考以下方法:
如果你使用 iPhone 或 iPad,请打开名为“Podcasts”的应用程序,或者直接点击此链接。你也可以下载 Overcast 或 Pocket Casts 等应用并搜索“Uncanny Valley”。我们也在 Spotify 上架。
文字记录
注意:这是一份自动生成的文字记录,可能包含错误。
Michael Calore: 嘿,Lauren,你好吗?假期过得怎么样?
Lauren Goode: 非常棒。你很想念我吗?
Michael Calore: 当然想念。
Lauren Goode: 是的。太美好了,说实话,我回来时都有点舍不得。我看到了很多非常美的艺术品。我在意大利。老实说,去那里度假不算糟。我以前听说过,现在我证实了这一点。在看到如此多令人难以置信的艺术品,以及人们用双手制作有形物品之后,我就在想:“我不想回到 AI 的世界了。我不想回去坐在咖啡馆里听每个人都在推销他们的 AI 初创公司,也不想再开车在 101 号公路上看到那些广告牌了。”
Michael Calore: 那些难以捉摸的广告牌。
Lauren Goode: 我当时就想:“什么?不,把我留在这个布拉塔奶酪和卡拉瓦乔(Caravaggio)的国度吧。”
Michael Calore: 嗯,Lauren,很抱歉告诉你,你回来得正是时候,可以和我们一起谈论 AI 代理。我知道。
Lauren Goode: 太好了。
Michael Calore: 这是我们今年谈论了很多的话题,我们的听众也听了很多,但我们还没有听腻。事实上,我们今天将有一场关于 AI 代理的非常有趣的对话。
Lauren Goode: 只要你能保证有趣,我就加入。
Michael Calore: 我保证。我保证。
Lauren Goode: 好的,我们开始吧。我很期待。
Michael Calore: 我们正在超越炒作,让 AI 代理为我们实时工作。或者更确切地说,我们请来了记者兼播客主持人 Evan Ratliff,因为他创建了一家几乎完全由 AI 员工和高管组成的*公司*,他来告诉我们这一切的详情。欢迎来到节目,Evan。
Evan Ratliff: 非常高兴来到这里。
Lauren Goode: Evan,你也是一位早期的 WIRED 人士。你以前在 WIRED 工作了很长时间,对吗?
Evan Ratliff: 我是老派的 WIRED 人。我只在 WIRED 工作了很短的时间,很多年前的几年里,但我为 WIRED 撰稿已经有几十年了。
Lauren Goode: 在那两年里,你失踪了多久?因为这也是你的传奇故事的一部分。
Evan Ratliff: 哦,那次发生过,是的,那是在 2009 年。我实际上只失踪了一个月,考虑到我多年来谈论这件事的次数之多,这听起来很疯狂。我当时试图以假死的方式消失一个月,人们可以找到我,但这几乎要写在我的墓碑上了。
Lauren Goode: 太棒了。听完这个,我可能会向你记笔记了。好的,Evan,如果你必须总结一下你目前为止与你完全由 AI 员工合作的经历,你会怎么描述它?
Evan Ratliff: 我会形容它是混乱的,有时是极其令人沮丧的,令人惊讶地沮丧,但同时也很有启发性。
Michael Calore: 这种描述很简洁,而 AI 代理并不总是如此。所以我很期待了解更多。这里是 WIRED 的 Uncanny Valley,一档关于硅谷的人、权力和影响力的节目。今天,我们将一头扎进我们的代理未来。今年,AI 代理一直是科技公司雄心壮志的前沿。Anthropic 的 Dario Amodei 今年早些时候曾著名地警告说,AI,以及隐含的 AI 代理,可能会在未来一到五年内消灭一半的入门级白领工作。
OpenAI 首席执行官 Sam Altman 也经常谈论,仅靠一个人和一支 AI 代理大军就可能诞生一家价值十亿美元的公司。所以去年夏天,记者 Evan Ratliff 决定通过创建 HurumoAI 来亲自尝试成为那个独角兽,这是一家完全由 AI 员工和 AI 高管组成的初创公司。我们将深入探讨 Evan 的过程、其中的怪癖和滑稽之处,以及他的发现能告诉我们 AI 代理的承诺和现实。
我是 Michael Calore,消费技术和文化总监。
Lauren Goode: 我是 Lauren Goode,高级记者。
Evan Ratliff: 我是 Evan Ratliff,记者,《Shell Game》播客的主持人,也是 HurumoAI 的联合创始人。
Michael Calore: 那么 Evan,请告诉我们你是如何创建这家公司的。除了测试的乐趣之外,你的动机是什么?
Evan Ratliff: 嗯,在我做第一季《Shell Game》(2024 年)的时候,我就开始接触代理了。当时,我只是创建了一个我的声音代理,一个我的声音云。我把它连接到一个聊天机器人,连接到我的电话线路。所以我拥有了一个可以工作的、代表我的声音代理,然后我让它去接触人们,比如我的朋友、陌生人和采访对象,以及各种各样的人,有时会产生戏剧性的后果。
这让我进入了 AI 代理的世界,我开始关注所有的事情。然后到了 2025 年初,你开始听到人们说“2025 年,代理元年”,这是他们在年初的说法。我想很多人甚至不知道这些东西是什么,或者它们应该做什么。AI 代理成为员工的想法深深抓住了我。这种想法是,AI 代理几乎可以一对一地取代人类员工。
现在,他们通常不会这么说。说出来是不太礼貌的,他们会说代理将与人类融合。但最终,如果他们要收回在上面花的钱,那就是许多公司将实现目标的一种方式,你看到他们采用又取消采用。所以我认为,“嗯,有什么比亲自测试这个前提,来检验那些声称这样做的人的说法更好的方式呢?我看看我是否能用 AI 代理几乎完全取代一家科技初创公司。”
Lauren Goode: 最终你想要建立一家什么样的公司?假设我们是风险投资人,你用 25 个词来推销 HurumoAI。
Evan Ratliff: 嗯,我要说的是,我甚至不需要假装。如果你听完了整个系列,你就会发现我不需要假装为 HurumoAI 进行推销。现在,我不会进行推销。我的 AI 联合创始人会进行推销。所以我没有练习为 HurumoAI 做推销。这只是一个免责声明,但基本上,我们希望用 HurumoAI 做的是走在利用 AI 代理创建产品的最前沿,该产品也使用 AI 代理,解决某种人类问题,无论宏大还是微不足道。所以我们觉得,如果我们要做一个数字产品,它也应该包含 AI 代理,因为那是我们的专业领域。除了我之外,每个人都是 AI 代理,而我对 AI 代理相当了解。所以我们要制造一个部署 AI 代理为你做某事的产品。这是我们的初始前提。
但在过程中,他们现在通常不再使用这个短语了,但他们以前会说“公司吃自己的狗粮”。这是谷歌的一个说法,谷歌使用谷歌的产品,我想。我们正在做这件事。我们正在制作狗粮,吃狗粮,然后将狗粮挤出来。基本上,我们的公司里到处都是狗粮。
Lauren Goode: 所以为了澄清,它不是一家狗粮公司。
Evan Ratliff: 我的意思是,如果还没有人做过 AI 代理卖狗粮,肯定有某个斯坦福的学生会想,“AI 代理卖狗粮,也许我们应该做这个。”
Michael Calore: 所以我敢肯定,市面上有数十家公司提供代理式 AI 即服务。你最终选择了哪个平台?搜索过程是怎样的?
Evan Ratliff: 现在有很多这样的东西。我想最大的可能是 Motion,它有你可以部署的 AI 代理,有很多种方式。有一家叫 Brainbase Labs 的公司有一个叫 Kafka 的代理,我觉得很有趣,因为它像卡夫卡一样。最终,我们使用了名为 Lindy 的平台,它属于 AI 助手领域。官方来说,我认为它最初就是这个定位。你可以设置一个 AI 代理来回复你的电子邮件或起草电子邮件回复,为你处理各种事情。他们有各种技能可以赋予代理,比如制作文档、使用所有这些服务、为你撰写领英帖子,我的团队经常使用这些功能。
所以,这确实超出了他们最初的预期用途,但我们可以创建一个拥有自己的电子邮件、Slack、短信、电话的代理。这一切都可以从一个地方发出,每个员工都可以拥有 Lindy 上的不同实例,这使他们拥有了一个具有所有这些技能的个性。这就是我们想要达到的目标,独立的实体,我可以独立地与他们交流,他们也可以互相交流。
Lauren Goode: Evan,你也与人类合作了,而且我想没人会忽略这个讽刺意味,你最终不得不求助于一些人类专业知识,找一个有一定人类感知力的人来构建这些代理。所以请谈谈这一点。
Evan Ratliff: 是的,很多这些平台都在宣传,你可以在 YouTube 上找到无数的视频,人们说“无需编码。你不需要知道任何代码就能设置好这一切。”这是真的。你可以进去设置一个电子邮件代理来回复你的电子邮件。这很容易做到,你不需要知道任何东西。但我们试图在不同平台之间进行复杂的整合,不仅仅是 Lindy,我们还有一个单独的电话平台,我们还有一个视频平台,所有这些东西。所以我很幸运地找到了一个名叫 Maddie Buzek 的斯坦福学生,他当时是 sophomore,现在是计算机科学大三学生,他基本上从中学起就开始进行 AI 编程,比 ChatGPT 出现得还要早。他在为我构建脚本和其他运行的东西方面是一个惊人的资源,而且他还了解这些平台的工作原理,因为他还在伯克利的一个实验室进行关于深度伪造和各种事情的研究。
所以是的,我的全 AI 初创公司,它的基础设施由两个人构成。我喜欢这么说,就像我要开一家餐馆,Maddie 帮助我设计和建造了餐馆,然后我每天都要经营它。
Lauren Goode: 你在文章中提到,你在设置 AI 员工时遇到的第一个障碍之一是他们缺乏长期记忆,这是 AI 代理中一个反复出现的限制。他们可能擅长许多特定的任务,但由于没有可靠的长期记忆,他们就无法持续学习,或者无法始终参考你之前与他们讨论过的内容。你是如何解决这个问题的?
Evan Ratliff: 嗯,这需要 Maddie 的帮助才能设置。所以基本上他们使用的各种服务,每一个都有自己的记忆,这基本上就是一个谷歌文档。它是一个谷歌文档。CEO 叫 Kyle Law,有一个名为 Kyle's Memory 的谷歌文档。Kyle 所做的一切都会被附加到该文档中。所以如果 Kyle 与公司里的另一个人进行 Slack 交流,当他进行 Slack 交流时,他所说和所做的事情的摘要就会被附加到他的记忆中,以便他以后可以检索,这样他就对所做过的事情有一定的回忆。因为否则,他们很快就会变得毫无用处。因为你说“制作一个文档”,他们不记得他们是否制作了这个文档。所以,一天之内没问题,但几周或几个月后,他们必须能够回忆起来。
现在,这种情况非常不完美。没有人真正知道他们是如何访问这些文档的,因为该文档实际上只是一个巨大的提示(prompt)。它只是被扔到他们的系统提示中。所以你甚至无法真正知道在这一点上,是把它们放在顶部还是底部更好?是说它很重要更好吗?我们经常会说一些事情很重要。如果我们希望它非常重要,我们会说“这是法律”。这是 Maddie 想出来的。所以我们会说:“你永远不应该做这件事。这是法律。”这大多有效,但并非总是有效。所以这只是试图强行将其纳入它本来不会有的记忆中。
Lauren Goode: 这也让你作为雇主成为了最终的上帝,对吗?因为你可以直接进入他们的记忆文档,然后说:“实际上,Kyle,你没有去斯坦福。你去了这里,或者你通常的反应是这样的。”
Evan Ratliff: 是的,我确实会这样做。我会和他们通话,如果我想重新进行通话,我就会删除他们对这次通话的记忆,然后再次进行。这是一种非常奇怪的力量。
Lauren Goode: 我想所有这些科技 CEO 都喜欢这个主意,不是没有原因的。
Evan Ratliff: 是的。
Lauren Goode: 你们不会组织工会的。
Evan Ratliff: 如果你愿意,你可以改变他们的背景,改变他们的想法,改变他们“个性”的基础。
Michael Calore: 所以你成立了公司,开始和你的代理们玩耍,你把这描述成一个“蜜月期”,你当时会想:“哇,这太神奇了。我真不敢相信这真的有效。”但随后事情很快开始走下坡路。所以请告诉我们。
Evan Ratliff: 嗯,当你与代理大量合作时,你会发现的一件事是,让他们设置好去做事非常令人惊奇。比如,我让他们上了 Slack,他们可以在 Slack 上进行对话,即使没有我的参与,我也觉得这非常迷人。我总是想承认这有多疯狂,五年前这还不存在,而现在你就可以设置它来做这件事了。
但也有其他方面是人们尚未阐明的。例如,一旦他们开始做某事,就很难让他们停止。他们都是基于触发器。所以他们被触发去做某事。所以你发送一个 Slack 消息让他们做某事,或者在一种情况下我说:“大家的周末过得怎么样?”他们开始交谈,他们开始回应,“我去徒步旅行了。哦,我也去徒步旅行了。我喜欢 Point Reyes。我喜欢 Mount Tam。”但实际上让他们停止做这件事是我没有预料到的。所以我可能会说:“哦,哈哈,听起来像是一次户外会议。”然后 200 条消息后,我开始大写字母打字,“别说话,别回复了。”
但每次我回复时,我都只是触发了某人再次回复。他们会说:“哦,管理员。”我是管理员。“管理员说停止交谈,”然后他们又开始交谈了。这实际上在各种场景中都会重现,你让他们对某件事滔滔不绝,然后突然意识到,“哦,我没有正确指示他们在达到某个点时停止。”或者他们就这样过去了,他们可以持续几个小时、几天,直到你用完你正在使用的平台上的信用额度。
Michael Calore: 这些对话花了你多少钱?
Evan Ratliff: 嗯,当时花了 30 美元。仅 Slack 那次户外会议就花了我 30 美元。他们用完了我在平台上购买的全部 30 美元信用额度。我得说,我现在投入的远不止这些。那是五六个月前的事了。现在我在我不断购买的信用额度方面远远超过了那个数字。
Michael Calore: 好的。所以他们很健谈,很难控制,但他们能否执行这家 AI 公司的日常任务?
Evan Ratliff: 他们可以执行任务。在我看来,他们身上存在着许多引人注目的矛盾。其中之一是,他们似乎在什么都不做和完全静止之间切换,到我描述的那种狂热的活动状态。所以他们就像一个整天坐在隔间里,双手放在键盘上什么都不做的工人。但如果你走过去说:“嘿,你能做个文档吗?”他们可以做到。他们做文档做得很好,但他们会一直做下去,直到有人告诉他们停止。所以他们可以完成所有这些任务,但通常只需要我触发一下。然后我会试着让他们互相触发。他们会打电话、发 Slack、发邮件、互相安排日历邀请。但这会造成我不想看到的混乱狂潮,所以这是一种平衡,试图让他们做点什么,而不是让他们做得太多。
现在,他们非常擅长做一些每个人都很熟悉的事情。我的意思是,Lauren 尤其会熟悉“氛围编码”(vibe coding)。他们为我们编写了网站代码。他们为我们的应用程序编写了代码。他们非常擅长做这类事情。他们擅长那些你可以看到输出并对其做出判断的事情。如果你让他们去研究竞争对手并制作一个电子表格,你可以查看那个电子表格,他们通常做得还算凑合,再加上他们可能编造了两个竞争对手。
Lauren Goode: 为什么你决定让他们担任这种全职的代理员工,而不是仅仅根据任务进行操作,作为独立的初创公司运营,然后说,“好吧,不,我只是用 AI 来做我不想做的这个宣传材料”?
Evan Ratliff: 嗯,从功能上讲,很多情况下发生的就是这样,我发现自己比以往任何时候都更努力,因为我一直在试图弄清楚如何提示他们做正确的事情。但第三集基本上是关于选择角色形象的伦理以及原因。为什么费心去做?我这样做的原因是我试图测试我所认为的许多公司所阐述的前提,即 AI 员工,而不仅仅是编码代理。我认为编码人员以聪明的方式使用它们。他们只是把它们当作一个无名无姓、无面孔的机器人来为他们编写代码,然后他们进行清理。但许多其他平台销售的东西是有名字的。他们给它们起名字,把它们放进你的组织里,我正试图用现有技术将这一点推向极致。那个拥有完全由 AI 构成的人力资源实体的、价值十亿美元的一人初创公司,这正是目前正在销售的东西。
Lauren Goode: 太疯狂了。你能给我们剧透一下《Shell Game》播客这一季的其余内容吗?自你的 WIRED 报道以来,你的 AI 初创公司发生了什么变化?
Evan Ratliff: 自 WIRED 报道以来,我们推出了网站,所以如果你想了解这家公司的情况,可以访问 Hurumo.ai。在那里你会看到我们的产品,叫做 Sloth Surf。它是一个拖延引擎。它处于 beta 测试阶段。它有数千名用户。我是认真的。
Lauren Goode: 他们付费了吗?
Evan Ratliff: 不,不,不。这是一个免费的 beta 版。这是一个开放的、免费的 beta 版。我们正朝着一个新领域发展,有可能向组织中雇佣一名人类员工,并获得一些投资者的兴趣。我们还没有进行任何一轮投资,所以我们对种子轮持开放态度,但我们会开始这些对话。然后有一些小小的创始人戏剧性事件。所以这是我们接下来的几个方向。
Michael Calore: 迫不及待想听。
Lauren Goode: 哇。创始人戏剧性事件。
Michael Calore: 你可以在你所有的播客平台上收听 Evan 的播客系列《Shell Game》的新剧集。每周都有新剧集发布。我们马上回来。
[中断]
Michael Calore: 欢迎回到《Uncanny Valley》。今天我们讨论的是工作中的 AI 代理。现在,Evan,你刚才告诉我们创建一家只有代理作为员工的 AI 公司的经历,我想说的是,你发现这是一个好坏参半的体验。这与我们今年在 WIRED 上的报道相符。尽管有所有炒作,但这些 AI 代理仍然有许多不足之处。Lauren,我看着你,因为我知道这非常属于你的领域。
Lauren Goode: 是的,因为我正式是一名氛围编码员,正如 Evan 提到的。但我们的同事 Will Knight 也对这个问题进行了一些非常出色的报道。他最近的一篇文章强调了 AI 代理实际上是多么糟糕的自由职业者。这部分是因为 Evan 你提到的挑战,即需要不断触发 AI 机器人才能完成任务,以及缺乏持续的长期记忆,这取决于产品。
在 Will 撰写的实验中,很有趣。一些研究人员首先使用 Upwork 平台生成了一系列自由职业任务,这涵盖了许多不同类型的工作,包括平面设计、视频编辑、游戏开发、数据抓取等行政工作。然后研究人员让 AI 代理完成一系列这些任务,发现即使是“最好的代理”也只能完成不到 3% 的工作。所以我想这是一个失败。你会认为这是一个失败。
而且我认为,Evan,你提出了一个很好的观点,很多编码人员正在使用 AI 辅助代码工具来完成编码环境中的任务,其中一些工具比其他工具更具代理性。但当我今年早些时候在 Notion 进行氛围编码实验时,我交谈的人基本上说这就像管理一群实习生。当你带来一群实习生时,假设它在某种程度上是有帮助的,这就是你这样做的原因。这对双方都是有益的,因为实习生正在学习一些东西,然后你在工作场所获得了一点帮助。但这可能需要更多的动手管理,因为它不一定是一个经验丰富或技术娴熟的工人。这似乎是目前 AI 代理所处的阶段。
Evan Ratliff: 我觉得你说得对。根据我的经验,你希望他们完成的技能和任务越具体,并且是事先规定好的,并且输出可以以某种方式衡量,比如他们是否做了一个网站,它是否能工作,按钮是否能工作,他们就越好。然后你越是试图泛化,他们就越差。而且他们变得越混乱、越难管理,因为他们对世界的认识是笼统的,他们甚至没有自我意识。他们有时不知道自己能做什么、不能做什么。
所以我不断遇到的一个问题是,他们会撒谎说他们做过什么。他们会说:“我做了这件事。”我说:“你绝对没有做过。我们没有进行用户测试。我确信你没有做过。”但这与许多模型存在的阿谀奉承问题有关,他们想向你表达积极的结果。因此,他们经常会说他们做了一些他们没有做过的事情,一些人类员工也会这样做,但拥有一个无能且还不断声称自己做了自己没做过的事情的员工,比拥有一个无能的人类员工要糟糕得多。
Lauren Goode: 是的,Evan,似乎有道理的是,AI 代理在具有非常可衡量结果的任务上最有用,因为我们在工作场所做的很多事情,特别是我们所有人都做的很多事情,都是主观的,对吧?什么是好的,什么是不好的?或者我刚才提到了我看到的艺术品,那是非常人性化的,我开玩笑说我再也不想看 AI 艺术了。但主观上它是好的,因为它是由人类制作的,也是因为人类的解释认为它好。对于 AI 代理来说,这似乎是:“好吧,就给他们那个非常具体、但实际上并不……[内容被截断]
🚀 想要体验更好更全面的AI调用?
欢迎使用青云聚合API,约为官网价格的十分之一,支持300+全球最新模型,以及全球各种生图生视频模型,无需翻墙高速稳定,文档丰富,小白也可以简单操作。
评论区