📢 转载信息
原文作者:Grace Huckins
在过去的二十年里,任何出现新症状的人都有一个明确的第一步:上网搜索。这种做法非常普遍,以至于获得了“谷歌医生”(Dr. Google)这个贬义的绰号。但时代在变,许多寻求医疗信息的人现在正在使用大型语言模型(LLM)。据OpenAI称,每周有2.3亿人向ChatGPT询问与健康相关的问题。
这就是OpenAI本月早些时候推出的新产品ChatGPT Health的背景。它的发布时机不太吉利:两天前,《旧金山纪事报》(SFGate)披露了Sam Nelson的报道,这位青少年去年在与ChatGPT就如何最佳组合各种药物进行广泛交谈后,因药物过量死亡。在两条新闻的余波下,多家新闻媒体质疑依赖可能造成如此极端伤害的工具来获取医疗建议的明智性。
尽管ChatGPT Health在ChatGPT界面的侧边栏有一个单独的标签,但它并不是一个新模型。它更像一个“包装器”,为OpenAI的一个现有模型提供指导和工具,使其能够提供健康建议——包括一些工具,如果用户授予权限,可以访问用户的电子病历和健身应用数据。毫无疑问,ChatGPT和其他大型语言模型可能会犯医疗错误,OpenAI强调ChatGPT Health旨在作为一种附加支持,而不是替代医生的工具。但是,当医生无法提供帮助时,人们仍然会转向替代方案。
一些医生认为LLM是提高医疗知识水平的福音。普通患者可能难以驾驭浩如烟海的网络医疗信息——尤其难以区分高质量来源和那些看起来很专业但事实存疑的网站——但LLM理论上可以为他们完成这项工作。哈佛医学院副教授、执业放射科医生Marc Succi说,治疗那些上网搜索过症状的患者需要“花费大量时间来消除患者的焦虑并减少错误信息”。但现在,他说,“你会看到受过大学教育、高中教育的患者,他们提出的问题水平可能相当于一名初级医学生提出的问题。”
ChatGPT Health的发布,以及Anthropic随后宣布为Claude推出的新健康集成功能,表明AI巨头越来越愿意承认并鼓励其模型在健康领域的应用。鉴于LLM在与用户保持一致和编造信息而非承认无知方面的众所周知的倾向,此类应用当然伴随着风险。
但这些风险也必须与潜在的好处进行权衡。这里有一个与自动驾驶汽车类似的类比:当政策制定者考虑是否允许Waymo进入他们的城市时,关键指标不是其汽车是否卷入事故,而是与依赖人类驾驶员的现状相比,它们造成的伤害是否更少。如果“ChatGPT医生”比“谷歌医生”有所改进——早期证据表明可能如此——它可能会减轻互联网造成的巨大医疗错误信息和不必要的健康焦虑负担。
然而,要确定像ChatGPT或Claude这样的聊天机器人对消费健康领域的有效性是棘手的。麻省总医院布莱根(Mass General Brigham)医疗系统数据科学和人工智能临床负责人Danielle Bitterman说:“评估一个开放式聊天机器人是极其困难的。”大型语言模型在医学执照考试中得分很高,但这些考试使用的是多项选择题,这并不能反映人们使用聊天机器人查询医疗信息的真实方式。
滑铁卢大学管理科学与工程助理教授Sirisha Rambhatla试图缩小这一差距,她评估了GPT-4o在没有可用答案列表的情况下对执照考试问题的回应。医学专家对这些回应的评估结果是,只有大约一半被评为完全正确。但多项选择题的设计使得选项足以让人有所防备,而且它们仍然与用户输入ChatGPT的内容相去甚远。
另一项研究测试了GPT-4o对人类志愿者提交的更真实的提示的响应,发现它大约85%的时间能正确回答医疗问题。当我与宾夕法尼亚州立大学负责社会解放责任AI实验室的副教授Amulya Yadav交谈时(他领导了这项研究),他明确表示他个人并不喜欢面向患者的医疗LLM。但他坦率地承认,从技术上讲,它们似乎胜任了这项任务——毕竟,他说,人类医生对患者的误诊率高达10%到15%。“如果我冷漠地看待这件事,世界似乎就要改变了,不管我是否喜欢,”他说。
Yadav说,对于寻求在线医疗信息的人来说,LLM似乎确实是比Google更好的选择。放射科医生Succi也在他将GPT-4对常见慢性病问题的回答与谷歌知识面板(有时出现在搜索结果右侧的信息框)中呈现的信息进行比较后得出结论,当处理直观提示时,LLM可以作为比网络搜索更好的替代方案。
自Yadav和Succi的研究在2025年上半年在线发布以来,OpenAI已经发布了多个新版本的GPT,因此可以合理地期望GPT-5.2的表现会比其前身更好。但这些研究确实存在重要的局限性:它们侧重于直截了当的事实性问题,并且只检查了用户与聊天机器人或网络搜索工具之间的简短互动。LLM的一些弱点——最显著的是其谄媚倾向和产生幻觉的倾向——可能在更广泛的对话中,以及面对更复杂问题的用户时更容易显现出来。墨尔本大学研究技术与健康的教授Reeva Lederman指出,那些不喜欢医生诊断或治疗建议的患者可能会向LLM寻求另一个意见——如果LLM是谄媚的,它可能会鼓励他们拒绝医生的建议。
一些研究发现,LLM在回应与健康相关的问题时会产生幻觉并表现出谄媚。例如,一项研究表明,GPT-4和GPT-4o会愉快地接受并采纳用户问题中包含的错误药物信息。在另一项研究中,GPT-4o经常编造用户提示中提到的虚假综合征和实验室检查的定义。鉴于互联网上充斥着大量医学上可疑的诊断和治疗信息,LLM行为的这些模式可能会助长医疗错误信息的传播,特别是如果人们认为LLM是值得信赖的。
OpenAI报告称,GPT-5系列模型比其前身明显不那么谄媚和容易产生幻觉,因此这些研究结果可能不适用于ChatGPT Health。该公司还使用其公开的HealthBench基准测试了驱动ChatGPT Health的模型对健康特定问题的响应。HealthBench奖励那些在适当的时候表达不确定性、在必要时建议用户寻求医疗救助,并避免因告诉用户病情比实际更严重而给用户带来不必要压力的模型。可以合理地假设,ChatGPT Health的基础模型在测试中表现出了这些行为,尽管Bitterman指出,HealthBench中的一些提示是由LLM而不是用户生成的,这可能会限制该基准在现实世界中的适用性。
一个避免危言耸听的LLM似乎比那些让人在浏览几分钟后就相信自己得了癌症的系统有了明显的改进。随着大型语言模型及其构建的产品不断发展,ChatGPT医生相对于谷歌医生的任何优势可能会继续扩大。ChatGPT Health的推出无疑是朝着这个方向迈出的一步:通过查看您的病历,ChatGPT有可能比任何谷歌搜索获得关于您特定健康状况的更多背景信息,尽管许多专家出于隐私原因警告不要给予ChatGPT这种访问权限。
即使ChatGPT Health和其他新工具确实比谷歌搜索有了实质性的改进,它们仍然可能对整体健康产生负面影响。就像自动驾驶汽车虽然比人类驾驶的汽车更安全,但如果鼓励人们减少使用公共交通,它们仍然可能带来净负面影响一样,LLM如果诱使用户更多地依赖互联网而不是人类医生,即使它们提高了在线健康信息的质量,也可能损害用户的健康。
Lederman表示,这种情况是可能发生的。在她的研究中,她发现关注健康的在线社区成员倾向于信任那些表达流畅的用户,而不管他们分享的信息的有效性如何。因为ChatGPT的交流方式像一个口才很好的成年人,一些人可能会过度信任它,甚至可能将其置于医生的地位之上。但LLM绝不是人类医生的替代品——至少目前不是。
🚀 想要体验更好更全面的AI调用?
欢迎使用青云聚合API,约为官网价格的十分之一,支持300+全球最新模型,以及全球各种生图生视频模型,无需翻墙高速稳定,文档丰富,小白也可以简单操作。
评论区