📢 转载信息
原文链接:https://www.nature.com/articles/d41586-026-00345-x
原文作者:Chris Simms
大型语言模型(LLM)可以 通过研究生医学考试,并帮助临床医生做出 诊断,至少在受控的基准测试中是这样。但它们在真实世界环境中有用吗?这些环境医生不足,需要处理冗长的患者列表,并且资源有限。
两项于 2 月 6 日发表在 Nature Health 上的研究表明,它们能够胜任这项任务。研究发现,廉价易用的 LLM 可以在卢旺达1 和巴基斯坦2 的医疗保健环境中提高诊断成功率,甚至优于训练有素的临床医生。
在卢旺达,聊天机器人的回答在所有评估指标上都优于当地的临床医生。在巴基斯坦,使用 LLM 辅助诊断的医生平均诊断推理得分为 71%,而使用传统资源的医生得分为 43%。
“这些论文突显了 LLM 如何能够支持中低收入国家的临床医生,以提高护理水平,”英国牛津大学人工智能伦理研究所研究总监 Caroline Green 表示。
真实世界的复杂性
在卢旺达的研究中,研究人员测试了 LLM 是否能为四个地区资源匮乏的卫生系统中的患者提供准确的临床信息。该研究的合著者、位于伦敦的 PATH(一个致力于实现医疗公平的全球非营利组织)的首席人工智能官 Bilal Mateen 表示,那里普遍存在的问题是医生和护士数量不足,无法接诊所有患者,因此大多数人是由培训很少的社区工作者进行接诊和分诊的。
Mateen 的团队要求约 100 名社区卫生工作者列出他们经常从患者那里收到的 5,600 多个临床问题。
研究人员将五种 LLM 对约 500 个此类问题的回答与当地训练有素的临床医生的回答进行了比较。在 5 点量表上对回答进行评分后发现,所有 LLM 在所有 11 个指标上的表现都优于当地临床医生,这些指标包括与既定医学共识的一致性、对问题的理解以及回答导致伤害的可能性。该团队还证明,LLM 可以用卢旺达的官方语言基尼亚卢旺达语回答约 100 个问题。
医疗 AI 可以改变医学——但前提是我们仔细跟踪它所涉及的数据
🚀 想要体验更好更全面的AI调用?
欢迎使用青云聚合API,约为官网价格的十分之一,支持300+全球最新模型,以及全球各种生图生视频模型,无需翻墙高速稳定,文档丰富,小白也可以简单操作。

评论区