📢 转载信息
原文链接:https://aws.amazon.com/blogs/machine-learning/responsible-ai-design-in-healthcare-and-life-sciences/
原文作者:Tonny Ouma and Simon Handley
生成式AI已成为医疗健康领域一项变革性技术,推动了患者参与和护理管理等关键领域的数字化转型。它在通过提供及时、个性化建议的诊断支持工具等自动化系统,帮助临床医生改善护理方面展现出巨大潜力,最终带来更好的健康结果。例如,BMC Medical Education上发表的一项研究报告称,在模拟患者互动中接受大型语言模型(LLM)生成反馈的医学生,其临床决策能力比未接受反馈的学生有显著提高。
大多数生成式AI系统的核心是LLM,它们能够生成非常自然的对话,使医疗客户能够在计费、诊断、治疗和研究等领域构建产品,这些产品可以执行任务并独立运作,同时有人工监督。然而,生成式AI的实用性需要理解其对医疗服务提供的潜在风险和影响,这就要求在构建安全且负责任的生成式AI注入型应用程序时,需要对系统级方法进行仔细的规划、定义和执行。
在本文中,我们将重点关注构建医疗健康生成式AI应用程序的设计阶段,包括定义决定输入和输出的系统级策略。这些策略可以被视为指导方针,遵循这些方针有助于构建负责任的AI系统。
负责任地设计
LLM可以通过减少对质量和可靠性等因素所需的时间和成本来彻底改变医疗健康。如以下图表所示,通过考虑所有人的质量、可靠性、信任和公平性,可以将负责任的AI考虑因素成功集成到由LLM驱动的医疗健康应用程序中。目标是促进和鼓励AI系统的某些负责任的AI功能。示例如下:
- 将每个组件的输入和输出与临床优先事项保持一致,以维持一致性和促进可控性
- 实施安全护栏(guardrails)等保障措施,以提高AI系统的安全性和可靠性
- 对整个端到端系统应用全面的AI“红队测试”(red-teaming)和评估,以评估影响安全和隐私的输入和输出
概念架构
下图展示了一个带有LLM的生成式AI应用程序的概念架构。输入(直接来自最终用户)通过输入安全护栏进行调节。输入被接受后,LLM可以利用内部数据源处理用户的请求。LLM的输出再次通过安全护栏进行调节,然后可以与最终用户共享。

建立治理机制
在医疗健康领域构建生成式AI应用程序时,必须考虑单个模型或系统级别以及应用程序或实施级别的各种风险。生成式AI相关的风险可能不同于现有的AI风险,甚至可能放大这些风险。两个最重要的风险是混淆和偏见:
- 混淆 (Confabulation) —— 模型生成自信但错误的输出,有时被称为“幻觉”。这可能会误导患者或临床医生。
- 偏见 (Bias) —— 这指的是由于训练数据不具代表性而加剧不同亚群体之间历史社会偏见的风险。
为减轻这些风险,请考虑建立内容策略,明确定义应用程序应避免生成的内容类型。这些策略还应指导如何微调模型以及实施哪些适当的安全护栏。至关重要的是,这些策略和指南必须针对预期的用例进行定制和具体化。例如,专为临床文档设计的生成式AI应用程序应具有禁止其诊断疾病或提供个性化治疗方案的策略。
此外,定义清晰、详细且针对特定用例的策略是负责任构建的基础。这种方法有助于建立信任,并帮助开发人员和医疗组织仔细考虑与特定应用程序中每个LLM相关的风险、益处、局限性和社会影响。
以下是一些您可能考虑用于医疗健康特定应用程序的示例策略。第一张表总结了人工-AI配置的角色和职责。
| 操作ID | 建议操作 | 生成式AI风险 |
| GV-3.2-001 | 制定策略,通过对生成式AI模型或系统进行独立评估或评估来加强对生成式AI系统的监督,其中评估的类型和稳健性与已识别的风险成正比。 | CBRN信息或能力;有害偏见和同质化 |
| GV-3.2-002 | 考虑在大型或复杂的生成式AI系统的整个生命周期阶段调整组织角色和组件,包括:生成式AI系统的测试和评估、验证和红队测试;生成式AI内容审核;生成式AI系统开发和工程;生成式AI工具、界面和系统的可访问性增强;以及事件响应和控制。 | 人工-AI配置;信息安全;有害偏见和同质化 |
| GV-3.2-003 | 为生成式AI界面、模态和人工-AI配置(例如,用于AI助手和决策任务)定义可接受的使用策略,包括生成式AI应用程序应拒绝回答的查询类型标准。 | 人工-AI配置 |
| GV-3.2-004 | 为生成式AI系统的用户反馈机制建立策略,包括详细说明和任何追索机制。 | 人工-AI配置 |
| GV-3.2-005 | 参与威胁建模,以预见生成式AI系统可能带来的潜在风险。 | CBRN信息或能力;信息安全 |
下表总结了AI系统设计中风险管理的策略。
| 操作ID | 建议操作 | 生成式AI风险 |
| GV-4.1-001 | 建立解决生成式AI风险度量持续改进过程的策略和程序。通过大量文档记录和应用梯度归因、遮蔽或术语简化、反事实提示和提示工程以及嵌入分析等技术,解决生成式AI系统缺乏可解释性和透明度带来的总体风险。定期评估和更新风险度量方法。 | 混淆 |
| GV-4.1-002 | 建立详细说明在具体使用场景中进行风险度量的策略、程序和流程,采用标准化的度量协议和结构化的公开反馈练习,如AI红队测试或独立的外部评估。 | CBRN信息和能力;价值链和组件集成 |
透明度产物
在整个AI生命周期中提升透明度和问责制有助于建立信任、促进调试和监控,并支持审计。这需要通过模型卡等工具记录数据来源、设计决策和局限性,并清晰地传达实验性功能。纳入用户反馈机制进一步支持持续改进,并增强对AI驱动的医疗健康解决方案的信心。
AI开发人员和DevOps工程师应通过提供底层数据来源和设计决策的清晰文档,对所有输出的证据和原因保持透明,以便最终用户可以就系统使用情况做出明智的决定。透明度有助于跟踪潜在问题,并方便内部和外部团队评估AI系统。透明度产物指导AI研究人员和开发人员负责任地使用模型,促进信任,并帮助最终用户就系统使用情况做出明智的决定。
以下是一些实施建议:
- 在利用实验性模型或服务构建AI功能时,必须突出模型行为意外的可能性,以便医疗专业人员能够准确评估是否使用该AI系统。
- 考虑发布如Amazon SageMaker模型卡或AWS系统卡等产物。此外,在AWS,我们通过AWS AI服务卡提供有关我们AI系统的详细信息,其中列出了预期用例和局限性、负责任的AI设计选择以及某些AI服务的部署和性能优化最佳实践。AWS还建议制定透明度策略和流程,用于记录训练数据的来源和历史记录,同时平衡训练方法的专有性质。请考虑创建一个结合了模型卡和服务卡元素的混合文档,因为您的应用程序可能使用了基础模型(FM)但提供了特定的服务。
- 提供反馈用户机制。定期和计划性地收集医疗专业人员的反馈,可以帮助开发人员进行必要的调整以提高系统性能。此外,请考虑制定策略,以帮助开发人员为AI系统提供用户反馈机制。这些应包括详细说明,并考虑为任何追索机制制定策略。
设计即安全
在开发AI系统时,请考虑应用程序每个层级的安全最佳实践。生成式AI系统可能容易受到对抗性攻击,例如提示注入(prompt injection),它通过操纵LLM的输入或提示来利用其漏洞。这些类型的攻击可能导致数据泄露、未经授权的访问或其他安全漏洞。为解决这些问题,进行风险评估并在应用程序的输入和输出层实施安全护栏会很有帮助。通常,您的操作模型应设计为执行以下操作:
- 通过实施个人身份信息(PII)检测,配置检查提示攻击的安全护栏,来保护患者隐私和数据安全
- 持续评估所有生成式AI功能和工具的益处和风险,并通过Amazon CloudWatch或其他警报定期监控其性能
- 在部署前彻底评估所有基于AI的工具的质量、安全性和公平性
开发人员资源
以下资源在构建生成式AI应用程序时非常有用:
- Amazon Bedrock安全护栏帮助您根据用例和负责任的AI策略为生成式AI应用程序实施安全措施。您可以为不同用例创建多个定制的安全护栏,并将它们应用于多个FM,从而为您的生成式AI应用程序提供一致的用户体验并标准化安全和隐私控制。
- AWS负责任的AI白皮书是为在可能出现危及生命的错误的危重护理环境开发AI应用程序的医疗专业人员和其他开发人员提供的宝贵资源。
- AWS AI服务卡解释了服务预期的用例、服务如何使用机器学习(ML)以及负责任地设计和使用该服务时的关键考虑因素。
结论
生成式AI有潜力通过负责任的实施,提高医疗健康的几乎每一个方面,包括改善护理质量、患者体验、临床安全和行政安全。在设计、开发或运营AI应用程序时,应通过建立一个以维持用户期望的安全、隐私和信任为基础的治理和评估框架,来系统地考虑潜在的局限性。
有关负责任的AI的更多信息,请参阅以下资源:
关于作者
Tonny Ouma是AWS的应用AI专家,专注于生成式AI和机器学习。作为应用AI团队的一员,Tonny协助内部团队和AWS客户将前沿AI系统集成到他们的产品中。在业余时间,Tonny喜欢骑运动摩托车、打高尔夫,并用他的调酒技巧招待家人和朋友。
Simon Handley, PhD,是Amazon Web Services全球医疗健康与生命科学团队的高级AI/ML解决方案架构师。他在生物技术和机器学习方面拥有超过25年的经验,并热衷于帮助客户解决他们的机器学习和生命科学挑战。在业余时间,他喜欢骑马和打冰球。
🚀 想要体验更好更全面的AI调用?
欢迎使用青云聚合API,约为官网价格的十分之一,支持300+全球最新模型,以及全球各种生图生视频模型,无需翻墙高速稳定,文档丰富,小白也可以简单操作。
评论区