📢 转载信息
原文作者:Liza Zinovyeva, Aiham Taleb, Callum Macpherson, Arefeh Ghahvechi, Nikita Kozodoi, Nuno Castro, and Dmitrii Ryzhov
本博文基于与 Flo Health 合作开发的工作。
医疗科学正在快速发展。保持医疗内容的准确性和最新性直接影响人们的生活、健康决策和福祉。当有人搜索健康信息时,他们往往处于最脆弱的时刻,因此准确性不仅重要,甚至可能关乎生死。
Flo Health 每年创建数千篇医疗文章,为全球数百万用户提供关于女性健康的医学可信信息。验证这个庞大内容库的准确性和相关性是一项重大挑战。医学知识不断发展,手动审核每篇文章不仅耗时,而且容易出现人为错误。这就是 Flo Health 团队(领先的女性健康应用 Flo 的开发者)正在利用 生成式 AI 来大规模促进医疗内容准确性的原因。通过与 AWS 生成式 AI 创新中心的合作,Flo Health 正在开发一种创新方法,进一步称为“医疗自动化内容审核与修订优化解决方案”(MACROS),用于验证和维护其海量健康信息库的准确性。这个 AI 驱动的解决方案能够:
- 根据可靠的科学来源高效处理大量医疗内容。
- 根据可靠的科学资源识别潜在的不准确或过时的信息。
- 根据最新的医疗研究和指南提出更新建议,并纳入用户反馈。
该系统由 Amazon Bedrock 提供支持,使 Flo Health 能够大规模进行医疗内容审核和修订评估,确保最新准确性,并支持更明智的医疗决策。该系统执行详细的内容分析,为 Flo 的医学专家提供有关医疗标准和指南遵守情况的全面见解。它还被设计为与 Flo 现有的技术基础设施无缝集成,在适当的情况下促进自动更新。
本系列文章共两部分,探讨 Flo Health 在医疗内容验证方面使用生成式 AI 的历程。第 1 部分审查了我们的概念验证(PoC),包括初始解决方案、能力和早期结果。第 2 部分将重点关注规模化挑战和实际实施。每篇文章都可以独立阅读,但共同展示了 AI 如何大规模变革医疗内容管理。
概念验证目标和成功标准
在深入研究技术解决方案之前,我们为 PoC 医疗内容审核系统设定了明确的目标:
关键目标:
- 验证使用生成式 AI 进行医疗内容验证的可行性
- 确定与手动审核相比的准确性水平
- 评估处理时间和成本的改进
成功指标:
- 准确性:内容片段召回率达到 90%
- 效率:将每次指南的检测时间从数小时缩短到数分钟
- 成本降低:减少专家审核工作量
- 质量:保持 Flo 的编辑标准和医疗准确性
- 速度:比手动审核流程快 10 倍
为了验证解决方案符合 Flo Health 对医疗内容的高标准,Flo Health 的医学专家和内容团队通过定期审查会议与 AWS 技术专家密切合作,提供关键反馈和医学专业知识,以持续提高 AI 模型的性能和准确性。最终成果是 MACROS,我们为 AI 辅助医疗内容验证定制的解决方案。
解决方案概述
在本节中,我们将概述 MACROS 解决方案如何使用 Amazon Bedrock 和其他 AWS 服务来自动化医疗内容审核和修订。

图 1. 医疗自动化内容审核与修订优化解决方案概述
如图 1 所示,所开发的解决方案支持两个主要流程:
- 内容审核与修订:根据预先指定的自定义规则和指南,大规模验证现有医疗文章的医疗标准和样式依从性,并提出符合新医疗标准以及 Flo 样式和语调指南的修订建议。
- 规则优化:MACROS 加速了从(医疗)研究中提取新(医疗)指南、将其预处理成内容审核所需的格式以及优化其质量的过程。
这两个步骤都可以通过用户界面(UI)以及直接 API 调用进行。UI 支持使医学专家能够直接查看内容审核统计数据、与更改进行交互并进行手动调整。API 调用支持旨在集成到管道中进行定期评估。
架构
图 2 描绘了 MACROS 的架构。它由两个主要部分组成:后端和前端。
图 2. MACROS 架构
下面介绍了主要应用程序组件的流程:
1. 用户首先收集和准备必须符合医疗标准和规则的内容。
2. 在第二步中,数据以 PDF、TXT 文件或文本形式通过托管在 Amazon Elastic Container Service (ECS) 上的 Streamlit UI 提供。文件上传的身份验证通过 Amazon API Gateway 进行。
3. 或者,自定义 Flo Health JSON 文件可以直接上传到解决方案堆栈的 Amazon Simple Storage Service (S3) 存储桶中。
4. 托管在 ECS 上的前端具有 AWS IAM 权限,可以使用 AWS Step Functions 来协调任务。
5. 此外,ECS 容器可以访问 S3,通过预签名 URL 或 boto3 列出、下载和上传文件。
6. (可选)如果文件是通过 UI 上传的,解决方案会调用 AWS Step Functions 服务,该服务启动托管在 AWS Lambda 函数中的预处理功能。此 Lambda 可以访问 Amazon Textract 以从 PDF 文件中提取文本。文件存储在 S3 中,也会返回给 UI。
7-9. 托管在 AWS Lambda 上的规则优化器、内容审核和修订功能通过 AWS Step Function 进行编排。它们可以访问 Amazon Bedrock 以获得生成式 AI 功能,分别用于执行非结构化数据中的规则提取、内容审核和修订。此外,它们还可以通过 boto3 SDK 访问 S3 以存储结果。
10. Compute Stats AWS Lambda 函数可以访问 S3,并可以读取和合并各个修订和审核运行的结果。
11. 该解决方案利用 Amazon CloudWatch 进行系统监控和日志管理。对于处理关键医疗内容的生产部署,监控功能可以扩展到自定义指标和警报,以提供对系统性能和内容处理模式更细粒度的洞察。
未来增强
虽然我们目前的架构使用 AWS Step Functions 进行工作流编排,但我们正在探索 Amazon Bedrock Flows 的潜力,用于未来的迭代。Bedrock Flows 提供了简化 AI 驱动工作流的潜力,可能会简化我们的架构并增强与其他 Bedrock 服务的集成。这种替代方案可以提供对我们 AI 流程更无缝的管理,特别是随着我们扩展和发展解决方案。
内容审核与修订
MACROS 的核心在于其利用 Amazon Bedrock 基础模型的内容审核与修订功能。内容审核和修订模块由五个主要组件构成:1) 可选的过滤阶段 2) 分块 3) 审核 4) 修订 和 5) 后处理,如图 3 所示。
图 3. 内容审核与修订管道
MACROS 处理上传的医疗内容的方式如下:
- 过滤(可选):流程从一个可选的过滤步骤开始。这项智能功能会检查规则集是否与文章相关,从而可能节省不必要的处理时间和资源。
- 分块:源文本随后被分割成段落。这个关键步骤有助于良好的质量评估,并有助于防止对不相关文本进行意外修订。分块可以通过启发式方法(例如基于标点符号或正则表达式的分割)以及使用大型语言模型(LLM)来识别语义上完整的文本块来进行。
- 审核:每个段落或部分都会根据相关规则和指南进行严格审核。
- 修订:只有被标记为不符合规范的段落才会进入修订阶段,从而简化流程并保持符合规范内容的完整性。AI 会建议更新,以使不符合规范的段落与最新指南和 Flo 的样式要求保持一致。
- 后处理:最后,修订后的段落无缝地整合回原始文本中,生成更新后的、符合规范的文档。
过滤步骤可以使用 Amazon Bedrock 调用的附加 LLM 进行,该 LLM 会单独评估每个部分,提示结构如下:
图 4. 简化的基于 LLM 的过滤步骤
此外,非 LLM 方法也可用于支持过滤步骤:
- 将规则和文章编码成密集的嵌入向量并计算它们之间的相似度。通过设置相似度阈值,我们可以确定哪些规则集被认为与输入文档相关。
- 类似地,可以使用 BLEU 或 ROUGE 指标识别文档和规则之间直接的关键词重叠。
内容审核,如前所述,是针对规则组对文本部分进行的,并产生 XML 格式的响应,例如:
<xml>
<section_text> 文本无任何更改 </section_text>
<adherence> 0 </adherence>
<rule_name> 不符合规则的文本内容 </rule_name>
<reason> 文本不符合规则的原因 </reason>
<rule_name> 不符合规则的文本内容 </rule_name>
<reason> 文本不符合规则的原因 </reason>
<section_text> 文本无任何更改 </section_text>
<adherence> 1 </adherence>
<section_text> 文本无任何更改 </section_text>
<adherence> 1 </adherence>
</xml>
在这里,1 表示符合规范,0 表示文本不符合指定规则。使用 XML 格式有助于实现输出的可靠解析。
这个审核步骤会迭代文本中的各个部分,以确保 LLM 关注每个部分,这在我们的实验中带来了更稳健的结果。为了提高不符合规范部分的检测准确性,用户还可以使用多调用模式,其中不是使用一次 Amazon Bedrock 调用评估文章对所有规则的依从性,而是为每条规则进行一次独立的调用。
修订步骤接收审核的输出(不符合规范的部分和不符合规范的原因),以及创建类似语调的修订的指令。然后,它会建议修订不符合规范的句子,并保持与原始文本相似的风格。最后,后处理步骤将原始文本与新修订内容合并,确保没有其他部分被更改。
流程的不同步骤需要不同级别的 LLM 模型复杂性。虽然像 Claude Haiku 模型系列这样相对较小的模型可以高效地完成像分块这样简单的任务,但更复杂的推理任务(如内容审核和修订)则需要像 Claude Sonnet 或 Opus 模型系列这样的大模型来促进准确的分析和高质量的内容生成。这种分层模型选择方法优化了解决方案的性能和成本效率。
操作模式
内容审核与修订功能在两种 UI 模式下运行:详细文档处理和多文档处理,每种模式都针对不同规模的内容管理。详细文档处理模式提供了一种细粒度的内容评估方法,如图 5 所示。用户可以上传各种格式(PDF、TXT、JSON 或直接粘贴文本)的文档,并指定评估内容的指南。

图 5. 详细文档处理示例
用户可以从预定义规则集(此处为维生素 D、乳房健康和经前综合症及经前烦躁障碍(PMS 和 PMDD))中进行选择,或输入自定义指南。这些自定义指南可以包括诸如“文章标题必须在医学上准确”等规则,以及符合和不符合规则的内容示例。
规则集确保评估与特定的医疗标准和 Flo 独特的风格指南保持一致。该界面允许即时调整,非常适合彻底的单个文档审查。对于更大规模的操作,应使用多文档处理模式。此模式旨在同时处理大量自定义 JSON 文件,模仿 Flo 如何将 MACROS 集成到其内容管理系统中。
从非结构化数据中提取规则和指南
可行且准备充分的指南并非总是立即可用的。有时它们以非结构化文件的形式提供或需要被查找。使用规则优化器功能,我们可以从多个复杂文档中提取和完善可行指南。
规则优化器处理原始 PDF 文档以提取文本,然后根据文档标题将文本分块成有意义的部分。这些分段内容通过 Amazon Bedrock 使用专门的系统提示进行处理,具有两种不同的模式:样式/语调和医学模式。
样式/语调模式侧重于提取关于文本应如何编写、其风格、可以使用或不可以使用哪些格式和词语的指南。
规则优化器为每条规则分配一个优先级:高、中、低。优先级级别指示规则的重要性,指导内容审核的顺序,并首先关注关键领域。规则优化器包含一个手动编辑界面,用户可以在其中精简规则文本、调整分类和管理优先级。因此,如果用户需要更新给定规则,更改会存储在 Amazon S3 中供将来使用。
医学模式专为处理医学文档而设计,并适应更科学的语言。它允许将提取的规则分组到三个类别中:
- 医疗状况指南
- 特定治疗指南
- 健康建议和趋势的变化
图 6. 简化的医疗规则优化提示
图 6 提供了一个医疗规则优化提示的示例,它由三个主要组件组成:角色设定——医学 AI 专家,对良好规则的描述,以及最终的预期输出。我们认为如果一条规则足够好,它应该是:
- 清晰、明确且可操作
- 相关、一致且简洁(最多两句话)
- 使用主动语态书写
- 避免不必要的术语
实施注意事项和挑战
在我们的 PoC 开发过程中,我们发现了一些对实施类似解决方案的人至关重要的注意事项:
- 数据准备:这成为一个根本性的挑战。我们认识到标准化医疗内容和指南的输入格式,同时保持一致的文档结构的重要性。创建跨不同医学主题的各种测试集对于全面验证至关重要。
- 成本管理:监控和优化成本很快成为一个关键优先事项。我们实施了令牌使用情况跟踪,并优化了提示设计和批处理处理,以平衡性能和效率。
- 监管和道德合规:鉴于医疗内容的敏感性质,严格的监管和道德保障至关重要。我们为 AI 决策建立了稳健的文档实践,对医疗指南实施了严格的版本控制,并对 AI 生成的建议进行了持续的人工医学专家监督。实施过程中仔细考虑了区域医疗法规。
- 集成和扩展:我们建议从独立测试环境开始,同时通过设计良好的 API 端点规划与内容管理系统 (CMS) 的未来集成。从模块化角度构建对未来增强非常有利。在整个过程中,我们遇到了常见挑战,例如在长篇医疗文章中保持上下文、平衡处理速度与准确性,以及确保 AI 建议修订中的语调一致性。
- 模型优化:Amazon Bedrock 的多样化模型选择能力特别有价值。通过其平台,我们可以在不牺牲准确性的情况下为特定任务选择最佳模型、实现成本效益,并顺利升级到较新模型——同时保持我们现有的架构。
初步结果
我们的概念验证在关键成功指标方面取得了强劲成果,证明了 AI 辅助医疗内容审核的潜力。该解决方案在超过 80% 的准确率和 90% 以上的召回率(识别需要更新的内容方面)下,超出了目标处理速度的改进。最值得注意的是,这个 AI 驱动的系统比手动审核更一致地应用了医疗指南,并显著减轻了医学专家的负担。
关键要点
在实施过程中,我们发现了一些对于优化 AI 在医疗内容分析中的性能至关重要的见解。内容分块对于跨长文档进行准确评估至关重要,而专家对解析规则的验证有助于医学专家保持临床精确性。最重要的是,该项目证实,成功的实施关键在于人机协作,而非完全自动化。定期的专家反馈和明确的性能指标指导了系统的完善和增量改进。虽然该系统极大地简化了审核流程,但它作为一种增强工具效果最佳,医学专家仍然是最终验证的关键,从而创建了更高效的医疗内容管理混合方法。
结论和后续步骤
本系列的第一部分展示了生成式 AI 如何在保持高准确性的同时,使医疗内容审核过程更快、更高效、更具可扩展性。请继续关注本系列的第 2 部分,我们将深入探讨生产历程、挑战和扩展策略。准备好将您的 AI 计划投入生产了吗?
- 了解有关 AWS 生成式 AI 创新中心的更多信息,并联系您的 AWS 客户经理,以获得我们的专家指导和支持。
- 访问 Amazon Bedrock 文档,了解有关可用基础模型及其功能的更多信息
- 加入我们的 AWS Builder 社区,与正在进行类似 AI 之旅的人们建立联系。
🚀 想要体验更好更全面的AI调用?
欢迎使用青云聚合API,约为官网价格的十分之一,支持300+全球最新模型,以及全球各种生图生视频模型,无需翻墙高速稳定,文档丰富,小白也可以简单操作。
关于作者
Liza (Elizaveta) Zinovyeva, Ph.D.,
评论区