📢 转载信息
原文作者:Priyashree Roy, Mofijul Islam, Martyna Shallenberg, Brode Mccrady, Nivedha Balakrishnan, and Randheer Gehlot
本文由 Myriad Genetics 的 Martyna Shallenberg 和 Brode Mccrady 撰写。
医疗保健组织在处理和管理大量复杂的医疗文档,同时保持患者护理质量方面面临挑战。这些组织需要有效的文档处理解决方案来满足日益增长的需求。全球领先的基因检测和精准医疗解决方案提供商Myriad Genetics正在应对这一挑战。
Myriad 的收入工程部门每天处理来自妇女健康、肿瘤学和心理健康部门的数千份医疗文件。该公司将收到的文档分类为测试申请表、实验室结果、临床笔记和保险等类别,以实现预授权工作流程的自动化。系统根据已识别的文档类别,将这些文档路由给适当的外部供应商进行处理。他们手动执行关键信息提取(KIE),包括保险详情、患者信息和测试结果,以确定医疗保险资格并支持下游流程。
随着文档量的增加,Myriad 现有的系统面临挑战。自动文档分类解决方案虽然有效,但成本高昂且耗时。信息提取仍然是手动的,需要上下文理解才能区分关键的临床区别(例如“是转移性的”与“不是转移性的”),并从不同文档格式中查找保险号码和患者信息等内容。这种处理负担是巨大的,仅在妇女健康业务部门,客户服务部门每天就需要多达 10 名全职员工投入 78 小时。
Myriad 需要一个解决方案来:
- 在保持或提高准确性的同时,降低文档分类成本
- 加速文档处理,消除工作流程瓶颈
- 实现医疗文档信息提取的自动化
- 跨多个业务部门和文档类型进行扩展
Amazon Bedrock 和生成式 AI
现代大型语言模型(LLM)由于在海量文本语料库上进行了预训练,能够以高准确性处理复杂的医疗文档。这种预训练使 LLM 能够在没有特征工程或大量标注数据集的情况下理解语言模式和文档结构。Amazon Bedrock 是一项全托管服务,提供来自领先人工智能公司的各种高性能 LLM。它为医疗组织在处理敏感医疗信息时所需的安全性、隐私性和负责任的 AI 功能提供了保障。对于此解决方案,我们使用了亚马逊最新的基础模型:
- Amazon Nova Pro:一种经济高效、低延迟的模型,非常适合文档分类
- Amazon Nova Premier:一种具有推理能力的高级模型,用于信息提取
解决方案概述
我们使用 AWS 的开源 GenAI IDP 加速器与 Myriad 合作实施了该解决方案。该加速器提供了一个可扩展的无服务器架构,可将非结构化文档转换为结构化数据。加速器通过可配置的并发限制并行处理多个文档,而不会使下游服务不堪重负。其内置的评估框架允许用户通过用户界面 (UI) 提供预期输出,并评估生成的结果,以迭代地定制配置并提高准确性。

该加速器提供 1-click 部署,并提供针对不同工作负载优化、具有不同可配置性、成本和准确性要求的预构建模式选择:
- 模式 1 – 使用 Amazon Bedrock 数据自动化服务,该服务提供丰富开箱即用的功能、易用性和直接的按页定价。推荐此模式用于大多数用例。
- 模式 2 – 使用 Amazon Textract 和 Amazon Bedrock 结合 Amazon Nova、Anthropic 的 Claude 或自定义微调的 Amazon Nova 模型。此模式非常适合需要自定义逻辑的复杂文档。
- 模式 3 – 使用 Amazon Textract、Amazon SageMaker 结合用于分类的微调模型,以及 Amazon Bedrock 用于提取。此模式非常适合需要专业分类的文档。
模式 2 被证明最适合此项目,它满足了低成本的关键要求,同时通过提示工程和 LLM 选择提供了优化准确性的灵活性。此模式提供无代码配置——通过配置(可在 Web UI 中编辑)来自定义文档类型、提取字段和处理逻辑。
我们通过模式 2 的配置文件定制了文档类、关键属性及其定义、LLM 选择、LLM 超参数以及分类和提取 LLM 提示。
在生产环境中,Myriad 将此解决方案集成到其现有的事件驱动架构中。下图说明了生产管道:

- 文档摄取:传入的订单事件触发从源文档管理系统检索文档,并对先前处理的文档进行缓存优化。
- 并发管理:DynamoDB 跟踪并发的 AWS Step Function 作业,而 Amazon Simple Queue Service (SQS) 将超出并发限制的文件排队等待文档处理。
- 文本提取:Amazon Textract 从标准化文档中提取文本、布局信息、表格和表单。
- 分类:配置的 LLM 根据配置文件中提供的自定义文档分类提示分析提取的内容,并将文档分类到适当的类别中。
- 关键信息提取:配置的 LLM 使用配置文件中提供的提取提示提取医疗信息。
- 结构化输出:管道以结构化的方式格式化结果,并通过 RESTful 操作交付给 Myriad 的授权系统。
使用生成式 AI 进行文档分类
尽管 Myriad 现有的解决方案实现了 94% 的准确率,但由于文档类型之间的结构相似性、内容重叠和共享格式模式,仍然会发生错误分类。这种语义模糊性使得区分相似文档变得困难。我们指导 Myriad 优化提示,利用 LLM 的上下文理解能力。这种方法超越了模式匹配,实现了对文档上下文和目的的语义分析,识别出人类专家识别但以前的自动化系统错过的区分特征。
用于文档分类的 AI 驱动的提示工程
我们开发了具有相似文档类型之间区分特征的类别定义。为了识别这些差异点,我们将每个类别的文档样本提供给 Amazon Bedrock 上的 Anthropic Claude Sonnet 3.7,并启用了模型推理功能(该功能允许模型展示其分步分析过程)。该模型识别了相似文档类别之间的区分特征,Myriad 的主题专家对其进行了精炼,并将其纳入 GenAI IDP 加速器的模式 2 配置文件中用于文档分类提示。
基于格式的分类策略
我们将文档结构和格式用作区分具有相似内容但结构不同的文档类型的关键差异点。我们使分类模型能够识别特定于格式的特征,例如布局结构、字段排列和视觉元素,从而使系统能够区分仅凭文本内容无法区分的文档。例如,实验室报告和测试结果都包含患者信息和医疗数据,但实验室报告以表格格式显示数值,而测试结果遵循叙述格式。我们指示 LLM:“实验室报告包含按表格组织的数值结果,并带有参考范围和单位。测试结果以段落格式呈现发现,并附有临床解释。”
实施负面提示以提高准确性
我们实施了负面提示技术,通过明确指示模型应避免哪些分类来解决相似文档之间的混淆问题。此方法向分类提示中添加了排除性语言,指定不应与每种文档类型相关联的特征。最初,由于患者病史和实验室测量值之间的混淆,系统经常将测试申请表(TRF)错误地分类为测试结果。向 TRF 定义中添加负面提示,例如“这些表格包含患者病史。请勿将其与包含当前/近期实验室测量的测试结果混淆”,使分类准确率提高了 4%。通过提供关于常见错误分类模式的明确指导,系统避免了相似文档类型之间的典型错误和混淆。
用于成本和性能优化的模型选择
模型选择决定了规模化时最佳的成本性能平衡,因此我们使用GenAI IDP 加速器的评估框架对 1,200 份跨越三个文档类别(测试申请表、实验室结果和保险)的医疗文档进行了全面基准测试。我们测试了四种基础模型——Amazon Nova Lite、Amazon Nova Pro、Amazon Nova Premier 和 Anthropic Claude Sonnet 3.7——并使用三个关键指标评估了每个模型:分类准确率、处理延迟和每份文档的成本。加速器的成本跟踪功能可以直接比较不同模型配置下的运营支出,确保性能提升能转化为规模化时可衡量的业务价值。
评估结果表明,Amazon Nova Pro 为 Myriad 的用例实现了最佳平衡。我们将 Myriad 的 Amazon Comprehend 实现迁移到使用优化提示的 Amazon Nova Pro,取得了显著的改进:分类准确率从 94% 提高到 98%,处理成本降低了 77%,处理速度提高了 80%——将分类时间从每份文档 8.5 分钟减少到 1.5 分钟。
使用生成式 AI 自动化关键信息提取
Myriad 的信息提取是手动的,仅在妇女健康部门就需要多达 10 名全职员工每天投入 78 小时,这带来了运营瓶颈和可扩展性限制。自动化医疗 KIE 带来了挑战:复选框字段需要区分标记样式(复选标记、X 或手写标记);文档包含重叠标记或跨越多个字段的内容等模糊视觉元素;提取需要上下文理解才能区分临床差异并在不同文档格式中定位信息。我们与 Myriad 合作开发了自动 KIE 解决方案,实施了以下优化技术来解决提取复杂性。
增强的 OCR 配置以识别复选框
为了解决复选框识别挑战,我们在 GenAI IDP 加速器门户上启用了 Amazon Textract 的TABLES和FORMS专用功能,如下图所示,以提高 OCR 对已选和未选复选框元素的区分能力。这些功能增强了系统检测和解释医疗表格中标记样式的能力。

我们通过将视觉线索纳入提取提示中来提高准确性。我们更新了提示,加入了诸如“查找方框(✓、x 或手写标记)内或周围的可见标记”之类的说明,以指导语言模型识别复选框选择。这种增强的 OCR 功能和定向提示的结合,改善了医疗表格中复选框的提取。
通过少样本示例进行视觉上下文学习
仅配置 Textract 和改进提示无法有效处理复杂的视觉元素。我们实施了一种多模态方法,将文档图像和 Textract 提取的文本同时发送给基础模型,从而能够同时分析视觉布局和文本内容以做出准确的提取决策。我们通过向模型提供示例文档图像及其预期的提取输出来实施少样本学习,以指导模型理解各种表单布局和标记样式。包含正确提取模式的多个文档图像示例会产生很长的 LLM 提示。我们利用 GenAI IDP 加速器与 Amazon Bedrock 提示缓存功能的内置集成来降低成本和延迟。提示缓存将冗长的少样本示例在内存中存储 5 分钟——当在此时间段内处理多个相似文档时,Bedrock 会重用缓存的示例而不是重新处理它们,从而同时降低成本和处理时间。
用于复杂提取的思维链推理
虽然这种多模态方法提高了提取准确性,但我们在复杂的表单布局中仍然面临重叠和模糊的勾选标记的挑战。为了在模糊和复杂情况下表现良好,我们使用了 Amazon Nova Premier 并实施了思维链 (Chain of Thought) 推理,让模型使用思维标签逐步思考提取决策。例如:
分析此表单中的复选框标记:<thinking> 1. 存在哪些复选框?[列出所有可见选项] 2. 标记位于何处?[描述标记位置] 3. 哪些标记是清晰的,哪些是模糊的?[评估标记质量] 4. 对于重叠的标记:哪个复选框包含大部分标记? 5. 标记是位于中心还是接触边缘?[优先考虑中心位置] </thinking>
此外,我们在少样本示例中包含了推理解释,展示了我们如何在模糊情况下得出结论。这种方法使模型能够在做出最终决定之前处理复杂的视觉证据和上下文线索,从而提高了对模糊勾选标记的性能。
通过 GenAI IDP 加速器对 32 个不同复杂程度的文档样本进行的测试表明,启用了 Layout、TABLES 和 FORMS 功能的 Amazon Textract,结合 Amazon Nova Premier 的高级推理能力和少样本示例的包含,提供了最佳结果。该解决方案实现了 90% 的准确率(与人工评估基线准确率相同),同时每份文档的处理时间约为 1.3 分钟。
结果和业务影响
通过我们新的解决方案,我们实现了满足项目初期设定的业务目标的可衡量改进:
文档分类性能:
- 通过针对 Amazon Nova Pro 的提示优化技术,包括 AI 驱动的提示工程、基于文档格式的分类策略和负面提示,我们将准确率从 94% 提高到 98%。
- 通过从 Amazon Comprehend 迁移到使用优化提示的 Amazon Nova Pro,我们将分类成本降低了 77%(从每页 3.1 美分降至 0.7 美分)。
- 通过选择 Amazon Nova Pro 提供低延迟且经济高效的解决方案,我们将分类时间减少了 80%(从每份文档 8.5 分钟减少到 1.5 分钟)。
新的自动化关键信息提取性能:
- 通过结合 Amazon Textract 的文档分析能力、通过少样本示例进行的视觉上下文学习以及 Amazon Nova Premier 用于复杂数据解释的推理能力,我们实现了 90% 的提取准确率(与基线手动流程相同)。
- 与需要每业务部门多达 10 名全职员工每天工作 78 小时的人工基线相比,我们将处理成本降至每页 9 美分,每份文档处理时间为 1.3 分钟。
业务影响和推广
Myriad 已计划分阶段推出,首先从文档分类开始。他们计划首先在妇女健康业务部门推出新的分类解决方案,然后是肿瘤学和心理健康部门。由于我们的工作,Myriad 在文档分类成本方面每年可节省高达 13.2 万美元。该解决方案将每个预授权提交时间缩短了 2 分钟——专家现在只需四分钟即可完成订单,而不是六分钟,因为他们可以更快地访问带标签的文档。仅在妇女健康部门,这项改进每月就能节省 9,000 份预授权申请相关的 300 小时,相当于每位预授权专家的 50 小时。
这些可衡量的改进改变了 Myriad 的运营方式,正如其工程领导层所确认的:
“与 GenAIIC 合作,将我们的智能文档处理解决方案从 AWS Comprehend 迁移到 Bedrock 是一次变革性的飞跃。通过提高性能和准确性,该解决方案预计每月可节省超过 10,000 美元。该团队与 Myriad 内部工程团队的紧密合作,交付了一个高质量、可扩展的解决方案,而他们在先进语言模型方面的深厚专业知识提升了我们的能力。这是创新与合作伙伴关系如何推动可衡量业务影响的绝佳范例。”
– Martyna Shallenberg,Myriad Genetics 软件工程高级总监
结论
AWS GenAI IDP 加速器实现了 Myriad 的快速实施,提供了一个灵活的框架,缩短了开发时间。医疗保健组织需要定制的解决方案——加速器提供了广泛的定制功能,使用户无需进行广泛的代码更改或在开发过程中频繁重新部署,即可根据特定的文档类型和工作流程调整解决方案。我们的方法展示了战略性提示工程和模型选择的力量。我们通过关注提示设计(包括负面提示和视觉线索)在一个专业领域内实现了高准确性。我们通过为分类选择 Amazon Nova Pro,为复杂提取选择 Nova Premier,优化了成本和性能——将正确的模型匹配到每个特定任务。
亲自探索解决方案
希望改进文档处理工作流程的组织可以亲身体验这些好处。为 Myriad 转型提供动力的开源 GenAI IDP 加速器可供您在自己的环境中部署和测试。加速器简单设置过程允许用户快速评估生成式 AI 如何改变文档处理挑战。
一旦您探索了加速器并看到了它对您工作流程的潜在影响,请联系 AWS GenAIIC 团队,探讨如何为您的特定用例定制和优化 GenAI IDP 加速器。这种实践方法确保您可以就如何在组织中实施智能文档处理做出明智的决定。
关于作者
Priyashree Roy 是 AWS 生成式 AI 创新中心的数据科学家 II,她在那里运用机器学习和生成式 AI 方面的专业知识,为战略性 AWS 客户开发创新解决方案。她以在佛罗里达州立大学获得实验粒子物理学博士学位和在密歇根大学进行博士后研究的经验为基础,对复杂的业务挑战采取严谨的科学方法。
Mofijul Islam 是 AWS 生成式 AI 创新中心的 II 级应用科学家和技术主管,他帮助客户利用生成式 AI、大型语言模型 (LLM)、多智能体学习、代码生成和多模态学习来应对以客户为中心的研究和业务挑战。他拥有弗吉尼亚大学机器学习博士学位,研究重点是多模态机器学习、多语言自然语言处理 (NLP) 和多任务学习。他的研究发表在 NeurIPS、国际学习表征会议 (ICLR)、经验自然语言处理方法 (EMNLP)、人工智能与统计学会 (AISTATS) 以及电气电子工程师学会 (IEEE) 和计算机械协会 (ACM) 汇刊等顶级会议上。
Nivedha Balakrishnan 是... [内容被截断]
🚀 想要体验更好更全面的AI调用?
欢迎使用青云聚合API,约为官网价格的十分之一,支持300+全球最新模型,以及全球各种生图生视频模型,无需翻墙高速稳定,文档丰富,小白也可以简单操作。
评论区