📢 转载信息
原文作者:Kim Nguyen, Shyam Banuprakash, and Praveen Haranahalli
本文由 Clario 的 Kim Nguyen 和 Shyam Banuprakash 共同撰写。
Clario 是临床试验行业端点数据解决方案的领先提供商,致力于对特定、预定义结果(端点)进行系统化收集、管理和分析,以评估治疗的安全性和有效性,为寻求为患者带来新疗法的生命科学公司生成高质量的临床证据。自 Clario 50多年前成立以来,公司的端点数据解决方案已支持超过30,000次临床试验,并在100多个国家/地区获得了超过700项监管批准。
本文基于我们之前关于Clario如何利用 Amazon Bedrock 开发AI解决方案以加速临床试验的文章。从那时起,Clario 进一步增强了其AI能力,重点是创新解决方案,以简化临床试验软件配置和工件的生成,同时提供高质量的临床证据。
业务挑战
在临床试验中,设计和定制各种软件系统配置,以有效管理和优化临床试验的不同阶段,至关重要。这些配置范围可以从基本的试验设置到更高级的功能,例如数据收集定制和与其他系统的集成。Clario 使用来自多个源的数据来构建临床试验特定的软件配置。传统的流程涉及从单个表格中手动提取必要的数据。这些表格包含有关检查、访视、病症和干预措施的重要信息。此外,该流程还需要整合来自多个企业数据提供商的与研究相关的信息,如研究计划、参与标准、申办方、协作者和标准化检查方案。
这种手动流程带来了若干挑战:
- 手动数据提取 – 团队成员需要手动审查PDF文档以提取结构化数据。
- 转录挑战 – 从源表格到配置文档的手动数据迁移提供了改进的机会,特别是在减少转录不一致性和增强标准化方面。
- 版本控制挑战 – 当研究需要迭代或更新时,保持文档和系统之间的一致性变得越来越复杂。
- 信息流碎片化 – 数据存在于断开的孤岛中,包括PDF、研究细节数据库记录和其他独立文档。
- 软件构建时间表 – 配置过程直接影响生成必要软件构建的时间表。
对于时间至关重要且准确性不容妥协的临床试验,Clario 实施了严格的质量控制措施,以最大限度地降低与手动流程相关的风险。尽管这些努力是巨大的,但它们凸显了确保复杂研究配置的精确性和一致性的业务挑战。
解决方案概述
为应对这一业务挑战,Clario 开发了一个由生成式AI驱动的解决方案,Clario 称之为 AWS 上的 Clario 的 Genie AI 服务。该解决方案利用大型语言模型(LLM)的能力,特别是 Amazon Bedrock 上的 Anthropic 的 Claude 3.7 Sonnet。该流程由 Amazon Elastic Container Service (Amazon ECS) 编排,以改变 Clario 处理临床试验软件配置的方式。
Clario 的方法使用 Amazon Bedrock 的自定义数据解析器,自动将来自PDF传输表格的信息结构化为经过验证的表格。Genie AI 服务将来自多个源的数据集中起来,包括传输表格、研究细节、标准检查方案以及其他配置参数。一个交互式审查仪表板帮助利益相关者验证AI提取的信息,并在最终确定经过验证的配置之前进行必要的更正。验证后,系统会自动生成一个软件配置规范 (SCS) 文档,作为软件配置的全面记录。该流程以生成式AI驱动的 XML 生成结束,然后将此 XML 发布到 Clario 专有的医学成像软件中以进行研究构建,创建了一个端到端的解决方案,从而在临床试验软件配置中极大地减少了手动工作量,同时提高了准确性。
Genie AI 服务的架构由几个相互连接的组件组成,它们在一个清晰的工作流程序列中协同工作,如下所示。

该工作流程包含以下步骤:
- 启动研究并收集数据。
- 使用 Amazon Bedrock 提取数据。
- 审查和验证AI生成的输出。
- 生成必要的文档和代码工件。
在接下来的部分中,我们将更详细地讨论工作流程的步骤。
研究启动和数据收集
工作流程通过多个集成步骤收集必要的研究信息开始:
- 研究代码查找 – 用户首先输入唯一标识临床试验的研究代码。
- 与研究数据库的 API 集成 – 研究查找操作向研究数据库发出 API 调用,以获取研究计划、参与标准、申办方等研究细节,为配置奠定基础。
- 传输表格处理 – 用户通过安全的 AWS Direct Connect 网络,使用 Web UI 将包含研究参数(如检查、访视、病症和干预措施信息)的传输表格上传到 Genie AI 服务。
- 数据结构化 – 系统将信息组织成关键类别:
- 访视信息(日程安排、程序)
- 检查规范(方案、要求)
- 研究特定自定义字段(生命体征、给药信息等)
数据提取
该解决方案通过 API 调用,使用 Amazon Bedrock 上的 Anthropic 的 Claude Sonnet 来执行以下操作:
- 解析和提取传输表格中的结构化数据
- 识别文档中的关键字段和表格
- 将信息组织成标准化格式
- 应用特定领域的规则来正确分类临床试验访视
- 在保持适当数据类型和格式的同时,提取和验证人口统计字段
- 处理医学成像参数的特殊格式规则
- 管理特定于文档的适应性(例如,对体模与受试者扫描进行不同处理)
审查和验证
该解决方案为利益相关者提供了一个全面的审查界面,通过以下步骤验证和完善AI生成的配置:
- 交互式审查过程 – 审查人员访问 Genie AI 服务界面以执行以下操作:
- 检查AI生成的输出
- 根据需要对数据进行更正或调整
- 添加评论并高亮显示所做的调整作为反馈机制
- 验证配置准确性
- 数据存储 – 经过审查和批准的软件配置被保存到 Clario 的 Genie 数据库中,创建了一个集中、权威、可审计的配置数据源
文档和代码生成
配置数据验证后,该解决方案通过结构化工作流程自动创建必要的文档和代码工件:
- SCS 文档创建 – 审查人员访问 Genie AI 服务界面,通过使用经过验证的数据生成 SCS 文档来最终确定软件配置。
- XML 生成工作流程 – SCS 文档最终确定后,工作流程完成以下步骤:
- 工作流程从 Genie 数据库中获取配置详细信息。
- Genie AI 服务的内部微服务 SCSXMLConverter 处理 SCS 文档和研究配置。该微服务通过 API 调用调用 Anthropic 的 Claude 3.7 Sonnet 来生成标准化的 SCS XML 文件。
- 对生成的 XML 执行验证检查,以确保其满足 Clario 临床研究软件的结构和内容要求。
- 为软件构建过程创建最终的 XML 输出,并附有转换过程的详细日志。
益处与成果
该解决方案提高了数据提取质量,同时为团队提供了一个简化的仪表板,加速了验证过程。
通过实施一致的提取逻辑并最大限度地减少手动数据输入,该解决方案减少了潜在的转录错误。此外,内置的验证保护措施现在有助于在流程早期识别潜在问题,防止问题向下游传播。
该解决方案还改变了团队协作的方式。通过提供集中的审查功能并让跨职能团队访问相同的解决方案,沟通变得更加透明和高效。标准化的工作流程为信息共享和决策制定创造了更清晰的渠道。
从运营角度来看,新方法在支持研究演变的同时,提供了跨研究的更大可扩展性。这种标准化为将这些能力扩展到组织内其他运营领域奠定了坚实的基础。
重要的是,该解决方案通过完整的审计跟踪和可复现的过程,保持了强大的合规性和可审计性。关键成果包括:
- 研究配置执行时间有所缩短,同时提高了整体质量
- 团队可以更多地专注于增加价值的活动,例如研究设计优化。
经验教训
Clario 通过生成式AI转变软件配置的历程,学到了宝贵的经验教训,这些经验将为未来的计划提供参考。
生成式AI实施见解
在与生成式AI技术合作方面,出现了以下关键学习点:
- 提示工程是基础 – 带有领域知识的少样本提示是至关重要的。团队发现,在提示中提供详细示例和明确的业务规则对于成功是必要的。与简单的指令不同,Clario 的提示包含全面的业务逻辑、边缘情况处理和精确的输出格式要求,以指导AI对临床试验配置的理解。
- 提示工程需要迭代 – 数据提取的质量在很大程度上取决于精心设计的、编码了领域专业知识的提示。Clario 的团队花费了大量时间通过多次迭代和测试不同方法来完善这些提示,以捕获有关访视顺序、人口统计要求和字段格式的复杂业务规则。
- 验证工作流程中的人工监督 – 尽管生成式AI极大地加速了提取过程,但在结构化的验证工作流程中,人工审查仍然是必要的。Genie AI 服务界面专门设计用于突出潜在的不一致性,并为审查人员提供便捷的编辑功能,以便他们高效地应用专业知识。
集成挑战
在系统集成过程中出现了一些重要的挑战:
- 双系统同步 – 最大的挑战之一是验证 SCS 文档中所做的更改是否反映在解决方案中。这种双向集成仍在完善中。
- 系统过渡策略 – 将概念验证脚本转变为完全集成的解决方案功能,需要仔细规划以避免中断。
流程适应
团队确定了成功流程变更的以下关键因素:
- 分阶段实施 – Clario 分阶段推出该解决方案,首先从试点团队开始,他们可以验证功能并充当内部倡导者,帮助团队从熟悉的文件中心工作流程过渡到新解决方案。
- 工作流程优化是迭代的 – 初始工作流程设计已根据用户反馈和现实使用模式不断演进。
- 培训要求 – 即使界面直观,适当的培训也能确保用户充分利用解决方案的能力。
技术考虑因素
实施揭示了几个重要的技术方面需要考虑:
- 数据格式可变性 – 不同治疗领域(肿瘤学、神经病学等)甚至同一领域内不同研究之间的传输表格差异很大。当AI模型遇到它以前从未见过的表格结构或术语时,这种可变性带来了挑战。Clario 的提示工程需要持续迭代,因为他们发现了传输表格中的新模式和边缘情况,从而形成了一个反馈循环,其中人工专家识别出被遗漏或误解的数据点,为未来的提示完善提供信息。
- 性能优化 – 处理大型文档所需的时间需要优化,以保持流畅的用户体验。
- 错误处理稳健性 – 在生成式AI处理流程中构建强大的错误处理对于生产可靠性至关重要。
战略见解
该项目产生了一些宝贵的战略经验,将为未来的举措提供参考:
- 从定义明确的用例开始 – 从软件配置过程入手,为 Clario 提供了一个具体的、高价值的目标,用于展示生成式AI的益处。
- 为可扩展性而构建 – 在设计架构时考虑到未来的扩展,使他们能够很好地将这些能力扩展到组织的其它领域。
- 衡量具体成果 – 跟踪处理时间和错误率等特定指标,有助于量化生成式AI投资的回报。
这些经验对于完善当前解决方案和指导组织未来生成式AI实施的方法至关重要。
结论
通过生成式AI实现软件配置流程的转型,对 Clario 来说不仅仅是一项技术成就——它反映了公司处理临床试验中数据处理和知识工作方式的基本转变。通过将 Amazon Bedrock 中可用的 LLM 的模式识别和处理能力与用于验证和决策制定的人工智能相结合,Clario 创建了一个混合工作流程,提供了两全其美,并通过 Amazon ECS 进行编排,以实现可靠、可扩展的执行。
该计划的成功证明了 AWS 上的生成式AI是一种可以带来切实体现益处的实用工具。通过关注具有明确痛点的特定、定义明确的流程,Clario 以一种能够创造即时价值并为更广泛的转型奠定基础的方式,实施了由 Amazon Bedrock 驱动的 Genie AI 服务解决方案。
对于考虑类似转型的组织来说,这次经历突显了从具体的用例开始、为人工AI协作而构建以及保持对可衡量业务成果关注的重要性。牢记这些原则,生成式AI可以成为组织演进的真正催化剂。
关于作者
Kim Nguyen 担任 Clario 的数据科学高级总监,负责领导数据科学家团队,为医疗保健和临床试验行业开发创新的 AI/ML 解决方案。Kim 在临床数据管理和分析方面拥有十多年的经验,已成为将复杂的生命科学数据转化为驱动业务成果的可操作见解的专家。他的职业生涯包括在 Clario 和 Gilead Sciences 担任领导职务,他在这些职位上持续推动跨多个职能团队的数据自动化和标准化举措。Kim 拥有加州大学圣地亚哥分校的数据科学与工程硕士学位,以及加州大学伯克利分校的学士学位,这为他开发预测模型和数据驱动战略提供了技术基础。他常驻加利福尼亚州圣地亚哥,利用他的专业知识推动临床研究数据科学的前沿方法。
Shyam Banuprakash 担任 Clario 的数据科学与交付高级副总裁,负责领导复杂的分析项目,并为医学影像领域开发创新的数据解决方案。在 Clario 拥有近12年的循序渐进的经验中,他展示了在数据驱动决策和业务流程改进方面的卓越领导力。他的专业知识超出了他的主要职责范围,他还担任 Modal 和加州大学欧文分校客户体验计划的顾问委员会成员。Shyam 拥有加州大学圣地亚哥分校数据科学与工程高级研究硕士学位,并接受了麻省理工学院关于数据科学和大数据分析的专业培训。他的职业生涯体现了医疗保健、技术和数据科学的强大交汇点,使他成为利用分析技术革新临床研究和医学影像的思想领袖。
Praveen Haranahalli 是亚马逊云计算服务 (AWS) 的高级解决方案架构师,负责构建安全、可扩展的云解决方案,并为各类企业客户提供战略指导。Praveen 拥有近二十年的 IT 经验,其中包括十多年专注于云计算的经验,他已在多个行业成功实施了转型项目。作为一名值得信赖的技术顾问,Praveen 与客户合作,实施强大的 DevSecOps 管道、建立全面的安全护栏,并开发创新的 AI/ML 解决方案。他热衷于通过前沿的云架构解决复杂的业务挑战,并帮助组织实现由人工智能和机器学习驱动的成功数字化转型。
🚀 想要体验更好更全面的AI调用?
欢迎使用青云聚合API,约为官网价格的十分之一,支持300+全球最新模型,以及全球各种生图生视频模型,无需翻墙高速稳定,文档丰富,小白也可以简单操作。
评论区