目 录CONTENT

文章目录

利用视觉语言模型扩展数据标注,赋能物理AI系统

Administrator
2026-02-24 / 0 评论 / 0 点赞 / 0 阅读 / 0 字

📢 转载信息

原文链接:https://aws.amazon.com/blogs/machine-learning/scaling-data-annotation-using-vision-language-models-to-power-physical-ai-systems/

原文作者:Laura Kulowski, Alla Simoneau, Sri Elaprolu, Paul Amadeo, Parmida Atighehchian, and Dan Volk


关键的劳动力短缺正在制约着制造业、物流业、建筑业和农业等领域的增长。这个问题在建筑业尤为突出:美国有将近50万个职位空缺,而40%的现有劳动力即将在十年内退休。这些劳动力限制导致项目延期、成本上升和发展计划推迟。为了应对这些限制,组织正在开发自主系统,以执行填补产能缺口、扩展运营能力并提供全天候生产力的任务。


构建自主系统需要大量的已标注数据集来训练AI模型。有效的训练决定了这些系统能否带来业务价值。而瓶颈在于:数据准备成本高昂。至关重要的是,对视频数据进行标记——识别有关设备、任务和环境的信息——是确保数据对模型训练有用的必要步骤。这一步骤可能会阻碍模型的部署,从而减缓AI驱动的产品和服务的交付。对于管理着数百万小时视频的建筑公司来说,手动数据准备和标注变得不切实际。视觉语言模型(VLM)通过解释图像和视频、响应自然语言查询以及以手动流程无法比拟的速度和规模生成描述,有助于解决这一问题,提供了经济高效的替代方案。


在本文中,我们探讨了Bedrock Robotics如何应对这一挑战。该初创公司通过加入AWS物理AI研究员计划(AWS Physical AI Fellowship),与AWS生成式AI创新中心合作,应用视觉语言模型来分析建筑视频素材,提取操作细节,并大规模生成已标注的训练数据集,以改进自主建筑设备的(数据)准备工作。


Bedrock Robotics:加速自主建筑的案例研究

自2024年以来,Bedrock Robotics 一直致力于为建筑设备开发自主系统。该公司的产品 Bedrock Operator 是一种改造解决方案,结合了硬件和AI模型,使挖掘机和其他机械设备能够在最少人工干预的情况下运行。这些系统可以实现厘米级的精度来执行挖掘、平整和物料搬运等任务。训练这些模型需要海量的视频素材,捕捉设备、任务和周围环境——这是一个资源消耗巨大的过程,限制了其可扩展性。


VLM通过分析这些图像和视频数据并生成文本描述,提供了一种解决方案。这使得它们非常适合标注任务,而标注对于教会模型如何将视觉模式与人类语言联系起来至关重要。Bedrock Robotics 利用这项技术来简化训练AI模型的数据准备工作,从而实现设备的自主运行。此外,通过适当的模型选择和提示工程(prompt engineering),该公司将工具识别准确率从 34% 提高到了 70%。这使得一个手动、耗时的过程转变为自动化的、可扩展的数据管道解决方案。这一突破加速了自主设备的部署。


这种方法为面临类似数据挑战的组织提供了一个可复制的框架,并展示了对基础模型(Foundation Models, FMs)进行战略投资如何带来可衡量的运营成果和竞争优势。基础模型是使用自监督学习技术在海量数据上进行训练的模型,它们学习可以适应许多下游任务的通用表示。VLM 利用这些大规模的预训练技术来弥合视觉和文本模态之间的鸿沟,使其能够跨图像和语言理解、分析和生成内容。


在接下来的部分,我们将探讨 Bedrock Robotics 使用基于 VLM 的解决方案来标注数百万小时的视频素材并加速创新的过程。


利用 VLM 将非结构化视频数据转化为战略资产

要使自主建筑设备正常运行,需要从数百万小时的非结构化操作视频中提取有用信息。具体来说,Bedrock Robotics 需要在各种场景中识别工具附件、任务和工作现场条件。下面的图像是该数据集中的示例视频帧。



建筑设备使用多种工具附件运行,每种附件都需要准确分类才能训练出可靠的AI模型。Bedrock Robotics 与创新中心合作,将创新工作集中在解决几个关键的工具类别上:用于物料搬运的起重吊钩、用于混凝土拆除的破碎锤、用于地面找平的平整梁以及用于狭窄开挖的开沟斗


这些标签使 Bedrock Robotics 能够选择相关的视频片段,并组装代表各种设备配置和操作条件的训练数据集。


通过战略模型优化加速 AI 部署

现成的 VLM(未经提示优化)在处理建筑视频数据时效果不佳,因为它们是在网络图像上训练的,而不是在挖掘机驾驶室的操作员录像上训练的。它们无法处理不寻常的角度、特定于设备的视觉效果,或因灰尘和天气造成的能见度不佳。它们还缺乏区分视觉上相似的工具(如挖掘斗和开沟斗)的领域知识。


Bedrock Robotics 和创新中心通过有针对性的模型选择和提示优化解决了这一问题。团队评估了多种 VLM——包括开源选项和Amazon Bedrock中可用的 FM——然后使用每种工具的详细视觉描述、对常见混淆工具对的指导以及分析视频帧的分步说明来完善提示。


这些修改在包含 130 个视频的测试集中,将分类准确率从 34% 提高到了 70%,每处理一小时视频的成本为 10 美元。这些结果表明,提示工程如何使 VLM 适应专业任务。对于 Bedrock Robotics 来说,这种定制带来了更快的训练周期、更短的部署时间,以及一个可以随着运营需求不断发展的、具有成本效益的可扩展标注管道。


前行之路:通过自动化应对劳动力短缺

竞争优势。对于 Bedrock Robotics 而言,视觉语言系统能够快速识别和提取关键数据集,从而从海量建筑视频素材中获取必要的洞察。这种经济高效的方法总体准确率达到 70%,为扩展模型训练所需的数据准备工作提供了一个实用的基础。它展示了战略性的AI创新如何能够转变劳动力限制并加速行业变革。那些简化数据准备工作的组织可以加速自主系统的部署,降低运营成本,并探索在受劳动力短缺影响的行业中实现增长的新领域。有了这个可重复的框架,面临类似挑战的制造和工业自动化领导者可以在其自身领域应用这些原则,以推动竞争差异化。


要了解更多信息,请访问 Bedrock Robotics 或在 AWS 上探索物理AI资源。



作者简介

Laura Kulowski

Laura Kulowski 是 AWS 生成式AI创新中心的首席应用科学家,致力于开发物理AI解决方案。在加入亚马逊之前,Laura 在哈佛大学地球与行星科学系完成了博士学位,利用“朱诺号”数据研究了木星的深层纬向流和磁场。

Alla Simoneau

Alla Simoneau 是一位技术和商业领导者,拥有超过 15 年的经验,目前担任亚马逊网络服务(AWS)新兴技术物理AI负责人,负责推动 AI 与现实世界应用交叉领域的全球创新。在亚马逊工作十多年,Alla 在战略、团队建设和运营卓越方面是一位公认的领导者,专注于将尖端技术转化为初创企业和企业客户的现实世界转型。

Parmida Atighehchian

Parmida Atighehchian 是 AWS 生成式AI创新中心的高级数据科学家。凭借超过 10 年的深度学习和生成式AI经验,Parmida 在 AI 和以客户为中心的解决方案方面拥有深厚的专业知识。Parmida 领导并合著了高度有影响力的科学论文,重点关注计算机视觉、可解释性、视频和图像生成等领域。Parmida 专注于科学实践,帮助客户在健壮且可扩展的管道中使用生成式AI进行系统的实际设计。

Dan Volk

Dan Volk 是 AWS 生成式AI创新中心的高级数据科学家。他拥有 10 年的机器学习、深度学习和时间序列分析经验,并拥有加州大学伯克利分校的数据科学硕士学位。他热衷于利用尖端AI技术将复杂的业务挑战转化为机遇。

Paul Amadeo

Paul Amadeo 是一位经验丰富的技术领导者,拥有超过 30 年的经验,涵盖人工智能、机器学习、物联网系统、射频设计、光学、半导体物理学和先进工程。作为 AWS 生成式AI创新中心的物理AI技术主管,Paul 专注于将 AI 功能转化为切实的物理系统,指导企业客户完成从概念到生产的复杂实施。他多样化的背景包括为边缘环境构建计算机视觉系统、设计已在全球生产了数十亿台设备的机器人智能卡制造技术,以及在商业和国防部门领导跨职能团队。Paul 拥有加州大学圣地亚哥分校应用物理学硕士学位、加州理工学院应用物理学学士学位,并拥有六项涉及光学系统、通信设备和制造技术的专利。

Sri Elaprolu

Sri Elaprolu 是 AWS 生成式AI创新中心的主任,他领导着一个全球团队,为企业和政府组织实施最前沿的 AI 解决方案。在他 13 年的 AWS 任职期间,他领导了与全球企业和公共部门组织合作的 ML 科学团队。在加入 AWS 之前,他在诺斯罗普·格鲁曼公司担任产品开发和软件工程领导职务长达 14 年。Sri 拥有工程科学硕士和 MBA 学位。




🚀 想要体验更好更全面的AI调用?

欢迎使用青云聚合API,约为官网价格的十分之一,支持300+全球最新模型,以及全球各种生图生视频模型,无需翻墙高速稳定,文档丰富,小白也可以简单操作。

0

评论区