利用视觉语言模型扩展数据标注，赋能物理AI系统-青云TOP-AI综合资源站平台|青云聚合API大模型调用平台|全网AI资源导航平台

📢 转载信息

原文链接：https://aws.amazon.com/blogs/machine-learning/scaling-data-annotation-using-vision-language-models-to-power-physical-ai-systems/

原文作者：Laura Kulowski, Alla Simoneau, Sri Elaprolu, Paul Amadeo, Parmida Atighehchian, and Dan Volk

关键的劳动力短缺正在制约着制造业、物流业、建筑业和农业等领域的增长。这个问题在建筑业尤为突出：美国有将近50万个职位空缺，而40%的现有劳动力即将在十年内退休。这些劳动力限制导致项目延期、成本上升和发展计划推迟。为了应对这些限制，组织正在开发自主系统，以执行填补产能缺口、扩展运营能力并提供全天候生产力的任务。

构建自主系统需要大量的已标注数据集来训练AI模型。有效的训练决定了这些系统能否带来业务价值。而瓶颈在于：数据准备成本高昂。至关重要的是，对视频数据进行标记——识别有关设备、任务和环境的信息——是确保数据对模型训练有用的必要步骤。这一步骤可能会阻碍模型的部署，从而减缓AI驱动的产品和服务的交付。对于管理着数百万小时视频的建筑公司来说，手动数据准备和标注变得不切实际。视觉语言模型（VLM）通过解释图像和视频、响应自然语言查询以及以手动流程无法比拟的速度和规模生成描述，有助于解决这一问题，提供了经济高效的替代方案。

在本文中，我们探讨了Bedrock Robotics如何应对这一挑战。该初创公司通过加入AWS物理AI研究员计划（AWS Physical AI Fellowship），与AWS生成式AI创新中心合作，应用视觉语言模型来分析建筑视频素材，提取操作细节，并大规模生成已标注的训练数据集，以改进自主建筑设备的（数据）准备工作。

Bedrock Robotics：加速自主建筑的案例研究

自2024年以来，Bedrock Robotics 一直致力于为建筑设备开发自主系统。该公司的产品 Bedrock Operator 是一种改造解决方案，结合了硬件和AI模型，使挖掘机和其他机械设备能够在最少人工干预的情况下运行。这些系统可以实现厘米级的精度来执行挖掘、平整和物料搬运等任务。训练这些模型需要海量的视频素材，捕捉设备、任务和周围环境——这是一个资源消耗巨大的过程，限制了其可扩展性。

VLM通过分析这些图像和视频数据并生成文本描述，提供了一种解决方案。这使得它们非常适合标注任务，而标注对于教会模型如何将视觉模式与人类语言联系起来至关重要。Bedrock Robotics 利用这项技术来简化训练AI模型的数据准备工作，从而实现设备的自主运行。此外，通过适当的模型选择和提示工程（prompt engineering），该公司将工具识别准确率从 34% 提高到了 70%。这使得一个手动、耗时的过程转变为自动化的、可扩展的数据管道解决方案。这一突破加速了自主设备的部署。

这种方法为面临类似数据挑战的组织提供了一个可复制的框架，并展示了对基础模型（Foundation Models, FMs）进行战略投资如何带来可衡量的运营成果和竞争优势。基础模型是使用自监督学习技术在海量数据上进行训练的模型，它们学习可以适应许多下游任务的通用表示。VLM 利用这些大规模的预训练技术来弥合视觉和文本模态之间的鸿沟，使其能够跨图像和语言理解、分析和生成内容。

在接下来的部分，我们将探讨 Bedrock Robotics 使用基于 VLM 的解决方案来标注数百万小时的视频素材并加速创新的过程。

利用 VLM 将非结构化视频数据转化为战略资产

要使自主建筑设备正常运行，需要从数百万小时的非结构化操作视频中提取有用信息。具体来说，Bedrock Robotics 需要在各种场景中识别工具附件、任务和工作现场条件。下面的图像是该数据集中的示例视频帧。

建筑设备使用多种工具附件运行，每种附件都需要准确分类才能训练出可靠的AI模型。Bedrock Robotics 与创新中心合作，将创新工作集中在解决几个关键的工具类别上：用于物料搬运的起重吊钩、用于混凝土拆除的破碎锤、用于地面找平的平整梁以及用于狭窄开挖的开沟斗。

这些标签使 Bedrock Robotics 能够选择相关的视频片段，并组装代表各种设备配置和操作条件的训练数据集。

通过战略模型优化加速 AI 部署

现成的 VLM（未经提示优化）在处理建筑视频数据时效果不佳，因为它们是在网络图像上训练的，而不是在挖掘机驾驶室的操作员录像上训练的。它们无法处理不寻常的角度、特定于设备的视觉效果，或因灰尘和天气造成的能见度不佳。它们还缺乏区分视觉上相似的工具（如挖掘斗和开沟斗）的领域知识。

Bedrock Robotics 和创新中心通过有针对性的模型选择和提示优化解决了这一问题。团队评估了多种 VLM——包括开源选项和Amazon Bedrock中可用的 FM——然后使用每种工具的详细视觉描述、对常见混淆工具对的指导以及分析视频帧的分步说明来完善提示。

这些修改在包含 130 个视频的测试集中，将分类准确率从 34% 提高到了 70%，每处理一小时视频的成本为 10 美元。这些结果表明，提示工程如何使 VLM 适应专业任务。对于 Bedrock Robotics 来说，这种定制带来了更快的训练周期、更短的部署时间，以及一个可以随着运营需求不断发展的、具有成本效益的可扩展标注管道。

前行之路：通过自动化应对劳动力短缺

竞争优势。对于 Bedrock Robotics 而言，视觉语言系统能够快速识别和提取关键数据集，从而从海量建筑视频素材中获取必要的洞察。这种经济高效的方法总体准确率达到 70%，为扩展模型训练所需的数据准备工作提供了一个实用的基础。它展示了战略性的AI创新如何能够转变劳动力限制并加速行业变革。那些简化数据准备工作的组织可以加速自主系统的部署，降低运营成本，并探索在受劳动力短缺影响的行业中实现增长的新领域。有了这个可重复的框架，面临类似挑战的制造和工业自动化领导者可以在其自身领域应用这些原则，以推动竞争差异化。

要了解更多信息，请访问 Bedrock Robotics 或在 AWS 上探索物理AI资源。