目 录CONTENT

文章目录

基于 Amazon SageMaker AI 构建 TrueLook 的人工智能驱动建筑安全系统架构

Administrator
2026-01-10 / 0 评论 / 0 点赞 / 0 阅读 / 0 字

📢 转载信息

原文链接:https://aws.amazon.com/blogs/machine-learning/architecting-truelooks-ai-powered-construction-safety-system-on-amazon-sagemaker-ai/

原文作者:Pranav Murthy, Gaurav Singh, Surya Kari, Marc Ritter, Scott Anderson, and Steven McDowall


本文由 TrueLook 和 AWS 联合撰写。

TrueLook 是一家建筑摄像头和作业现场智能公司,为建筑项目提供实时可见性。其平台结合了高分辨率延时摄影、实时视频流和人工智能洞察,帮助团队在整个项目生命周期中监控进度、提高问责制并降低风险。

TrueLook 利用 Amazon SageMaker AI 构建和部署了人工智能驱动的建筑安全监控系统,该系统通过结合 TrueLook 在使用 AWS 机器学习 (ML) 基础设施的作业现场摄像头系统方面的经验,自动检测个人防护设备 (PPE)。TrueLook 构建的解决方案通过自动图像分析来识别安全隐患,从而检测如安全帽、高能见度安全背心、安全头盔、手套、防护眼镜等 PPE。通过该系统,项目团队可以更快地发现不安全的工作条件、不合规行为以及高风险区域的暴露情况,从而加强整体安全治理。人工智能正帮助 TrueLook 从手动检查转向更智能、更具可扩展性的作业现场安全监控方法。

本文详细概述了 TrueLook 如何使用 SageMaker AI 构建其人工智能驱动的安全监控系统,重点介绍了关键技术决策、管道设计模式和 MLOps 最佳实践。您将获得关于如何在 AWS 上设计可扩展的计算机视觉解决方案的宝贵见解,特别是在模型训练工作流、自动化管道创建和实时推理的生产部署策略方面。

建筑安全:关键挑战

建筑工地是工作环境中最危险的场所之一,工人面临重型机械、高空作业区域、电气危害和化学品暴露的风险。美国职业安全与健康管理局 (OSHA) 报告称,尽管建筑业占总劳动力的比例很小,但其每年发生的工人死亡人数占美国总数的 五分之一。除了人员伤亡,安全事故还会带来沉重的经济负担,包括工人赔偿索赔、项目延误、监管罚款和潜在诉讼。

传统的安全监控在很大程度上依赖于人工监督,安全经理进行定期现场巡视,事后审查录像,或依赖工人自我报告违规行为。然而,这种方法存在根本性的局限性:

  • 规模限制 – 拥有多个现场和数百名工人的大型建筑项目仅靠人力观察者无法有效监控。
  • 覆盖不一致 – 手动监控容易受到疲劳、分心和人为错误的影响,导致在关键时刻错失违规行为。
  • 被动响应 – 传统方法通常在事故发生后才识别安全问题,限制了预防机会。
  • 资源密集 – 在所有现场和班次部署足够的人工监控员需要大量的人员投入。
  • 合规差距 – 不一致的文档记录使得维护 OSHA 和其他监管机构要求的全面审计跟踪变得困难。

这些挑战催生了对自动化、可扩展的安全监控解决方案的需求,以便对建筑作业提供一致的实时监督。

解决方案概述

TrueLook 的人工智能驱动的 PPE 检测和监控解决方案利用 AWS 基础设施和 ML 通过现场图像检测建筑区域的安全合规问题。TrueLook 从现场摄像头获取图像用于 PPE 检测。为了构建、训练和部署这些模型,TrueLook 使用 SageMaker AI,它为整个 ML 工作流提供了托管基础设施。通过将基础设施设置和编排的繁重工作卸载给 SageMaker AI,TrueLook 团队可以专注于提高模型准确性和可靠性,帮助确保解决方案能够跨客户现场有效扩展。下图说明了端到端的工作流,重点介绍了如何集成多个 AWS 服务以提供无缝、可扩展的 AI 解决方案。

TrueLook 的带标签图像数据集经过三个关键阶段的训练管道:预处理(SageMaker 处理作业)、训练(SageMaker 训练作业)和带可观测性的版本控制(SageMaker 模型注册表)。SageMaker 处理作业根据数据集大小,在单个或多个节点上运行,处理大规模的图像清理和准备工作。SageMaker 训练作业使用内置的 PyTorch 容器和 NVIDIA GPU 执行模型训练。通过使用 SageMaker PyTorch 估计器的基本运行时配置,相同的脚本可以在单节点多 GPU 设置上运行,也可以扩展到分布式多节点训练,使 TrueLook 能够根据需要平衡速度和准确性。训练好的模型随后在 SageMaker 模型注册表中进行版本控制和存储,提供了一个用于跟踪、治理和部署的中央枢纽。

如前述架构图所示,此工作流由 SageMaker Pipelines 端到端编排,将预处理、训练和注册整合到一个自动化、可重复的流程中。通过使用 SageMaker 提供的托管 MLflow 集成和 TensorBoard 功能,TrueLook 能够跟踪实验、比较性能并在规模上实现可重复性,从而可以轻松微调模型并在全国客户的建筑现场提供准确的 PPE 检测。

模型经过训练、评估和批准后,部署工作由 SageMaker AI 提供的全托管托管服务处理。实时端点提供低延迟的规模化推理,直接在实时视频流或快照上支持 PPE 检测。检测到违规时,系统会触发下游警报,实时通知客户。为了保持系统的持续改进,TrueLook 通过主动学习循环扩展了此管道。将新批次的图像放入 Amazon Simple Storage Service (Amazon S3) 中,工作流通过持续集成和交付 (CI/CD) 流程自动触发微调或重新训练。在提升到生产环境之前,每个候选模型都会经过 SageMaker 模型注册表中的治理检查、MLflow 的运行时评估以及 Tensorboard 的可视化推理验证。只有在完成这些步骤后,才会部署新模型,有助于确保规模化下的可靠性和一致性。

使用 SageMaker AI 构建高性能计算机视觉目标检测模型

训练准确的计算机视觉模型始于高质量的标注数据——这一步骤通常成为开发人工智能驱动服务的瓶颈。对于 TrueLook 而言,构建可靠的 PPE 检测模型意味着创建一个捕获了所有主要违规类别(人、安全帽、安全背心、安全靴等)的标注数据集,并在各种条件下(如不同的场景、光照、方向和视角)进行捕获。这些标注来自于 TrueLook 遍布建筑工地的全国性视频摄像头源。为加速进展和提高模型质量,TrueLook 的工程团队与 SageMaker AI 市场营销 (GTM) 数据科学团队合作,设计了一个高精度的多阶段训练管道。这种方法通过结合 AWS 和 TrueLook 在深度计算机视觉和数据科学方面的专业知识与 SageMaker AI 支持的简化托管训练和部署工作流,减少了从实验到生产所需的时间。结果是一个可扩展的多阶段管道,它实现了更快的迭代、简化的操作复杂性,并带来了优于 TrueLook 现有最先进 PPE 检测模型的准确性提升。

早期实验和替代方法

TrueLook 最初尝试了其他提供用于低代码和无代码机器学习 (ML) 和深度学习 (DL) 模型训练的 UI 或 API 驱动工作流的服务提供商。TrueLook 最初使用默认的、供应商推荐的超参数,随后在调整暴露的参数(如批次大小、学习率和置信度阈值)后重新训练模型,以便使用自己的数据集快速微调和评估目标检测模型。然而,对训练过程控制的限制未能产生足够达到生产就绪状态的结果,因为模型性能在一个狭窄的范围内停滞不前,原因是缺乏额外的调优和优化控制。例如,使用最初的 1,000 张带标签图像进行训练,平均精度 (mAP) 仅在 60%–70% 范围内。虽然这证明了该方法的有效性,但结果也表明性能与可用带标签图像的数量紧密相关,凸显了对更先进、更可扩展的管道的需求。

使用 SageMaker AI 的三阶段微调管道

对低代码和无代码方法的早期实验表明,需要将一个预训练的、开放域目标检测模型(最初训练用于识别车辆、人员和动物等通用对象)进行领域转移,以适应建筑和安全领域。这种初始的领域适应使模型能够学习特定于建筑的可视化概念,包括在复杂的作业现场条件(如部分遮挡)下安全设备和工人的存在,这利用了精选的开源建筑数据集。然后,该领域转移的目标检测模型会在客户特定的数据集上进一步微调,以使模型的靶点类别与每个客户的标注标准和现场条件保持一致。下图说明了这一进程作为一个三阶段训练工作流:

  1. 预训练模型:选择一个在大型开源图像上训练的预训练计算机视觉 (CV) 目标检测模型。
  2. 领域适应:使用公开可用的建筑安全领域数据集对预训练模型进行微调。
  3. 微调:使用 TrueLook 的标注数据集对领域适应后的模型进行微调,以快速提高准确性。

YOLO 目标检测模型家族

在研究多阶段训练工作流之前,我们想介绍一下 TrueLook 人工智能驱动的建筑安全系统的核心目标检测模型。

YOLO(你只看一次) 是一系列实时目标检测模型,它们针对快速、单次检测进行了优化,在准确性和吞吐量之间取得了很好的平衡,非常适合建筑工地等动态环境。YOLOv11 通过架构改进进一步发展了这一系列模型,这些改进增强了特征提取,以更少的参数提供了更高的准确性,并实现了更快的推理速度,即使在受限硬件上也是如此,同时还支持分割和姿态估计等任务。

多阶段目标检测微调工作流

在本节中,我们将描述用于选择、适应和微调预训练视觉模型以进行建筑工地安全监控的端到端方法:

  • 选择预训练模型 – 该团队根据大小、准确性、训练指标、类别覆盖范围和许可等因素评估了预训练模型。YOLOv11 因其强大的性能和对建筑相关用例的适用性而被选为基础模型。
  • 领域适应 – 预训练模型通常在汽车、动物或日常用品等广泛类别上进行训练。通过使这些权重适应于关注建筑特定类别(如安全帽、安全锥和安全区域内的工人),模型获得了领域感知能力。这种适应使用了像 Roboflow: Construction Safety 这样的公开可用数据集,并受益于数据增强,以提高在不同视角、遮挡和光照条件下的鲁棒性。
  • 使用 TrueLook 数据进行微调 – 然后,领域适应后的模型在 TrueLook 专有的高质量带标签数据集上进行微调。由于模型在第二阶段后已经可以合理地识别 PPE 类别,因此微调使其在来自 TrueLook 实时建筑源的图像上的性能更加精确。额外的训练时增强进一步提高了在真实条件下的泛化能力。

这种分阶段的方法被证明非常有效。例如,使用相同的 1,000 张带标签图像,该管道实现了 80%–90% 的 mAP 分数——比替代提供商的工作流提高了 20 个百分点。这种设计的另一个好处是效率:第一和第二阶段只需要运行一次,从而产生一个可重用的领域适应模型。每当有新数据可用时,TrueLook 就可以重新运行第三阶段,从而减少训练时间,同时持续提高总体模型准确性。相比之下,低代码和无代码替代方案通常对模型架构、训练策略和多阶段优化提供有限的控制,使得难以在大规模上执行明确的领域适应和迭代微调。虽然这些工具可以加速初始原型设计,但在复杂、真实的建筑工地等环境中,当需要更高的准确性、可重复性和生产级定制时,它们往往力不从心。

使用 SageMaker AI 投入生产

通过使用 SageMaker AI,TrueLook 将其多阶段目标检测工作流作为一个可扩展的、可投入生产的 MLOps 框架投入生产。通过使用 SageMaker PipelinesSageMaker 模型注册表等托管功能,TrueLook 实现了从训练和评估到版本控制和部署的整个模型生命周期的自动化,同时保持了强大的治理和可追溯性。这种方法减少了手动编排,降低了操作风险,并提供了大规模运行人工智能驱动的安全监控服务所需的可靠性和可观测性。

使用 SageMaker Pipelines 实现端到端目标检测

构建准确的目标检测模型只是构建全面的 AI 驱动建筑安全系统的第一步。持续改进需要快速迭代、受控实验以及随着新数据的可用而可靠地提升高质量模型。为实现这一目标,TrueLook 和 AWS 使用 SageMaker Pipelines 实现了一个自动化工作流,该工作流支持并行实验,并具有添加自动模型评估的能力,该评估会自动筛选出性能不佳的模型,只推进那些达到预定义性能阈值的模型,从而实现更快的迭代、更高的可重复性以及从实验到生产的可靠路径。

创建管道——“定义一次”理念

TrueLook 实施了一个可重用的、参数化的工作流,自动执行其建筑安全目标检测模型的完整生命周期。该工作流首先将原始作业现场图像转换为模型就绪数据集。然后,它训练一个 YOLOv11 目标检测模型,并自动将训练好的模型注册到中央模型注册表中进行版本控制和治理。内置的评估步骤会根据预定义阈值衡量模型性能(如 mAP、F1 分数等)。满足这些标准的模型将被提升以进行部署,并作为版本化的工件注册到中央模型注册表中。这些已注册的模型可以通过可审计的工作流进行审查、评论、批准或拒绝,而性能不佳的运行会自动停止,以防止低质量模型进入生产环境。

TrueLook 定义了一个可重用的、参数化的工作流,减少了为每次模型迭代重建编排逻辑的需要。团队可以通过调整数据集和训练设置(如图像分辨率、批次大小、学习率、训练持续时间和数据增强策略)来触发可重复的运行。他们还可以调整计算配置,包括 GPU 实例类型、GPU 数量和内存容量。多个运行可以并行执行,而自动门控和条件执行则强制执行一致的质量标准,减少了操作开销,最大限度地减少了人为错误,并加速了模型在规模上的持续改进。

# 核心实验参数 object_detection_params = ParameterString(     name="pre_training_params",     default_value="epochs=1,lr0=1e-3,batch=1" ) ... # 训练实例作为参数 training_instance_type = ParameterString( name="ml_instance ", default_value="ml.g6e.12xlarge" ) ... # 阶段 2 模型超参数 fine_tuning_params = ParameterString(     name="fine_tuning_params",     default_value="epochs=1,lr0=1e-4,batch=1" )

受治理的实验和自动化部署

每次训练运行都会通过集成的实验管理和模型注册系统自动跟踪,这些系统会在版本化的历史记录中捕获参数、指标和模型工件。这创建了一个可搜索的实验结果目录,从而可以系统地比较不同的训练策略并确定用于建筑安全检测的最佳配置。经过批准的模型随后会自动部署到 GPU 加速的生产端点,使用版本化、带时间戳的命名以防止冲突。这创建了一条从实验到实时部署的无缝且可重复的路径,实现了快速迭代,同时保持了强大的治理和最少的人工干预。

总结

本案例研究重点介绍了 AWS 与 TrueLook 的合作如何帮助建筑团队利用托管 ML 服务实现可扩展的、可投入生产的安全监控,同时避免了繁重的基础设施开销。它展示了一种经过验证的三阶段微调方法,即使在数据有限的情况下也能提供高精度的建筑安全模型,超越了低代码或无代码替代方案通常能实现的结果。本文还提供了使用 AWS 托管服务构建、训练和部署计算机视觉模型的实用指南,并强调了早期与 AWS 合作以进行架构设计和特定领域实施的价值。TrueLook 的成功表明,以行业为重点的 AI/ML 解决方案,辅以深厚的领域专业知识,可以有效地自动化和提升作业现场的安全操作。


关于作者

Steven McDowall 是一位技术和产品领导者,在产品战略、产品管理和软件工程方面拥有丰富的经验。他目前担任 TrueLook 的产品副总裁,负责领导建筑技术和实时视频解决方案的开发,为产品执行带来扎实的工程基础和以用户为中心的方法。

Scott Anderson 是 TrueLook 的平台工程总监,负责领导支持公司核心平台发展的系统的开发和可扩展性。他带来了超过 30 年的深厚技术经验和务实的工程思维,专注于构建支持长期产品增长的可靠、可维护的基础设施。

Marc Ritter 是 TrueLook 的首席软件工程师,负责推动核心平台功能的设计和实施,并为先进技术倡议做出贡献。他运用扎实的工程思维来解决复杂的技术挑战,并提高 TrueLook 解决方案的性能和可靠性。Marc 热衷于利用深思熟虑的架构和协作开发来构建可扩展的软件系统。

Pranav Murthy 是 AWS 的高级生成式 AI 数据科学家,专注于帮助组织在 Amazon SageMaker AI 上利用生成式 AI、深度学习和机器学习进行创新。在过去的 10 多年里,他开发和扩展了先进的计算机视觉 (CV) 和自然语言处理 (NLP) 模型,以解决具有高影响力的难题——从优化全球供应链到支持实时视频分析和多语言搜索。在构建 AI 解决方案之余,Pranav 喜欢玩国际象棋等策略游戏、出国旅行探索新文化以及指导有抱负的 AI 从业者。您可以在 LinkedIn 上找到 Pranav。

Gaurav Singh 是 AWS 的高级客户解决方案经理,在云转型和 IT 咨询方面拥有超过 20 年的经验。他专注于指导客户完成云之旅,作为迁移、现代化和创新机会的值得信赖的顾问。Gaurav 提供战略性增长指导,帮助客户在利用 AWS 服务推动创新和运营卓越性的同时实现其目标。您可以在 LinkedIn 上找到 Gaurav。

Surya Kari 是 AWS 的高级生成式 AI 数据科学家,专注于利用最先进的基础模型开发解决方案。他在处理先进语言模型方面拥有丰富的经验,包括 DeepSeek-R1、Llama 系列和 Qwen,专注于针对特定科学应用对其进行微调和优化。他的专业知识还包括使用 AWS SageMaker 实施高效的训练管道和部署策略,从而能够将基础模型从开发扩展到生产。他与客户合作设计和实施生成式 AI 解决方案,帮助他们驾驭模型选择、微调方法和部署策略,以实现对其特定用例的最佳性能。您可以在 LinkedIn 上找到 Surya。




🚀 想要体验更好更全面的AI调用?

欢迎使用青云聚合API,约为官网价格的十分之一,支持300+全球最新模型,以及全球各种生图生视频模型,无需翻墙高速稳定,文档丰富,小白也可以简单操作。

0

评论区