目 录CONTENT

文章目录

将代理式AI应用于计算机视觉应用的3种方法

Administrator
2025-11-14 / 0 评论 / 0 点赞 / 0 阅读 / 0 字

📢 转载信息

原文链接:https://blogs.nvidia.com/blog/ways-to-bring-agentic-ai-to-computer-vision-applications/

原文作者:Esther Lee


编者按:本文属于 AI On 系列博客的一部分,该系列探讨了代理式AI、聊天机器人和副驾驶的最新技术和实际应用。该系列还重点介绍了为高级AI代理提供支持的NVIDIA软硬件,这些代理构成了AI查询引擎的基础,它们收集见解并执行任务,以改变日常体验和重塑行业。

今天的计算机视觉系统非常擅长识别物理空间和过程中发生的事情,但在解释场景细节及其重要性,以及推断接下来可能发生的事情方面能力不足。

由视觉语言模型(VLM)驱动的代理式智能可以帮助弥补这一差距,使团队能够快速、轻松地获取关键见解和分析,将文本描述与空间时间信息以及系统每天捕获的数十亿视觉数据点联系起来。

组织可以采用以下三种方法,利用代理式智能来增强其传统的计算机视觉系统:

  • 应用密集字幕技术,实现可搜索的视觉内容。
  • 用详细的上下文来增强系统警报。
  • 使用AI推理来总结复杂场景的信息并回答问题。

使用密集字幕技术使视觉内容可搜索

传统的卷积神经网络(CNN)驱动的视频搜索工具受到有限的训练、上下文和语义的限制,这使得提取见解成为一项手动、乏味且耗时的任务。CNNs 经过调优以执行特定的视觉任务,例如发现异常,但缺乏将所见内容翻译成文本的多模态能力。

企业可以将 VLMs 直接嵌入到现有应用程序中,为图像和视频生成高度详细的字幕。这些字幕将非结构化内容转化为丰富的、可搜索的元数据,从而实现比仅受文件名或基本标签限制的视觉搜索更灵活的搜索。

例如,自动车辆检查系统UVeye每月处理超过7亿张高分辨率图像,以构建世界上最大的车辆和组件数据集之一。通过应用 VLMs,UVeye 将这些视觉数据转换为结构化的状况报告,以极高的准确性和可靠性检测细微的缺陷、修改或异物,以供搜索。

VLM 驱动的视觉理解增加了必要的上下文,确保了合规性、安全性和质量控制的透明、一致的见解。与手动方法的 24% 相比,UVeye 可检测到 96% 的缺陷,从而能够及早干预,减少停机时间并控制维护成本。

Relo Metrics 是一家人工智能驱动的体育营销测量提供商,它帮助品牌量化其媒体投资的价值并优化支出。通过将 VLMs 与计算机视觉相结合,Relo Metrics 不再局限于基本的徽标检测,而是捕捉上下文——例如在制胜一球期间展示的场边横幅——并将其转化为实时的货币价值。

这种情境洞察能力突出了徽标出现的时间和方式,尤其是在高影响力的时刻,为营销人员提供了更清晰的投资回报率视图以及优化策略的方法。例如,Stanley Black & Decker 及其 Dewalt 品牌过去依赖于赛季末报告来评估赞助资产的表现,这限制了及时的决策制定。使用 Relo Metrics 进行实时洞察,Stanley Black & Decker 调整了标牌定位,并节省了 130 万美元的潜在损失的赞助媒体价值。

使用 VLM 推理增强计算机视觉系统警报

基于 CNN 的计算机视觉系统通常会生成二元的检测警报,例如“是或否”、“真或假”。如果没有 VLMs 的推理能力,这可能导致误报和遗漏细节——在安全和安保方面造成代价高昂的错误,以及商业智能的损失。而不是完全取代这些基于 CNN 的计算机视觉系统,VLMs 可以作为智能附加组件轻松增强它们。将 VLM 叠加在基于 CNN 的计算机视觉系统之上,检测警报不仅会被标记,还会经过上下文理解的审查——解释事件发生的位置、方式和原因。

对于更智能的城市交通管理,Linker Vision 使用 VLMs 来验证关键的城市警报,例如交通事故、洪水或风暴造成的电线杆倒塌和树木倒下。这减少了误报,并为每个事件增加了重要的上下文,以改善实时市政响应。

Linker Vision 的代理式AI架构涉及自动分析来自超过 50,000 个多样化智能城市摄像头的事件,以实现跨部门补救——在事件发生时协调交通控制、公用事业和一线响应者等团队之间的行动。同时查询所有摄像头流的能力使得系统能够快速自动地将观察结果转化为见解,并触发“下一个最佳行动”的建议。

使用代理式AI对复杂场景进行自动分析

代理式AI系统可以跨视频流和模态(如音频、文本、视频和传感器数据)处理、推理和回答复杂的查询。这是通过将 VLMs 与推理模型、大型语言模型(LLMs)、检索增强生成(RAG)、计算机视觉和语音转录相结合来实现的。

将 VLM 基本集成到现有的计算机视觉管道中,有助于验证关键时刻的短视频片段。然而,这种方法受到单个模型一次可以处理的视觉Token数量的限制,导致对较长时间段和外部知识的回答停留在表面。

相比之下,完全构建在代理式AI之上的架构能够对冗长和多通道的视频档案进行可扩展、准确的处理。这带来了超越表面理解的更深入、更准确、更可靠的见解。代理式系统可用于根本原因分析或对长检测视频进行分析,以生成带有时间戳见解的报告。

Levatas 开发了视觉检查解决方案,利用移动机器人和自主系统来提高关键基础设施资产(如电力设施变电站、燃料终端、铁路站场和物流中心)的安全、可靠性和性能。Levatas 利用 VLMs 构建了一个视频分析AI代理,以自动审查检查录像并起草详细的检查报告,从而大大加快了这个传统上手动且缓慢的过程。

对于美国电力(AEP)等客户,Levatas AI 与 Skydio X10 设备集成,以简化电力基础设施的检查。Levatas 使 AEP 能够自主检查电线杆、识别热点问题和检测设备损坏。问题检测后会立即向 AEP 团队发送警报,从而实现快速响应和解决,确保可靠、清洁和负担得起的能源输送。

AI 游戏高光工具,如 Eklipse,使用 VLM 驱动的代理为视频游戏直播添加字幕和索引元数据,以便快速查询、总结和创建精美的精彩集锦,速度比传统解决方案快 10 倍,从而改善了内容消费体验。

使用 NVIDIA 技术驱动代理式视频智能

对于高级搜索和推理,开发人员可以使用多模态 VLM,例如NVCLIPNVIDIA Cosmos ReasonNemotron Nano V2,来构建丰富的元数据索引用于搜索。

要将 VLM 集成到计算机视觉应用程序中,开发人员可以使用 NVIDIA Metropolis 平台的一部分——NVIDIA 视频搜索和摘要蓝图 (VSS) 中的事件审查器功能。

对于更复杂的查询和摘要任务,可以定制VSS 蓝图,以便开发人员可以直接访问 VLM 或将 VLM 与 LLM、RAG 和计算机视觉模型结合使用。这使得运营更智能、视频分析更丰富,并实现了可扩展到组织需求的实时流程合规性。

了解有关 NVIDIA 驱动的 代理式视频分析 的更多信息。

请订阅 NVIDIA 的视觉 AI 新闻通讯、加入社区,并在 LinkedInInstagramXFacebook 上关注 NVIDIA AI,以保持最新动态。

探索 VLM 技术博客,以及自定进度的视频教程和直播




🚀 想要体验更好更全面的AI调用?

欢迎使用青云聚合API,约为官网价格的十分之一,支持300+全球最新模型,以及全球各种生图生视频模型,无需翻墙高速稳定,文档丰富,小白也可以简单操作。

0

评论区