企业工作流管理的AI智能体驱动的浏览器自动化-青云TOP-AI综合资源站平台|青云聚合API大模型调用平台|全网AI资源导航平台

📢 转载信息

原文链接：https://aws.amazon.com/blogs/machine-learning/ai-agent-driven-browser-automation-for-enterprise-workflow-management/

原文作者：Kosti Vasilakakis, Sanghwa Na, and Veda Raman

企业组织越来越多地依赖基于Web的应用程序来处理关键业务流程，但许多工作流程仍然是人工密集型的，这造成了运营效率低下和合规性风险。尽管进行了大量技术投资，知识工作者在标准工作流程中通常需要在八到十二个不同的Web应用程序之间导航，不断地切换上下文并在系统之间手动传输信息。数据输入和验证任务占用了工人大约25-30%的时间，而手动流程会产生合规瓶颈和跨系统数据一致性挑战，需要持续的人工验证。

传统的自动化方法存在明显的局限性。虽然机器人流程自动化（RPA）适用于结构化的、基于规则的流程，但当应用程序更新时它会变得脆弱，并需要持续的维护。基于API的集成仍然是最佳选择，但许多遗留系统缺乏现代化的功能。业务流程管理平台提供编排能力，但在处理复杂的决策点和直接的Web交互方面存在困难。因此，大多数企业采用混合方法，其中只有30%的工作流程任务完全自动化，50%需要人工监督，20%仍然完全是手动完成的。

这些挑战在常见的企业工作流程中表现得尤为突出。例如，采购订单验证需要通过多个系统进行智能导航，以执行采购订单（PO）、收据和发票之间的“三方匹配”，同时维护审计跟踪。员工入职要求在身份管理、客户关系管理（CRM）、企业资源规划（ERP）和协作平台之间协调访问权限，并需要基于角色的决策。最后，电子商务订单处理必须智能地跨多个缺乏原生API访问权限的零售商网站处理订单。人工智能（AI）智能体是超越这些传统解决方案的重大进步，它提供了智能地驾驭复杂性、适应动态环境并在企业工作流程中大幅减少人工干预的能力。

在本文中，我们演示了电子商务订单管理平台如何利用Amazon Nova Act和Strands agent等AI智能体，并通过Amazon Bedrock AgentCore Browser大规模地自动化跨多个零售网站的订单处理工作流程。

电子商务订单自动化工作流

此工作流演示了AI智能体如何跨越各种零售网站（这些网站缺乏原生的API集成）智能地自动化复杂的、多步骤的订单处理流程，它将自适应的浏览器导航与人工监督相结合，以处理异常情况。

以下组件协同工作，以实现可扩展的、由AI驱动的订单处理：

ECS Fargate 任务运行容器化的 Python FastAPI 后端以及提供实时订单自动化 WebSocket 连接的 React 前端。任务根据需求自动扩展。
应用程序与 Amazon Bedrock 和 Amazon Nova Act 集成，以实现由AI驱动的订单自动化。AgentCore Browser Tool 提供安全的、隔离的浏览器环境用于Web自动化。主智能体协调 Nova Act Agent 和 Strands + Playwright Agent 来实现智能化的浏览器控制。

电子商务订单自动化工作流代表了一个常见的企业挑战，即企业需要在没有原生API访问权限的情况下跨多个零售网站处理订单。此工作流展示了由AI驱动的浏览器自动化的全部功能，从初始导航到复杂的决策制定，再到“人在回路”的干预。我们已经在aws-samples GitHub 存储库上开源了一个示例智能体电子商务自动化项目。

工作流流程

电子商务订单管理系统的用户通过Web界面或批量CSV上传提交客户订单，包括产品详细信息（URL、尺寸、颜色）、客户信息和配送地址。系统分配优先级并排队订单进行处理。当订单开始处理时，Amazon Bedrock AgentCore Browser 使用 Chrome 开发者工具协议（CDP）连接创建一个隔离的浏览器会话。Amazon Bedrock AgentCore Browser提供了一个安全的、基于云的浏览器，使AI智能体（在此案例中为Amazon Nova Act和Strands智能体）能够与网站进行交互。它包括安全功能，如会话隔离、通过实时查看实现内置的可观测性、AWS CloudTrail日志记录和会话回放功能。系统从AWS Secrets Manager检索零售商凭据，并使用Amazon DCV流式传输生成实时视图 URL，以便进行实时监控。下图说明了整个订单工作流程。

带表单填写和订单提交的浏览器自动化

表单填写是一项关键能力，智能体可以在其中智能地检测并填充不同零售商结账布局中的各种字段类型。AI智能体会访问产品页面，（如果需要）处理身份验证，并分析页面以识别尺寸选择器、颜色选项和购物车按钮。它会选择指定的选项，将商品添加到购物车，然后继续结账，跨不同的零售商布局智能地填写配送信息字段。如果产品缺货或不可用，智能体会将情况升级到人工审查，并提供有关替代品的上下文信息。

示例应用程序根据自动化方法采用两种不同的方法。Amazon Nova Act利用网页的视觉理解和DOM结构，允许Nova Act智能体接收自然语言指令，如“填写配送地址”，并自动从屏幕截图中识别表单字段，从而适应不同的布局而无需预定义的选择器。相比之下，Strands + Playwright 模型上下文协议（MCP）组合使用Bedrock模型来分析页面的文档对象模型（DOM）结构，确定适当的表单字段选择器，然后Playwright MCP执行低级别浏览器交互，用客户数据填充字段。这两种方法都能自动适应多样化的零售商结账界面，消除了传统基于选择器的自动化的脆弱性。

人在回路（Human-in-the-loop）

当遇到CAPTCHA或复杂挑战时，智能体会暂停自动化并通过WebSocket通知操作员。操作员可以访问实时视图以查看确切的浏览器状态，手动解决问题，然后触发恢复操作。AgentCore Browser 允许人工接管浏览器，并将控制权交还给智能体。智能体可以从当前状态继续，而无需重新启动整个流程。

可观测性和规模化

在整个执行过程中，系统会将存储在S3中的会话录像、关键步骤的屏幕截图以及带有时间戳的详细执行日志捕获下来。操作员通过实时仪表板监控进度，该仪表板显示订单状态、当前步骤和进度百分比。对于大批量场景，批量处理支持多个订单的并行执行，具有可配置的工作线程（1-10个）、基于优先级的队列以及针对瞬态故障的自动重试逻辑。

结论

由AI智能体驱动的浏览器自动化代表了企业处理工作流管理方式的根本性转变。通过结合智能决策、自适应导航和“人在回路”的能力，组织可以将传统自动化的30-50-20的划分转变为跨复杂、多系统工作流的更高自动化率。电子商务订单自动化示例表明，AI智能体并不会取代传统的RPA——它们能够自动化以前被认为过于动态或复杂的流程，处理多样化的用户界面，做出情境化决策，并保持完全的合规性和可审计性。

随着企业面临提高运营效率的同时管理遗留系统和复杂集成的压力日益增大，AI智能体提供了一条实用的前进道路。组织无需投资昂贵的系统改造或接受手动流程的低效率，而是可以部署能够适应现有技术环境的智能浏览器自动化。其结果是降低了运营成本、加快了处理速度、提高了合规性，最重要的是，将知识工作者从重复的数据输入和系统导航任务中解放出来——使他们能够专注于推动业务影响的更高价值活动。

关于作者

Kosti Vasilakakis 是AWS Agentic AI团队的首席项目经理（Principal PM），在那里他主导了Bedrock AgentCore几项服务的从头到尾的设计和开发，包括Runtime、Browser、Code Interpreter和Identity。他之前曾在Amazon SageMaker早期工作，推出了现在被全球数千家公司使用的AI/ML功能。在他职业生涯的早期，Kosti是一名数据科学家。业余时间，他会构建个人生产力自动化工具，打网球，并与妻子和孩子享受生活。

Veda Raman 是AWS Amazon Nova和Agentic AI的资深解决方案架构师（Sr Solutions Architect）。她帮助客户使用Amazon Nova模型和Bedrock AgentCore设计和构建智能体AI解决方案。她之前曾与客户合作构建使用Amazon SageMaker的ML解决方案，并在AWS担任无服务器解决方案架构师。

Sanghwa Na 是亚马逊Web服务（AWS）的生成式AI专家解决方案架构师（Generative AI Specialist Solutions Architect）。他常驻旧金山，与客户合作，使用AWS上的大型语言模型和基础模型设计和构建生成式AI解决方案。他专注于帮助组织采用能够带来真正业务价值的AI技术。

🚀 想要体验更好更全面的AI调用？

欢迎使用青云聚合API，约为官网价格的十分之一，支持300+全球最新模型，以及全球各种生图生视频模型，无需翻墙高速稳定，文档丰富，小白也可以简单操作。

目录CONTENT

企业工作流管理的AI智能体驱动的浏览器自动化