📢 转载信息
原文作者:Dean Takahashi
谷歌AI助手功能大幅升级:实现网页交互自动化,如同真人浏览
谷歌在人工智能领域持续发力,其AI助手(Gemini驱动)的能力正在迎来重大飞跃。最新演示表明,谷歌的AI现在可以像人类用户一样,在网页上进行复杂的交互操作,包括浏览、点击按钮和自动填写表单,极大地拓展了AI助手的实用范围。
在谷歌I/O 2024大会上展示的这一突破性功能,核心在于AI模型能够理解网页的结构和元素,并对其作出反应。这意味着AI不再仅仅局限于信息检索和简单的问答,而是可以执行实际的、需要用户界面操作的任务。
这项技术展示了谷歌Gemini模型在多模态和环境理解方面的强大能力。AI可以被指示完成诸如“帮我找到最便宜的从旧金山到纽约的机票,并在预订网站上填写我的个人信息”之类的任务。
AI如何实现网页交互?
- 视觉理解:AI能够“看到”并识别网页上的按钮、链接、输入框等元素。
- 上下文感知:它能理解用户指令的意图,并根据网页内容决定下一步操作(例如,点击“下一步”按钮或输入特定数据)。
- 任务执行:一旦识别出目标,AI便会模拟鼠标点击或键盘输入来执行操作,甚至可以处理复杂的登录和购买流程。
虽然这项技术目前可能仍在开发阶段,但其潜力是巨大的。它预示着一个更智能的AI代理时代即将到来,AI将能够处理更多日常生活中重复性的、基于网页的行政和购物任务,极大地提高生产力。
图为谷歌AI助手(Gemini驱动)在处理网页任务的演示场景(概念图):

谷歌的目标是让AI助手成为一个真正有用的“代理人”,能够跨越不同网站和服务,完成用户委托的复杂目标,而不仅仅是提供信息。
🚀 想要体验更好更全面的AI调用?
欢迎使用青云聚合API,约为官网价格的十分之一,支持300+全球最新模型,以及全球各种生图生视频模型,无需翻墙高速稳定,小白也可以简单操作。
青云聚合API官网https://api.qingyuntop.top
支持全球最新300+模型:https://api.qingyuntop.top/pricing
详细的调用教程及文档:https://api.qingyuntop.top/about
评论区