目 录CONTENT

文章目录

谷歌AI助手升级:现已支持网页冲浪、点击按钮和填写表单

青云TOP
2025-10-09 / 0 评论 / 0 点赞 / 0 阅读 / 0 字

📢 转载信息

原文链接:https://venturebeat.com/ai/googles-ai-can-now-surf-the-web-for-you-click-on-buttons-and-fill-out-forms

原文作者:Dean Takahashi


谷歌AI助手功能大幅升级:实现网页交互自动化,如同真人浏览

谷歌在人工智能领域持续发力,其AI助手(Gemini驱动)的能力正在迎来重大飞跃。最新演示表明,谷歌的AI现在可以像人类用户一样,在网页上进行复杂的交互操作,包括浏览、点击按钮和自动填写表单,极大地拓展了AI助手的实用范围。

在谷歌I/O 2024大会上展示的这一突破性功能,核心在于AI模型能够理解网页的结构和元素,并对其作出反应。这意味着AI不再仅仅局限于信息检索和简单的问答,而是可以执行实际的、需要用户界面操作的任务。

这项技术展示了谷歌Gemini模型在多模态和环境理解方面的强大能力。AI可以被指示完成诸如“帮我找到最便宜的从旧金山到纽约的机票,并在预订网站上填写我的个人信息”之类的任务。

AI如何实现网页交互?

  • 视觉理解:AI能够“看到”并识别网页上的按钮、链接、输入框等元素。
  • 上下文感知:它能理解用户指令的意图,并根据网页内容决定下一步操作(例如,点击“下一步”按钮或输入特定数据)。
  • 任务执行:一旦识别出目标,AI便会模拟鼠标点击或键盘输入来执行操作,甚至可以处理复杂的登录和购买流程。

虽然这项技术目前可能仍在开发阶段,但其潜力是巨大的。它预示着一个更智能的AI代理时代即将到来,AI将能够处理更多日常生活中重复性的、基于网页的行政和购物任务,极大地提高生产力。

图为谷歌AI助手(Gemini驱动)在处理网页任务的演示场景(概念图):

Google I/O 2023 Gemini AI Google Assistant

谷歌的目标是让AI助手成为一个真正有用的“代理人”,能够跨越不同网站和服务,完成用户委托的复杂目标,而不仅仅是提供信息。




🚀 想要体验更好更全面的AI调用?

欢迎使用青云聚合API,约为官网价格的十分之一,支持300+全球最新模型,以及全球各种生图生视频模型,无需翻墙高速稳定,小白也可以简单操作。

青云聚合API官网https://api.qingyuntop.top

支持全球最新300+模型:https://api.qingyuntop.top/pricing

详细的调用教程及文档:https://api.qingyuntop.top/about

0

评论区