📢 转载信息
原文链接:https://www.wired.com/story/google-gemini-task-automation-galaxy-s26-uber-doordash/
原文作者:Julian Chokkattu
你可能感觉似曾相识。
十年前,谷歌和苹果等公司曾承诺,他们各自的语音助手可以代你完成任务。苹果曾说Siri可以叫一辆优步——但你今天试试看,Siri只会打开Uber应用。谷歌曾声称你可以用Google Assistant在星巴克对它说“点我常点的东西”,但体验很笨拙,最终谷歌取消了该功能。
但现在,在大语言模型和理解自然语言的AI时代,我们又看到了同样的承诺摆上台面。在三星的Galaxy Unpacked活动上,谷歌和三星展示了如何使用Gemini语音助手,对选定的第三方应用完成任务:预订优步,或通过Uber Eats、DoorDash或Grubhub订餐。(预计今年晚些时候Android 17发布时,将支持更多应用。)
这项功能——目前仍处于早期预览阶段——初期将仅在美国和韩国推出,首先在3月11日发布的Galaxy S26智能手机上启用,随后将作为软件更新推送给谷歌Pixel 10系列。以下是它的工作原理。
分步解析
.jpg)
.jpg)
你对Gemini说“帮我叫一辆去机场的Uber”,它会打开一个虚拟窗口来运行Uber应用。Gemini会继续在后台执行此操作,但你可以通过点击实时通知来监控它的进度。你可以看到整个过程,但其理念是让你能专注于更重要的事情,让它在后台运行。
如果它需要更多信息,比如你在纽约三州地区,它不确定你要去哪三个主要机场中的哪一个,它会回来问你这些问题。完成后,你会收到一条通知,然后会被带到Uber应用的预订界面。Gemini不会为你做最终的预订决定,所以你仍需要选择是UberX还是UberXL,确认车费,然后点击预订。
谷歌Android生态系统总裁Sameer Samat告诉WIRED:“我将你可能想自动化的某些任务称为‘数字洗衣’——你知道你需要做,但并不热衷于完成的事情。”
.jpg)

Samat向我展示了使用Grubhub进行任务自动化的更复杂示例。(目前,一次只能运行一个自动化任务。)他打开了一个群聊,几位朋友正在讨论在一场桌游之夜前订购必胜客披萨。有人在聊天中提到了具体的披萨。他呼叫出Gemini,并让它说:“整理一下订单。” 这样一来,Gemini就知道从屏幕上获取上下文,并将每个人的订单整齐地组织起来。
然后Samat要求Gemini说“通过Grubhub订购这些送到家”,这启动了任务自动化过程。Gemini打开了一个Grubhub的虚拟窗口并开始工作。几分钟后,Gemini返回了购物车中的所有商品。Samat所要做的就是确认一切看起来没问题,然后点击下单。
Instagram content
在某些情况下,Gemini可能会遇到问题,但它总会尝试找出变通的方法,然后再向你求助。毕竟,一个总是在问你问题的助手,对于你只想让它代劳完成某事的情况来说,有什么意义呢?他说有一次,Gemini回来问他想要什么尺寸和饼皮类型。另一次,餐厅在繁忙时段限制了大披萨的订购数量,所以Gemini回来问他是否可以换成两个中号披萨。
Samat重申,Gemini并没有像我们早期的AI代理(如Rabbit R1)那样,仅仅是记忆了应用的“地图”。Gemini利用其推理能力来制定计划,像你一样观察屏幕,并在其中导航。即使应用今天的视觉效果明天发生了变化,Gemini仍然可以弄清楚该怎么做。Samat说:“它对此类变化具有鲁棒性。”
在另一个例子中,Samat向我展示了一个Google Keep笔记,其中包含一个即将举行的烧烤派对的回复名单,并注明了谁是纯素食者。他让Gemini计算需要多少热狗和面包——Gemini完成了计算,然后Samat问Gemini是否可以将所需物品添加到他在DoorDash上的Safeway购物车中,几分钟后,所有东西都已经在购物车里了。
AI视觉能力

Gemini在这里的任务自动化只是它完成任务的三种方式之一。如果存在模型上下文协议 (MCP) 集成——允许LLM与第三方应用通信的开源通用语言——那么Gemini就可以在后端运行该任务。(在这种情况下,你不会看到整个过程展开;你只会看到在发出请求后出现的最终结账步骤。)开发者还可以构建“应用函数”,允许Gemini以结构化的方式与之交互。但如果两者都不存在,那么Gemini就会打开应用本身,导航通过按钮、文本框和菜单来完成任务。
Samat说:“这是我们第一次在Android上对应用程序执行此操作,所以把它做好非常重要。”他表示:“我认为这是技术向前迈出的激动人心的一步。我们将其视为移动智能新时代的开端,而Android是我们认为你可以最先看到未来发展的地方。”
授予Gemini访问你的应用的权限引发了广泛的隐私担忧。Samat表示,这就是为什么谷歌没有将任何过于敏感的应用纳入首批进行任务自动化的应用之中的原因。他说这些数据不会用于广告,并且用户可以删除Gemini所看到的数据。“我们确实认为,人们对系统的信任至关重要,这来自于对它所做事情的控制权和透明度。”
虽然目前完成任务仍然需要智能手机屏幕,但Samat设想了一个未来,你可以通过其他设备启动这些任务——比如智能眼镜、AI吊坠,甚至汽车。(今年将推出几款新的Android XR驱动的智能眼镜。)他说公司正在研究其他方法,以便可以在这些设备上进行最终的身份验证。毕竟,你肯定不希望有人偷了你的智能眼镜,然后让Gemini订购55个汉堡、55份薯条、55个墨西哥卷饼——你懂我的意思。
🚀 想要体验更好更全面的AI调用?
欢迎使用青云聚合API,约为官网价格的十分之一,支持300+全球最新模型,以及全球各种生图生视频模型,无需翻墙高速稳定,文档丰富,小白也可以简单操作。
评论区