📢 转载信息
原文作者:Will Douglas Heaven
《宝可梦Go》是世界上第一个成功的增强现实(AR)游戏。由Google分拆出来的Niantic公司于2016年发布,这款AR游戏迅速风靡全球。从芝加哥到奥斯陆再到江之岛,玩家们走上街头,希望能抓住一只胖丁或杰尼龟,或者(如果运气极佳)一只罕见的伽勒尔闪电鸟,它们被叠加在现实世界中,就在玩家触手可及的地方。
简单来说,这意味着有大量的人将手机对准了大量的建筑物。“五亿人在60天内安装了这款应用程序,”Niantic Spatial的CTO Brian McClendon表示。Niantic Spatial是一家Niantic于去年5月分拆出来的AI公司。根据同期从Niantic手中收购《宝可梦Go》的Scopely公司的数据,这款游戏在2024年仍然吸引了超过1亿玩家,距离其发布已过去八年。
现在,Niantic Spatial正利用这个庞大且无与伦比的众包数据宝库——即来自全球数亿《宝可梦Go》玩家手机拍摄的、带有超精准地理标记的城市地标图像——来构建一种“世界模型”。这是一种时髦的新技术,旨在将大型语言模型(LLM)的智能落地到真实环境中。
该公司最新的产品是一个模型,据称仅凭几张可见的建筑物或其他地标的快照,就能将用户在地图上的位置精确定位到几厘米之内。该公司希望利用这一技术,帮助机器人在GPS信号不可靠的区域实现更精确的导航。
在其技术的首次大规模测试中,Niantic Spatial与Coco Robotics公司合作。Coco Robotics是一家在美国和欧洲多个城市部署最后一公里配送机器人的初创公司。“大家都认为AR是未来,AR眼镜终将到来,”McClendon说。“然后,机器人成为了受众。”
从皮卡丘到披萨配送
Coco Robotics在洛杉矶、芝加哥、泽西城、迈阿密和赫尔辛基部署了约1000台飞行箱大小的机器人——这些机器人可以运载多达八个超大号披萨或四个购物袋。据CEO Zach Rash称,这些机器人迄今已完成了超过50万次配送,总行程达数百万英里,并适应各种天气条件。
但为了与人工配送员竞争,Coco的机器人在人行道上以大约每小时五英里的速度行驶,必须尽可能可靠。“我们能做好工作的最佳方式就是准时到达,”Rash说。这意味着不能迷路。
Coco面临的问题是,它不能依赖GPS,因为GPS在城市中信号可能很弱,无线电信号会在建筑物之间反射并相互干扰。“我们在很多高楼林立、有立交桥和高速公路的密集区域进行配送,而这些正是GPS根本不适用的区域,”Rash说。
“城市峡谷是GPS最糟糕的地方,”McClendon说。“如果你看手机上的那个蓝点,你常常会发现它漂移了50米,这会让你走到不同的街区,走向错误的方向,甚至在街道的错误一侧。”这就是Niantic Spatial发挥作用的地方。
在过去的几年里,Niantic Spatial一直在收集《宝可梦Go》和《Ingress》(Niantic于2013年推出的另一款基于手机的AR游戏)的玩家数据,并构建了一个视觉定位系统——一种根据所见内容来确定你位置的技术。“事实证明,让皮卡丘逼真地奔跑,以及让Coco的机器人安全准确地在世界中移动,实际上是同一个问题,”Niantic Spatial的CEO John Hanke说。
“视觉定位并不是一项非常新的技术,”ESRI公司的Konrad Wenzel表示,ESRI是一家开发数字地图和地理空间分析软件的公司。“但显而易见的是,我们拥有的摄像头越多,它就变得越好。”
Niantic Spatial已在其模型中训练了300亿张在城市环境中拍摄的图像。特别是,图像集中在热点区域——在Niantic的游戏中曾是玩家被鼓励访问的重要地点,例如宝可梦对战竞技场。“我们在全球拥有超过一百万个地点,我们可以在那里精确地定位你,”McClendon说。“我们知道你所处的精确位置在几厘米之内,最重要的是,我们知道你正在看向何方。”
结果是,对于这数百万个地点中的每一个,Niantic Spatial都有成千上万张在同一地点、但从不同角度、不同时间、不同天气条件下拍摄的图像。这些图像中的每一张都附带详细的元数据,精确说明了拍摄图像时手机所处的位置,包括手机朝向、朝上方向、是否在移动、移动的速度和方向等等。
该公司利用这个数据集训练了一个模型,通过分析它所看到的东西来精确预测自身位置——即使是在那一百万个热点之外的区域,那里图像和位置数据的来源更为稀少。
除了GPS,配备四台摄像头的Coco机器人现在将使用这个模型来尝试确定自身位置和行驶方向。机器人的摄像头位于臀部高度,同时朝向所有方向,因此它们的视角与《宝可梦Go》玩家略有不同,但调整数据相当直接,Rash说。
竞争对手公司也使用视觉定位系统。例如,Starship Technologies是一家于2014年在爱沙尼亚成立的机器人配送公司,该公司表示其机器人使用传感器构建周围环境的3D地图,绘制建筑物边缘和路灯的位置。
但Rash押注Niantic Spatial的技术将使Coco获得优势。他声称,这将使他的机器人在餐厅外能够精确地停靠在正确的取货点,确保不阻碍任何人,并直接停在客户门口,而不是像过去那样停在几步之外。
机器人领域的“寒武纪大爆发”
当Niantic Spatial开始研发视觉定位系统时,最初的想法是将其应用于增强现实,Hanke说。“如果你戴着AR眼镜,并且希望世界能够固定在你所看的位置,那么你就需要一种方法来实现这一点,”他说。“但现在我们正在见证机器人领域的‘寒武纪大爆发’。”
其中一些机器人可能需要与人类共享空间——例如建筑工地和人行道。“如果机器人要想在不干扰人类的情况下融入这些环境,它们就必须拥有类似的 स्थानिक理解能力,”Hanke说。“我们可以帮助机器人找到它们被颠簸和碰撞后确切的位置。”
与Coco Robotics的合作只是开始。Hanke表示,Niantic Spatial正在构建他称之为“活地图”的第一批组件:一个能够随着世界变化而变化的、超详细的虚拟世界模拟。随着Coco和其他公司的机器人遍布世界,它们将提供新的地图数据来源,并源源不断地输入到日益详细的数字世界复制品中。
但Hanke和McClendon认为,地图不仅变得越来越详细;它们也越来越多地被机器使用。这改变了地图的用途。长期以来,地图一直用于帮助人们在世界中定位自己。随着它们从2D发展到3D再到4D(例如实时模拟,如数字孪生),基本原理并未改变:地图上的点对应于空间或时间上的点。
然而,面向机器的地图可能需要变得更像旅行指南,包含人类理所当然但机器却需要信息。像Niantic Spatial和ESRI这样的公司希望添加描述,告诉机器它们实际看到的是什么,每个物体都被标记上一系列属性。“这个时代是为机器理解而构建有用的世界描述,”Hanke说。“我们拥有的数据是在构建对世界连接性如何运作的理解方面的一个很好的起点。”
目前,“世界模型”备受关注——Niantic Spatial深谙此道。大型语言模型(LLM)似乎无所不知,但在理解和与日常环境互动方面却缺乏常识。世界模型旨在解决这个问题。一些公司,如Google DeepMind和World Labs,正在开发能够即时生成虚拟幻想世界的模型,这些模型可以作为AI代理的训练场。
Niantic Spatial表示,他们正从不同的角度解决这个问题。McClendon说,如果你将地图绘制推向极致,你最终会捕捉到一切:“我非常专注于尝试重现真实世界。我们还没有做到,但我们希望能做到。”
🚀 想要体验更好更全面的AI调用?
欢迎使用青云聚合API,约为官网价格的十分之一,支持300+全球最新模型,以及全球各种生图生视频模型,无需翻墙高速稳定,文档丰富,小白也可以简单操作。
评论区