📢 转载信息
原文作者:Rebecca Szkutak
Shawn Shen 认为,AI 要想在物理世界取得成功,就需要能够记住它所看到的东西。Shen 的公司 Memories.ai 正在利用英伟达的 AI 工具,为可穿戴设备和机器人构建能够记住和回忆视觉记忆的基础设施。
Memories.ai 于周一在其 GTC 大会(GTC conference)上宣布与半导体巨头英伟达(Nvidia)达成合作。通过此次合作,Memories.ai 将使用英伟达的 Cosmos-Reason 2(一款推理视觉语言模型)和 Nvidia Metropolis(一款用于视频搜索和摘要的应用),继续开发其视觉记忆技术。
Shen(上图左)告诉 TechCrunch,他和他的联合创始人兼首席技术官 Ben Zhou(上图右)在构建 Meta 的 Ray-Ban 眼镜背后的 AI 系统时,萌生了创建该公司的想法。构建 AI 眼镜让他们开始思考,如果用户无法回忆起他们正在记录的视频数据,那么人们在现实生活中将如何实际使用这项技术。
他们曾试图寻找是否有人已经在构建这类视觉记忆解决方案给 AI 使用。当他们找不到时,他们决定从 Meta 分离出来,自己来构建。
“AI 在数字世界中已经做得非常好了。那物理世界呢?” Shen 说。“AI 可穿戴设备、机器人也需要记忆。… 最终,你需要 AI 拥有视觉记忆。我们相信这个未来。”
总的来说,AI 系统拥有记忆的能力相对来说是比较新的。 OpenAI 在 2024 年更新了 ChatGPT,开始记住过去的聊天记录,并在 2025 年对该功能进行了微调。埃隆·马斯克的 xAI 和 Google Gemini 在过去两年里也推出了自己的记忆工具。
但 Shen 表示,这些进步主要集中在基于文本的记忆上。基于文本的记忆结构化程度更高,更容易索引,但对于主要通过视觉与世界互动的物理 AI 应用来说,帮助不大。
Memories.ai 于 2024 年推出,迄今已筹集了 1600 万美元,其中包括 2025 年 7 月的 800 万美元种子轮融资及其 800 万美元的延期融资。此轮融资由 Susa Ventures 领投,Seedcamp、Fusion Fund 和 Crane Venture Partners 等公司跟投。
Shen 表示,成功构建这个视觉记忆层需要两件事:构建将视频嵌入和索引成可存储和回忆的数据格式所需的基础设施,以及捕获训练模型所需的数据。
该公司于 2025 年 7 月推出了其 大型视觉记忆模型 (LVMM)。Shen 表示,可以将其与本月早些时候发布的 Gemini Embedding 2(一款多模态索引和检索模型)的一个小型版本进行比较。
为了收集数据,该公司创建了 LUCI,这是公司“数据收集者”佩戴的硬件设备,用于记录训练模型所需的视频。Shen 表示,他们不打算成为一家硬件公司,也不打算销售这些设备,而是自己制造了这些设备,因为他们对注重高清和耗电视频格式的现成录像机不满意。
该公司发布了其 LVMM 的第二代产品,并与高通(Qualcomm)签署了一项 合作协议,从今年晚些时候开始在其处理器上运行。
Shen 表示,Memories.ai 还在与一些大型可穿戴设备公司合作,但拒绝透露具体是哪些公司。尽管目前有一些需求,但 Shen 认为可穿戴设备和机器人市场还有更大的机遇尚未到来。
“就商业化而言,我们更专注于模型和基础设施,因为我们最终认为可穿戴设备和机器人市场将会到来,但可能现在还没有,”Shen 说。
🚀 想要体验更好更全面的AI调用?
欢迎使用青云聚合API,约为官网价格的十分之一,支持300+全球最新模型,以及全球各种生图生视频模型,无需翻墙高速稳定,文档丰富,小白也可以简单操作。
评论区