📢 转载信息
原文链接:https://news.mit.edu/2025/using-generative-ai-diversify-virtual-training-grounds-robots-1008
原文作者:Alex Shipps | MIT CSAIL
生成式AI助力机器人虚拟训练场实现多元化发展
麻省理工学院计算机科学与人工智能实验室(CSAIL)的研究人员开发出一种新工具,可以创建逼真的虚拟厨房和客厅场景,使模拟机器人能够在其中与真实世界物体的模型进行交互,从而为机器人基础模型的大规模训练提供数据支持。

标题: “可控场景生成”系统可以创建厨房、客厅和餐厅等数字场景,工程师可利用这些场景模拟大量的现实世界互动和场景。
署名: 生成式AI图像,由研究人员提供。
ChatGPT和Claude等聊天机器人因其广泛的任务处理能力,在过去三年中用户数量激增。无论是写莎士比亚十四行诗、调试代码,还是解答冷门知识问题,人工智能系统似乎都能胜任。这种多功能性的来源是什么?是互联网上数十亿甚至数万亿的文本数据点。
机器人训练的挑战:数据匮乏与模拟失真
然而,这些数据对于教会机器人成为一个得力的家庭或工厂助手来说远远不够。为了让机器人理解如何处理、堆叠和放置各种环境中的物体,它们需要实际的演示。你可以将机器人训练数据视为一系列操作指南视频,引导系统完成任务的每一个动作。在真实机器人上收集这些演示既耗时又难以完美重复,因此工程师们通常通过生成AI模拟(但这些模拟往往不能反映真实世界的物理特性),或从头开始耗费大量精力手工制作每个数字环境来创建训练数据。
“可控场景生成”:构建逼真的3D训练环境
麻省理工学院CSAIL和丰田研究院(Toyota Research Institute)的研究人员可能找到了创建机器人所需多样化、逼真训练场的方法。他们提出的“可控场景生成(steerable scene generation)”方法,能够创建厨房、客厅和餐厅等数字场景,工程师们可以利用这些场景来模拟大量的现实世界交互和场景。该工具在超过4400万个充满桌子和盘子等物体模型的3D房间上进行了训练,它能将现有资产放置到新场景中,然后将其完善成一个物理准确、栩栩如生的环境。
利用“搜索”和“强化学习”实现场景优化
可控场景生成通过“引导”扩散模型(一种将随机噪声转化为视觉效果的AI系统)来创建这些3D世界,使其朝着日常生活中常见的场景发展。研究人员利用这个生成系统来“修复”(in-paint)环境,填充场景中特定的元素。你可以想象一张空白画布逐渐变成一个散布着3D物体的厨房,这些物体会根据现实世界的物理规律逐渐重新排列。例如,系统会确保叉子不会穿过桌子上的碗——这在3D图形中是一种常见的“裁剪”(clipping)故障,即模型相互重叠或相交。
可控场景生成如何精确地引导其创作趋向真实性,取决于所选择的策略。其主要策略是“蒙特卡洛树搜索”(MCTS),模型会创建一系列替代场景,并以不同的方式填充它们以实现特定目标(例如,使场景更物理真实,或尽可能多地包含可食用物品)。这款AI程序曾被AlphaGo用于击败人类围棋选手,因为它会在选择最有利的走法之前考虑潜在的后续步骤。
CSAIL研究员、电气工程与计算机科学(EECS)博士生兼论文主要作者Nicholas Pfaff表示:“我们是第一个通过将场景生成任务视为一个序列决策过程来应用MCTS进行场景生成的研究者。”他补充道,“我们不断在部分场景的基础上构建,以随着时间的推移产生更好或更期望的场景。因此,MCTS创建的场景比扩散模型在训练时所基于的场景要复杂得多。”
在一个极具说服力的实验中,MCTS在一个简单的餐厅场景中加入了最大数量的物体。该场景的桌子上共有多达34个物品,包括大量的点心叠盘,而系统在训练时,平均场景中的物体数量只有17个。
直接提示和场景补全
可控场景生成还允许用户通过强化学习生成多样化的训练场景——本质上是通过试错来教会扩散模型实现目标。在对初始数据进行训练后,系统会进入第二个训练阶段,你只需勾勒出一个奖励(基本上是一个带有接近目标得分的期望结果)。模型会自动学会创建得分更高的场景,通常会产生与训练场景截然不同的结果。
用户也可以通过输入特定的视觉描述(如“一个桌子上有四个苹果和一个碗的厨房”)直接提示系统。然后,可控场景生成可以精确地将你的请求变为现实。例如,在构建食品储藏室架子场景时,该工具准确遵循用户提示的比例高达98%,在构建凌乱的早餐桌场景时为86%。这两个指标比“MiDiffusion”和“DiffuScene”等现有方法提高了至少10%。
该系统还可以通过提示或光照指示来完成特定场景(例如,“用相同的物体设计一个不同的场景布局”)。你可以要求它将苹果放在厨房桌子的几个盘子上,或者将棋盘游戏和书籍放在架子上。这基本上是在空白区域“填补空白”,同时保留场景的其余部分。
为未来机器人训练打下基础
研究人员认为,该项目的优势在于它能够创建大量可供机器人专家使用的场景。“我们的一个关键发现是,我们预先训练的场景不必完全与我们实际想要的场景相匹配,”Pfaff说。“利用我们的引导方法,我们可以超越这种广泛的分布,从一个‘更好’的分布中采样。换句话说,生成我们真正希望用来训练机器人的多样化、逼真且与任务一致的场景。”
正是这些庞大的场景成为了测试场,研究人员可以在其中记录虚拟机器人在与不同物品交互时的表现。机器小心翼翼地将叉子和刀子放入餐具筒中,并在各种3D环境中重新摆放面包到盘子上。每一次模拟都显得流畅而逼真,与可控场景生成可能帮助训练的现实世界中适应性强的机器人如出一辙。
尽管该系统为生成大量多样化的机器人训练数据提供了一条令人鼓舞的路径,但研究人员表示,他们的工作更像是一个概念验证。未来,他们希望利用生成式AI来创建全新的物体和场景,而不是使用固定的资产库。他们还计划整合机器人可以打开或扭动的关节式物体(如橱柜或装满食物的罐子),以使场景更具交互性。
为了使虚拟环境更加逼真,Pfaff和他的同事们可能会整合真实世界的物体,方法是利用从互联网图片中提取的物体和场景库,并结合他们之前在“Scalable Real2Sim”上的工作。通过扩展AI构建的机器人测试场的多样性和真实性,该团队希望建立一个用户社区,以生成大量数据,这些数据随后可作为海量数据集,用于教导灵巧的机器人掌握不同的技能。
专家点评
亚马逊机器人应用科学家Jeremy Binagia(未参与该论文)评论道:“如今,为模拟创建逼真的场景是一项艰巨的任务;程序化生成可以轻松产生大量场景,但它们很可能不能代表机器人在现实世界中遇到的环境。手动创建定制场景既耗时又昂贵。”他认为,“可控场景生成提供了一种更好的方法:在一个大型预存在场景集合上训练一个生成模型,并(使用强化学习等策略)将其适应于特定的下游应用。与利用现成的视觉-语言模型或仅关注在2D网格中排列物体的先前工作相比,这种方法保证了物理可行性,并考虑了完整的3D平移和旋转,从而能够生成更有趣的场景。”
丰田研究院机器人专家Rick Cory(SM'08, PhD'10,未参与该论文)表示:“可控场景生成通过训练后和推理时的搜索,为自动化大规模场景生成提供了一个新颖而高效的框架。”他还说,“此外,它可以生成被认为对下游任务重要的‘前所未见的’场景。未来,将此框架与海量互联网数据相结合,有望为机器人高效训练并部署到现实世界中解锁一个重要里程碑。”
Pfaff与高级作者Russ Tedrake(麻省理工学院电气工程与计算机科学、航空航天与机械工程系的丰田教授,以及丰田研究院大型行为模型高级副总裁和CSAIL首席研究员)共同撰写了该论文。其他作者包括丰田研究院机器人研究员Hongkai Dai(SM'12, PhD'16)、团队负责人兼高级研究科学家Sergey Zakharov,以及卡内基梅隆大学博士生Shun Iwase。他们的工作得到了亚马逊和丰田研究院的部分资助。研究人员于9月在机器人学习会议(CoRL)上展示了他们的成果。
🚀 想要体验更好更全面的AI调用?
欢迎使用青云聚合API,约为官网价格的十分之一,支持300+全球最新模型,以及全球各种生图生视频模型,无需翻墙高速稳定,小白也可以简单操作。
青云聚合API官网https://api.qingyuntop.top
支持全球最新300+模型:https://api.qingyuntop.top/pricing
详细的调用教程及文档:https://api.qingyuntop.top/about
评论区