目 录CONTENT

文章目录

颠覆性突破:麻省理工研究人员发现无需生成器也能编辑或生成图像的新方法

Administrator
2025-10-15 / 0 评论 / 0 点赞 / 1 阅读 / 0 字

📢 转载信息

原文链接:https://news.mit.edu/2025/new-way-edit-or-generate-images-0721

原文作者:Steve Nadis | MIT CSAIL | Laboratory for Information and Decision Systems


无需生成器,图像编辑和生成迎来新路径

麻省理工学院(MIT)的研究人员发现,一类特殊的神经网络,即编码器或“标记器”(tokenizers),其潜力远超以往的认知。AI图像生成技术——它依赖神经网络根据文本提示等多种输入来创建新图像——预计到本十年末将成为一个价值数十亿美元的产业。即使以今天的技术,如果你想生成一张异想天开的图片,比如朋友在火星上插旗或鲁莽地飞入黑洞,可能只需不到一秒钟。然而,在能执行此类任务之前,图像生成器通常需要在包含数百万张图像的庞大数据集上进行训练,这些图像通常与相关文本配对。训练这些生成模型是一项艰巨的任务,可能需要数周或数月,在此过程中消耗巨大的计算资源。

但是,如果可以不使用生成器而通过AI方法生成图像会怎样呢?这种真实存在的可能性,以及其他引人入胜的想法,被发表在今年夏天早些时候于不列颠哥伦比亚省温哥华举行的国际机器学习会议(ICML 2025)上的一篇研究论文中所描述。这篇描述图像操作和生成新技术的论文,由以下人员撰写:Lukas Lao Beyer(MIT信息与决策系统实验室LIDS的研究生研究员);Tianhong Li(MIT计算机科学与人工智能实验室CSAIL的博士后);Xinlei Chen(Facebook AI Research);Sertac Karaman(麻省理工学院航空航天系的教授兼LIDS主任);以及Kaiming He(麻省理工学院电气工程与计算机科学副教授)。

深度洞察:标记器背后的奥秘

这项小组合作的成果源于 Lao Beyer 去年秋季参加的一个关于深度生成模型的毕业生研讨班上的一个课程项目。在学期期间的交流中,Lao Beyer 和讲授研讨课的 He 意识到这项研究具有超越典型家庭作业的巨大潜力。其他合作者很快也加入了这项工作。

Lao Beyer 探索的起点是 2024 年 6 月由慕尼黑工业大学和中国公司字节跳动(ByteDance)的研究人员撰写的一篇论文,该论文介绍了一种表示视觉信息的新方法,称为一维标记器(one-dimensional tokenizer)。这种设备本身也是一种神经网络,可以将 256x256 像素的图像转换成仅包含 32 个数字的序列,称为“标记”(tokens)。Lao Beyer 说:“我想了解这种高水平的压缩是如何实现的,以及这些标记本身到底代表了什么。”

上一代标记器通常会将同一张图像分解成一个 16x16 的标记阵列——每个标记都以高度浓缩的形式封装了与原始图像特定部分相关的信息。新的 1D 标记器可以更有效地编码图像,使用的标记总数要少得多,而且这些标记能够捕捉到整个图像的信息,而不仅仅是一个象限。此外,每个标记都是一个由 1 和 0 组成的 12 位数字,总共可以有 212(约 4000)种可能性。He 解释说:“这就像一个包含 4000 个单词的词汇表,构成了计算机所说的抽象的、隐藏的语言。它不像人类语言,但我们仍然可以尝试找出它的含义。”

从观察到编辑:标记操控的发现

这正是 Lao Beyer 最初着手探索的方向——这项工作为 ICML 2025 的论文提供了基础。他采取的方法相当直接。Lao Beyer 说,如果你想知道某个特定标记的作用,“你可以直接将其取出,换成一个随机值,然后观察输出是否有可识别的变化。” 他发现,替换一个标记会改变图像质量,将低分辨率图像变成高分辨率图像,反之亦然。另一个标记影响背景的模糊程度,而另一个则影响亮度。他还发现了一个与“姿势”(pose)相关的标记,这意味着,在例如红雀的图像中,这只鸟的头部可能会从左向右移动。

Lao Beyer 说:“这是一个前所未有的结果,因为没有人观察到操纵标记会引起视觉上可识别的变化。” 这一发现引发了图像编辑新方法的可能性。事实上,MIT 团队已经展示了如何简化和自动化这一过程,这样就不必手动一个一个地修改标记了。

重大突破:无需生成器即可生成图像

He 和他的同事们取得了更具影响力的成果,涉及图像生成。一个能够生成图像的系统通常需要一个标记器(用于压缩和编码视觉数据)以及一个生成器(用于组合和排列这些紧凑表示以创建新图像)。MIT 研究人员发现了一种完全不需要生成器即可创建图像的方法。他们的新方法利用了一个 1D 标记器和一个所谓的“反标记器”(detokenizer,也称为解码器),它可以从一串标记中重建图像。然而,在一种称为 CLIP 的现成神经网络的指导下——CLIP 本身无法生成图像,但可以衡量给定图像与特定文本提示的匹配程度——该团队能够将红熊猫的图像转换为老虎。此外,他们可以完全从头开始创建老虎或任何其他所需形式的图像——从所有标记最初被分配随机值的情况开始(然后进行迭代调整,使重建的图像与所需的文本提示越来越匹配)。

该小组证明,使用这种相同的设置——仅依赖标记器和反标记器,而没有生成器——他们还可以执行“图像修复”(inpainting),即填充图像中被涂黑的部分。避免在某些任务中使用生成器可以显著降低计算成本,因为如前所述,生成器通常需要大量的训练。

整合与未来展望

He 解释说,这个团队的贡献中看似奇怪的一点是:“我们没有发明任何新东西。我们没有发明 1D 标记器,也没有发明 CLIP 模型。但我们确实发现,当把所有这些部件组合在一起时,新的能力就会出现。”

纽约大学的计算机科学家 Saining Xie 评论道:“这项工作重新定义了标记器的作用。它表明,通常仅用于压缩图像的图像标记器可以做更多的事情。一个简单(但高度压缩的)1D 标记器可以处理诸如图修复或文本引导编辑等任务,而无需训练一个完整的生成模型,这相当令人惊讶。”

普林斯顿大学的 Zhuang Liu 同意,MIT 小组的工作“表明我们可以比以前想象的更容易地生成和操作图像。基本上,它证明了图像生成可以是一个非常有效的图像压缩器的副产品,有可能将生成图像的成本降低数倍。”

Karaman 建议,除了计算机视觉领域之外,可能还存在许多应用。“例如,我们可以考虑以相同的方式对机器人或自动驾驶汽车的行为进行标记,这可能会迅速扩大这项工作的实际影响。”

Lao Beyer 的想法也相似,他指出 1D 标记器所提供的极高压缩率允许进行“一些惊人的事情”,这些可以应用于其他领域。例如,在他的研究兴趣之一的自动驾驶汽车领域,这些标记可以代表车辆可能采取的不同路线,而不是图像。

Xie 对这些创新理念可能带来的应用也感到很着迷。“这可能会解锁一些非常酷的用例,”他说。




🚀 想要体验更好更全面的AI调用?

欢迎使用青云聚合API,约为官网价格的十分之一,支持300+全球最新模型,以及全球各种生图生视频模型,无需翻墙高速稳定,小白也可以简单操作。

青云聚合API官网https://api.qingyuntop.top

支持全球最新300+模型:https://api.qingyuntop.top/pricing

详细的调用教程及文档:https://api.qingyuntop.top/about

0

评论区