目 录CONTENT

文章目录

大型多模态模型中基于下一个词元预测的多模态学习

Administrator
2026-01-29 / 0 评论 / 0 点赞 / 0 阅读 / 0 字

📢 转载信息

原文链接:https://www.nature.com/articles/s41586-025-10041-x

原文作者:Xinlong Wang, Yufeng Cui, Jinsheng Wang, Fan Zhang, Yueze Wang, Xiaosong Zhang, Zhengxiong Luo, Quan Sun, Zhen Li, Yuqi Wang, Qiying Yu, Yingli Zhao, Yulong Ao, Xuebin Min, Chunlei Men, Boya Wu, Bo Zhao, Bowen Zhang, Liangdong Wang, Guang Liu, Zheqi He, Xi Yang, Jingjing Liu, Yonghua Lin, Zhongyuan Wang & Tiejun Huang


摘要

开发一个可以跨文本、图像和视频等模态进行学习和生成的统一算法,一直是人工智能领域的一个根本性挑战。尽管下一个词元预测(next-token prediction)推动了大型语言模型(LLM)的重大进展,但其在多模态领域的扩展仍然有限。目前,图像和视频合成主要依赖于扩散模型,而多模态集成则多采用集成视觉编码器与语言模型的组合框架。在此,我们介绍 Emu3,一个仅通过下一个词元预测进行训练的多模态模型家族。Emu3在感知和生成任务上达到了成熟的特定任务模型的性能,与旗舰系统相匹配,同时无需使用扩散或组合架构。它进一步展示了连贯、高保真的视频生成、交错的视觉-语言生成,以及用于机器人操作的视觉-语言-动作建模。通过将多模态学习简化为统一的词元预测,Emu3 为大规模多模态建模奠定了稳健的基础,并为实现统一的多模态智能提供了一条有前景的途径。




🚀 想要体验更好更全面的AI调用?

欢迎使用青云聚合API,约为官网价格的十分之一,支持300+全球最新模型,以及全球各种生图生视频模型,无需翻墙高速稳定,文档丰富,小白也可以简单操作。

0

评论区