📢 转载信息
原文链接:https://www.qbitai.com/2025/10/339468.html
原文作者:量子位
全球文生图大模型竞争格局迎来重大变化!
就在不久前,国际权威的AI模型竞技场 LMArena 发布了最新的文生图榜单,来自中国的腾讯混元图像3.0一举夺得榜首,成功登顶全球第一!
它不仅超越了谷歌的 Nano Banana 等一众闭源模型,也超越了字节的 Seedream 和 OpenAI 的 gpt-Image,在全部 26 个参评大模型中稳居榜首。

LMArena 官方也对混元 3.0 的出色表现表示祝贺,称之为一项“巨大的成就”。

LMArena:国际最权威的盲测竞技场
LMArena 竞技场是国际上公认的权威 AI 模型评测平台之一,由美国加州大学伯克利分校推出。其核心机制是基于人类真实偏好的“盲测”:用户输入相同的问题,平台随机展示两款模型的输出结果,用户只需选择更喜欢的一方。这种评估方式比单纯的跑分更能体现用户层面的体验。
此次混元 3.0 的登顶,让不少人感到惊喜。此前,文生图领域主要由谷歌的 Nano Banana 和即梦等模型占据主导地位,腾讯混元 3.0 成为一匹强劲的“黑马”。

持续深耕,厚积薄发
腾讯混元在文生图领域并非新手。早在 2024 年 5 月,他们就开源了首个中文原生的文生图 DiT 模型,一度在开源社区引起广泛关注。随后,社区涌现出 Flux、Wan 等模型,闭源阵营则有 MJ、Nano-Banana 等。在社区沉寂一段时间后,混元团队持续深耕,9 月推出的 2.1 版本也展现了开源 SoTA 的实力。而最新的 3.0 版本,则依托全新架构,一举超越了众多闭源模型。

核心亮点:原生多模态架构与 80B 参数量
据官方介绍,混元图像 3.0 采用了原生多模态架构。这意味着它可以通过单一模型处理文字、图片、视频和音频等多种模态的输入和输出,而无需组合多个模型来完成任务。
这使得模型不仅具备生图能力,还融合了 LLM 的思考能力和常识,能像一个自带“大脑”的画家一样,利用智能去构思图像布局、构图和笔触。
此外,混元图像 3.0 的参数规模高达 80B,是目前参数量最大的开源生图模型,也是业界首个开源工业级原生多模态生图模型。不过,目前主要开放文生图能力,图生图、图像编辑等功能预计后续版本推出。
强大的语义理解与世界知识推理能力
在技术实现上,混元 3.0 从传统的 DiT 架构转向原生多模态架构,并进行了整体架构重构,以支持多任务训练并实现相互促进。

模型以 Hunyuan-A13B 为基础,融合了 50 亿量级的图文对、视频帧、图文交织数据,以及 6T 语料,进行了多模态生成、理解和 LLM 的混合训练。这使得模型具备了超强的语义理解能力和 LLM 的世界知识,能够利用知识进行推理。
创意生成示例
混元 3.0 在理解复杂提示词和生成符合常识的画面方面表现出色:
- 中秋节海报:完美融合嫦娥、玉兔、皓月等元素,节日氛围浓厚。
- 十二生肖表情包:动物特征明显,表情生动。
- 跨次元对话:“林黛玉大战孙悟空”的画面充满了戏剧性对比。
- 概念生成:完全由火焰构成的猫咪,极具艺术感。
- 专业级广告图:生成的香水广告大片精致唯美,看不出 AI 痕迹。





插画效果也同样出色,如牛顿被苹果砸中的经典场景。

技术方案深度解析
混合式离散-连续建模
混元 3.0 采用原生多模态模型,底层基于 Hunyuan-A13B(一个总参数超 800 亿的 MoE 大语言模型,推理时激活 130 亿参数)。模型结构上融合了离散和连续建模策略:文本词元使用自回归的下一词元预测,图像词元则基于扩散预测框架。

广义因果注意力机制(Generalized Causal Attention)
为了有效处理文本(自回归)和图像(全局依赖)这两种异构模态,模型引入了广义因果注意力机制:
- 文本 tokens 仅关注序列中位于它们之前的多模态 tokens。
- 图像 tokens 可以关注它们之前的所有多模态 tokens,以及同一图像片段内位于它们之后的图像 tokens。
这种设计在尊重文本自回归特性的同时,利用了全局注意力捕捉图像块的上下文能力。

广义二维位置编码(Generalized 2D RoPE)
模型采用了 Su 提出的广义二维 RoPE,保持了与预训练 LLM 的向后兼容性。图像 tokens 采用二维位置编码,文本 tokens 保留标准的 1D RoPE(可视为 2D RoPE 的对角线情况)。

自动分辨率预测
混元 3.0 引入了自动模式,模型能根据上下文(Prompt 或条件图像)自动决定输出图像的尺寸和宽高比。通过扩展词汇表加入特殊标记(如 <img_size_*>, <img_ratio_*>),模型学会根据输入预测合适的形状标记。
数据构建与训练策略
高质量数据构建
数据处理采用三阶段过滤流程,从超 100 亿张原始图像中筛选出近 50 亿张高质量数据,移除了低质量内容。
描述体系上,构建了中英双语、分层级的描述体系,包含内容、风格和实体等多维度信息,并利用 OCR 和 NER 代理提供事实依据,确保描述准确性。

为激活“思维链”(CoT)能力,团队还构建了“文本到文本”(T2T)和“文本到文本到图像”(T2TI)的思考生图数据集。
渐进式训练策略
预训练分为四个渐进式阶段,数据和分辨率逐步提升:
- 阶段一:联合优化 T2I、LM、MMU,低分辨率(256px)训练,对齐跨模态。
- 阶段二:冻结主干网络,微调 ViT 及其对齐器,增强视觉理解。
- 阶段三:联合训练 ViT 和 Transformer,使用更高分辨率(>512px)和图文交错数据。
- 阶段四:更高分辨率(≥1024px)子集上训练,强化视觉和推理能力,引入 CoT 任务。

后训练阶段采用 SFT、DPO、MixGRPO,并结合自研的 ReDA 优化模型,以提升生成图像的真实感和美学表现。
效果评估:全面超越
混元 3.0 采用机器指标 SSAE 和人工评测 GSB 结合评估。
在 SSAE 指标上,混元 3.0 在平均图像准确率和全局准确率上,均能与业界顶尖模型媲美甚至超越。

在 GSB 人工评测中,混元 3.0 对比 Seedream 4.0 胜率 1.17%,对比 Nano Banana 胜率 2.64%,对比 GPT-Image 胜率 5.00%,对比上一版本 2.1 胜率更是高达 14.10%。这强有力地证明了HunyuanImage 3.0 是一款足以媲美业界领先闭源模型的开源模型。

更多精彩瞬间
混元 3.0 不仅在榜单上表现出色,在实际应用中也带来了惊艳的效果,引发了社区热潮:
- 解方程展示:不仅给出答案,还能在图中展示详细的计算过程。
- 复古拼贴画:复杂文本元素的排版依然井井有条,美感十足。
- 超现实想象:巨型章鱼、精细人物特写等画面细节丰富,充满想象力。



如果你也灵感迸发,不妨亲自去体验这款强大的新模型!
开源仓库:https://github.com/Tencent-Hunyuan/HunyuanImage-3.0
HF 地址:https://huggingface.co/tencent/HunyuanImage-3.0
提示词手册:https://docs.qq.com/doc/DUVVadmhCdG9qRXBU
技术报告:https://arxiv.org/pdf/2509.23951
官网:https://hunyuan.tencent.com/image/zh?tabIndex=0
🚀 想要体验更好更全面的AI调用?
欢迎使用青云聚合API,约为官网价格的十分之一,支持300+全球最新模型,以及全球各种生图生视频模型,无需翻墙高速稳定,小白也可以简单操作。
青云聚合API官网https://api.qingyuntop.top
支持全球最新300+模型:https://api.qingyuntop.top/pricing
详细的调用教程及文档:https://api.qingyuntop.top/about
评论区