📢 转载信息
原文链接:https://openai.com/index/new-chatgpt-images-is-here
原文作者:OpenAI
今天,我们发布了由我们全新的旗舰图像生成模型驱动的 ChatGPT Images 新版本。现在,无论你是从零开始创作还是编辑照片,你都能得到你想象中的输出效果。它可以在保持细节不变的情况下实现精确编辑,并且生成图像的速度提高了 4 倍。与此一同推出的,还有 ChatGPT 中全新的 Images 功能,旨在让图像生成过程充满乐趣——激发灵感,让创意探索变得毫不费力。
新版 Images 模型今天开始向所有 ChatGPT 用户推送,并通过 API 以 GPT Image 1.5 的形式提供。ChatGPT 中全新的 Images 体验也从今天开始向大多数用户推出,Business 和 Enterprise 版本稍后推出。
精准编辑,保留重要细节
现在,当你要求对上传的图像进行编辑时,模型能更可靠地遵循你的意图——精确到微小的细节——只改变你要求的部分,同时在输入、输出和后续编辑中保持光照、构图和人物外观的一致性。
这带来了与你意图相符的结果——更有用的 照片编辑、更逼真的服装和发型 试穿,以及保留原始图像精髓的 风格滤镜和概念性转换。这些改进共同作用,意味着 ChatGPT 可以成为你口袋里的创意工作室,既能进行实用的编辑,也能进行富有表现力的重新构想。
编辑
该模型擅长不同类型的编辑——包括添加、减去、组合、混合和换位——因此你可以得到想要的更改,而不会失去图像的特色。


将两个男人和一只狗合成为一张 2000 年代胶片相机风格的照片,他们看起来对一个儿童生日派对感到厌倦。
在背景中加入正在扔东西和尖叫的混乱的孩子们。
将左边的男人改成手绘的复古动漫风格,狗改成毛绒玩具风格,保持右边的男人和背景的风景不变。
把他们都换成看起来像这样(附图)的 OpenAI 毛衣。
现在移除那两个男人,只保留狗,并把它放到一个看起来像附图的 OpenAI 直播中。
概念性转换
该模型在转换中的创造力大放异彩,它能改变和添加元素——例如文本和布局——以实现想法的落地,同时保留重要细节。这些转换适用于简单和更复杂的概念,并且可以通过新的 ChatGPT Images 功能中的预设样式和创意轻松尝试——无需输入文字提示。
根据这两位男士的图像,制作一部名为《Codex》的老式黄金时代好莱坞电影海报。可以随意更改他们的服装以适应时代。
将演员名字改为 Wojciech Zaremba(左)和 Greg Brockman(右)。
由 Sam Altman 导演,Fidji Simo 监制。A Feel the AGI Pictures 出品。
指令遵循能力
该模型遵循指令的能力比我们最初的版本更可靠。这使得编辑更加精确,也使得原始构图更加复杂,同时保持了元素之间预期的关系。
新版
绘制一个 6x6 的网格
绘制一个 6(列)x 6(行)的网格,网格内容如下:
第 1 行:希腊字母 beta、沙滩球、柠檬、机器人、鱼缸、青蛙
第 2 行:螳螂、昂贵的手表、浴缸、一副太阳镜、一只色彩斑斓的蝴蝶、一个信封
第 3 行:邮票、相框、一个蒸汽包子、单词 “miracle”、一副滑雪板、字母 Z
第 4 行:马桶、地铁代币、静音图标、一瓶香水、一只蜻蜓、一个滑板头盔
第 5 行:蓝牙图标、数字 13、一个绿色的心、一个魔方、一只加拿大鹅、一个士兵头盔
第 6 行:一只白狗、一个救生衣、一个结、一个键盘、一个纸巾盒、数字 14
旧版
绘制一个 6x6 的网格
绘制一个 6(列)x 6(行)的网格,网格内容如下:
第 1 行:希腊字母 beta、沙滩球、柠檬、机器人、鱼缸、青蛙
第 2 行:螳螂、昂贵的手表、浴缸、一副太阳镜、一只色彩斑斓的蝴蝶、一个信封
第 3 行:邮票、相框、一个蒸汽包子、单词 “miracle”、一副滑雪板、字母 Z
第 4 行:马桶、地铁代币、静音图标、一瓶香水、一只蜻蜓、一个滑板头盔
第 5 行:蓝牙图标、数字 13、一个绿色的心、一个魔方、一只加拿大鹅、一个士兵头盔
第 6 行:一只白狗、一个救生衣、一个结、一个键盘、一个纸巾盒、数字 14
文本渲染
该模型在文本渲染方面又向前迈进了一步,能够处理更密集、更小的文本。
桌子上有一份报纸。报纸上展示了以下 自然 报纸文章格式的 markdown 内容。请严格保留所有内容、格式和数字。图像应为纵向。
# 介绍 GPT‑5.2
### *最先进的前沿模型,适用于专业工作和长期代理*
**2025 年 12 月 11 日**
---
我们正在推出 GPT‑5.2,这是迄今为止最强大的模型系列,专为专业知识工作设计。
目前,ChatGPT Enterprise 用户的平均每天可节省 40-60 分钟,重度用户表示每周可节省超过 10 小时。我们设计 GPT‑5.2 的目的是为人们解锁更多的经济价值;它在创建电子表格、构建演示文稿、编写代码、感知图像、理解长上下文、使用工具和处理复杂的多步骤项目方面表现得更好。
GPT‑5.2 在许多基准测试中创下新的最先进水平,包括 GDPval,在该测试中,它在跨越 44 个职业的、定义明确的知识工作任务中表现优于行业专业人士。
---
## 基准测试亮点
| 基准测试 | 领域 | GPT‑5.2 思考 | GPT‑5.1 思考 |
|---|---|---:|---:|
| GDPval(获胜或平局) | 知识工作任务 | 70.9% | 38.8% (GPT‑5) |
| SWE-Bench Pro(公开) | 软件工程 | 55.6% | 50.8% |
| SWE-bench 验证 | 软件工程 | 80.0% | 76.3% |
| GPQA Diamond(无工具) | 科学问题 | 92.4% | 88.1% |
| CharXiv 推理(带 Python) | 科学图像问题 | 88.7% | 80.3% |
| AIME 2025(无工具) | 竞赛数学 | 100.0% | 94.0% |
| FrontierMath(第 1-3 级) | 高级数学 | 40.3% | 31.0% |
| FrontierMath(第 4 级) | 高级数学 | 14.6% | 12.5% |
| ARC-AGI-1(验证) | 抽象推理 | 86.2% | 72.8% |
| ARC-AGI-2(验证) | 抽象推理 | 52.9% | 17.6% |
---
Notion、Box、Shopify、Harvey 和 Zoom 表示 GPT‑5.2 在长程推理和工具调用方面表现出最先进的性能。Databricks、Hex 和 Triple Whale 发现 GPT‑5.2 在代理式数据科学和文档分析任务方面表现出色。Cognition、Warp、Charlie Labs、JetBrains 和 Augment Code 报告称,GPT‑5.2 在代理式编码性能方面提供了最先进的成果,在交互式编码、代码审查和错误查找等领域有明显的改进。
在 ChatGPT 中,GPT‑5.2 Instant、Thinking 和 Pro 将从今天开始向付费套餐用户推出。在 API 中,它们现已向所有开发者开放。
总的来说,GPT‑5.2 在通用智能、长上下文理解、代理式工具调用和视觉方面带来了显著的改进——使其在端到端执行复杂、现实世界任务方面比以往任何模型都更出色。
现在将文章更改为以下 markdown:
# 介绍 GPT‑Image-1.5
### *全新升级的 ChatGPT Images*
**2025 年 12 月 16 日**
---
今天,我们发布了由我们最出色的图像生成模型驱动的全新升级版 ChatGPT Images。凭借更强大的指令遵循能力和更精确的编辑功能,ChatGPT Images 可以在保持光照、构图和面部相似度等关键细节在编辑过程中一致的同时,实现您要求的更改——现在生成速度提高了 4 倍,让您可以减少等待时间,更轻松地迭代和探索想法。
这是我们迄今为止最强大的通用文本到图像模型,具有更具表现力的转换、改进的密集文本渲染和更自然的结果。无论是进行微小修复还是完全重新构思,您只需描述您想要的内容——或从新的 Images 体验中的预设样式和创意中选择——ChatGPT 就能处理其余部分,交付既实用又引人注目的结果,并且更好地符合您的意图。
新的 Images 模型和体验今天开始在 ChatGPT 中向所有用户推出,并在 API 中以 GPT‑Image-1.5 的形式推出。
---
## 符合您意图的结果
该模型现在能更可靠地遵循指令——精确到微小的细节——在您要求更改的同时,能够保持光照、构图和相似度在输入、输出和后续编辑中保持一致。
这带来了与您意图相符的结果——更有用的照片编辑、更逼真的服装和发型试穿,以及保留原始图像精髓的风格滤镜和概念性转换。这些改进共同作用,意味着 ChatGPT 可以成为你口袋里的创意工作室,既能进行实用的编辑,也能进行富有表现力的重新构想。
### 编辑
该模型擅长不同类型的编辑,因此您可以得到想要的更改,而不会失去图像的特色。
### 概念性转换
该模型在概念性转换中展现出创造力,改变和添加元素——例如文本和布局——以帮助概念的实现,同时保持重要细节。
### 指令遵循
该模型比 GPT Image 1.0 更好地遵循指令。
### 文本渲染
该模型在文本渲染方面又向前迈进了一步,能够处理更密集、更小的文本。
---
## 新的创作空间
除了通过描述您想看的内容来通过 ChatGPT 生成图像外,我们还在 ChatGPT 侧边栏中引入了一个专用的 Images 体验,使探索和尝试图像更简单快捷。这包括预设滤镜和热门提示以激发灵感,以及一次性的肖像上传功能,以便您可以跨未来创作重复使用您的外貌,而无需再次翻阅相册。
总而言之,这些升级让您能够创建更符合您愿景的图像,从细微的编辑到完全的重新构想。Images 现在渲染速度提高了四倍,您可以在其他图像仍在进行中的同时继续生成新图像——这样您就可以探索更多想法而无需等待。
其他质量改进
该模型在其他方面也有改进,这转化为更立即可用的输出,例如渲染许多小人脸以及输出的自然程度。
新版
制作 1970 年代切尔西(伦敦)的场景,写实照片风格,所有景物都清晰,有很多人,并且有一辆公交车,车上有 “ImageGen 1.5” 的广告,上面有 OpenAI 标志和副标题“创造你所想象的”。超写实业余摄影,iPhone 快照质量……
旧版
制作 1970 年代切尔西(伦敦)的场景,写实照片风格,所有景物都清晰,有很多人,并且有一辆公交车,车上有 “ImageGen 1.5” 的广告,上面有 OpenAI 标志和副标题“创造你所想象的”。超写实业余摄影,iPhone 快照质量……
新的创作空间
除了通过在消息中描述您想看到的内容来生成图像,我们还在 ChatGPT 中引入了一个专用的 Images 主页——可通过移动应用和 chatgpt.com 上的侧边栏访问——使探索和尝试图像更快、更容易。它包含数十种预设滤镜和提示,可激发灵感,并会定期更新以反映新趋势。
总而言之,这些升级让您能够创建更符合您愿景的图像,从细微的编辑到完全的重新构想。
改进与局限性
我们重新运行了初始图像生成发布中的许多示例来评估性能。该模型在各种情况下都显示出明显的改进,但结果仍然不完美。虽然本次发布代表了有意义的进步,但在未来的迭代中仍有很大的改进空间。
新版
创建一个深海生物在不同深度分层的海水分层剖面的海报,风格为精美的日式细节动漫风格。
旧版
创建一个深海生物在不同深度分层的海水分层剖面的海报,风格为精美的日式细节动漫风格。
仍然存在一些科学上的不准确之处,但大约 70% 正确,图形更生动,避免了过早裁剪。
API 中的 GPT Image 1.5
API 中的 GPT Image 1.5(opens in a new window) 带来了与 ChatGPT Images 相同的改进:与 GPT Image 1 相比,它在图像保留和编辑方面更强大。
您将看到品牌标志和关键视觉元素在编辑过程中得到更一致的保留,使其非常适合营销和品牌工作,如图形和标志创建,以及电商团队从单一源图像生成完整的图片目录(变体、场景和角度)。
与 GPT Image 1 相比,GPT Image 1.5 中的图像输入和输出成本降低了 20%,因此您可以用相同的预算生成和迭代更多图像。
您可以在 OpenAI Playground(opens in a new window) 中尝试新模型,浏览 图库(opens in a new window),或阅读 提示指南(opens in a new window) 寻求灵感。
包括创意工具、电子商务、营销软件等多个行业的企业和初创公司已经在利用 GPT Image 1.5。
新版
旧版
“GPT Image 1.5 生成高保真图像,具有很强的提示遵循能力,保留了构图、光照和精细细节。结果清晰、逼真且可靠,支持 Wix 等平台上更快的从概念到制作的工作流程。基于我们在 Wix 的测试和主要用例,其一致性和质量足以使其成为当今主流的图像生成模型之一。”
— Hila Gat,Wix 人工智能研究和数据科学主管
可用性
新的 ChatGPT Images(opens in a new window) 模型今天正在向所有 ChatGPT 用户和 API 用户在全球范围内推出。它适用于所有模型,因此您无需选择任何设置即可使用它。今年早些时候推出的 ChatGPT Images 版本将继续作为 自定义 GPT(opens in a new window) 供所有用户使用。
我们相信我们才刚刚开始了解图像生成能带来什么。今天的更新是向前迈出的有意义的一步,未来还将有更多进展,包括更精细的编辑以及跨语言生成更丰富、更详细的输出。
🚀 想要体验更好更全面的AI调用?
欢迎使用青云聚合API,约为官网价格的十分之一,支持300+全球最新模型,以及全球各种生图生视频模型,无需翻墙高速稳定,文档丰富,小白也可以简单操作。
评论区