目 录CONTENT

文章目录

为应对谷歌挑战,OpenAI 发布 GPT-5.2

Administrator
2025-12-12 / 0 评论 / 0 点赞 / 0 阅读 / 0 字

📢 转载信息

原文链接:https://techcrunch.com/2025/12/11/openai-fires-back-at-google-with-gpt-5-2-after-code-red-memo/

原文作者:Rebecca Bellan


周四,OpenAI 在与谷歌日益激烈的竞争中,发布了其最新的前沿模型 GPT-5.2,并将其定位为迄今为止最先进的模型,专为开发人员和日常专业人士使用而设计。 

OpenAI 的 GPT-5.2 将通过 API 供 ChatGPT 付费用户和开发者使用,共有三种版本:Instant(即时版),一个优化速度的模型,适用于信息查询、写作和翻译等日常查询;Thinking(思考版),在复杂的结构化工作(如编码、分析长文档、数学和规划)方面表现出色;以及 Pro(专业版),最高端模型,旨在为困难问题提供最大的准确性和可靠性。 

OpenAI 首席产品官 Fidji Simo 在周四与记者举行的新闻发布会上表示:“我们设计 5.2 是为了进一步释放人们的经济价值。”“它在创建电子表格、制作演示文稿、编写代码、感知图像、理解长上下文、使用工具以及链接复杂的多步骤项目方面表现更出色。”

GPT-5.2 正值与谷歌 Gemini 3 的军备竞赛之中,Gemini 3 在 LMArena 排行榜的大多数基准测试中名列前茅(除编码外,这方面 Anthropic 的 Claude Opus-4.5 仍占据主导地位)。 

本月初,The Information 报道称,随着 ChatGPT 流量下降和对失去谷歌用户市场的担忧,CEO Sam Altman 向员工发布了一份内部“红色代码”(code red)备忘录。该红色代码要求转变优先事项,包括暂停引入广告等承诺,转而专注于创造更好的 ChatGPT 体验。 

GPT-5.2 是 OpenAI 夺回领导地位的努力,尽管一些员工据报道要求推迟模型发布,以便公司有更多时间进行改进。尽管有迹象表明 OpenAI 会通过为 ChatGPT 增加更多个性化和定制功能来关注消费者用例,但 GPT-5.2 的发布似乎旨在加强其企业级机会。 

该公司正专门针对开发人员和工具生态系统,旨在成为构建 AI 驱动应用程序的默认基础。本周早些时候,OpenAI 发布了新的数据,显示其 AI 工具的企业使用量在过去一年中急剧激增。 

加入 Disrupt 2026 等候名单

加入 Disrupt 2026 等候名单,当早鸟票开始发售时,您将是第一批获得者。过去的 Disrupt 活动曾邀请到 Google Cloud、Netflix、微软、Box、Phia、a16z、ElevenLabs、Wayve、Hugging Face、Elad Gil 和 Vinod Khosla 等行业领袖登上舞台——他们是 250 多位行业领袖的一部分,带来了 200 多个旨在推动您的增长和保持领先地位的会议。此外,您还将遇到在各个行业进行创新的数百家初创公司。

旧金山 | 2026 年 10 月 13-15 日
立即加入等候名单

与此同时,Gemini 3 已深度集成到谷歌的产品和云生态系统中,用于多模态和代理工作流程。本周,谷歌推出了托管 MCP 服务器,使 Maps 和 BigQuery 等 Google 和云服务更容易被代理接入。(MCP 是人工智能系统与数据和工具之间的连接器。)

OpenAI 表示,GPT-5.2 在编码、数学、科学、视觉、长上下文推理和工具使用方面设定了新的基准分数,该公司声称这可能带来“更可靠的代理工作流程、生产级代码以及跨大型上下文和真实世界数据运行的复杂系统”。

这些能力使其与 Gemini 3 的 Deep Think 模式直接竞争,后者被誉为针对数学、逻辑和科学的一项重大推理进步。在 OpenAI 自己的基准图表上,GPT-5.2 Thinking 在几乎所有列出的推理测试中都超越了 Gemini 3 和 Anthropic 的 Claude Opus 4.5,测试范围从现实世界的软件工程任务 (SWE-Bench Pro) 和博士级别的科学知识 (GPQA Diamond) 到抽象推理和模式发现 (ARC-AGI 套件)。 

研究负责人 Aidan Clark 表示,更强的数学分数不仅仅是解决方程式。他解释说,数学推理是衡量模型是否能够遵循多步骤逻辑、保持数字随时间一致性以及避免可能随时间累积的细微错误的一种衡量标准。 

“这些都是在各种不同工作负载中都非常重要的特性,”Clark 说道。“比如财务建模、预测、进行数据分析等工作。”

在新闻发布会上,OpenAI 产品负责人 Max Schwarzer 表示,GPT-5.2“在代码生成和调试方面有了实质性的改进”,并且可以逐步完成复杂的数学和逻辑推理。他补充说,像 Windsurf 和 CharlieCode 这样的编码初创公司报告了“最先进的代理编码性能”以及在复杂多步骤工作流程上的可衡量收益。 

除了编码,Schwarzer 表示,GPT-5.2 Thinking 的回复中的错误比其前身减少了 38%,使模型在日常决策、研究和写作中更加可靠。 

GPT-5.2 看起来与其说是彻底的革新,不如说是 OpenAI 过去两次升级的整合。8 月发布的 GPT-5 奠定了统一系统的基础,该系统带有一个路由器,可以在快速默认模型和更深入的“Thinking”模式之间切换。11 月的 GPT-5.1 专注于使该系统更友好、更具对话性,并更适合代理和编码任务。最新的模型 GPT-5.2 似乎将所有这些进步的“旋钮”调高了,使其成为一个更可靠的生产使用基础。 

对于 OpenAI 来说,风险从未如此之高。该公司已就未来几年的 AI 基础设施建设做出了高达 1.4 万亿美元的承诺,而这些承诺是在它仍然拥有 AI 公司中先发优势时做出的。但现在谷歌后来居上,这笔赌注可能就是 Altman 推动“红色代码”的原因所在。 

OpenAI 重新关注推理模型也是一次冒险的展示。支撑其 Thinking 和 Deep Research 模式的系统比标准聊天机器人更昂贵,因为它们消耗更多的计算资源。通过 GPT-5.2 押注于此类模型,OpenAI 可能正在设置一个恶性循环:花费更多计算资源来赢得排行榜,然后花费更多资源来维持这些高成本模型的大规模运行。 

OpenAI 已经在据报道花费比以往更多的计算资源。正如 TechCrunch 最近报道的那样,OpenAI 的大部分推理支出——用于运行训练好的 AI 模型的计算费用——正以现金形式支付,而不是通过云积分,这表明该公司的计算成本已超出合作伙伴关系和积分所能补贴的范围。 

在电话会议中,Simo 表示,随着 OpenAI 的规模扩大,它能够提供更多的产品和服务来产生更多收入,以支付额外的计算费用。 

Simo 说:“但我认为重要的是将其置于效率的大背景下来看。”“与一年前相比,您今天以相同的计算量和相同的资金获得了更多的智能。”

尽管专注于推理,但今天的发布中缺失的一点是新的图像生成器。据报道,Altman 在他的红色代码备忘录中提到,图像生成将是未来的一个关键优先事项,尤其是在谷歌的 Nano Banana(谷歌 Gemini 2.5 Flash 图像模型的昵称)在 8 月发布后引起病毒式传播之后。 

上个月,谷歌推出了 Nano Banana Pro(又名 Gemini 3 Pro Image),这是一个升级版本,具有更好的文本渲染、世界知识和一个“令人毛骨悚然、逼真、未经编辑的氛围”的照片效果。它也更好地集成到谷歌的产品中,正如过去一周所展示的那样,它出现在 Google Labs Mixboard 等工具和工作流程中,用于自动生成演示文稿。 

OpenAI 据称计划在 1 月份发布另一个新模型,具有更好的图像、更快的速度和更好的个性,尽管该公司周四没有证实这些计划。 

OpenAI 周四还表示,它正在推出围绕心理健康使用和青少年年龄验证的新安全措施,但在发布会上并没有过多宣传这些变化。 

本文已根据有关 OpenAI 计算效率状态的更多信息进行了更新。 

有敏感线索或机密文件?我们正在报道人工智能行业的内部运作——从塑造其未来的公司到受其决策影响的人们。请通过 rebecca.bellan@techcrunch.com 或 russell.brandom@techcrunch.com 联系 Rebecca Bellan 或 Russell Brandom。对于安全通信,您可以通过 Signal 联系他们,ID 分别是 @rebeccabellan.491 和 russellbrandom.49。




🚀 想要体验更好更全面的AI调用?

欢迎使用青云聚合API,约为官网价格的十分之一,支持300+全球最新模型,以及全球各种生图生视频模型,无需翻墙高速稳定,文档丰富,小白也可以简单操作。

0

评论区