📢 转载信息
原文链接:https://www.wired.com/story/openai-gpt-launch-gemini-code-red/
原文作者:Maxwell Zeff
OpenAI 推出了迄今为止最智能的人工智能模型 GPT-5.2,在写作、编码和推理基准测试中均实现了性能提升。此次发布正值其 CEO Sam Altman 在内部宣布“红色代码”(code red),要求全公司范围内改进 ChatGPT,以应对来自竞争对手的激烈竞争。
OpenAI 的应用业务 CEO Fidji Simo 在周四对记者的简报中表示:“我们宣布这次红色代码是为了向公司明确信号,即我们希望在一个特定领域集中资源,这是明确优先事项的一种方式。”她补充道:“我们已经增加了关注 ChatGPT 的资源总量。”
Simo 否认了 OpenAI 是因为红色代码警报而提前发布 GPT-5.2 的说法,声称公司已经为此模型的发布筹备了数月。不过,她承认围绕 ChatGPT 增加的资源“起到了帮助作用”。
尽管在 ChatGPT 首次发布时,OpenAI 的模型和产品被认为是同类中的佼佼者,但这种情况已不再是定局。这家初创公司现在面临着一系列强大的挑战者,其中最具威胁的可能是谷歌,谷歌最近发布的 Gemini 3 模型在科技界受到了好评。谷歌的 Gemini 应用在过去一年中实现了惊人的增长,月活跃用户现已超过 6.5 亿,相比之下,OpenAI 的周活跃用户为 8 亿。这种压力迫使 OpenAI 缩减了一些最具雄心的项目,包括在 ChatGPT 中引入 广告的计划,并重新专注于改进其核心技术和产品。
与公司最近的模型发布一样,GPT-5.2 也是作为一系列模型推出的:Instant,响应更快,更适合信息查找;Thinking,在编码、数学和规划方面表现出色;以及 Pro,这是 OpenAI 模型中最强大的级别,能对复杂问题提供更高的准确性。
OpenAI 称 GPT-5.2 是其在日常专业用途中“迄今为止最好的模型”。GPT-5.2 Thinking 在 GDPval 基准测试中获得了迄今为止的最高分数,该基准测试比较了 AI 模型与人类专业人员在 44 种真实职业中的表现。该公司表示,该模型在超过 70% 的任务中超越了人类专业人员,并且完成任务的速度快了 11 倍。
OpenAI 的模型后训练负责人 Max Schwarzer 表示,新版本还应显著减少“幻觉”(hallucinations)。该公司表示,在衡量事实性问题答案的基准测试中,GPT-5.2 Thinking 的幻觉率比 GPT-5.1 低了 38%。
该公司将 GPT-5.2 推广给 ChatGPT 用户以及 OpenAI API 产品上的开发者。OpenAI 表示,这一系列新模型“在日常和高级用例中都带来了明显的提升”。
尽管 GPT-5.2 在纸面上的表现令人印象深刻,但对于任何模型发布来说,基准分数只能说明问题的一部分。今年早些时候 OpenAI 发布 GPT-5 时,用户对其模型“更冷漠”的反应感到不满,这种特质很难仅通过基准测试来衡量。几天后,该公司发布了 GPT-5 的更新,以使模型“更温暖”。
OpenAI 模型发布围绕的一个关键矛盾在于,如何在使 ChatGPT 更具对话乐趣(以提高使用率)和避免模型过于谄媚(即 AI 模型过度附和的倾向)之间找到平衡。在过去一年中,OpenAI 应对了与 ChatGPT 使用相关的各种心理健康挑战。10 月,该公司发布的一份报告显示,每周有超过一百万人 向 ChatGPT 倾诉自杀念头。同年 10 月,公司内部负责心理健康工作的研究主管宣布了她 离开 OpenAI 的计划。
但鉴于来自谷歌和 Meta 的竞争压力,OpenAI 有强烈的动机来发展其 ChatGPT 用户群。据《纽约时报》报道,10 月份,OpenAI 的 ChatGPT 负责人 Nick Turley 向公司发送了一份备忘录,宣称公司正面临“我们有史以来最大的竞争压力”。为应对这些压力,据报道 Turley 设定了一个目标:在 2026 年之前将日活跃用户提高 5%。
有了 GPT-5.2,OpenAI 表示,它继续加强了 ChatGPT 对表明有自残、心理健康困扰或对模型产生情感依赖等敏感提示的响应。该公司还表示,它正在某些国家/地区初步推出先前宣布的年龄预测模型。该系统将允许公司自动为被其估计未满 18 岁的用户应用内容保护措施。
Simo 表示,公司现在计划在 2026 年第一季度推出其“成人模式”(adult mode),Altman 此前曾暗示该模式将允许 18 岁以上用户与 ChatGPT 进行“色情”对话。
🚀 想要体验更好更全面的AI调用?
欢迎使用青云聚合API,约为官网价格的十分之一,支持300+全球最新模型,以及全球各种生图生视频模型,无需翻墙高速稳定,文档丰富,小白也可以简单操作。
评论区