📢 转载信息
原文链接:https://openai.com/index/sora-2
原文作者:The Sora team
# Sora 2 重磅来袭:更强的物理模拟与控制能力
OpenAI 于今日(2025年9月30日)正式发布了其旗舰级视频和音频生成模型 **Sora 2**。
自 2024 年 2 月初代 Sora 模型发布以来,它在许多方面展现了视频生成的“GPT-1 时刻”,初步展现了物体持久性等简单行为。而 Sora 2 标志着我们在训练具备更先进世界模拟能力的模型方面取得了重大飞跃。我们相信,这类系统对于训练深度理解物理世界的 AI 模型至关重要。
Sora 2 实现了许多对于先前视频生成模型而言极其困难,甚至是不可能完成的任务:例如奥林匹克体操动作、精确模拟浮力与刚性动态的桨板后空翻,以及在顶着一只猫的情况下完成三周半跳(Triple Axel)。
## 物理定律的精准遵循:告别“过度乐观”
此前的视频模型往往“过度乐观”——它们会为了成功执行文本提示而扭曲物体和变形现实。例如,如果篮球运动员投篮不中,球可能会凭空“瞬间移动”到篮筐里。而在 Sora 2 中,如果篮球运动员投篮不中,球会从篮板上反弹。有趣的是,模型所犯的“错误”往往看起来像是其内部隐式建模的智能体所犯的错误;尽管仍不完美,但它比以往的系统更能遵守物理定律。对于任何有用的世界模拟器来说,能够模拟失败(而不仅仅是成功)是一个极其重要的能力。
## 控制力与多模态的巨大提升
Sora 2 在**可控性**方面取得了巨大进步,它能够遵循跨越多个镜头的复杂指令,同时精确地保持世界状态的连贯性。它在写实、电影感和动漫风格方面表现出色。
提示词:维京人参战——北海之战(10.0秒,冬季冷光/中世纪早期)...
作为一个通用的视频-音频生成系统,Sora 2 能够以高度逼真的效果创建复杂的背景音景、语音和音效。
提示词:两位高山探险家,穿着亮色技术外壳冲锋衣,冰雪覆盖的脸庞,因紧迫感而眯着眼睛,一位接一位地大喊
此外,你可以直接将真实世界的元素注入 Sora 2。例如,通过观察我们一位同事的视频,模型可以将其精确地描绘出来,并匹配其外貌和声音,插入到任何 Sora 生成的环境中。这项能力非常通用,适用于任何人物、动物或物体。
提示词:大脚怪对他非常友善,友善得有点过分,像怪异的友善。大脚怪想一起玩,但他/她想得太多了
尽管模型远非完美,错误百出,但它验证了一个观点:在视频数据上进一步扩展神经网络规模,将使我们更接近模拟真实世界。
## Sora 2 的部署:全新社交 iOS 应用发布
在迈向通用模拟和能够在物理世界中运行的 AI 系统的道路上,我们认为人们可以在沿途构建的模型中找到许多乐趣。
我们(Sora 团队)几个月前就开始试用这个“上传你自己”的功能,大家玩得非常开心。这感觉像是沟通方式的自然演进——从短信到表情符号,再到语音备忘录,最后到现在的这项功能。
因此,我们今天发布了一款名为 **“Sora”的全新社交 iOS 应用**,它由 Sora 2 驱动。在应用中,你可以创作、互相混音彼此的生成内容、在可定制的 Sora 信息流中发现新视频,并通过 **Cameos(化身)** 将你自己或朋友带入其中。通过 Cameos 功能,在应用内进行一次简短的视频和音频录制以验证身份并捕捉你的形象后,你可以直接将自己置身于任何 Sora 场景中,并获得惊人的保真度。
上周,我们已向 OpenAI 全体员工内部发布了这款应用。我们已经听同事们说,因为这个功能,他们正在公司结识新朋友。我们认为,围绕这个“Cameos”功能构建的社交应用是体验 Sora 2 魔力的最佳方式。
## 负责任地发布:关注用户福祉
关于“信息过载滚动(doomscrolling)”、“成瘾”、“孤立”和“RL 优化信息流”的担忧是我们的首要关注点——以下是我们的应对措施:
我们为用户提供了**控制信息流内容的工具和选择权**。我们利用 OpenAI 现有的 LLM,开发了一套新型推荐算法,可以通过自然语言进行指令控制。我们还内置了机制,定期向用户询问其福祉状况,并主动提供调整信息流的选项。
默认情况下,我们向你展示的内容会高度偏向你关注或互动的人,并优先展示模型认为最有可能成为你自身创作灵感来源的视频。**我们不对信息流的停留时间进行优化,我们的设计明确目标是最大化创作(Creation),而非消费(Consumption)**。你可以在我们的[《Sora 信息流理念》](https://openai.com/index/sora-feed-philosophy/)中找到更多细节。
这款应用**旨在与朋友一起使用**。测试者的反馈压倒性地表明,Cameos 是使其感觉与众不同且有趣的关键——你必须尝试一下才能真正理解,但它确实是一种与人交流的全新独特方式。我们正以邀请制推出这款应用,以确保你和你的朋友们一起加入。在这个所有主流平台都在偏离社交图谱的时刻,我们认为 Cameos 将加强社群联系。
**保护青少年的福祉**对我们至关重要。我们为青少年在信息流中可查看的生成内容数量设置了默认限制,并且在 Cameos 功能方面,我们也为该群体推出了更严格的权限设置。除了我们的自动化安全堆栈外,我们正在增加人工审核团队,以便快速审查可能出现的欺凌案例。我们推出时将伴随 Sora [家长控制功能](https://openai.com/index/introducing-parental-controls/)(通过 ChatGPT 实现),父母可以覆盖无限滚动限制、关闭算法个性化,并管理私信设置。
通过 Cameos,**你的形象端到端都由你控制**。只有你决定谁可以使用你的 Cameo,你可以随时撤销访问权限或删除包含它的任何视频。包含你 Cameo 的视频(包括他人创建的草稿)可随时供你查看。
我们通过这款应用解决了许多安全问题——包括形象使用许可、内容溯源、防止生成有害内容等等。请参阅我们的[《Sora 2 安全文档》](https://openai.com/index/launching-sora-responsibly/)了解更多详情。
其他应用中许多问题的根源在于其盈利模式激励了与用户福祉相悖的决策。坦白地说,我们目前唯一的计划是,如果需求相对于可用算力过多,最终会给予用户选择支付一定费用来生成额外视频的选项。随着应用的演进,我们将公开沟通在此方面的任何方法变更,同时继续将用户福祉作为我们的首要目标。
我们正处于这个旅程的起点,但凭借 Sora 2 在创作和混音内容方面的所有强大方式,我们认为这是合作创作体验的全新时代的开始。我们乐观地认为,与当前可用的平台相比,这将是一个更健康的娱乐和创作平台。希望你玩得开心 :)
## Sora 2 的可用性和后续计划
[Sora iOS 应用](https://apps.apple.com/app/id6744034028)现已可供下载。你可以在应用内注册,以便在你的账户开放访问时收到推送通知。我们今天首先在美国和加拿大地区推出,目标是快速扩展到其他国家。收到邀请后,你也可以通过 [sora.com](http://sora.com) 访问 Sora 2。Sora 2 最初将免费提供,初始限制非常慷慨,以便人们可以自由探索其能力,但这些仍然受限于计算资源。ChatGPT Pro 用户也可以在 [sora.com](http://sora.com)(以及即将推出的 Sora 应用)上使用我们实验性的、更高质量的 **Sora 2 Pro** 模型。我们还计划在 API 中发布 Sora 2。Sora 1 Turbo 仍将可用,你创建的所有内容将继续保留在你的 [sora.com](http://sora.com) 库中。
视频模型正在飞速进步。通用世界模拟器和机器人智能体将从根本上重塑社会并加速人类进步的进程。Sora 2 代表着朝着这一目标迈出的重要一步。本着 OpenAI 的使命,重要的是人类能够从这些模型的开发中受益。我们相信 Sora 将为世界带来大量的欢乐、创造力和联系。
*— 由 Sora 团队撰写*
🚀 想要体验更好更全面的AI调用?
欢迎使用青云聚合API ,约为官网价格的十分之一,支持300+全球最新模型,以及全球各种生图生视频模型,无需翻墙高速稳定,小白也可以简单操作。
评论区