目 录CONTENT

文章目录

Sora 2重磅发布:更逼真、更精准的视频与音频生成新纪元

青云TOP
2025-10-04 / 0 评论 / 0 点赞 / 1 阅读 / 0 字

📢 转载信息

原文链接:https://openai.com/index/sora-2

原文作者:The Sora Team


OpenAI 宣布推出 Sora 2:视频和音频生成模型迎来“GPT-3.5 时刻”

今天,我们正式发布 Sora 2,这是我们的旗舰级视频和音频生成模型。与 2024 年 2 月首次亮相的初代 Sora 模型相比,Sora 2 在物理准确性、真实感和可控性方面实现了巨大飞跃。它现在可以生成同步的对话和音效,并且用户可以在全新的 Sora 应用程序中使用它。

初代 Sora 模型⁠在很大程度上是视频领域的 GPT-1 时刻,它首次展示了视频生成的可行性,并从大规模预训练中涌现出简单的世界理解能力,如物体恒存性。在此基础上,Sora 团队专注于训练具有更高级世界模拟能力的模型。我们相信这类系统对于训练能够深刻理解物理世界的 AI 模型至关重要,尤其是在处理大规模视频数据预训练和后训练方面,这方面的工作才刚刚起步。

提示词:花样滑冰运动员表演三周半跳,头上顶着一只猫

Sora 2 的能力实现了质的飞跃,它能完成对以往视频生成模型而言极其困难甚至不可能完成的任务:例如,奥运会体操动作、准确模拟浮力和刚性动力学的桨板后空翻,以及猫咪紧抓不放的头顶三周半跳。

提示词:一个男人在做后空翻

以往的视频模型往往过于“乐观”,它们会为了成功执行文本提示而扭曲物体、变形现实。例如,如果篮球运动员投篮失误,球可能会瞬间“传送”到篮筐里。而在 Sora 2 中,如果篮球运动员投篮失误,球会撞到篮板后反弹。有趣的是,模型犯下的“错误”往往表现出它在隐式建模的内部代理(agent)的错误;尽管仍不完美,但它比以往系统更好地遵守物理定律。这是任何有用的世界模拟器都必须具备的关键能力——它必须能够模拟失败,而不仅仅是成功。

该模型在可控性方面也取得了巨大进步,能够遵循跨越多个镜头的复杂指令,同时准确地保持世界状态。它在生成写实、电影化和动漫风格的视频方面表现出色。

提示词:维京人开战——北海之战(10.0秒,冬季冷光/中世纪早期)...

作为一个通用的视频-音频生成系统,Sora 2 能够以高度逼真的效果创建复杂的背景声景、语音和音效。

提示词:两位登山探险家穿着亮色的技术夹克,脸部结冰,紧张地在雪中大喊,一人接一人

您还可以直接将现实世界的元素注入 Sora 2。例如,通过观察我们一位团队成员的视频,模型可以将其插入到任何 Sora 生成的环境中,并准确地再现其外貌和声音。这种能力非常通用,适用于任何人、动物或物体。

提示词:大脚怪对他非常友善,友好得有点过分,就像奇怪的友善。大脚怪想一起玩,但他/她想得太多了

该模型远非完美,仍然会犯下许多错误,但它证实了在视频数据上进一步扩展神经网络将使我们更接近模拟现实。

Sora 2 的部署

在迈向通用模拟和能够在物理世界中运行的 AI 系统的道路上,我们认为人们可以在构建模型的过程中获得很多乐趣。

几个月前,Sora 团队就开始尝试使用这个“上传自己”的功能,我们所有人都玩得很开心。这感觉像是沟通的自然演变——从短信到表情符号再到语音信息,现在到了这个阶段。

因此,今天我们推出了一个名为“Sora”的全新社交 iOS 应用,由 Sora 2 驱动。在该应用中,您可以创作、混音彼此的生成内容,在可定制的 Sora 信息流中发现新视频,并通过“Cameos”(化身)将您自己或朋友带入其中。通过 Cameos,您只需在应用中进行一次简短的视频和音频录制以验证身份并捕捉您的形象,就可以将自己直接置于任何 Sora 场景中,还原度极高。

上周,我们将该应用内部发布给了 OpenAI 的所有员工。我们已经从同事那里听说,因为这个功能,他们在公司结交了新朋友。我们认为,围绕“Cameos”功能构建的社交应用是体验 Sora 2 魔力的最佳方式。

负责任地发布

关于“末日滚动”(doomscrolling)、成瘾、孤立和强化学习(RL)优化信息流的担忧是我们的首要考虑——以下是我们为此所做的工作。

我们为用户提供了控制他们信息流内容的工具和选择权。利用 OpenAI 现有的 LLM,我们开发了一种新型推荐算法,可以通过自然语言进行指令控制。我们还内置了机制,定期询问用户他们的幸福感,并主动提供调整信息流的选项。

默认情况下,我们会向您展示大量偏向您关注或互动的人的内容,并优先显示模型认为最有可能激发您自己创作灵感的视频。我们不以信息流停留时间为优化目标,我们明确设计这款应用是为了最大化创作,而非消费。您可以在我们的信息流理念中找到更多细节。

这款应用是旨在与您的朋友一起使用。测试者的压倒性反馈是,Cameos 使其感觉不同且有趣——您必须尝试一下才能真正理解,但它是一种与人交流的全新独特方式。我们以邀请制推出这款应用,以确保您能和朋友一起来体验。在所有主流平台都在远离社交图谱的时代,我们认为 Cameos 将会加强社区联系。

保护青少年的福祉对我们至关重要。我们对青少年每天在信息流中可以看到的生成内容设置了默认限制,并且我们还将为该群体推出更严格的 Cameos 权限。除了我们的自动化安全堆栈外,我们正在扩大人工审核团队规模,以快速审查出现的欺凌事件。我们与 ChatGPT 的 Sora家长控制功能⁠一同推出,以便父母可以覆盖无限滚动限制、关闭算法个性化,以及管理私信设置。

通过 Cameos,您对自己的形象拥有端到端的控制权。只有您决定谁可以使用您的 Cameo,并且您可以随时撤销访问权限或删除任何包含它的视频。您也可以随时查看任何包含您 Cameo 的视频,包括其他人创建的草稿。

我们已经解决了使用肖像的同意权、来源追溯、防止生成有害内容等许多安全问题。请参阅我们的Sora 2 安全文档⁠了解更多详情。

其他应用中存在的许多问题源于其盈利模式,该模式激励的决策与用户福祉相悖。坦率地说,我们目前唯一的计划是,如果需求相对于可用算力过多,最终将为用户提供付费生成额外视频的选项。随着应用的演变,我们将公开沟通在此方法的任何变化,同时继续将用户福祉作为我们的主要目标。

我们正处于这段旅程的开始阶段,但通过 Sora 2 提供的所有强大的创作和混音方式,我们认为这是共同创作体验的全新时代的开端。我们乐观地认为,与目前可用的平台相比,这将是一个对娱乐和创意更健康的新平台。希望您玩得开心 :)

Sora 2 的可用性和后续计划

Sora iOS 应用现在可以下载。您可以在应用内注册,以便在您的账户开放访问时收到推送通知。我们今天首先在美国和加拿大推出,并计划尽快扩展到其他国家/地区。收到邀请后,您也可以通过 sora.com(opens in a new window) 访问 Sora 2。Sora 2 最初将免费提供,初始限制非常宽松,以便用户可以自由探索其功能,尽管这些功能仍受限于算力约束。ChatGPT Pro 用户也可以在 sora.com(opens in a new window)(以及很快在 Sora 应用中)使用我们实验性的、更高质量的 Sora 2 Pro 模型。我们还计划在 API 中发布 Sora 2。Sora 1 Turbo 将继续可用,您创建的所有内容都将保存在您的 sora.com(opens in a new window) 库中。

视频模型正在飞速进步。通用世界模拟器和机器人代理将从根本上重塑社会,加速人类进步的进程。Sora 2 朝着这一目标取得了重大进展。本着 OpenAI 的使命精神,重要的是人类能够从这些模型的开发中受益。我们相信 Sora 将为世界带来大量的欢乐、创造力和连接。

— Sora 团队撰写


🚀 想要体验更好更全面的AI调用?

欢迎使用青云聚合API,约为官网价格的十分之一,支持300+全球最新模型,以及全球各种生图生视频模型,无需翻墙高速稳定,小白也可以简单操作。

0

评论区