📢 转载信息
原文链接:https://openai.com/index/sora-2
原文作者:The Sora team
OpenAI 发布 Sora 2:视频生成技术的里程碑式突破
今天,我们正式推出了我们最新的旗舰级视频和音频生成模型——Sora 2。这款模型在物理准确性、视觉逼真度和可控性方面均超越了前代系统,并且新增了对对话和音效同步的支持。我们已经推出了全新的 Sora 应用程序,邀请您立即开始创作之旅。
2024 年 2 月发布的初代 Sora 模型(初代 Sora )是视频生成领域的“GPT-1 时刻”,它首次展示了视频生成技术的巨大潜力,通过扩展预训练规模,实现了物体恒常性等基础行为的生成。此后,Sora 团队持续专注于训练具备更先进世界模拟能力的模型。我们深信,这类系统对于训练能够深度理解物理世界的 AI 模型至关重要。而实现这一目标的关键,在于掌握大规模视频数据的预训练与后训练技术——这在视频领域仍是一个相对新兴的领域。
借助 Sora 2,我们正迎来视频生成技术可能出现“GPT-3.5 式”突破的时刻。Sora 2 能够完成前代视频生成器难以企及——甚至完全无法实现——的任务:演绎奥运级的体操动作、在冲浪板上精准模拟浮力与刚性动态的后空翻,以及在猫咪极力抓稳时完成三周半跳跃。
Prompt: figure skater performs a triple axle with a cat on her head
先前的视频模型往往过于“乐观”——它们会扭曲物体和现实来成功执行文本指令。例如,当篮球运动员投篮不中时,球可能会神奇地飞向篮筐。而在 Sora 2 中,如果篮球运动员投篮未中,球会从篮板反弹。有趣的是,模型产生的“错误”往往源于 Sora 2 隐含建模的内部智能体失误;尽管仍不完美,但其遵循物理定律的能力已显著优于前代系统。这对实用的世界模拟器至关重要——它必须能够建模失败场景,而不仅仅是成功场景。
Prompt: a guy does a backflip
该模型在可控性方面也实现了重大突破,能够执行跨越多个镜头的复杂指令,同时精确维持世界状态。它在写实风格、电影风格和动漫风格的呈现上均表现卓越。
Prompt: Vikings Go To War — North Sea Launch (10.0s, Winter cool daylight / early medieval)...
作为一个通用的音视频生成系统,Sora 2 能够以高度逼真的方式创作复杂的背景音景、人声和音效。
Prompt: Two mountain explorers in bright technical shells, ice crusted faces, eyes narrowed with urgency shout in the snow, one at a time
您还可以直接将现实世界的元素注入 Sora 2。例如,通过观察队友的视频,模型能够精准还原其外貌和声音,并将其植入任何 Sora 生成的环境中。这种能力具有高度通用性,适用于人类、动物或物体。
Prompt: Bigfoot is really kind to him, a little too kind, like oddly kind. Bigfoot wants to hang out but he he wants to hang too much
该模型远非完美且存在诸多错误,但它验证了通过视频数据进一步扩展神经网络规模,将使我们更接近模拟现实的目标。
Sora 2 的部署与社交新体验
在通往通用模拟与物理世界 AI 系统的道路上,我们认为人们能从我们构建的模型中获得诸多乐趣。数月前 Sora 团队首次尝试“上传自我”功能时,所有人都乐在其中。这仿佛是沟通方式的自然进化——从文字消息到表情符号,从语音笔记到如今的影像互动。
今日我们推出全新社交 iOS 应用“Sora”,由 Sora 2 驱动。在应用中,您可以创作内容、混搭他人作品、通过可定制的 Sora 信息流发现新视频,还能通过“客串”(cameos)功能将自己或朋友融入场景。只需在应用中完成一次简短的视频音频录制以验证身份并捕捉形象特征,就能将真实的自己精准置入任何 Sora 场景中。
上周我们已向 OpenAI 全体员工开放了该应用的内部测试。同事们反馈该功能已促成公司内部新友谊。我们认为围绕“客串”功能打造的社交应用,是体验 Sora 2 魔力的最佳途径。
负责任地推出:用户福祉优先
我们高度重视对“末日滚动”、成瘾性、孤立感及现实生活优化信息流的担忧——以下是我们的应对措施:
- 自主掌控信息流:我们为用户提供工具与选项来掌控信息流。依托 OpenAI 现有大型语言模型,我们开发出可通过自然语言指令的新型推荐算法。同时内置定期健康监测机制,主动提供信息流调整选项。默认情况下,我们优先展示您关注或互动对象的内容,并重点推荐模型判断您最可能用于创作灵感的视频。我们不以延长信息流停留时间为优化目标,而是刻意设计应用以最大化创作,而非消费。更多细节请参阅我们的信息流理念
- 强化社群凝聚力:这款应用旨在与好友共同使用。客串功能赋予了这款应用与众不同的乐趣——这确实是与人交流的新颖独特方式。我们采用邀请制推出该功能,确保您能与好友共同体验。
- 青少年福祉保护:我们为青少年用户设置了每日信息流可见层级数量的默认限制,并对该群体使用“客串”功能实施更严格的权限管控。除自动化安全防护体系外,我们正扩充人工审核团队规模,确保及时处理可能出现的欺凌事件。我们通过 ChatGPT 推出 Sora 家长控制功能,家长可覆盖无限滚动限制、关闭算法个性化推荐,并管理私信设置。
- 形象控制权:使用“客串”功能时,您可全程掌控与 Sora 的形象呈现。您可自主决定谁能使用您的“客串”形象,并随时撤销访问权限或删除包含该形象的视频。包含您肖像的视频(包括他人创建的草稿)均可随时查看。
本应用已解决诸多安全议题——肖像使用授权、来源追溯、有害内容生成防范等。详情请参阅《Sora 2 安全文档》。
我们当前的唯一计划是:当需求远超可用计算资源时,最终为用户提供付费生成额外视频的选项。我们将始终将用户福祉作为首要目标。
我们相信 Sora 2 标志着共创体验全新时代的开端,将为娱乐与创意提供更健康的发展环境。祝您玩得愉快 :)
Sora 2 服务上线及后续计划
Sora iOS 应用现已开放下载(在新窗口中打开)。我们今日起在美国和加拿大启动首批用户开放,计划快速扩展至更多国家。收到邀请后,您还可通过 sora.com(在新窗口中打开) 访问 Sora 2。初期 Sora 2 将免费开放,并提供充裕的初始配额供用户自由探索其功能,但仍受计算资源限制。ChatGPT Pro 用户还可在 sora.com 使用我们实验性的高品质 Sora 2 Pro(在新窗口中打开) 模型。
我们计划通过 API 发布 Sora 2。Sora 1 Turbo 将继续可用,您所有创作内容仍将保存在 sora.com(在新窗口中打开) 的个人库中。
视频模型正以惊人速度实现卓越性能。通用世界模拟器与机器人智能体将加速人类进步进程。Sora 2 标志着我们向该目标迈出了重要一步。我们相信 Sora 将为世界带来无限欢乐、创造力与联结。
——Sora 团队撰写
🚀 想要体验更好更全面的AI调用?
欢迎使用青云聚合API,约为官网价格的十分之一,支持300+全球最新模型,以及全球各种生图生视频模型,无需翻墙高速稳定,小白也可以简单操作。
青云聚合API官网https://api.qingyuntop.top
支持全球最新300+模型:https://api.qingyuntop.top/pricing
详细的调用教程及文档:https://api.qingyuntop.top/about
评论区