📢 转载信息
原文链接:https://openai.com/index/higgsfield
原文作者:OpenAI
2026年1月21日
短视频驱动着现代商业,但要制作出真正有效果的视频比看起来要难得多。在TikTok、Reels和Shorts上看起来毫不费力的片段,其背后都建立在一些隐形规则之上:开场白的时机、镜头节奏、运镜方式、叙事节奏以及其他使内容感觉与热门趋势“原生”匹配的微妙线索。
Higgsfield是一个生成式媒体平台,它允许团队根据产品链接、图像或一个简单的想法来创建电影感的短视频。该系统利用OpenAI的GPT‑4.1和GPT‑5进行规划,并使用Sora 2进行创作,每天生成约400万个视频,将最少的输入转化为结构化、面向社交媒体的视频内容。
“用户很少能准确描述模型需要什么。他们描述的是他们想要的感觉。我们的工作是利用OpenAI模型将这些目标转化为技术指令,从而将用户的意图翻译成视频模型可以执行的内容。”
创作者描述结果,而非运镜指令
人们思考的不是镜头列表。他们会说“让它更具戏剧性”或“这应该感觉很高端”。然而,视频模型则需要结构化的指导:时机规则、运动限制和视觉重点。
为了弥合这种差距,Higgsfield团队构建了他们所谓的“电影逻辑层”(cinematic logic layer),用于解释创意意图,并在任何生成发生之前将其扩展为具体的视频方案。
当用户提供产品URL或图像时,系统会使用GPT‑4.1 mini和GPT‑5来推断叙事弧线、节奏、镜头逻辑和视觉强调。Higgsfield将电影制作的决策过程内化到系统本身,而不是向用户暴露原始提示词。一旦计划构建完成,Sora 2就会根据这些结构化指令渲染运动、真实感和连续性。
这种“先规划后生成”的方法反映了产品背后的团队构成。Higgsfield汇集了工程师和经验丰富的电影制作人(包括屡获殊荣的导演),以及在消费者媒体领域有深厚背景的领导层。联合创始人兼首席执行官Alex Mashrabov此前曾在Snap领导生成式AI团队,开发了Snap镜头(lenses),塑造了数亿人规模化体验视觉特效的方式。
将病毒式传播操作化为系统,而非猜测
对于Higgsfield而言,病毒式传播是一组可衡量的模式,通过使用GPT‑4.1 mini和GPT‑5对海量短视频进行分析,并将这些发现提炼成可重复的创意结构来实现的。
在内部,Higgsfield通过“互动率/覆盖率比”(engagement-to-reach ratio)来定义病毒式传播,并特别关注“分享速度”(share velocity)。当分享开始超过点赞时,内容就从被动消费转向了主动分发。
Higgsfield将反复出现的、具有病毒性的结构编码到一个视频预设库中。每个预设都包含在高绩效内容中观察到的特定叙事结构、节奏风格和镜头逻辑。大约每天会创建10个新的预设,随着参与度的下降,旧的预设会被淘汰。
这些预设为Sora 2 Trends提供动力,使创作者能够仅凭一张图片或一个想法生成紧跟趋势的视频。系统会自动应用运动逻辑和平台节奏,在无需手动调整的情况下产生与每种趋势对齐的输出。
与Higgsfield早期的基线相比,通过该系统生成的视频在分享速度上提高了150%,并且通过下游参与行为测量的“认知捕捉率”(cognitive capture)大约提高了3倍。
利用Click-to-Ad将产品页面转化为广告
Click-to-Ad功能建立在指导平台其他部分的所有“先规划后生成”原则之上,是Sora 2 Trends获得积极反馈后衍生出来的功能。该功能通过使用GPT‑4.1来解释产品意图并使用Sora 2生成视频,消除了“提示词的门槛”。
其工作原理如下:
- 用户粘贴产品页面的链接
- 系统分析该页面,以提取品牌意图、识别关键视觉锚点以及了解产品的重要之处
- 一旦识别出产品,系统会将其映射到预先设计的趋势预设之一
- Sora 2生成最终视频,应用每个预设复杂的专业标准,包括镜头运动、节奏把握和风格规则
目标是快速生成可用、可以直接适配社交平台的输出,而这种转变正在改变团队的工作方式。用户现在通常只需一到两次尝试就能获得可用视频,而不是经过五六次提示迭代。对于营销团队来说,这意味着活动可以围绕数量和变化进行规划,而不是围绕试错进行规划。
一次典型的生成需要2到5分钟,具体取决于工作流程。由于该平台支持并发运行,团队可以在一小时内生成数十个变体,从而在趋势变化时测试创意方向变得非常实用。
自11月初推出以来,Click-to-Ad已被平台上超过20%的专业创作者和企业团队采用(衡量标准是输出是否作为实时活动的一部分被下载、发布或分享)。
将正确的工作分配给正确的模型
Higgsfield的系统依赖于多个OpenAI模型,每个模型的选择都基于任务的需求。
对于具有确定性、格式受限的工作流程,例如强制执行预设结构或应用已知的镜头运动方案,平台会将请求路由到GPT‑4.1 mini。这些任务受益于高可控性、可预测的输出、低方差和快速推理。
更模糊的工作流程则需要不同的方法。当系统需要从部分输入中推断意图时,例如解释产品页面或协调视觉和文本信号,Higgsfield会将请求路由到GPT‑5,此时更深层次的推理和多模态理解胜过了延迟或成本的考虑。
路由决策由内部启发式规则指导,这些规则权衡了:
- 所需推理深度与可接受的延迟
- 输出的可预测性与创意的自由度
- 显性意图与推断意图
- 机器消费的输出与面向人力的输出
Higgsfield的首席技术官兼联合创始人Yerzat Dulat表示:“我们并不认为这是在选择最好的模型,” “我们从行为优势的角度来看待问题。有些模型更擅长精度。其他模型更擅长解释。系统会相应地进行路由。”
推动AI视频的边界
六个月前,Higgsfield的许多工作流程还无法实现。早期的图像和视频模型在一致性方面存在困难:角色会漂移,产品会改变形状,较长的序列会断裂。
OpenAI图像和视频模型的最新进展使得跨镜头保持视觉连续性成为可能,从而实现了更逼真的运动和更长的叙事。这种转变释放了新的格式。Higgsfield最近推出了Cinema Studio,这是一个专为预告片和短片设计的横向工作空间。早期创作者已经制作出在网上广泛流传的数分钟长的视频,这些视频往往与实拍镜头难分伯仲。
随着OpenAI模型的不断发展,Higgsfield的系统也随之扩展。新的功能被转化为工作流程,这些工作流程在事后看来似乎是显而易见的,但在以前却不可行。随着模型的成熟,讲故事的工作重点正从管理工具转向对基调、结构和意义的决策。
🚀 想要体验更好更全面的AI调用?
欢迎使用青云聚合API,约为官网价格的十分之一,支持300+全球最新模型,以及全球各种生图生视频模型,无需翻墙高速稳定,文档丰富,小白也可以简单操作。
评论区