📢 转载信息
原文链接:https://openai.com/index/descript
原文作者:OpenAI
Descript (opens in a new window) 是一款以 AI 为核心的视频编辑器,其理念很简单:如果能编辑文本,就能编辑视频。自 Descript 早期开始,AI 就贯穿了产品的各个方面:转录、编辑、音频清理和日益复杂的创意工作流。多年来,他们一直基于 OpenAI 的技术,使用 Whisper 进行转录,并在其联合编辑器 Underlord 中集成 GPT 系列模型。
翻译很快成为一个高影响力用例。传统上,视频翻译缓慢且昂贵,需要语言专家来管理项目、进行逐字翻译、进行质量控制并生成相应的音频。大型语言模型 (LLM) 大大压缩了这一工作流程,使得大规模高质量翻译成为可能。
字幕和配音都需要语义保真度:翻译必须保留原始含义。但时长一致性在两者中扮演的角色不同。对于字幕来说,它是一个锦上添花的功能。但对于配音而言,它至关重要,因为如果翻译后的语音时间过长或过短,即使含义正确,听起来也会很不自然。
为了解决这个问题,Descript 使用 OpenAI 推理模型重新设计了其翻译流程,在生成过程中优化语义保真度和时长一致性,而不是事后修正。在推出后的前 30 天内,配音翻译视频的导出量增加了 15%,并且根据语言不同,时长一致性提高了 13% 到 43%。
“配音是 Descript 中越来越受欢迎的应用场景,因此我们正在为想要翻译和唇同步整个内容库的公司构建批量处理方式,” Descript 首席执行官 Laura Burkhauser 表示。
配音的瓶颈所在
翻译是 Descript 最早的、也是用户需求最多的功能之一。他们从仅支持字幕翻译开始,效果很好——但许多用户希望更进一步,拥有目标语言的口语音频(配音)。
然而,一个问题反复出现:配音音频听起来总是不太对。“我们收到的最主要的抱怨是,翻译语言的语速很不自然,” Descript AI 产品负责人 Aleks Mistratov 说。
问题在于,不同的语言表达相同的意思所需的时间不同。例如,Descript 观察到,平均而言,德语比英语“更长”。为了适应固定的视频片段,翻译后的语音通常不得不被人为地加速或减速。“最终听起来就像是花栗鼠,或者一个昏昏欲睡的巨人,” Mistratov 解释道。
|
English: |
German: |
|
“Please review the safety guidelines before operating the machine.” Syllables: 18 |
“Bitte überprüfen Sie die Sicherheitsrichtlinien, bevor Sie die Maschine bedienen.” Syllables: 24 (40% increase) |
在此案例中,德语音频要么需要不自然地加速,要么需要重写翻译以适应时间限制。
用户面临两种选择:逐个手动调整音频片段的时长,或者重写翻译本身使其符合要求。这两种方法都需要深入的时间轴编辑,并且通常需要目标语言的接近母语的流利度。这对创作者来说非常繁琐,也成为了将该功能扩展到大型企业本地化项目的障碍。
优化翻译时序,而非仅关注意义
团队有一个明确的理论,知道需要什么才能让配音奏效。系统不仅需要优化语义含义,还需要了解时序约束。例如,在从英语翻译成德语时,模型需要理解如何使用更少的词或简化概念,以便配音音频保持自然。
早期的方法是先优化语义保真度,然后再尝试纠正时序。翻译通常在语义上是正确的,但它们经常错过时长限制,整体质量仍然不够好。
“我们进行了增量测试,甚至没有进行实际生成,只是让模型输出一段文本的音节数,” Mistratov 说。“早期的模型在这方面根本不擅长。”
可靠的音节计数被证明是至关重要的。如果模型不能持续计算音节数,它就无法可靠地设定目标时长范围。
GPT-5 系列模型带来了早期模型所缺乏的推理一致性,尤其是在音节计数和约束跟踪等任务上。随着这一改进,Descript 重新设计了其翻译和配音流程。
首先,Descript 的系统将转录文本分解成块,以句子边界、自然停顿和原始录音中的说话模式为指导。每个块都保持语义连贯性,但足够小,可以作为时序单元进行推理。
然后,模型计算块的音节数。利用特定语言的语速假设,系统估算翻译后的块应以多少音节为目标,以保持自然的语速(“时长一致性”)。提示要求模型同时优化时长一致性和含义保留。周围的块作为上下文传入,以便模型在各段之间保持语义连贯性。
团队评估了多种配置,以平衡时长一致性、语义保真度、延迟和成本。选定的设置在生产速度下实现了强大的约束遵循能力,无需手动调整时序即可实现高吞吐量翻译。其结果是,一个将语速视为一等变量而非事后修正的翻译流程。
定义和衡量自然语速
为了制定评估标准,团队进行了听力测试:他们生成了翻译后的音频样本,并以小幅度增量调整播放速度,让用户评估何时语音变得不自然。
“任何减慢 10% 或加速 20% 的语音,通常仍然听起来很自然,” Mistratov 说。超出这个范围,语音就会变得过于失真。
按照这个标准,早期系统的表现很差。根据语言不同,只有 40% 到 60% 的片段在可接受的语速范围内。通过重新设计的流程,这一比例根据语言不同,从 40%–60% 提高到 73% 到 83% 之间。
团队还使用独立的“模型即裁判”评分系统来评估语义保真度,评分范围从 1(“完全不同”)到 5(“语义等同”)。对于配音,他们决定接受比仅字幕翻译(其中时长约束无关紧要)更低的语义阈值。即使有这种权衡,仍有 85.5% 的片段在语义一致性方面获得四分或五分的评分。
其结果是一个能够以可衡量的信心平衡两个相互竞争的约束——时序和含义——的系统。由于这两个指标都实现了自动化,Descript 能够持续评估新模型版本和提示变体,并与相同的基准进行比较。
解锁大规模视频本地化
随着翻译从单个视频转向大型内容库,Descript 正在构建更多控制项来调整翻译,包括在需要时优先考虑更严格的语义保真度的能力。
Descript 内部的翻译只是更广泛的多模态系统中的一个层次。翻译后的文本会输入到语音生成,然后驱动唇同步和最终的视频渲染。
文本层面的改进使得自然的语速成为可能,但整体体验也取决于音频模型在保留语调、节奏和语音的非语言特征方面做得有多好。这正是团队看到下一个前沿的领域。
“很多将改善翻译输出的是使流程更加多模态:在决定如何翻译时,整合音频、视频和文本,” Mistratov 说。“这应该能更好地保持语音的非语言特征,如语调和强调,并保留更多的原始表达。”
对于 Descript 来说,更强大的推理模型使得处理配音的复杂性变得可行。通过跨越模型能够可靠地平衡语速和含义之间的权衡的门槛,翻译成为团队可以系统地改进并大规模部署的功能。
继续阅读
🚀 想要体验更好更全面的AI调用?
欢迎使用青云聚合API,约为官网价格的十分之一,支持300+全球最新模型,以及全球各种生图生视频模型,无需翻墙高速稳定,文档丰富,小白也可以简单操作。
评论区