目 录CONTENT

文章目录

Descript 如何实现大规模多语言视频配音

Administrator
2026-03-20 / 0 评论 / 0 点赞 / 0 阅读 / 0 字

📢 转载信息

原文链接:https://openai.com/index/descript

原文作者:OpenAI


Descript 是一款 AI 原生的视频编辑器,基于一个非常直观的理念:编辑视频,应该像编辑文本一样简单。从创立之初,AI 就贯穿产品的各个环节 — 包括转录、剪辑、音频修复,以及越来越复杂的创意工作流程。多年来,Descript 一直构建在 OpenAI 技术之上:使用 Whisper 完成语音转录,并在协同编辑助手 Underlord 中集成 GPT 系列模型。

翻译很快成为最具价值的应用场景之一。传统的视频翻译流程既缓慢又昂贵,需要语言专家管理项目、完成大量重复性翻译、进行质量审核,并制作对应的配音音轨。LLM 的出现大幅压缩了这一流程,使高质量的视频翻译能够规模化实现。

字幕翻译和配音都要求语义准确 — 译文必须忠实表达原意。但在时长匹配上,两者的重要性不同。对字幕来说,时长匹配只是加分项;而对配音来说,这是决定体验是否自然的关键。如果译后语音过长或过短,即便含义正确,听起来也会显得生硬。

为了解决这一问题,Descript 使用 OpenAI 的推理模型重新设计了翻译流水线,在生成阶段就同时优化语义准确度和时长匹配,而不是事后再进行修正。上线后的前 30 天内,带配音的译制视频导出量增长了 15%;根据不同语言,时长匹配度提升了 13 到 43 个百分点。

“配音正在成为 Descript 越来越受欢迎的使用场景,因此我们正在为企业客户构建批量处理能力,让他们可以对整套内容库进行翻译并实现口型同步。”Descript CEO Laura Burkhauser 表示。

配音体验为何会失真

翻译是 Descript 最早推出、也是需求最高的功能之一。团队最初支持的是字幕翻译,这一功能表现稳定 — 但很多用户希望更进一步:不仅有翻译字幕,还能直接生成目标语言的配音。

然而,一个问题不断出现:配音听起来并不总是自然。Descript AI 产品负责人 Aleks Mistratov 说:“用户最常反馈的问题,很可能就是译后语音的节奏不自然。”

根本原因在于,不同语言表达同一内容所需的时间并不相同。例如团队观察到,平均来看,德语比英语更“冗长”。在固定的视频片段长度内,译后语音往往不得不被人为加速或放慢。Mistratov 表示,“这样的结果听起来要么过快,要么拖沓。”

英文:

德文:

“Please review the safety guidelines before operating the machine.”

音节数:18

“Bitte überprüfen Sie die Sicherheitsrichtlinien, bevor Sie die Maschine bedienen.”

音节数:24 (增加 40%)

在这种情况下,德语配音要么需要被非自然地加速,要么必须重写译文以适配时间限制。

用户最终只能在两种方式之间选择:逐段手动调整音频时间轴,或重写译文本身以适配时长。这两种方式都需要大量精细编辑,并且通常要求接近母语水平的目标语言能力。对创作者来说,这既耗时又低效,也成为该功能难以扩展到大型企业本地化项目的主要障碍。

不只是翻对意思,还要控制时长

团队很清楚,要让配音真正可用,系统必须同时处理语义和时间两个维度。例如在将英语翻译为德语时,模型需要学会用更精简的表达或重新组织句子,从而让配音保持自然的语速。

早期方法通常优先保证语义准确,然后再尝试事后调整时长。虽然译文在含义上大多正确,但经常无法满足时长约束,整体体验仍然达不到要求。

Mistratov 表示,“我们甚至做过一些渐进式测试,并不生成译文,只是让模型计算一段文本的音节数。早期模型在这类任务上表现并不好。”

事实证明,稳定的音节计数能力至关重要。如果模型无法可靠地计算音节数量,就很难把译后语音控制在目标时长范围内。

GPT‑5 系列模型在推理一致性方面取得了显著提升,尤其是在音节计数和约束跟踪等任务上。有了这一能力,Descript 得以重新设计整个翻译与配音流水线。

系统首先根据原始录音中的句子边界、自然停顿和说话节奏,将转录文本切分为多个片段。每个片段既保持语义连贯,又足够短,可以作为独立的时长优化单元。

随后,模型会计算该片段的音节数量,并结合不同语言的语速假设,推算译文应控制在多少音节范围内才能保持自然节奏(即“时长匹配”)。提示词会要求模型在生成时同时优化语义保真和时长匹配,并将相邻片段作为上下文输入,以保证整体语义连贯。

团队对多种配置进行了评估,以平衡时长匹配度、语义准确度、延迟和成本。最终选定的方案能够在生产级速度下稳定遵循约束,实现无需手动重调时间轴的大规模翻译。在这一体系中,语速节奏被当作核心优化指标,而不是事后修补的问题。

如何定义“自然语速”

为了制定评测标准,团队开展了听感测试:他们生成译后音频样本,并以小幅度逐步调整播放速度,让用户判断语音何时开始显得不自然。

Mistratov 表示,“一般来说,放慢 10% 或加快 20% 的语音仍然听起来自然;超过这个范围,失真感就会明显增强。”

在这一指标下,早期系统表现并不理想。根据不同语言,仅有 40% 到 60% 的片段能够落在可接受的语速范围内。采用新的流水线后,这一比例提升至 73% 到 83%。

团队还使用单独的“模型评审”机制对语义准确度进行评分,范围为 1 分(完全不同)到 5 分(语义等同)。对于配音场景,他们接受略低于纯字幕翻译的语义门槛,因为后者不受时长限制。即便如此,仍有 85.5% 的片段在语义保真度上获得了 4 分或 5 分。

最终形成的是一个能够在“时长”和“含义”这两项相互制约的目标之间作出稳定权衡、并具备可量化评估能力的系统。由于所有指标均实现自动化,Descript 可以持续用同一套基准测试新模型版本和不同提示策略。

推动大规模视频本地化

随着翻译需求从单个视频扩展到大型内容库,Descript 正在为译文调优提供更多控制能力,例如在必要时优先保证更严格的语义准确度。

在整体架构中,翻译只是多模态系统的一层。译文会进入语音生成模块,进而驱动口型同步和最终的视频渲染。

文本层的改进让自然语速成为可能,但最终体验同样取决于音频模型是否能够保留语气、节奏以及各种非语言特征。团队认为,这将是下一阶段的重点方向。

Mistratov 表示,“未来提升翻译质量的关键之一,是让整个流程更加多模态:在决定如何翻译时,同时考虑音频、视频和文本。这将有助于更好地保留语音中的语气、重音等非语言特征,并更完整地还原原始表达方式。”

对 Descript 来说,更强的推理模型让配音这一复杂问题变得可控。当模型能够稳定权衡语速与语义之间的取舍时,翻译就成为一项可以被系统性优化、并在大规模场景中部署的核心能力。




🚀 想要体验更好更全面的AI调用?

欢迎使用青云聚合API,约为官网价格的十分之一,支持300+全球最新模型,以及全球各种生图生视频模型,无需翻墙高速稳定,文档丰富,小白也可以简单操作。

0

评论区