【独家内容】语音识别:字幕的存在是担心我们听不懂人话?

今天,人们也许习惯了电影、电视剧中的底下都带有字幕的观感,应该没有太多人记得,很多年以前,国内的一些电视剧,是不带字幕的。除了对字幕工作关注的人,并不是所有看电视的人都了解字幕存在的意义,曾经一位听力非常好的朋友就在我的面前笑谈这样的疑惑,“为什么给电视剧加字幕呢?难道是怕我们听不懂人话?”

[语音识别:字幕的存在是担心我们听不懂人话?]

为什么要有字幕的存在?

你可能觉得好笑,但字幕的添加还真是担心我们“听不懂/清”人话。

为什么要有字幕的存在?最直观的解释:为了避免观看者没有听清配音。不是所有的电视/电影的配音都音量合适、语速适中,如果一部电视剧没有字幕,一旦出现配音声量太小、语速太快,或者是剧情里的背景环境声盖过主角说话声的情况,观看者就有可能在观看剧情的过程中出现没有听清配音的问题,观看的兴趣会下降很多。

然而,就算所有的电视剧、电影的配音都非常清晰了,你真的确定自己能听懂所有的配音口音?

全中国有23个省,每个省有着自己独特的口音,而每个省下面最少也有20多个城市,每个城市又拥有常人难懂的方言,就算是语音专家,也不能保证第一时间能听懂。现在每个省都会投资拍摄一些地方电视剧,有可能整部剧的配音都是本地方言,没有字幕,观看者根本无从理解。

另一个“听不懂”的就是同音问题。比如山西和陕西,毒瘾和赌瘾,明明是两个不同的地方和概念,读音却一样,虽然音调有别,但在语速过快、不清晰的情况下,若没有字幕,根本无法分别,很容易造成观看者的理解混淆。

字幕添加的过去&现在&未来

上面的分析,虽然比较笼统,也能大概的解释“为什么要给电视剧加字幕”了。现在,字幕添加又在必须性的基础上,融入了娱乐性,例如《爸爸去哪儿》、《跑男》等综艺节目,通过有趣的字幕添加,让观众在观看过程中更感到融入、轻松。但值得关注的是,很多人往往只是看到字幕呈现出来的轻松有趣,却从不曾了解字幕添加背后的辛苦。

说到字幕添加的辛苦,做过影视后期工作的人应该感触最深。过去,一部影视剧的字幕添加工作大部分都是依靠手动操作,被戏称为“手拍字幕”。这种“手拍字幕”的过程是这样的:在音频剪辑完成后,由几个人组成字幕小组,将剧集分工,一边听音频一边敲击键盘,将听到的声音在电脑上做成文档并进行分行,导入到字幕生成器生成字幕条,再导入视频编辑软件(如Pr)中,手动的将字幕条对齐到响应的声音位置,反复的人工调试,必须与剧情中的声音高度契合才行。耗时长、损脑力,非常考验编辑人员的专注度。

到了现在,人们的观影需求使得电视剧和电影制作的数量与质量都骤然上升,大量智能字幕编辑软件群起云涌。相比国外已经成熟的技术,国内的字幕软件虽多如羊毛,真正做到自动对齐的不多,更不要提“解放双手”了。听说即将要上线的一款叫做“字幕大师”的软件做得还不错,相比较早期还要手动对齐字幕条的Pr等软件,这款软件支持断点续传、支持批量上传、自动对齐更快,在文本和视频的合成过程中,免去人工干预拼接时间轴的工作,不仅能自动添加时间轴,对齐速度也快,这样让字幕文本和时间轴可以更精准的适配视频会话,从而更人性化的解放人力成本,为影视字幕组提供了一键生成字幕的可参考选择。

此外,借助语音识别技术和影视制作智能化的发展和普及,国外的YouTube已经能够识别语音并生成字幕且自带翻译功能,虽然技术还未成熟,识别率仍不高,但这样的尝试和实践,确实值得国内影音制作公司学习,我们期望未来能够出现一种产品能够更完美识别音频从而自动生成字幕文本,真正的实现字幕输出无人化、人性化。