计算机语音合成技术研究及发展方向

时间:2022-07-18 07:22:44

计算机语音合成技术研究及发展方向

【摘要】语音合成技术研究是近年来国内外语音合成争相研究的热点,随着计算机科学技术与网络社会的发展,语音信息服务系统得到了广泛的应用,但是语音信息服务系统需要语音合成技术的支持,本文介绍了几种较为常见的语音合成方法,并且分析探讨了语音合成的发展及应用方向。

【关键词】计算机;语音合成技术;发展方向

1、引言

语音合成技术使人们只要通过“听”就可以听懂、了解信息的内容,该技术的应用可以描述为将计算机产生的或者外部其他设备输入的文字信息,按语音处理设定好的的规则转换成语音信号输出,这就会使文本文件内容、手机短信内容、WORD文件内容等文字信息,能通过计算机流畅顺利地读出文字信息。这种将文字转换成语音的高新技术称之为文字语音转换技术,简称TTS (Text to Speech) 技术。

2、语音合成技术方法研究

录音编辑法、波形合成法、参数合成法和规则合成法,这四种研究方法是研究语音合成技术的主要方法,当然还有其他方法,我们这里不做介绍。

1)录音编辑法。此方法是将人的语音通过某种媒介录制下来,再适当地把这些录制下来的语音连接起来,编辑成所需文字,缺点是在计算机内对此却不作任何压缩及其他技术处理,而是直接将其输出,此法需要大容量存储器。

2)波形合成法我们这里介绍两种方法。一种方法是波形编辑合成,目前很多专用的语音合成器基本上是采用这种方法,其原理是选取语音库采取的自然语言的合成单元波形后,对这些波形进行编辑拼接,最后输出,简单的讲是把波形编辑技术用于语音合成。这种方法比较常见,比如我们生活中常见的有自动报时装置、公交车语音报站等。

另一种是波形编码合成,此方法是直接将要合成的语音发音波形进行存储或进行波形编码压缩技术处理,然后进行存储,当合成重放时再译码组合输出语音,这种方法类似于语音编码中的波形编解码方法,。但是此方法在技术上还需进一步升级,这种语音合成器只是语音存储和重放的器件。

3)专家早期的研究主要是采用参数合成法,这种运行方式比较复杂,下面我们主要介绍发音器官参数合成、共振峰合成、LPC合成等几种方法。

发音器官参数合成应计算出语音的声波,如何得到语音的声波,应首先通过定义唇、舌、声带的相关参数,再由这些参数估计声道截面积函数,进而获取语音声波。这种合成方法具有我们希望得到的优点,即它直接模拟人的发音过程,可以产生接近人发声的语音,但是,目前要准确测定出这些参数还缺少行之有效的手段,因为每个人的发音生理过程比较复杂,因此,大家普遍认为发音器官参数合成技术研究还不够成熟,走出实验室研究还需一段时间。共振峰合成把人的声道看作成谐振腔,腔体的谐振特性决定所发出语音信号的频谱特性,它是对声源—声道模型的模拟,我们称之为共振峰特性。我们可以通过修改振峰合成参数获得不同特性的语音。也能以较低的代价产生具有高可懂度的合成语音,但是前提是振峰合成的参数设置合理。后来又产生了基于LPC、lSP等声学参数的合成系统。在众多合成系统中LPC是一线性预测编码法。它采用10~25ms为一帧对语音波形进行采样,各帧的参数是时变的,在一帧内则为一线性时不变系统。在存储器中存入各帧的参数,参数获取方法为在帧中抽取原始语音的音调周期、清音、浊音若干个基于最小二乘的预测系数,在合成时以这些参数综合语音。LPC法系用3~7 位对所获取参数进行编码处理,在数值间可以自动插补运算,因此次方法合成的语音音质柔、动听[1]。

4)规则合成法。20世纪80年代末至今,基音同步叠加(PSOLA)方法问世,大大提高了基于时域波形拼接方法合成的语音的音色和自然度,该基于PSOLA方法的合成器具有结构简单、易于实时实现等优点,此方法的提出标志着语言合成技术研究取得了实质性的进展,引起了科学界的轰动,具有宽广的商用价值。

PSOLA技术的原理特点是,要想使拼接单元的韵律特征符合上下文的要求,同时又能使合成波形保持了原发音的主要音段特征,需要根据上下文的要求,用PSOLA算法调整拼接单元的韵律特征,如基频、音长、音强等,最后再对语音波形片断进行拼接,从而获得具有很高清晰度和自然度的语音。随着人们对语音合成的自然度和音质的要求越来越高,研究一种具有音质好,对时长和声调适应性强,可以灵活调节韵律参数的语音合成方法被人们又一次的提上来研究日程,于是一种基于LMA (对数振幅近似)声道模型的语音合成方法被提出来了,从技术上讲这种新方法克服了PSOLA算法难以处理协同发音的缺陷和韵律参数调整能力较弱的缺点,而且这种新的语音合成方式具有比PSOLA技术更高的合成音质[2]。解决了PSOLA算法难以解决的问题,综上所述,计算机语音合成方式有很多种,科学家们从软件和硬件的各方面对比进行了研究, 发现人们可以按不同的使用情况、不同的使用目的选择适合各自需求的的语音合成方法。

3、语音合成未来研究方向

目前语音合成的发展方向及研究热点主要涉及以下几方向,它们是:

1)不同语音风格的语音技术合成。一种发展方向是合成具有独特特征的语音,比如某个名人的语音。另一个发展方向是使语音合成系统不但能够合成标准的朗读风格,而且能完成特定的风格,这个发展方向将使人机对话更加智能,比如能产生评书、RAP、新闻、幽默、警告、以及普通非正式的说话等语音效果,区分度将更大。所以加强不同说话风格的合成技术的研究显得非常必要和关键。这是未来的研究发展方向之一。

2)情感语音技术合成。对于汉语语音,目前研究出了惊、怒、悲喜四种情感不同的变调规律,变调规律由科学家通过分析情感语句的语调得出。并对不同的情感类型确定与之相应的元音的变异规律、基音频率变化规律、能量变化规律、和无声时延比例变化规则[3]。对于待合成的语音, 要获得较好的语音效果,应先进行文本扫描输入,再通过对相应情感的语调变化规则的迭加,利用PSOLA技术进行情感语音合成,但是实现对人的认知的完全理解, 还需要深入研究。

3)发音器官合成与可视语音。在语音合成系统中,说话者的脸可以显著提高合成语音的可懂度、真实性、和终端用户的可接受性。在声学语音受到周边噪声影响时或者遇到具有听力障碍的人时,可视语音可以提高语音的可懂度。目前在语音合成技术研究领域中,人们普遍认为如何解决语音合成中自然度的问题,无疑是可视语音合成技术的亟需解决的关键问题,研究人员对此充满了信心。

4)文本语音阅读。当我们需要将在屏幕上显示的文字、已打出的文字稿件或者打出的文字需要用语音读出来的时候,此时就要对文本进行阅读,,以释放用眼疲劳,缓解压力。当前,文本语音阅读技术主要应用在文稿校对、计算机辅助教学等工作领域。

综上所述,我们应该加强对语音合成技术的深入研究,并把这种高新技术转化为更加强大的、切实可用的生产力,创造出更大的社会经济效益,推动人机交互方式的革命的到来。如今,尽快开发出一个自然度高、可视化高、可懂度高汉语语音合成系统,已经成为当务之急。

参考文献

[1]王仁华.中文语音交互技术标准化工作进展[J].信息技术标准化,2004(3):4-5.

[2]黄南川,邓振杰等.语音合成技术的研究与发展[J].华北航天工业学院学报,2002,9(12)

[3]柳春,于洪志等.语音合成技术研究[J].现代教育技术,2008(26)

上一篇:SCADA系统在城市污水处理厂的应用 下一篇:关于土地信息系统建立过程中的数据质量问题的...