一种基于声韵母分割的汉语语音识别方法

时间:2022-10-22 09:42:24

一种基于声韵母分割的汉语语音识别方法

摘 要:汉语语音识别研究中,识别单元的选取是很重要的。该文提出一种基于声韵母分割的,以韵母为基本识别单元的大词汇量孤立词的语音识别方法,并与以汉语词为基本识别单元的语音识别方法进行比较识别实验。结果表明,基于韵母为基本识别单元的语音识别性能优于以汉语词为基本识别单元的语音识别方法。

关键词:识别单元 声韵母分割 大词汇量 汉语词

中图分类号:TN912.34 文献标识码:A 文章编号:1674-098X(2014)06(c)-0249-01

语音识别是近年来十分活跃的一个研究领域。在不远的将来,语音识别技术有可能作为一种重要的人机交互手段,辅助甚至取代传统的键盘、鼠标等输入设备,在个人计算机上进行文字录入和操作控制。按可识别词汇的多少分,语音识别可分为小词汇量语音识别和大词汇量语音识别。两种语音识别系统所采用的处理方法也不完全一样。小词汇量语音识别基本都是以汉语词为基本识别单元,而大词汇量语音识别则多以音素为基本识别单元。该文中,我们主要的研究对象是大词汇量汉语语音识别问题。所以,这里的音素是指汉语的音素,它与英语的音素有比较大的区别。因此,在汉语音素分割处理方面也有不同于通常对英语音素的处理方法。该文介绍了一种基于汉语声韵母分割的,以韵母为识别单元的语音识别方法。

1 汉语语音的声韵母分割

汉语普通话是以字为单位的。从声学角度看,汉语中一个字就对应一个音节。因此,音节是汉语语音识别中最自然的识别单位。目前,汉语语音识别逐渐向大词汇量连续语音识别的方向发展,音节作为识别单元已经慢慢被取代。这是因为当词汇量增大时,不可能要求在进行语音数据训练中每个音节重复出现很多次,以得到可靠的结果,那么如何合理地选取语音识别单元,并建立相应的声学模型,是汉语语音识别的关键。因此,必须选取比音节更小的单元(音素)作为训练和识别的基本语音识别单元。

1.1 汉语音节的结构

按照我国传统音素分类方法,汉语的一个字节可以看成是由声母和韵母拼合而成,即声―韵母结构是汉语音节结构的显著特点。该结构构成使得汉语音节的声学单元组合具有一定的规律性,在这种结构中汉语音节的过渡音体现了音节的一种过渡性质。即在过渡阶段的起始段保留了较多的声母特性而韵母特性较少;在过渡音末段则保留的声母特性较少而包含较多的韵母特性。其中,核心目标值是绝大多数音节的核心部分,具有典型的频谱模式。也即本文提出的基于声韵母分割的以韵母为识别单元的识别方法的理论依据。因此,将音节划分成声韵母音素作为识别单元是符合汉语特点的。

1.2 汉语的波形特征

汉语的每一个字都是一个单音节字。每个单音节又都是由声母和韵母拼音而成。每个韵母又由若干个音节组成有多种声调。因此共组成1200多个有调音节。从汉语的波形特征上看,声母部分的变化很快,周期特性不明显;到了过渡音段,逐渐呈现出周期性,而到了韵母部分,周期特性非常明显,波形显得稳定而有规律;最后能量逐渐减少,但依然保持周期性的特征。因此,任何一个汉语音节(零声母除外),其波形运动周期性呈现无序-基本有规律-有规律。所以只要检测到语音信号波形的变化,才能够很好地进行声韵母的分割了。

2 实验

本实验主要是验证基于声韵母分割的,以韵母为识别单元的方法对于汉语语音识别的识别率和识别速度的有效性,作者进行了特定人及非特定人的语音识别实验,并与以汉语词为基本识别单位的语音识别模型进行比较识别实验。

2.1 实验用语音库

实验采用了两组数字语音库。(1)特定人的汉语数字(0~9)语音识别时,每个数字100次发音(共1000个样本),其中30次发音(共300个样本)用作训练集,另外70次发音(共700个样本)用作测试集;(2)非特定人的汉语数字(0~9)语音识别时,共10人,5男5女,每人每个数字10次发音(共1000个样本),其中每人每个数字3次发音(共300个样本)用作训练集,另外7次发音(共700个样本)用作测试集。

2.2 实验条件

该实验在实验室环境下完成,采用Cool Edit软件录音,数据采样率为16000 Hz,量化精度为16 bits,帧长取32 ms(512点),帧移16 ms,本文将在此环境下得到的语音视为纯净语音。本实验是在基于连续HMM的孤立词语音识别系统上完成。经实验比较,确定HMM的最佳状态数为4,最佳混合度为3(12阶MFCC+12阶MFCC,表示一阶差分)训练模型。

2.3 实验结果

见表1。

3 结语

该文提出了基于声韵母切割的汉语语音识别方法,对该识别单元在特定人和非特定人在汉语语音识别中的应用进行了实验分析,并与传统的汉字词为识别单元的语音识别方法进行了比较。结果表明,本文提出的基于声韵母切割的以韵母为识别单元的识别方法,尽管与传统的基于汉字词为识别单元的识别率差不多,但是,这种基于音素的识别方法能使识别基元大大减少,从而使运算量和贮存量减少,而训练数据量却能相对增多,使得识别速度得到了大大的提高。因此,这种方法应用于大词汇量的汉语语音识别时,优于以汉语词为识别单元的语音识别方法。

参考文献

[1] 何强,何英.MATLAB扩展编程[M].北京:清华大学出版社,2002.

[2] 张静亚.基于CHMM的高性能连续数字语音识别算法[J].常熟理工学院学报,2005(3).

[3] 何新,王晓兰.汉语语音识别中的一种音节分割方法[J].火力与指挥控制,2004(12).

[4] 王宁,万旺根.汉语语音音素分割的一种新方法[J].上海大学学报(自然科学版),2002(4).

上一篇:高中英语课堂教学中创新教育的应用 下一篇:县调信息化光纤网络管理提升