基于DHMM和VQ的关键词识别系统研究

时间:2022-09-12 06:28:17

基于DHMM和VQ的关键词识别系统研究

摘要:针对现有关键词识别系统采用很难用硬件电路准确描述的连续隐马尔可夫模型CHMM作为识别模型,提出用离散隐马尔可夫模型DHMM作为系统的识别模型,研究了适用于硬件实现的状态机端点检测算法,并通过引入VQ矢量量化模块来保证离散关键词识别系统的识别率和识别速度;根据关键词训练模型,分析所采集语音信息中是否存在指定的关键词并进行准确识别。实验结果表明,该算法在便于硬件实现的基础上,具有良好的识别率和实时性,为关键词识别系统的FPGA硬件电路实现研究提供了参考。

关键词:语音处理;关键词识别;DHMM;VQ;FPGA

中图分类号:TN 912.34 文献标识码:A 文章编号:1671―4431(201102―0140―04

关键词识别(Keyword Recognition,KWR)的研究始于20世纪80年代,是在自然语音流中检测并确认出一组由特殊场合决定的特定词;其研究主要是基于动态时间规整DTW、人工神经网络ANN、隐马尔可夫模型HMM或支持向量机SVM等的若干识别方法。进入21世纪,随着信息技术的发展和计算机计算能力的提高,关键词识别在理论研究和实际应用上都得到了空前发展,HTK、Sphinx和RWTH等优秀语音试验平台的搭建、各类语音国际论坛和国际学术会议的举办、Wall Street Journal等优秀语音数据库的建立都为KWR的进一步发展提供了强有力的支持。现有KWR系统的研究热点主要是基于PC机的,不符合片上系统SOC体积小、功耗低和适用面广的要求,许多软件算法很难用硬件电路来实现。鉴于上述情况,笔者在研究KWR基本原理及主流识别算法的基础上,从硬件可实现的角度出发,对现有算法做出相应改进,为KWR系统的FPGA硬件实现奠定了基础。

1 KWR系统总体结构设计

关键词识别主要包含训练和识别两大部分。训练结果是为能够得到表征关键词语音特征的诸多模型参数;识别过程是将输入语音信号与关键词模型进行模式匹配,计算各个模型的输出概率,从而完成识别。针对现有的KWR识别模型的特点,研究设计的基于DHMM和矢量量化(Vector Quantization,VQ)的KWR系统的总体结构如图1所示。

该系统主要在以下几个方面进行了改进:1)解决了关键词多观察值序列的模型参数重估问题;2)设计了易于硬件电路实现的状态机端点检测语音预处理方法;3)引入了DHMM识别模块;4)引入VQ模块,以保证离散KWR系统的识别率和识别速度。

2 KWR系统模块设计与实现

2.1 语音状态机端点检测

基于硬件电路实现的状态机法端点检测,可设置如下5个状态:SO-起始态、S1-静音态、S2静音一语音态、S3-语音态和S4-语音一静音态。根据语音信号短时能量E和短时过零率z分布特性,通过计算能量门限G1和过零率门限G2来实现状态机法各状态之间的转换,状态机如图2所示。

实验证明,状态机端点检测与双门限端点检测相比,识别效果明显改善,而且状态机法更适合FPGA硬件实现。

2.2 MFCC特征参数提取

美尔倒谱系数MFCC特征参数提取是完成模型训练和KWR的必要组成部分,其流程如图3所示。

Mel带通滤波器组的设计是MFCC参数提取的重点,其中心频率是按照Mel频率刻度均划分为;在对应的线性频域中,1000Hz以下,基本呈线性划分,而1000Hz以上,呈对数增长划分。滤波器组的维数M=16~24,为了更好地保留信号频谱特性,选取M=24的Mel滤波器组。

2.3 VQ矢量量化

VQ是根据Shannon的信息理论,抑制量化过程中的信息冗余,利用各分量之间相关性,能实现高效率的熵压缩。为了有效地保持语音信息量,必须首先得到最佳码书,即所有训练样本矢量通过此码书后产生的平均失真误差最小。首先通过端点检测模块提取语料库中的所有有效音节组成音节库,再提取音节库中所有信号的MFCC特征参数,组成MFCC参数库,然后对MFCC参数库进行处理得到初始码书,最后在初始码书和MFCC参数库的基础上运行LBG迭代算法生成最佳码书。VQ矢量量化训练流程如图4所示。

2.4 隐马尔可夫模型HMM

HMM是一个双重随机过程,其一是描述状态转移的基本随机过程,即Markov链,另一随机过程描述状态和观察值之间的统计对应关系。隐含的状态对应于声学层各相对稳定的发音单位,通过状态转移和状态驻留来描述发音的变化,用概率统计函数计算语音参数对HMM模型的输出概率。在识别中通过搜索最佳状态序列,以最大后验概率准则找到识别结果。HMM可以表示为λ=(丌,A,B),其中丌表示初始状态分布概率,A表示状态转移概率矩阵,且可根据观察序列概率分布B的特性,可将HMM模型分为连续型CHMM和离散型DHMM两类;CHMM模型仅能较好的保留信号的时变特性,而DHMM模型计算量较小更适合数字化系统。故选用DHMM模型,观察值概率分布B为N×M维的观察值概率矩阵,其中每一行的概率分布满足归一化条件。

3 基于DHMM和VQ的KWR系统仿真实现及其结果分析

首先实现了基于DHMM的KWR系统,由于识别率较低,为提高识别率、改善模板训练和识别的速度与精度,在实验中引入了VQ模块,即完成了基于DHMM和VQ的KWR系统,并进行试验分析比较。现分别就模板训练和语音识别两部分内容概述如下。

在引入VQ后,仅选取4个关键词模型的重估次数和训练时间统计如表1所示。重估的次数主要取决于两个方面:1)重估过程中设定的重估停止门限,即新旧模型输出训练序列概率的增长率,该门限决定了重估所能达到的模型改善程度,笔者根据识别率和训练时间的综合考虑,对于所有关键词,均选择门限值为0.027,2)所选关键词的特征信息,特征信息较明显的关键词,模型收敛速度较快,重估次数较少,训练时间较短。

由表1可以看出,4个关键词模型的平均重估次数为21,2次,平均训练时间为59.31s,每次模型平均重估时间为2.82s。通过与VQ引入前的实验进行比较,离散KWR系统的模型平均重估次数降低了15.8%;平均重估时间下降了92.2%;各模型训练时间分别减少了95.5%、84.6%、90.39/6和95,3%。

平均重估次数的降低说明,在同等条件下,模型吸收关键词语音特征的速度更快,同时也表明引入VQ模块后关键词特征参数的语音表征能力更强。平均重估时间以及各个模型训练时间的减少说明,引入vQ模块可大大降低系统的DHMM模型训练的计算量和复杂度。

训练语音样本在对应关键词DHMM模型下的输出概率统计曲线如图5所示,其横坐标表示训练语音样本的编号,纵坐标表示训练语音样本在对应关键词DHMM模型下的输出概率,由于输出概率较小,所以取其以10为底的对数值。

根据不同的应用场合,为了降低第一类错误或者第二类错误

发生的概率,选择适合的阈值,从图5中可以看出,4个关键词对应的平均输出概率相差较小,这是因为模型重估的程度比较均衡,为了尽量避免第一类错误发生,阈值选择关键词的最小输出概率。关键词DHMM模型阈值表的实验数据统计分析如表2所示。

研究的4个关键词模型中最小的阈值为-90.03,最大的阈值为-38.684个关键词模型的平均阈值为-53.70。由于VQ模块在保留语音特征的同时大大减少了关键词样本的观察值维数,使得各关键词模型的阈值有了非常明显的增大。

验证系统识别的结果统计如表3所示。所研究的4个关键词模型中最低的识别率为73.3%,最高的识别率为86.7%。系统的整体识别率为80.0%。引入VQ模块后,系统的整体识别率提高了14.2%,达到了实际应用的一般性能要求。

上述分析表明,VQ模块的引入,能够大大提升离散KWR系统的识别率,是离散KWR系统不可或缺的组成部分。

各个关键词测试样本的识别时间统计情况如图6所示。其中横坐标表示测试语音样本的编号,纵坐标表示测试语音样本在对应关键词DHMM模型下的识别时间。

统计分析以上实验数据可得知,4个关键词DHMM模型单个测试样本的平均识别时间分别为0.0014s、0.0028s、0.0024s和0.0025s;系统的整体识别平均时间为0.0023s。可以看出,引入VQ模块后,识别系统4个关键词DHMM模型的平均识别时间分别降低了91.6%、85.5%、83.5%和83.9%,整体识别速度提高了70.8倍。

综合以上分析表明,VQ模块的引入,有效改善了模板训练的速度与精度,大幅度提升了离散KWR系统的识别效果。

4 结语

现有关键词识别系统大多是基于连续隐马尔可夫模型CHMM的,属于连续系统,并不适合用FPGA硬件电路来实现。为了改善这种现状,在研究适用于硬件实现的状态机端点检测算法和关键词多观察值序列的模型参数重估问题的基础上,对适合硬件实现的DHMM算法进行了重点研究;通过引入VQ模块,完成了基于DHMM和VQ的KWR的设计实现,并对识别系统的模板训练和语音识别仿真实验及结果进行了统计分析和比较。理论分析和实验表明,系统在满足易于用硬件电路实现的前提下,保证了很好的模版训练速度、识别速度和识别率,体现了基于DHMM和VQ的关键词识别系统的优越性。

参考文献

[1]赵 力,语音信号处理[M],出版,北京:机械工业出版社,2009.

[2]李星星,基于HMM的汉语语音关键词检测研究与实现[D],武汉:武汉理工大学,2009.

[3]陈玉平,韩纪庆,郑铁然,基于动态排位信息的语音关键词确认方法[J],计算机工程,2008(10):45―49.

[4]李晔,崔慧娟,基于能量和鉴别信息的语音端点检测算法[J],清华大学学报:自然科学版,2006,46(7):1271―1273.

[5]徐大为,吴边,赵建伟,一种噪声环境下的实时语音端点检测算法[J],计算机工程与应用,2003,40(1):115―117.

[6]袁正午,肖旺辉,改进的混合MFCC语音识别算法研究[J],计算机工程与应用,2009(33):32―37.

[7]刘幺和,宋庭新,语音识别与控制应用技术[M],北京:科学出版社,2008.

上一篇:基于压电陶瓷的交通传感器的输出特性研究 下一篇:不同材料的生态混凝土对污水净化效果的比较