鉴别性最大后验概率声学模型自适应

时间:2022-07-26 06:42:47

鉴别性最大后验概率声学模型自适应

摘要:为了更加准确地估计最小音素错误最大后验概率(MPE-MAP)自适应算法中的先验分布中心,使自适应后的声学模型参数更为准确,从而提高系统的识别性能,分别采用最大互信息最大后验概率(MMI-MAP)自适应和基于最大互信息准则与最大似然准则相结合的H-criterion最大后验概率(H-MAP)自适应估计先验分布中心,提出了基于最大互信息最大后验概率先验的最小音素错误最大后验概率(MPE-MMI-MAP)和基于H-criterion最大后验概率先验的最小音素错误最大后验概率(MPE-H-MAP)算法。任务自适应实验结果表明,MPE-MMI-MAP和MPE-H-MAP算法的自适应性能均优于MPE-MAP、MMI-MAP和最大后验概率(MAP)自适应方法,分别比MPE-MAP相对提高3.4%和2.7%。

关键词: 最大后验概率; 鉴别性最大后验概率; 最大互信息; 最小音素错误; 声学模型自适应

中图分类号: TN912.3 文献标志码: A

0引言

训练环境与识别环境的不匹配是自动语音识别系统性能下降的主要原因之一 于模型层的自适应算法利用有限的自适应数据对模型参数进行调整,逐渐将模型参数变换到实际环境,从而来提高识别系统的性能。

基于模型层的自适应方法通常分为三大类[1]:基于最大后验概率(MaximumAPosteriori,MAP)的方法、基于变换的方法和基于说话人聚类的方法 于MAP的方法认为模型参数是符合某种先验分布的随机变量,将先验知识和从自适应数据中得到的知识结合起来估计模型参数,避免了自适应数据估计的错误。该方法有很好的渐进性,当自适应数据不断增加时,自适应效果将稳步提高。MAP算法是基于贝叶斯决策理论的,随着鉴别性准则在声学模型训练上表现出的优异性能,出现了将鉴别性准则与贝叶斯决策理论相结合的鉴别性最大后验概率自适应方法,例如最大互信息最大后验概率(MaximumMutualInformationbasedMAP,MMI-MAP)[2-3]、最小音素错误最大后验概率(MinimumPhoneErrorbasedMAP,MPE-MAP)[4-5] 于变换的方法假设声学模型参数在自适应前后存在某种函数映射关系,利用自适应数据估计出这一映射关系,来对模型参数做出有效调整,降低模型与自适应数据间的不匹配程度。比较常用的函数映射是线性变换。最大似然线性回归(MaximumLikelihoodLinearRegression,MLLR)是基于线性变换的自适应方法中的典型代表,其采用最大似然准则估计线性变换的参数。在MLLR的基础上,出现了采用最大后验概率准则和鉴别性准则估计线性变换的最大后验概率线性回归(MaximumAPosterioriLinearRegression,MAPLR)[6-7]和鉴别性线性回归,如最小音素错误线性回归(MinimumPhoneErrorLinearRegression,MPELR)[8-9]、最小词分类错误线性回归(MinimumWordClassificationError,MWCELR)[10]、软分类边缘估计线性回归(SoftMarginEstimationLinearRegression,SMELR)[11],以及将最大后验概率和鉴别性相结合的鉴别性最大后验概率线性回归(DiscriminativeMaximumAPosterioriLinearRegression,DMAPLR)[12]。与MAP相比,基于线性变换的自适应方法的渐进性较差 于说话人聚类的方法利用多个说话人相关(SpeakerDependent,SD)模型的线性组合来得到说话人自适应(SpeakerAdaptation,SA)模型,该类方法需要估计的参数最少,适合于自适应数据极少的情况 于本征音(EigenVoice,EV)[13]的自适应方法、基于变换矩阵线性插值[14]的自适应方法和基于参考说话人加权(ReferenceSpeakerWeighting,RSW)[15-16]的自适应方法是比较成功的例子。

针对以隐马尔可夫模型作为建模基础的声学模型,本文研究在较多自适应数据下的自适应方法。此方法是将先验分布和对自适应数据采用最小音素错误准则估计的统计量相结合,来得到新的模型参数;与MPEMAP方法不同的是,先验分布中的超参数不是用MAP方法得到的,而是采用鉴别性自适应方法得到。根据超参数的估计方法,分别提出了基于最大互信息最大后验概率先验的最小音素错误最大后验概率(MMIMAPpriorbasedMPE-MAP,MPE-MMI-MAP)和基于H-criterion最大后验概率先验的最小音素错误最大后验概率(H-MAPpriorbasedMPE-MAP,MPE-H-MAP)方法。在连续语音识别的任务自适应实验中,两种方法的识别性能都优于MPE-MAP、MMI-MAP和MAP方法。

4结语

本文对MPEMAP自适应中的先验分布中心的估计进行了研究,提出了MPE-MMI-MAP和MPE-H-MAP算法,分别采用MMI-MAP和基于H-criterion准则的H-MAP估计MPE-MAP中的先验分布。构建了大词汇量连续语音识别系统进行声学模型自适应实验,识别结果表明,在不同数量的自适应数据的情况下,MPE-MMI-MAP与MPE-H-MAP均能提高系统的识别性能,两种估计先验分布参数的方法性能相差不大。

参考文献:

[1]SHINODAK.Speakeradaptationtechniquesforautomaticspeechrecognition[EB/OL].[20121010].http:///proceedings_2011/pdf/APSIPA305.pdf.

[2]POVEYD,WOODLANDPC.DiscriminativeMAPforacousticmodeladaptation[C]//Proceedingsofthe2003IEEEInternationalConferenceonAcoustics,SpeechandSignalProcessing.Washington,DC:IEEEPress,2003:312-315.

[3]JIANGDN,KANEVSKYD,GOELV,etal.Investigatingperformanceofthediscriminativemethodsforlongtermspeakeradaptation[C]//Proceedingsofthe13thAnnualConferenceoftheInternationalSpeechCommunicationAssociation.Lakeville:CurranAssociatesInc,2012:1766-1769.

[4]POVEYD,GALESMJF,KIMDY,etal.MMIMAPandMPEMAPforacousticmodeladaptation[C]//Proceedingsofthe8thEuropeanConferenceonSpeechCommunicationandTechnology.Bonn:InternationalSpeechCommunicationAssociation,2003:1981-1984.

[5]MACHLICAL,ZAJICZ,MULLERL.DiscriminativeadaptationbasedonfastcombinationofDMAPandDfMLLR[C]//Proceedingsofthe11thAnnualConferenceoftheInternationalSpeechCommunicationAssociation.Bonn:InternationalSpeechCommunicationAssociation,2010:534-537.

[6]HUTY,TSAOY,LEELS.Discriminativefuzzyclusteringmaximumaposteriorilinearregressionforspeakeradaptation[C]//Proceedingsofthe13thAnnualConferenceoftheInternationalSpeechCommunicationAssociation.Lakeville:CurranAssociatesInc,2012.

[7]TSAOY,ISOTANIR,KAWAIH,etal.AnenvironmentstructuringframeworktofacilitatingsuitablepriordensityestimationforMAPLRonrobustspeechrecognition[C]//ISCSLP2010:Proceedingsofthe7thInternationalSymposiumonChineseSpokenLanguageProcessing.Piscataway,NJ:IEEEPress,2010:29-32.

[8]WANGL,WOODLANDPC.MPEbaseddiscriminativelineartransformsforspeakeradaptation[J].ComputerSpeechandLanguage,2008,22(3):256-272.

[9]PIRHOSSEINLOOS,JAVADIS.AcombinationofmaximumlikelihoodBayesianframeworkanddiscriminativelineartransformsforspeakeradaptation[J].InternationalJournalofInformationandElectronicsEngineering,2012,2(4):552-555.

[10]ZHUB,YANZJ,HUY,etal.InvestigationonadaptationusingdifferentdiscriminativetrainingcriteriabasedlinearregressionandMAP[C]//ISCSLP2008:Proceedingsofthe6thInternationalSymposiumonChineseSpokenLanguageProcessing.Piscataway,NJ:IEEEPress,2008:93-96.

[11]MATSUDAS,TSAOY,LIJ,etal.Astudyonsoftmarginestimationoflinearregressionparametersforspeakeradaptation[C]//Proceedingsofthe10thAnnualConferenceoftheInternationalSpeechCommunicationAssociation.Lakeville:CurranAssociatesInc,2010:1603-1606.

[12]TSAOY,ISOTANIY,KAWAIH,etal.IncreasingdiscriminativecapabilityonMAPbasedmappingfunctionestimationforacousticmodeladaptation[C]//ProceedingsofInternationalConferenceonAcoustics,SpeechandSignalProcessing.Piscataway,NJ:IEEEPress,2011:5320-5323.

[13]ZHANGWL,NIUT,ZHANGLH,etal.Rapidspeakeradaptationbasedonmaximumlikelihoodvariablesubspace[J].JournalofElectronics&InformationTechnology,2012,34(3):571-575.

[14]XUXH,ZHUJ.Speakeradaptationwithtransformationmatrixlinearinterpolation[J].WuhanUniversityJournalofNaturalSciences,2004,9(6):927-930.

[15]TENGWX,GRAVIERG,BIMBOTF,etal.Rapidspeakeradaptationbyreferencemodelinterpolation[C]//Proceedingsofthe8thAnnualConferenceoftheInternationalSpeechCommunicationAssociation.Lakeville:CurranAssociatesInc,2008:258-261.

[16]TENGWX,GRAVIERG,BIMBOTF,etal.Speakeradaptationbyvariablereferencemodelsubspaceandapplicationtolargevocabularyspeechrecognition[C]//ProceedingsofInternationalConferenceonAcoustics,SpeechandSignalProcessing.Piscataway,NJ:IEEEPress,2009:4381-4384.

[17]XUR.Discriminativetrainingofacousticmodelsanditsapplicationinautomaticspeechrecognition[D].Beijing:ChineseAcademyofSciences,InstituteofAcoustics,2009.

[18]WOODLANDPC,POVEYD.Largescalediscriminativetrainingforspeechrecognition[C]//ProceedingsofInternationalWorkshoponAutomaticSpeechRecognition.Piscataway,NJ:IEEEPress,2000:7-16.

[19]ZHANGQQ.MandarinEnglishbilingualacousticmodelingforautomaticspeechrecognition[D].Beijing:ChineseAcademyofScience,InstituteofAcoustics,2010.

上一篇:基于辅助模型和数据滤波的伪线性回归系统参数... 下一篇:松山英树 玉树临风