基于CHMM模型的语音情感识别的研究

时间:2022-10-06 12:44:49

基于CHMM模型的语音情感识别的研究

【摘要】本文介绍基于CHMM模型的语音情感的识别,对其分析过程和设计思想进行了深入详细的探讨,主要内容包括:情感语音库的建立、语音信号预处理、提取情感特征参数、基于CHMM模型的情感识别。

【关键词】语音信号; 情感识别; CHMM

【中图分类号】G613.2 【文献标识码】B【文章编号】2095-3089(2012)09-0036-01

引言

随着人机交互系统的快速发展,语音情感识别近年来越来越受到人们的重视。包含在语音信号中的情感情息是一种很重要的信息资源,它是人们感知事物的必不可少的部分信息。例如同样的一句话,由于说话人表现的情感不同,在听者的感知上就可能会有较大的差别。所谓“听话听音”就是这个道理。

1情感分类

要研究语音信号的情感,首先需要根据某些特性标准对语音情感做一个有效合理的分类,然后在不同情感类别的基础上提取其特征参数并应用于以后的训练和识别中。为研究方便人们提出了基本情感,即存在着数种泛人类的基本情感类型。在1996年,Dellaert提出以基音频率相关信息为主要特征分类的方法,并考虑了恐惧、愤怒、悲伤和高兴四种情感状态;1999年,Nicholson分析了包含有八种情感状态(恐惧、愤怒、悲伤、高兴、戏弄、沮丧、惊讶和中性)的语音信号。

然而在情感划分上现在还没有一个准确的衡量标准,但一般认为有Plutchik划分的基本情感,或六大基本情感(平静、高兴、惊奇、愤怒、悲伤、恐惧),本文就以高兴、愤怒、惊奇、悲伤和恐惧五大情感为例研究用CHMM进行语音信号的情感识别。

2情感语音资料的获取

情感语音是情感建模、语音情感合成和语音情感识别的基础,只有建立大规模、高真实感的情感语音数据库才有可能从事上述各项研究。

为了获得语音数据,本文原始数据的获得是通过采集善于表演的演员在各种模拟情感状态下的语音数据的方法,即邀请5位情感丰富、善于表扬的男性话者对50个语句用高兴,愤怒,惊奇,悲伤,恐惧及不带任何感情尽可能平静的方式等情感类型各发音l遍,为了减少数据的误差,另邀请录制情感数据以外的若干人收听并主观评价所播放语音的情感类型,对情感特征不明显的数据进行删除,最后选取其中的900句情感数据,600句用作训练语句,300句用作识别语句。如下表是语音听取实验的结果:

表1情感语音的听取实验结果

情感类型高兴惊奇愤怒悲伤恐惧平静错误率高兴12515412316.4%惊奇12130510213.5%愤怒311430124.7%悲伤140142125.4%恐惧1349131212.8%平静112531369.2%3特征提取

要对情感语音进行识别必须要提取出相应的情感特征,这种特征一方面要携带情感的信息,另一方面必须适和要对情感语句进行识别所用的模型结构特点,基于这两个方面的考虑,选取了携带大量情感信息并适合HMM模型结构的基频、能量特征、共振峰和MFCC,有关文献表明能量、基频、共振峰特征携带的情感信息对信道失真、话者、性别甚至语言都有很好的顽健性。我们计算每帧语音如下的特征参数:

能量特征:我们应用每帧能量以及第一、二阶差分来模拟能量的瞬时值。为了减小噪声带来的影响,先将语音通过SMA滤波器,其冲击响应的低通特性可以通过下面的傅立叶变化式表示,其中B代表滤波器的带宽:

基频特征:将语音信号经过中心消波、短时自相关处理、平滑处理我们提取语音信号的基频特征,然后应用归一化的基频以及基频轮廓的第一、第二阶差分来表征语音的瞬时基频特征。

共振峰特征:用LPC法求出第一共振峰的轮廓作为共振峰参数。另外加上MFCC系数

这样我们得到了描述情感语音的六个特征参数:。

其中i代表帧数,F0代表基频,Ei代表能量。

4情感识别

为了提高系统的识别性能,这里应用连续HMM(Continous HMM,简称CHMM)。 要通过应用大量的情感语音进行模型学习和训练来完成。对于任一要识别的情感语音首先通过分帧、参数分析和特征参数提取,可以得到每帧的特征参数序列X1,X2,┉XT(T为观察值的时间长度,即帧数),对于本文提取的是基频和能量的特征参数,把每帧提取的这两种参数组成特征向量,即得到了每帧的八维特征向量:。

对于模板的建立,采用了训练的方式。在训练时,从某个发音人的语音资料中,五种情感状态各随机抽取出二十个句子,依次调入同一情感状态的二十个语句,提取八个情感特征参量:。这样就将每个情感语句转变为一个八维的原始特征矢量X=(x1,x2,…,x8),由于各维元素的单位不统一,所以在训练时,以各特征值的均值作为相应模板的基础参量。

建立了每种情感的HMM模型,就可以进行识别了。我们把一种情感语音的特征分别输入训练好的每种情感模型,然后观察每种模型的输出概率,其中输出概率最大的就是我们要识别的情感类型。

通过以上的识别流程,我们得到了比较理想的识别结果。

表2情感语音的识别结果

情感类别愤怒高兴悲伤惊讶恐惧平静识别率80.9%76.4%79.5%71.8%74.1%77.6%基于HMM的语音的情感识别流程如下图所示。

图1基于CHMM语音情感识别流程图

5结论

本文应用CHMM的进行语音情感识别,由于受种种因素影响,其难度还很大,情感语音识别的识别率还比较低。但实验结果表明,用CHMM实现语音的情感识别是可行的。在此基础上加以改进研究,将有望改善系统的识别率。

参考文献

[1]Picard R W,Toward computers that recognize and respond to user emotion,IBM Technical Journal,2000,38(2):705~719.

[2]王治平等,语音信号中情感特征的分析和识别,第一届中国情感计算与智能交互学术会议(ACII'03),2003年12月:170~177

[3]胡航编著,语音信号处理,哈尔滨:哈尔滨工业大学出版社,2000,18~19

[4]Bjrn Schuller, Gerhard Rigoll, and Manfred Lang. Hidden Markov Model-Based Speech Recognition. Acoustics, Speech, and Signal Processing, 2003.

[5]MTLAB 扩展编程 何强 何英 清华大学出版社 2002.6

[6]语音信号中的情感特征分析和识别的研究 赵力 将春辉等 电子学报 2004.4

上一篇:用爱心点燃智慧,在工作中享受幸福 下一篇:混合式教学在大学数学教学中的应用