噪声环境下的说话人识别研究

时间:2022-05-24 06:16:01

噪声环境下的说话人识别研究

摘 要:论文研究了噪声环境下的基于GMM模型和MFCC参数的说话人识别方法。白噪声环境下,说话人识别的正确率大大降低。论文研究了GMM模型在说话人识别中的应用,并采用MFCC参数作为语音的特征参数进行噪声环境下的识别研究。实验结果表明,在0dB到15dB的噪声环境下,使用GMM模型进行说话人识别时,采用MFCC参数比采用LPCC特征参数能够获得更高的识别率。在10dB的低信噪比环境下,使用MFCC参数的说话人识别,仍然可以获得75.6%的识别率,可以有效进行识别。

关键词:说话人识别 ,GMM,MFCC,噪声环境。

1、引言

说话人识别技术是指通过计算机自动识别测试语音说话人身份的技术。最基本的原理是将经过预处理的语音信号进行特征参数提取,建立说话人模型,再与已有的训练好的模型经行匹配,从而来判断是具体哪个说话人或判断是否是某个被指定的说话人。就特征参数而言,MFCC模拟了人的听觉特性,是符合人听觉特性的语音特征参量,在实际应用中较为广泛。但在噪声环境下,MFCC的识别率大大降低。为此,有必要对噪声环境下,基于MFCC参数的说话人识别进行相应研究。

论文主要研究了MFCC参数在不同信噪比下的说话人识别特性。采用GMM识别模型作为识别分类器。文章第2部分对GMM模型及其在说话人识别系统中的应用作了说明,第3部分对MFCC参数的提取方法进行了详细的阐述。最后通过实验比对MFCC参数和LPCC参数两种特征参数的识别率。

2、说话人识别模型

说话人识别模型的选择和建立是说话人识别中最重要的问题之一,在不同的应用场合选择合适的模型对于提高系统性能非常重要。目前针对各种特征而提出的模式匹配方法的研究越来越深入,其主流方法大致可分为三类:非参数模型方法,参数模型方法和人工神经网络方法。参数模型方法中,高斯混合模型(GMM—Gaussian Mixture Model)是近年来说话人识别采用的最主流的技术。

2.1 高斯混合模型

高斯混合模型是用M个单高斯分布的线性组合来描述特征在特征空间中的分布。一个M阶的混合高斯模型的概率密度函数是由M个单高斯概率密度函数加权和得到的,表示如下:

(1)

其中X是一个D维的随机向量,wi(i=1 , … , M)是混合权重,且满足

bi(X)(i=1 , … , M)是第i维高斯概率分布:

(2)

其中, 是均值向量, 是协方差矩阵。

整个的高斯混合模型便可由参数的均值向量,协方差矩阵和混合权重来描述,则高斯混合模型λ可以表示为如下一个三元组:

(3)

其中,协方差矩阵 可以取普通矩阵,也可以取对角矩阵。由于取对角矩阵计算简单,性能也好,所以下文中带入对角矩阵的形式,即:

(4)

其中, 为GMM第i个分量所对应的特征矢量的第k维分量的方差。

为说话人建立高斯混合模型,是给定一组训练数据,通过训练,依据某种准则确定参数。最常用的参数估计方法是最大似然估计。最大似然估计的目的是在给定训练矢量集的情况下,寻找合适的模型参数λ,使GMM的似然函数最大。

设某说话人的训练特征矢量序列为 ,经计算最佳参数值如下:

(5)

(6)

(7)

其中 称为后验概率,表示为:

(8)

2.2 说话人识别系统

对不同说话人的纯净语音提取特征参数后,用GMM对其训练,从而得到不同说话人特征参数的GMM分布,即训练好的GMM模型。在进行说话人识别时,将待识别的含噪语音经过同样的特征提取,并与训练好的GMM匹配,计算似然函数,从而确认待识别的说话人的身份。图1给出了基于GMM的说话人识别系统的流程图。相比较其他模型而言,高斯混合模型有着其独特的优越性,因为它们的训练速度快,并且随着训练集适当的增加,相应的高斯模型的拟合度也会提高。

图1 基于GMM的说话人识别系统框图

然而,由于训练时使用纯净语音,而本文研究的是噪声环境下的语音,两者之间必然会存在特征参数的不匹配。因此,通常噪声环境会大大降低说话人识别的识别率。

3、美尔频率倒谱系数(MFCC)

语音特征是确定说话人识别系统性能的最主要的因素之一,如何能选取更好地表征说话人的特征参量也是说话人识别系统面临的基本问题,它的合理性和准确性影响到整个说话人识别系统的性能。MFCC模拟了人的听觉特性,是符合人听觉特性的语音特征参量,在实际中应用较为广泛。但是,运用MFCC参数的说话人识别在噪声环境下,鲁棒性较差,系统的识别率也大大降低了。

人的耳朵能从嘈杂的背景噪声中听到语音信号,这是因为人的内耳基础膜对外来信号会产生调谐作用。在声压恒定的情况下,当噪声被限制在某个带宽内,其人耳感觉的主观强度是恒定的。对于不同的频率,在相应的临界带宽内,一个具有复杂包络的信号的响度等价于在这个带宽中心频率位置的响度,而与信号本身的频率无关,因此可以通过带通滤波器组来模仿人耳听觉。与生理特性一致,心理学的研究进一步表明,人类对于声音音调的感受不是线性的。所以人们定义了新的频率单位Mel频率,它与频率的关系可用下式近似表示:

(9)

MFCC特征提取的流程一般如下:

1. 图2是按照公式(9)进行Mel频率划分后得到的滤波器组,每个滤波器在以Mel为单位的频率轴上是等间距的,而在以Hz为单位的频率轴上是不等间距的,图中纵坐标的单位为归一化单位。

图2 采用三角形窗的Mel滤波器组

设o(l)、c(l)、h(l)分别是第l个三角形滤波器的下限、中心、上限频率,则相邻三角形滤波器之间有如下关系:

(10)

2. 对每一帧语音xm(n)进行离散傅里叶变换,将语音信号由时域变换到频域并计算出语音信号幅度谱|Xm(k)|, k为频率,然后求l个三角形滤波器的输出m(l):

(11)

其中每个三角形窗表示为:

(12)

3. 对所有滤波器的输出做对数运算,再进一步做DCT变换,即可得到MFCC参数:

(13)

其中 , N表示MFCC参数的维数, 即第i维MFCC参数。

经过上述步骤,就可以获得MFCC参数。

图3 MFCC特征参数的提取算法流程图

4、实验结果和分析

实验在相同条件下,对各个参数对系统识别率的影响进行比对。

1. 实验条件

实验数据为TIMIT语音库部分数据,共有160个说话人,每个人有十句话。选择其中的前九句话用作训练,后一句话用作识别。噪声来源于NOISEX-92数据库,不同信噪比的噪声的加入会不同程度地影响系统的识别率。

2. 实验参数的设置

语音信号按16kHz进行采样,8bit量化处理,帧长为256点,帧移为128点。此外,两种特征参数分别是:12阶的LPCC,16阶的MFCC。GMM模型的阶数为64阶。

3. 实验结果:

表1两种特征参数对应的说话人识别的识别率(%)

相应的数据图如图4所示:

图4 两种特征参数对应的说话人识别的识别率数据图

由图4可以看出,当语音是纯净语音时,LPCC和MFCC相应的识别率均达到了93%以上。但当有噪声加入时,随着信噪比的降低, MFCC比LPCC参数更有优越性。例如,在SNR=0dB低信噪比环境下,LPCC和MFCC相应的识别率分别为19.4%和21.9%。在噪声环境下,把MFCC作为特征参数的说话人识别系统,其识别率更高。

5、结论

论文主要研究了MFCC参数在不同信噪比下的说话人识别特性。噪声环境下,MFCC参数比LPCC参数更具有噪声鲁棒性。实验结果表明,在不同信噪比的噪声环境下, MFCC相对于LPCC具有较高的识别率。在SNR=10dB信噪比环境下,用MFCC参数作为特征参数的说话人识别系统,识别率达到了75.6%。

MFCC参数,在信噪比大于10dB的情况下,具有较好的性能。然而,由于噪声对语音特征的干扰特别大,当信噪比低于10dB时,系统的识别性能急剧下降。这将在以后研究中,进一步深入探讨。

参考文献

[1] S. Nakagawa, W. Zhang and M. Takahashi. Text-independent Speaker Recognition by Combining Speaker Speci?c GMM with Speaker Adapted Syllable-based HMM[C]. Proc. ICASSP, 2004, Vol. 1, pp: 81-84.

[2] Gang Xu, Bo Tong and XiaoWei He. Robust Endpoint Detection in Mandarin Based on MFCC and Short-time Correlation Coefficient[C]. Second International Conference on Intelligent Computation Technology and Automation, 2009, pp: 336-339.

[3] Rahim Saeidi, Jouni Pohjalainen, Tomi Kinnunen and Paavo Alku. Temporally Weighted Linear Prediction Features for Tackling Additive Noise in Speaker Veri?cation[J]. IEEE Signal Processing Letters, 2010, Vol. 17, No. 6, pp: 599-602.

[4] 单进, 芮贤义. 基于压缩感知的稳健性说话人识别[J]. 语音技术, 2011, 35 (2): 61-63.

[5] Tobias May, Steven van de Par and Armin Kohlrausch. Noise-Robust Speaker Recognition Combining Missing Data Techniques and Universal Background Modeling[J]. IEEE Transactions on Audio, Speech, and Processing, 2012, Vol. 20, No. 1, pp: 108-121.

[6] 张伟伟. 说话人识别技术的研究[M]. 河北: 燕山大学, 2010.

[7] 严凯. 基于高斯混合模型的说话人识别算法研究[D]. 南京: 南京理工大学, 2009.

上一篇:映霜红桃的四大开发优势和大棚延迟栽培 下一篇:褐煤大分子结构特征及其测试技术