基于VQ的说话人识别系统

时间:2022-10-23 12:09:53

基于VQ的说话人识别系统

摘要:该文介绍了一种基于矢量量化(vq)方法的一个说话人识别算法。基于矢量量化的说话人识别,因其运算过程简单等特点,在说话人识别领域有着广泛的应用。用不同语音参数进行实验,实验表明应用矢量量化的方法用在说话人识别中是一种有效方法。

关键词:说话人识别;VQ;码本;LPCC;MFCC

中图分类号:TP18文献标识码:A文章编号:1009-3044(2008)32-1181-03

Speaker Recognition System Based on VQ

DING Yan-wei, DAI Yu-gang

(Northwest University for Nationalities, Lanzhou 730030, China)

Abstract: This paper introduces a kind of arithmetic of speaker recognition based on VQ algorithm. Because of its features which include simple operation procedure and so on, speaker recognition based on VQ is widely applied to the field of speaker recognition. The experiment of using different phonetic parameter indicates that the VQ algorithm is an effective method in speaker recognition.

Key words: speaker recognition; VQ; code book; LPCC; MFCC

说话人识别(Speaker Recognition),又称声纹识别(Voiceprint Recognition),是由计算机利用语音波形中所包含的反应特定说话人生理和行为特征的语音特征参数来自动识别说话人身份的技术。

1 说话人识别的基本原理

说话人识别的基本原理如图所示,主要包括训练和识别两个阶段。无论是训练还是识别,都需要首先对输入的原始语音信号进行预处理,虑除掉原始信号的不重要的信息以及背景噪声等。然后进行特征提取,提取出反映信号特征的关键特征参数,以降低维数并便于后续处理。在训练阶段,每个用户分别说出若干训练语句,系统经过上述预处理和特征提取后对其进行分析,并据此建立每个用户的模板或模型库,或者对已在库中的该用户的模板或模型作适应性修 正。由于该阶段为系统的每个用户都注册了自己的信息,所以又称之为注册阶段。在识别阶段,由于待识别的用户说出识别语句,系统据此计算出其特征参数,并与在训练过程中建立的参考模板或模型加以比较,并经过一定的相似性准则进行识别判决。

2.语音信号特征参数选取

2.1 线性预测倒谱系数(LPCC)

线性预测倒谱系数(LPCC)是线性预测系数(LPC)在倒谱域中的表示。该特征是基于语音信号为自回归信号的假设,利用线性预测分析获得倒谱系数。典型的藏语语音LPCC参数求解流程如图2所示。

LPC系数可用来估计语音信号的倒谱,这也是语音信号短时倒谱分析中一种特殊的处理方法。在线性预测(LPC)分析中,声道模型系统函数为:

时域构成LPC倒谱特征。

2.2 Mel频标倒谱系数(MFCC)

美尔频标倒谱系数(MFCC)考虑了人耳的听觉特性,将频谱转化为基于MEL频标的非线性频谱,然后转换到频谱域上。由于充分考虑了人的听觉特性,而且没有任何前提假设,MFCC参数具有良好的识别性能和抗噪声能力。MFCC是采用滤波器组的方法计算出来的,这组滤波器在频率的美尔坐标上是等带宽的。

藏语语音MFCC参数计算过程如图3,具体计算步骤如下:

1) 语音信号在经过加窗处理后变为短时信号,用FFT将这些时域信号x(n)转化为频域信号X(m),并由此可以计算它的短时能量谱P(f)。

2) 将P(f)由在频率轴上的频谱转化为在美尔坐标上的P(M),其中M表示美尔频率,由下式可以完成该转换,并且美尔频率考虑了人耳的听觉特性。

3) 在美尔频域内将三角带通滤波器加于美尔坐标得到滤波器组Hm(k),然后计算美尔坐标上的能量谱P(M)经过此滤波器组的输出:

式中,k表示第k个滤波器,K表示滤波器个数。

4) 通过一个具有40个滤波器的滤波器组。前13个滤波器在1000Hz以下是线性划分的,后27个滤波器在1000Hz以上是在美尔坐标上线性划分的。

5) 如果θ(Mk)表示第k个滤波器的输出能量,则美尔频率倒谱Cmel(n)在美尔刻度谱上可以采用修改的离散余弦反变换(IDCT)求得:

式中,p为MFCC参数的阶数。

3 矢量量化

矢量量化(Vector Quantization,VQ)是一种极其重要的信号压缩方法,广泛应用于图像信号压缩、语音信号压缩等领域。在语音信号数字处理的许多重要研究课题中,特别是低速语音编译码器和语音识别的研究中,VQ都起着非常重要的作用。在说话人识别中,VQ也是一种重要的信号压缩和识别方法。而VQ码本设计直接关系到VQ的量化质量。

目前生成码本最基本也是最常用的算法是LBG算法,LBG算法通过训练矢量集和一定的迭代算法来逼近最优的再生码本。下面给出以欧氏距离计算两个矢量畸变的 LGB算法的具体实现步骤:

1) 设定码本和迭代训练参数:设全部输入训练矢量 的集合为S;设置码本的尺寸为J;设置迭代算法的最大迭代次数为L;设置畸变改进阈值为δ。

2) 设定初始化值:设置J个码字的初值Y1(0),Y2(0),…,Yj(0);设置畸变初值D(0)= ∞;设置迭代次数初值m=1

3) 假定根据最近邻准则将S分成了J个子集S1(m),S2(m),…, Sj(m),即当X∈Si(m)时,下式应成立:d(X,Yl(m-1))≤d(X, Yl(m-1)),?坌i,i≠l。

7) 判断δ(m)

8) 判断m

9) 迭代终止;输出Y1(m),Y2(m),…,Yj(m)作为训练成的码本的码字,并且输出总畸变D(m)。

4 应用VQ的说话人识别的步骤

训练过程:1) 从训练语音提取特征矢量,得到特征矢量集;2) 通过LBG算法生成码本;3) 重复训练修正优化码本;4) 存储码本。

识别过程:

1) 从测试语音提取特征矢量序列;

2) 由每个模板依次对特征矢量序列进行矢量量化,按如下的公式计算各自的平均量化误差:

式中,Yli,l=1,2,…,L,i=1,2,…,N是第i个码本中第l个码本矢量,而d(Xn,Yli)是待测矢量Xn和码本矢量Yli之间的距离。

3) 选择平均量化误差最小的码本对所对应的说话人作为系统的识别结果。

5 结论

对于LPCC参数而言,MFCC参数的识别率更高。但是由于求取MFCC参数的时候计算量比较大,所以使用MFCC参数的系统复杂度要大于使用LPCC参数的系统。

参考文献:

[1] 赵力.语音信号处理[M].北京:机械工业出版社.2003.

[2] 易克初,田斌,付强.语音信号处理[M].北京:国防工业出版社,2000.

[3] 赵力,邹采荣,吴镇扬.基于FVQ/HMM的无教师说话人自适应[J].电子学报,2002(07):32-34.

[4] 胡征.矢量量化原理及应用[M].西安:电子科技大学出版社,1998.

[5] Soong F, Rosenberg A, Randiner L, et al. A vector quantization approach to speaker recognition[C].Proc.of the International Conference on Acoustics,Speech,and Signal Processing(ICASSP),1985(1):387-390 .

[6] 罗家辉,李霞,张基宏.一种改进LBG快速算法[J].深圳学报:理学版,2002.1.

[7] 朱策,何振亚,厉力华,等.应用于矢量量化的竞争学习算法研究[J].电子学报,1997,25(2);113-115.

上一篇:RAID服务器的系统分区备份方法 下一篇:Matlab在电路分析教学中的应用