一种低信噪比环境下的语音端点检测方法研究

时间:2022-09-27 09:21:24

一种低信噪比环境下的语音端点检测方法研究

摘 要:传统的端点检测算法常以短时平均能量、短时平均过零率等特征作为判决参数,但是这些方法在实际应用中,特别是强背景噪声环境下,准确率下降。为此,在利用帧间的倒谱系数距离作为判决方法的基础上,提出改进方法。首先用加权功率谱减法降噪,然后直接计算各帧的倒谱系数相对于原点的距离,再根据预设的判决门限进行判决。降低了因对应系数异号而导致计算帧间倒谱系数距离时产生误判的可能。实验表明,该算法能在低信噪比环境下有效地检测出语音信号的起始位置。

关键词:语音端点检测;门限;功率谱减法;LPC倒谱系数

中图分类号:TN912文献标识码:A

文章编号:1004-373X(2009)10-119-03

Research on Voice Endpoint Detection in Low SNR Status

ZHOU Xiaohai1,WANG Min1,MAO Li2

(1.Information & Control Engineering College,Xi′an University of Architecture and Technology,Xi′an,710055,China;

2.Northwestern Polytechnical University,Xi′an,710068,China)

Abstract:Short-time average energy and short-time zero-crossing rate are introduced in traditional voice endpoint detection methods.But in practical environment,these methods are not accurate,especially in this environment where has powerful background noise.Therefore,an improved method based on computing the distance of linear prediction cepstral coefficients between the several frames is proposed.First,using power spectral subtraction to lowen noise,then directly computing the distance of linear prediction cepstral coefficients relative to origin,and judge it according to threshold that decided beforehand.This method can efficiently lowen the probability of false judgement caused by the different sign of corresponding coefficients between the frames.The experiment result shows that the method can detect voice efficiently in low SNR status.

Keywords:speech endpoint detection;threshold;power spectral subtraction;LPC cepstral coefficient

0 引 言

语音端点检测是用信号处理技术确定语音的起点和终点位置,广泛应用于语音识别、低速率语音编码等语音处理领域。正确判定输入语音的起点、终点,对于提高语音识别率或线性预测编码是非常重要的。

端点检测的常用方法是将一段语音分成连续或者交叠的帧,然后提取每一帧的相应特征参数,和预先设定的阀值做比较,从而判定语音的起点和终点。常用的特征参数有短时平均能量、浊音周期、短时平均过零率和短时平均幅值等。

但是使用这些方法对含噪语音进行端点检测时,正确率均有所下降。针对这种情况,提出一种采用功率谱减法和线性预测倒谱系数(LPCCEP)距离判定的联合端点检测方法。实验证明,在低信噪比环境下,这种检测方法相比采用短时平均能量和短时平均过零率为特征的经典方法,具有更好的效果。

1 功率谱减法

功率谱减法[1,2]是一种广泛用于去除语音信号中加性噪声的方法,其前提是假定加性噪声是平稳的,且和语音信号不相关。经傅里叶变换到频域、噪声频谱和语音频谱是相互叠加的,因此可以采用频域相减的方法消除,其理论推导公式如下:

假设语音信号为:

s(n)=v(n)+x(n)(1)

式中:s(n)是含有加性噪声的语音信号;v(n)是语音信号;x(n)表示加性噪声。用S(jω),V(jω),X(jω)表示三者对应的傅里叶变换,对式(1)做傅里叶变换,则s(t)的功率谱可表示为:

|S(jω)|2=\\(2)

因为v(n)和x(n)不相关,所以s(t)的功率谱为:

|S(jω)|2=|V(ω)|2+|X(ω)|2(3)

|V(ω)|=|S(jω)|2-|X(ω)|2(4)

对|V(ω)|做傅里叶反变换就可以求出不含噪声的语音信号v(n)。由于在大多数情况下只能获得含噪语音,式(4)中的|X(ω)|2无法直接计算出来,所以通常的做法是取一段语音的前几帧,计算其平均功率谱E|X(jω)|2近似代替|X(jω)|2。

2 基于LPC倒谱距离判决的端点检测方法

对数谱的均方距离可以表示两个信号谱的区别[3],它可以作为判决参数。倒谱距离测量法是根据每个信号帧与噪声帧的对数谱的谱距离轨迹进行检测的,与短时等量判决方法一样,也是采用门限判决方法进行端点检测的。只是与能量方法相比,门限值是倒谱距离门限,而不是短时能量门限。

根据功率谱估计的参数模型,可以将语音信号看作是一个输入序列u(n)激励一个全极点的滤波器H(z)而产生的输出,滤波器H(z)的传递函数为:

H(z)=1/A(z)=1/(1-∑pi=1aiz-i)(5)

设滤波器的冲击相应为h(n),(n)是h(n)的倒谱,根据同态处理方法,有:

(z)=logH(z)

因为H(z)是最小相位系统,所以(z)可以展开成级数形式:

(z)=∑∞n=1(n)z-n(6)

将式(5)代入式(6),并且两边对z-1求导,得:

氮z-1log1/(1-∑pi=1aiz-i)〗=氮z-1∑∞n=1(n)z-n

令上式的常数项和z-1各次幂的级数分别相等,得(n)各分量:

(1)=a1

(n)=an+∑n-1i=1(1-i/n)ai(n-i),

1

(n)=∑pi=1(1-i/n)ai(n-i),n>p

则第k帧信号的倒谱距离为:

d(k)=∑ni=1(ki-ni)2

ki为第k帧信号中LPC倒谱矢量的第i个分量;ni为噪声帧中LPC倒谱矢量的各分量。

因为噪声的倒谱矢量中部分分量有可能是负数,两个矢量相减,平方累加后的值可能反而增大,造成误判。因此,这里计算的倒谱距离时取ni为零,直接计算各倒谱矢量相对于坐标原点的欧氏距离。计算前10帧信号的平均倒谱距离TH,然后设置判决门限ED。

ED=α•TH,1

式中:α的大小由SNR确定;SNR=-5 dB时,其取值为1.4。

3 实验步骤

(1) 取一段采样速率为22.05 kHz,16位量化的语音信号,预加重;

H(z)=1-μz-1

式中:μ取0.96,分帧加窗,每帧包含220个采样点,窗函数为Hamming窗。

(2) 选取无音片段,计算近似|X(jω)|2值,采用功率谱减法,对从第11帧开始的信号使用功率谱减法进行降噪。先采用256点的FFT变化进行减谱,然后开方做IFFT,得出语音信号。

(3) 按照LPC倒谱距离法进行端点检测,如果检测到当前帧处于有声片段,则计算LPC倒谱距离后,继续取下一帧数据,跳至步骤(2)执行。如果检测到当前处于无声段,则取当前帧的功率谱,与上一次用到的噪声谱做加权平均,实现对噪声谱的更新。一般在计算加权平均的时候,令当前帧数据权重为0.7;原噪声谱数据权重为0.3。前10帧的平均倒谱距离计算完成后,将所有倒谱距离中值滤波输出。

4 仿真结果

图1为SNR=-5 dB时候发音“3”端点的检测结果。实验结果如表1所示。

图1 检测结果

表1 实验结果

SNR /dB起始帧序号结束帧序号

不含噪声139244

5 146 214

0 150211

-5 156207

-10 160197

5 结 语

针对短时平均能量、短时平均过零率等传统检测方法在低信噪比环境下的先天不足,提出先采用加权功率谱减法降噪。然后直接计算LPC倒谱系数相对坐标原点欧式距离判定的检测方法。其相对于计算帧间LPC倒谱系数距离的判决方法,降低了误判的可能性,较好地解决了在低信噪比环境下,短时平均能量、短时平均过零率等传统检测方法的不足。

参考文献

[1]刘晓明,覃胜,刘宗行,等.语音端点检测的仿真研究[J].系统仿真学报,2005,17(8):1 974-1 976.

[2]朴春俊,马静霞,徐鹏.噪音情况下语音端点检测方法的研究[J].计算机工程与应用,2007,43(8):49-50.

[3]于迎霞,史家茂.一种改进的基于倒谱特征的带噪端点检测方法[J].计算机工程,2004,30(19):85-87.

[4]王炳锡.语音编码[M].西安:西安电子科技大学出版社,2002.

[5]韦晓东,胡光锐,任晓林.应用倒谱特征的带噪语音端点检测方法[J].上海交通大学学报,2000,34(1):185-188.

[6]李如玮,鲍长春.一种基于分带谱熵和谱能量的语音端点检测算法[J].北京工业大学学报,2007(9):920-924.

[7]杨行峻,迟惠生.语音信号数字处理[M].北京:电子工业出版社,1995.

[8]任国春,于永强,王卫卫.基于谱减平滑算法的语音窄带干扰抑制技术[J].理工大学学报:自然科学版,2006,

7(2):117-120.

[9]Boll S F.Suppression of Acoustic Noise in Speech Using Spectral Subtraction\.IEEE Trans.on Acoustics Speech and Signal Processing,1979,27(2):113-120.

[10]Wu Bingfei,Wang Kunching.Robust Endpoint Detection Algorithm Based on the Adaptive Band-partitioning Spectral Entropy in Adverse Environments[J].IEEE Trans.on Speech and Audio Processing,2005,13(5):762-775.

[11]Wu G D,Lin C T.Word Boundary Detection with Mel-scale Frequency Bank in Noisy Environment\.IEEE Trans.on Speech and Audio Processing,2000,8(5):541-554.

上一篇:基于中值滤波的指纹增强算法 下一篇:Elman神经网络在三相异步电机故障诊断中的应用