一种DCT域的语音增强改进算法

时间:2022-10-05 05:00:44

一种DCT域的语音增强改进算法

摘要:提出了一种DCT域的语音增强改进算法。该算法依据DCT域语音分量和噪声分量统计分布的不同,采用最大后验概率估计方法对语音分量进行精确估计,实现将语音信号从噪声环境中分离出来,从而有效地改善语音质量。在低信噪比条件下,该算法可以有效降噪,且增强效果较频域增强算法更好。

关键词:语音增强; DCT; 语音分量; 噪声分量; 最大后验概率估计

中图分类号:TN912.3534文献标识码:A文章编号:1004373X(2011)23005904

An Improvement Algorithm of Speech Enhancement in DCT Domain

GAO Liuyang, SANG Zhenxia, YANG XiaoJie, LI Wenjun

(PLA Unit of 63898, Jiyuan 454650, China)

Abstract: An improvement algorithm of speech enhancement is proposed. Based on different distribution of voice component and noise component in DCT domain, this algorithm used maximum a posteriori probability (MAP) estimation method to estimate the speech component accurately, to separate the voice signal from noise environment, so as to effectively improve the voice quality. In the condition of low SNR, this algorithm is able to restrain noise effectively and perform better than the frequency domain algorithm.

Keywords: speech enhancement; DCT; voice component; noise component; maximum a posteriori probability estimation

收稿日期:20110716

基金项目:国家863计划重点项目(2008AA011001)0引言

语音通信过程中不可避免地会受到环境噪声的影响,过大的环境噪声将严重影响通信质量。因而,进行语音识别处理有必要在前端加入预处理环节,以减小噪声对识别的影响。语音增强技术是降噪的有效途径,其中,基于短时谱估计的频域语音增强算法以其技术成熟,实现简单而得到广泛的应用\[1\]。但频域增强算法忽略相位影响,在低信噪比下将造成一定程度的语音失真\[2\]。而离散余弦变换是一个实变换\[3\],其变换后的语音分量系数仍然为实数,因而它可以被认为只有一个二进制相位值,且该相位只受语音分量符号的影响。离散余弦变换后语音的能量多集中于低频分量上\[4\],其相位很难受到噪声污染,相对于离散傅里叶变换具有更好的语音相位保护能力。因而,DCT域的语音增强算法不存在因相位失真引起的语音失真,但常用的DCT域软阈值算法依然存在不足,如造成高频语音分量损失等\[5\]。基于统计模型的算法克服了这些问题,是DCT域增强算法的一个重要发展方向。现存统计模型的DCT域算法增强效果依然有待提高,其根本原因是简单地依据中心极限定理假定离散余弦变换后语音和噪声同样服从高斯分布\[6\]。事实上对于分帧后的短时信号而言,中心极限定理并不适用,有必要重估语音分量的分布。

针对这个问题,本文首先分析了DCT域的语音分量和噪声分量的分布;然后依据DCT域语音分量和噪声分量各自不同的分布特征,应用一种最优估计算法,即最大后验概率估计(Maximum of a Posterior Density,MAP)算法实现对语音分量的精确估计。

1DCT域的语音分量和噪声分量分布

现存的DCT域统计模型通常简单地依据中心极限定理假定DCT域的语音分量服从高斯分布。然而,中心极限定理适用于大样本数据场合,而分帧后的语音信号数据样本较小\[7\]。于是,本文对大量语音数据进行了统计分析。这些统计分析结果表明,相对于高斯模型而言,DCT 域语音分量更接近于拉普拉斯分布。

一段已经消除静音段的纯净测试语料s(取自国家863标准语料库,降采样率为8 kHz)如图1所示。

对该段纯净测试语料s进行分帧离散余弦变换,取帧长128点,帧间叠接64点,即帧长16 ms,每帧更新8 ms。变换后的DCT域语音S分布如图2所示。其中,横坐标代表归一化的幅度,纵坐标代表相应的概率密度。为便于比较,图2中还给出了相应的高斯分布和拉普拉斯分布两种统计模型的分布曲线,其概率密度函数分别为:fG(x)=12πσSe-x22σ2S(1)

fL(x)=12λSe-|x|λS(2)式中:σ2S=E[S2],λS=E[|S|]分别代表DCT域的语音分量的方差和拉普拉斯模型因子。

图1测试语料图2表明,DCT域中语音分量的概率分布与拉普拉斯模型分布曲线非常接近,这一点与DCT域中语音分量的能量集中性可以相互印证。因而,采用拉普拉斯分布来近似语音分量的分布比用高斯分布更合理。

图2DCT域语音分量的概率分布文献\[8\]指出,一般的随机噪声和量化噪声等均可以作为白噪声来处理。对于平稳的宽带噪声,通常可以认为是高斯白噪声。少数不具有白色频谱的噪声,可以先进行白化处理,通过白化滤波将有色噪声转化为白噪声\[9\]。对于平稳高斯白噪声序列g(n),n=0,1,2,…,N-1,其DCT系数如下式所示:G(k)=uk∑N-1n=0g(n)cosπ(2n+1)k2N,

k=0,1,2,…,N-1(3)式中:uk=1/N,k=0

2/N,1≤k≤N-1 ;G(k)代表高斯白噪声序列g(n),n=0,1,2,…,N-1的DCT变换系数。每个频点G(k)均为N个相互独立的高斯随机变量组合,依然服从高斯分布。因而,整个序列G(k),k=0,1,2,…,N-1依然为高斯序列。

于是,易得结论如下:N点相互独立的平稳高斯白噪声的DCT域分布为N点独立平稳随机过程,其均值为零,方差等于原高斯白噪声序列的方差。

2语音分量估计改进算法设计

2.1语音分量的MAP估计

分帧后包含高斯白噪声gi(n)(0≤n≤N-1)的第i帧带噪语音信号xi(n)(0≤n≤N-1)可以表示为:xi(n)=si(n)+gi(n),0≤n≤N-1。其相应的DCT域表示如下:Xi(k)=Si(k)+Ci(k),0≤k≤N-1(4)依据贝叶斯准则可知,后验概率密度函数如式(5)所示。p(Si(k)|Xi(k))=p(Xi(k)|Si(k))p(Si(k))p(Xi(k))(5)依据语音分量服从拉普拉斯分布,则Si(k)的概率密度函数如式(6)所示:p(Si(k))=12λi(k)exp(-|Si(k)|λi(k))(6)式中λi(k)=E[|Si(k)|]。

先验概率密度函数p(Xi(k)|Si(k))可以表示为:p(Xi(k)|Si(k))=p(Si(k)+Ci(k)|Si(k))

=p(Ci(k)|Si(k))(7)由于Si(k)和Ci(k)独立:p(Ci(k)|Si(k))=p(Ci(k))(8)又由于:p(Ci(k))=12πσi(k)exp-C2i(k)2σ2i(k)(9)可得先验概率密度函数为:

p(Xi(k)|Si(k))=12πσi(k)exp-C2i(k)2σ2i(k)

=12πσi(k)exp-(Xi(k)-Si(k))22σ2i(k)(10)

于是后验概率密度函数为:p(Si(k)|Xi(k))=p(Xi(k)|Si(k))p(Si(k))p(Xi(k))

=\[12πσi(k)exp-(Xi(k)-Si(k))22σ2i(k)•

12λi(k)exp-|Si(k)|λi(k)\]/p(Xi(k))(11)即:p(Si(k)|Xi(k))=A•

exp-(Xi(k)-Si(k))22σ2i(k)-|Si(k)|λi(k)(12)式中系数A=12πσi(k)•12λi(k)p(Xi(k))。由于Xi(k)是观测结果,其概率密度函数p(Xi(k))已知,因而系数A与Si(k)无关。

最大后验概率估计采用均匀代价函数(Uniform Cost Function,UCF)作为估计误差的测度。要使得均匀代价函数最小,必须满足后验概率密度函数的最大化。此时,最大化后验概率密度函数p(Si(k)|Xi(k)),即可得Si(k)的最大后验概率估计i(k)如下式所示:i(k)=argmaxSi(k)(p(Si(k)|Xi(k)))

=arg maxSi(k)(A exp(-(Xi(k)-Si(k))22σ2i(k)-

|Si(k)|λi(k)))(13)式(13)等价于:i(k)=argminSi(k)(Xi(k)-Si(k))22σ2i(k)+|Si(k)|λi(k)(14)于是,取似然函数:L=(Xi(k)-Si(k))22σ2i(k)+|Si(k)|λi(k)(15)令LSi(k)=0可得:(Xi(k)-Si(k))22σ2i(k)+|Si(k)|λi(k)Si(k)=0(16)即:Si(k)-Xi(k)σ2i(k)+1λi(k)sign(Si(k))=0(17)于是可得语音信号的最大后验概率估计为:i(k)=Xi(k)-σ2i(k)λi(k),Xi(k)≥0

Xi(k)+σ2i(k)λi(k),Xi(k)

2.2语音分量MAP估计的算法实现

对于高斯白噪声而言,相邻帧之间,其方差σ2i相对稳定,于是:2i(k)≈σ2i-1(k)=E[C2i-1(k)](19)类似于上述方法,同样可以采用递归估计的方法估计噪声分量及其方差。由于语音分量的一阶矩未知,可以采用一种近似的方法,如式(20)所示:i(k)=αi-1(k)+(1-α)max{X2i(k)-σ2i-1(k),0}(20)综上分析,DCT域的MAP估计实现流程大致可以分为以下几个步骤:

(1) 设定首帧不含语音分量,x1作为纯噪声,对其进行离散余弦变换,得到首帧噪声方差σ21=|X1|2;语音分量一阶距λ1=0。

(2) 对下一帧带噪语音信号xi进行离散余弦变换,得DCT域系数Xi。

(3) 运用第i-1帧的估计噪声估计高斯白噪声幅度谱方差,如式(20)所示,2i≈E[2i-1]。其中E[2i-1]通过谱估计方法得到;。

(4) 设定α=0.95,由于i-1,Xi和σ2i-1已知,运用式(21)实现对λi进行递归估计。

(5) 综合式(18)~式(20),运用最大后验概率估计得到DCT域语音分量Si的估计i,相应地可以得到噪声分量的估计。

(6) 对i进行逆DCT变换得到时域估计语音信号,判断是否全部帧处理完毕。

(7) 若未处理完毕,继续处理下一帧,回到步骤(2),若处理完毕,进行帧重组,恢复完整的时域语音信号。

3仿真实验与性能分析

仿真实验语料取自国家863标准语料库,采样率为16 kHz。为便于处理,在不影响语音基本特征前提下,降采样率至8 kHz。对多组语音信号进行实验,不失一般性,对其中一组语音进行分析。高斯白噪声信号取自标准噪声库 NOISEX92B,采样率为8 kHz/s。仿真中选取语音帧长度为N=128,帧间叠接64点。在时域相当于帧长为16 ms,在此期间语音信号可以认为是平稳的,每次迭代信号中有8 ms的数据更新。

分别将不同强度的高斯白噪声信号叠加到纯净语音信号上进行实验,产生不同信噪比的带噪语音信号进行实验。SNR=5 dB和0 dB时的一段带噪语音信号增强的时域信号分别如图3和图4所示\[10\]。

图3和图4表明,在低信噪比情况下,本文算法降噪效果优于频域算法。进一步地,依据客观评价标准,对不同输入信噪比下的带噪语音信号增强前后的整体信噪比和分段信噪比变化分别进行量化分析,如图5和图6所示。其中,图6中的输入分段信噪比与图5中的输入整体信噪比相对应。

图5和图6表明,输入信噪比在[0,10] dB之间时,本文算法对整体信噪比的改善比频域算法提高了约1.5~1.6 dB,对分段信噪比的改善比频域算法提高了2.2 dB左右,对分段信噪比的提高程度高于对整体信噪比的提高程度。

图35 dB时的实验结果图40 dB时的实验结果图5整体信噪比比较图6分段信噪比比较这是因为该算法分别针对DCT域语音分量和噪声分量的不同分布特点,运用最优估计算法在低信噪比条件下有效地对语音分量进行估计,从而保证了在准确地估计出语音的同时使得失真保持在相对较低的范围之内,且本文算法具有良好的相位保护功能。

4结语

本文首先研究了DCT域的语音信号和高斯白噪声信号的分布。基于短时语音和短时噪声的不同分布,采用一种最优估计算法即最大后延概率估计算法对带噪语音信号中的语音分量进行估计,实现了对低信噪比下的语音信号的精确估计。理论分析和仿真实验表明,该算法能够较为精确地估计带噪语音信号中包含的语音分量,降噪性能优于传统算法,且语音失真很小。本文算法为语音降噪处理提供了一种新的途径,提高了处理的有效性和可靠性。

参考文献

[1]BOLL S F. Suppression of acoustic noise in speech using spectral subtraction \[J\]. IEEE Trans. on Acoust Speech Signal Process., 1979, 27(2): 113120.

[2]EPHRAIM MALAH D. Speech enhancement using a minimum meansquare error shortrime spectral amplitude estimator \[J\]. IEEE Trans. on Acoust Speech Signal Process., 1984, 32(6): 11091121.

[3]AHMED N, NATARAJAN T, RAO K R. Discrete cosine transform \[J\]. IEEE Transactions on Computers, 1974, C23: 9093.

[4]李雪耀,谢华,张汝波.基于离散余弦变换的语音增强[J].哈尔滨工程大学学报,2007,28(2):198202.

[5]欧世峰,赵晓晖,顾海军.基于DCT与维纳滤波的单通道语音增强算法[J].通信学报,2006,27(10):8693.

[6]盛骤,谢式千,潘承毅.概率论与数理统计[M].3版.北京:高等教育出版社,2001.

[7]胡航.语音信号处理[M].哈尔滨:哈尔滨工业大学出版社,2000.

[8]朱华,黄辉宁,李永庆,等.随机信号分析[M].北京:北京理工大学出版社,1990.

[9]黄惠明,王瑛,赵思伟,等.语音系统客观音质评价研究[J].电子学报,2000,28(4):112114.

[10]王炳锡,屈丹,彭煊,等.实用语音识别基础[M].北京:国防工业出版社,2005.

[11]柏均,郑泽国.基于RGB空间的DCT域彩色图像水印算法\[J\].现代电子技术,2010,33(4):2628.

作者简介: 高留洋男,1984年出生,河南南阳人,硕士,工程师。主要研究方向为信号处理、电子对抗。

上一篇:现代通信技术课程教学改革与实践 下一篇:YUV分离的两种FPGA实现