一种短波语音激活检测算法

时间:2022-10-17 01:03:19

一种短波语音激活检测算法

引言:提出一种基于数字信号处理技术,依据语音信号的频谱特点及自相关特性进行语音激活检测的算法,解决短波复杂背景噪声中语音信号的快速、准确检测问题。该算法适用于多种环境,尤其是背景噪声复杂、实时性要求较高的应用场合,算法简单可靠,具有较好的实时性,适于各种处理平台。

一、语音激活检测技术概述

语音激活检测(VAD,Voice Activity Detection)又称端点检测EPD(End-Point Detection),VAD的目的是能够正确区分语音与各种背景噪声,在语音信号处理、通信等领域有着十分重要的价值和意义。在语音识别中,通常是先根据一定的端点检测算法,对语音信号中的有声片段和无声片段进行分割,而后针对有声片段,依据语音的某些特征进行识别。在典型的电话、多媒体通信中,无语音段压缩后,可以利用话音信道进行数据传输,提高信道利用率。在小型便携式设备中,受功耗所限,VAD能够在无话音段降低功耗,延长设备使用时间。

各种语音激活检测VAD技术的根本出发点在于寻找能够有效区分语音段与无话音噪声背景的统计判断量,即语音信号的特征量,该特征量能够突出语音与噪声的差别,以便作出最终判定,所有VAD检测技术最终都归结为门限设置与特征量比较判断。目前主要使用的传统统计特征量包括:短时能量、短时过零率、短时自相关函数、信息熵、倒谱及MEL系数等方法,不同VAD算法大多基于几种基本统计特征量的不同组合。

一般来说,单一统计判断量的检测效果并不理想,往往仅适合某些特殊场合,比如,短时能量法可以用来检测浊音,但不能有效区分清音与静音,要有效区分清音与静音段,可以辅助于过零率法。尽管如此,上述方法对背景噪声要求较高(即高信噪比条件),因而适用场合受到较大限制。由于不同环境下的背景噪声变化较大,且话音随着说话人的性别、年龄、语种、声调、声强、语速等变化,因此,基于多统计量、多判决门限的联合判决准则成为VAD检测的研究方向。

二、短波语音激活检测

由于短波背景噪声复杂、信道干扰大,常规VAD算法的适用性受到较大限制。为了能够快速、准确进行VAD检测,本文介绍一种短波复杂背景噪声中的有效语音激活检测VAD方法,其依据原理如下:

从短波信道上获取的噪声和语音,在300-3000HZ范围对信号做FFT变换,统计500HZ-1500HZ和1500HZ-2500HZ两个频段范围的频谱能量比,一般噪声环境下,频率能量相当,在语音环境下,低频段范围的能量比高频段范围的能量大,通过设置检测的门限,可以进行初步的激活检测。在随机干扰条件下特别是低频干扰较大的情况下,这种激活检测不可靠,考虑噪声具有随机性,其自相关值的平均值较小,且自相关值的方差也较小。相反,语音信号的自相关值平均较大,且自相关值的方差也较大,并且语音的不同信号帧之间的自相关的方差变化也较大。如果背景噪声中存在某些干扰(如脉冲干扰),利用相关技术消除相应干扰的影响。因此新的算法分成两个部分:1)检测低频和高频的能量比;2)消除干扰,采用短时自相关技术,区分噪声和语音。其特点如下:

1) 算法采用了剔除干扰的方式,提高了检测的抗干扰特性;

2) 采用短时自相关技术,可靠区分话音与背景噪声;

3) 采用多个统计量和多个判断门限,有效减少VAD的虚检和漏检概率;

4) 算法简单可靠,具有较好的实时性;

三、算法特点及仿真

算法采用非线性Teager能量算子(TEO),能够有效提取语音信号的能量,图1表示不同信噪比下,有无TEO过程的坦克背景噪声中的语音特征统计量的变化情况,从图上可以清晰看出TEO的作用,在信道条件较好,SNR=10dB情况下,没有采用TEO,其输出的值波动较大,严重影响话音的检测。在采用TEO后,即使在较低信噪比条件下,其输出结果平稳,话音检测可靠。

图1 不同信噪比下,有无TEO过程的坦克噪声中语音的连续特征统计量

四.算法的资源及可实现性

算法每帧数据( )的计算复杂度估计(以乘法和加法为主)如下:

乘法 加法

1、TEO部分

2、预加重部分

3、带通滤波部分 滤波器阶数

4、加窗部分

5、自相关部分

6、方差部分

7、开方运算 2

总计

15092 15402

对于带有专用乘法器的处理器来说,假设一次乘法占用8个机器周期,则一帧乘法运算占用约128000个周期,一次加法占用2个机器周期,则一帧加法运算占用约31000个周期,因此一帧数据占用160000周期。假设一帧数据必须在10ms时间内处理完毕,则机器运算频率最少为:160000/0.01=16MHz,处理器一般都能满足。

上一篇:浅议股份支付的会计系统处理 下一篇:想说、敢说、乐说、会说