车载语音降噪识别系统的设计与实现

时间:2022-09-01 12:44:35

车载语音降噪识别系统的设计与实现

针对新一代特种车辆的车载显控系统对语音控制要求的不断提高,以及现有语音识别系统在车载复杂噪声环境下无法达到既定性能指标的现状,本文提出一种车载语音降噪识别系统设计方案,实现了语音信号的降噪、识别处理,并对设计中所涉及到的关键技术和解决方案进行了详细分析和说明,在此基础上对系统进行了测试和性能分析。结果表明,此方案在车载环境下具有很好的降噪效果。

【关键词】车载 语音降噪 语音识别

1 前言

新一代特种车辆的车载显控系统对复杂噪声环境下的语音控制(语音识别与语音合成)组件提出了新的需求,当前的车载显控系统需要具备语音采集、识别和合成输出的功能,而特种车辆在任务中的复杂噪声的污染会使许多语音处理系统性能急剧恶化。由于特种车辆的车载强噪声环境的特殊性,现有的商用语音识别模块产品均难以满足其环境的使用要求。

本文基于特种车辆对语音控制设计需求,针对特种车辆座舱(以下简称车载座舱)殊的噪声环境,进行车载座舱噪声环境下语音降噪组件设计,实现了语音信号的降噪处理,并采用商用的语音识别模块进行测试验证。测试结果表明,此方案在车载座舱环境下具有很好的降噪效果。

2 系统构成及工作原理

2.1 系统构成

车载座舱语音降噪系统由硬件平台和语音降噪软件两部分组成,具体如下:

2.1.1 硬件组成

基于Freescalei.MX6 Dual SOC平台的语音降噪模块、XFV5310语音识别与合成模块;

2.1.2 软件组成

OS为Linux,内核为3.14.52,嵌入式语音降噪软件。

2.2 工作原理

车载座舱语音降噪识别系统的工作原理为:当驾驶员启动语音控制功能时,i.MX6D语音降噪模块向XFV5310语音识别模块发送语音识别启动命令,音频采集模块开始采集驾驶员说出的带噪语音指令,经由语音降噪模块实时处理后,将降噪后的语音指令传送给语音识别模块,根据识别结果进行相应指令的操作响应,从而执行驾驶员下达的语音指令。图1所示为车载座舱语音降噪系统的工作原理框图。

如图1所示,车载座舱语音降噪识别系统的工作原理如下:

(1)带噪语音源获取有两种方式:

1.由音箱播放特种车辆真实任务过程中的车内环境噪声文件来模拟车载噪声环境,噪声强度通过分贝测试仪的读数控制;通过MIC说出语音指令;

2.读取事先录制的并按照特定信噪比叠加的.wav格式带噪语音指令文件。

(2)通过音频编解码芯片STGL5000将输入的模拟带噪音频进行PCM编码,并将数字带噪音频输出给语音降噪软件;

(3)语音降噪软件对数字带噪音频进行降噪处理,生成数字降噪音频。

(4)降噪音频存储文件和播放输出:

1.数字降噪音频输出给STGL5000进行PCM解码和DA转换,生成模拟降噪音频,通过2.0音箱播放并输入给XFV5310模块进行语音识别;

2.数字降噪音频数据存储为wav格式音频文件。

(5)语音降噪软件的串口通讯:

1.通过RS232调试串口控制车载座舱语音降噪组件的工作状态:开始工作、录音模式(开始录音、停止录音)、读取wav文件模式、停止工作,并实时显示组件的工作状态和语音识别结果;

2.通过RS232通讯串口,根据XFV5310串口通讯协议,控制XFV5310模块的工作状态(初始化、开始识别、停止)并接收回传的状态信息和语音识别结果。

3 系统软件算法设计

车载座舱语音降噪识别软件(以下简称CSE软件)运行在嵌入式Linux操作系统下,用于采集模拟带噪语音信号,对采集的数字带噪音频信号进行降噪处理,并将降噪语音信号发送给语音识别与合成模块进行语音识别,最后处理识别模块返回的识别结果。CSE软件主要完成初始化功能、语音录音功能、WAV文件读取功能、WAV文件存储功能、语音播放功能、语音降噪功能以及RS232串口通讯功能。CSE软件执行流程图如图2所示。

初始化模块主要完成RS232串口初始化、录音配置、语音播放配置及信号量初始化。

录音模块主要完成音频采集。由于规定语音指令长度最大为5S,在录音时判断录音时间是否达到5S或是否收到结束信号,如两者均未发生,则采集一个周期音频样本,并保存至带噪音频数组中,如此循环,直至收到录音结束控制信号或录音时间达到5S。

WAV文件存储模块实现将音频文件以.WAV格式存储。首先存储WAV文件头,主要完成WAV文件文件头数据初始化,并检查文件头每个字节的合法性,最后将检测合格的WAV文件文件头存储在.wav文件中,WAV文件头存储后将音频数据写在WAV文件头数据后。

WAV文件读取模块实现读取WAV文件文件头,对文件头进行解析,并读取WAV文件的音频数据。

音频播放模块主要实现将降噪处理后的音频数据实时地通过声卡播放出来,以做识别处理。由于在ALSA音频驱动中,对音频设备的数据访问以及音频数据的存储都是以周期为单位进行操作,所以在播放时要判断已经降噪处理但未播放的音频数据是否达到周期样本数,如达到则播放音频数据,其次还要判断录音是否已经结束,如果结束,判断是否还有音频数据未播放,如有则播放剩余的音频数据。

语音降噪模块对采集或从文件中读取的带噪语音进行降噪处理。首先采用可移动的有限长度窗口实现对带噪语音分帧加窗,分帧加窗结束后,将每一帧带噪语音分别进行短时快速傅里叶变换,然后实现带噪音频的降噪。实现SMSS降噪算法的基本思想是基于统计模型更新信噪比和当前帧噪声功率谱,根据带噪语音频谱中不同频带的信噪比,确定噪声的谱减因子,然后用带噪语音减去噪声和谱减因子的乘积,得到降噪后的语音。在信噪比更新方面,主要采取由先验信噪比和后验信噪比决定SNR的方法,在噪声谱估计方面基于统计模型的VAD方法。降噪处理后再进行短时快速傅里叶反变换(ISFFT),得到时域的降噪语音信号数据,按帧续进行逆分帧重排后得到降噪后的语音信号,最后进行存储为.WAV格式文件或者直接播放输出。

串口通讯模块主要实现发送识别请求,获取识别请求响应结果以及对识别结果解析。在语音播放之前,需要启动XFV5310开发板的识别功能,由识别启动模块发送语音识别启动命令,开发板收到命令帧后会判断此命令帧正确与否,并回传结果,识别启动模块接收回传数据。发送识别启动命令后,如果识别启动模块在5.5S内未收到XFV5310开发板回传,则默认识别开发板无反应,识别启动模块将退出等待。当语音识别启动后,XFV5310开发板将会在识别处理结束后将相应的识别结果回传给CSE软件。回传的数据以“帧”的方式封装后传输。识别结果解析功能是当语音降噪软件接收到XFV5310开发板的回传的识别结果,根据通讯协议对XFV5310开发板发来的识别结果解码。

4 系统测试验证

4.1 测试环境

车载座舱语音降噪组件的测试验证试验中,各模块间的交联关系如图3所示。

4.2 测试方法及结果

在车载复杂噪声环境下,特定信噪比(-5dB、0dB、5dB)的语音指令,未经降噪前语音质量差,指令模糊,商用XFV5310语音识别与合成模块对指令识别率低于65%。经过本文设计的车载座舱语音降噪软件处理后,系统的测试结果如表1所示。

4.3 测试结果分析

车载座舱语音降噪识别系统功能完整,语音录音、播放、WAV文件读取、存储、语音降噪处理等功能都能符合需方的功能要求;特定信噪比(-5dB、0dB、5dB)下的语音指令识别率能够满足需方规定的指标要求;语音降噪算法、降噪与识别的总耗时稳定,不会随着语音指令的增长而增加耗时,能够满足需方规定的指标要求。

5 结束语

特种车辆工作环境下的带噪语音经车载座舱语音降噪识别系统处理后的语音听感清晰,无明显失真,无明显噪声残留,且运行总耗时较少,能够满足车载环境下语音降噪需求,配合商用的语音识别与合成模块XFV5310组成的系统能够满足特种车辆在恶劣工作环境下的语音控制功能,将该系统与车载显控模块集成,满足需方的功能与性能指标要求,经过实际装车使用测试,证明本文设计的车载座舱语音降噪识别系统功能性、稳定性和可靠性均能满足特种车辆的使用要求。

参考文献

[1]Loizou P,Speech enhancement:theory and practice[M].1st ed.CRC Taylor and Francis,2007:6-7.

[2]宋知用.MATLAB在语音信号分析与合成中的应用[M].北京:北京航空航天大学出版社,2013.

[3]易克初,田斌,付强.语音信号处理[M]. 北京:国防工业出版社,2003.

[4] Israel Cohen and Baruch Berdugo: Speech enhancement for non-stationary noise environments,[J].Signal Process.,vol.81,no.11,pp. 2403-2418,Nov.2001.

[5] Israel Cohen:Noise Estimation by Minima Controlled Recursive Averaging for Robust Speech Enhancement,[J].IEEE Signal processing letters,vol. 9,no.1,January 2002.

[6] Israel Cohen.“Noise Spectrum Estimation in Adverse Environments: Improved Minima Controlled Recursive Averaging”[J].IEEE Transactions on speech and audio processing,vol.11, no.5,Sep,2003.

[7] Israel Cohen:Relaxed statistical model for speech enhancement and a priori SNR estimation [J].IEEE Trans. Speech Audio Process.,vol.13, no.5,pt.2,pp.870-881,Sep,2005.

[8]张雄伟,陈亮,杨吉斌.现代语音处理技术及应用[M].北京:机械工业出版社,2003.

[9]程塔,郭雷,赵天云,贺胜.非平稳噪声环境下的语音增强算法[J].西北工业大学学报,2010,28(5):664-668.

[10]蒋海霞,成立新,陈显治.一种改进的谱相减语音增强方法[J].理工大学学报,2001,2(l):41-44.

[11]孙杨,原猛,冯海泓.一种基于统计模型的改进谱减降噪算法[J].声学技术,2013,32(2):115-118.

作者简介

杨粤涛(1985-),男,广东省潮州市人。工学博士学位,毕业于中国科学院长春光学精密机械与物理研究所。现就职于中航工业雷达与电子设备研究院,主要从事机载、舰载、车载座舱智能显控系统研发、人机工程研究。

作者单位

中航工业雷达与电子设备研究院 江苏省苏州市 215151

上一篇:教育专业舞蹈课程体系的构建 下一篇:翻转课堂在中职计算机专业教学中的应用