语音识别系统范文

时间:2023-11-05 19:02:57

语音识别系统

语音识别系统篇1

【关键词】车载 语音降噪 语音识别

1 前言

新一代特种车辆的车载显控系统对复杂噪声环境下的语音控制(语音识别与语音合成)组件提出了新的需求,当前的车载显控系统需要具备语音采集、识别和合成输出的功能,而特种车辆在任务中的复杂噪声的污染会使许多语音处理系统性能急剧恶化。由于特种车辆的车载强噪声环境的特殊性,现有的商用语音识别模块产品均难以满足其环境的使用要求。

本文基于特种车辆对语音控制设计需求,针对特种车辆座舱(以下简称车载座舱)殊的噪声环境,进行车载座舱噪声环境下语音降噪组件设计,实现了语音信号的降噪处理,并采用商用的语音识别模块进行测试验证。测试结果表明,此方案在车载座舱环境下具有很好的降噪效果。

2 系统构成及工作原理

2.1 系统构成

车载座舱语音降噪系统由硬件平台和语音降噪软件两部分组成,具体如下:

2.1.1 硬件组成

基于Freescalei.MX6 Dual SOC平台的语音降噪模块、XFV5310语音识别与合成模块;

2.1.2 软件组成

OS为Linux,内核为3.14.52,嵌入式语音降噪软件。

2.2 工作原理

车载座舱语音降噪识别系统的工作原理为:当驾驶员启动语音控制功能时,i.MX6D语音降噪模块向XFV5310语音识别模块发送语音识别启动命令,音频采集模块开始采集驾驶员说出的带噪语音指令,经由语音降噪模块实时处理后,将降噪后的语音指令传送给语音识别模块,根据识别结果进行相应指令的操作响应,从而执行驾驶员下达的语音指令。图1所示为车载座舱语音降噪系统的工作原理框图。

如图1所示,车载座舱语音降噪识别系统的工作原理如下:

(1)带噪语音源获取有两种方式:

1.由音箱播放特种车辆真实任务过程中的车内环境噪声文件来模拟车载噪声环境,噪声强度通过分贝测试仪的读数控制;通过MIC说出语音指令;

2.读取事先录制的并按照特定信噪比叠加的.wav格式带噪语音指令文件。

(2)通过音频编解码芯片STGL5000将输入的模拟带噪音频进行PCM编码,并将数字带噪音频输出给语音降噪软件;

(3)语音降噪软件对数字带噪音频进行降噪处理,生成数字降噪音频。

(4)降噪音频存储文件和播放输出:

1.数字降噪音频输出给STGL5000进行PCM解码和DA转换,生成模拟降噪音频,通过2.0音箱播放并输入给XFV5310模块进行语音识别;

2.数字降噪音频数据存储为wav格式音频文件。

(5)语音降噪软件的串口通讯:

1.通过RS232调试串口控制车载座舱语音降噪组件的工作状态:开始工作、录音模式(开始录音、停止录音)、读取wav文件模式、停止工作,并实时显示组件的工作状态和语音识别结果;

2.通过RS232通讯串口,根据XFV5310串口通讯协议,控制XFV5310模块的工作状态(初始化、开始识别、停止)并接收回传的状态信息和语音识别结果。

3 系统软件算法设计

车载座舱语音降噪识别软件(以下简称CSE软件)运行在嵌入式Linux操作系统下,用于采集模拟带噪语音信号,对采集的数字带噪音频信号进行降噪处理,并将降噪语音信号发送给语音识别与合成模块进行语音识别,最后处理识别模块返回的识别结果。CSE软件主要完成初始化功能、语音录音功能、WAV文件读取功能、WAV文件存储功能、语音播放功能、语音降噪功能以及RS232串口通讯功能。CSE软件执行流程图如图2所示。

初始化模块主要完成RS232串口初始化、录音配置、语音播放配置及信号量初始化。

录音模块主要完成音频采集。由于规定语音指令长度最大为5S,在录音时判断录音时间是否达到5S或是否收到结束信号,如两者均未发生,则采集一个周期音频样本,并保存至带噪音频数组中,如此循环,直至收到录音结束控制信号或录音时间达到5S。

WAV文件存储模块实现将音频文件以.WAV格式存储。首先存储WAV文件头,主要完成WAV文件文件头数据初始化,并检查文件头每个字节的合法性,最后将检测合格的WAV文件文件头存储在.wav文件中,WAV文件头存储后将音频数据写在WAV文件头数据后。

WAV文件读取模块实现读取WAV文件文件头,对文件头进行解析,并读取WAV文件的音频数据。

音频播放模块主要实现将降噪处理后的音频数据实时地通过声卡播放出来,以做识别处理。由于在ALSA音频驱动中,对音频设备的数据访问以及音频数据的存储都是以周期为单位进行操作,所以在播放时要判断已经降噪处理但未播放的音频数据是否达到周期样本数,如达到则播放音频数据,其次还要判断录音是否已经结束,如果结束,判断是否还有音频数据未播放,如有则播放剩余的音频数据。

语音降噪模块对采集或从文件中读取的带噪语音进行降噪处理。首先采用可移动的有限长度窗口实现对带噪语音分帧加窗,分帧加窗结束后,将每一帧带噪语音分别进行短时快速傅里叶变换,然后实现带噪音频的降噪。实现SMSS降噪算法的基本思想是基于统计模型更新信噪比和当前帧噪声功率谱,根据带噪语音频谱中不同频带的信噪比,确定噪声的谱减因子,然后用带噪语音减去噪声和谱减因子的乘积,得到降噪后的语音。在信噪比更新方面,主要采取由先验信噪比和后验信噪比决定SNR的方法,在噪声谱估计方面基于统计模型的VAD方法。降噪处理后再进行短时快速傅里叶反变换(ISFFT),得到时域的降噪语音信号数据,按帧续进行逆分帧重排后得到降噪后的语音信号,最后进行存储为.WAV格式文件或者直接播放输出。

串口通讯模块主要实现发送识别请求,获取识别请求响应结果以及对识别结果解析。在语音播放之前,需要启动XFV5310开发板的识别功能,由识别启动模块发送语音识别启动命令,开发板收到命令帧后会判断此命令帧正确与否,并回传结果,识别启动模块接收回传数据。发送识别启动命令后,如果识别启动模块在5.5S内未收到XFV5310开发板回传,则默认识别开发板无反应,识别启动模块将退出等待。当语音识别启动后,XFV5310开发板将会在识别处理结束后将相应的识别结果回传给CSE软件。回传的数据以“帧”的方式封装后传输。识别结果解析功能是当语音降噪软件接收到XFV5310开发板的回传的识别结果,根据通讯协议对XFV5310开发板发来的识别结果解码。

4 系统测试验证

4.1 测试环境

车载座舱语音降噪组件的测试验证试验中,各模块间的交联关系如图3所示。

4.2 测试方法及结果

在车载复杂噪声环境下,特定信噪比(-5dB、0dB、5dB)的语音指令,未经降噪前语音质量差,指令模糊,商用XFV5310语音识别与合成模块对指令识别率低于65%。经过本文设计的车载座舱语音降噪软件处理后,系统的测试结果如表1所示。

4.3 测试结果分析

车载座舱语音降噪识别系统功能完整,语音录音、播放、WAV文件读取、存储、语音降噪处理等功能都能符合需方的功能要求;特定信噪比(-5dB、0dB、5dB)下的语音指令识别率能够满足需方规定的指标要求;语音降噪算法、降噪与识别的总耗时稳定,不会随着语音指令的增长而增加耗时,能够满足需方规定的指标要求。

5 结束语

特种车辆工作环境下的带噪语音经车载座舱语音降噪识别系统处理后的语音听感清晰,无明显失真,无明显噪声残留,且运行总耗时较少,能够满足车载环境下语音降噪需求,配合商用的语音识别与合成模块XFV5310组成的系统能够满足特种车辆在恶劣工作环境下的语音控制功能,将该系统与车载显控模块集成,满足需方的功能与性能指标要求,经过实际装车使用测试,证明本文设计的车载座舱语音降噪识别系统功能性、稳定性和可靠性均能满足特种车辆的使用要求。

参考文献

[1]Loizou P,Speech enhancement:theory and practice[M].1st ed.CRC Taylor and Francis,2007:6-7.

[2]宋知用.MATLAB在语音信号分析与合成中的应用[M].北京:北京航空航天大学出版社,2013.

[3]易克初,田斌,付强.语音信号处理[M]. 北京:国防工业出版社,2003.

[4] Israel Cohen and Baruch Berdugo: Speech enhancement for non-stationary noise environments,[J].Signal Process.,vol.81,no.11,pp. 2403-2418,Nov.2001.

[5] Israel Cohen:Noise Estimation by Minima Controlled Recursive Averaging for Robust Speech Enhancement,[J].IEEE Signal processing letters,vol. 9,no.1,January 2002.

[6] Israel Cohen.“Noise Spectrum Estimation in Adverse Environments: Improved Minima Controlled Recursive Averaging”[J].IEEE Transactions on speech and audio processing,vol.11, no.5,Sep,2003.

[7] Israel Cohen:Relaxed statistical model for speech enhancement and a priori SNR estimation [J].IEEE Trans. Speech Audio Process.,vol.13, no.5,pt.2,pp.870-881,Sep,2005.

[8]张雄伟,陈亮,杨吉斌.现代语音处理技术及应用[M].北京:机械工业出版社,2003.

[9]程塔,郭雷,赵天云,贺胜.非平稳噪声环境下的语音增强算法[J].西北工业大学学报,2010,28(5):664-668.

[10]蒋海霞,成立新,陈显治.一种改进的谱相减语音增强方法[J].理工大学学报,2001,2(l):41-44.

[11]孙杨,原猛,冯海泓.一种基于统计模型的改进谱减降噪算法[J].声学技术,2013,32(2):115-118.

作者简介

杨粤涛(1985-),男,广东省潮州市人。工学博士学位,毕业于中国科学院长春光学精密机械与物理研究所。现就职于中航工业雷达与电子设备研究院,主要从事机载、舰载、车载座舱智能显控系统研发、人机工程研究。

作者单位

语音识别系统篇2

关键词:凌阳单片机;语音识别;家居控制;Android;蓝牙通信

Abstract:This paper studied the technology of speaker-dependent recognition based on Sunplus SPCE061A, voice recognition technology will be applied to the home control system. Proposed a control scheme which is convenient operation,easy to expand, and applicable to home applications. The system will be analyzed from the perspective of hardware circuit and software design. Also in the Google App Inventer platform, built out a control software based on Android smartphone’s Bluetooth communication.The tested results showed that the system has successfully realized the voice technology appliances and Android smartphones remote control technology.

Key words:Sunplus;voice recognition;home control;Android;Bluetooth communication

随着科技智能化的发展和社会生活水平的不断提高,人们对家居环境方便快捷的要求也随之提高,智能家居的概念成为了一个热门话题。在智能家居系统中,语音识别和远程控制的应用打破了常规的家用电器局域性控制局限,已经成为了具有竞争性的新兴高技术产业,在智能家居控制系统上应用非常广泛。本文研究了基于SPCE061A单片机的特定人语音识别技术以及智能手机蓝牙通信技术,并将其成功应用于家用电器的控制上,用户可以利用语音命令和Android手机操作方便快捷地控制电器的开关动作。

1 系统总体设计

系统采用凌阳16位SPCE061A单片机为核心控制器,由蓝牙串口透传模块ATK-HC05、MIC输入模块、扬声器、液晶显示器、按键组成,利用SPCE061A内置的语音模块,将麦克风采集到的语音信号与事先训练好的语音库的特征语音进行对比,根据语音辨识结果产生控制信号,进而控制家用电器[1]。系统还增加了无线蓝牙通信功能,由Android智能手机发送事先规定的指令,蓝牙模块接收后将数据交给控制器处理,产生的控制信号将发送给执行器对家电进行控制。系统还设置了人性化的液晶人机界面和指示灯方便用户操作。用户可以通过键盘对系统进行复位、重新学习语音命令的操作。系统总体结构框图如图1所示。

2 系统硬件设计

凌阳16位单片机SPCE061A在硬件结构和指令系统上都非常适用于语音信号处理,其主要的特点为:速度快,多中断,多个A/D转换器,特别是具有音频输出功能的双通道10位D/A转换器,具有自动增益控制功能与内置传声放大器的A/D转换器[2]。本设计采用具有DSP功能并内置声音A/D转换器的凌阳单片机,可以使得系统大大简化。

SPCE061A的A/D转换器有8个通道,其中有一个是MIC_IN输入,专门对语音信号进行采样。MIC选用驻极体话筒,其偏压由SPCE061A的VMIC脚提供。MIC输入模块电路结构简单,只需外接三个电阻和电容以对电流信号进行滤波。

SPCE061A提供双通道10位的D/A输出AUD1、AUD2,每个通道的输出能力是30mA。为了能驱动扬声器放音,将输出电路设计为由负载电阻和三极管8050组成的功放电路[3]。

2.1 最小系统组成

最小系统接线如下图2所示,在OSC0、OSC1端接上晶振及谐振电容,在锁相环压控振荡器的阻容输入VCP端接上相应的电容电阻后即可工作。其它闲置的电源端和地端接上0.1?F的去藕电容以提高抗干扰能力。

2.2 蓝牙通信电路

ATK-HC05是一款高性能的主从一体蓝牙串口模块,该模块支持非常宽的波特率范围:4800~1382400,并且模块兼容5V或3.3V单片机系统[4]。

模块与单片机连接最少只需要4根线即可:VCC、GND、TXD、RXD。其中VCC和GND用于给模块供电,RXD和TXD分别为串口接收脚和串口发送脚,分别连接单片机的TXD和RXD进行通信。

ATK-HC05模块与单片机系统的典型连接方式如图3所示:

3 系统软件设计

本课题的软件主要包括两部分:语音控制和蓝牙通信,采用C语言编程。该系统的智能手机控制软件是在MIT/Google App Inventer平台下搭建的,App Inventor是一个完全在线开发的Android编程环境,抛弃复杂的程式代码而使用积木式的堆叠法来完成Android程式。Google App Inventor用户能够通过该工具软件使用谷歌的Android系列软件自行研发适合手机使用的应用程序[5]。

3.1 语音控制程序流程图

语音控制程序流程如图4所示。该控制程序主要包括两个部分,即语音训练和语音识别。语音识别部分则实现对特定人发出的语音命令与系统储存的语音命令比较,并根据比较结果产生相应的控制信号。

程序执行步骤如下:程序开始运行时,首先将RAM中的语音模式擦除,为下面的语音训练的存储做准备。然后按照训练提示音依次训练触发名称。每一条语音命令需要训练两次,这两次训练会自动作出比较判断。当训练人两次发出的语音命令在误差允许范围内则判断为训练成功,同时将训练人的发音特征储存到系统中,否则程序返回上一层对该命令再次进行训练,直到语音命令完全训练成功。

当系统提示语音训练完毕后,程序随即进入识别阶段。系统首先对语音识别器进行初始化,同时麦克风会播放提示音,提示训练人此时可以对控制系统发出语音命令。处理器将采集的语音信号进行处理,并与存储器中训练人的语音样本进行比较,根据比较结果产生相应的控制信号从而驱动设备动作。语音识别过程循环进行,完成语音命令的控制任务后系统等待训练人再次语音命令[6]。

3.2 蓝牙通信

由Android移动设备发送事先规定好的数据指令,系统中的蓝牙模块接收到后将数据交给单片机处理,单片机将接收到的指令和预先规定好的指令进行比较,产生控制信号传送给被控对象,从而实现Android智能手机对电器设备的控制。蓝牙通信流程图如图5所示。

3.3 Android软件设计

App Inventor for Android,它是一个基于网页的开发环境,即使是没有开发背景的人也能通过它轻松创建Android应用程序。App Inventor可以让开发者抛开复杂的程序代码,使用搭积木式的方法来完成Android应用程序。

搭建应用程序需要准备以下材料:

⑴Android系统智能型手机

⑵蓝牙串口透传模块(本文使用ATK-HC05)

⑶单片机系统开发板(本文使用凌阳SPCE061A)

首先要有一个谷歌账户,并且申请了开发App inventor的权限。

登录到App inventor开发界面可以看到一个空页面,点击“new”创建一个新项目,在出现的对话框中输入创建的app的名字,便可以开始对应用程序的编辑。

App Inventor由两个部分构成:设计视图和块编辑视图。开发者可以在设计视图中完成添加按钮、文本框等程序外观的设计,设计视图就是一个网页;在块编辑视图进行真正的代码编辑,块编辑视图就是一个Java应用。如果将Android设备连接到了电脑上,还可以随时在手机上看到应用程序的修改。

Android软件设计结构图如图6所示,此程序表示当打开Android手机的蓝牙功能后,获取可连接设备的地址。当连接成功后按下发送按钮,Android手机会经由蓝牙发送指令数据给当前地址的接收端,从而实现智能手机对电器设备的远程控制。

4 结论

本设计采用凌阳单片机SPCE061A作语音识别处理器,硬件电路简单,控制灵活;选用适合特定人孤立词识别的语音特征和识别方法,处理速度快,识别率高,可满足实时语音识别的需要。同时使用者可以根据自己的需要改变应答反应(包括语音输出和控制输出),就可以实现对多种电器设备的控制,如电视机开关及选台、音量调节等操作。该系统可扩展性和灵活性强、成本低廉,在智能家居方面具有良好的应用前景。

[参考文献]

[1]王中强,杨坤,俞一奇,张志美,程立英.基于SPCE061A单片机的智能小车的设计[J].科技资讯,2013,(18):88~89.

[2]陈海宴,吕江涛,李瑞.凌阳16位单片机经典实战[M].北京航空航天大学出版社,2011-7-4:12-13.

[3]李金波,田民.基于单片机的智能家居系统设计[J].自动化技术与应用,2010,29(6):125~128,131.

[4]广州星翼电子.蓝牙串口模块[EB/OL].[2013-12-25].http:///product/showproduct.php?lang=cn&id=31.

[5]App InventorTW中文学习网.有关App Inventor[EB/OL].[2012-3-4]. http://appinventor.tw/whatis/.

语音识别系统篇3

【关键词】 语音识别 客户服务系统

一、背景

不断的提升客户服务品质,持续的改善客户感知是企业在竞争中制胜的法宝。随着移动互联网的发展,引入新技术支撑客户服务系统由传统的被动、应答式客户服务向主动、开放、智能服务的转变成为必然趋势。

二、传统IVR客户服务系统存在的问题

1.IVR语音导航复杂冗长,用户体验差。传统的IVR客户服务系统中客户需要面对复杂、冗长、繁琐的IVR导航菜单,用户需要逐层听取菜单提示,根据引导一步步进行按键操作才能得到服务,这容易给用户造成较差的体验,传统的按键式IVR自动语音服务面临越来越明显的挑战。同时,由于用户不能获取便捷的自助服务,大量服务涌入人工座席,宝贵的人工座席资源大量投入于提供简单、重复、低价值的劳动中,使得呼叫中心的整体工作效率难以提升,运营成本居高不下,客户满意度也受到了影响。

2.传统IVR依靠主叫及DTMF信号实现客户识别及交互,使得用户与系统的交互受到很大的限制不利于“主动、智能”服务。

三、什么是语音识别技术

语音识别技术,也称为自动语音识别,就是让机器通过识别和理解过程把语音信号转变为相应的文本或命令的高技术。其目标是将人类的语音中的词汇内容转换为计算机可读的输入。与声纹识别技术(Speaker recognition)及说话人确认不同,声纹识别技术尝试识别或确认发出语音的说话人,而语音识别技术尝试识别其中所包含的词汇内容。

语音识别技术主要包括特征提取技术、模式匹配准则及模型训练技术三个方面。

四、语音识别技术在智能客户服务系统中的应用

语音识别技术在电话信道上的应用已成为最重要的应用之一,因此在新一代客户服务系统中引入了语音识别技术作为用户的输入手段,客户可以直接用语音与系统进行交互,这样大大提高了工作效率,提升用户感知。

1.基于语音识别的IVR菜单扁平化智能应用。引入语音识别技术,创建智能IVR导航,使系统成为能听懂自然语言的互动式语音应答系统,将传统的IVR树形的按键操作,转换为扁平化的系统对话,使客户能直达原子业务节点接受服务,以缩短了通话时间,降低IVR业务节点放弃率,提升用户自助服务效果,提升客户体验,分流客户服务,减轻人工服务压力,提升人工服务价值。

2.与声纹识别技术结合对客户进行差异化服务。客户服务资源是宝贵的,将有限的客户服务能力高效的用在提升客户的感知上,需对客户进行差异化服务。准确的识别客户等级及客户服务内容的紧急程度是实现差异化服务的基础,语音识别技术结合声纹识别技术,能突破目前传统IVR客户服务系统识别仅能根据客户主叫号码及DTMF信号的限制,从服务内容,说话人识别的角度判定客户服务的等级,有效拦截的骚扰用户,提高客户服务资源的利用率。

3.基于语音识别的人工座席智能应用。在人工服务中,实现客户语音的“可视化”,完成客户需解决问题的词条及关键字的识别,辅助座席人员快速的进行相关知识库知识节点的搜索匹配,提高客户座席人员的工作效率和服务能力。

4.基于语音识别的质检评估应用。客户服务人员的质检、考核评估,通常是基于语音抽检方式进行,为了提高对服务质量的管控,通常需要进行大量的语音抽检,这需要占用了大量的人力资源。通过语音识别技术,对服务语音进行关键字及语气的识别匹配,实现系统自动质检检查,可有效提高质检检查的覆盖率,对关键服务质量问题进行有效过滤,减轻后台质检人员的工作量,提高质检工作的效率,提升服务质量的管控。

五、影响语音识别系统的应用的主要因素

语音识别系统的性能指标主要有四项。一词汇表范围:这是指机器能识别的单词或词组的范围。二说话人限制:是仅能识别指定发话者的语音,还是对任何发话人的语音都能识别。三训练要求:使用前要不要训练,即是否让机器先“听”一下给定的语音,以及训练次数的多少。四正确识别率。语音识别系统的性能受许多因素的影响,包括不同的说话人、说话方式、环境噪音等等,这需要提高系统的鲁棒性和自适应能力。

语音识别系统篇4

关键词:FPGA;语音识别;MPCC;HMM

中图分类号:TP391文献标识码:A文章编号:1009-3044(2011)10-2339-02

Design and Implementation of FPGA-based Voice Recognition Dialing System

WANG Hong, HAN Fei, WANG Jian, MA Yan-ping, ZHONG Hui, LI He

(School of Computer Science, South-Central University For Nationalities, Wuhan 430074, China)

Abstract: This paper elaborates a much more efficent and more identifiable process of speech dialing system and crucial technology which based on Altera Cyclone Ⅲ 3C16 and Quartus Ⅱ, NiosⅡ9. 0IDE using improved speech processing and speech recognition algorithm.

Key words: FPGA; speech recognition; MPCC; HMM

1 系统的总体设计

系统由语音采集模块、语音识别模块和拨号模块三部分组成。语音信号采集模块由麦克风和音频编解码芯片TLV320AIC23B组成,它主要的功能是对外部语音进行采集并数字化;语音识别模块由预处理、端点检测、特征提取、训练和模式匹配等算法模块组成;匹配成功后,由拨号模块找出对应的电话号码,经DTMF发生器输出到电话线路上,实现语音控制自动拨号功能。系统的算法流程如图1所示。

2 语音采集模块

系统采用音频编解码芯片TLV320AIC23B对语音信号进行采集,使用该芯片时只需配置相应端口,芯片自动将外界语音信号转变成数字信号输出。

3 语音识别模块

语音识别模块不仅要进行训练和模式匹配,还要对采集到的语音信号进行诸如加窗、预加重、除噪处理,最后提取特征参数供匹配识别操作。该模块(如图2所示)所采用的语音识别算法全部用HDL描述,采用FPGA实现。

3.1 预处理

预处理包括预加重、分帧和加窗,它们的目的是去除噪声,加强有用信息,对语音输入测量仪器或其他因素造成的退化现象进行复原。

3.1.1 预加重

预加重的目的是提升高频部分,使信号的频谱变得平坦,保持在低频到高频的整个频带中能用同样的信噪比求频谱,以便于频谱分析或声道参数分析。

3.1.2 分帧加窗算法

语音信号是一种典型的非平稳信号,特性随时间变化,但在很短的时间(大概15ms)内是平稳的,其特性保持不变,因此,可以采用分帧处理,用帧来描述语音信号的特征[1]。分帧算法用DSPBuilder描述,再转换成对应的HDL[2]。其DSP Builder的实现如图3所示。

加窗的目的是使主瓣更尖锐,旁瓣更低。本系统选用汉明窗,公式如(1):

(1)

3.2 端点检测

系统用HDL描述端点检测,并且采用基于能量状态变迁的端点检测方法,将整个端点检测过程分为6个状态,其状态变迁取决于转换条件。能量状态变迁图如图4所示。

3.3 特征提取

经过端点检测后的语音帧用MFCC进行特征提取,对于经过预加重和加窗处理的语音信号,可以直接从FFT开始计算。我们采用Alter公司提供的FFT IP核。一般框架如图5所示。

3.4 HMM训练与匹配

系统的HMM训练采用经典的Baum-Welch算法,识别采用viterbi算法[4]。系统对原始的viterbi算法进行了改进,改进后的算法如下:

1)初始化 δ[1][1]= ∏[j]+b[j][O(1)],1QjQ4

2)递归 δ[t][j]=min[δ[t-1][i]+a[i][j]]+b[O(t)],2QtQT 1QjQ4

φ[j]=argmin[δ[t-1][i]+a[i][j]]2QtQT 1Qi jQ4

3)终止 p=δ[T][4]q[t]=4

4)路径回溯q[t]= φ[t+1][q[t+1]],t=T-1,T-2,…,1

算法表明,下一状态只停留在当前状态转移到它概率最大的那个状态,直至最后一个状态S4,如图6。

4 拨号模块

模式匹配成功后,找出与模板对应的电话号码,经过DTMF发生器输出到电话线路上实现语音控制自动拨号的功能。在拨号状态下,语音识别模块通过信号线和控制线将DTMF信号发送到电话机线路上,电话机读取存放在相应位置的电话号码并发送出去。

5 结束语

本文讨论了基于FPGA的语音识别拨号系统的设计和实现,对非特定人、孤立词等进行识别。系统实现的语音识别准确率高、效率加强,可应用于任何可编程逻辑器件中,为手机、座机及其它诸多应用中的语音拨号功能的实现提供了参考设计方案。

参考文献:

[1] 马志欣,王宏,李鑫.语音识别技术综述[J].昌吉学院学报,2006(3):93-97.

[2] 怀,徐佩霞.基于DSP的嵌入式语音识别系统的实现[J].计算机工程,2005(16).

[3] 王炳锡.实用语音识别基础[M].北京:国防工业工业出版社,2005.

语音识别系统篇5

 

1 项目建设目标

 

1.1 项目背景

 

目前,固网用户拨打电话,必须先查出被叫的号码,并按键进行拨叫。而随着通信业的发展,要记的电话号码越来越多,而目前大部分的固定电话都没有号码存储的功能,所以很多时候使用固话打电话时,要么从手机上查找被叫的电话,或者是从纸制电话簿去查找,既不方便,又浪费时间。

 

“语音电话本”完全可以帮助用户解决以上问题,用户只需拨打一个号码接入系统平台,说出联系人的姓名,系统就可以自动将话路转到该人的电话上。整个过程通过自然的语音方式交互,即感到亲切自然方便快捷,又节省时间,提高工作效率。

 

从服务管理的角度来看,随着信息通信客服业务受理的不断发展,座席客服话务量越来越多,用户对服务的质量要求也越来越高,传统客服系统在传统语音信息处理上的局限性制约了系统服务和管理能力的提升。

 

服务方面,由于业务的多样性和复杂性带来的海量数据信息不能得到快速、有效的关联处理而产生的问题,影响了客户服务体验。

 

运营管理方面,雇佣人工座席每天接听大量的信息查询电话,座席业务人员的更替带来的培训,消耗了部分运维成本,影响了服务质量。

 

1.2 建设目标

 

本项目通过研究智能语音技术在国网辽宁公司信息通信客服系统中的应用,将语音识别及客服查号业务相结合,使用先进的语音识别技术来代替繁重的人工劳动,提高省公司内部沟通的效率。目前,语音电话本技术实现主要包含:ASR 、TTS 、IVR 三项技术,其中TTS和IVR技术对于语音电话本业务来说已经非常成熟。

 

ASR语音识别技术近年来发展十分迅速,其应用也逐步得到推广,佳都新太也一直开发、调试、应用这项重要的语音技术,自2001年以来佳都新太先后在广西、天津、广东、河北、湖北、江苏、辽宁等省的多个项目中使用了ASR 自动语音识别系统,佳都新太通过对ASR测试、改进,自动语音识别率达到95%以上。

 

语音电话本业务可以说是CTI平台上的典型应用,佳都新太把ASR语音自动识别技术、TTS语音合成技术与CTI 的IVR技术三者融合为一体,为语音电话本业务的技术实现提供了可靠的保障。

 

本项目可以达到目标:

 

1.2.1 对语音信息的自动化处理

 

通过建立具备智能语音分析能力的语音识别平台,实现对用户查号业务的语音实时识别及关联处理,同时实现对语音文件的统一分析,提供支撑客服业务受理的有效工具。

 

1.2.2 文件分析处理

 

通过语音分析引擎对送入的语音进行文字转写、维度结合后生成索引文件,这些结构化的索引文件中包含了语音中的所有信息。索引文件存储到数据仓库中,通过对有效的海量录音文件、音频文件进行分析处理。

 

1.2.3 实现自助查号功能

 

通过实现语音中的知识挖掘和语音文件的快速检索,实现自动语音查号功能。

 

2 项目技术方案

 

2.1 项目设计原则

 

本次项目是对省公司固定电话语音自动查号系统的功能完善,使用先进的语音识别技术来代替繁重的人工劳动,提高省公司内部沟通的效率。

 

本次项目的关键点和技术难点在于语音识别,因此在方案设计过程中我们着重考虑了这个问题,选用了国内领先的智能语音技术来作为语音识别引擎,结合座席客服系统的需求提供定制化专业服务。

 

2.2 整体架构设计

 

如图1,用户通过拨打查号服务电话,系统为用户播放自动语音并引导用户按键选择功能和需要查号的人名,系统根据语音分析出内容,并在数据库中查询对应的号码,系统将查到的号码以自动语音方式播报给用户。

 

系统部署需新增接入网关1台,用于与电力内部电话程控交换机对接,实现平台电话呼入呼出。采用电信级语音接入网关Dialogic DMG2030,接入规模1E1(即30路通话),PRI信令,通过电路中继上联到辽宁电力内部程控交换机。辽宁电力内部程控交换系统为语音电话本系统分配一个内部接入服务号码和一个外部接入服务号码。同时网关接入虚拟资源池虚机网络。

 

新增虚拟资源池虚机1台,用于部署媒体处理软件、CTI平台、语音电话本业务应用软件、科大讯飞ASR软件和TTS软件、Oracle数据库。

 

新增核心网络交换机1台,用于系统组网。

 

2.3 系统逻辑结构

 

IVR与TTS、ASR通过语音引擎实现整个语音交互过程的自动识别、自动播放功能。系统采用B/S结构,方便用户对电话本的修改,也便于各营业网点的开户、受理以及对用户的电话本进行维护等。整个系统采用模块化结构,具有很高的可靠性和可扩充性。

 

逻辑结构见图2。

 

2.4 系统建设方案

 

新建“语音电话本”业务平台,其网络拓扑结构如图3所示。

 

设备组成说明:

 

系统平台需要以下设备:

 

(1)IPS数字排队机;

 

(2)信令网关节点;

 

(3)数据库服务器: 实现用户数据的存储和系统认证等功能;

 

(4)TTS服务器: 通过IPS平台的MS模块来实现资源调用;

 

(5)ASR服务器:通过IPS平台的MS模块来实现资源调用;

 

(6)WEB服务器:实现用户通过互联网对电话簿的维护管理功能;

 

(7)业务处理服务器:用于处理个人语音电话本业务流程;

 

(8)管理维护节点;

 

(9)路由器和防火墙等网络设备;

 

2.5 配置计算依据

 

2.5.1 中继和语音的配置比例

 

语音电话本业务,用户报出要找的人的姓名后,ASR进行识别,系统根据ASR识别出的名字,找出对应的电话号码并进行外呼,被叫接通后,主被叫进行通话的过程中,语音资源即可释放。整个业务实现和呼叫卡类业务的资源配置非常相似,根据200业务的实际运行经验数据,建议中继和语音的比例为4:1。

 

2.5.2 中继和ASR的配置比例

 

在一个呼叫的过程中,用户说出要找人的姓名,ASR资源进行识别,在识别完成系统呼通被叫后,ASR资源释放,主被叫双方进行通话,按平均呼叫时长为150秒,其中ASR识别的时间大概为30秒,而在一次通话中占用一入一出两个通道,按上面的估算数据,中继和ASR的配比大约为 2×150/30=10:1。

 

2.5.3 中继容量和所能支持的用户数的比例

 

假设一些呼叫参数如下:

 

系统中继容量A

 

用户数 B

 

每用户每天使用次数C:8次

 

每次呼叫时长D:150秒

 

忙时集中系统E:10%

 

忙时中继Erl数F:0.8

 

根据公式:A=B*C*D*E/F/3600

 

则 A:B=8×150×10%/0.8/3600=1:24

 

因为语音电话本业务每次呼叫要占用一入一出两个端口,所以中继容量和所支持的用户数的比例约为1:10。

 

2.5.4 数据库处理能力计算

 

忙时TPMC=(忙时呼叫次数×(平均每次呼叫数据库访问次数+其他应用模块平均每次呼叫事务访问处理次数))/60

 

按4.3.3假设的数据,当使用语音电话本的用户数为10,000用户时,系统的忙时呼叫次数为 10000×8×10%=8000次/小时

 

按每次呼叫对数据库的访问操作次数为10次来计算,则10,000用户时,对数据库的TPMC值的要求为:

 

TPMC=8000×10/60=1333

 

2.6 业务系统功能

 

2.6.1 业务流程(如图4)

 

2.6.2 声控拨号

 

用户使用绑定电话拨打接入号码“***”进入系统后,系统直接会提示用户报出用户想找的人的姓名,并进行呼叫。

 

(1)“联系人名字” 选中默认呼叫号码:

 

(2)用户拨打“语音电话本”服务号码;

 

(3)说出对方姓名,如:张三;

 

(4)系统识别语音,查询对应的默认电话号码;

 

(5)系统通过语音播报查询到的电话号码。

 

(6)“联系人名字+电话类型” 精确查询:

 

(7)用户拨打“语音电话本”服务号码;

 

(8)说出对方姓名+电话类型,如:张三 手机;

 

(9)系统识别语音,查询对应的电话类型的号码;

 

系统通过语音播报查询到的电话号码。用户通过绑定电话使用语音电话本业务流程如图5所示。

 

用户使用非绑定电话使用语音电话本业务时,必须先通过输入帐号和密码,经过系统鉴权后才能使用。

 

2.6.3 原始通讯录的录入

 

语音电话业务开展的一个关键问题,就是用户申请该业务后首批通讯录的录入问题,首批通讯录相对来说量比较大,录入的方式建议采用营业厅前台填表录入、通过WEB录入的方式,也可以采用电话、传真、信函的方式进行录入。在首批通讯录录入后,用户在使用过程中做一些号码本的修改和维护,维护量都比较小,可以通过WEB方式、电话、短消息、传真等多种方式进行修改。

 

批量导入电话本:

 

通过Excel文件导入企业通讯录,可以参考如表1格式。

 

可以根据实际需求增加其他列。

 

2.6.4 电话本维护(Web)

 

系统提供后台管理界面,管理员登录后台对电话本进行管理,如图6。

 

个人电话本资料可通过Web、人工坐席、电话、传真、短消息等多种方式进行电话本资料的维护管理,包括修改用户密码等。

 

业务流程如图7所示。

 

“增加、删除、修改”用户记录:

 

系统提供对单个记录的“增加”、“删除”、“修改”功能,方便对电话本进行灵活管理。

 

2.6.5 多个号码优先呼功能

 

当用户录入的某个联系人有多个通讯号码时,如有手机、小灵通、固定电话,可以把这些号码都录入在系统中,在呼叫时,用户可以自行设置优先呼叫的号码,在号码不通时再按设置的优先策略逐一呼叫被叫其他的联系方式。

 

2.6.6 信息查询(Web)

 

系统提供电话本查询界面给座席和管理员使用。

 

座席和管理员可根据联系人姓名,查询联系人对应的所有电话信息。

 

该功能主要在座席提供人工服务时使用。

 

3 技术创新点

 

本次项目采用国内领先的智能语音识别技术(ASR)结合客服后台定制化查询需求,在满足用户传统的查询基础上,语音定制化为用户报出相关信息,由用户按键选择即可,大大方便了用户的操作和客服的工作时间。

 

4 总体性能指标

 

通过研究智能语音技术在信息通信客服系统中的应用,实现客服查号业务的自能化,实现语音的自动识别及数据分析,减少人工运维成本,提高客服服务质量及服务效率。

 

5 技术展望

 

随着科学技术的飞速发展。信息技术领域未来必然是智能化,自动化的主流方向。在语音识别领域将大有可为,传统的人工繁琐的操作将被解放。系统语音智能识别,自动处理将是主流趋势。该项目正是在这样主流的发展趋势下不断完善提升,用专业的技术实现客户的需求,达到节省人力物力目的。

 

语音识别系统篇6

关键词:车载语音导航;人机语音交互;语音识别;语音合成

引言

语音作为自然的人机接口,可以使车载导航系统实现更安全、更人性化的操作。通过国内外车载导航系统的功能对比可知,支持语音交互是车载导航系统的一个发展趋势。另外,市场信息服务公司J.D Power and Associates的调研数据也表明,56%的消费者更倾向于选择声控的导航系统。因此,开发车载语音导航系统是很有意义的。目前,国内已经具备开发车载语音导航系统的技术基础,特别是文语转换ITS技术和基于中小词汇量的语音命令识别技术已经达到比较实用的程度。本文在课题组的车载导航系统和国内两款语音引擎的基础上,开发了一套支持语音交互的车载导航系统。

车载语音导航系统结构

车载语音导航系统从功能上分为车载导航和导航语音交互两方面。其中车载导航功能包括GPS卫星导航定位、电子地图浏览查询、智能的路径规划、车辆地理位置和速度等导航信息的实时显示;导航语音交互功能分为语音操作和语音提示两部分。在系统的设计中,根据人机交互的需求,设计语音导航系统的硬件框架如图1所示。

语音导航系统和用户之间的人机交互接口由触摸屏、按钮、话筒、显示屏和扩音器等五个交互设备组成。该硬件框架可实现常规的手动交互方式,也可以实现语音交互方式。整个系统划分为三个子系统;导航子系统、语音识别子系统和语音合成子系统,各子系统间通过接口进行通信,协调完成语音导航任务。

车载导航人机语音交互系统对话模式设计

导航系统的状态转换网络

整个导航系统是一个复杂的人机交互系统,为便于语音交互对话模式的设计,首先对系统作状态划分,然后从人机交互的角度描述整个系统的状态转换网络。将系统划分为地图浏览、功能选择等六个功能状态和一个退出状态。图2描述了这些状态之间的状态转换网络。

图中的节点代表系统的各个状态,带箭头的连线代表从源状态到目标状态的转换。状态转换网络接收用户的操作作为驱动事件,完成从一个状态到另一状态的转换,网络中的一条路径便代表着特定的交互过程。

导航系统各状态节点对话模式设计

为便于描述各状态节点内部的对话模式,将状态节点按图2所示编号为S1~S7,用TmnL。表示状态节点Sm到状态节点Sn的转换。另外,借鉴状态流stateflow模型的表示方法,提出用于描述车载导航人机语音交互系统中的对话模型。重新定义转换的描述方式,用四个属性来描述状态节点内的一次转换:

T={P1,P2,P3,P4} (1)

其中,t用于表示一个转换,P1~P4为转换的属性:P1为语音事件;P2为语音输出;P3为附加条件;P4为转换动作。

这样,一个转换t便描述了一次对话中用户的语音输入、系统的语音输出、对话受到的限制条件以及系统执行的动作。

以地图浏览状态为例,说明对话模式设计的过程。地图浏览状态由两个互斥的子状态组成:地图漫游状态和车辆引导状态(参见图2)。这两种子状态的人机交互大部分相同,所以将二者统一划分在地图浏览状态下。对于区分对待这两个子状态的交互过程,可以通过附加条件来判断当前子状态,再作不同的处理。

人机语音交互系统的实现

语音控制命令的实现

语音控制命令的实现方案如图4所示。图中左边方框代表整个语音导航系统对话模式的状态转换网络STN。根据对话模式的设计,将系统分为地图浏览状态、功能选择状态、路径规划状态等7个状态节点,每个状态节点内部均存在各自的语音对话模式,对话模式由若干内部转换组成。因此,整个语音导航系统是一个两层结构的状态转换网络,其内部转换由语音事件驱动。语音事件由导航子系统的接口模块根据语音识别子系统发送的用户意图而产生。

语音控制命令的实现过程分为以下四个步骤:

・语音识别引擎根据当前命令词表识别用户语音,得到识别结果。

・管理窗口获取到识别结果,通过查询“识别词一控制命令”映射,得到识别结果对应的控制命令,并将控制命令作为用户意图发送至导航子系统的接口模块。

・接口模块响应用户意图,通过语音事件改变语音导航系统的状态。

・接口模块根据语音导航系统的状态判断是否需要更改当前命令词表,若需要则通过管理窗口更改当前命令词表。

POI名称的识别方法

识别子系统除了要识别控制命令以外,还需要识别POI(兴趣点、标志点)名称。POI名称识别与控制命令识别最大的区别在于其候选集合在规模上的差异。在本系统中,进行控制命令识别时候选集合的规模最大约为30个,但进行POI名称识别时,以所用的北京电子地图为例,其POI点的个数为20,172个,此时其候选集合的规模比控制命令识别时大几个数量级。

利用命令词识别引擎进行识别时,必须为引擎提供一个当前词表,需要先将候选集合中的词条转化为词表,才能真正地进行识别。同时,基于中小词表的ASR识别引擎不能生成规模达2万多的词表,所以对于POI名称识别,采取了不同于控制命令识别的方案。在对控制命令进行识别时,因为候选集合可以用一个词表来表示,采取了在线识别的方法。而对POI名称进行识别时,单个词表无法容纳所有的POI名称,由此提出了利用识别引擎离线识别功能的离线遍历识别方案。该方案利用多个词表来描述整个候选集合。

该方案将候选POI集合划分为n个子集,并生成各子集的词表,然后以各词表为当前词表进行离线识别,并将这些局部的识别结果汇总形成一个临时词表,最后在这个临时词表中进行识别,得出全局的最优识别结果。该过程遍历了各个子集,相当于在整个候选集合中匹配出最优识别结果,所以识别正确率得到了保证。同时由于识别次数的增加,导致识别时间相应地变长。

导航系统语音提示的实现方案

语音识别系统篇7

关键词: 语音识别; 识别原理; 声学建模方法; 多维模式识别系统

中图分类号: TN912.3?34 文献标识码: A 文章编号: 1004?373X(2013)13?0043?03

Summary of speech recognition technology and its application

YU Lin?lin

(Naval Aviation Military Representative Office Stationed in Beijing, Beijing 100041, China)

Abstract: As a key technology of human?computer interface in information technology, speech recognition has great research significance and broad application value. the development history of speech recognition technology is introduced, the basic knowledge of speech recognition is expounded, such as concept, basic principle, the acoustic modeling approach. The application of speech recognition technology in various fields are briefly introduced.

Keywords: speech recognition; recognition principle; acoustic modeling approach; multi?dimension pattern recognition system

0 引 言

语言是人类相互交流最常用、最有效、最重要和最方便的通信形式,语音是语言的声学表现,与机器进行语音交流是人类一直以来的梦想。随着计算机技术的飞速发展,语音识别技术也取得突破性的成就,人与机器用自然语言进行对话的梦想逐步接近实现。语音识别技术的应用范围极为广泛,不仅涉及到日常生活的方方面面,在军事领域也发挥着极其重要的作用。它是信息社会朝着智能化和自动化发展的关键技术,使人们对信息的处理和获取更加便捷,从而提高人们的工作效率。

1 语音识别技术的发展

语音识别技术起始于20世纪50年代。这一时期,语音识别的研究主要集中在对元音、辅音、数字以及孤立词的识别。

20世纪60年代,语音识别研究取得实质性进展。线性预测分析和动态规划的提出较好地解决了语音信号模型的产生和语音信号不等长两个问题,并通过语音信号的线性预测编码,有效地解决了语音信号的特征提取。

20世纪70年代,语音识别技术取得突破性进展。基于动态规划的动态时间规整(Dynamic Time Warping, DTW)技术基本成熟,特别提出了矢量量化(Vector Quantization,VQ)和隐马尔可夫模型(Hidden Markov Model,HMM)理论[1]。

20世纪80年代,语音识别任务开始从孤立词、连接词的识别转向大词汇量、非特定人、连续语音的识别,识别算法也从传统的基于标准模板匹配的方法转向基于统计模型的方法。在声学模型方面,由于HMM能够很好的描述语音时变性和平稳性,开始被广泛应用于大词汇量连续语音识别(Large Vocabulary Continous Speech Recognition, LVCSR)的声学建模[2?3];在语言模型方面,以N元文法为代表的统计语言模型开始广泛应用于语音识别系统[4]。在这一阶段,基于HMM/VQ、HMM/高斯混合模型、HMM/人工神经网络的语音建模方法开始广泛应用于LVCSR系统,语音识别技术取得新突破。

20世纪90年代以后,伴随着语音识别系统走向实用化,语音识别在细化模型的设计、参数提取和优化、系统的自适应方面取得较大进展[5]。同时,人们更多地关注话者自适应、听觉模型、快速搜索识别算法以及进一步的语言模型的研究等课题[6]。此外,语音识别技术开始与其他领域相关技术进行结合,以提高识别的准确率,便于实现语音识别技术的产品化。

2 语音识别基础

2.1 语音识别概念

语音识别是将人类的声音信号转化为文字或者指令的过程[7]。语音识别以语音为研究对象,它是语音信号处理的一个重要研究方向,是模式识别的一个分支。语音识别的研究涉及微机技术、人工智能、数字信号处理、模式识别、声学、语言学和认知科学等许多学科领域,是一个多学科综合性研究领域[8]。

根据在不同限制条件下的研究任务,产生了不同的研究领域。这些领域包括:根据对说话人说话方式的要求,可分为孤立字(词)、连接词和连续语音识别系统;根据对说话人的依赖程度,可分为特定人和非特定人语音识别系统;根据词汇量的大小,可分为小词汇量、中等词汇量、大词汇量以及无限词汇量语音识别系统。

2.2 语音识别基本原理

从语音识别模型的角度讲,主流的语音识别系统理论是建立在统计模式识别基础之上的。语音识别的目标是利用语音学与语言学信息,把输入的语音特征向量序列[X=x1,x2,…,xT]转化成词序列[W=w1,w2,…,wN]并输出。基于最大后验概率的语音识别模型如下式所示:

[W=argmaxW{P(W|X)}=argmaxWP(W|X)P(W)P(X)=argmaxW{P(X|W)P(W)}=argmaxW{logP(X|W)+λlogP(W)}]

上式表明,要寻找的最可能的词序列[W],应该使[P(X|W)]与[P(W)]的乘积达到最大。其中,[P(X|W)]是特征矢量序列[X]在给定[W]条件下的条件概率,由声学模型决定。[P(W)]是[W]独立于语音特征矢量的先验概率,由语言模型决定。由于将概率取对数不影响[W]的选取,第四个等式成立。[logP(X|W)]与[logP(W)]分别表示声学得分与语言得分,且分别通过声学模型与语言模型计算得到。[λ]是平衡声学模型与语言模型的权重。从语音识别系统构成的角度讲,一个完整的语音识别系统包括特征提取、声学模型、语言模型、搜索算法等模块。语音识别系统本质上是一种多维模式识别系统,对于不同的语音识别系统,人们所采用的具体识别方法及技术不同,但其基本原理都是相同的,即将采集到的语音信号送到特征提取模块处理,将所得到的语音特征参数送入模型库模块,由声音模式匹配模块根据模型库对该段语音进行识别,最后得出识别结果[9]。

语音识别系统基本原理框图如图1所示,其中:预处理模块滤除原始语音信号中的次要信息及背景噪音等,包括抗混叠滤波、预加重、模/数转换、自动增益控制等处理过程,将语音信号数字化;特征提取模块对语音的声学参数进行分析后提取出语音特征参数,形成特征矢量序列。语音识别系统常用的特征参数有短时平均幅度、短时平均能量、线性预测编码系数、短时频谱等。特征提取和选择是构建系统的关键,对识别效果极为重要。

图1 语音识别基本原理框图

由于语音信号本质上属于非平稳信号,目前对语音信号的分析是建立在短时平稳性假设之上的。在对语音信号作短时平稳假设后,通过对语音信号进行加窗,实现短时语音片段上的特征提取。这些短时片段被称为帧,以帧为单位的特征序列构成语音识别系统的输入。由于梅尔倒谱系数及感知线性预测系数能够从人耳听觉特性的角度准确刻画语音信号,已经成为目前主流的语音特征。为补偿帧间独立性假设,人们在使用梅尔倒谱系数及感知线性预测系数时,通常加上它们的一阶、二阶差分,以引入信号特征的动态特征。

声学模型是语音识别系统中最为重要的部分之一。声学建模涉及建模单元选取、模型状态聚类、模型参数估计等很多方面。在目前的LVCSR系统中,普遍采用上下文相关的模型作为基本建模单元,以刻画连续语音的协同发音现象。在考虑了语境的影响后,声学模型的数量急剧增加,LVCSR系统通常采用状态聚类的方法压缩声学参数的数量,以简化模型的训练。在训练过程中,系统对若干次训练语音进行预处理,并通过特征提取得到特征矢量序列,然后由特征建模模块建立训练语音的参考模式库。

搜索是在指定的空间当中,按照一定的优化准则,寻找最优词序列的过程。搜索的本质是问题求解,广泛应用于语音识别、机器翻译等人工智能和模式识别的各个领域。它通过利用已掌握的知识(声学知识、语音学知识、词典知识、语言模型知识等),在状态(从高层至底层依次为词、声学模型、HMM状态)空间中找到最优的状态序列。最终的词序列是对输入的语音信号在一定准则下的一个最优描述。在识别阶段,将输入语音的特征矢量参数同训练得到的参考模板库中的模式进行相似性度量比较,将相似度最高的模式所属的类别作为识别中间候选结果输出。为了提高识别的正确率,在后处理模块中对上述得到的候选识别结果继续处理,包括通过Lattice重打分融合更高元的语言模型、通过置信度度量得到识别结果的可靠程度等。最终通过增加约束,得到更可靠的识别结果。

2.3 声学建模方法

常用的声学建模方法包含以下三种:基于模式匹配的动态时间规整法(DTW);隐马尔可夫模型法(HMM);基于人工神经网络识别法(ANN)等。

DTW 是较早的一种模式匹配的方法。它基于动态规划的思想,解决孤立词语音识别中的语音信号特征参数序列比较时长度不一的模板匹配问题。在实际应用中,DTW通过计算已预处理和分帧的语音信号与参考模板之间的相似度,再按照某种距离测度计算出模板间的相似度并选择最佳路径。

HMM是对语音信号的时间序列结构所建立的统计模型,是在马尔可夫链的基础上发展起来的,它是一种基于参数模型的统计识别方法。HMM可模仿人的言语过程,可视作一个双重随机过程:一个是用具有有限状态数的马尔可夫链来模拟语音信号统计特性变化的隐含的随机过程,另一个是与马尔可夫链的每一个状态相关联的观测序列的随机过程[10]。

ANN以数学模型模拟神经元活动,将人工神经网络中大量神经元并行分布运算的原理、高效的学习算法以及对人的认知系统的模仿能力充分运用到语音识别领域,并结合神经网络和隐含马尔可夫模型的识别算法,克服了ANN在描述语音信号时间动态特性方面的缺点,进一步提高了语音识别的鲁棒性和准确率。其中成功的方法就是在混合模型中用ANN替代高斯混合模型估计音素或状态的后验概率。2011年,微软以深度神经网络替代多层感知机形成的混合模型系统大大提高了语音识别的准确率。

3 语音识别的应用

语音识别技术有着非常广泛的应用领域和市场前景。在语音输入控制系统中,它使得人们可以甩掉键盘,通过识别语音中的要求、请求、命令或询问来作出正确的响应,这样既可以克服人工键盘输入速度慢,极易出差错的缺点,又有利于缩短系统的反应时间,使人机交流变得简便易行,比如用于声控语音拨号系统、声控智能玩具、智能家电等领域。在智能对话查询系统中,人们通过语音命令,可以方便地从远端的数据库系统中查询与提取有关信息,享受自然、友好的数据库检索服务,例如信息网络查询、医疗服务、银行服务等。语音识别技术还可以应用于自动口语翻译,即通过将口语识别技术、机器翻译技术、语音合成技术等相结合,可将一种语言的语音输入翻译为另一种语言的语音输出,实现跨语言交流[11]。

语音识别技术在军事斗争领域里也有着极为重要的应用价值和极其广阔的应用空间。一些语音识别技术就是着眼于军事活动而研发,并在军事领域首先应用、首获成效的,军事应用对语音识别系统的识别精度、响应时间、恶劣环境下的顽健性都提出了更高的要求。目前,语音识别技术已在军事指挥和控制自动化方面得以应用。比如,将语音识别技术应用于航空飞行控制,可快速提高作战效率和减轻飞行员的工作负担,飞行员利用语音输入来代替传统的手动操作和控制各种开关和设备,以及重新改编或排列显示器上的显示信息等,可使飞行员把时间和精力集中于对攻击目标的判断和完成其他操作上来,以便更快获得信息来发挥战术优势。

4 结 语

语音识别的研究工作对于信息化社会的发展,人们生活水平的提高等方面有着深远的意义。随着计算机信息技术的不断发展,语音识别技术将取得更多重大突破,语音识别系统的研究将会更加深入,有着更加广阔的发展空间。

参考文献

[1] 马志欣,王宏,李鑫.语音识别技术综述[J].昌吉学院学报,2006(3):93?97.

[2] RABINER L R, JUANG B H. An introduction to hidden Markov models [J]. IEEE ASSP Magazine, 1986, 3(1): 4?16.

[3] GALES M, YOUNG S. The application of hidden Markov models in speech recognition [J]. Foundations and Trends in Signal Processing, 2008, 1(3): 195?304.

[4] JELINEK F. Continuous speech recognition by statistical methods [J]. Proceedings of the IEEE, 1976, 64(4): 532?556.

[5] 倪崇嘉,刘文举,徐波.汉语大词汇量连续语音识别系统研究进展[J].中文信息学报,2009,23(1):112?123.

[6] 顾亚强.非特定人语音识别关键技术研究[D].长沙:国防科学技术大学,2009.

[7] 中华人民共和国国家质量监督检验检疫总局.GB/T21023?2007 中文语音识别系统通用技术规范[S].北京:中国标准出版社,2007.

[8] 王文慧.基于ARM的嵌入式语音识别系统研究[D].天津:天津大学,2008.

[9] 何湘智.语音识别的研究与发展[J].计算机与现代化,2002(3):3?6.

[10] 吕云芳.基于模板匹配法的语音识别系统研究与基本实现[D].天津:河北工业大学,2005.

语音识别系统篇8

【关键词】语音识别 语音辅助 办公系统 有限状态机

语音交互是人们最广泛使用和适应的一种日常交互方式,在电子信息领域,也是一种理想的人机交互方式,随着语音识别算法的发展和相关硬件技术进步,语音识别技术逐步走向成熟,目前在语音输入领域、语音大数据分析、语音生活辅助等领域已经有较多的应用场景。但是语音辅助技术目前仍存在一定难点,例如语音开集库识别、语音交互速度等方面。同时,语音识别技术在办公辅助系统上应用还较少,尤其是某些工作人员不方便进行手动指令输入操作的场景或手动指令输入效率较低场景,如果利用语音辅助技术,可以有效提高用户办公效率和系统适应性。

本文基于上述问题,针对性地提出了一种语音辅助系统模型,通过合理的模型设计和算法设计,有效改进了上述技术难点带来的语音识别效率和指令输入效率问题,提高用户使用语音辅助时的工作效率和用户体验。

1 系统概述

1.1 系统整体框架介绍

系统整体框架如图1所示,系统分为三层架构,分别为用户交互层、逻辑处理层和底层框架。用户交互层主要负责与用户进行指令交互工作和信息反馈工作,主要包含三个模块,为语音监听模块、用户输入模块和语音反馈模块,三个分别负责用户语音监听,用户手动指令输入和系统信息语音反馈。

逻辑层为系统核心部分,包含模式识别模块、指令执行模块和语音识别模块,其中,语音识别模块获取交互层提交的用户语音音频信息,将用户语音指令或语音输入转换为输入字符串,以便进一步处理。模式识别模块的主要作用是将用户输入语音转换获得的字符串进行模式匹配,将无结构的字符串转换为结构化的指令树,从中提取用户真正的指令信息。指令执行模块的主要功能是进行用户数据和系统操作的指令执行,其中为其他模块提供系统操作接口,供其他模块调用。

底层框架提供了系统基础运行平台,分别包含系统运行框架和数据库平台,底层框架根据不同的系统部署要求可以进行对应的调整。

2 系统关键部分

2.1 语音监听与识别模块

语音监听与识别属于用户交互端和逻辑预处理端,其核心部分为语音识别技术(Auto Speech Recognize,简称ASR),在本论文的实现过程中,采用科大讯飞的语音识别SDK,其语音识别算法采用深度神经网络(DNN)声学建模,同时采用多重降噪算法进行降噪处理,经测试,能够充分满足本系统针对的多样化使用场景需求。

系统在启动后,语音监听模块将进行常驻监听,保证用户指令随时处于输入状态,减少用户手动操作效率降低问题,获取语音信息经压缩后传递给语音识别模块,语音识别模块将音频信息识别后转换为字符串,此生成信息作为模式匹配样本交给逻辑层处理。

2.2 指令模式识别模块

指令识别模块的主要作用是获取经过对用户输入语音转换后的字符串,通过与系统预先设置的用户指令进行对比匹配,提取用户输入信息中的指令部分,再交由指令执行模块进行信息处理。

为提升用户指令匹配成功率,在指令模式识别过程中,采用有限状态机模型(Finite-state machine),采用有限状态机,可以建立指令样本,在对用户输入信息进行指令匹配时,采用顺序字符串匹配算法,这样可以高效过滤用户信息,快速提取用户指令。

3 系统关键技术

3.1 基于有限状态机的指令匹配模型

此部分主要包含两个方面,一是系统指令的预设定,如上文所述,在某信息系统嵌入该语音辅助系统时,首先要确定该系统所需要对用户提供的指令内容,将每个指令内容作为有限状态机中的单一状态,例如图2所示。

第二部分为用户输入信息指令提取,由于用户指令数有限,所以,在获取用户模式匹配样本之后,可以采用顺序字符串匹配计算,当匹配到预设指令时,便将该指令作为状态机状态转移标志,进而获取用户所需要进行的操作,达到指令匹配目的。在匹配过程中,采用KMP算法,有效提高用户指令输入效率。

3.2 指令快速匹配优化

在大多数信息系统中,除了用户操作有限之外,还具有上下层级关系,为提高用户输入效率,在系统初始化设定过程中,针对具有层级关系的指令,将其构筑为指令树结构,如图3中所示,如果用户输入指令为“AABB0246CC”,系统在匹配至“0”时,将不再向用户返回确认请求,将继续进行指令匹配,直至匹配至“C”,那么最终状态将跳转至状态7,向用户返回请求指令7执行,得到确认后,将执行指令。按照上述流程,在面对多层指令操作时,用户只需要语音输入连续状态指令,将直接跳转至目标状态,执行目标执行,达到指令快速匹配目的,这样极大提升了用户输入效率,省去大量重复语音指令输入步骤。

4 总结

目前语音识别正在进入越来越多的领域,利用本文设计的语音辅助系统,用户指令输入效率得到显著提升,同时给出整体模型,以便其他信息系统平台高效接入此语音辅助系统。

参考文献

[1]王炳锡.实用语音识别基础[M].北京:国防工业出版社,2005.

[2]童拉.办公自动化系统中语音功能的设计和实现[J].湖北工业大学学报,2005,20(02):71-73.

[3]讯飞开放平台.科大讯飞股份有限公司.2017.http:///.

作者单位

上一篇:语音合成技术范文 下一篇:科研仪器范文