基于DSP的人机交互系统设计

时间:2022-08-25 11:31:06

基于DSP的人机交互系统设计

摘要:提出了一种人机交互系统的设计方案。系统采用DSP作为语音信息处理核心,通过建立HMM模型,选取MFCC为语音特征参数,并采用Baum-Welch算法改进模型参数,实现了语音识别功能。该系统性能良好,语音识别正确率较高。

关键词:DSP 人机交互 HMM MFCC Baum-Welch

中图分类号:TN912.34 文献标识码:A 文章编号:1007-9416(2013)04-0197-02

1 引言

随着计算机技术的快速发展,人机之间的交互方式越来越多元化,从传统的键盘、鼠标,到触摸时代。但是,这些人机交互方式对于一些身体有障碍的人士,或者在人机之间具有障碍的场合都显得力不从心,而基于语音识别的交互方式以其操作方便且人性化的优势,得到了广泛的应用。本文设计了一种基于dsp的人交互系统,该系统电路少,成本较低,语音识别正确率较高。

2 系统硬件设计

5509 DSP与AIC23之间有两种接口:控制接口和数字音频接口。前者用于设置CODEC芯片的工作参数;后者用于传输音频数据。

AIC23的控制接口有两种工作方式:SPI和IIC,由引脚MODE来决定。当MODE为低电平时,CODEC选择IIC工作方式,相反选择SPI工作方式。由于5509 DSP内部集成了IIC总线,因此,使用IIC方式来控制CODEC比较方便。5509 DSP作为IIC总线的主设备,AIC23作为从设备。5509 DSP通过设置其内部的控制寄存器对AIC23进行各种控制操作,例如设置采样率、左右输入声道的音量等。

AIC23的数字音频接口用于传输A/D和D/A数据,可配置成DSP模式,可以方便地与DSP的串口MCBSP相连接进行通信。

5509 DSP与AIC23的I/O电压兼容,使得它们可以无缝连接,其接口原理如图2所示。

3 语音识别算法

系统实现人机交互的主要条件就是语音识别。通常,语音识别主要由预处理、特征提取、语音模板库及模式识别几部分组成,其原理如图3所示。

3.1 预处理

预处理阶段主要包括预加重、加窗与分帧等操作。

(1)预加重。

(2)分帧与加窗。

3.2 端点检测

一般在预处理后都需要进行端点检测。端点检测是指从一段语音信号中检测出说话的起始点和终止点,剔除非语音段数据,以降低特征提取的计算量,提高准确度。

3.3 特征提取

特征提取是是语音识别的关键步骤,它是为了去除语音信号中所包含的冗余信息而提取的用以表示语音信号的一系列参数。特征参数的选择对语音识别的效果至关重要。常用的特征参数有线性预测参数(LPC)、线性预测倒谱系数(LPCC)和美尔倒谱系数(MFCC)。由于MFCC参数具有较好的抗干扰能力,本系统中的特征均为MFCC,其提取过程如图4所示。

3.4 HMM的训练与识别

训练即通过说话者多次重复语音,将所获取的语音特征参数按照一定规则对其加以聚类,形成待识别语音的模板库。识别过程与训练过程类似,先对待识别的语音信号提取特征参数,然后根据一定的准则计算其与训练所形成的模板库之间的相似度来判断输入语音的语意信息。

本系统基于HMM实现语音识别,HMM是一种能很好地描述语音信号的时变性和平稳性的统计模型,被广泛地应用于语音信号处理的各个领域。一个HMM模型由若干个状态组成,随着时间的变化,各个状态之间可以发生转移。每个观测值对不同的状态都有相应的输出概率。HMM结构如图5所示。

图中,表示状态序列;是初始状态概率的集合;A为状态转移概率的集合(矩阵);B表示输出观测值概率集合;表示观测序列,则HMM参数可以表示为:,参数估计的流程图如图6所示。

4 结语

本文研究了基于HMM的语音识别技术,选用MFCC作为语音特征参数,采用Baum-Welch算法训练得到语音模型参数。据此设计了一种基于DSP的人机交互系统,利用语音实现了人机交互功能,克服了鼠标、键盘等受限的缺点。该系统成本低、语音识别率较高,具有一定的实用价值。

参考文献

[1]王璟珣,滕召胜,高云鹏,王一,李聪聪.嵌入式盲人手机语音识别与控制系统设计[J].计算机测量与控制,2009,17(10).

[2]吕钊.噪声环境下的语音识别算法研究[D].安徽:安徽大学计算机应用技术,2011.

[3]崔建华,徐万明,夏玉杰.基于VC5509的语音处理系统设计[J].内江科技,2009(1).

上一篇:10kv配电线路无功补偿投切方式的探讨 下一篇:基本数字钟电路的设计、制作与检测