语音识别系统范文

时间:2023-03-05 10:50:18

语音识别系统

语音识别系统范文第1篇

【关键词】语音识别 模式识别 过程 统功能

1、语音识别技术原理简介

1.1语音识别技术的概念

语音识别技术(Auto Speech Recognize,简称ASR)所要解决的问题是让计算机能够“听懂”人类的语音,将语音中包含的文字信息“提取”出来。ASR技术在“能听会说”的智能计算机系统中扮演着重要角色,相当于给计算机系统安装上“耳朵”,使其具备“能听”的功能,进而实现信息时代利用“语音”这一最自然、最便捷的手段进行人机通信和交互。

1.2语音识别的系统组成

语音识别系统构建过程整体上包括两大部分:训练和识别。

1.2.1训练

训练通常是离线完成的,对预先收集好的海量语音、语言数据库进行信号处理和知识挖掘,获取语音识别系统所需要的“声学模型”和“语言模型”。

1.2.2识别

识别过程通常是在线完成的,对用户实时的语音进行自动识别,可以分为“前端”和“后端”两大模块:“前端”模块主要的作用是进行端点检测(去除多余的静音和非说话声)、降噪、特征提取等;“后端”模块的作用是利用训练好的“声学模型”和“语言模型”对用户说话的特征向量进行统计模式识别(又称“解码”),得到其包含的文字信息,此外,后端模块还存在一个“自适应”的反馈模块,可以对用户的语音进行自学习,从而对“声学模型”和“语音模型”进行必要的“校正”,进一步提高识别的准确率。

语音识别技术所面临的问题是非常艰巨和困难的。尽管早在二十世纪五十年代,世界各国就开始了对这项技术孜孜不倦的研究,特别是最近二十年,国内外非常多的研究机构和企业都加入到语音识别技术的研究领域,投入了极大的努力,也取得了丰硕的成果,但是直到今天,距离该技术得到完美解决还存在着巨大的差距,不过这并不妨碍不断进步的语音识别系统在许多相对受限的场合下获得成功的应用。

如今,语音识别技术已经发展成为涉及声学、语言学、数字信号处理、统计模式识别等多学科技术的一项综合性技术。基于语音识别技术研发的现代语音识别系统在很多场景下获得了成功的应用,不同任务条件下所采用的技术又会有所不同。

2、语音识别系统技术实现

语音识别系统选择识别基元的要求是:有准确的定义,能得到足够数据进行训练,具有一般性。系统所需的训练数据大小与模型复杂度有关,模型设计得过于复杂以至于超出了所提供的训练数据的能力,会造成系统性能的急剧下降。

2.1听写机

2.1.1概念

大词汇量、非特定人、连续语音识别系统通常称为听写机。

2.1.2基本架构

听写机是建立在前述声学模型和语言模型基础上的HMM拓扑结构,训练时对每个基元用前向后向算法获得模型参数,识别时将基元串接成词,词间加上静音模型并引入语言模型作为词间转移概率,形成循环结构,用Viterbi算法进行解码。针对汉语易于分割的特点,先进行分割再对每一段进行解码,是用以提高效率的一个简化方法。

2.1.3对话系统

用于实现人机口语对话的系统称为对话系统。目前,受技术所限,对话系统往往是面向一个狭窄领域、词汇量有限的系统,其题材有旅游查询、订票、数据库检索等等。它的前端是一个语音识别器,识别产生的N-best候选或词候选网格,由语法分析器进行分析获取语义信息,再由对话管理器确定应答信息,由语音合成器输出。基于目前的系统往往词汇量有限的情况,也可以用提取关键词的方法来获取语义信息。

3、语音识别系统特性

语音识别系统的性能受许多因素的影响,包括不同的说话人、说话方式、环境噪音、传输信道等等。具有自适应性与鲁棒性。解决办法可大致分为两类:针对语音特征的方法(以下称特征方法)和模型调整的方法(以下称模型方法)。前者需要寻找更好的、高鲁棒性的特征参数,或是在现有的特征参数基础上,加入一些特定的处理方法。后者是利用少量的自适应语料来修正或变换原有的说话人无关(SI)模型,从而使其成为说话人自适应(SA)模型。

4、语音识别的应用

语音识别专用芯片的应用领域,主要包括以下几个方面:

4.1电话通信的语音拨号。特别是在中、高档移动电话上,现已普遍的具有语音拨号的功能。随着语音识别芯片的价格降低,普通电话上也将具备语音拨号的功能。

4.2汽车的语音控制。由于在汽车的行驶过程中,驾驶员的手必须放在方向盘上,因此在汽车上拨打电话,需要使用具有语音拨号功能的免提电话通信方式。此外,对汽车的卫星导航定位系统(GPS)的操作,汽车空调、照明以及音响等设备的操作,同样也可以由语音来方便的控制。

4.3工业控制及医疗领域。当操作人员的眼或手已经被占用的情况下,在增加控制操作时,最好的办法就是增加人与机器的语音交互界面。由语音对机器发出命令,机器用语音做出应答。

4.4个人数字助理(Personal Digital Assistant,PDA)的语音交互界面。PDA的体积很小,人机界面一直是其应用和技术的瓶颈之一。由于在PDA上使用键盘非常不便,因此,现多采用手写体识别的方法输入和查询信息。但是,这种方法仍然让用户感到很不方便。现在业界一致认为,PDA的最佳人机交互界面是以语音作为传输介质的交互方法,并且已有少量应用。随着语音识别技术的提高,可以预见,在不久的将来,语音将成为PDA主要的人机交互界面。

4.5智能玩具。通过语音识别技术,我们可以与智能娃娃对话,可以用语音对玩具发出命令,让其完成一些简单的任务,甚至可以制造具有语音锁功能的电子看门狗。智能玩具有很大的市场潜力,而其关键在于降低语音芯片的价格。

4.6家电遥控。用语音可以控制电视机、VCD、空调、电扇、窗帘的操作,而且一个遥控器就可以把家中的电器皆用语音控起来,这样,可以让令人头疼的各种电器的操作变得简单易行。

参考文献:

[1]刘幺和,宋庭新.语音识别与控制应用技术[M].科学出版社,2008(3)

语音识别系统范文第2篇

1语音识别系统设计的技术依据

近年来国内教育信息化趋势更加明显,英语教学活动建立信息化平台是师生所需,改变了早期英语课堂模式的不足之处。语音识别是计算机翻译软件不可缺少的一部分,如图1,主要针对不同语言进行识别处理,帮助学生快速地理解英语知识内涵。语音识别技术主要包括:特征提取技术、模式匹配技术、模型训练技术等三大技术,也是系统设计需考虑的重点。

1)特征提取技术。一般来说,语音识别系统辅助功能涉及到收录、处理、传递等三个环节,这也是语音识别系统设计的关键所在。计算机语言与自然语言之间存在极大的差异性,如何准确识别两种语言的差异性,这是翻译软件识别时必须解决的问题。特征提取技术是语音识别系统的基本构成,主要负责对英语语言特征进行提取,向翻译器及时提供准确的语言信号,提高计算机翻译工作的准确系数。

2)模式匹配技术。语音识别系统要匹配对应的功能模块,以辅助师生在短时间内翻译出语言含义,避免人工翻译语言失误带来的不便。模式匹配技术采用智能识别器,由翻译器录入语音之后自主化识别、分析,减小了人工翻译语句的难度。例如,计算机软件建立匹配模型,按照英语字、词、句等结构形式,自动选择相配套的翻译模式,执行程序命令即可获得最终的语言结果,给予学生语音识别方面的帮助。

3)模型训练技术。设计语音识别系统是为了实现教育信息化,帮助教师解决英语课堂教学中遇到的翻译难题,加深学生们对英语知识的理解能力。语音识别结束之后,翻译器会自动执行模拟训练操作,为学生创建虚拟化的语音训练平台,这也是软件识别系统比较实用的功能。模拟训练技术采用人机一体化设计思想,把翻译器、语音识别器等组合起来执行训练方式,快速地识别、判断英语发声水平,指导学生调整语音方式。

2英语翻译器语音识别系统设计及应用

英语翻译器是现代化教学必备的操作工具,教师与学生借助翻译器功能可准确地理解英语含义,这对语音识别系统设计提出了更多要求。笔者认为,设计语音识别系统要考虑翻译器具体的工作流程,事先编排一套符合翻译软件工作的方案,如图2,从而提高人机语言转换速率。语音识别系统设计及应用情况:

1)识别模块。语音识别方法主要是模式匹配法,根据不同翻译要求进行匹配处理,实现英语翻译的精准性。一是在训练阶段,用户将词汇表中的每一词依次说一遍,并且将其特征矢量作为模板存入模板库;二是在识别阶段,将输入语音的特征矢量依次与模板库中的每个模板进行相似度比较,将相似度最高者作为识别结果输出。

2)前端模块。前端处理是指在特征提取之前,先对原始语音进行处理,这是预处理操作的主要作用。语音识别系统常受到外界干扰而降低了翻译的准确性,设计前段处理模块可消除部分噪声和不同说话人带来的影响,使处理后的信号更能反映语音的本质特征。例如,比较常用的前端处理有端点检测和语音增强。

3)声学模块。语音识别系统的模型通常由声学模型和语言模型两部分组成,分别对应于语音到音节概率的计算和音节到字概率的计算。声学特征的提取与选择是语音识别的一个重要环节,这一步骤直接关系到翻译器的工作效能,对英语语音识别与学习有很大的影响。因此,声学模块要注重人性化设计,语音设定尽可能符合自然语言特点。

4)搜索模块。英语语音识别中的搜索,就是寻找一个词模型序列以描述输入语音信号,从而得到词解码序列。本次所设计的搜索模块中,其前端是一个语音识别器,识别产生的N-best候选或词候选网格,由语法分析器进行分析获取语义信息,再由对话管理器确定应答信息,由语音合成器输出。由于目前的系统往往词汇量有限,也可以用提取关键词的方法来获取语义信息。

5)执行模块。实际应用中,语言识别系统凭借执行模块完成操作,对英语语言识别方式进行优化择取,以最佳状态完成英语翻译工作。目前,就英语教学中使用情况,听写及、对话系统等是语音识别执行的两种方式,充分展现了翻译器在语言转换方面的应用功能。(1)听写机。大词汇量、非特定人、连续语音识别系统通常称为听写机。其架构就是建立在前述声学模型和语言模型基础上的HMM拓扑结构。训练时对每个基元用前向后向算法获得模型参数,识别时,将基元串接成词,词间加上静音模型并引入语言模型作为词间转移概率,形成循环结构,用Viterbi算法进行解码。(2)对话系统。用于实现人机口语对话的系统称为对话系统,英语翻译器中完成了人机对话、语言转换等工作,全面提升了翻译器操控的性能系数。受目前技术所限,对话系统往往是面向一个狭窄领域、词汇量有限的系统,其题材有旅游查询、订票、数据库检索等,随着语音数据库资源的优化配置,对话系统功能将全面升级。

3翻译器使用注意事项

语音识别系统就是让机器通过识别和理解过程,把语音信号转变为相应的文本或命令的高科技。随着高校教学信息化建设时期到来,计算机软件辅助教学活动是一种先进的模式,彻底改变了传统人工教学模式的不足。翻译软件采用数字化元器件为硬件平台,配合远程互联网建立多元化传输路径,满足了英语翻译数据处理与传输的应用要求。但是,未来英语教学内容越来越复杂,翻译器语音识别系统承载的数据范围更广,学校必须实施更新翻译软件产品,才能进一步提升英语智能化翻译水平。

4结论

总之,信息时代英语教学必然朝着信息化方向发展,翻译软件是英语网络化教学不可缺少的工具。语音识别系统作为翻译器工作的主控装置,其在设计时需综合考虑软件执行要求,编制相对完整的翻译处理操作流程。特征提取、模式匹配、模型训练等是语言识别设计的核心技术,设计中考虑识别方法、前端处理、声学模型、信号搜索等功能,便能全面地辅助英语翻译教学活动,综合培养学生的英语翻译技能。

语音识别系统范文第3篇

【关键词】隐马尔可夫;语音识别;单片机

在这个高科技的信息时代,计算机占着极为重要的地位,人机通信是人与机器之间进行信息通讯,使机器按照人的意愿工作,传统的人机通信是通过键盘、按钮以及显示器等机器设备实现的,在许多场合都不是很方便,其最理想的通信方式就是通过语音进行识别。实现人与机器通过自然语音的方式进行信息通讯,不仅可以简化日常工作,更可以提高工作效率,带给人们极大的方便。而实现这个理想最关键的部分就是语音识别技术。

1语音识别概述

1.1语音信号的产生

物体的振动产生声音,正在发声的物体叫做声源,声音在介质中以声波的形式传播。语音是指人的发声器官振动所发出的负载一定语言意义的声音,发音器官主要有肺部、气管、喉部、咽、鼻腔、口腔和上下唇,每个人的声道各不相同,从而各自发出的声音也不相同。

语音信号主要有模拟信号和数字信号两种表现形式。模拟信号是人直接通过耳朵听到的信号,是时间和幅值均连续的物理量,由于其数据量过大、有较多的随机因素等原因不能直接被作为计算机的识别信号。数字信号是时间和数值均离散的二进制数字量化的模拟信号,是计算机语音识别技术的基础。数字信号相比模拟信号有以下优点:可以实现很多复杂的信号处理工作;具有可靠性高、价格低廉、反应迅速等特点;有利于区分出干扰信号等。所以要想使计算机按照人类的自然语言要求工作,关键的就是将模拟信号转换为数字信号。

1.2语音信号的处理

根据讨论,若要对语音信号进行处理必须先对此信号进行预处理,即将模拟信号转换为数字信号,再整理、分析、理解转换后的数字信号,并过滤掉多余的信息。主要包括数字化、预加重和加窗分帧三部分。

数字化就是把语音模拟信号转换为数字信号的采样与量化过程,采样是在相同间隔的时间内抽取信号而得到离散的序列,并将其转换为数字。量化则是在有限的区域内分布采样后的信号。预加重是通过一个高通滤波器使频谱变得平坦,防止衰减作用,不受有限字长效应的影响。以“帧”为单位对语音信号进行截取,使信号有短时平稳的特征,加窗则可以让截取的信号波形更加平滑。

1.3语音信号的模块处理

在语音识别中,常使用的基本算法有:动态时间规整技术(DTW)、隐马尔可夫模型(HMM)和人工神经元网络(ANN)。

1)隐马尔可夫模型

隐马尔可夫模型(HMM)在当前语音识别系统中占据主流地位。它是一种随机概率模型,其使用大大降低了模型的复杂度。早在20世纪六七十年代就开始研究的统计信号模型。HMM是在Markov链的基础上发展起来的,但实际问题要更为复杂,所观察到的事件与一组概率分布相关。它是一个双重随机过程,一个是Markov链,这是基本随机过程,它描述状态的转移;一个是随机过程描述状态和观测值之间的统计对应关系,观察者不能直接看到状态,而是由感觉感知到的,因此称之为“隐”Markov模型,即HMM。

2)人工神经网络法

ANN现在已经成为了另一个热点,是非线性系统,具有DTW和HMM没有的对比、概括、推理能力。

3)动态时间规整技术

DTW是模板训练和模式匹配中出现最早的技术,使用动态规划技术在孤立词语音识别中具有良好的成果,但是其计算量较大,很难被使用到现实中的语音识别。目前已经被其他的算法所替代。

2语音识别系统设计思路

语音识别技术正在不断的发展中,在硬件平台上实现语音识别以取代繁琐的工作成为其发展的必然趋势。本文就是对基于单片机的语音识别系统的研究。由于单片机本身存在着处理速度慢、存储能力不强大的缺陷,所以此次设计是基于孤立词的语音识别系统。

语音识别系统的模型库训练工作原理是:特定人的语音信号进入系统,系统对进入的语音信号滤波,目的是为了消除需要的语音频率之外的其他杂音,进而数模转换,将输入的语音模拟信号数字化,有利于计算机进行识别。数字化后的语音信号再通过预处理、加窗分帧。对于剩下的语音信号送入HMM模板与模板库进行训练和匹配,再将最佳的结果传输给用户。

3系统模块设计及系统测试

此次设计是基于单片机的语音识别系统研究,有以下几点要求:该系统必须使完整的语音识别系统,有简单的显示功能,提高系统的识别性能,体积尽量减小。

工作原理首先采集语音信号,输入完成后通过滤波采集需要的语音信号,再通过数模转换器进入控制器,再与标准语音库中的语音信号进行对比,找出最接近该段信号的语音,再将识别出的语音通过LCD显示模块显示给用户。

系统检测首先确认是否有按键按下,当检测到有按键按下时,表示系统开始运行,如果没有按下,则表示系统处于非工作状态,只有当有按键时,才可以工作。进而开始接收语音信号,首先对语音信号进行滤波消除杂音,然后通过数模转换电路,将模拟信号转换为数字信号,预处理、端点检测后,与事先存储好的信号进行比对,得到最后的识别结果,将识别出来的结果,送往LCD液晶显示器上显示出来,展现给用户。

此次设计通过MATLAB软件实现对语音信号的调试。在接收语音信号时,有可能产生外界的干扰噪声,这就需要我们通过一系列复杂的公式计算,对该信号进行处理,进而在送由单片机进行下一步的工作。

4结束语

语音识别技术是实现人与计算机进行直接对话,让计算机自动对人所说的话进行识别、理解并执行的技术手段。语音识别技术的应用已经成为一个被受关注的新型技术产业,它的实现能够简化人们在以往工作中的繁琐,未来语音识别还要向低成本、高性能方向不断发展。

【参考文献】

[1]马丽静.基于单片机控制的语音识别系统的软件开发[J].电脑开发与应用,2003(05):37-38.

语音识别系统范文第4篇

关键词:语音识别;动态时间规整(DTW);数字信号处理器(DSP)

1 引言

语音识别按不同的角度有以下几种分类方法:从所要识别的单位,有孤立词识别、音素识别、音节识别、孤立句识别、连续语音识别和理解。目前已进入识别的语音识别系统是单词识别。以几百个单词为限定识别对象。从识别的词汇量来分。有小词汇(10-50个)、中词汇(50-200个)、大词汇(200以上)等。从讲话人的范围来分。有单个特定讲话人、多讲话人和与讲话者者无关。特定讲话人比较简单,能够得到较高的识别率。后两者难度较大,不容易得到高的识别率。 从识别的方法分。有模块匹配法、随机模型法和概率语法分析法。这三种都属于统计模式识别方法。

2 系统硬件及组成

2.1 系统概述

语音识别系统的典型实现方案如图1所示。输入的模拟语音信号首先要进行预处理,语音信号经过预处理后,接下来重要的一环就是特征参数提取,其目的是从语音波形中提取出随时间变化的语音特征序列。然后建立声学模型,在识别的时候将输入的语音特征同声学模型进行比较,得到最佳的识别结果。

2.2 硬件构成

本文采用DSP芯片为核心(图2所示),系统包括直接双访问快速SRAM、一路ADC/一路DAC及相应的模拟信号放大器和抗混叠滤波器。外部只需扩展FLASH存储器、电源模块等少量电路即可构成完整系统应用。

2.3 系统主要功能模块构成

语音处理模块采用TI TMS320VC5402, TMS320VC5402含4 KB的片内ROM和16 KB的双存取RAM,一个HPI(HostPortInterface)接口,二个多通道缓冲单口MCBSP(Multi-Channel Buffered SerialPort),单周期指令执行时间10 ns,带有符合IEEE1149.1标准的JTAG边界扫描仿真逻辑。语音输入、输出的模拟前端采用TI公司的TLC320ADSOC,它是一款集成ADC和DAC于一体的模拟接口电路,并且与DSP接口简单,性能高、功耗低,已成为当前语音处理的主流产品。16位数据结构,音频采样频率为2~22.05 kHz,内含抗混叠滤波器和重构滤波器的模拟接口芯片,还有一个能与许多DSP芯片相连的同步串行通信接口。TLC320AD50C片内还包括一个定时器(调整采样率和帧同步延时)和控制器(调整编程放大增益、锁相环PLL、主从模式)。TLC320AD50C与TMS320VC5402的硬件连接,如图3所示。

3 结论

本文以TMS320VC5402芯片为核心的系统硬件设计迸行了研究,通过TLC320AD50C对语音信号进行A/D转换,通过TMS320VC5402对语音信号“0”、“1”、“2”进行训练和识别,并由对于灯LED0、LED1、LED2亮来显示结果是否正确;该系统核心识别算法采用动态时间规整(DTW)算法,主要流程包括预处理、端点检测、提取特征值、模式匹配和模板训练,取得了很好的识别效果。

参考文献

[1] 朱铭锆, 赵勇, 甘泉. DSP应用系统设计 [M].北京:电子工业出版社,2002.

[2] 郭华. 自适应滤波算法及应用研究[D].兰州:西北师范大学,2007.

[3] 张雄伟..DSP芯片的原理与开发应用[M].北京:电子工业出版社,2009.

[4] 张德丰. 数字图象处理(MATLAB版)[M].北京:人民邮电出版社,2009.

作者简介

王宇,邵阳学院魏源国际学院电子科学与技术专业学生。

通讯作者

语音识别系统范文第5篇

自上世纪中期以来,语音教学在语言教学中逐步受到重视,教育部《高等学校英语专业英语教学大纲》对学生的语音能力提出明确的要求,即要求发音正确,语调比较自然,以此目标指导语音教学。语音教学随同外语教学理论、模式的演变也在经历着一系列的变革,教学重点从初期的音素和单词发音,发展到目前着重超切分音,如中信、节奏和语调等(罗立胜,2002)。而语言教学方式也由机械的模仿、重复、跟读、单音纠正发展到今天交际性的练习和自主练习。但是在对新生的语音情况调查中发现,往往这种交际性练习和自主练习存在以下几方面问题:学生水平参差不齐,受母语影响程度不一,大部分中学学习过英语语音但不系统,也不够重视。中学教师因受应试教育的影响,少有时间教授语音发音,经调查,80%的学生称中学学习过程中惟一的语音输入来自英语教师。仅有30%的学生称听过磁带、看过英文电影。语音学习双层面的脱节性和去语境化学习97%学生因高考需要背记过国际音标及其在英语单词中的读音,但80%的学生表示没有进行过系统的语音训练,缺乏语境化教学。自主语音学习效果欠佳,孤立的语音练习很难在实际语言交流中应用。目前,语音课上教师主要帮助学生一对一,对比模仿练习发音,缩小学生在语音认知上母语和目标语之间的差异。课后学生仅能通过模仿有声资料提高语音。标准程度往往由学生自行判断,由于学生听说能力的差异,自行判断发音是否准确是不确定的。本文试图以现代的语音教学技术Reading Assistant语音识别系统的引入探讨语音教学模式的改革。

二、对Reading Assistant语音识别系统有效手段的分析

Reading Assistant语言学习系统由美国科学学习公司研发的,以语言学习理论和过程为基础,旨在通过朗读提高语音、词汇、语法等语言综合技能即“以读促学”,笔者所在西安外国语大学英文学院于2008年9月开始使用该系统,拥有600个账号,仅供一年级新生使用。目前主要用于配合语音课程,辅助完善语音自主学习。根据上述语音教学中存在的问题和应该坚持的教学原则,和以下Reading Assistant的教学特点作一对照,就不难理解该语音识别系统对英语语音学习及语言学习的可行性了。

1.根据Reading Assistant(语音识别)系统的(以下简称语音识别)的设计。实行学生每人拥有一个使用账号,便于展开个性化的、有针对性的指导。满足不同层次学生的要求,在语音教学中众多语言教师发现模仿是提高语音的最有效方法之一,但是模仿什么语音材料,模仿哪种语音,怎样模仿和自主学习能否模仿后是否准确仍有很大的困难,在使用语音识别系统时,学生首先要根据其设定的不同级别,和原有的测试级别自行测试,从精选的不同层次的150篇文章中选择适合自己水平和类别的进行朗读。

每次朗读后根据语音发音有成绩记录,每篇文章可以朗读10次。语音识别系统是建立在建构主意语音教学模式的理论智商,学生是学习的主体,不是被动地接受知识,而是主动地在原有的知识体系中,通过不断地积极实践,构建自己的新的知识和经验。因此在这种长期的语音练习过程中,学生可以根据自己的学习需要“建构”语音学习材料,提高自主学习能力。

2.导入语音练习的语境化,模仿对象的本土化。在实际交往活动中,听、说、读、写不是以孤立的因素和单词为单位进行思想交流的,取而代之的是以综合的句子和更高层次的话语单位进行的,孤立的因素和单词的发音在综合运用中会产生很大的变异,如连读、失去爆破、弱读等影响,因此,语音识别系统通过不同类别的文章(包括科技、生活、文艺、人物传记)等等构建不同的语境,除了传统意义对话中包含的语境外,文章中还涉及各个年龄段,男声、女声等读音。录音及文章内容的选择全部出自母语国家。确保模仿对象发音的准确性。

3.判读过程的准确性和可调节性。根据语音识别系统读音匹配程度的设计,学生在阅读过程中分别会出现完全正确发音、误读、不会读、不准确等情况,并以不同颜色标注。每次阅读完成后,学生可以查看有哪些单词不准确。开始阅读后,每读一个单词就会有不同颜色显示。而在本身阅读中如果出现严重的错读,该识别系统会停止前进,并随机开始正确读音,要求练习者跟读。教师也可以根据自己的界面监控学生朗读过程,随时抽听不同学生的朗读情况。过度的纠错会挫伤部分水平较低学生的学习积极性,因此在开始学习阶段教师可以根据学生各个层次的学习调整不同的匹配度以提高学生学习兴趣。

三、学生对语音识别使用情况及存在的问题

经过对英文学院2008级540名学生一学年使用情况的调查,86%的学生表示自己经常去RA实验室,80%的学生认为RA有助于阅读水平的提高,95%的学生认为RA对语音语调有帮助,90%的学生认为RA对听力有帮助,85%的学生认为RA对整体学习有提高。对于语音识别系统进一步的学习和开发,学生表示除英语专业学生初期应用在语音教学以外,还应考虑继续辅助阅读、写作等课程。而语音识别系统中文章内容选择可以适当考虑本土化,多针对中国学生发音中存在的问题进一步涉及文章和练习。

综上所述,外语语音教学目标不再是僵硬的单音、音素教学,而是融合更多语言交际任务的综合教学,而随着计算机、数字化和语音识别技术的发展,充分利用现代教育技术不仅可以丰富教学内容,更重要的是注意到学生的情感因素,培养学生自主学习能力,让语音教学改变以往依赖性、单一性、枯燥性,使其更具创造性,让以读促学全方位体现在英语学习中。

参考文献

[1]罗立胜等.英语语音教学的回顾及对目前英语语音教学的几点意见.外语与外语教学,2002(10).

[2]顾佩娅等.基于构建主义的计算机辅助项目教学实践.外语与外语教学,2003(7).

[3]陈爱勤,石春熙.英语专业新生语音教学的语境论研究.长春师范学院学报(人文社会科学版),2008(1).

作者单位:

语音识别系统范文第6篇

关键词:语音识别;数字信号处理器;美尔频率倒谱系数;动态时间规整

中图分类号:TP319 文献标识码:A 文章编号:2095-1302(2012)09-0014-02

Design of voice recognition system based on TMS320C6713

XU Fei-yan1, CHEN Tao2, SUN Xu3, FANG Zong-liang1, LI Li-rong1

(1. Department 2, Anti-Chemical Institute, Beijing 102205, China;

2. Beijing Research & Development Center of Xiamen Jiuhua Communications Equipment Factory, Beijing 100083, China;

3. Chengdu University of Technology, Chengdu 610059,China)

Abstract: Taking the TMS320C6713DSP with floating-point functions produced by Texas Instruments chip as the system core processor and the MSP430 microcontroller as a peripheral controller, a real-time speech recognition system is designed in the paper. The kernel algorithm for the system uses Mel-frequency cepstral coefficients as feature parameters for feature extraction and dynamic time warping (DTW) algorithm for pattern matching. Programming and debugging of the system indicate that the system has good flexibility and real-time capability and improves the performance in noise immunity, robustness and recognition rates. In many areas, it has a practical reference value.

Keywords: speech recognition; digital signal processing; Mel-frequency cepstral coefficients; dynamic time warping

0 引 言

语音识别[1]是一种最为理想的人机通信方式。随着计算机技术的进步,语音识别技术已经逐渐应用于控制、通信、消费等行业[2]。但是,语音识别系统在商品化的进程中还存在着诸如识别速度、系统鲁棒性以及更高的识别率等具体问题。如何提高语音识别系统的这些性能,使系统更快、更稳定地工作是目前研究的重点。本文正是基于这种思想,通过选用德州仪器公司带浮点功能的DSP芯片TMS320C6713(主频为200 MHz)作为语音信号处理的核心处理器,同时结合MSP430单片机作为控制器共同构建硬件系统, 以美尔频率倒谱系数作为语音信号特征参数,结合动态时间规整孤立词识别算法进行模式匹配,设计了一种具有良好实时性和高识别率及鲁棒性的语音识别系统。

1 系统硬件设计

本设计的整个硬件系统是以DSP为核心电路对语音信号进行采集和处理,再经过A/D转换电路把模拟语音信号转换成数字语音信号,然后送入DSP芯片进行匹配识别,最后将识别后的结果通过单片机控制模块外接的两个红绿颜色的二极管进行处理表示,其中红色表示拒绝命令,绿色表示接受命令。系统的硬件平台主要由DSP系统核心处理模块、语音信号采集模块、单片机控制模块、外扩存储器模块和电路等几个模块构成。系统的硬件设计总体方案框图如图1所示。

1.1 DSP系统核心处理模块

作为系统的核心模块DSP芯片采用TMS320C6713,该芯片的主频可达200 MHz。这是TI公司推出的一种新型的浮点DSP芯片,是继定点DSP芯片TMS320C62X系列后开发的。该芯片的内部结构在TMS320C62X的基础上进行了改进,内部同样集成了多个功能单元,可同时执行8条指令,其运算能力可达1G FLOPS。片内具有丰富的外设,如EDMA、EMIF、McBSP、HPI、GPIO等[4]。

TMS320C6713 以其出色的运算能力、高效的指令集、智能外设、大容量的片内存储器和大范围的寻址能力,十分适合对运算能力和存储量有高要求的应用场合。

1.2 语音信号采集模块

语音识别系统范文第7篇

为了解决语音信号中帧与帧之间的重叠,提高语音信号的自适应能力,本文提出基于隐马尔可夫(HMM)与遗传算法神经网络改进的语音识别系统.该改进方法主要利用小波神经网络对Mel频率倒谱系数(MFCC)进行训练,然后利用HMM对语音信号进行时序建模,计算出语音对HMM的输出概率的评分,结果作为遗传神经网络的输入,即得语音的分类识别信息.实验结果表明,改进的语音识别系统比单纯的HMM有更好的噪声鲁棒性,提高了语音识别系统的性能.

关键词:

隐马尔可夫模型;神经网络;语音识别;遗传算法

随着语音识别技术的发展,人们对语音识别的技术要求越来越高,隐形马可夫模型(HiddenMarkovModel,简称HMM),在语音识别中已经广泛得到应用.但是,其自适应能力差,抗噪性也不是十分理想,仅靠单一的HMM进行语音识别存在诸多困难[1,2].而现在广泛应用的人工神经网络(ArtificalNeuralNet-work,简称ANN)[3,4],在自适应、抗噪性方面具有良好的特性,克服了HMM中存在的不足.反向传播神经网络(BP)虽然已经是神经网络中前向神经网络的核心部分,并且得到了广泛的应用[5].然而,BP神经网络也存在诸多缺点,比如学习收敛速度太慢,使其只能解决小规模的问题,也不能保证收敛到全局最小点,使得训练结果达不到全局最优性.遗传算法优化后的反向传播神经网络(GA-BP)[6-9]的混合模型语音识别方法,有效地保证训练结果的全局最优性,在语音识别的速度方面也有大幅度的提高,但在噪声环境下,遗传算法优化后的反响传播神经网络噪声鲁棒性并不是十分理想,因此也对语音识别系统的性能带来了影响[10].本文运用小波神经网络结构简单、收敛速度快的优点,对MFCC系数进行训练,从而得到新的MFCC系数,再进行特征提取后作为遗传算法优化后的输入.然后利用优化后的遗传神经网络获得语音的分类识别信息进行语音识别.实验结果表明,基于HMM与遗传神经网络改进的语音识别系统进一步提高了语音识别系统的自适应性和噪声鲁棒性.

1隐马尔可夫模型语音识别原理

隐马尔可夫模型是一种利用相关参数来表示,并用于描述随机过程中统计特性的概率模型[11].它的本质是一种基于统计分布一致性的聚类分析,每个隐含的状态就是一个聚类,对HMM进行训练的过程就是寻找每个聚类之间的相关联的过程.它由两部分组成:一个是隐含的马尔可夫链,即为隐含层;另一个是实际的观测量,即为观测层.HMM基于参数统计理论,利用概率密度函数计算出语音参数对模型的输出概率,找到最佳状态序列以后,用最大后验概率为准则进行识别.语音参数和隐马尔可夫模型关系如下图图1所示.

2基于遗传算法的神经网络优化算法

BP神经网络是人工神经网络中应用最为广泛的算法,但在广泛运用的同时,也逐渐出现一些不足之处,比如收敛速度慢、不能保证收敛到全局最小点等等.另外,网络结构,初始连接权值与阈值的选取对网络训练带来的影响也非常大,但是又无法准确获得.针对这些特点可以采用遗传算法对神经网络进行优化.

2.1传统遗传算法传统遗传算法实现步骤如下:1)随机产生一定数量的初始个体,这些随机产生的初始个体总体数目组成一个种群.2)用评价函数来评价每个个体的优劣,每个个体的适应程度(称为适应度)作为遗传操作的依据.3)从现有的种群中选取一定的个体作为新一代的个体,个体适应程度越高,被选择的机会越大.4)对于新生成的种群进行交叉、交异操作.

2.2用遗传算法优化神经网络权值的学习过程遗传算法(GeneticAlgorithm,GA)是模拟著名天文学家达尔文的遗传选择和生物进化的计算模型,具有很强的宏观搜索能力和良好的全局优化性能[12,13].因此采取遗传算法与BP神经网路相结合,训练时先用遗传算法对神经网络的权值进行寻找,将搜索范围缩小后,再利用BP网络来进行精确求解,可以达到全局寻找和快速高效的目的,并且避免局部最小问题.算法结束后,由群体中最优个体解码即可得到优化后的网络连接权值系数.

3基于HMM与遗传神经网络改进的语音识别系统设计

现有的语音识别系统只能处理平稳信号,而人说话的语言频率不一样使得语音信号是一个准稳态信号,这时就要把语音划分成若干帧以达到信号稳定的要求.但这存在的不足之处就是并没有考虑到语音信号的动态特性,根据神经网络在非线性映射方面有比较好的效果,同时神经网络也具有小波多分辨分析的性能,从而可以从样本中提取出来新的特征信息.本文采用基于HMM与遗传神经网络改进的语音识别系统,对输入语音信号进行预处理后,利用小波神经网络训练MFCC系数,然后根据HMM参数库进行Viterbi译码,归一化处理以后作为优化后遗传神经网络的输入,即将HMM中全部状态累计概率作为优化后的遗传神经网络特征输入,再根据神经网络的非线性映射能力对语音信号识别出所需要的结果.改进后的语音识别系统流程图如图3所示.

4仿真实验及结果分析

实验语音文件从十个人中采集,一个文件有中文数字1-9组成.每个人录了四次,其中三个用于培训和一个用于测试.记录格式的采样频率8kHz,单通道16位采样点,采取的帧长为256点.记录后,点检测去除无声段,其次是预加重.然后,语音段划分为20个帧,从每一帧中提取的特征参数.一个帧有10个特征.因此,每一个数字都会有200特点.实验训练集采取100个不同人员的净语音样本;在不同的信噪比下取50个不同人员的语音信息;在不同的环境下,采用的语音数据的信噪比分别为40、35、30、25、20、15、5和0dB.实验时,为了验证改进的语音识别系统的有效性,在Matlab7.0上分别对HMM,HMM与优化后的遗传神经网络和本文改进后的混合语音识别模型算法做对比.实验分为两次实验过程,第一次在加性高斯噪声下;第二次在学校餐厅学生就餐时人声为噪声背景.实验分别得出语音在加性高斯噪声下识别率如表1和图4;在学校餐厅时实验结果如表2和图5所示.由表1和表2中的实验数据可以看出,改进以后的混合算法相比单一的HMM和优化的遗传神经网络相比具有更好的识别效果,尤其对那些容易混淆的词语识别率也有所提高.对于识别系统的信噪鲁棒性方面也有了明显的改变,提高了语音识别系统的自适应能力.神经网络的收敛速度是衡量语音识别的一个重要标准,因此遗传神经优化算法与BP算法收敛速度作了如图6、图7的比较,实验结果表明,优化算法收敛速度得到明显改善.

5结论

本文提出了基于隐马尔可夫HMM与遗传算法的神经网络改进的语音识别系统,在隐马尔可夫模型与遗传网络算法优化的基础上,引入小波神经网络训练MFCC系数,充分利用了隐马尔可夫模型强大的时间建模能力与遗传算法优化后的收敛速度快、分类识别能力强的优点.小波神经网络训练出的MFCC新系数应用到优化后的神经网络具有更高的识别率,提高了识别系统的自适应能力.

参考文献

1吕军,曹效英,徐宝国.基于语音识别的汉语发音自动评分系统的设计与实现.计算机工程与设计,2007,28(5):1232–1235.

2郭超,张雪英,刘晓峰.支持向量机在低信噪比语音识别中的应用.计算机工程与应用,2013,49(5):213–215.

3SemanN,BakarZA,BakarNA.TheoptimizationofArtificialNeuralNetworksconnectionweightsusinggeneticalgorithmsforisolatedspokenMalayparliamentaryspeeches.2010InternationalConferenceonComputerandInformationApplication(ICCIA).IEEE.2010.162–166.

4LanML,PanST,LaiCC.Usinggeneticalgorithmtoimprovetheperformanceofspeechrecognitionbasedonartificialneuralnetwork.FirstInternationalConferenceonInnovativeComputing,InformationandControl(ICICIC’06).IEEE.2006,2.527–530.

5王晓东,薛宏智,马盈仓.基于自适应遗传算法的神经网络字符识别.西安工程大学学报,2008,22(2):210–213.

6钟林,刘润生.新神经网络结构及其在数码语音识别中的应用.清华大学学报(自然科学版),2000,40(3):104–108.

7包亚萍,郑骏,武晓光.基于HMM和遗传神经网络的语音识别系统.计算机工程与科学,2011,33(4):139–144.

8冯宏伟,薛蕾.基于HMM和新型前馈型神经网络的语音识别研究.计算机工程与设计,2010,(24):5324–5327.

9肖勇,覃爱娜.改进的HMM和小波神经网络的抗噪语音识别.计算机工程与应用,2010,(22):162–164.

10PanST,WuCH,LaiCC.Theapplicationofimprovedgeneticalgorithmonthetrainingofneuralnetworkforspeechrecognition.SecondInternationalConferenceonInnovativeComputing,InformationandControl(ICICIC’07).IEEE,2007.168–168.

11AggarwalRK,DaveM.ApplicationofgeneticallyoptimizedneuralnetworksforHindispeechrecognitionsystem.2011WorldCongressonInformationandCommunicationTechnologies(WICT).IEEE.2011.512–517.

12AnM,YuZ,GuoJ,etal.TheteachingexperimentofspeechrecognitionbasedonHMM.The26thChineseControlandDecisionConference(2014CCDC).IEEE.2014.2416–2420.

13SilvaWLS,deOliveiraSerraGL.Anovelintelligentsystemforspeechrecognition.InternationalJointConferenceonNeuralNetworks(IJCNN).IEEE.2014.3599–3604.

语音识别系统范文第8篇

【关键词】ARM;语音识别;LD3320

1.引言

随着汽车工业的发展以及电子市场的成熟,车载智能终端逐渐成为汽车重要的配套设备,另外,近年来,经济的繁荣也促使国内各地汽车数量急剧增加,人们的出行习惯也随之发生变化,人车共处的时间越来越长,因此,车载智能终端的功能从简单的行车导航多功能转变,但驾驶人员在行车过程中,面对繁复的界面进行功能选择操作,易造成安全隐患,因此本文提出基于ARM的车载语音识别系统设计方案,旨在让驾驶人通过语音指令,操作智能终端,实现基本的导航、语音通信等功能,为安全驾驶提供保障。

2.语音识别过程

语音识别过程是首先将采集到的语音数据进行预处理,以提高自然语言的识别率,并降低处理器对数据进行密集运算的处理量,然后再进行端点检测、语音特征提取,完成从采集到的语音数据波型中,分析并提取以时间为参照的语音特征序列,随后转换为可对比的信号参数,与系统语音模型库进行语言匹配,即可得出识别结果。

3.系统整体设计

本系统由硬件、软件两部分构成,操作系统采用嵌入式Linux,为语音识别指令操作实现、车载智能终端功能实现提供基本的软件平台,硬件系统由语音识别部分、核心处理部分、电子设备部分构成,语音识别阶段由LD3320专用芯片在51级单片机的控制下完成,获取语音特征后,指令识别程序进行指令的对比识别,并通过指令操作系统程序调用诸如定位、导航、媒体播放、视频监控等应用程序,系统结构如下图1所示。

4.硬件系统设计

硬件系统主要包括系统主板、核心处理器、语音采拾器、语音识别芯片、语音控制单片机、存储器、电源等部分构成,详细介绍如下:

4.1 核心处理模块

系统中,核心处理器既做语音指令识别、指令下达的核心部件,还是车载智能终端的核心,考虑车载智能终端的多功能性,例如定位导航、媒体播放、远程视频监控等,系统核心处理器采用飞思卡尔推出的iMX27芯片,利用其H.264硬件编解码模块可在车载智能终端上实现MPEG4、H.263及H.264视频流的高效处理,在能够支持语音识别功能的同时,还使智能终端产品达到D1(DVD画面质量,720×480的屏幕分辨率)分辨率。

iMX27在处理H.264的同时占用极少的CPU的资源并提高了视频处理的性能,使核心有更多资源进行其它的应用,例如本系统的语音识别功能,另外,iMX27还具备非常灵活和丰富的标准接口、串行端口和扩展端口,实现与多种外部设备的连接,包括摄像头、显示器,还可以使用Wi-Fi、蓝牙实现即插即用及无线互连的功能,通过增加适当的模块,即可实现GPS定位、GPRS通信等应用。

4.2 语音识别模块

目前语音识别方案,有针对特定人的语音识别技术,但用户无法自行修定识别内容,还有基于ARM的软件识别技术,即将采集到的语音数据,直接交由ARM平台上运行的软件进行处理、比对、识别,这种方案优点是可以附带庞大的语音模型库,适应范围较广,但对ARM硬件平台要求较高,软件设计也相对复杂,本系统根据设计目的,提出的解决方案是,采用专用的语音识别芯片LD3320完成语音识别功能,将识别后的少量数据通过串行通信接口传送给ARM处理器,再由软件执行判断并执行相应的功能,一方面仅需求少量的电子器件,即可完成非特定人、非特定人、孤立词、小词汇量的语音识别功能,另一方面也可减少对ARM硬件的需求,空余更多的资源用于处理其它功能项目,而且软件设计也可以相对简化。

LD3320是由ICRoute公司生产的一种基于非特定人语音识别技术的专用芯片,内置语音搜索引擎以及语音识别模型特征库,另外还包含一些外部电路,例如AD、DA转换器、音频输入输出接口等,不再需要存储器等器件,也不需要预置语音训练,将MIC接入LD3320的AD引脚上,再通过51级的MCU进行控制,就可以进行语音识别,经过实践,LD3320的语音识别稳定性较好,准确性基本保持在96%左右。

51MCU主控制器采用Atmel公司生产的ATMEGA128芯片,其具备先进的RISC指令系统,包含133条指令,并且大多指令可以一个时钟周期内完成,执行效率高,内置128K字节的可编程Flash,4K字节的EEPROM,以及多达64K字节的优化的外部存储器空间,足以满足语音识别的控制需求。

主控制器主要完成需识别关键词语的拼音串通过设置寄存器的方式传入芯片内部,从而实现识别列表的动态编辑,每次可以设置50项候选识别句,每个识别句可以是单字,词组或短句。

4.3 存储器模块

为存储更多的语音数据,可通过存储芯片来扩展系统的存储空间,本系统采用意法半导体推出的M25P16-VMF6P芯片,该芯片是16-Mbit(2M x 8)串行闪存,具有先进的写保护机制,支持速度高达50MHz的SPI兼容总线的存取操作。存储器主要用于保存声音素材。

5.软件系统设计

软件系统由两大部分构成,一个是基于ARM平台的嵌入式Linux操作系统,主要为系统的实现提供基本的软件平台,另一部分是语音识别程序以及应用程序,主要完成语音的识别以及系统应用。

5.1 操作系统

本文采用可以支持ARM CPU,具有MMU功能的Linux操作系统,通过内核精简和裁减,并在实时性方面进行加强,以适应车载环境的应用需求。

5.2 语音识别程序

语音识别程序的设计,主要基于LD3320系列产品开发手册,主要工作流程分为以下几个步骤:系统初始化、识别列表输入、语音识别、中断响应等。

(1)系统初始化分为两个子步骤,分别通用初始化以及设备初始化,时钟频率、模式等参数在这一环节中进行设定。

(2)识别列表输入,首先对需要识别的语音指令进行编码,按不同编号区分不同的条目,编号范围可以1-256之间选择,每个条目采用标准普通化拼音作为语音参考模型,2个标准字汉语之间以空格进行填充。

(3)语音识别,通过设置特定寄存器的值,系统即可开始进行语音识别,语音识别的准确率与MIC的灵敏度设置有直接关系,根据实际环境条件,设置在40H~6FH可达到较好的效果。

(4)中断响应,设置系统捕捉到MIC有信号产生,即产生中断,中断处理程序则根据LD3320寄存器的值对识别结果进行判断,以C5寄存器的值作为参考的正确结果。

5.3 指令执行程序

指令执行程序运行的ARM平台上,负责监听ATMEGA128的串口数据,当接收到识别结果时,把该结果以二进制形式读出,通过预先设定的识别结果-执行指令对照表,查询应当执行的指令,并根据指令完成相应的操作。

6.结论

本文从整体、硬件、软件等几方面,深入讨论了基于ARM的嵌入式语音识别系统的设计和实现,并对各个组成模块的硬件电路及软件实现进行了详细的介绍。经实践,本文设计的语音识别系统在稳定性、识别率方面有较好表现,配合车载智能移动终端,有较强的实用性。

参考文献

[1]张戟,杨腾飞.车载自动语音识别系统设计[J].佳木斯大学学报(自然科学版),2011,29(2):201-205.

[2]刘建臣,赵建光,庞炜等.基于ARM9+linux的智能小区语音识别系统研究[J].河北建筑工程学院学报,2009,27(1):119-121.

作者简介:

谢家春(1971―),男,广西柳州人,广西盛源行电子信息有限公司工程师,研究方向:汽车电子技术、道路运输监控平台、车联网技术。

语音识别系统范文第9篇

关键词: 拟人机器人; 双CPU; 语音识别系统; 硬件设计

中图分类号:TP319 文献标志码:A 文章编号:1006-8228(2013)01-01-02

Design of hardware of speech recognition system in humanized robot

Liu Renping, Hou Ruizhen, Fang Yinglan, Han Xianfeng

(North China of Technology, Beijing 100144, China)

Abstract: In order to improve the reliability and efficiency of the speech recognition, a speech recognition system based on double CPU of the "MCU+DSP" is designed. The calculations are done by the main processor which takes the digital signal processor (DSP) as the hardware platform. DSP operation is assisted by Micro control unit(MCU), which controls all parts of the robot. Its performance can meet real-time processing's needs.

Key words: humanoid robot; double CPU; speech recognition system; hardware design

0 引言

随着超大规模集成电路和数字信号处理器(DSP)的快速发展,DSP的应用越来越广泛,涉及到各个领域如语音处理,图像处理等方面。现在语音识别中许多复杂算法已经能够在硬件上实现。最近十多年来,已研发出不少应用于不同领域的便携式语音识别系统。DSP处理速度快、灵活、精确,满足了对信号快速、实时、精确处理的要求,所以很适用于语音识别。

1 拟人机器人语音识别方法概述

语音信号分析是语音识别的前提和基础,只有分析出可表示语音信号本质特征的参数,才可能利用这些参数进行高效的语音通信,才能建立用于识别的模板或知识库。语音识别率的高低取决于对语音信号分析的准确性和精确性,虽然语音信号具有时变特性,但在一个短时间范围内其特性相对稳定,因而可以将其看作是一个短时平稳过程。任何对语音的分析和处理均建立在“短时”的基础上,一般认为语音信号在10-30ms的短时间内是相对平稳的。

拟人机器人语音识别方法如图1所示,采集到的语音信号输入后,首先对语音信号进行预处理,预处理主要包括:语音信号电压放大采样、反混叠失真滤波、预加重、自动增益控制、分帧、加窗、语音增强、端点检测以及A/D转换等环节;然后是信号特征量的提取(本文对信号的特征量进行Mel频率倒谱系数[2](Mel-Frequency Cestrum Coefficients)处理);最后对建立好的参数模板进行对比,测试的依据是失真度最小准则,如本文用到的动态时间规整DTW[3](Dynamic Time Warping)。

2 系统硬件设计

通过针对拟人机器人的特点,对系统进行分析和方案设计,最终确定本系统的框图如图2所示。本系统的硬件基于一个以DSP(TMS320VC5416)为主处理器的硬件平台,硬件平台主要包括:语音输入输出模块、主处理器DSP模块、存储器模块、单片机MCU模块、485串口通信模块。其中语音输入输出模块实现了语音信号的采集和输出;主处理器DSP模块(TMS320VC5416)主要完成语音识别所需的计算,其性能能够达到实时处理的要求;存储器模块包括一片FLASH和两片SRAM,用FLASH作为DSP的可编程存储器,SRAM分别作为DSP的数据和程序存储器;单片机MCU模块完成对拟人机器人的运动控制;485串口通信模块实现单片机MCU和PC机之间的通信。

2.1 主处理器DSP模块介绍

TMS320VC5416(简称VC5416)是TI公司的C54X家族的成员之一,它是基于先进的改进哈佛结构的16位定点DSP。它具有C54X的共同特点,高性能低功耗,具有高达160MHz的主频,核心电压1.5V,运行于此频率时功耗仅为90mW;拥有一条程序总线和三条数据总线,片内集成有高度并行性的算术逻辑单元(ALU)、专有硬件逻辑、片内存储器和片内外设等。

片内可屏蔽ROM中固化有启动装载程序(BOOTLOADER)和中断向量表等。系统上电时,BOOTLOADER自动把用户代码从外部存储器搬移到程序空间。复位以后,中断向量表可被重新映射到程序空间的任何(128Word)的开始处。为了与慢速的外设通信,VC5416提供了等待状态发生器,通过软件设置等待周期的个数,不仅降低了系统硬件设计的复杂性,而且为系统带来了很大的灵活性。VC5416片内集成了软件可编程的锁相环时钟电路,它只需要一个参考时钟输入就可以得到31种不同频率的输出时钟,最大的乘率因子(在寄存器CLKMD中设置)为15,最小的为0.25。这样,一方面可利用较低频率的外部时钟源产生较高频率的CPU时钟,另一方面在不工作时可降低CPU时钟频率至外部频率的四分之一,从而降低了CPU的功耗。

2.2 语音输入输出模块介绍

语音输入输出模块采用TI公司推出的一款高性能立体声音频Codec芯片TLV320AIC23B,内置耳机输出放大器,支持MIC和LINE IN两种输入方式,且对输入和输出都具有可编程增益调节。其最主要的优点是和TI公司的DSP芯片的McBSP接口完全兼容,与本设计中使用的DSP芯片能够实现无缝接口。

AIC23的模数转换((ADCs)和数模转换(DACs)部件高度集成在芯片内部,采用了先进的Sigma-delta过采样技术,可以在8K到96K的频率范围内提供16bit,20bit,24bit和32bit的采样,ADC和DAC的输出信噪比分别可以达到90dB和100dB。与此同时,AIC23还具有很低的能耗,回放模式下功率仅为23mW,省电模式下更是小于15uW。由于具有这些优点,使得AIC23是一款非常理想的音频模拟I/0器件,可以很好地适用于随声听(如CD,MP3),录音机等数字音频领域。由TLV320AIC23组成的语音输入与输出模块不仅采样率高(最高可达96KHz),而且电路简单,性价比高。最方便之处是能与McBSP无缝接口(它是TI原厂制造)。

2.3 存储器模块介绍

VC5416 DSP片内提供了16K×16bit的ROM和128K×16bit的SRAM。其中ROM内部包含的Boot loader程序在系统上电时能把外部存储器中的源程序调到内部存储器中,允许源程序存放在速度较慢的外部存储器中,降低了硬件资源的成本,片内ROM由厂家定制,位于程序空间OxF000-OxFFFFo。On-Chip RAM分为两个大小都为64K的块,其中DARAM和SARAM各有8块,每块容量为8K×16bit。在DARAM中,有4块定位在数据空间0x0080-Ox7FFF(当OVLY=1时,可以被映射到程序/数据空间),剩下的4块DARAM被定位到程序空间0x18000-Ox1FFFF。通过设置DROM=1可使定位在程序空间的0x18000-Ox1FFFF的RAM映射到数据空间。在一个周期内它支持两次读操作,或者一次读操作和一次写操作。SARAM被定位到程序空间0x28000-Ox2FFFF和0x38000-Ox3FFFF。

除了内部16K的ROM和128K的SRAM之外,系统还可以扩展外部存储器。本系统扩展了两块64K×16bit的SRAM(IS61LV12816)和一块256K×16bit的FLASH(AM29LV800B)来增加系统存储空间。

2.4 MCU模块介绍

单片机是一种集成电路芯片,采用超大规模集成电路技术把具有数据处理能力的中央处理器CPU、随机存储器RAM、只读存储器ROM、多种I/O和终端系统、定时器、计时器等(有些还包括显示驱动电路、脉宽调制电路、模拟多路转换器、A/D转换器等电路)集成到一块硅片上,构成一个小而完善的计算机系统。

本文采用89C52单片机完成机器人的运动控制。89C52是INTEL公司MCS-51系列单片机中基本的产品,它结合了CMOS的高速和高密度技术及CMOS的低功耗特征,基于标准的MCS-51单片机体系结构和指令系统,集成了时钟输出和向上或向下计数器等更多的功能。89C52内置8位中央处理单元、256字节内部数据存储器RAM、8K片内程序存储器(ROM)、32个双向输入/输出(I/O)口、3个16位定时/计数器和5个两级中断结构,一个全双工串行通信口,片内时钟振荡电路。此外,89C52还可工作于低功耗模式,可通过两种软件选择空闲和掉电模式。在空闲模式下冻结CPU和RAM定时器,而串行口和中断系统维持其功能。掉电模式下,保存RAM数据,时钟振荡停止,同时停止芯片内其他功能。该单片机最大的优势就是可以跟TI公司提供的这款DSP兼容,达到最佳的效果。

2.5 RS-485串口通信模块介绍

RS-485是RS-422的改进,它增加了设备的个数,从10个增加到32个,同时定义了在最大设备个数情况下的电气特性,以保证足够的信号电压。RS-485模块具有出色抗噪和多设备能力,在拟人机器人上可以建立连向PC机的分布式设备网络、其他数据收集控制器、HMI等,RS-485可以用超过4000英尺的线进行串行通信,实时性能高,更加便于我们操作控制机器人。

3 结束语

通过采用双CPU对语音识别系统进行控制,有效地提高了语音识别的可靠性和实时性,特别适合应用于语音识别的场合。语音识别算法采用的是隐马尔科夫模型,对识别算法进行测试,在正常发音情况下(“短时”时看作平稳过程),系统的实时性和识别率都可以得到很好的结果,但是如果说话人有明显的停顿时,系统比较容易出现错误识别,这也是接下来需要改进的地方。

参考文献:

[1] 周霖.DSP信号处理技术应用[M].国防工业出版社,2004.

[2] 蔡莲红,黄德智,蔡锐.现代语音技术基础与应用[M].清华大学出版社,2003.

[3] 程启明.语音信号端点检测的实验研究[J].声学与电子工程,1997.34(3):33-36

[4] 刘玄和,宋庭新.语音识别与控制应用技术[M].科技出版社,2008.

[5] Speech recognition in noise for cochlear implant listeners:Benefits of residual acoustic hearing[J].The Journal of the Acoustical Society of America,2004.115(5):1729-1735

语音识别系统范文第10篇

关键词:语音识别;Sphinx;隐马尔科夫模型;声学模型;语言模型

中图分类号:TP311 文献标识码:A 文章编号:1009-3044(2017)07-0154-02

目前主流的语音识别算法田有隐马尔科夫模型12’和深度神经网络 。对于建模单元统计概率模型描述,主要采用混合高斯模型(GMM),HMM-GMM模型在很长一段时间是语音识别声学建模的主流模型。2011年微软在深度神经网络领域取得突破并成功应用于语音识别,深度神经网络因具有更加优异的特征学习和特征表达能力成为研究的前沿。深度学习在语音识别中取得了较好的效果,但其需要的海量数据训练以及大规模并行运算无法在嵌入式平台上实现。

本文在嵌入式平台上搭建一个机器人的控制命令小词汇量汉语语音识别系统,通过收集录制控制命令的训练和测试语音数据,设计训练过程需要用到的脚本,本文完成了控制命令的声学模型和语言模型训练,最终使用训练好的模型文件构建了一个以Sphinx为识别引擎的机器人语音识别系统。

1基于HMM的语音识别算法

一个典型的语音识别系统结构如图1所示,包括预处理单元、特征提取单元、模式匹配单元、模型库建立单元四个部分。

HMM模型可表示为λ=(A,B,π),A为状态转移矩阵,B为观察值概率矩阵,π为初始状态概率分布,N表示马尔可夫链状态数目,M表示观察值个数。在本文应用中,主要运用HMM模型解决控制命令的识别问题和声学模型训练问题。

1.1语音识别算法识别问题

识别问题:给定观测序列o={o1,o2,…,oT)和模型λ=(A,B,π),确定产生最优O的状态序列。识别问题主要用于识别过程中解码,识别问题的基本算法为Viterbi算法,具体过程由以下公式迭代计算:

(1)

(2)

(3)

(4)

(5)

(6)

(7)

(8)

1.2语音识别算法训练问题

训练问题;给定观测序列O={o1,o2,…,oT)和模型λ=(A,B,π),如何得到一个最优的HMM模型,即通过训练模型中各个参数使得P{O|λ)取最大值。语音识别中用于声学模型的训练基本算法有Baum-Welch算法,实现过程如下:

(9)

(10)

将ξ(i,j)对#从1到T求和可求得状态Si到Sj的转移期望值,将γt(i)对t求和可求得从其他状态访问状态Si的期望值,这两个过程就是Baum-Welch算法基本思想。

2基于sphinx的机器人语音识别系统构建

2.1实验系统与设置

机器人语音识别系统设计如图2所示:

嵌入式主控平台主要负责语音识别,识别麦克风传人的语音控制命令,再通过无线模块与机器人通信,最终实现了语音命令控制机器人的效果。选择的命令包括“前进”、“后退”、“左转”、“右转”、“停止”、“启动”、“开灯”、“关灯”、“开电源”、“关电源”。

2.2数据准备

数据准备主要分为语言模型数据和声学模型数据两大部分,下面分别介绍。

2.2.1语言模型数据准备

本文使用CMUClmtk工具进行语言模型训练,CMUClmtk将统计控制命令文本数据产生以单个词建立的N_Gram模型。N-Gram模型的基本思想是,当前词的出现只与该词前面出现的所有词有关,各个词出现概率的乘积就是整个句子出现的概率。从语料中统计每个词同时出现的次数可得到各个词的概率,准备好用于语言模型训练的语言数据之后,CMUClmtk将统计文本文件中每个词出现的次数和词的总数,然后列举文本中出现的每一个词的n元语法,最终转换为Sphinx需要的二进制格式(DMP)语言模型。

2.2.2声学模型数据准备

声学模型数据准备首先需要录制用于训练和测试的原始语音文件,然后准备字典文件,字典文件包括主字典文件和补充字典文件,主字典文件中包含了需要进行训练的控制命令以及与控制命令相对应的音素集,补充字典主要列举了非语音单词,它包括静音,背景噪声等。下一步将字典文件通过命令脚本生成音素文件,音素文件包含所有训练的音素集。

2.3模型训练

首先对训练的语音信号提取特征向量,Sphinxtrain采用提取梅尔频率倒谱系数(MFCC)作为特征向量。下面分别为字典中每个音素建立上下文无关模型(CI-modds),并为音素关联状态建立上下文有关模型(CD-unfied models)以及建立决策树,可以通过决策树聚类的方法来减少参数数量。下一步将为音素训练最终聚类后的CD模型(CD-tied models),删除插值是一个为了减少过度拟合的一个迭代过程,最终得到由均值文件、方差文件、混合权重文件和转移矩阵文件组成的控制命令声学模型。

2.4语音识别

在完成以上声学模型训练过程之后,系统会使用测试语音对训练好的声学模型进行解码。使用Viterbi算法计算概率最大路径的输出概率得到识别结果,系统会统计解码器对测试语音的错词率作为识别结果。

3结果及分析

本实验系统环境为Ubuntul2.04系统,在实验室环境录制了20名同学的语音,其中男10名,女10名,在无噪声环境下采用近距离麦克风录制,数据采样率为16kHz,16位量化编码,每位同学将以正常说话语速将10个命令录制10次,将10位男生和10位女生前5次录音作为训练数据,后5次录音作为测试数据,对训练好的声学模型进行测试,采用错词率(WER)作为标准来统计结果,假设有一个N个单词长度的原始文本和识别出来的文本。I代表入的单词个数,D代表被删除的单词个数,S代表被替换的单词个数,那么错词率就定义为:

WER=(I+D+S)/N (11)

系统的识别结果如表1所示:

测试语音的识别结果表明系统对十个单词都达到了较高的识别率,其中单词摞の缭的错词率最高为9%,单词搏V错词率最低为5%,整体来说十个控制的命令能平均错词率为7.1%。本系统识e结果表明训练所得声学模型良好,在Sphinx上构建语音识别控制平台取得较好的效果。

4结束语

上一篇:科研仪器范文 下一篇:语音合成技术范文