语音识别范文

时间:2023-09-21 17:00:04

语音识别

语音识别篇1

【关键词】语音识别技术;发展趋势

语音识别是一门交叉学科。语音识别研究经历了50多年的研究历程,经过50多年的积累研究,获得了巨大的进展。特别是近20年来,语音识别技术取得了显着的进步,并逐步的走向市场。在未来的日子里,语音识别技术将应用更为广泛。

一、语音识别技术概述

语音识别是解决机器“听懂”人类语言的一项技术。作为智能计算机研究的主导方向和人机语音通信的关键技术,语音识别技术一直受到各国科学界的广泛关注。如今,随着语音识别技术研究的突破,其对计算机发展和社会生活的重要性日益凸现出来。以语音识别技术开发出的产品应用领域非常广泛,如声控电话交换、信息网络查询、家庭服务、宾馆服务、医疗服务、银行服务、工业控制、语音通信系统等,几乎深入到社会的每个行业和每个方面。

广泛意义上的语音识别按照任务的不同可以分为4个方向:说话人识别、关键词检出、语言辨识和语音识别。说话人识别技术是以话音对说话人进行区别,从而进行身份鉴别和认证的技术。关键词检出技术应用于一些具有特定要求的场合,只关注那些包含特定词的句子,例如对一些特殊人名、地名的电话监听等。语言辨识技术是通过分析处理一个语音片断以判别其所属语言种类的技术,本质上也是语音识别技术的一个方面。语音识别就是通常人们所说的以说话的内容作为识别对象的技术,它是4个方面中最重要和研究最广泛的一个方向,也是本文讨论的主要内容。

二、语音识别的研究历史

语音识别的研究工作始于20世纪50年代,1952年Bell实验室开发的Audry系统是第一个可以识别10个英文数字的语音识别系统。

1959年,Rorgie和Forge采用数字计算机识别英文元音和孤立词,从此开始了计算机语音识别。

60年代,苏联的Matin等提出了语音结束点的端点检测,使语音识别水平明显上升;Vintsyuk提出了动态编程,这一提法在以后的识别中不可或缺。60年代末、70年代初的重要成果是提出了信号线性预测编码(LPC)技术和动态时间规整(DTW)技术,有效地解决了语音信号的特征提取和不等长语音匹配问题;同时提出了矢量量化(VQ)和隐马尔可夫模型(HMM)理论。

80年代语音识别研究进一步走向深入:HMM模型和人工神经网络(ANN)在语音识别中成功应用。1988年,FULEE Kai等用VQ/I-IMM方法实现了997个词汇的非特定人连续语音识别系统SPHINX。这是世界上第1个高性能的非特定人、大词汇量、连续语音识别系统。

进入90年代后,语音识别技术进一步成熟,并开始向市场提品。许多发达国家如美国、日本、韩国以及IBM、Apple、AT&;T、Microsoft等公司都为语音识别系统的实用化开发研究投以巨资。同时汉语语音识别也越来越受到重视。IBM开发的ViaVoice和Microsoft开发的中文识别引擎都具有了相当高的汉语语音识别水平。

进入21世纪,随着消费类电子产品的普及,嵌入式语音处理技术发展迅速[2]。基于语音识别芯片的嵌入式产品也越来越多,如Sensory公司的RSC系列语音识别芯片、Infineon公司的Unispeech和Unilite语音芯片等,这些芯片在嵌入式硬件开发中得到了广泛的应用。在软件上,目前比较成功的语音识别软件有:Nuance、IBM的Viavoice和Microsoft的SAPI以及开源软件HTK,这些软件都是面向非特定人、大词汇量的连续语音识别系统。

三、语音识别技术的发展现状

语音识别技术通过全球科学家的共同努力,经历半个多世纪的研究,目前已经发展到了接近实用的阶段。在实验室环境下,大词汇量的朗读式连续说话的宽带语音信号的平均识别率可以达到90%以上。正式有了如此高的识别率之后,语音识别技术慢慢地从实验室演示系统逐步走向实用化商品。以IBM Via Voice和Dragon Dictation为代表的两个听写机系统的出现,使“语音识别”逐步进入大众视线,引起了广泛的社会关注。

由于校对和更正识别的错误很麻烦和浪费时间,这样便降低语音识别的优势。同时,由于使用的环境或讲话口音习惯等因素的影响,语音识别的内容大大降低,识别的内容不能达到100%的正确,所以很多人认为目前的语音识别系统还无法满足实用要求。

目前,AT&T和MIT等将语音识别技术应用在一些有限词汇的特定任务上,如电话自动转接、电话查询、数字串识别的任务中,当讲话的内容是系统所存储的内容存在的,且使用环境的声学特性与训练数据的声学特性相差不太大时,语音识别的正确识别率可以接近100%。但是,在实际使用中如果这些条件被破坏,则会对识别系统造成一定的影响。

我国的语音识别研究一直紧跟国际水平,国家也很重视。国内中科院的自动化所、声学所以及清华大学等科研机构和高校都在从事语音识别领域的研究和开发。国家863智能计算机专家组为语音识别技术研究专门立项,并取得了高水平的科研成果。我国中科院自动化所研制的非特定人、连续语音听写系统和汉语语音人机对话系统,其准确率和系统响应率均可达90%以上。

四、语音识别技术发展趋势

语音作为当前通信系统中最自然的通信媒介,语音识别技术是非常重要的人机交互技术。随着计算机和语音处理技术的发展,语音识别系统的实用性将进一步提高。应用语音的自动理解和翻译,可消除人类相互交往的语言障碍。国外已有多种基于语音识别产品的应用,如声控拨号电话、语音记事本等,基于特定任务和环境的听写机也已经进入应用阶段。这预示着语音识别技术有着非常广泛的应用领域和市场前景。随着语音技术的进步和通信技术的飞速发展,语音识别技术将为网上会议、商业管理、医药卫生、教育培训等各个领域带来极大的便利,其应用和经济、社会效益前景非常良好.

虽然语音识别在过去的20年里有了很大的发展,但是,仍然存在很多的不足,有待于进一步的探索,具体可分为以下几个方面:

1.提高可靠性。语音识别技术需要能排除各种声学环境因素的影响。在比较嘈杂的公共环境中,人的意识会有意识的排除非需要的声学环境因素,这对语音识别系统而言,是很难做到的。另外,在日常生活中,人类的语言常常具有较大的不确定性,比较随意,并带有明显的言语习惯。这同样会给语音识别系统很大的识别麻烦。目前,在提高语音系统在不同环境中的可靠性,同时要应用现代技术让语音识别系统更加智能化,掌握人们语言随意性的部分规律,以达到最佳的识别效果。

2.增加词汇量。系统可以识别的词汇的数量是系统能够做什么事情的一个重要度量。一个语音识别系统使用的声学模型和语音模型如果太过于局限,当用户所讲的词汇超出系统已知的范围时,则语音识别系统不能准确的识别出相应的内容,比如,当突然从中文转为英文、法文、俄文时,计算机就会常常输出混乱奇怪的结果。但是,随着系统建模方法的不断改进、搜索算法效率的提高以及硬件资源的发展,未来的语音识别系统可能会做到词汇量无限制和多种语言混合,这样用户在使用的时候可以不必在语种之间来回切换,这样就能大大减少词汇量的对语音识别系统的限制。

3.应用拓展。语音识别技术可以用于把费脑、费力、费时的机器操作变成一件很容易很有趣味性的事,比如,当人们出现手忙、手不能及以及分身无术的场景时,通过语音识别系统的模型构造,则能够在象驾驶室、危险的工业场合、远距离信息获取、家电控制等各个方面,语音识别技术可能带动一系列崭新或更便捷功能的设备出现,更加方便人的工作和生活。其应用的范围和前景非常广泛。不仅能够应用于日常生活,更重要的会带来生产方式的革命,是下一代智能化控制的基础。

4.降低成本减小体积。微型化是语音识别技术商业应用的另一个重要途径,其推广程这取决于语音识别技术本身进步的程度,同时与微电子芯片技术的进一步发展关系密切。将具有先进功能和性能的语音识别应用系统固化到更加微小的芯片或模块上,可以大幅度降低产品成本和体积,产品必然受到消费者的青睐,语音识别系统和微电子芯片技术的发展是会引领我们的信息技术革命到一个新的台阶。

语音识别篇2

摘要:本文简要介绍了语音识别技术理论基础及分类方式,所采用的关键技术以及所面临的困难与挑战,最后讨论了语音识别技术的 发展 前景和应用。

关键词:语音识别;特征提取;模式匹配;模型训练

abstract:this text briefly introduces the theoretical basis of the speech-identification technology,its mode of classification,the adopted key technique and the difficulties and challenges it have to face.then,the developing prospect ion and application of the speech-identification technology are discussed in the last part.

keywords:speech identification;character pick-up;mode matching;model training

一、语音识别技术的理论基础

语音识别技术:是让机器通过识别和理解过程把语音信号转变为相应的文本或命令的高级技术。语音识别以语音为研究对象,它是语音信号处理的一个重要研究方向,是模式识别的一个分支,涉及到生 理学 、心理学、语言学、 计算 机 科学 以及信号处理等诸多领域,甚至还涉及到人的体态语言(如人在说话时的表情、手势等行为动作可帮助对方理解),其最终目标是实现人与机器进行 自然 语言通信。

不同的语音识别系统,虽然具体实现细节有所不同,但所采用的基本技术相似,一个典型语音识别系统主要包括特征提取技术、模式匹配准则及模型训练技术三个方面。此外,还涉及到语音识别单元的选取。

(一) 语音识别单元的选取

选择识别单元是语音识别研究的第一步。语音识别单元有单词(句)、音节和音素三种,具体选择哪一种,由具体的研究任务决定。

单词(句)单元广泛应用于中小词汇语音识别系统,但不适合大词汇系统,原因在于模型库太庞大,训练模型任务繁重,模型匹配算法复杂,难以满足实时性要求。

音节单元多见于汉语语音识别,主要因为汉语是单音节结构的语言,而 英语 是多音节,并且汉语虽然有大约1300个音节,但若不考虑声调,约有408个无调音节,数量相对较少。因此,对于中、大词汇量汉语语音识别系统来说,以音节为识别单元基本是可行的。

音素单元以前多见于英语语音识别的研究中,但目前中、大词汇量汉语语音识别系统也在越来越多地采用。原因在于汉语音节仅由声母(包括零声母有22个)和韵母(共有28个)构成,且声韵母声学特性相差很大。实际应用中常把声母依后续韵母的不同而构成细化声母,这样虽然增加了模型数目,但提高了易混淆音节的区分能力。由于协同发音的影响,音素单元不稳定,所以如何获得稳定的音素单元,还有待研究。

(二) 特征参数提取技术

语音信号中含有丰富的信息,但如何从中提取出对语音识别有用的信息呢?特征提取就是完成这项工作,它对语音信号进行分析处理,去除对语音识别无关紧要的冗余信息,获得影响语音识别的重要信息。对于非特定人语音识别来讲,希望特征参数尽可能多的反映语义信息,尽量减少说话人的个人信息(对特定人语音识别来讲,则相反)。从信息论角度讲,这是信息压缩的过程。

线性预测(lp)分析技术是目前应用广泛的特征参数提取技术,许多成功的应用系统都采用基于lp技术提取的倒谱参数。但线性预测模型是纯数学模型,没有考虑人类听觉系统对语音的处理特点。

mel参数和基于感知线性预测(plp)分析提取的感知线性预测倒谱,在一定程度上模拟了人耳对语音的处理特点,应用了人耳听觉感知方面的一些研究成果。实验证明,采用这种技术,语音识别系统的性能有一定提高。

也有研究者尝试把小波分析技术应用于特征提取,但目前性能难以与上述技术相比,有待进一步研究。

(三)模式匹配及模型训练技术

模型训练是指按照一定的准则,从大量已知模式中获取表征该模式本质特征的模型参数,而模式匹配则是根据一定准则,使未知模式与模型库中的某一个模型获得最佳匹配。

语音识别所应用的模式匹配和模型训练技术主要有动态时间归正技术(dtw)、隐马尔可夫模型(hmm)和人工神经元 网络 (ann)。

dtw是较早的一种模式匹配和模型训练技术,它应用动态规划方法成功解决了语音信号特征参数序列比较时时长不等的难题,在孤立词语音识别中获得了良好性能。但因其不适合连续语音大词汇量语音识别系统,目前已被hmm模型和ann替代。

hmm模型是语音信号时变特征的有参表示法。它由相互关联的两个随机过程共同描述信号的统计特性,其中一个是隐蔽的(不可观测的)具有有限状态的markor链,另一个是与markor链的每一状态相关联的观察矢量的随机过程(可观测的)。隐蔽markor链的特征要靠可观测到的信号特征揭示。这样,语音等时变信号某一段的特征就由对应状态观察符号的随机过程描述,而信号随时间的变化由隐蔽markor链的转移概率描述。模型参数包括hmm拓扑结构、状态转移概率及描述观察符号统计特性的一组随机函数。按照随机函数的特点,hmm模型可分为离散隐马尔可夫模型(采用离散概率密度函数,简称dhmm)和连续隐马尔可夫模型(采用连续概率密度函数,简称chmm)以及半连续隐马尔可夫模型(schmm,集dhmm和chmm特点)。一般来讲,在训练数据足够的,chmm优于dhmm和schmm。hmm模型的训练和识别都已研究出有效的算法,并不断被完善,以增强hmm模型的鲁棒性。

人工神经元 网络 在语音识别中的应用是现在研究的又一热点。ann本质上是一个自适应非线性动力学系统,模拟了人类神经元活动的原理,具有自学、联想、对比、推理和概括能力。这些能力是hmm模型不具备的,但ann又不个有hmm模型的动态时间归正性能。因此,现在已有人研究如何把二者的优点有机结合起来,从而提高整个模型的鲁棒性。 二、语音识别的困难与对策

目前,语音识别方面的困难主要表现在:

(一)语音识别系统的适应性差,主要体现在对环境依赖性强,即在某种环境下采集到的语音训练系统只能在这种环境下应用,否则系统性能将急剧下降;另外一个问题是对用户的错误输入不能正确响应,使用不方便。

(二)高噪声环境下语音识别进展困难,因为此时人的发音变化很大,像声音变高,语速变慢,音调及共振峰变化等等,这就是所谓lombard效应,必须寻找新的信号分析处理方法。

(三)语言学、生 理学 、心理学方面的研究成果已有不少,但如何把这些知识量化、建模并用于语音识别,还需研究。而语言模型、语法及词法模型在中、大词汇量连续语音识别中是非常重要的。

(四)我们对人类的听觉理解、知识积累和学习机制以及大脑神经系统的控制机理等分面的认识还很不清楚;其次,把这方面的现有成果用于语音识别,还有一个艰难的过程。

(五)语音识别系统从实验室演示系统到商品的转化过程中还有许多具体问题需要解决,识别速度、拒识问题以及关键词(句)检测技术等等技术细节要解决。

三、语音识别技术的前景和应用

语音识别技术 发展 到今天,特别是中小词汇量非特定人语音识别系统识别精度已经大于98%,对特定人语音识别系统的识别精度就更高。这些技术已经能够满足通常应用的要求。由于大规模集成电路技术的发展,这些复杂的语音识别系统也已经完全可以制成专用芯片,大量生产。在西方 经济 发达国家,大量的语音识别产品已经进入市场和服务领域。一些用户交机、电话机、手机已经包含了语音识别拨号功能,还有语音记事本、语音智能玩具等产品也包括语音识别与语音合成功能。人们可以通过电话网络用语音识别口语对话系统查询有关的机票、 旅游 、银行信息,并且取得很好的结果。

语音识别是一门交叉学科,语音识别正逐步成为信息技术中人机接口的关键技术,语音识别技术与语音合成技术结合使人们能够甩掉键盘,通过语音命令进行操作。语音技术的应用已经成为一个具有竞争性的新兴高技术产业。

参考 文献 :

[1]科大讯飞语音识别技术专栏. 语音识别产业的新发展. 企业 专栏.通讯世界,2007.2:(总l12期)

[2]任天平,门茂深.语音识别技术应用的进展.科技广场.河南科技,2005.2:19-20

[3]俞铁城.科大讯飞语音识别技术专栏.语音识别的发展现状.企业专栏.通讯世界,2006.2 (总122期)

[4]陈尚勤等.近代语音识别.西安: 电子 科技大学出版社,1991

[5]王炳锡等.实用语音识别基础.practical fundamentals of speech recognition.北京:国防 工业 出版社,2005

语音识别篇3

语音识别是指用计算机对人的语音信号进行分析处理,从而得到其对应文字的过程。其最终目的就是实现一种自然的人机交互方式,使机器能听懂人的语言,辨明话音的内容,将人的语音正确地转化为对应的文本,或者根据语义做出相应的动作。常见的应用系统有语音输入系统、语音控制系统、智能对话查询系统等。而语音识别评测是指针对语音识别的某项应用,创建评测语料库,提出评测指标和对应算法,用评测语料训练和测试各参评系统,并对其识别结果进行比较和分析的过程。

实际上,从1987年起,美国国家标准技术局就开始组织对各大学和公司研发的语音识别系统进行评测。十几年间,根据技术的现状,组织了多次不同任务的评测,促进了领域内的竞争和交流,对语音识别技术的进步和发展起到了巨大的引领和推动作用。

当前,国际上知名的语音识别评测主要有: 美国NIST(国家标准技术局)评测、欧洲TC-STAR评测和中国的863评测。美国NIST评测是开展历史最久、项目设置最全也最负盛名的评测,近20年来,每年都针对语音识别方向的热点技术组织国际性评测,涉及的语言有英语、汉语普通话和阿拉伯语,涉及的任务有孤立词识别、关键词识别和大词汇量连续语音识别,涉及的语音包括了朗读语音、自然语音、对话语音、广播语音、会议语音等各种常见的语音类别。TC-STAR语音识别评测是欧盟TC-STAR项目的一部分。该项目主要针对语音到语音的机器自动翻译。其语音识别评测任务为连续语音识别,针对英语、西班牙语和汉语普通话,处理的语音为会议发言(英语、西班牙语)或新闻广播(汉语)。863语音识别评测是类似NIST评测的综合性评测,语言以汉语为主,任务和通道多样,根据语音识别技术的现状和发展趋势不断调整。

语音识别的主要技术

近年来,由于大规模语料库的支持,基于统计的语音识别方法逐渐发展成熟,取得了较好的识别结果,成为当前语音识别技术的主流。基于隐马尔可夫模型(HMM)的统计语音识别在各个通道,各种任务的语音识别中得到了广泛应用。

图1所示为当前大多数语音识别系统采用的框架和流程。原始语音经前端处理后,从中提取出若干维的特征向量用于识别。识别时,声学模型和语言模型共同作用,得到使某一概率最大的字串作为识别结果。

前端处理是指在特征提取之前,先对原始语音进行处理,部分消除噪声和不同说话人带来的影响,使处理后的信号更能反映语音的本质特征。最常用的前端处理有端点检测和语音增强。端点检测是指在语音信号中将语音和非语音信号时段区分开来,准确地确定出语音信号的起始点。经过端点检测后,后续处理就可以只对语音信号进行,这对提高模型的精确度和识别正确率有重要作用。语音增强的主要任务就是消除环境噪声对语音的影响。目前通用的方法是采用维纳滤波,该方法在噪声较大的情况下效果好于其他滤波器。

在特征提取阶段,一般是把语音信号切分成几十毫秒的帧,对每一帧提取一个特征向量。但这样会丢失帧与帧之间的联接信息,无法反映帧之间的变化过程,因此,还应该加上向量的一阶差分和二阶差分(相当于连续函数中的一阶导数和二阶导数)共同构成特征。

如上文所述,目前主流的语音识别系统大多基于统计模式识别原理,其基础是由声学模型和语言模型共同构成的统计模型。

声学模型是识别系统的底层模型,其目标是通过模型度量,寻找语音特征向量序列对应的发音。当前常用的声学模型是隐马尔可夫模型(HMM)。HMM模型可以看成一个双重随机过程,一个马尔可夫链的各个状态可以产生出各种输出。这种机制较合理地模仿了人类语言活动的过程,对孤立词和连续语音识别来说都是较理想的声学模型。

语言模型的作用是通过提供字或词之间的上下文信息和语义信息。对于大词汇量连续语音识别,语言模型是必不可少的关键模块之一。目前比较成熟的方法是统计语言模型,当前的主流方法是N元文法(N-gram),其主要思想是根据已知前(N-1)个字或词,预测第N个字或词出现的概率。由于训练语料的限制,目前主要采用三元语法。

训练统计模型

对于统计模型,要想使得它能够识别语音,必须对模型进行训练。所谓训练,是指对大量的训练语料进行统计和处理,计算和调整模型的参数,使模型对未训练过的数据也能达到理想的识别结果。语音识别系统的训练主要包括声学模型的训练和语言模型的训练。对于广泛采用的HMM声学模型,其训练主要是获取HMM中的状态转移概率、各状态的输出概率分布等参数。常用的方法是基于最大似然估计原理的迭代算法(如Baum-Welch算法)。对于基于三元文法的语言模型,其训练主要是从大量的文本中计算三元组的概率。

当模型训练好以后,就可以进行识别了。语音识别算法的主要思路是在侯选的词串中搜索使声学模型和语言模型的概率乘积最大的词串。因此,识别过程也常称作搜索(Search)或解码(Decoding)。当前常用的搜索算法是Viterbi算法,其本质是一种动态规划方法。

当前的语音识别系统大都是说话人无关(Speaker Independent)系统,即事先并不知道要识别的语音的说话人特征。但是,对于某个说话人,如果能够适当学习他(她)的发音特点,调整模型参数,显然会使得识别效果更好。这就是说话人自适应的主要原理。所谓说话人自适应,是指对大训练集上得到的模型参数进行调整,使之对当前说话人产生更好地识别效果。可以说,说话人自适应实际上是希望通过少量数据的增强训练(即所谓的自适应过程),使非特定人系统接近特定人系统的性能。常用的说话人自适应方法主要有两种: 最大后验概率(MAP)方法和最大似然线性回归(MLLR)方法。MPA算法采用基于最大后验概率准则,具有理论上的最优性,因此在小词表的语音识别任务中具有相当好的性能。其缺点是对大词汇量的任务自适应速度缓慢,无法满足应用的要求。因此,当前的大词汇量连续语音识别系统大多采用MLLR方法,或将MAP与MLLR结合。从评测结果来看,如果有充分的时间调整说话人自适应模型,连续语音识别中的字错误率可以下降1至4个百分点。

从几年来各参评系统采用的主要技术来看,当前语音识别系统中的技术严重趋同。几乎所有的参评系统都采用上述框架和基本模块,区别主要在于模块内部的细化程度,或者把某模块中的几种技术做些组合。例如,采用不同的前端处理方法,对男女声和有无噪声的语音分类处理,以及同时采用多种声学特征和不同的搜索策略构造多个识别子系统,最后对各子系统的识别结果做一种类似投票的表决(ROVER技术),得到最终识别结果。

由于863语音识别评测并不限制训练数据的使用,各单位可以使用自备的所有数据。因此,从评测结果及各单位的研讨中可以看到,训练数据的数量和质量对系统的性能有很大的影响。为了使评测更公平,2005年的评测中提供了一定量的统一训练集,但规模还较小。在以后的评测中,将考虑提供大量的训练集,希望能够避免因训练数据不同而造成的性能差异。

863计划中语音识别评测

从2003年起,中国科学院计算技术研究所连续三年承办863计划中文信息处理与智能人机接口技术评测,语音识别评测始终是其中的一个主要分项。三年间,863语音识别评测受到了国内外语音识别研究者的关注,参加单位数逐年递增,成为国内语音识别领域最高级别的交流平台,在国际上也具备了相当的影响力。

2003年和2004年度语音识别评测采用现场评测方式,即各参评系统的运行在评测现场同时进行。这种组织形式比较严格,一旦参评系统运行出现故障将无法继续。而且,要求所有参评单位必须到场,其成本也较高。为了避免这些问题,2005年的863评测采用目前国际通用的网上评测的方法,即在网上数据,各参评单位在自己的运行环境上运行参评系统后将识别结果通过网络提交给评测单位。

863语音识别评测最大的特色在于测试数据的选取。文本语料的选取采用从大规模原始语料库中筛选的方法,充分考虑到了对各种韵律学特征(音节、二音子、三音子、音连关系等)、语法特征(句型和句法结构等)和各种领域、各种文体(散文、小说、实事新闻等)的覆盖。录音时不是采用实验室加噪声,而是在完全真实的场景中录制数据,并且充分考虑到了说话人、信噪比等因素的覆盖,在实验的基础上提出了真实环境中信噪比的分布模型,并在此模型的指导下录制数据。这种以实验和理论为依据、以算法为支撑,控制各种语音属性,从而最大限度地拟合真实应用的数据采集方法,在国际上也是很有特色的。目前国际上的同类评测,录音场景多为实验室,对各种影响因素一般只做宽泛的覆盖,几乎没有按理论模型控制的方法。

863语音识别评测的另一个特点是对结果做了充分的统计分析。目前的国际评测一般除给出相应的指标外,还会做一些统计分析,而之前的国内评测却很少这么做。从2004年开始,863语音识别评测也开始对结果进行统计分析,而在2005年的评测中,更是采用专业统计学方法,采用实验设计、假设检验、回归分析、方差分析、协方差分析等一系方法对结果及影响结果的因素进行了深入分析,对各评测单位认清自己系统的优势和缺点,进一步改进起到了很大作用。

另外,在电话连续语音关键词识别评测中,在2004年尝试了以语义槽为单位的基于语法关键词识别任务和评测指标,在2005年首次使用了两个说话人一起录制的自然对话语音,更加符合真实应用的特点,这在国际同类评测中都是没有的。

从评测结果看语音识别技术现状

863语音识别评测,包括PC、电话、嵌入式设备三个语音通道,涉及听写机、对话查询、命令词识别等多种任务,基本上涵盖了当前语音识别的主要研究和应用方向。而参评的又大都是国内长期进行该项研究、有较高水平的单位和系统,因此,无论是采用的方法还是识别的效果,本次评测都可以真实反映出国内语音识别技术的现状。这里结合2004年的评测,对评测结果进行分析。之所以选择2004年的评测结果,是因为它的评测分项最全,几乎覆盖了语音识别的各种应用。

1. 识别结果的评价

评测的主要目标就是通过对识别结果的评价、分析了解参评系统的性能的和语音技术的现状。因此,制订有效的、能够真实反映出系统性能的评价指标也是很重要的研究任务。

对于大词汇量连续语音识别来说,国际上通用的指标是文字错误率(对于英语,文字指单词; 对于汉语,文字指字,下同)。其基本思想为采用动态规划算法将标准答案与识别结果对齐,以得到“正确文字数”、“替换文字数”、“插入文字数”、“删除文字数”四项参数,然后计算文字错误率。

错误文字数 = 替换 + 插入 + 删除文字数

文字错误率 = 错误文字数 / 原文答案文字数

下面给出一个例子:

LAB: 新 增 四 百 万 千 瓦 时 的 强 大 电 流 输 入 云 南 的 电 网

REC: 新 增 四 百 花 钱 忙 时 的 枪 打 电 流 于 树 绿 云 南 电 网

C C C C N N N C C N N C C I N N C C D C C

其中,LAB是标准答案,REC是识别结果,上面的格式是根据编辑距离最小对齐的结果,第三行标记了各类文字,C表示正确文字,N表示替换文字,I表示插入文字,D表示删除文字。

2004年863语音识别评测中的电话连续语音识别评测分项采用的主要指标是语义槽识别正确率,即用语料文本解析得到的标准答案和识别结果相比较,完全匹配的槽认为是识别正确的,定义槽识别正确率为:

槽识别正确率 = 正确识别的槽的个数 / 标准答案中槽的总数

对于嵌入式设备命令词识别,由于是孤立词识别,因此采用命令词识别正确率即可:

命令词识别正确率 = 正确识别的命令词数 / 命令词总数

2. 识别系统性能

对各系统给出的识别结果计算上述指标,得到对各系统识别性能的评价。表1给出了每个分项中识别效果最好的系统的指标,以及前三名系统的平均指标。为了统一,将电话连续语音识别中的槽识别正确率和嵌入式设备命令词识别中的命令词识别正确率统称为正确率。对桌面(这里指PC,以下同)连续语音识别,采用文字正确率,定义为(目前研究者对文字正确率定义稍有不同,本文中一律以下面的定义为准):

文字正确率 = 1 - 文字错误率

表中的最高正确率基本可以代表该分项的最高水平,前三名的正确率均值可以一定程度上反映该分项的平均水平,而前三名正确率的方差可以反映该分项中各系统的性能差异程度。

从表中可以看到,桌面连续语音识别分项中,汉语的识别效果远远好于英语(文字正确率最多相差20个百分点)。其原因显然在于国内对汉语语音识别的研究比英语多而且深入。另外,英语训练语料的相对缺乏,也是一个重要原因。

在采用了语法限制的语义槽识别任务和槽识别正确率作为评测指标后,电话连续语音的槽识别正确率较低。事实上,由于电话语音的录制环境为办公室环境,其噪音比桌面语音要小得多,所以正确率较低的原因主要在于对语法的处理和槽识别正确率较低。

嵌入式设备命令词识别的正确率与桌面语音字正确率大致相当。一方面,连续语音识别要比孤立词识别困难,另一方面,嵌入式设备的语音通道和计算资源都比PC差得多,从结果可以看出,这两方面的因素基本抵消。

从各分项前三名的正确率方差可以看出,汉语桌面连续语音识别和嵌入式设备命令词分项中各系统的性能差异较小,而英语桌面连续语音识别,特别是一倍实时任务中各系统性能差异较大。这是因为当前语音识别的研究重点在于前者,研究者较多,研究也比较深入,而英语的识别相对来说研究者较少。

3. 影响系统识别性能的因素

从上面的识别结果评价可以看出,对真实噪音环境下录制的语音数据,当前的语音识别系统识别正确率偏低,还很难达到实用。

从语音识别产生以来,噪音一直是影响识别效果的主要因素。为了分析噪音对识别的影响,将评测数据按信噪比(SNR)分段,从参评系统选取三个,分别计算其在各段内的识别正确率,可以看出,识别正确率基本上随着SNR的增大而提高,SNR在20dB以上的数据正确率比SNR在5~10dB的数据高近30个百分点。对桌面连续语音识别的其他分项和嵌入式命令词识别的结果分析也得到类似的结果。

对于电话连续语音识别来说,由于录制环境是办公室真实环境,因此噪音并不是影响性能的主要因素。电话连续语音识别分为5个子领域,每个子领域各有一套语法。评测句子由语法生成的有效成分在前后加上任意长的填充词(filler)构成,如语法生成的句子为“从天安门到中关村怎么坐公交车”,而实际录制的句子是“你好,请问从天安门到中关村怎么坐公交车,可以查到吗?”,其中的“你好,请问”和“可以查到吗”就是filler。由分析可以发现,不同领域内的槽识别正确率相差很大。这主要有两个原因,一是不同领域的语法复杂度不同,二是不同领域内有filler的句子所占比例不同。为了进一步衡量filler对识别的影响,选取三个识别系统,将有filler的句子和没有filler的句子分别计算识别率,统计结果如图2所示。从图中可以看出,filler对识别的影响是相当大的,无filler的句子比有filler的句子识别正确率可以高几十个百分点。

从上面的介绍可以看到,国内语音识别研究发展迅速,识别性能日益提高, 但在对真实环境下录制的数据,特别是信噪比较低的情况下,识别性能还无法达到实用要求。对于桌面连续语音和嵌入式设备上的孤立词识别,对噪音的鲁棒性不高是系统面临的主要问题。对于电话查询系统来说,对语义的解析和无关语句的处理还存在一定困难。另外,对非朗读的自然语音,如对话、会议内容的识别,对电视广播节目内容的识别或检索近年来吸引了越来越多研究者的注意,国外的一些评测机构也组织了这方面的评测,863语音识别评测也在考虑增加相应的项目。总之,863语音识别评测将继续针对这些任务,针对噪音、方言、自然语音等关键问题构建评测语料库,开展评测,提供结果分析,组织讨论交流,以促进语音识别技术的发展。

语音识别篇4

关键词 语音;情感特征;特征提取;情感识别

中图分类号TP39 文献标识码 A 文章编号 1674-6708(2015)140-0223-01

1 语音情感识别概述

随着信息技术的飞速发展以及人机交互技术的不断进步,人们对计算机的要求越来越高,人们希望未来和计算机的交互能像人与人之间的交流一样,既方便,快捷,又具人性化。语音作为人类交流的主要工具之一,不仅能传送语义内容,同时不同语气的发音还包含大量情感信息,因此如何让计算机从语音中识别出说话者的情感状态,成为了研究热点,而语音情感识别广阔的应用前景也引起了越来越多的研究者的重视。语音情感识别不仅能应用于人机交互系统,还能广泛的应用于远程网络教学、医疗辅助、反恐侦测,客户服务等领域[1]。

语音情感识别的系统模型主要由3部分组成,即语音信号处理、情感特征的提取和语音情感识别。

语音信号处理主要包含语音信号的采集、数字化、预处理、频谱提取等方面,它主要为下一步的特征提取做准备;情感特征提取就是从处理好的语音数字信号中提取出能表征语音情感的特征向量;而情感识别则是通过选好的分类算法将情感特征向量进行分类从而达到识别的目的。其中,情感特征的提取是其中的重要环节,因为情感特征是语音信号内所含情感信息的抽象,它的好坏直接影响系统情感识别准确性。因此,本文主要对语音情感识别中情感特征的研究现状进行分析总结。

2 语音情感特征研究现状

从1972年Williams发现人的情感变化对语音的基音轮廓有很大的影响,并将其用于语音情感识别的研究开始到如今,经过四十多年的探索,语音情感特征的类型越来越丰富,语音情感识别的效果越来越好。但总体而言,目前用于语音情感识别的情感特征大致可以分为三种类型,即韵律特征、音质特征以及基于频谱的相关特征。这些特征一般相互融合以全局特征统计值的形式,如统计最大值、最小值、平均值、方差等参与情感识别。

2.1 韵律特征

韵律特征是指蕴含于语音之中但不同于语义内容的一类语音特征。它具体体现为音量的高低、发音的长短、语速的快慢、语气的轻重等,决定了讲话声音的抑扬顿挫,是对语音表达方式的一种结构性安排及补充。它的存在与否并不影响我们对字、词、句的听辨,但却与语音中蕴含的情感密切相关。如当人愤怒时,说话语速明显加快、音量高、语气重;而悲伤时语调低沉、语速慢、音量小等。

目前,最为常用的韵律特征主要有:基音频率、能量、时长等。Iliou等人研究了德语情感语料库中的七种情感语音,提取了35维韵律特征,取得了约51%的情感识别率。Zhang等人以汉语情感语音库为研究对象,提取了四种情感语音的韵律特征,得到了约76%的情感识别率。Wang等人也基于汉语情感语料库做了研究,提取了六类情感语音的韵律特征,采用支持向量机做识别得到了约88%的平均情感识别率。

韵律特征是语音情感识别中应用最早、使用最为广泛、并且情感区分能力已得到了研究者一致认可的一类情感特征。

2.2 音质特征

音质特征是一类用来体现说话人语音是否清晰纯净、容易辨识的语音特征。人在不同情感状态下,其声音的质量会有很大不同,具体体现为:随情绪波动,人会不由自主的产生喘息、颤音、哽咽等。而在不同情感状态下,这些声学表现各不相同,因此,声音质量的变化蕴含有丰富的情感信息,提取音质特征有利于语音情感的识别。

在语音情感识别中用于衡量声音质量的音质特征一般有:共振峰、呼吸喉化音和声门参数等。文献的研究表明,语音情感与音质特征有很大关联性。R.Sun等将声门参数和基频、能量等韵律特征在情感识别中发挥的作用进行了比较。众多研究证明,音质特征有利于语音情感的识别。

2.3 基于频谱的特征

频谱特征是语音情感识别中衍生种类最多,应用最为广泛的一类情感特征向量,它一般是通过模拟人的语音产生机制或听觉特性而提取,因此,情感区分效果较为理想,一直备受研究者重视。如使用最为广泛的线性预测倒谱系数(LPCC),它是模拟了人的声道特性、声门激励特性而提取的特征参数;而梅尔频率倒谱系数(MFCC)则是模仿了人耳听觉特性。除了LPCC和MFCCC,还有一些新的频谱特征也用于语音情感识别,Yildirim等人将频谱能量特征与语音韵律特征相融合对四类英语情感语音进行识别,取得了75%的平均情感识别率。此外,随着信号处理技术的不断进步,一些基于频谱的新特征也被探索出来用于情感的识别,叶吉祥等[2]利用希尔伯特黄变换提取语音信号的边际能量谱特征用于情感识别也取得了不错的效果。

3 情感特征提取中存在的问题

尽管经过几十年的不断发展以及研究者的不懈努力,越来越多的新的情感特征被不断探索出来,对语音情感识别的研究进展起到了巨大的推动作用,但情感特征的提取依然存在一些问题,主要表现在以下方面。

1)语料库语种单一,提取的情感特征局限性较大。

目前,用于语音情感识别的语料库大多语种单一,说话人及情感种类数量有限,提取出的情感特征受到了很大的局限,有些新的情感特征在一种语料库上的识别效果好,而在其他语料库情感识别上却波动较大,而现实环境更为复杂,它是一个动态的实时变化的语境。因此,为了使语音情感识别从理论走向应用,探索适用性强,识别效果稳定的情感特征依然需要更多的努力。

2)情感强度相近的情感语音难以辨识。

情感强度相近的语音由于在发音上具有相似的生理特性,如高兴语音和生气语音它们在发音上语速都较快,语音信号能量都较高,因此提取的情感特征参数都较为相似,这为情感的识别带来了困难。探索能较好区分相近情感强度的语音情感特征仍然是未来研究者需要进一步努力的方向。

4 结论

语音情感识别是一门有广阔应用前景的学科,经过几十年的发展,在部分领域,它已逐渐从理论研究走向了实际应用,尽管我们已经取得了较大的成果,然而依然有一些亟待解决的问题。情感特征提取作为语音情感识别中的重要环节,它对情感的识别的准确性起着决定性作用,本文对目前情感识别中用到的情感特征进行了分析总结,并对情感特征提取面临的问题进行了探讨,以期为下一步的研究工作指明方向。

参考文献

[1]张永皋,马青玉,孙青.基于MFCC和CHMM技术的语音情感分析及其在教育中的应用研究[J].南京师范大学学报,2009,9(2):89-92.

语音识别篇5

【关键词】HTK;语音识别;隐马尔可夫模型

Abstract:According to the basic principle of HTK(HMM Toolkit),small vocabulary continuous speech was recognized based on HTK by MatLab programming in this thesis.This thesis used HTK to build HMM model and then used MatLab to program it to do speech recognition,thus it avoided the redundancy of operating single HTK command,and the complexity was reduced.as well.

Key words:HTK;Speech Recognition;Hidden Markov Model

一、引言

语言是交流的最自然方式,它为人机交互提供了一种有效的方法。但目前人与机器的交互方式多以键盘和鼠标为主,为了让机器与人能够更好地进行交互,出现了基于语音识别的系统使人机对话成为可能。语音识别就是让计算机通过识别和理解把人类的语音信号转换为相应的命令或者文本的一门技术。

HTK(HMM ToolKit)[1][2]工具包是英国剑桥大学专门开发用于建立和处理隐马尔可夫模型的实验工具包,广泛应用在语音识别领域,在语音合成和字符识别等其他领域也有所应用。本文在MatLab平台上利用HTK设计和建立了小词汇量连续语音识别的实验平台。

二、HTK的介绍

(一)HTK的基本原理

HTK工具包有四个主要工具包:语音数据准备,HMM训练工具,识别工具,数据分析工具。

数据准备工具:用Adobe Audition录音软件采集语音信号,再完成建立语料库,语法定义,字典定义,标注数据,提取特征等过程。语法定义是以特定的文法结构对发音词汇进行限制生成符合发音语法的语句,用命令HParse和HBuild来实现。字典定义可根据实际要求来定义结构,如音素,音节等。本文采用无调音节对连续汉语进行识别[3]。数据标注利用命令HLEd来实现。特征参数利用HCopy来提取。常用的特征参数有线性预测系数(LPC)和梅尔频率倒谱系数(MFCC)[4]。

HMM训练工具:HMM训练在语音识别系统的搭建过程中发挥着重要作用,它的主要目的是训练得到HMM模型。本文使用命令HCompv估计出初始模型函数以及HERest重估参数,从而完成单无调音节HMM模型的创建和训练。针对小词汇量连续语音的音节存在上下文相关的关系,本文创建了三音子HMM模型对模型进行训练和优化,进而提高了语音识别率。

识别工具:命令HVite用于识别未知语音,该命令的算法是基于维特比算法。

数据分析工具:命令HResults用于识别结果的分析。

(二)音节模型训练

本文首先建立了基于无调单音节的HMM模型[5],HMM使用从左到右无跳转的结构,结构如图1所示。音节模型包括5个状态,即1个开始状态,3个发射状态和1个结束状态。

为了与基于单音节的声学模型训练方法相比较,本文创建了基于声韵母的三音子HMM模型。三音子HMM模型也是采用从左到右的结构,音节模型状态数也是5。三音子模型以单音节作为初始,再进行重估。通过命令HLEd、HHEd、HERest等来实现三音子模型的建立。根据Baum Welch对三音子模型进行训练时,需要根据经验设置一个阈值。当模型对应的样本数大于阈值时,训练后模型参数根据训练结果改变模型参数;当模型对应的样本数小于阈值时,训练后的模型参数仍为初始的参数。阈值大小的设置会影响语音识别率的高低。

图1 HMM的拓扑结构

三、HTK的调用

Matlab调用HTK各命令可以通过dos语句或者system语句以及用MatLab语言编写出HTK各命令运行时所需的参数的得以实现。例如生成HTK可用的语音识别网络,Matlab语句可以表示为dos('Hparse %s output\\',htkParam.grammarFile),其中Hparse为HTK中生成识别网络的命令,%s代表调用htkParam.grammarFile文件,该文件是事先定义好的语法文件,即汉语无调音节的集总。为生成的识别网络,生成后将保存在output文件夹下。

Matlab调用HTK各命令的部分代码如下:

if printOpt,

fprintf(‘ I.2:无调单音节的列表的生成 %s\n’,htkParam.phoneMlfFile);

end

fid = fopen('output\mkphones0.led','w');

fprintf (fid,'EX\r\nIS sil sil\r\nDE sp\r\n');

fclose (fid);

cmd = sprintf('HLEd -l * -d %s -i output\\phones0.mlf output\\mkphones0.led

%s',htkParam.pamFile,htkParam.sylMlfFile);

dos(cmd);

fid = fopen ('output\mkphones1.led','w');

fprintf (fid,'EX\r\nIS sil sil\r\n');

fclose (fid);

cmd = sprintf ('HLEd -l * -d %s -i output\\phones1.mlf output\\mkphones1.led

%s',htkParam.pamFile,htkParam.sylMlfFile);

dos (cmd);

该代码的含义是首先建立mkphones0.led文件,并写入内容(脚本的最后一行须编辑为空行)

EX

IS sil sil

DE sp

通过调用HLEd命令生成无调音节列表,保存为phones0.mlf文件。

同样地,建立mkphones1.led文件,并写入内容

EX

IS sil sil

通过调用HLEd命令生成无调音节列表,保存为phones1.mlf文件。生成的phones0.mlf和phones1.mlf区别在于后者的每个音节后面添加sp作为短暂的停顿。

通过MatLab编程调用HTK各命令及设置HMM模型参数完成语音的训练和识别[6]。

四、仿真实验

测试在安静的实验环境下进行,采用CoolEdit Pro录音软件,采样率为16KHz,量化为16bits。测试人员共十人,五男五女,分别来自不同省份,使用略带各地方言的普通话。测试语音共50句,内容为数字0~9随机组成的数字串。

实验1:提取特征参数时分别采用线性预测系数(LPC)和梅尔频率倒谱系数(MFCC)的语音识别率比较。识别结果如表1所示。

表1 不同特征参数的识别率(%)

特征参数 识别率

LPC 82.24

MFCC 85.84

分析表1可知,采用梅尔频率倒谱系数进行特征参数的提取时语音识别率比采用线性预测系数时的识别率高3.6%。因此,本文特征参数采用梅尔频率倒谱系数。

实验2:采用单音节模型建模与三音子模型建模时语音识别率的比较。识别结果如表2所示。Corr为词的识别正确率,Acc为词的识别准确率,Correct指句子的识别正确率。

表2 不同模型类型的识别率(%)

模型类型 Corr Acc Correct

单音节模型 78.24 76.49 54.55

三音子模型 86.84 84.84 68.23

分析表2可知,单音节模型的识别率要低于三音子模型,这是因为三音子模型考虑了音节间存在的协同发音的现象,优化了HMM模型参数,因此改善了语音识别率。

实验3:HMM训练过程中设置不同阈值时的语音识别率比较。识别结果如表3所示。

表3 不同阈值的识别率(%)

阈值 50 100 150 200 300 500

识别率 83.49 85.84 86.71 86.65 86.84 85.07

分析表3可知,当阈值较低时,训练样本数较少的模型也会继续进行下一步的训练,然而这些模型的训练样本不足以使模型得到足够的训练,这时并不能优化模型的参数;当阈值为300时,识别率最高;当阈值继续增加,部分模型的训练样本可以使模型得到充分的训练,但是因为样本数低于设定阈值而不能使模型得到优化,因此此时识别率反而会有所下降。

五、结束语

本文利用MatLab语音处理工具箱结合HTK各命令实现了小词汇量连续语音的识别。在实验中由于使用HTK各命令做每次循环实验操作比较复杂,利用MatLab循环编程调用HTK各命令避免了逐步操作的复杂度,有效地减少了操作步骤,降低了工作的冗余度。

参考文献

[1]Steven.Young,G.Evermann,M.Gales.The HTK Book(for HTK Version 3.4)[M].Cambridge University Engineering Department,2009.

[2]Kuldeep Kumar,R.K.Aggarwal.Hindi Speech Recognition System Using HTK[J].International Journal of Computing and Business Research,2011,2(2):1-12.

[3]韩纪庆.语音信号处理[M].北京:清华大学出版社,2013.

[4]赵力.语音信号处理[M].北京:机械工业出版社,2010.

[5]L.R.Rabiner.A Tutorial on Hidden Markov Models and Selected Applications in Speech Recognition[J].Proceedings of IEEE,1989,77(2):257-286.

[6]张戈,严欢.基于HTK调用MatLab的语音识别的研究[J].现代计算机(专业版),2010(09).

语音识别篇6

[关键词]e-Learning;语音;情感识别

[中图分类号]G40―057

[文献标识码]A

[论文编号]1009―8097(2009)13―0224―02

引言

e-Learning也叫数字化学习,是通过因特网或其他数字化媒体进行学习与教学的活动。当前,随着信息技术的快速发展,e-Learning已经在教育、教学等领域得到了广泛应用,并产生了深刻影响。然而,在当前的e-Learning环境下,由于师生在物理空间上的分离,导致师生之间缺少必要的情感交流和反馈。而按照教育心理学的观点,一个真正人性化的教学系统,不仅应当是有智能的,而且还应当有情感的。因此,如何在e-Learning系统中测量出学习者学习时的认知和情感,构建具有情感交互能力的和谐学习系统,已经成为现代远程教育中一个新的热点研究课题。

近年来,以语音情感识别为核心的情感计算技术的研究发展,已经成功应用于人工智能、智能人机交互等领域。这使得在e-Learning系统中,也可以利用情感计算技术,跟踪学习者的情感状态,提供个性化服务,以及根据学习者情感体验的变化及时调整教学策略。为此,本文利用语音情感识别技术,以e-Learning应用为背景,设计一种基于语音情感识别技术的新型e-Learning教学系统。

一 基于语音情感识别的e-Learning系统模型

师生情感交流是教学环节中的一项重要内容,它有助于学生消极情绪向积极情绪的迁移。在学习过程中,学习者的言语中不仅包含了文字符号信息,同时也包含了丰富的感情和情绪等信息。例如,当学习者对学习内容能够理解和接受时,往往情绪高涨,言语比较欢快;反之,情绪低落,言语比较低沉丧气。可见,学习者不同情感的表现是一种重要的教学反馈信息。利用这种反馈信息,我们可以有效调整教学策略,更好地服务自主学习。因此,在传统e-Learning系统的基础上,本文通过增加一个语音情感识别技术模块,设计出一种基于语音情感识别技术的智能化e-Learning系统模型,如图1所示。

该系统模型以语音情感识别技术为核心,及时捕捉和识别学习者的情感状态,并根据学习者特定的情感状态作出相应的情感激励或补偿策略。该模型主要有五部分组成:

接口:除了传统e-Learning系统中的人机接口外,新增加一个情感语音输入接口模块,专门负责收集学习者的情感化的语音信息。

语音情感信息处理算法模块:通过相关传感器,对收集到的情感化的语音信息提取能够区分不同情感类型的语音特征参数,然后利用模式识别分类器识别出学习者的整体情感状态,并作出适当的学习评价。

评价模块;主要收集评价结果,然后转化为相应的评价参数,同时从学习模型中提取学习记录。

教学策略:根据评价参数和学习者模型中的学习记录,及时调整教学策略,从课程资料库中选取适合学习者学习的资料提供给学习者,同时也作出相应的情感激励和补偿。

学习者模型:主要记录和学习者相关的个人信息、学习背景信息,认知风格信息、情感信息等。

二 语音情感识别技术的实现

语音情感识别就是对输入的学习者的情感化语音信号进行预处理(如降噪)后,分析和提取与学习者情感表达密切相关的语音特征参数,然后采用模式识别分类器分别进行训练和测试,最后输出学习者的情感类型,得到识别结果。一个简单的语音情感识别模型由如下五部分构成,如图2所示。其中模型中最重要的两个环节是,特征提取以及分类器的确定。

1 语音情感特征参数的提取

提取何种有效的语音情感特征参数是语音情感识别技术研究中最关键的问题之一,情感特征的优劣直接影响到情感最终识别结果的好坏。心理学和韵律学的研究已经表明,语音信号中的情感主要通过语音中的韵律特征表现出来的。例如,当一个人发怒的时候,讲话的速率会变快,音量会变大,音调会变高,而一个人悲伤的时候讲话的语速会变慢,音量会变小,音调会变低,这些都是可以很直观的感受到的变化。目前,研究者进行语音情感识别的研究普遍采用了常见的基音频率(简称基频)、振幅、语速等韵律特征。原因是这些韵律特征能够反映说话人的部分情感信息,较大程度上能区分不同的情感,而且容易提取和使用。但是,近年来的研究表明语音信号中的音质特征也包含情感信息,体现了不同类型情感的发音方式的区别,如生气和高兴发音时由于喉咙的位置不同而引起的喘气和沙哑等方面的不同。本文提取的语音特征参数类型包含了韵律特征和音质特征。表1列出了这些提取的语音特征与四种常见的情感类型(生气、欢快、沮丧、厌恶)之间的关系。

2 分类器的选择

语音情感识别本质上是一个模式识别问题。目前,各种模式识别方法,如人工神经网络、最近邻法和支持向量机等不同的单一分类器,都被应用于语音情感识别,取得了较好的识别效果。已有的研究表明,在不同单一分类器中,建立在统计学习理论中的结构风险最小化原则基础上的支持向量机能够取得最好的识别性能。另外,将不同性能的单一分类器构成组合分类器,也能够进一步提高语音情感识别的性能。

目前,随着计算机图像技术和多媒体技术的飞速发展,作为人类情感表达的其他方式,如人脸表情识别、人体运动姿态识别、手势识别等技术必将得到快速发展,并将在e-Learning系统中发挥重要作用。

三 结束语

语音识别篇7

家用电器发展的一个重要方面是让用户界面更加人性化,更加方便自然,做到老年人和残疾人可以无障碍地使用。利用语音识别技术实现语音控制是提高家电产品用户界面质量的一条重要途径。本文以语音控制遥控器为例,说明语音识别技术如何应用在家电器领域。

适合家用电器应用的语音识别嵌入式系统结构如图1所示,它由四个部分组成。第一部分为模/数转换部分,其输入端接收输入的语音信号,并将其转化成数字芯片可处理的数字采集信号;在输出端将解码后的语音数字信号转换为音频模拟信号,通过扬声器放声。第二部分为语音识别部分,它的作用是对输入的数字语音词条信号进行分析,识别出词条信号所代表的命令,一般由DSP完成。第三部分语音提示和语音回放部分,它一般也是在DSP中完成的,其核心是对语音信号进行数字压缩编码和解码,目的是提示用户操作并对识别语音的响应,完成人机的语音交互。第四部分是系统控制部分,它将语音识别结果转换成相应的控制信号,并将其输出转换成物理层操作,完成具体功能。语音识别与系统控制的有机结合是完成声控交互的关键,下面将对语音识别算法及遥控系统控制部分作详细的讨论。

1 语音识别算法

目前,常以单片机(MCU)或DSP作炎硬件平台的实现消费类电子产品中的语音识别。这类语音识别主要为孤立词识别,它有两种实现方案:一种是基于隐含马尔科夫统计模型(HMM)框架的非特定人识别;另一种是基于动态规划(DP)原理的特定人识别。它们在应用上各有优缺点。HMM非特定人员的优点是用户无需经过训练,可以直接使用;并且具良好的稳定性(即对使用者而言,语音识别性能不会随着时间的延长而降低)。但非特定人语音识别也有其很难克服的缺陷。首先,使用该方法需要预先采集大量的语料库,以便训练出相应的识别模型,这就大大提高了应用此技术的前期成本;其次,非特定人语音识别很难解决汉语中不同方言的问题,限制了它的使用区域;另外还有一个因素也应予以考虑,家电中用于控制的具体命令词语最好不要完全固定,应当根据的用户的习惯而改变,这一点在非特定人识别中几乎不可能实现。因此大多数家电遥控器不适合采用此方案。DP特定人识别的优点是方法简单,对硬件资源要求较低;此外,这一方法中的训练过程也很简单,不需预先采集过多的样本,不仅降低了前期成本,而且可以根据用户习惯,由用户任意定义控制项目的具体命令语句,因而适合大多数家电遥控器的应用。DP特定识别的严重缺点是它的稳健性不理想,对有些人的语音识别率高,有的人识别率却不高;刚训练完时识别率较高,但随着时间的推迟而识别率降低。些缺点往往给用户带来不便。为克服这些缺陷,对传统方法作为改进,使识别性能和稳健性都有显著的提高,取得令人满意的结果。

1.1 端点检测方法

影响孤立词识别性能的一个重要因素是端点检测准确性[4]。在10个英语数字的识别测试中,60毫秒的端点误差就使识别率下降3%。对于面向消费类应用的语音识别芯片系统,各种干扰因素更加复杂,使精确检测端点问题更加困难。为此,提出了称为FRED(Frame-based Readl_time Endpoint Detection)算法[3]的两级端点检测方案,提高端点检测的精度。第一级对输入语音信号,根据其能量和过零率的变化,进行一次简单的实时端点检测,以便去掉静音得到输入语音的时域范围,并且在此基础上进行频谱特征提取工作。第二级根据输入语音频谱的FFT分析结果,分别计算出高频、中频和低频段的能量分布特性,用来判别轻辅音、浊辅音和元音;在确定了元音、浊音段后,再向前后两端扩展搜索包含语音端点的帧。FRED端点检测算法根据语音的本质特征进行端点检测,可以更好地适应环境的干扰和变化,提高端点检测的精度。

在特定人识别中,比较了常用的FED(Fast Endpoint Detection)[5]和FRED两种端点检测算法的性能。两种算法测试使用相同的数据库,包括7个人的录音,每个人说100个人名,每个人名读3遍。测试中的DP模板训练和识别算法为传统的固定端点动态时间伸缩(DTW)模板匹配算法[4]。两种端点检测算法的识别率测试结果列在表1中。

表1 比较FED和FRED端点检测算法对DTW模板匹配识别率的影响

端点检测算法第1人第2人第3人第4人第5人第6人第7人平均FED92.5%87%92.6%95.6%96.2%96.8%100%94.4%FRED94.3%89.9%93.2%99.4%99.4%98.8%100%96.4%测试结果说明:使用FRED端点检测算法,所有说话人的识别率都有了不同程度的提高。因此,本系统采用这种两级端点检测方案。

1.2 模拟匹配算法

DTW是典型的DP特定人算法,为了克服自然语速的差异,用动态时间规整方法将模板特征序列和语音特征序列进行匹配,比较两者之间的失真,得出识别判决的依据。

假设存储的一个词条模板包括M帧倒谱特征R={r(m);m=1,2,∧,M};识别特征序列包括N帧倒谱特征T={t(n);n=1,2, ∧,N}。在r(i)和t(i)之间定义帧局部失真D(i,j),D(i,j)=|r(i)-t(i)| 2,通过动态规划过程,在搜索路径中找到累积失真最小的路径,即最优的匹配结果。采用对称形式DTW:

其中S(i,j)是累积失真,D(i,j)是局部失真。

当动态规划过程计算到固定结点(N,M)时,可以计算出该模板动态匹配的归一化距离,识别结果即该归一化距离最小的模板词条:x=argmin{S(N,Mx)}。

为了提高DTW识别算法的识别性能和模板的稳健性,提出了双模板策略,即x=argmin{S(N,M2x)}。第一次输入的训练词条存储为第一个模板,第二次输入的相同训练词条存储为第二个模板,希望每个词条通过两个较稳健的模板来保持较高的识别性能。与上面测试相同,也利用7个人说的100个人名,每个人名含3遍的数据库,比较DTW单模板和双模板的性能差别,结果更在表2中。

表2 DTW不同模板数的识别率比较

DTW第1人第2人第3人第4人第5人第6人第7人平均单模板94.3%89.9%93.2%99.4%99.4%98.8%100%96.4%双模板99.4%96.6%98.5%100%100%98.8%100%99.0%测试结果说明:通过存储两个模板,相当大地提高了DTW识别的性能,其稳健性也有很大的提高。因此,对特定人识别系统,采用DTW双模板是简单有效的策略。

综上所述,该嵌入式语音识别芯片系统采用了改进端点检测性能的FRED算法,12阶Mel频标倒谱参数(MFCC)作为特征参数,使用双模板训练识别策略。通过一系列测试,证明该系统对特定人的识别达到了很好的识别性能,完全可以满足家用电器中声控应用的要求。

2 语音控制遥控器设计

目前家用遥控器主要为按键式,并有两种类型:一种是固定码型,每个键对应一种或几种码型,都是生产厂家预先设定好的,用户不能更改;另一种是学习型,具有自我学习遥控码的功能,可由用户定义遥控器的每个键对应的码型,它能够将多种遥控器集于一身,用一个遥控器就可控制多个家电,又可以作为原配遥控器的备份。由于现代家电功能不断增加,上述两种遥控器都有按键过多,用户不易记住每个键的含义等问题。将语音识别技术应用于学习型遥控器,利用语音命令代替按者对命令的记忆和使用,同时省去了大量按键,缩小了遥控器的体积。

    语音控制遥控器的硬件框图如图2所示,它由两个独立的模块组成:语音信号处理模块和系统控制模块。

语音信号算是模块由DSP、快闪存储器(FLASH)、编解码器(CODEC)组成。其中DSP是整个语音识别模块的核心,负责语音识别、语音编解码,以及FLASH的读写控制。DSP的优点是运算速度快、内存空间大、数据交换速度快,可用来实现复杂的算法,提高识别率,减小反应延时,得到较高的识别性能。DSP芯片选用Analog Devices公司的AD2186L,它具有如下特点:①运算速度达40MIPS,且均为高效的单调周期指令;②提供了40K字节的片内RAM,其中8K字(16Bit/字)为数据RAM,8K字(24Bit/字)为程序RAM,最大可达4兆字节的存储区,用于存储数据或程序;③3.3V工作电压,具有多种省电模式。AD2186L既能完成与语音信号算是相关的算法,又适合使用电池作能源的遥控器。FLASH和CODEC也都选用3.3V工作电压的芯片。FLASH为美国ATMEL公司的AT29LV040A(4M Bit),它作为系统的存储器,主要用于存放以下内容:提示语音合成所需的参数,特定人训练后的码本数据,DSP系统的应用程序和学习和遥控码数据。CODEC选用美国TI公司的TLV320AC37,用来进行A/D、D/A变换、编码和解码。

系统控制模块由单片机、红外接收发送器、电源管理电路组成。单片机负责整个遥控器的系统控制。单片机作为主控芯片,进行键盘扫描,根据用户通过键盘输入的指令,分别完成学习遥控码;控制DSP进行语音训练、回放、识别;将识别结果转换成相应的遥控码,通过红外发光管发射出去。单片机与DSP之间通过标准的RS232串行协议通讯。

    系统的控制软件流程图如图3所示。在使用前,按“学习键”进入学习状态,用户先对学习型遥控器训练语音命令,并使其学习与各语音命令相对应的原理控码型。使用时按“识别键”,进入语音识别状态,等待语音处理模块返回结果,若返回正确的识别结果,则把相应的遥控码发射出去。例如,原电视遥控器数字键“1”对应中央1台,用户的训练命令为“中央1台”,学习了原遥控器的数字键“1”的遥控码,并使其与训练命令“中央1台”对应起来。于是使用时只需对着学习型遥控器的麦克风说出“中央1台”,电视就会切换到中央1台。这样用户不需要记住每个电视台与台号的对应关系,相对于枯燥的频道数字,用户自定义的命令更容易记住。

若连续的30秒无正确的命令则遥控器进入休眠状态,单片机控制电源管理电路切换DSP和FLASH电源,单片机本身也进入休眠状态,直至用户按键,唤醒单片机,再由单片机控制恢复DSP和FLASH供电,重新开始工作。这是因为整个系统中,DSP的功耗最大,长时间不用时,关闭语音信号处理模块,可以显著地降低整个系统的功耗。

语音识别篇8

关键词:车载系统 语音识别 端点检测 特征参数提取 识别模式

中图分类号:TN912 文献标识码:A 文章编号:1007-9416(2012)02-0082-01

由于生活节奏的加快,汽车已经成为了人们生活中重要的工具,人们在车内的时间也更多。同时也希望能够在车内接收到外界的信息继续进行工作,还要求汽车有娱乐功能,因此促进了车载多媒体的发展。而车载多媒体传统的人机交互方式会增加潜在的驾驶危险,为此将语音识别应用于车载多媒体系统中,将会是车载多媒体发展的重要方向。端点检测、特征参数提取以及识别是语音识别的主要内容,本文也将从这三个方向对车在多媒体系统的语音识别进行研究。

1、端点检测

在进行语音识别时,首先需要通过端点检测来对语音信号中的无声片段和有声片段进行分割。目前,语音端点识别已经从开始的单一门限发展到了基于模糊理论的判决。但是对于车载多媒体而言,计算量较大、识别响应时间较长端点检测的方法显然不使用,所以主要采用基于短平均过零率和短时间平均幅度的方法来进行语音端点检测,这种方法利用短时间内幅度的检测和过零率来作为语音端点的检测。

首先,利用短时幅度可以有效判断语音端点,同时语音的浊音部分平均幅度会明显大于噪声的平均幅度,然后同时再辅以短时过零率的方法来判断语音开始的浊音,从而进一步对端点检测进行校准,两者的结合能够更加精确的判断语音端点,并且两种算法都较为简单,能够满足车在多媒体的需求。

2、特征参数提取

在完成语音的端点检测之后,需要提取语音的特征参数,然后进行语音识别。目前用于语音特征参数提取的算法主要有LPCC(线性预测倒谱系数)和MFCC(Mel频率倒谱),由于MFCC具有更强的抗干扰能力等特点,更适合与噪声较多、司机不能离输入设备很近的车载环境。

分析MFCC的语音特征参数提取可以分成预加重、加窗、FFT(快速傅里叶变换)、滤波、自然对数提取、自然对数DCT计算这六个步骤。由于MFCC其计算精度以及计算量都较大,因此,使用MFCC作为车载系统的语音特征参数提取时,需要进行相应的改进:

(1)在MFCC实现的六个步骤中,例如加窗等步骤就可以实现进行计算,然后存储在数组中,在使用时进行查表提取,从而避免每一次语音识别时重复计算,从而加快了计算速度。

(2)FFT需要花费大量的时间(据统计,FFT需要花费MFCC56.32%的时间[2]),由于FFT算法是对复数进行处理,而语音信号的处理只涉及到实数部分,其虚数部分为零,因此增加了运算时间,因此可以利用文献3所提出的FFT运算方法,将长度为N的FFT预算降低到长度为N/2的FFT运算,从而提高了语音特征参数提取效率。

3、识别模式

语音识别的原理是模式匹配,通过计算现有语音模式与语音模板库中的模板的距离,来获得最佳的匹配模式。匹配的方法主要有DTW(动态时间规整)、HMM(隐马尔科夫模型)和ANN(人工神经元网络)。由于ANN计算量较大,因此不适合用于车载多媒体系统中,HMM需要繁杂的程序结构,包含众多功能模块,需要大量的计算。因此, DTW模式更适合用于车载多媒体系统中。能够满足车载系统孤立词、小词汇量的语音识别。

为了更好的在车在多媒体系统中的嵌入式平台上实现DTW,对DTW进行进一步的改进:

(1)由于在语音识别汇总,对音头和音尾的判断存在一定的误差,因此,使用传统DTW方法在进行固定端点匹配时会存在一定的误差,从而降低了语音匹配成功率。为此,可以采用放宽端点限制的方法来使用DTW进行语音识别。其主要的思路是取消传统DTW中对音头和音尾严格对其的限制。从而,只要两次语音在开始的W帧内能够匹配成功,同时在结束的W帧内匹配成功,即认为两次语音匹配成功。在降低了对端点检测的精度要求,符合车载系统小词汇量的特点,不会降低车载系统语音识别效率。

(2)在使用DTW进行语音模板匹配时,需要计算两个模板各帧的距离来计算模板之间的距离。加入模板库中的某个模板T有N帧,待识别的语音R有M帧,那么通常需要申请M×N长度的空间,再根据两个模板所有帧间距离计算整体长度。但是在实际的应用中,只需要M长度的空间来存放模板T第n-1帧与模板R中M帧之间的距离,在计算完第n帧与模板R中M帧之间的距离对M长度空间的数据进行替换,从而进行模板T第n+1帧与模板R中M帧之间的距离,从而节省了(N-1)×M的存储空间,这对车载系统有限存储空间的系统中有着非常重要的意义。

4、结语

相比于传统的按钮式、触摸屏式人机交互系统,语音识别对于车载多媒体系统有着非常重要的意义,将是车载多媒体系统重要的发展方向,本文针对车载多媒体系统对低CPU运算时间和地存储空间的特点,对语音识别中的端点检测、语音特征参数提取以及识别模式的实现和优化进行了研究。

参考文献

[1]方敏,浦剑涛,李成荣.嵌入式语音识别系统的研究和实现[J].中国信息学报,2004,(6):73~78.

[2]万春,黄杰圣,曹煦晖.基于DTW的孤立词语音识别研究和算法改进[J].计算机与现代化,2005,(13):4~6.

[3]谢凌云,杜利民,刘斌.嵌入式语音识别系统的快速高斯计算实现[J].计算机工程与应用,2004,(23):30~31.

作者简介

上一篇:语音播报范文 下一篇:企业文化战略范文