语音识别范文

时间:2023-02-25 21:40:35

语音识别

语音识别范文第1篇

关键词:语音识别 应用领域 热点 难点

中图分类号:TN912 文献标识码:A 文章编号:1007-3973 (2010) 03-062-02

1应用领域

如今,一些语音识别的应用已经应用到实际生活中,如IBM的Viavoice、Microsoft的Speech SDK、Dragon公司的Dragon Dictate系统等。语音识别的应用领域非常广泛,几乎涉及到日常生活的方方面面。如语音拨号系统、、家庭服务、订票系统、声控智能玩具、医疗服务、银行服务、听写机、计算机控制、工业控制、语音通信系统等。预计在不远的将来,语音识别技术将在工业、家电、通信、、医疗、家庭服务等各个领域深刻改变人类现有的日常生活方式。语音识别听写机在一些领域的应用被美国新闻界评为1997年计算机发展十件大事之一。很多专家都认为语音识别技术是2000年至2010年间信息技术领域十大重要的科技发展技术之一。

2发展历史

语音识别的研究工作开始于50年代,Bell实验室实现了第一个可识别十个英文数字的语音识别系统―Audry系统。但真正取得实质性进展,并将其作为一个重要的课题开展研究则是在60年代末70年代初。60年代,提出了动态规划(DP)和线性预测分析技术(LP),其中后者较好地解决了语音信号产生模型的问题,极大地促进了语音识别的发展。70年代,动态时间归正技术(DTW)解决了语音特征不等长匹配问题,对特定人孤立词语音识别十分有效,在语音识别领域取得了突破。在此期间还提出了矢量量化(VQ)和隐马尔可夫模型(HMM)理论。

80年代语音识别研究进一步深入,HMM模型和人工神经网络(ANN)在语音识别中成功应用。1988年,FULEE Kai等用VQ/I-IMM方法实现了997个词汇的非特定人连续语音识别系统SPHINX。这是世界上第1个高性能的非特定人、大词汇量、连续语音识别系统。人们终于在实验室突破了大词汇量、连续语音和非特定人这三大障碍,并以此确定了统计方法和模型在语音识别和语言处理中的主流地位。使得借助人工智能中的启发式搜索和语音模型自身的特点,高效、快捷的算法使得建立实时的连续语音识别系统成为可能。

90年代,人们开始进一步研究语音识别与自然语言处理的结合,逐步发展到基于自然口语识别和理解的人机对话系统。人工神经元网络(ANN)也开始应用于语音识别,它和HMM模型建立的语音识别系统性能相当,在很多系统中还被结合在一起使用以提高识别率及系统的鲁棒性。小波分析也开始用于特征提取,但目前性能不理想,其研究还在进一步深入中。

现在语音识别系统已经开始从实验室走向实用,出现了比较成熟的已推向市场的产品。许多发达国家如美国、日本、韩国以及IBM、Apple、Microsoft、AT&T等著名公司都为语音识别系统的实用化开发研究投以巨资。

3研究的热点与难点

目前语音识别领域的研究热点包括:稳健语音识别(识别的鲁棒性)、语音输入设备研究 、声学HMM模型的细化、说话人自适应技术、大词汇量关键词识别、高效的识别(搜索)算法研究 、可信度评测算法研究、ANN的应用、语言模型及深层次的自然语言理解。

目前研究的难点主要表现在:(1)语音识别系统的适应性差。主要体现在对环境依赖性强。(2)高噪声环境下语音识别进展困难,因为此时人的发音变化很大,像声音变高,语速变慢,音调及共振峰变化等等,必须寻找新的信号分析处理方法。(3)如何把语言学、生理学、心理学方面知识量化、建模并有效用于语音识别,目前也是一个难点。(4)由于我们对人类的听觉理解、知识积累和学习机制以及大脑神经系统的控制机理等方面的认识还很不清楚,这必将阻碍语音识别的进一步发展。

4语音识别系统

一个典型的语音识别系统如图所示:

输入的语言信号首先要进行反混叠滤波、采样、A/D转换等过程进行数字化,之后要进行预处理,包括预加重、加窗和分帧、端点检测等。我们称之为对语音信号进行预处理。

语音信号的特征参数主要有:短时能量En,反映语音振幅或能量随着时间缓慢变化的规律;短时平均过零率Zn,对于离散信号来讲,简单的说就是样本改变符号的次数,可以粗略分辨清音和浊音;短时自相关函数;经过FFT或LPC运算得到的功率谱,再经过对数运算和傅里叶反变换以后得到的倒谱参数;根据人耳听觉特性变换的美尔(MEL);线性预测系数等。通常识别参数可选择上面的某一种或几种的组合。

语音识别是语音识别系统最核心的部分。包括语音的声学模型(训练学习)与模式匹配(识别算法)以及相应的语言模型与语言处理2大部分。声学模型用于参数匹配,通常在模型训练阶段按照一定的准则,由用语音特征参数表征的大量已知模式中通过学习算法来获取代表该模式本质特征的模型参数而产生。在识别(模式匹配)时将输入的语音特征同声学模型(模式)根据一定准则进行匹配与比较,使未知模式与模型库中的某一个模型获得最佳匹配以得到最佳的识别结果。语言模型一般指在匹配搜索时用于字词和路径约束的语言规则,它包括由识别语音命令构成的语法网络或由统计方法构成的语言模型,语言处理则可以进行语法、语义分析。

声学模型是语音识别系统中最关键的一部分。目前最常用也最有效的几种声学识别模型包括动态时间归整模型(DTW)、隐马尔可夫模型(HMM)和人工神经网络模型(ANN)等。

DTW是较早的一种模式匹配和模型训练技术,它把整个单词作为识别单元,在训练阶段将词汇表中每个词的特征矢量序列作为模板存入模板库,在识别阶段将待识别语音的特征矢量序列依次与库中的每个模板进行相似度比较,将相似度最高者作为识别结果输出。DTW应用动态规划方法成功解决了语音信号特征参数序列比较时时长不等的难题,在小词汇量、孤立词语音识别中获得了良好性能。但因其不适合连续语音大词汇量语音识别系统,目前已逐渐被HMM和ANN模型替代。

HMM模型是语音信号时变特征的有参表示法。它由相互关联的两个随机过程共同描述信号的统计特性,其中一个是隐蔽的(不可观测的)具有有限状态的Markor链,另一个是与Markor链的每一状态相关联的观察矢量的随机过程(可观测的)。HMM很好的模拟了人得语言过程,目前应用十分广泛。HMM模型的模型参数包括HMM拓扑结构(状态数目N、状态之间的转移方向等)、每个状态可以观察到的符号数M(符号集合O)、状态转移概率A及描述观察符号统计特性的一组随机函数,包括观察符号的概率分布B和初始状态概率分布 ,因此一个HMM模型可以由{N,M,A,B, }来确定,对词汇表中的每一个词都要建立相应的HMM模型。

模型参数得到后可以用Viterbi算法来确定与观察序列对应的最佳的状态序列。建好模型后,在识别阶段就是要计算每个模型产生观察符号序列的输出概率,输出概率最大的模型所表示的词就是我们的识别结果。这个过程计算量很大,有人提出了前向-后向算法,大大减少了计算量,已经被广泛采用,关于它们的各种改进方法也被大量提出。

ANN在语音识别中的应用是现在研究的又一热点。ANN本质上是一个自适应非线性动力学系统,是由结点互连组成的计算网络,模拟了人类大脑神经元活动的基本原理,具有自学习能力、记忆、联想、推理、概括能力和快速并行实现的特点,同时还具备自组织、自适应的功能。这些能力是HMM模型不具备的,可用于处理一些环境信息十分复杂,背景知识不清楚,推理规则不明确的问题,允许样品有较大的缺损、畸变,因此对于噪声环境下非特定人的语音识别问题来说是一种很好的解决方案。目前大部分应用神经网络的语音识别系统都采用了BP网并取得了较好的识别效果。

将ANN与HMM结合分别利用各自优点进行识别将是今后的一条研究途径。二者结合的混合语音识别方法的研究开始于上世纪90年代,目前已有一些方法将ANN辅助HMM进行计算和学习概率参数。

语言模型主要分为规则模型和统计模型两种。统计语言模型是用概率统计的方法来揭示语言单位内在的统计规律,其中N-Gram简单有效,被广泛使用。N-Gram模型基于这样一种假设:第n个词的出现只与前面N-1个词相关,而与其它任何词都不相关,整句的概率就是各个词出现概率的乘积。这些概率可以通过直接从语料库中统计N个词同时出现的次数得到。常用的是二元的Bi-Gram和三元的Tri-Gram。

5总结

尽管语音识别技术已经取得了长足的进步,而语音识别系统也层出不穷,不断的改变人类现有的生活方式,但其比较成功的应用也只是在某些特定的领域,谈不上大规模广泛的应用。只有建立从声学、语音学到语言学的知识为基础、以信息论、模式识别数理统计和人工智能为主要实现手段的语音处理机制,把整个语音识别过程从系统工程的高度进行分析构建,才有可能获得能与人类相比的高性能的、完整的计算机语音识别系统。

参考文献:

[1]易克初,田斌.付强.语音信号处理[M].国防工业出版社,2000.

[2]胡航.语音信号处理[M].哈尔滨工业大学出版社,2000.

[3]赵力.语音信号处理[M].机械工业出版社,2003.

[4]张卫清.语音识别算法的研究[D].南京理工大学(硕士生论 文),2004.

语音识别范文第2篇

关键词:语音识别;动态时间规整算法;人工神经元网络

中图分类号:H017文献标识码:A文章编号:1672-3198(2008)02-0199-02

1 背景介绍

语言是人类特有的功能,是人们思维最重要的寄托体,是人类交流最主要的途径。语音是语言的声学表现,是人类交流信息最自然、最有效、最方便的手段。语言和语音与人类社会科学文化发展紧密相连。

语音识别技术是让机器接收,识别和理解语音信号,并将其转换成相应的数字信号的技术。它是一门交叉学科,涉及到语音语言学、数理统计、计算机、信号处理等一系列学科。

2 发展历史

1952年贝尔实验室的Davis等人研制成功了能识别十个英文数字发音的Audry系统,标志着语音识别技术研究工作开始。20世纪60年代计提出了动态规划(Dynamic programming)和线性预测分析技术(Liner Predictive)等重要成果。20世纪70年代,语音识别领域取得了突破。实现了基于线性预测倒谱和DTW技术的特定人孤立语音识别系统。20世纪80年代语音识别研究进一步走向深入, 基于特定人孤立语音技术的系统研制成功, 隐马尔可夫模型和人工神经元网络(Artificial Neural Network)在语音识别中的成功应用。进入20世纪90年代后语音识别系统开始从实验室走向实用。我国对语音识别的研究开始于20世纪80年代,近年来发展迅速,并取得了一系列的成果。

3 具体应用

随着计算机技术、模式识别等技术的发展,适应不同场合的语音识别系统相继被开发出来,语音识别及处理技术已经越来越突现出其强大的技术优势。近三十年来,语音识别在计算机、信息处理、通信与电子系统、自动控制等领域的应用越来越广泛。

在许多政府部门、商业机构,语音识别技术的应用,可免除大量操作人员的重复劳动,既经济又方便。如:语音邮件、IP电话和IP传真、电子商务、自动语音应答系统、自动语音信箱、基于IP的语音、数据、视频的CTI系统、综合语音、数据服务系统、自然语音识别系统、专家咨询信息服务系统、寻呼服务、故障服务、秘书服务、多媒体综合信息服务、专业特别服务号(168自动信息服务系统,112、114、119等信息查询系统)等。许多特定环境下,如工业控制方面,在一些工作环境恶劣、对人身有伤害的地方(如地下、深水及辐射、高温等)或手工难以操作的地方,均可通过语音发出相应的控制命令,让设备完成各种工作。

当今,语音识别产品不仅在人机交互中,占到的市场比例越来越大,而且在许多领域都有了广阔的应用前景,在人们的社会生活中起着举足轻重的作用。

4 语音识别系统原理

语音识别一般分为两个步骤:学习阶段和识别阶段。学习阶段的任务是建立识别基本单元的声学模型以及语言模型。识别阶段是将输入的目标语音的特征参数和模型进行比较,得到识别结果。

语音识别过程如图所示。下面对该流程作简单介绍:

(1)语音采集设备如话筒、电话等将语音转换成模拟信号。

(2)数字化一般包括预滤波、采样和A/D变换。该过程将模拟信号转变成计算机能处理的数字信号。

(3)预处理一般包括预加重、加窗分帧。经预处理后的信号被转换成了帧序列的加窗的短时信号。

(4)参数分析是对短时信号进行分析,提取语音特征参数的过程,如时域、频域分析,矢量量化等。

(5)语音识别是目标语音根据特征参数与模型库中的参数进行匹配,产生识别结果的过程。一般有模板匹配法、随机模型法和神经网络等。

(6)应用程序根据识别结果产程预定动作。

(7)该过程是语音模型的学习过程。

5 现有算法介绍

语音识别常用的方法有:模板匹配法、人工神经网络法。

(1)模板匹配法是语音识别中常用的一种相似度计算方法。模板匹配法一般将语音或单词作为识别单元,一般适用于词汇表较小的场合。在训练阶段,对用户语音进行特征提取和特征维数的压缩,这个过程常用的方法是采用矢量量化(VQ)技术。然后采用聚类方法或其他方法,针对每个模式类各产生一个或几个模板。识别阶段将待识别的语音模式的特征参数与各模板进行相似度的计算,将最高相似者作为识别结果。但由于用户在不同时刻发同一个音的时间长度有较大随意性,所以识别时必须对语音时间进行伸缩处理。研究表明,简单的线性伸缩是不能满足要求的。由日本学者板仓在70年代提出的动态时间伸缩算法(DTW)很好的解决了这一问题。DTW算法能够较好地解决小词汇量、孤立词识别时说话速度不均匀的难题。DTW算法示意图如图所示。

设测试的语音参数共有M帧矢量,而参考模板有N帧矢量,且M≠N,则DTW 就是寻找一个时间归整函数tn=f(tm),它将测试矢量的时间轴tm非线性地映射到模板的时间轴tn上,并使该函数满足第k帧(k=1,2,…M)测试矢量I和第f(k)帧(f(k)=1,2…N)模板矢量J之间的距离测度之和最小:

Distance=min∑Mk=1d[I(k)-J(f(k))]

另外,在实际识别系统中,语音的起点或终点由摩擦音构成,环境噪声也比较大,语音的端点检测会存在较大的误差。DTW 算法起点点可以固定在(tm,tn)=(1,1),称为固定起点;也可以选择在(1,2)、(2,1)等点,称为松驰起点。同样,中止点可以选择在(M,N)点,称为固定终点;也可以选择在(N一1,M)、(N,M一1)等点,称为松弛终点。松弛的DTW 算法的起始点从(1,1)、(1,2)、(2,1)等点中选择一最小值,终止点从(M,N)、(M,N-1)、(M-1,N)等点中选择一最小值,两语音样本之间的相互距离在相应的点放松后选择一最小距离。松弛DTW可以克服由于端点检测不精确引起的误差,但运算量加大。

(2)人工神经网络法。现实世界的语音信号会随着许多特征如:说话人语速、语调以及环境的变化而动态变化的,想要用传统的基于模板的方法建立一个适应动态变化的语音识别系统是非常困难的。因此需要设计一个带有自学习能力的自适应识别系统,以便可以适应语音的动态变化。

人工神经网络由神经元、网络拓朴和学习方法构成。人工神经网络拓朴结构可分为反馈型和非反馈型(前馈型)。学习方法可分为监督型和非监督型。各种人工神经网络模型中应用得最典型的是采用反向传播(Back Propagation)学习算法的多层前馈网络。多层前馈型网络如图所示。

除上述介绍的几种常用的方法外,还有许多其它的识别方法以及改进算法。

6 尚未解决的问题及值得研究的方向

(1)就算法模型方面而言,需要有进一步的突破。声学模型和语言模型是听写识别的基础。目前使用的语言模型只是一种概率模型,还没有用到以语言学为基础的文法模型,而要使计算机确实理解人类的语言,就必须在这一点上取得进展。

(2)语音识别的自适应性也有待进一步改进。同一个音节或单词的语音不仅对随着的讲话者的不同而变化,而且对同一个讲话者在不同场合,不同上下文环境中也会发生变化。这意味着对语言模型的进一步改进。

(3)语音识别技术还需要能排除各种环境因素的影响。目前,对语音识别效果影响最大的就是环境杂音或噪音。要在嘈杂环境中使用语音识别技术必须有特殊的抗噪麦克风才能进行,这对多数用户来说是不现实的。在公共场合中,如何让语音识别技术能有摒弃环境嗓音并从中获取所需要的特定声音是一个艰巨的任务。

虽然在短期内还不可能造出具有和人相比拟的语音识别系统,但在未来几年内,语音识别系统的应用将更加广泛,各种语音识别系统产品将陆续进入我们的生活。语音识别各个方面的技术正在不断地进步,一步步朝着更加智能化的方向发展。

参考文献

[1]杨尚国,杨金龙.语音识别技术概述[J].福建电脑,2006,(8).

[2]孙宁,孙劲光,孙宇. 基于神经网络的语音识别技术研究[J]. 计算机与数字工程,2006.

[3]Phil Woodland. Speech Recognition. Speech and Language Engineering-State of the Art (Ref. No. 1998/499).

[4]Morgan, N.. Bourlard, H.A.Neural networks for statistical recognition of continuous speech. Proceedings of the IEEE Volume 83,Issue 5,May 1995 Page(s):742-772.

语音识别范文第3篇

【关键词】语音识别 语言模型 声学模型 人工智能

使用智能手机的朋友们都会对语音助手产生极大的兴趣,不管是微软的Cortana,还是苹果的Siri,都是将语音识别融入现代技术的典范。Z音识别是解决机器“听懂”人类语言的一项技术,也是人工智能重要部分。

语音识别技术(speech recognition),也被称为自动语音识别 (ASR),其目标是将人类的语音中的词汇内容转换为计算机可读的输入,例如按键、二进制编码或者字符序列。与说话人识别及说话人确认不同,后者尝试识别或确认发出语音的说话人而前者的目标是语音中所包含的词汇内容。

探究语音识别技术的框架、应用与发展有利于全面了解语音识别。本文将从语音识别简介、主流语言识别框架以及语言识别近年来的发展三个方面探究语音识别。

1 语音识别简介

1.1 传统语言识别技术发展

对语音识别技术的研究可以追述到上世纪五十年代,1952年贝尔研究所Davis等人研究成功了世界上第一个能识别10个英文数字发音的实验系统,开创了语音识别的先河。上世纪六十年代,人工神经网络被引入了语音识别。上世纪七十年代以后,大规模的语音识别在小词汇量、孤立词的识别方面取得了实质性的进展。传统语音识别技术最大突破是隐式马尔可夫模型的应用,这一模型极大提高了语音识别的准确率[1]。

1.2 语言识别的应用

作为智能计算机研究的主导方向和人机语音通信的关键技术,语音识别一直受到各国科学界的广泛关注。如今,随着语音识别技术的研究的突破,其对计算机发展和社会生活的重要性日益凸现出来。在现实生活中,语音识别技术的应用相当广泛,它改变了人与计算机交互的方式,使计算机更加智能。和键盘输入相比,语音识别更符合人的日常习惯;使用语言控制系统,相比手动控制,语音识别更加方便快捷,可以用在工业控制、智能家电等设备;通过智能对话查询系统,企业可以根据用户的语音进行操作,为用户提供自然、友好的数据检索服务。

2 语音识别框架

目前主流的语音识别框架可以分为以下几个模块:信号处理,特征提取,声学模型,语言模型,解码器。

2.1 信号处理

信号处理模块是对语音文件进行预处理。声音是一种纵波,在识别语音时,输入为WMV,MP3等格式的文件会被转换成非压缩的纯波文件wav格式。然后在进行语音识别前,需要检测该文件中的语音信号,该技术被称之为语音活性检测[2]。使用语言活性检测技术可以有效降低噪音,去除非语音片段,提高语音识别的准确率。经典的语音活性检测算法由如下步骤组成:

(1)使用spectral subtraction等方法对语言序列进行降噪。(2)将输入信号的分成区块并提取特征。(3)设计分类器判断该区块是否为语音信号。

2.2 特征提取

特征提取目的是提取出语音文件的特征,以一定的数学方式表达,从而可以参与到后续模块处理中。在这一模块,首先要将连续的声音分成离散的帧。每一帧的时间既要足够长,使得我们能够判断它属于哪个声韵母的信息,若过短则包含信息过少;每一帧时间也要尽量短,语音信号需要足够平稳,能够通过短时傅里叶分析进行特征提取,过长则会使信号不够平稳。分帧时使用如下改进技术可以有效提高识别准确率:相邻的两帧有所重叠减少分割误差,将与临近帧之间的差分作为额外特征,将多个语音帧堆叠起来。通过分帧处理,连续的语音被分为离散的小段,但还缺乏数学上的描述能力,因此需要对波形作特征提取。常见的方法是根据人耳的生理特征,把每一帧波形变换成一个多维向量。因此,这些向量包含了这些语音的内容信息。该过程被称为声学特征提取,常见的声学特征有MFCC、CPE、LPC等。

MFCC是目前最常用、最基本的声学特征,提取MFCC特征可以分为如下四个步骤:首先对每一帧进行傅里叶变换,取得每一帧的频谱。再把频谱与图1中每个三角形相乘并积分,求出频谱在每一个三角形下的能量,这样处理可以减少数据量,并模仿人耳在低频处分辨率高的特性。然后取上一步得到结果的对数,这可以放大低能量处的能量差异。最后对得到的对数进行离散余弦变换,并保留前12~20个点进一步压缩数据。通过特征提取,声音序列就被转换为有特征向量组成的矩阵。

2.3 声学模型

声学模型是语音识别中最重要的组成部分之一,其用于语音到音节概率的计算。目前主流的方法多数采用隐马尔科夫模型,隐马尔可夫模型的概念是一个离散时域有限状态自动机。

隐马尔可夫模型HMM如图2所示,是指这一马尔可夫模型的内部状态x1,x2,x3外界不可见,外界只能看到各个时刻的输出值y1,y2,y3。对语音识别系统,输出值通常就是从各个帧计算而得的声学特征,输入是由特征提取模块提取的特征。用HMM刻画语音信号需作出两个假设,一是内部状态的转移只与上一状态有关,另一是输出值Y只与当前状态X(或当前的状态转移)有关,这两个假设大大降低了模型的复杂度。HMM的打分、解码和训练相应的算法是前向算法、维特比算法和前向后向算法。

早期的声学模型使用矢量量化(Vector Quantification)的方法,使其性能受到VQ算法的极大影响。对于连续取值的特征应当采用连续的概率分布如高斯混合模型或混合拉普拉斯模型等。为了解决模型参数过多的问题,可以使用某些聚类方法来减小模型中的参数数量,提高模型的可训练性。聚类可以在模型层次,状态层次乃至混合高斯模型中每个混合的层次进行。

2.4 语言模型

语言模型音节到字概率的计算。 语言模型主要分为规则模型和统计模型两种。相比于统计模型,规则模型鲁棒性较差,对非本质错误过于严苛,泛化能力较差,研究强度更大。因此主流语音识别技术多采用统计模型。统计模型采用概率统计的方法来揭示语言单位内在的统计规律,其中N-Gram简单有效,被广泛使用。

N-Gram基于如下假设:第N个词的出现只与前面N-1个词相关,而与其它任何词都不相关,整句的概率即为各个词出现概率的乘积。词与词之间的概率可以直接从语料中统计N个词同时出现的次数得到。考虑计算量和效果之间的平衡,N取值一般较小,常用的是二元的Bi-Gram和三元的Tri-Gram。

2.5 解码器

解码器是语音识别系统的核心之一,其任务是对输入信号,根据声学、语言模型及词典,寻找能够以最大概率输出该信号的词串。在实践中较多采用维特比算法[3]搜索根据声学、语言模型得出的最优词串。

基于动态规划的维特比算法在每个时间点上的各个状态,计算解码状态序列对观察序列的后验概率,保留概率最大的路径,并在每个节点记录下相应的状态信息以便最后反向获取词解码序列。维特比算法在不丧失最优解的条件下,同时解决了连续语音识别中HMM模型状态序列与声学观察序列的非线性时间对准、词边界检测和词的识别,从而使这一算法成为语音识别搜索的基本策略。

维特比(Viterbi)算法的时齐特性使得同一时刻的各条路径对应于同样的观察序列,因而具有可比性,Beam搜索在每一时刻只保留概率最大的前若干条路径,大幅度的剪枝提高了搜索的效率。Viterbi-Beam算法是当前语音识别搜索中最有效的算法。

3 语音识别技术的发展

近几年来,特别是2009年以来,借助机器学习领域深度学习研究的发展,以及大数据语料的积累,语音识别技术得到突飞猛进的发展。

在模型方面,传统语音识别模型逐步被神经网络替代,使用神经网络可以更好地提取特征,拟合曲线。使用人工神经网络来提高语音识别性能的概念最早在80年代就提出了,但当时高斯混合模型在大词汇语音识别上表现得更好,因此人工神经网络并没有进行商业应用。随着相关技术的进一步发展,微软研究院利用深度神经网络建立了数千个音素的模型,比传统方法减少了16%的相对误差。其在建立起有超过660万神经联系的网络后,将总的语音识别错误率降低了30%,实现了语音识别巨大的突破[4]。

同时目前多数主流语言识别解码器采用了基于有限状态机的解码网络,该网络将语音模型、词典、声学共享音字集统一为大的解码网络,大幅度提高了解码速度。

在数据量上,由于移动互联网的急速发展,从多个渠道获取的海量语言原料为声学模型和语言模型的训练提供了丰富的资源,不断提升语音识别的准确率。

4 结语

语音是人们工作生活中最自然的交流媒介,所以语音识别技术在人机交互中成为非常重要的方式,语音识别技术具有非常广泛的应用领域和非常广阔的市场前景。而随着深度神经网络发展,硬件计算能力的提高,以及海量数据积累,语音识别系统的准确率和实用性将得到持续提高。

参考文献:

[1]S基百科编者.语音识别[G/OL].维基百科,2016(20160829)[2016-08-29].

[2]维基百科编者.语音活性检测[G/OL].维基百科,2016(20160629)[2016-06-29].

[3]维基百科编者.维特比算法[G/OL].维基百科,2016(20160920)[2016-09-20].

[4] Dahl G E, Yu D, Deng L, et al. Context-dependent pre-trained deep neural networks for large-vocabulary speech recognition[J]. IEEE Transactions on Audio, Speech, and Language Processing, 2012, 20(1):30-42.

[5]王炳锡,屈丹,彭煊.实用语音识别基础[M].北京:国防工业出版社,2005.

语音识别范文第4篇

【关键词】 语音识别 通话 大数据 互联网

该文主要致力于解决通话中的语音识别技术,长期可推广至QQ语音聊天等即时聊天软件中,相较于目前大多数语音识别软件需要手动打开更为主动,让用户感觉不到软件的存在,将该技术深度整合到系统或QQ服务中在通话结束后针对通话中涉及的电话号码、地点、时间等关键信息进行信息的推送,大大提高了效率,并对听力有障碍的人士有更为重要的意义。

一、语音识别基本原理

语音识别系统本质上是一种模式识别系统,包括特征提取、模式匹配、参考模式库等三个基本单元,未知语音经过话筒变换成电信号后加在识别系统的输入端,首先经过预处理,再根据人的语音特点建立语音模型,对输入的语音信号进行分析,并抽取所需的特征,在此基础上建立语音识别所需的模板,然后根据此模板的定义,通过查表就可以给出计算机的识别结果。 [1]

二、通话中语音识别技术

2.1技术原理:

1、基本架构:Smartalk通话系统基于“云之讯”开放平台提供的语音视频通话服务和“科大讯飞”开放平台提供的语音识别服务,并加以对手机GPS位置、通讯录、社交软件信息的分析,在“云”的辅助下对之进行处理和交换。Smartalk架构分为4个部分:客户端、语音视频服务、语音识别服务、云数据处理分析。利用“云之讯”开放平台提供的语音视频通话服务和“科大讯飞”开放平台提供的语音识别服务可将用户在通话中涉及的地点、人名、电话号码等关键词提取出来并加以分析对行程和下一步操作提供帮助。

2、基本平台:本系统基于APIcloud开发,兼容云端和第三方SDK,可跨平台(Android、IOS、Windows等)使用,采用标准的c++语言实现。

2.2功能实现:

1、基于“云之讯”开放平台的通话系统:云之讯融合通讯开放平台为企业及个人开发者提供各种通讯服务,包括在线语音服务、短信服务、视频服务、会议服务等,开发者通过嵌入云通讯API在应用中轻松实现各种通讯功能。

2、基于“科大讯飞”开放平台的语音识别系统:。讯飞开放平台使用户可通过互联网、移动互联网,使用任何设备方便的介入讯飞开放平台提供的“听、说、读、写”等全方位的人工智能服务。目前开放平台向开发者提供语音合成、语音识别、语音唤醒、语义理解、移动应用分析等多项服务。

3、语音识别与云端大数据结合分析:。利用基于“云之讯”通话系统和“科大讯飞”语音识别系统实现了实时的语音识别,加以云端大数据的结合,和实时的分析用户当前的需求和问题,及时的跟用户产生交流反馈,并根据用户长期的使用时间分析智能提前推送相关信息。

2.3未来展望:

基于大数据和互联网+技术的日益发展与完善,并随着通信传输速度的逐渐提高,可在实时的条件下分析与推送更多丰富的内容,加以与即时聊天软件的结合,将该技术深度整合到系统或QQ服务中在通话结束后针对通话中涉及的电话号码、地点、时间等关键信息进行信息的推送,并对听力有障碍的人士有更为重要的意义,未来的市场前景广阔。

三、语音识别技术应用

3.1 语音指令控制在汽车上的应用:

语音控制人员只需要用嘴说出命令控制字,就可以实现对系统的控制。在汽车上,可用于汽车导航、控制车载设备。如车灯、音响、天窗、座椅、雨刮器等。

3.2语音识别技术在医疗系统中的应用:

医疗语音识别技术,已有厂商开发了基于云平台的语音识别系统,可直接内嵌到医院电子病历系统中,让医生通过语音输入病人信息,填写医疗记录,下达医嘱信息。

四、相关市场调研

1、国内外市场分析:2015年全球智能语音产业规模达到61.2亿美元,较2014年增长34.2%。其中,中国智能语音产业规模达到40.3亿元,较2014年增长增长41.0%,远高于全球语音产业增长速度预计到2016年,中国语音产业规模预计达到59亿元。[2]

2、相关应用发展:拉斯维加斯消费电子展(CES)上展示的MindMeld。在通话中,如果参与者点击应用的一个按钮,那么MindMeld将利用Nuance的语音识别技术,分析此前15至30秒对话。随后,MindMeld将确定对话中的关键词,以及其他多个信息来源,查找具有相关性的信息,并在屏幕上向用户提供图片和链接地址。[3]

参 考 文 献

[1] 吴坚.基于web的salt语音识别技术应用研究[D].湖北工业大学, 2006

[2] 武勤.2015中国智能语音产业发展白皮书.计算机与网络2016,42(8)

语音识别范文第5篇

语音技术涉及到语音编码、语音合成、语音识别、语音技术应用等多个技术领域。目前,关于语音编码,国际标准化组织ISO和国际电信联盟ITU上已经制订了一系列的技术标准,分别应用在有线通信、移动通信、数字音响等领域。但是,关于语音合成与识别技术的标准还没有一个统一的规范,ISO和ITU在这些领域也没有颁布技术标准和规范。虽然有些标准化组织、研究机构和大公司提出了各自的技术规范草案,但是没有得到广泛的承认和支持。国际上,许多跨国公司,如IBM、Microsoft、AT&T、Naunce、Sun System等对语音技术的研究已经持续了多年,对制定语音技术领域的标准非常关心并积极参与,希望能把各自公司的研究成果纳入到技术规范和标准中去,以期在激烈的竞争中处于技术的制高点。现在,与互联网有关的语音技术应用领域,相关的国际语音标准发展迅速,形成了VoiceXML和SALT两大语音标准阵营,并各自都获得了广泛的支持。但是,对语音合成与识别的核心技术,如系统框架、接口规范等还没有统一的标准。本文不讨论语音编码的标准问题,而是对语音合成与识别领域的技术标准做一个初步的探讨。

语音技术标准的三个层面

虽然目前国际上还没有统一的、得到广泛承认和支持的语音合成与识别领域的技术标准,但是,这方面的研究工作发展迅速,近几年推出了许多研究成果,特别是W3C组织积极推动并了多个语音技术应用方面的规范或标准。例如, W3C了Voice Browser(语音浏览器)标准的草案。在这个标准中,Voice Browser标准(草案)定义了几种支持语音输入和输出的链接语言。这些链接语言使语音设备可以跨越各种硬件和软件平台,特别是设计了关于对话、语音识别语法、语音合成、自然语言语义和搜集可重复使用的对话组件的链接语言。这些链接语言和组件就构成了未来语音界面框架。现在,这个标准组中的参加成员有AT&T、Cisco、Hitachi、HP、IBM、Intel、 Lucent、Microsoft、Motorola、Nokia、Nortel、Sun和Unisys等公司。由于语音识别与合成技术还处在迅速发展阶段,制订出一套合适的技术标准很不容易。关于语音技术(除了语音编码)有关标准的制定工作主要集中在三个层面。

语音技术应用: 在这个层面上,主要规定在应用开发中如何使用语音合成与识别技术,即应用程序与语音合成/识别引擎之间的通信协议/语言,许多跨国公司积极参加了这个层面的规范与标准的起草、制订工作,例如,如IBM、AT&T、Naunce、Microsoft、Sun System等,推动并且形成了VoiceXML和SALT两大语音标准阵营。从开发者的角度看,这些标准都是面向应用系统开发用的。万维网联盟W3C主持了VoiceXML的起草和制定工作,并从2000年开始陆续了VoiceXML的多个版本,其中包括了语音识别语法规范和语音合成标记语言等。这些标准不仅使应用程序可以移植,而且还能够使语法相关联。VoiceXML 2.0是一种标记语言,用于建立话音界面,相当于带语音功能的HTML。现在已经有数百个大的厂商开发了基于VoiceXML的应用程序。SALT表示语音应用标记语言,它是在现有的标记语言,如在HTML、XHTML的基础上,增加了对语音和多媒体功能的支持而形成的。对语音应用,它主要关注的是如何通过电话得到语音服务。2002年,SALT联盟论坛了SALT技术规范的草案,并且把它提交给了W3C,希望能成为技术标准。参加和支持SALT技术规范的大公司包括: Cisco Systems Inc., Comverse Inc., Intel Corp., Microsoft Corp., Philips Speech Processing 以及 SpeechWorks International Inc.等。

语音识别/合成系统性能评测标准: 美国国家技术与标准研究所(NIST)主持了这个方面的工作。从20世纪90年代中期开始,NIST就开始组织语音识别/合成系统的性能评测工作。由于语音识别/合成系统的实现技术各种各样,对它们的评测实际上是相当困难的。20世纪90年代初期的时候,语音识别/合成系统大量推出,但往往出现下面的情况: 某个系统在推出时,声称该系统有很高的性能,但实际应用的时候其性能与宣传的差别很大。因此,NIST认为应制定出一套评价语音识别/合成系统的技术标准,让所有的语音识别/合成系统在这套评测标准下进行评估,以得到客观的性能评价指标。在该领域,NIST陆续制定了评价语音识别/合成系统的词错误率WER的计算规范,语言模型的复杂度的计算规范,训练和测试语料的选取,系统响应时间标准,合成语音自然度的评价规范,测试程序的规范等。近年来,NIST又制定了针对其它语种(如,汉语,日语等)的评价标准。NIST的评价标准迅速得到了语音识别/合成领域开发者的支持,越来越多的大公司积极参加NIST组织的评测活动,同时也推动了语音识别/合成技术的发展。国内的“863”智能人机接口专家组也开展了类似的工作,陆续制定了针对汉语语音识别与合成系统性能的评价规范。

语音识别/合成引擎及其开发接口: 在这个层面上还没有一个技术标准或规范被广泛承认和采纳。ISO、ITU、NIST、W3C等标准化组织都没有在该方面推出技术标准或规范。实际上,这方面的工作涉及到许多语音识别/合成系统的具体实现问题,而系统的实现方法千变万化,难以用一个统一的规范和标准来规范。虽然没有语音识别/合成引擎及其开发接口的统一的标准和规范,但一些开发厂商和研究机构还是制定了各自的规范,在各自的语音系统中得到了实现,并随着语音识别/合成系统的推出而。

IBM在其推出的语音识别与合成引擎ViaVoice中规定了开发接口,提供了几百个开发接口函数。Microsoft推出了基于它的语音识别与合成引擎开发语音应用的接口Speech SDK, 在其中也提供了类似的开发接口函数。但是,IBM和Microsoft的语音识别与合成引擎的实现细节没有公开,也没有提供这方面的技术规范。另外,美国的CMU大学、英国剑桥大学电子工程系的HTK开发组都了开放式的语音识别与合成引擎的源码以及相应的开发工具,它们的语音识别与合成引擎的实现方法纷纷被众多的开发者所借鉴,从而形成了业界很有影响的开发规范,但是,这些规范也不是标准。目前,有许多语音识别与合成引擎,但是没有提供实现的技术规范,因此,这些系统的实现和提供的接口只是遵守各自特殊的规定,没有规范化并得到广泛的应用。

中文语音技术标准现状

制订中文语音技术的有关标准,对促进中文语音技术应用、推动中文语音产业发展、增强民族软件核心竞争力均具有非常重要的意义。国家信息产业部、“863”专家组、国家技术监督局和国家信息标准化委员会分别于2001年、2002年、2003年召开了三届语音标准研讨会,并于2003年11月由信息产业部科技司正式下文成立了“中文语音交互技术标准工作组”。

“中文语音交互技术标准工作组”是由国内产、学、研、用等企事业单位以及大专院校等自愿联合组织、经信息产业部科技司批准成立的、组织开展中文语音交互领域技术标准制定和研究活动的非营利性技术工作组织。该工作组的主要工作任务是研究并制定与中文语音交互技术有关的数据交换格式、系统架构与接口、系统分类与评测及数据库格式与标注等方面的标准。目前,语音合成和语音识别通用标准已正式立项为国家标准,报批稿已经完成,多个产业相关的应用技术标准也正在制定之中。

国家“863”智能人机接口专家组在20世纪90年代中后期邀请国内的一些研究机构和大学制订了针对汉语语音识别与合成系统的评价规范,该评价规范应用到了历届对“863”支持的汉语语音识别与合成系统的评价过程中。如果从语音识别与合成技术标准的三个层面考察,国内在该领域的研究工作主要集中在系统性能的评价规范的制订上,至今还没有正式实施的国家标准。但是,随着国内的语音应用开发地迅速发展,没有一个统一的技术规范或标准会造成许多开发重复,资源浪费。

例如,如果语音识别与合成引擎支持媒体资源控制协议(MRCP), 语音应用开发者采用MRCP,IVR和语音识别与合成引擎开发厂商之间的专有用的连接器就不需要了。再如,随着语音技术和应用市场需求增大的同时,面临着复杂系统互联的问题。在系统的互联接口、内容交换数据格式等方面没有一个大家共同遵循的标准,其开发难度、维护难度和运营难度是非常巨大的; 没有一个大家共同遵循的标准,语音合成/识别引擎与电话设备、后台数据库、地理信息、无线定位等其他组成部分完成通信也是非常困难的,这些都成了阻碍语音应用大规模发展的绊脚石。因此,制订和研究汉语语音技术领域的标准已迫在眉睫。

技术标准的主要内容

为了适应网上语音浏览、语音信息检索、交互式语音应用的发展需求,语音识别与合成技术的标准制订工作的重点目前应该集中语音技术应用层面和语音识别/合成引擎及其开发接口上。这样的一个标准或规范必须是有代表性的,通用的,被广泛接受和采用的; 显然,制定一个这样的标准不能闭门造车,要有标准的使用机构或潜在的使用机构参与,还必须与国际上已有的类似的标准接轨,与国际上的标准化机构,如ISO、W3C、ITU等密切合作。值得注意的是,语音识别/合成的实现算法千差万别,该领域的标准或规范只能提供一个实现框架,没有必要对具体的实现算法和技术细节进行约束。另外,语音技术标准还应该与具体应用无关,与语音识别/合成引擎无关等。

如上所述,语音技术标准(除了语音编码)的制订工作主要集中在三个不同的层面上。这三个层面标准的内容分别是:

语音技术应用: 一般基于语音的应用都有如下图所示的架构(已简化)。

在这个层面上,语音技术标准的主要内容是: 规定语音输入、语音输出、识别结果、返回结果的格式和属性。语音输入和语音输出属于用户与语音信号处理引擎之间的交互过程,所以,这部分也包括语音用户界面的内容; 识别结果是语音信号处理引擎输出的结果,也是识别结果执行引擎的输入,识别的结果一般是文本或命令,如何将识别结果格式化是该层面的主要任务; 返回结果是识别结果执行引擎的输出,也是语音信号处理引擎的输入,经语音信号处理引擎处理后,以语音的方式返回给用户。为此,需要规定语音输出的参数格式,如韵律特征、重音特征和停顿等。制订这方面的标准内容还应该考虑汉语语言和语音结构的特殊性。现在已经的技术标准或规范主要是VoiceXML和SALT,它们都属于描述和规定语音技术应用的层面,都是基于标记语言的格式。

语音识别/合成系统性能评测标准: 在这个层面上,语音技术标准的主要内容是: 评价语音识别引擎的性能指标,主要包括: 词汇量大小、识别方式、词错误率WER、语言模型复杂度、响应时间、训练和测试语料等; 评价语音合成引擎的性能指标,主要包括: 词汇量、自然度、清晰度、测试语料等。虽然我们可以借鉴NIST在这方面的经验和标准,但是针对汉语语音识别/合成系统性能评测标准,我们不能照搬,必须考虑汉语的特点。

语音识别/合成引擎及其开发接口: 在这个层面上,语音技术标准的主要内容是: 规定语音识别引擎的输入/输出的格式,如输入语音的方式(已有的语音数据的输入/Mic语音输入)、语音数据的格式、语音特征向量的格式、控制参数的语义格式、输出是文本串的格式、拼音串的格式、音素串的格式等,提供给用户开发接口的函数名、入口/出口参数、功能描述等; 但是,语音识别引擎的实现细节不应该包含在此部分的标准内,如引擎应该包含哪些模块,使用什么样的语音特征向量,如何计算语音特征向量,如何建立模板,如何匹配计算等,都不应该加以约束,而允许开发者采用适当的算法实现。关于规定语音合成引擎,需要规定的是: 输入的格式,如纯文本/拼音、带有控制串的文本/拼音、控制串的语义格式描述、输出的格式、提供给用户开发接口的函数名、入口/出口参数、功能描述等; 但是,语音合成引擎的实现细节不应该包含在此部分的标准内,如引擎应该包含哪些模块,如何进行输入文本的分析,如何分词,采用什么样的合成基元和算法等,都不应该加以约束。关于这部分标准的内容,IBM和Microsoft语音识别/合成引擎开发文档提供了详细的开发接口函数的信息,而且功能基本相同,可以为制订语音识别/合成引擎开发接口提供参考。语音识别引擎开发工具包HTK详细描述了如何开发一个新的语音识别引擎,对制订该部分标准的内容也具有参考意义。

链接:推动技术标准制订

语音技术在网络浏览器和其他领域的的需求越来越迫切,制订语音技术标准或规范的条件工作已经基本就绪,但针对各个具体语种的工作还很多。万维网联盟W3C在制定语音技术标准或规范方面做了大量工作,从2000年开始,先后了一系列用于语音识别、语音合成的标记语言规范; 为了制订一种通用标准,并被广泛采用,W3C邀请了国际上的大公司,如Sun、 IBM、Intel、微软等参加工作组。除了语音识别/合成标记语言,工作组还在开发语义翻译和呼叫控制扩展标记语言两种语音标准。这些标准都是W3C语音接口框架的重要部分,目的是为网络建立语音应用软件。

语音识别范文第6篇

简单地说,自动语音识别(ASR)是一种让计算机识别语音,并将它转换为书面文本的技术,是语音科学与工程发展最快的领域之一。作为新一代的计算技术,它是人机交互领域继文本到语音转换(TTS)和支持交互式语音响应(IVR)系统之后的又一个重大创新。自动语音识别系统的目标是准确、有效地将语音信号转换成文本,并且不受说话者、环境或者是使用的设备(即麦克风)的限制。

语音识别技术最初是为残疾人设计的,它可以帮助那些肌肉骨骼残疾人士实现计算机上的最大生产力。虽然自动语音识别是一项几十年前就开始开发的技术,但直到Apple的虚拟个人助理SiriTM和IBM的WatsonTM的商业成功才真正展示了这一领域的重大突破。事实上,当2011年底Apple推出新一代的iPhone Siri语音识别软件时,在某种意义上意味着这个具有几十年历史的旧技术对普通消费者来说已经足够好了。

全球语音识别市场的主导者是总部设在美国的Nuance Communications,其软件被认为是Siri的动力, 而它的大多数技术依赖于将语音转换为计算机可以理解的文本。Nuance的语音解决方案支持多达50种不同的语言,并且维护着世界上最大的语音数据图书馆之一;有近三分之二的财富100强公司依靠Nuance的解决方案;Nuance的解决方案已经应用到超过50亿部手机和7千万辆汽车上。在医疗方面,仅在美国就有超过3千家医院使用Nuance的医疗保健解决方案,超过15万的医生和护理人员使用Nuance的Dragon Medical系统。

自动语音识别的发展

最早尝试设计机器自动语音识别系统是在20世纪50年代,但以失败告终。第一次成功的语音识别成果产生在20世纪70年代,当时一般的模式匹配技术被推出。由于应用扩展有限,基于统计方法的自动语音识别技术也在同一时期开始开发。如今,统计技术在自动语音识别应用中盛行,常见的语音识别系统可以识别数千字。

在20世纪90年代初,计算机语音识别技术出现了巨大的市场机会。但当时这些产品的早期版本笨重且很难使用,而且不得不做出妥协:它们或者被“调整”为要依赖于一个特定的说话者,或者是只有小词汇量,或者是用一种非常程式化、僵化的语法。然而,在计算机行业中没有什么可以长期保持不变。20世纪90年代末期,出现了全新的商业语音识别软件包,它们比上一代产品更容易使用,也更有效。

自动语音识别研究的“神圣目标”是让计算机实时地以100%的准确度识别任何一个人说的话,并且不受词汇量、噪音、说话者特征和口音、或者说话渠道的影响。尽管在这一领域的研究已经有几十年了,但大于90%的准确率只有在某种程度的制约下才能实现。例如对通过使用麦克风(小词汇量,无噪音)的连续数字的识别准确率可以达到99%以上;如果系统被训练学习某个说话者的声音,那么在可用的商用系统中较大的词汇也同样能被处理,只是准确率会下降到90%~95%;而不同说话者不同渠道的大词汇量语音识别的准确率不超过87%,并且处理时间是实时的数百倍。自动语音识别的性能可能受许多因素的影响,包括技术设计、语音输入的类型和质量、周边环境和用户特征等。当有更多的数据时,自动语音识别系统的性能可以更好,因为这样统计模型就可以建立在更大的基础上。Google的自动语音识别系统性能好的原因是它们存储了每个键入或说到Google中的搜索词,并基于搜索的共性来确定概率。

自动语音识别的应用

过去十年目睹了语音识别技术的显著改善,高性能算法与系统都已可用,使得自动语音识别的应用越来越广泛。IT主流使得采用自动语音识别在全球商业中变得更为关键,尤其是近年来互联网协议(VoIP)平台的扩散刺激了企业对语音识别技术的采用。以支持应用程序开始,语音识别解决方案已经演变成渗透包括航空公司、银行、仓储、库存管理和安全券商等多个行业的核心应用程序,并已经成为差异化服务和建立客户关系的工具。甚至医疗中心、医院、制药公司和其他医疗保健行业参与者也纷纷采用自助语音解决方案,因为这不仅能降低运营成本,同时也提高了客户的隐私度。

消费者对自动语音识别技术的应用程序范围从基本的依靠语音启动的报警系统和手机上的语音拨号,到智能手机应用中的语音股票报价和基于语音的电子邮件,以及更多的有针对性的解决方案,如互动娱乐和语音身份验证等。同时,自动语音识别也是汽车导航、远程信息处理系统和信息跟踪等的重要组成部分。随着对支持语言学习的创新应用的需求日益增加,使用自动语音识别技术的计算机辅助语言学习(CALL)系统也越来越受关注。

语音自动转化为文本 我们都听过像Apple的Siri一类的可以自动识别我们说什么的系统,并想知道我们能否使用这种“自动语音识别”技术来替代手工转录口述内容的繁琐过程。

自动语音识别的一个流行应用是语音自动转录为文本,比如将讲话转录成手机短信、自动数据输入、直接语音输入和制备结构化文档等。日本议会的转录系统就使用了自动语音识别。在这种应用下,声音用电子方式被转换成文本,并创建会议记录或者报告草稿等。然后会议记录或者报告草稿被格式化,编辑修正翻译、标点或语法中的错误,并且检查一致性和任何可能的错误。在有标准化术语的领域工作的转录员——比如放射学或病理学领域中——更有可能会遇到语音识别技术。在医疗界,医疗转录机可以听医生和其他专业医疗保健人员的录音,并把它们转录到医疗报告、信件和其他行政材料中。这一应用具有提高工作输出效率并改善访问和控制各种计算机应用的潜力。通过使用语音输入,自动语音识别应用程序绕过或尽量减少传统的手动输入方法(例如键盘、鼠标),因此也使它成为有严重的肢体或神经运动障碍人士的一种替代输入法。

同声传译 目前同声传译设备虽然尚未完善,但达到基本上可用的要求却是指日可待。2012年夏天,伦敦发明家Will Powell展示了一个进行英语和西班牙语即时互译的系统。对话双方都戴着与手机相连的耳机,而他们佩带的特制的眼镜可以像字幕一样把翻译的文字显示出来。这款即时互译系统在只要有手机信号的地方就能工作,但目前此系统需要耳机、云服务和笔记本电脑的支持,也就意味着它目前还只能是个设计原型。

2012年11月,日本最大的移动电话运营商NTT DoCoMo推出了一项可以将电话中的日语与英语、中文或韩语互译的服务。通话的每一方都连续说话,然后该公司的计算机在几秒钟内将听到的内容翻译到所要求的语言,并将结果视情况适当地用男声或女声输出。

在同声传译领域最诱人的成果可能来自Microsoft。2012年10月,当该公司的首席研究官Rick Rashid出席天津的一个会议时,他的英语演讲现场就被翻译成了普通话,先是以字幕的形式显示在大屏幕上,接着以电脑合成的声音读出。最引人注目的是,Rashid先生的中文版演讲与他的英文版演讲具有相同的语气和音调。Microsoft认为,如果以说话者自己的声音传递译文,听众对错误的容忍度会提高,比如Rashid先生演讲的即时中文翻译虽然偶有错误,但仍收到热烈的掌声。

自动语音翻译技术和智能手机中的应用目前可用的视频和音频数据量正在以指数级飞速增长,远远超过了人工翻译的承受力。当人工翻译不可行时,自动语音翻译可以发挥重要的作用,它不仅让通信成为可能,而且可以帮助从海量的数据中找出重要信息。自动语音识别和机器翻译能让会议跨越国界和语言地高效举行。

不仅是技术的进步支持自动语音识别的采用,商业趋势也如此。在各个行业中,对最新移动技术的需求与日俱增。为顺应这一趋势,许多语音翻译技术都可以装在智能手机应用或平板电脑上使用。

不可否认,基于互联网的解决方案有巨大的优势,因为当人们说话时他们的数据可以被收集和分析,而识别准确率的一个主要因素是训练声学模型的数据量。越多的人对Google Search和Siri说话,这些系统的性能就会越好。但是如果一个系统只能联网使用,那旅行者的使用就会受限。而英国的一家叫Nouvaris的公司于2012年开发的Nova Search不需要连接到互联网就能使用。因此,当没有3G或无线网信号时,你仍然能让智能手机或计算机通过数据库进行搜索或回答问题。而当如果有互联网连接时,该技术可以在几秒钟之内就从庞大的数据库中完成筛选,到目前为止,它已对高达2.45亿条的列表起作用。由于是在智能手机上而不是互联网上解码语音,Nova Search可以更快速地完成语音指令的数据库搜索。

Google和Siri基本上是将语音转换为单词流输入到网络搜索或人工智能口译员。而Nova Search不同是因为它直接用语音输入搜索自定义数据库,它会产生拼音符号流,并将其用在一个非常快的已获得专利的搜索技术中。通过使用以拼音为基础的方法,该软件可以一次搜索整个词组,而不是只搜索个别单词。虽然该软件仍然是在搜索互联网时最有用,但能在本地使用设备的语音识别功能仍具有一些关键的优势,因为需要发送的数据大大减少,而且很快,要知道语音是一种非常昂贵的信号发送。该软件的应用包括对智能手机或电脑说出目的地,然后它会帮你找到公共交通路线等。

语音识别验证 在兴起的所有类型的生物特征识别应用中,基于语音的身份验证是用户排斥较小的安全验证,它是一种非接触式、非侵入式且易于使用的方法。使用说话人的语音进行验证可以有许多应用。例如,当仓库中员工在工作中走来走去时,可以给他们配备可穿戴/便携式语音数据收集系统使其进入仓库;可以对因酒后驾车而定罪的罪犯方便地进行远程酒精测试。结合移动定位系统,语音验证还可以用于跟踪保安人员,以确保他们自己在正常巡逻,而不是让他们的朋友在帮他们巡逻。另外,语音验证也可作为多安全系统用来控制过境。比如在Montana州的Scobey,气温有时会降至零度以下,于是大多数其他形式的生物识别技术不再可行,而语音验证装置却可以照常工作。

在金融方面,语音验证也开始有了应用。Nuance公司2013年5月的调查数据显示,有85%的人对当前的身份验证方法不满,因为要登录到银行帐户、旅行网站或其他个人帐户时,必须要记住许多个人识别码、密码、安全问题及其答案;数据还显示,如果能有相同高的安全级别的话,90%的人希望能使用语音识别解决方案来代替传统的身份验证方法,因为语音识别技术可以通过每个人独特的声音来标识他,从而消除了要记住和键入密码、个人识别码的麻烦,让身份验证过程变得快速而简单。

2013年5月,Barclays财富投资管理部署了Nuance的Free Speech语音识别方案,成为第一家在呼叫中心将被动的语音识别技术部署为主要客户验证手段的金融服务公司。自推出以来,超过84%的Barclays客户已在Nuance语音生物识别技术解决方案中注册,其中有95%的人第一次使用时就成功验证了身份。更妙的是,客户与联系中心的经验反馈也有所改进,93%的客户对新的身份验证系统就速度、易用性和安全性的评分至少为90分。Nuance的语音生物识别技术让象Barclays银行这样的组织通过更直观、更透明的认证方式重新定义它们的客户服务经验,减轻了客户和服务的负担。

汽车上的应用 技术的发展一日千里,这极大影响了现代汽车中的驾驶员界面。先进的驾驶员辅助系统、自动泊车制动系统和无钥匙点火等创新从根本上改变了驾驶员界面的构成。这些新的舒适性、信息和娱乐系统要求驾驶员处置大量的按钮、旋钮和屏幕,并且这一需求还在不断增加。移动智能手机和平板电脑也被越来越多地纳入汽车中,以满足驾驶员在行车中对连接和新服务的需求。对驾驶员来说,这显然带来了驾驶干扰和信息超载的风险,尤其是这些主要车辆控制还只是冰山一角。而最有前景的解决方案似乎是语音控制,并且这早已是汽车行业的愿望。2013年现代的下一代汽车将有自然语言的语音启动电话拨号、消息听写、目的地输入等,并能在车内或在线音乐服务中搜索音乐。然而需要认识到的是,即使有语音控制,驾驶员分神的风险依然存在。

自动语音识别的其他应用 移动广告是数字广告中增长最快的领域之一。根据eMarketer的数据,2012年全球移动广告支出达84.1亿美元,是2011年的40亿美元的两倍以上,并且预计到2013年达到近370亿美元。作为创新性的新的移动广告格式,语音广告是游戏规则改变者,它可以让人们与他们喜欢的品牌有动人有趣的双向对话,品牌可以通过让消费者在广告中畅所欲言而令其对品牌产生持久的印象。在以前,从来没有一个品牌能够有超过10亿用户的个人对话,而这正是品牌一直渴求的与公众的亲密关系。目前Nuance VoiceAds已经完全可以做到这一点。

2013年,松下新的高清智能电视SMARTVIERA采用Nuance配备的Dragon TV系统,人们可以坐着通过语音来查找内容、搜索网页、控制音量等, 创造了更多的互动和智能电视体验。

另一个更为有趣的应用发生在俄罗斯,该国最大的零售银行联邦储蓄银行(Sber bank)开发了一种使用语音识别来测谎的自动提款机。该机器通过将客户对一些问题的反应与一个记录审讯中说谎人的数据库比较,从而确定客户是否说谎。

自动语音识别的未来

除了从事自动语音识别的研究和开发的科学家和技术人员,大多数人考虑自动语音识别时低估了它的复杂性。它不仅是自动的文本到语音,复杂的识别任务的一个必要条件是自动语音识别需要有大的数据容量和存储器的快速计算机,并且需要语音科学家、语言学家、计算机科学家、数学家和工程师的参与。这些参与者应用神经网络、心理声学、语言学、言语感知、人工智能、声学语音学等领域的知识,为实现人类和机器之间的自然会话这一最终目标共同努力。

过去三十多年来,语音识别研究的特点是小改进的稳步积累。由于语音识别性能的提高和更快计算机的可用,商业研究和其他学术研究继续把重点放在日益难以解决的问题上。其中一个关键领域是提高语音识别性能的强健耐用性,这不仅是指抗噪音方面,也包括在所有可能导致性能大幅下降的情况下的强健耐用性。另一个关键领域关注的是一个机会,而不是一个问题,因为这项研究尝试利用许多应用中的大量高达数百万小时的可用语音数据。如果靠人来把这些语音转录成文本,成本相当高昂,因此研究关注的是开发一种新的机器学习的方法,使之能有效地利用大量未标记的数据。还有一个研究领域是更好地理解人的能力,并使用这种理解来提高机器识别性能。

自动语音识别产品将会不断完善,并被更多地使用。虽然在键盘上打字相对容易,但很难有人可以像说话一样快速准确地键入文字。基于我们生活的现代世界里时间是最重要的这一事实,自动语音识别将帮助人类提高生产力,让我们能够更容易更迅速地运行搜索查询、撰写重要文档和管理我们的日常生活。此外,企业还将能在没有互联网连接时随时使用相应的应用程序,而目前在旅行时这些应用并不总是可用的。

语音识别范文第7篇

它满足了人类对于“语音识别”技术的终极幻想。你可以把这位智能管家想象成Siri的未来升级版,它不但能够完美执行指令,还能根据设备的工作情况甚至主人的心情提出建议。

下面回到现实。Siri眼下能做的最棒的事情,就是帮忙预订某个酒店房间—诸如此类。不过不用悲观,还有个好消息是,语音识别已经成为众多科技公司的优先发展计划。

2012年3月,一项能够即时语音翻译26种语言的技术被微软研究院推出。与其他语言翻译产品不同的是,这项技术除了翻译多种语言之外,输出的语音还可以模仿说话人的音色和音调,使它们听起来接近使用者的真实声音。当然了,现在它听上去还有些生硬,感彩还不够丰富。

这项技术的第一步仍然是语音识别,后者正被越来越广泛的应用在众多不同的领域。微软用它来翻译,在将语音进行识别之后,变成一项名为“跨语言的文语转换”(Cross-Language Text-to-Speech,简称TTS)的技术。使用者只需要预先录下几十分钟的母语作为训练语音。软件在进行识别、翻译之后,就可以模仿说话人的音调和音色将翻译好的、其他语种的文本说出 来。

此前早已有苹果Siri,它一度是iPhone 4S手机用户的最大乐趣之一。另外在Android 4.1系统中,Google Now除了让用户实现语音搜索,还包含一个自动填充卡片的功能。当用户搜索了一个地点、天气或是航班时间,Google Now会自动建立一个卡片存储细节,供用户以后查阅。

人们对于语音识别的迷恋由来已久,甚至在计算机发明之前。早期的声码器,可以看作是语音识别技术的雏形。1920年代生产的“Radio Rex”玩具狗是眼下有据可查的最早的语音识别器,当这只狗听到自己的名字时,它就会从底座上弹出来,吓人一跳。

作为诸多后继的复杂应用的第一步,语音识别—让机器读懂你在说什么,迄今为止仍然是一个大工程。你甚至也可以把它视为众多语音类智能应用向前发展的绊脚石之一。

现在语音识别的主流技术,由数据统计模型和算法组成。如果把数据统计模型比喻成一个仓库的话,那么算法则是一只机械手臂,从仓库中“抓”出合适的数据进行匹配。算法包括了对数据存放位置的判断等行为规则。数据越多,模型也就越大。

再简单一点说,当你说了一句话之后,算法会从数据库中抓取可能最符合你意思的那句解释。因此模型中包含的数据越多,通常也就意味着识别能力越强。但问题来了。就像没有一个仓库可以存放世界上所有的货品一样,没有一个模型可以解释所有数据。人们可以说任何话,因此数据变化无穷。

所以你应该不难理解,以往一些初级的语音控制类的应用,比如导航、语音拨号等等,人们要启动服务必须按照产品手册的说明,完整地说出固定格式的句子,才能被机器所识别。在这些应用中,数据库是简单而又原始的,在识别过程中也没有太多算法可言,它们只是负责“搬运”。

包括Siri和微软TTS在内,语音识别被发展到了眼下的第二个阶段:它们可以通过一定的规则和算法,将那些事先没有包含在数据统计模型中的“话”也解释出来,并且足够简单。

要实现这一点,仍然必须要有一个基础的数据库。在微软的TTS技术中,那几十分钟的“训练”,也就成了一种搜集数据建立数据库的方式。建立数据库的好处在于,“它不能够保证你肯定对,但它能够保证最可能对,或者说可能最好的答案。”微软亚洲研究院语音组首席研究员和负责人宋謌平对《第一财经周刊》说。

当训练完成之后,语音识别就变成了一个排序过程。当一段语音被输入,模型会通过自己的算法,从数据库中寻找匹配度最大的那一句。各家公司不同的“算法”,以及建立起来的基础数据库,成了它们各自在语音识别上的核心技术。

一段话是谁说的并不重要,更重要的是它的文本识别率。按照宋謌平的说法,一般能达到90%以上的识别率,大部分的用户都可以接受。

要提高准确率,除了数据库和算法,另一个必须解决的问题就是在噪音环境中更准确地分辨出输入的语 音。

眼下要解决噪音问题一般通过两种办法,一是在训练素材中包括噪音数据,让模型“记住”声音在不同环境下的差异,并在最终识别的时候,对噪音进行降噪处理;另外一种办法,则是识别同样噪声环境里的、没有经过降噪处理的语言。

在数据库有可能建立得比较大的情况下,搜集到足够的噪音数据、并在噪音中进行识别是一种最好的办法。但现实是,一般意义上的“噪音”太多。比如汽车的引擎、餐厅中的各种声音,本质上并不相同,但都会对说话人的语音输入造成干扰。对于手机而言,计算和存储能力都有限,建立庞大和复杂的模型并不现实,一般会直接使用降噪处理的办法。

早在1992年,一家名为Nuance的公司就看到了语音识别技术的商机。目前Nuance在美国已经开辟出两部分主要市场,包括咨询业务和医疗诊断记录的听写。2011财年,Nuance的营收共计13.18亿美元,其中产品销售及授权收入占比46%,产品的使用人数已有1600 万。

这家拥有近4000项专利的公司通过提供面向医疗、手机、汽车等企业的语音解决方案盈利。在美国昂贵的人工费用压力之下,包括美联航和大部分医院在内的机构,都开始选择语音听写引擎这样的识别设备,解决部分客户服务和书写病历的问题。

将默默埋头赚钱的Nuance推向前台的正是苹果。由于Siri使用了Nuance的语音识别引擎,这家公司开始获得越来越多的曝光。Siri曾在起步阶段使用过其他平台,但最终切换到了Nuance,不知这是否与Siri和Nuance同样出自斯坦福研究院有关。

曾有传言苹果与Nuance进行了几个月的接触,试图收购后者,但因其价值连城的专利,以及“在谈判时近乎于乔布斯级别难缠的CEO”,这场收购后来不了了之。苹果通过引入Nuance的语音识别,再将识别之后的信息与其他“知识和资讯类数据库”连接,在人机交互领域发起了一场革命。

2011年,通过云端访问Nuance的语音数据库的访问量达到了20亿次。眼下,它们也开始进入中国市场,最新版本的Siri将提供包括普通话、广东话和台湾地区国语的识别。不过中文与英文的识别引擎完全不同,需要重新开发。

在中国,还没有形成大规模的语音识别应用市场。国内语音市场占有60%以上份额的是科大讯飞,主要营收也只是来自于语音合成技术。它只是让电脑“念”出文本,在电信公司和银行的呼叫中心里较为常用。

微软创始人比尔·盖茨曾在2008年预测,五年之内互联网的搜索大部分将通过语音完成。现在看来,他或许乐观了一些。即使语音识别技术已经能够适于应用,真正的人机交互还有待于语音识别的更深层—语义识别技术的发展。

如果从字面上解释,语义识别的意义在于能让机器真正明白信息的含义。当机器听到一个名为“意大利菜”的关键词时,技术优良的语音识别可能会做出搜索意大利菜的反应、或者帮你预订好常去的餐厅,但语义识别则意味着,它还可能明白意大利菜会有什么样的口感、或者探知餐厅的氛围。

语义识别的终极梦想是让机器完全辨知人类说话的语义和情绪,就像“钢铁侠”的那位智能助手一样。

与发展相对迅速的语音识别不同,现有的语义识别仍然处于基础阶段,是一种机械的识别过程。“这一类的技术基本上还是填空法。”宋謌平说。当机器听到语音,进行识别之后,会从“语义数据库”中搜索出与其相匹配的关键词,与人的语义理解还有很大区别。

不过在一些垂直领域,语义识别已经获得了一定程度的发展和应用。中华英才网的控股公司、美国最大的人力资源网站Monster,最近开始在中国市场推出一种名为6Sense的语义搜索专利技术。它能将求职者的工作经历、技能、教育背景和所在地区,与目标职位匹配起来,再对他们进行分析、评级和排序,从而提高HR筛选简历的效率。在人力资源领域,“甲骨文”意味着那家国际知名的企业软件公司,而不是中国古代文字。如果仅仅是围绕在一个特定领域内,系统判断和识别的难度要小得多。

从长远来看,语义识别目前还有很多尚未突破的难点。最大的障碍事关情感,机器还没有办法理解人类的情感,它们只能通过语音信号的声学变化去捕捉人类的情绪,比如频率和时长这样的参数;此外,因为语言本身的模糊性,识别过程中的关键词抽取也经常出现不准确的现象。

小i机器人的创立者袁辉说,语义识别的下一步发展,需要长期的、系统的平台去处理每天进来的海量知识和信息,经过长期的集聚,形成工程化的产品,最后才能对知识进行筛选,甚至能够学习新的知识点。

看起来,“云”或许会是一个解决办法。因为云服务器可以容纳规模足够大的模型。如果能有一种算法,使这种模型具有学习能力,就可以将用户的语义在云端服务器中进行分析,再借助网络将指令和文本回传。

尽管可以用语音操作的手机、PC甚至汽车都离我们不太远了,但要让这项技术真正达到善解人意的程度,还需要很长一段时间。

语音识别范文第8篇

>> Linux平台下的ALSA声音编程 基于Sphinx的机器人语音识别系统构建与研究 linux平台下智能卡的支持方案 Linux平台下的MySQL存储管理技术研究 Linux平台下FTP客户端的设计思路 自主学习平台下英语语音教学模式的构建 TensorFlow平台下的手写字符识别 Linux平台下数据包过滤防火墙的研究与实践 基于SkyEye的虚拟嵌式平台下Linux内核移植技术的研究 Windows和Linux平台下的腰椎治疗仪实时仿真 嵌入式Linux平台下随机序列算法的设计 IP多播技术在Linux平台下电子教室中的应用与研究 基于ARM11在Linux平台下网络通信的设计与实现 Linux系统平台下会计软件的发展前景展望 虚拟机linux平台下基于Xshell的远程登录服务的设计与实现 在Linux平台下基于MPI的并行PC集群搭建的实现 基于Sphinx4的语音解码模块设计 云服务安全平台研究开发与语音识别应用 基于车联网平台下自然语音辨识系统的研发 .NET平台下中文语音合成技术的研究与实践 常见问题解答 当前所在位置:l。提交文件后,会产生由4个数字和后缀名组成的文件,假设其中包括的两个文件为8521.dic字典文件和8521.lm语言模型文件即我们所需要的文件。可以用两个线程处理这一过程,从而提高程序的性能:一个线程用来监听和处理语音命令,一个线程用来执行命令对应的应用程序,如图1所示。

假设C语言源程序名为hello_ps.c则可以编写如下的Makefile文件:

#Makefile for hello_ps.c

obj=hello_ps

modeldir=$(shell pkg-config--variable=modeldir pocketsphinx)

flags=$(shell pkg-config--cflags--libs pocketsphinx sphinxbase)

$(obj):$(obj).c

gcc $(obj).c-o $(obj)-DMODELDIR=\"$(modeldir)\"$(flags)

运行make命令编译即可产生hello_ps文件。然后运行./hello_ps-lm 8521.lm -dict 8521.dic就可以测试了。

五、结束语

本文介绍了语音识别引擎pocketsphinx在Linux环境下的应用程序编程,语音识别有着广泛的应用。如我们常见的声控拨号电话,语音识别锁等等。语音识别技术是非常重要的人机交互技术,有着非常广泛的应用领域和市场前景色。

参考文献:

[1]Carnegie Mellon University./wiki/

[2]/wiki/%E8%AF%AD%E9%9F%B3%E8%AF%86%E5%88%AB

[作者简介]余江(1985-),重庆垫江人,在读硕士研究生,专业:电路与系统,研究方向:复杂电路系统;刘士(1986-),安徽亳州人,在读硕士研究生,专业:电路与系统,研究方向:Linux嵌入式系统;李怀周(1986-),河南新乡人,在读硕士研究生,专业:电路与系统,研究方向:Linux嵌入式系统。

语音识别范文第9篇

【关键词】语言识别;隐含马尔可夫模型

一、语言的实质

人们平时在说话时,脑子是一个信息源;人们的喉咙(声带),空气,就是如电线和光缆般的信道;听众耳朵的就是接收端(信宿),而听到的声音就是传送过来的信号;语言在这一过程中充当信息载体的角色,即消息。这就是人类通过语言交流的实质。

二、语音识别

语音识别是指从语音到文本的转换,即让计算机能够把人发出的有意义的话音变成书面子语言。通俗地说就是让机器能够听懂人说的话。所谓听懂,有两层意思,一是指把用户所说的话逐词逐句转换成文本;二是指正确理解语音中所包含的要求,作出正确的应答。

三、HMM原理

隐马尔可夫模型(HMM)可以用五个元素来描述,包括2个状态集合和3个概率矩阵:

1.隐含状态S

是马尔可夫模型中实际所隐含的状态,这些状态之间满足马尔可夫性质。这些状态通常无法通过直接观测而得到。

2.可观测状态O

在模型中与隐含状态相关联,可通过直接观测而得到,可观测状态的数目不一定要和隐含状态的数目一致。

3.初始状态概率矩阵π

表示隐含状态在初始时刻t=1的概率矩阵,(例如t=1时,P(S1)=p1、P(S2)=P2、P(S3)=p3,则初始状态概率矩阵 π=[p1 p2 p3].

4.隐含状态转移概率矩阵A。

描述了HMM模型中各个状态之间的转移概率。其中Aij = P( Sj | Si ),1≤i,,j≤N.

表示在 t 时刻、状态为 Si 的条件下,在 t+1 时刻状态是 Sj 的概率。

5.观测状态转移概率矩阵 B

令N代表隐含状态数目,M代表可观测状态数目,则:

Bij=P(Oi | Sj), 1≤i≤M,1≤j≤N.

表示在 t 时刻、隐含状态是 Sj 条件下,观察状态为Oi的概率。

总结:一般的,可以用λ=(A,B,π)三元组来简洁的表示一个隐马尔可夫模型。隐马尔可夫模型实际上是标准马尔可夫模型的扩展,添加了可观测状态集合和这些状态与隐含状态之间的概率关系。

当人们观测到语音信号o1,o2,o3时,要根据这组信号推测出发送的句子s1,s2,s3。显然,人们应该在所有可能的句子中找最有可能性的一个。用数学语言来描述,就是在已知o1,o2,o3,...的情况下,求使得条件概率:

P(s1,s2,s3,...|o1,o2,o3....)达到最大值的那个句子s1,s2,s3,...。例如,当人们听见(ni shi shui a),按经验、语言环境就能判断出对方所说的是“你是谁啊”的概率最大,而不是其他的句子。

四、HMM基本步骤

对HMM来说,有如下三个重要假设,尽管这些假设是不现实的。

假设1:马尔可夫假设(状态构成一阶马尔可夫链)

P(Xi | Xi-1…X1)=P(Xi | Xi-1)

假设2:不动性假设(状态与具体时间无关)

P(Xi+1 | Xi)=P(Xj+1 | Xj),?坌i,j

假设3:输出独立性假设(输出仅与当前状态有关)

P(O1,…,OT | X1,…,XT)=?装P(Ot | Xt)

隐藏的状态和可观察到的状态之间有一种概率上的关系,也就是说某种隐藏状态H被认为是某个可以观察的状态O1是有概率的,假设为 P(O1 | H)。如果可以观察的状态有3种,那么很显然 P(O1 | H)+P(O2 | H)+ P(O3 | H)=1。

这样,我们也可以得到一个另一个矩阵,称为混淆矩阵 (confusion matrix)。这个矩阵的内容是某个隐藏的状态被分别观察成几种不同的可以观察的状态的概率。

下图明确的表示出模型的演化,其中绿色的圆圈表示隐藏状态,紫色圆圈表示可观察到状态,箭头表示状态之间的依存概率,一个HMM可用一个5元组{N,M,π,A,B}表示,其中N表示隐藏状态的数量,我们要么知道确切的值,要么猜测该值,M表示可观测状态的数量,可以通过训练集获得,π={πi}为初始状态概率,A={aij}为隐藏状态的转移矩阵Pr(xt(i) | xt-1(j)),B={bik}表示某个时刻因隐藏状态而可观察的状态的概率,即混淆矩阵,Pr(ot(i) | xt(j))。在钐转移矩阵和混淆矩阵中的每个概率都是时间无关的,即当系统演化时,这些矩阵并不随时间改变。对于一个N和M固定的HMM来说,用λ={π,A,B}表示HMM参数。

在正常的马尔可夫模型中,状态对于观察者来说是直接可见的。这样状态的转换概率便是全部的参数。而在隐马尔可夫模型中,状态并不是直接可见的,但受状态影响的某些变量则是可见的。每一个状态在可能输出的符号上都有一概率分布。因此输出符号的序列能够透露出状态序列的一些信息。

五、向前向后算法

下面介绍前向后向算法的参数学习过程,在学习的过程中,不断更新HMM的参数,从而使得P(O | λ)最大。我们假设初始的 HMM 参数为λ={π,A,B},首先计算前向变量?琢和后向变量 ?茁,再根据刚刚介绍的公式计算期望?孜和ζ,最后,根据下面的3个重估计公式更新HMM参数。

参考文献:

[1]张建华.基于深度学习的语音识别应用研究[D].北京邮电大学,2015.

语音识别范文第10篇

关键词:语音识别;信息技术;发展趋势

中图分类号:TP391.42 文献标识码:A 文章编号:1007-9599 (2012) 19-0000-02

近年来,随着科学技术的进步,语音识别技术的发展,通过语言操纵机器的梦想正在逐步变为现实。语音识别是语音信号处理的一个重要的研究方向,经过50多年的积累研究,尤其是近20年来,语音识别技术取得了显著进步,并且广泛应用于商业,比如苹果的siri系统。本文从语音识别的发展历史、发展方向来着重分析未来语音识别技术的发展趋势。

1 语音识别技术的发展历史

1.1 语音识别技术在国际的发展

早在三四十年前,美国的一些大学和实验室就开始了语音识别技术的研究,50年代的AT& T Bell实验室研发的Audry系统第一个实现了可识别十个英文数字。60和70年代,提出了线性预测分析技术(LP)等相关理论并深入研究,创造出可以实现特定人孤立语音识别系统;80年代和90年代是语音识别技术应用研究方向的高潮,HMM模型和人工神经元网络(ANN)的成功应用,使得语音识别系统的性能比以往更优异;伴随着多媒体时代的来临,微软,Apple等著名公司都研发出相当成功的商业应用语音识别系统,比如,Apple的Siri系统,微软的Phone Query (电话语音识别)引擎等。

1.2 语音识别技术在国内的发展

我国的语音识别研究工作虽然起步较晚,但由于国家的重视,研究工作进展顺利,相关研究紧跟国际水平。由于中国有不可忽视的庞大市场,国外对中国的语音识别技术也非常重视,汉语语音语义的特殊性也使得中文语音识别技术的研究更具有挑战。但是,国内研究机构在进行理论研究的同时,应注重语音识别系统在商业中的应用,加快从实验室演示系统到商品的转化。

现如今,许多用户已经能享受到语音识别技术带来的方便,比如智能手机的语音操作等。但是,这与实现真正的人机交流还有相当遥远的距离。目前,计算机对用户语音的识别程度不高,人机交互上还存在一定的问题,语音识别技术还有很长的一段路要走,必须取得突破性的进展,才能做到更好的商业应用,这也是未来语音识别技术的发展方向。

2 语音识别技术的技术实现及困难

语音识别技术的实现方式是声音通过转换装置进入机器,而机器配有“语音辨识”程序,程序将得到的声音样本与数据库存储的样本进行比对,输出最匹配的结果,转化为机器语言,进而执行命令。真正建立辨识率高的语音辨识程序组,是非常困难而专业的,专家学者们研究出许多破解这个问题的方法,如傅立叶转换、倒频谱参数等,使目前的语音辨识系统已达到一个可接受的程度,并具有较高辨识度。

2.1 语音识别的技术实现方式

语音识别技术主要包括特征提取技术、模式匹配准则及模型训练技术三个方面,其中,最基础的就是语音识别单元的选取。

(1)语音识别单元的选取。语音识别研究的基础是选择语音识别单元。语音识别单元有单词(句)、音节和音素三种,具体选择哪一种语音识别单元由具体研究任务的类型决定:

单词(句)单元在中小词汇语音识别系统中应用广泛,但由于模型库过于庞大,模型匹配算法复杂,实时性不强,所以不适合大词汇系统;

音节单元主要应用于汉语语音识别,因为汉语是单音节结构的语言,虽然有大约1300个音节,但无调音节共408个,相对较少,所以音节单元在中、大词汇量的汉语语音识别系统上是可行的。

音素单元之前曾广泛应用于英语语音识别,也越来越多的应用于中、大词汇量汉语语音识别系统中。原因在于汉语音节仅由22个声母和28个韵母构成,把声母细化,虽然增加了模型数量,但是提高了易混淆音节的区分能力

(2)特征参数提取技术。特征提取就是对语音信号进行分析处理,把丰富的语音信息中的冗余信息去除,获得对语音识别有用的信息。这是一个对语音信号进行信息压缩的过程,目前经常采用的特征参数提取技术是线性预测(LP)分析技术。基于LP技术提取的倒谱参数再加上Mel参数和基于感知线性预测(PLP)分析提取的感知线性预测倒谱对人耳处理声音的模拟,进一步提高了语音识别系统的性能。

(3)模式匹配及模型训练技术。早期的语音识别应用的模式匹配和模型训练技术是动态时间归正技术(DTW),它在孤立词语音识别中获得了良好性能,但是由于对大词汇量以及连续语音识别的不准确,目前已经被隐马尔可夫模型(HMM)和人工神经元网络(ANN)所取代。

2.2 语音识别遇到的困难

目前,语音识别研究工作进展缓慢,困难具体表现在:

(一)语音识别系统对环境敏感,采集到的语音训练系统只能应用于与之对应的环境,而且当用户输入错误时不能正确响应,应用起来相对困难;(二)必须采取新的新号处理方法来处理人在高噪声环境下的发音变化的问题;(三)语言模型、语法及词法模型在中、大词汇量连续语音识别中无法正确、合理的运用,需要有效地利用语言学、心理学及生理学等方面的研究成果;现阶段的科学技术对人类生理学诸如听觉系统分析理解功能、大脑神经系统的控制功能等还不够,更无法应用于语音识别;语音识别系统从实验室演示系统向商品的转化过程中还有许多具体细节技术问题需要解决。

3 语音识别技术的发展趋势

3.1 进一步提高可靠性

目前语音识别系统很难做到排除各种声学环境因素的影响,而人类语言在日常生活中的随意性和不确定性给语音识别系统造成极大的识别困难。所以,要应用现代技术智能化语音识别系统,以达到更好的识别效果;

3.2 增加词汇量

目前语音识别系统使用的声学模型和语音模型过于局限,需要通过改进系统建模方法、提高搜索算法的效率来做到词汇量无限制和多重语言混合,减少词汇量对语音识别系统的限制;

3.3 微型化并降低成本

语音识别系统在商业上的用途相当广泛,利用先进的微电子技术,将具有先进功能和性能的语音识别应用系统固化到更加微小的芯片或模块上,可以缩减成本,更方便的推广和使用。语音识别系统和微电子芯片技术的发展将引领信息技术革命到一个新的台阶。语音识别系统使人沟通更加自由,使人可以方便地享受到更多的社会信息资源和现代化服务。这必然会成为语音识别技术研究和应用的重要发展趋势。

4 结束语

21世纪,信息和网络飞速发展,信息和网络的时代已经来临,人与人之间的距离随着Internet和移动电话网的连接和普及变得越来越近,信息资源扩散的越来越迅速,人与机器的交互显得尤为重要。语音识别技术的研究和应用可以让人无论何时何地都可以通过语音交互的方式实现任何事,可以使人更方便的享受更多的社会信息资源和现代化服务,所以,如何将这一技术可靠的、低成本的应用于商业和日常生活,是语音识别技术的发展方向和趋势。

参考文献:

[1]刘钰.语音识别技术概述[J].计算机光盘软件与应用,2010:14-17.

[2]盛青.语音自动识别技术及其软件实时实现[J].西北工业大学,2001:45-47.

[3]廖锎.浅析语音识别技术的发展及趋势[J].科技传播,2010:34-36.

[4]陈方,高升.语音识别技术及发展.CIO时代论坛,2009:67.

[5]王敏妲.语音识别技术的研究与发展[J].微型机与应用,2009:55-58.

上一篇:企业文化战略范文 下一篇:语音播报范文