语音信息处理技术

时间:2022-10-28 02:55:08

【前言】语音信息处理技术由文秘帮小编整理而成,但愿对你的学习工作带来帮助。一个完整的语音信息处理可大致分为三个部分。语音特征提取:其目的是从语音波形中提取出随时间变化的语音特征序列。声学模型与模式匹配(识别算法):声学模型通常将获取的语音特征通过学习算法产生,在识别时将输入的语音特征同声学模型(模式)进行匹配和比较,得到...

语音信息处理技术

摘要:本文主要介绍一种实现人机交互的语音信息处理技术,目的是实现计算机操作者与机器交互更人性化、更方便、更快捷。计算机根据其语音信息执行人的各种意图,也可以按人类的高级描述编写出程序。

关键词:语音信号处理;人机交互;高级描述

1 引言

语音信号处理简称语音处理,主要包括语音识别、语音合成、语音编码和说话人识别等四大分支。语音识别技术指计算机能根据人类说话的语句或命令做出相应的反应。当声音通过一个转换装置输入计算机内部并以数字方式存储后,语音识别程序便开始以所输入的声音样本与事先储存好的声音样本进行对比。对比完成后计算机会算出数个最匹配、最接近的声音样本序号,这样就可以知道所输入的声音意图及内容。

2 语音信息处理技术

一个完整的语音信息处理可大致分为三个部分。语音特征提取:其目的是从语音波形中提取出随时间变化的语音特征序列。声学模型与模式匹配(识别算法):声学模型通常将获取的语音特征通过学习算法产生,在识别时将输入的语音特征同声学模型(模式)进行匹配和比较,得到较佳的识别效果。

早期的语音识别模型多是建立在模板匹配基础上的,它们大多是按照简单的模板匹配的特定人、小词汇量、独立词识别系统。这一阶段的重要研究成果是DTW(Dynamic Time Warping)动态时间伸缩算法。如图2所示。

随机模型法是目前语音识别研究的主流途径。随机模型法语音识别技术的主流代表算法,是基于参数模型的隐马尔可夫模型(Hidden Markov Model ,简称HMM)方法和基于非参数模型的矢量量化(Vector Quantization ,简称VQ)的方法。现在一般应用的语音识别系统,都采用基于HMM的识别方法作为基本算法,它是一种用参数表示的,用于描述随机过程统计特性的概率模型,它是由马尔可夫链演变来的。这里所说的随机过程,在语音识别领域,包括说话人识别和语种辨识方面,一般都是有限长的随机序列。一个语音段(如词、音素或短语)可以用一串特征矢量表示,这就是一个信号观察矢量序列,如果把这―串矢量逐个地进行矢量量化,每个矢量用一个编码符号代表,这就变成观察符号序列了。不管它是观察矢量序列还是观察符号序列,统称观察序列,记为O=O1O2ΛOT,它当然是一种随机序列。一个有N个状态(记为S1S1,L,SN)的HMM是由三元参数组λ={π,A,B}表示的,用于描述一种随机序列的统计特性的概率模型,其中:

(1)π=[π1π2…πN]为初始分布,用于描述观察序列O在t=l时刻所处状态q,属于模型中各状态的概率分布,即:

πi=P(q1=Si),i=l,2,…,N

它当然满足:

(2) A={aij|i,j=1,2,…,n}为状态转移概率矩阵, 这里只考虑一阶HMM,当前所处状态qt只与前一时刻所处状态qt-1有关,即:

aij = P(qt = Sj|qt-1= Si,qt-2 = Sk…) =p(qt=

Sj|qt-1=Si)(2)

满足:

(3) B为观察序列O中任一观察(它是随机变量或随机矢量)在各状态的观察概率空间的分布。这个分布有离散型和连续型两类,分别相应于离散HMM和连续HMM,其分布分别为:

在离散HMM情况下,观察序列为符号序列,B为一概率矩阵:B={bj(k),j=1,2,…,N;k=1,2,…,M}(4)

满足:

式中,M为编码符号集中符号的总数,在用矢量量化编码时,M就是码书大小,j为状态序号。

在连续HMM情况下,观察序列为矢量序列(设维数为D),B就是N个D维的概率密度函数的集合:

B={bj(O),j=1,2,…,N},其中O为观察矢量空间中的任一矢量,每一个密度函数都满足归一的条件,即:

以上就是隐马尔可夫模型的完整的定义及说明。从这个定义可以看出,HMM 与有限状态的一阶马尔可夫链一样地用初始分布、状态转移概率矩阵来描述有限长随机序列的统计特性,但它不同于马尔可夫链那样由每一观察即可确知当前所处状态,而是由每一观察仅能估算出当前处于各种状态的概率。这就是说,它具有双重随机性,是一种双重随机过程。

一般情况下,语言内开发平台都会提供底层硬件的API接口函数,在编程和设置时只需要对接口函数进行调用和赋值就可以了。语音字典的设置包括识别语法设置、语音规则设定、语音模板制作、字典编译等。在语音识别工作平台的支持下,按照平台提供的语音规则,首先导入语音识别核心包,并按照语音规则要求完成语音识别应用主程序运行的编译字典。

3 结束语

语音信号处理技术正逐步成为信息技术中人机接口的关键技术,语音信号处理技术与语音合成技术结合使人们能够甩掉键盘,通过语音命令进行操作。语音技术的应用已经成为一个具有竞争性的新兴高技术产业,而且语音技术市场正在迅速增长,发展势头良好,语音识别技术应用,在我们面前展开了广阔的发展空间和蓬勃的应用前景。

――――――――――

参考文献

[1]易克初,田斌,付强.语音信号处理[M].北京:国防工业出版社,2003.

[2]朱民雄,闻新,黄健群,等.计算机语音技术.北京:航空航天大学出版社,2002.

[3](美)卡伦.人工智能.黄厚宽,等,译.北京:电子工业出版社,2004.

[4]蔡自兴.机器人学.北京:清华大学出版社,2000.

[5]Nuance Company.Developer's Guide[M].California:Nu2ance Corporation,2000.

[6]Intel Company.Dialogical/12 JCT-LS PCI Voice Board Manual[M].New Jersey:Intel Dialogic Corporation,2002.

[7]徐波.语音技术开发与应用[N].中国计算机报,1999.

[8]蒋新松.机器人导论.沈阳:辽宁科学技术出版社,1994.

本文为全文原貌 未安装PDF浏览器用户请先下载安装 原版全文

上一篇:一种网络安全防护模型 下一篇:中小学校园局域网防ARP病毒一例