多Agent在语音识别技术中的应用

时间:2022-01-29 01:31:59

多Agent在语音识别技术中的应用

摘要:笔者探讨了多Agent与语音识别系统的有机结合,分析了其基本原理和工作流程,为解决此问题提供了新的思路,最后详细讨论了基于多Agent语音识别技术的军事作战文书自动化系统的总体方案和组织结构。

关键词:Agent;语音识别;人工智能;作战文书

中图分类号:TP37文献标识码:A文章编号:1009-3044(2009)13-3541-02

1 引言

语音识别起源于20世纪50年代AT&T贝尔实验室的Audry系统,它第一次实现了10个英文数字的语音识别,这是语音识别研究工作的开端。作为一门交叉学科,它正逐步成为信息技术中人机接口的关键技术,被认为是2000年至2010年间信息技术领域十大重要的科技发展技术之一。语音识别技术与语音合成技术结合使人们能够甩掉键盘,取而代之的是以语音输入这样便于使用的、自然的、人性化的输入方式。

2 相关技术简介

2.1 语音识别技术

所谓语音识别技术就是让计算机(或机器)通过识别和理解过程把人类的语音信号转变为相应的文本或命令的技术,属于多维模式识别和智能计算机接口的范畴。语音识别技术的终极目标就是研制出一台能听懂任何人、任何内容的讲话的机器。语音识别按发音方式分为孤立词、连接词和连续语音的语音识别系统;按词汇量大小分为小词表、中词表和大词表以及无限词汇量语音识别;按说话人适应范围分为特定人、限定人和非特定人语音识别。

2.2 多Agent技术

Agent的研究起源于人工智能领域,Agent具有自治性、社会性、反应性和能动性。智能Agent对自己的状态和行为有完全的控制能力,它能够在没有人或者在其他Agent的直接干预下,对复杂的刺激进行响应并产生内部状态的控制和适应性的行为,外界通过Agent的接口对Agent实现功能调用和通信,而无需知道Agent内部的具体工作过程。多Agent系统(MAS)由多个自主或半自主的智能体组成,每个Agent或者履行自己的职责,或者与其他Agent通信获取信息互相协作完成整个问题的求解。语音识别技术本就是人工智能的一个应用方面,而将人工智能的前沿理论―多Agent技术引入语音识别技术中是一项有意义的工作。

3 在语音识别中引入多Agent技术

3.1 多Agent语音识别原理

传统的语音识别存在自适应问题,对环境条件的依赖性强;噪声问题,讲话人产生情绪或心里上的变化,导致发音失真、发音速度和音调改变,产生Lombard/Loud效应;其它如识别速度问题、拒识问题以及关键词检测问题。而多Agent技术中自治智能和分布协同的特性能够在一定程度上解决这些问题。多Agent语音识别其基本原理就是将输入的语音,经过处理后,将其和语音模型库进行比较,从而得到识别结果,具体原理见图1。

该图中语音输入Agent就是待识别语音的原始输入,语音采集Agent指话筒、电话等设备的语音输入;数字化预处理Agent的功能包括语音信号采样、反混叠带通滤波、去除个体发音差异和设备、环境引起的噪声影响等;特征提取Agent用于提取语音中反映本质特征的声学参数,常用的特征有短时平均能量或幅度、短时平均跨零率、线性预测系数、基音频率、倒谱和共振峰等。在训练阶段,将特征参数进行一定的处理后,为每个词条建立一个模型,保存为模板库。在识别阶段,语音信号经过相同的通道得到语音特征参数,生成测试模板,通过模型匹配Agent和规则判别Agent将匹配分数最高的参考模板作为识别结果。同时在模式匹配和规则判别时还可以在很多专家知识的帮助下,以便提高识别的准确率。

3.2 多Agent语音识别流程

加入了多Agent技术的语音识别系统具体实现细节与传统的语音识别系统有所不同,加入了更多的智能协作的因素,但所应用的识别过程大致相似,具体流程见图2。

首先是系统中的协调Agent确定语音识别单元的选取。语音识别单元有单词(句)、音节和音素三种。然后在特征提取Agent中去除语音中对识别无关紧要的冗余信息,目前广泛应用的有基于线性预测分析技术提取的倒谱参数和基于感知线性预测分析提取的感知线性预测倒谱。接着采用适当的语音识别方法,通过对确定的语音特征进行模型训练、智能学习后得到模板库,然后用若干个特征提取Agent将待识别的输入语音信号的各个量化的特征通过分工协作的方式进行提取,最后模型匹配Agent将量化的语音特征与模板库进行模式匹配,通过友好的人机界面把识别结果输出。

4 多Agent语音识别技术在军事上的应用

最近十年内语音识别技术军事化应用非常广泛,目前研究比较多的有语音识别技术在智能武器装备开发领域的应用、在军事作战文书自动化过程中的应用、在军事测试设备和军队话务台的应用。下面重点介绍多Agent语音识别技术在军事作战文书自动化过程中的应用。

作战文书句式变化不大、语法简单、使用人群范围可定、语音识别模板库易于建立且要求不高,其语音识别易于实现。总体方案是:尽可能统一各军兵种作战文书类型;收集不同类型作战文书实例;构造作战文书词汇库;针对标图地域构造地名数据库;建立不同类型作战文书的句型库;分析军队标号的涵义建立模板库;将作战文书编译成标图指令来完成军事地图的标绘。其一般过程为作战文书的词处理、作战文书的语法分析、作战文书标图指令的形成,最后通过API接口传输给计算机完成自动标绘工作,如图3所示。

5 结束语

语音识别技术是非常重要的人机交互技术,有着非常广泛的应用领域和市场前景,为网上会议、商业管理、医药卫生、教育培训等各个领域带来了极大的便利。随着人工智能技术的发展,把多Agent技术应用到语音识别系统中,通过自治智能和分布协同的特性较好地解决了传统语音识别技术中存在的突出问题,这必将成为语音识别系统发展的主流。

参考文献:

[1] 胡斌,汤伟,刘晓明.基于自然语言理解的文本标图系统设计与实现[J].理工大学学报:自然科学版,2005,6(2):132-136.

[2] 赵力.语音信号处理[M].北京:机械工业出版社,2003:215-240.

[3] 王作英,肖熙.基于段长分布的HMM语音识别模型[J].电子学报,2004,32(1):46-49.

[4] 曹承志.智能技术[M].北京:清华大学出版社,2004.

[5] 杜琳.基于COM技术的军事标图组件的设计与实现[D].郑州:信息工程大学,2006.

[6] 朱民雄,闻新,黄健群,等.计算机语音技术[M].北京:北京航空航天大学出版社,2002.

[7] 方敏,浦剑涛,李成荣,等.嵌入式语音识别系统的研究和实现[J].中文信息学报,2004(6):73-78.

[8] 刘广钟.Agent技术及其应用[M].北京:电子科技大学出版社,2002.

董国超(1984-),男,辽宁沈阳人,硕士,研究方向:通信战术;

寇净磊(1983-),男,河北无极人,硕士,研究方向:指挥信息系统。

上一篇:基于数据挖掘技术的电信客户流失预测 下一篇:基于FFMPEG的视频转换系统的模块研究