车载多媒体系统中语音识别技术研究

时间：2022-10-12 07:28:34

【前言】车载多媒体系统中语音识别技术研究由文秘帮小编整理而成，但愿对你的学习工作带来帮助。在进行语音识别时，首先需要通过端点检测来对语音信号中的无声片段和有声片段进行分割。目前，语音端点识别已经从开始的单一门限发展到了基于模糊理论的判决。但是对于车载多媒体而言，计算量较大、识别响应时间较长端点检测的方法显然不使用，所以主要采用基于短平均...

车载多媒体系统中语音识别技术研究

摘要：本文针对车载多媒体系统的特点，对语音识别的端点检测、语音特征参数提取以及识别模式进行了研究。

关键词：车载系统语音识别端点检测特征参数提取识别模式

中图分类号：TN912 文献标识码：A 文章编号：1007-9416(2012)02-0082-01

由于生活节奏的加快，汽车已经成为了人们生活中重要的工具，人们在车内的时间也更多。同时也希望能够在车内接收到外界的信息继续进行工作，还要求汽车有娱乐功能，因此促进了车载多媒体的发展。而车载多媒体传统的人机交互方式会增加潜在的驾驶危险，为此将语音识别应用于车载多媒体系统中，将会是车载多媒体发展的重要方向。端点检测、特征参数提取以及识别是语音识别的主要内容，本文也将从这三个方向对车在多媒体系统的语音识别进行研究。

1、端点检测

在进行语音识别时，首先需要通过端点检测来对语音信号中的无声片段和有声片段进行分割。目前，语音端点识别已经从开始的单一门限发展到了基于模糊理论的判决。但是对于车载多媒体而言，计算量较大、识别响应时间较长端点检测的方法显然不使用，所以主要采用基于短平均过零率和短时间平均幅度的方法来进行语音端点检测，这种方法利用短时间内幅度的检测和过零率来作为语音端点的检测。

首先，利用短时幅度可以有效判断语音端点，同时语音的浊音部分平均幅度会明显大于噪声的平均幅度，然后同时再辅以短时过零率的方法来判断语音开始的浊音，从而进一步对端点检测进行校准，两者的结合能够更加精确的判断语音端点，并且两种算法都较为简单，能够满足车在多媒体的需求。

2、特征参数提取

在完成语音的端点检测之后，需要提取语音的特征参数，然后进行语音识别。目前用于语音特征参数提取的算法主要有LPCC（线性预测倒谱系数）和MFCC（Mel频率倒谱），由于MFCC具有更强的抗干扰能力等特点，更适合与噪声较多、司机不能离输入设备很近的车载环境。

分析MFCC的语音特征参数提取可以分成预加重、加窗、FFT（快速傅里叶变换）、滤波、自然对数提取、自然对数DCT计算这六个步骤。由于MFCC其计算精度以及计算量都较大，因此，使用MFCC作为车载系统的语音特征参数提取时，需要进行相应的改进：

(1)在MFCC实现的六个步骤中，例如加窗等步骤就可以实现进行计算，然后存储在数组中，在使用时进行查表提取，从而避免每一次语音识别时重复计算，从而加快了计算速度。

(2)FFT需要花费大量的时间（据统计，FFT需要花费MFCC56.32%的时间[2]），由于FFT算法是对复数进行处理，而语音信号的处理只涉及到实数部分，其虚数部分为零，因此增加了运算时间，因此可以利用文献3所提出的FFT运算方法，将长度为N的FFT预算降低到长度为N/2的FFT运算，从而提高了语音特征参数提取效率。

3、识别模式

语音识别的原理是模式匹配，通过计算现有语音模式与语音模板库中的模板的距离，来获得最佳的匹配模式。匹配的方法主要有DTW（动态时间规整）、HMM（隐马尔科夫模型）和ANN（人工神经元网络）。由于ANN计算量较大，因此不适合用于车载多媒体系统中，HMM需要繁杂的程序结构，包含众多功能模块，需要大量的计算。因此， DTW模式更适合用于车载多媒体系统中。能够满足车载系统孤立词、小词汇量的语音识别。

为了更好的在车在多媒体系统中的嵌入式平台上实现DTW，对DTW进行进一步的改进：

(1)由于在语音识别汇总，对音头和音尾的判断存在一定的误差，因此，使用传统DTW方法在进行固定端点匹配时会存在一定的误差，从而降低了语音匹配成功率。为此，可以采用放宽端点限制的方法来使用DTW进行语音识别。其主要的思路是取消传统DTW中对音头和音尾严格对其的限制。从而，只要两次语音在开始的W帧内能够匹配成功，同时在结束的W帧内匹配成功，即认为两次语音匹配成功。在降低了对端点检测的精度要求，符合车载系统小词汇量的特点，不会降低车载系统语音识别效率。

(2)在使用DTW进行语音模板匹配时，需要计算两个模板各帧的距离来计算模板之间的距离。加入模板库中的某个模板T有N帧，待识别的语音R有M帧，那么通常需要申请M×N长度的空间，再根据两个模板所有帧间距离计算整体长度。但是在实际的应用中，只需要M长度的空间来存放模板T第n-1帧与模板R中M帧之间的距离，在计算完第n帧与模板R中M帧之间的距离对M长度空间的数据进行替换，从而进行模板T第n+1帧与模板R中M帧之间的距离，从而节省了（N-1）×M的存储空间，这对车载系统有限存储空间的系统中有着非常重要的意义。

4、结语

相比于传统的按钮式、触摸屏式人机交互系统，语音识别对于车载多媒体系统有着非常重要的意义，将是车载多媒体系统重要的发展方向，本文针对车载多媒体系统对低CPU运算时间和地存储空间的特点，对语音识别中的端点检测、语音特征参数提取以及识别模式的实现和优化进行了研究。

参考文献

[1]方敏,浦剑涛,李成荣.嵌入式语音识别系统的研究和实现[J].中国信息学报,2004,(6):73~78.

[2]万春,黄杰圣,曹煦晖.基于DTW的孤立词语音识别研究和算法改进[J].计算机与现代化,2005,(13):4~6.

[3]谢凌云,杜利民,刘斌.嵌入式语音识别系统的快速高斯计算实现[J].计算机工程与应用,2004,(23):30~31.

作者简介

石可箴 (1982-)，男，上海交通大学硕士研究生在读，主要研究方向车载多媒体技术。

车载多媒体系统中语音识别技术研究

文档上传者

热门标签更多>

热门推荐更多>

精品范文更多>

车载多媒体系统中语音识别技术研究

文档上传者

热门标签 更多>

热门推荐 更多>

精品范文更多>

热门标签更多>

热门推荐更多>