基于BP神经网络的孤立词端点检测的主客观误差分析

时间:2022-05-01 10:59:24

基于BP神经网络的孤立词端点检测的主客观误差分析

摘要:本文选取短时能量、短时过零率、幅度信息熵三种经典的特征分析方法,并结合BP神经网络作为特征分类系统进行断点检测分析。将客观检测和以听觉判断对语音端点的主观评测进行误差分析,比较各算法的效果,实验结果表明采用BP网络和动态阈值的双门限法进行端点判断效果较好,而采用双门限法检测结果优于使用特征值加BP神经网络。

关键字:双门限法;信息熵;BP神经网络;动态阈值端点检测;Matlab

中图分类号:TN915.5 文献标识码:A

前言

语音端点检测是语音分析、语音合成和语音识别中的一个必要环节。目前典型的三种端点检测方法有三种:基于能量的端点检测方法[6]、MFCC倒谱距离测量方法和基于谱熵[2]的语音端点检测方法。但不同单一特征值对端点检测的效果各有优劣,并考虑到BP神经网络易于实现、良好的学习性、训练性及端点判断的高准确性等特点,设法结合多种特征值综合作为神经网络的输入端内容进行端点检测分析测试。通过实验测试来分析这三种方法的特点验证使用双门限法检测结果优于使用特征值加BP神经网络。

一、双门限法、信息熵法和BP神经网络的实验方法

本文建立一个包含语音短时能量En、短时过零率Zn和幅度信息熵H三种特征值作为特征输入的BP神经网络。采用Matlab工具箱里的函数来建立BP网络,采用音频段是在实验室条件下录制5组音频。采样率为22050Hz,选择每帧大概20ms以内。具体测试步骤如下:

1.设计提取特征值数据:

(1)利用En和短时过零率Zn结合的双门限方法[3]进行特征参数提取和检测。

(2)对每帧求其幅度信息熵,计算出每帧信息熵为:(幅度值归一化到[-10,10])。

2.建立训练样本和测试样本:选取a组中两段音频,分别采集3行400列共1200个语音段特征数据点作为训练输入样本,选相应的1/0对应语音段/非语音段为训练输出样本。提取整个音频段m帧的过零率,短时能量和信息熵,产生3行Xm列的测试样本。

3.建立BP网络,并训练网络:不同类的特征数据在神经网络训练中需要转换成统一标尺的数据,将归一化处理提取的特征值样本值和理想输出值输入到BP网络中进行训练。

4.网络测试:将训练好的网络作用于测试数据,这里用tramnmx函数做测试数据的归一化处理。

5.根据测试结果判断语音端点。

二、实验结果及分析

1.动态阈值的双门限法:测试结果见图1(a),其中实线是由静态阈值确定,虚线是有自适应阈值确定。处理后对语音端点检测可明显看出一些噪音被滤除,端点检测准确性提高。双门限法中阈值初始值和权值的确定不同则截取的起止点效果也不同,本文是对整个语音段数据做了平均值处理并乘以权值。

2.幅度信息熵法:比较图1(b)和图1(c),可以观察信息熵方法比双门限法对语音终止点的判断结果更准确,这是因为语音幅度信息熵对于语音清浊音的特性反应较好。

3.BP神经网络法:如图1(d)。

起止点数据统计:采用双门限法、信息熵法和BP神经网络法测得的端点记录摘取部分见表1。第b组语音采用音频混音剪辑大师主观截取并计算的端点帧数(起始点t1,终止点t2)见表2。

4.数据误差:记录第k组用算法客观测试的起始点时刻为tk1,终止点时刻为tk2,采用音频工具主观测试的起始点时刻为t1,终止点时刻为t2,以主观测试数据作为起止端点时刻的真值,计算起始点主客观测试的相对误差(终止点误差算法相同),误差图见图5、图6。绝对误差:;相对误差:

5.根据语音端点帧数可计算出端点对应的时刻t(分帧误差暂忽略)。图5、图6是对四组语音段(每组5个词)的起始点、终止点做出的误差曲线图。观察图5、图6,看出动态双门限法测试结果较准确,而BP网络的方法检测误差比信息熵法的检测误差小,在第15~20点是女生语音段,因为对神经网络做训练的语音组是男生语音,而该测试组声音是女生的语音,所以主客观测试误差较大。

三、实验结论

从实验中发现采用改进的动态阈值双门限法在起始点的判断中效果较好。幅度信息熵法在语音终止点测试中效果较好。BP神经网络将这三种特征值结合判断相对于单独用信息熵方法增大了的端点检测准确性。本文采用BP网络和动态阈值的双门限法进行端点判断效果较好,而采用双门限法检测结果优于使用特征值加BP神经网络。在实验中存在BP网络测试误差较大主要因为网络训练的数据量不多,并需要对训练集合数据进行零均值处理。通过实验在第g组(g组为女生语音段)语音端点检测的相对误差较大,可以证实了男女声音特点标准的不同。

参考文献:

[1]乔峰.基于信息熵和神经网络的语音端点检测算法研究[D].太原理工大学.2007.5

[2]张铁威.基于小波分析与神经网络的语音端点检测研究[D].大连理工大学.2008.5

[3]朱青松,崔健,王凯,李勇.动态阈值双门限语音端点检测研究[J]..科技创新导报-工程技术.2009.No.14

[4]张震宇.基于MATLAB的语音端点检测实验研究[N],浙江科技学院学报,第19卷第3期,2007年9月

[5]AiniHussain,SalinaAbdulSamad,LiewBanFah,EndpotintDetectionofSpeechsignalUsingNeuralNetwork,TENCON2000,Proceedings,Malaysia,2000:271-274

注:本文中所涉及到的图表、注解、公式等内容请以PDF格式阅读原文

上一篇:浅议透过玻璃窗的太阳辐射对置换通风系统的影... 下一篇:浅谈标准溶液的配置保管使用时应注意的事项