基于改进的神经网络异常声音自动识别系统研究

时间:2022-09-30 04:24:33

基于改进的神经网络异常声音自动识别系统研究

摘要:针对标准的BP神经网络对于声音信号识别率不高的问题,提出了一种用粒子群算法(PSO)优化BP神经网络的算法,建立了声音信号识别模型。PSO优化BP神经网络主要是用PSO来优化BP神经网络的初始权值和阈值,然后通过训练BP神经网络得到识别模型的最优解,优化后的神经网络具有误判率小、反应速度快等特点。在实验中把标准的BP神经网络和PSO优化后的BP神经网络用于八种异常声音的MFCC特征量和差分MFCC特征量识别,结果表明:在声音信号的识别系统中采用PSO优化BP神经网络的算法提高了系统的识别性能,达到了系统设计的目的。

关键词:声音识别;粒子群优化;BP神经网络;MFCC;差分MFCC

中图分类号:TP311.5文献标识码:A文章编号:16727800(2013)004012002

基金项目:浙江省科技厅公益性项目(2011C31045)

0引言

人工神经网络作为一种最近几十年才兴起的意在模仿人类大脑结构和功能的智能信息处理系统,由于它具有良好的自适应、联想记忆和并行处理等特点已经在很多领域有着广泛的应用。将神经网络应用于声音信号的处理,可以解决高维空间和非线性模式等方面的识别问题,适用于对多个信号、特征量维数多的复杂声音的识别。而BP神经网络作为一种常用的多层神经网络,具有很好的泛化能力,并且隐含层的个数越多,系统的预测误差就越小,但同时在运行系统时所需要花费的时间也较多。本文结合声音信号的特点对常用的BP神经网络进行分析,针对常用的多层BP神经网络所具有的学习记忆不稳定以及收敛速度慢等方面的缺点,选用三层的BP神经网络来对声音信号进行识别处理,同时选用粒子群算法对BP神经网络进行优化处理。

1异常声音识别系统总体设计

异常声音识别系统主要包括声音信号采集模块、声音信号MFCC和差分MFCC特征量提取模块和基于神经网络的特征量识别模块3部分。其中声音信号采集模块主要是通过高灵敏度监控拾音头来对声音信号进行采集;声音信号MFCC特征量提取模块主要是对采集到的声音信号先进行预处理,然后再对信号进行MFCC特征量的提取;基于神经网络的MFCC特征量识别模块主要是先用样本MFCC特征量对神经网络进行训练,保存训练好的权值和阈值,然后再通过现场采集的声音信号的MFCC特征量和差分MFCC特征量进行在线测试,最后给出识别结果。

2异常声音信号采集及MFCC特征量和差分MFCC特征量提取

本实验所使用的数据来自于各种影视剧剪辑所得和人工现场实时采集。将数据库的异常声音分成两组,其中一组是训练样本,另外一组是测试样本。在用训练样本训练好神经网络后,在现场播放测试样本。

MFCC(Mel频率倒谱系数)就是根据人们耳朵听到的声音音调的高低和它的频率没有成线性正比关系的特点,用Mel频率尺度来模拟人耳的听觉特点。提取MFCC特征量的具体步骤如下:

(1)先对采集到的声音信号进行预处理,主要是分帧加窗处理。由于声音信号是一种非平稳信号,一般要通过加窗分帧进行处理。声音信号的分帧主要是加权处理许多可以移动的具有固定长度的窗口,此处采用的窗口是汉明窗,窗函数表示如下:

3改进的神经网络

3.1BP神经网络

BP神经网络包括输入层、隐含层和输出层3部分。输入层通常表示各种声音信号的特征向量,输出层表示各种声音的类型。而隐含层就是学习输入层传递的信息,保存神经网络的连接权值和每个节点的阈值。隐含层一般分为单隐含层和多隐含层,隐含层数越多,网络拓扑结构越复杂;虽然这时系统的输出值更加接近真实值,但运行系统所要花费的时间也会大大增加。一般情况下单隐含层都能满足系统要求,因此本系统采用的是单隐含层。隐含层的节点数m通常按如下关系选择:

m=[KF(]k*l[KF)](5)

其中k是输入层的节点数,l是输出层的节点数。

3.2粒子群算法

从表1中可以看出,使用MFCC_D特征量来识别8种异常声音比单独使用MFCC的识别率要高,同样PSO优化后的BP神经网络比没有优化的神经网络要高。

5结语

本文提出了基于PSO优化的BP神经网络的异常声音识别系统的设计,同时采用12阶MFCC和12阶差分MFCC来识别声音。经过实验验证该系统的识别率明显高于文中讨论的其它方法。由于本文讨论的声音都是在理想环境下获得的,在今后的研究中,要尝试在不同噪音背景下对所获得的声音进行处理。

参考文献:

\[1\]阎平凡,张长水.人工神经网络与模拟进化计算\[M\].北京:清华大学出版社,2001.

\[2\]武宁,肖星星,冯瑞.家用机器人的说话识别系统\[J\].计算机工程,2012(2).

\[3\]栾少文,龚卫国.公共场所典型异常声音的特征提取\[J\].计算机工程,2011(7).

\[4\]李丽,刘奔.粒子群优化算法\[M\].北京:冶金工业出版社,2009.

\[5\]余华,黄程伟,金赘.基于MFCC参数和VQ的说话人识别系统\[J\].仪器仪表学报,2006(6).

上一篇:基于PowerPoint的下拉菜单设计与实现 下一篇:中药配方挖掘研究综述