音乐粗情感域中的软切割及分类方法

时间:2022-03-20 09:24:54

音乐粗情感域中的软切割及分类方法

摘 要:针对音乐灯光表演控制系统无法自动获取其控制所需的音乐特征信息,结合传统的ArousalValence模型提出了一种可用于音乐灯光表演的音乐粗情感模型。针对此模型,通过小波分析中的Mallat算法提取比较项并采用强度、节奏比值判断法,对音乐片段进行两次“软切割”,再根据相应的产生式专家系统规则便能够很好地对其进行粗情感域中的分类及特征量提取。仿真结果表明,该方法能够有效地按音乐情感将音乐片段分类,同时能够提取出满足音乐灯光表演控制系统时域上对音乐分段时间节点的高精度要求。

关键词:

音乐特征;音乐情感;情感识别;小波分析;Mallat算法

中图分类号: TP391.4

文献标志码:A

0 引言

常用的声学特征包括频谱能量[1]、美尔倒谱系数(Mel Frequency Cepstrum Coefficient,MFCC)[2]、线性预测倒谱系数[3]、感知线性预测系数[4]及谐波系数[5]等。常用的分类器包括高斯混合模型(Gaussian Mixture Model, GMM)[6]、支持向量机[7]和多层感知器[8]等。但是这些方法仅在基于音频内容的音乐分类、检索与推荐算法的领域发挥着重要的作用。然而,随着日益剧增的大型户外音乐灯光表演系统以及舞台音乐灯光表演系统,迫切需要一种成熟的可应用于表演灯光控制方面的音乐情感识别及特征提取的技术。

基音检测是音乐识别的基础,经常使用的识别方法有即时域法和频域法。时域法[9]根据峰值检测信号周期,但是其抗噪能力差;频域法计算振幅包括快速傅里叶变换(Fast Fourier Transformation,FFT)[10]或小波变换。拉斐尔音乐分割使用隐马尔可夫模型(Hidden Markov models,HMM)[11]提出了一种方法,但计算过程非常复杂。总之,目前国内外还没有一种系统地用于控制方面的音乐识别方法。

由于情感的模糊性[12],很难用传统的逻辑推理方法来处理。本文首先根据基本特征量对整段音乐进行粗情感域划分,然后对于不同粗情感域采用不同的能够表征其情感特征的细节特征量对其进行时间点及其他重要的用于控制方面的信息进行精细提取。

本文着重对其第一步即音乐情感识别粗分类技术进行了详细阐述,结合传统ArousalValence(AV)模型的简化模型,并根据强度、节奏两大基本特征量,通过小波变换中的Mallat算法将一整段音乐进行粗情感域的大致分类,最后根据专家规则分类方法即一定的编号法则对被检音乐进行粗情感域的软切割。

1 粗情感域空间

用于识别情感的空间方法一般是基于情感在几维空间中的定位来实现的。Russell的抑扬模型[13]在情感研究方向上做出了很大的贡献。该模型定义了一个二维的对称结构,即AV(ArousalValence)平面。Thayer[14]认为该情感空间在整合不同情感的方面不仅简单,而且非常实用。也可以把AV(ArousalValence)平面看作是ES(EnergyStress) 平面,即情感力度—紧张度平面。

该情感模型虽然比较简洁,但是相比粗分类所需的模型,该模型还是较为复杂,所以本文将AV情感模型简化为Simplified AV情感模型,简化后的模型如图1所示。

5 结语

本文提出了一种新型的音乐情感识别方法,采用小波变换的Mallat算法,实现了音乐粗情感域中的分类识别。这种基于Mallat算法的方法克服了高低频分辨率不平衡的缺点,并且提高了信号提取的抗扰能力,用简单的两类特征量把分类的准确率提高到80%左右。然而,比较系数的分区普适性不高,还需要进一步通过训练样本集进行精化,以得到普适性较高的分类比较系数节点,从而达到更高的粗分类精确度。

参考文献:

[1]KOS M, GRASIC M, VLAJ D, et al. Online speech/music segmentation for broadcast news domain [C]// IWSSIP09: Proceedings of the 16th International Conference on Systems, Signals and Image Processing. Piscataway: IEEE, 2009: 1-4.

[2]LI Y, WANG D L. Separation of singing voice from music accompaniment for monaural recordings [J].IEEE Transactions on Audio, Speech and Language Processing, 2007, 15(4): 1475-1487.

[3]MADDAGE N C, XU C, WANG Y. A SVMbased classification approach to musical audio [C]// ISMIR03: Proceedings of the 4th International Conference on Music Information Retrieval. Baltimore:ISSMIR, 2003: 25-26.

[4]DU Y, HU W, YAN Y, et al. Audio segmentation via trimodel Bayesian information criterion [C]// ICASSP07: Proceedings of 2007 IEEE International Conference on Acoustics, Speech and Signal Processing. Piscataway: IEEE, 2007, 1: 205-208.

[5]WU C, LIANG G. Robust singing detection in speech/music discriminator design [C]// ICASSP01: Proceedings of 2001 IEEE International Conference on Acoustics, Speech, and Signal Processing. Piscataway: IEEE, 2001, 2: 865-868.

http://www.ee.columbia.edu/~dpwe/papers/ChouG01-sing.pdf

[6]张奇,苏鸿根.基于高斯混合模型的乐器识别方法[J].计算机工程,2004,30(18):133-134,173.

[7]张奇,苏鸿根.基于支持向量机的乐器识别方法[J].计算机工程与应用,2004,40(18):99-101.

[8]BERENZWEIG A L, ELLIS D P W, LAWRENCE S. Using voice segments to improve artist classification of music [C]// Proceedings of the 22nd International Conference on Virtual, Synthetic, and Entertainment Audio. Eapoo, Finland:Audio Engineering Society, 2002: 1-8.

[9]TADOKORO Y, MATSUMOTO W, YAMAGUCHI M. Pitch detection of musical sounds using adaptive comb filters controlled by time delay [C]// ICME02:Proceedings of 2002 IEEE International Conference on Multimedia and Expo. Piscataway: IEEE, 2002, 1: 109-112.

[10]WANG Z, WANG J. Interharmonic parameter estimation based on FFT and MUSIC [J]. Journal of Jilin Institute of Chemical Technology, 2008, 4: 011.

王志超,王景芝.基于FFT和MUSIC法的间谐波频率估计[J].吉林化工学院学报,2008,25(4):44-47.

[11]RAPHAEL C. Automatic segmentation of acoustic musical signals using hidden Markov models [J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 1999, 21(4): 360-370.

[12]王小凤,耿国华,,等.一个基于相关反馈的神经网络音乐情感分类器构建算法[J].西北大学学报:自然科学版,2012,42(1):30-35.

[13]RUSSELL J A. A circumplex model of affect [J]. Journal of Personality and Social Psychology, 1980, 39(6): 1161-1178.

[14]THAYER R E. The biopsychology of mood and arousal [M]. Oxford: Oxford University Press, 1989.

[15]韩纪庆,冯涛等.音频信息处理技术[M].北京:清华大学出版社,2007.

[16]MALLAT S. A wavelet tour of signal processing [M]. Salt Lake City: Academic Press, 1999.

上一篇:基于趋近律方法的Delta算子滑模变结构控制系统 下一篇:使用时频盲源分离和小波包去噪的胎儿心电信号...