图像与MIDI乐曲的信息互映射与一种新颖的可视化方法

时间:2022-10-17 05:15:42

图像与MIDI乐曲的信息互映射与一种新颖的可视化方法

摘 要:本文通过分析图像与MIDI乐曲的信息构成方式,提出了从图像三维信息空间到MIDI四维信息空间之间的互映射转换模型,利用MIDI乐曲的时序关系,提出了一种新颖有趣的MIDI信息的彩色圆圈动画显示方法。实验结果显示,图像信息到MIDI信息的映射转换能辅助创作音乐的动机,MIDI乐曲的彩色圆圈动画能形象地展示乐音的属性与时序关系。

关键词:RGB图像;MIDI乐曲;互映射;彩色圆圈;动画

0 前言

动机是音乐的灵魂,动机通过发展形成乐曲,灵感是产生动机的重要因素,在数字时代,人们在探索利用人工智能方法产生动机,进而发展成乐曲,计算机作曲或者算法作曲技术的发展为音乐的创作提供了一条可行的路线。

1957年由Lejaren Hiller第一次利用计算机进行音乐创作,设计了作曲系统Illiac Suite;1960年代初期,Robert Baker和Lejaren Hiller设计了第一个自动作曲系统MUSICOMP[1],而最著名的计算机作曲系统则是Iannis Xenakis系统[2],它利用统计与概率方法进行辅助设计等等。在计算机作曲系统中,大量使用了人工智能的方法,如马尔可夫链[3]、遗传算法[4]、高层领域知识[5]和神经网络[6]等。

音乐可视化是对音乐表达的一种非主观的解释和判断,是为理解、分析、比较音乐的表现力和内部结构提供的一种呈现技术[7]。它综合利用了音乐、数字音频、图形学、图像处理、虚拟现实等领域的跨学科知识,研究内容广泛,如可视化系统构建、音乐感知模型、情感检测、沉浸式显示等,在娱乐、教育、艺术、商业和数字遗产保护[8]中具有广阔的应用前景。音乐可视化实现方法很多,如水彩画风格的音乐动画技术[9],基于实时MIDI响应的Music on the Spiral Array系统[10],三维蠕虫效果[11],以及基于虚拟技术的ANIMUS框架[12]等。

1 图像与MIDI乐曲的映射转换模型

1.1 图像像素与MIDI音符分析

一幅数字图像由若干个离散的像素点组成,不同的像素点具有不同的属性,彩色图像的像素点由三个基本的颜色RGB构成,每个颜色占用1个字节空间,可以有256种不同的颜色值,灰度图像的每个像素点的值是灰度级,范围是0~255,二值图像的每个像素的像素值不是0就是1。

音乐音符有四个基本的属性,分别是音色、音高、时值和力度,在MIDI乐曲中,不同的音轨轨道包含有不同的音色,一个轨道的MIDI音符由三个字节构成,第1个字节为轨道信息和音符开或关的信息,第2个字节为音符的音高信息,范围为0~127,第3个字节是音符的力度信息,范围为0~127,音符的时值由音符的开信号和关信号之间的时间差来决定,时长不定。

因此,图像的像素由三维的RGB分量构成,而MIDI乐曲则由四维的音轨、音高、时值和力度构成,图像信息与MIDI信号之间的映射转换就是研究三维空间与四维空间之间的映射关系。

1.2 映射转换模型

图像信息与音乐MIDI信号之间的互映射转换是一个视觉信息与抽象信息的互转换过程,从MIDI音乐到图像的转换是音乐信息可视化的研究内容之一,从图像到MIDI音乐的转换是图像抽象化的一种有趣探索。这里,分析图像和MIDI乐曲之间的对应映射转换关系:

常见的彩色图像有RGB、HIS格式等,图像信息的主要内容是像素的色彩信息,在RGB格式中,每个像素包含有RGB三个分量的图像信息,MIDI乐曲的主要信息是音符信息,音乐乐曲的MIDI音序中包含有k(≥1)个轨道信息,每个轨道中的乐音信息由音高(Pitch)、时值(Duration)、力度(Value)三要素构成,因此,可以在图像的RGB分量与MIDI的PDV要素之间建立对应映射关系,使得图像的单个像素的RGB分量与MIDI的单个乐音PDV要素之间构成互映射转换,见图1。

同时,音乐乐曲常有多声部构成,每个声部中的乐音之间有先后的时序关系,并且乐曲的音调和调性制约着乐曲中乐音的呈现方式;而图像中的像素之间并无时序关系,因此需要设计图像中的各个像素与乐曲中的乐音之间的对应关系,常见的方法是按图像的从上到下、从左到右的像素扫描序列对应乐曲中乐音的先后时序。

图像像素的RGB向量是三维结构,RGB向量的每一分量取值范围为0~255;乐曲的乐音MIDI信号的PDV向量也是三维结构,其中P分量的取值范围为0~127,V分量的取值范围为1~127,D分量的取值范围为不定。V分量的取值范围虽然为1~127,但是由于乐曲中表示力度的符号一般包括:ppp,pp,p,mp,mf,f,ff,fff等几种定性符号,定性力度符号与定量MIDI信号之间可根据不同乐曲进行个性化对应转换。

P分量表示乐音音高,比如钢琴的音域范围的MIDI信号为21~108,中央C的MIDI信号为60;由于乐曲不仅有音调、调式,而且还有一些限制,如人声的音域范围不可能为0~127,调式有大小调式、五声调式(见于中国古代音乐)、七声调式(西方音乐的主要调式)等之分,音调有C调、D调、F调等12个,这些都限制了实际乐曲中乐音的MIDI信号音高取值范围,如C大调五声调式的乐音使用的MIDI信号值为:60/62/64/67/69+12*j,-5≤j≤5,共49个值。

乐音的时值通常有1拍、2拍、1/2拍、3拍、1/3拍、4拍、1/4拍等等定性的记谱符号,在MIDI信号中,则表示为门时间,由同一个乐音的MIDI信号分两次不同出现之间的间隔来决定。

图像像素信息与乐曲MIDI信号的乐音之间映射关系可以有不同的组合,如在图像的R/G/B分量与乐音的P分量之间建立映射,可分为无调性映射、调性映射、调式映射、窄音域映射等。无调性映射是P分量的MIDI信号值只取决于图像像素的某个分量的取值,调性映射是指P分量的MIDI信号值属于某调性的MIDI信号值集合,调式映射是指P分量的MIDI信号值属于某调式的MIDI信号值集合,窄音域映射是指P分量的MIDI信号值属于特定的较小音域的MIDI信号值集合。

从MIDI信号到图像像素之间的映射关系主要考虑MIDI信号的取值范围能等概率地映射到像素各分量的取值范围。如从MIDI的力度信号映射到图像的R/G/B分量,由于常见的力度符号只有8个,而彩色图像的R/G/B分量取值范围为0~255,共256个不同的值,这样可以在映射过程中加入随机变量,使得从8个力度符号能等概率地产生256个不同的R/G/B分量值。

1.3 彩色圆圈

为可视化MIDI乐音信号的抽象信息,把MIDI乐音信号的PDV分量用二维彩色圆圈按乐音的时序先后呈现,其中P/V分量分别为X-Y轴,圆圈的大小由乐音的时值决定,圆圈的色彩根据2.2的MIDI乐音信号的PDV分量映射转换得到。

按公式(6)映射关系映射转换后的MIDI乐曲的部分乐谱见图3的子图(b),由图3(b)可知,乐曲在时序的乐音音高上随机性比较大,与人工的乐曲的创作上有很大的区别,但在动机片段的选取上,可在人工参与的基础上进行遴选,为动机素材的产生提供了一种方法,对乐曲的动机创作有一定的帮助。

2.2 MIDI乐曲的彩色圆圈

选取的MIDI乐曲为著名的《蓝色多瑙河》和《命运交响曲》第一乐章,按公式(5)对乐曲中的乐音信息进行彩色圆圈映射转换,得到图3的映射结果,图中X轴上的信息为乐音的音高信息,Y轴上的信息为乐音的力度信息,图中的圆圈有嵌套现象,这说明存在大量的音高相同且力度相同但时值不同的乐音,同时,子图(a)按X轴上可以把所有彩色圆圈分成两个聚类,说明此乐曲的主旋律与伴奏音乐的音高差异比较鲜明,子图(b)按Y轴上可以把圆圈分成若干个条状聚类,此乐曲的力度上变化相对比较简单。

3 结论

本文首先分析了计算机作曲在音乐创作中的作用,列举了一些计算机音乐创作系统和音乐创作的人工智能方法,简单叙述了音乐的可视化方法,着重分析了图像的三维信息空间与MIDI乐曲的四维信息空间的特征,提出了图像三维空间到MIDI四维空间之间的互映射转换关系,对一种有趣的MIDI信息的彩色圆圈动画模型进行了叙述。通过实验,表明了图像空间到MIDI信息空间的映射转换能有效提供音乐创作的音乐素材,彩色圆圈动画能方便地对音乐的基本信息进行展示。

参考文献:

[1] Kenneth McAlpine,Eduardo Miranda and Stuart Hoggar.Making Music with Algorithms:A CaseStudy System,Computer Music Journal, 23:2, pp.1930,1999.

[2] Iannis Xenakis.Formalized Music.Thought and Mathematics in Composition.Indiana University Press, 1991.

[3] Mary Farbood ,Bernd Schoner.Analysis and synthesis of palestrina style counterpoint using markov chains.Proceedings of International Computer Music Conference.Havana, Cuba, 2001.

[4] A.Horner and D.E.Goldberg.Genetic algorithms and computerassisted music composition.Proceedings of the 1991 International Computer Music Conference, 1991,pp.479482.

[5] Loy, G.1989, “Composing with ComputersA Survey of Some Compositional Formalisms and Music Programming Languages.” In M.Mathews and J.R.Pierce, eds.Current Directions in Computer Music Research.Cambridge, Massachusetts:MIT Press, pp.292396.

[6] Haykin, S.1994.Neural Networks:A Comprehensive Foundation.Indianapolis:Macmillan.

[7] 屈天喜,黄东军,童卡娜.音乐可视化研究综述[J].计算机科学,2007,34 (9):1622.

[8] 潘志庚.虚拟现实和数字化文化遗产.2005.http:∥/files/200507/6029/slideszgpan.pdf.

[9] 李华,胡春晖,顾明.基于实时渲染技术具有水彩画风格的音乐可视化方法[J].计算机应用,2005,25(3):729731.

[10] Chew E,Chen Y C.Mapping midi to the spiral array:Disambiguatin pitch spellings.In:Pro 8th INFORMS Computer Society Conference,Chandler,AZ,2003:259275.

[11] Gasser M.Interactive Visualization of Expressive Piano Performance,2005,http:∥www.cp.jku.at/research/papers/gasserdiplomarbeit.pdf.

[12] Taylor R,Torres D,Boulanger P.Using Music to Interact with a Virtual Character.In:Proceedings of New Interfaces for Musical Expression,Vancouver,BC,Canda,2005:200223.

作者简介: 陈根方(1968―),男,博士,副教授,杭州师范大学国际服务工程学院,主要从事算法分析、数字音乐、图像处理以及非物质文化遗产的数字化保护研究。

上一篇:文质彬彬,然后君子 下一篇:民间美术中的色彩文化观念