基于最长序列的虚拟3D音效的实现

时间：2022-10-19 10:43:27

摘要：为了在多媒体移动终端里实现3D音效，一个头部相关的传递函数首先被获取，然而一般的头相关传递函数的计算是把头当作一种球体来建立一个数学模型，这种模型的数学的计算复杂，不适合在嵌入式终端的实现.本文提出一种基于最长序列的测量系统脉冲响应的方法，该方法基于互相关技术，具有很高的抵抗噪声干扰能力，得到结果精度高，可重复性强，计算复杂度低，便于在嵌入式终端的实现。

关键词：最长序列；头部相关传递函数；三维音效

中图分类号：TP393 文献标识码：A 文章编号：1009-3044（2015）02-0187-05

Abstract： To implement virtual 3D auditory in mobile multi-media termination， a head-related transfer function （HRTF） need be calculated， but in conventional studies， the calculations are performed approximately based on the mathematical model by regarding the head as the sphere shape. This mathematical model computation is complex， not valid to application for the embedded termination. This paper has proposed the way which calculate system impulse response by maximum length sequence （MLS）， it is based on the cross-correlation technique and thus highly immune to extraneous noise of all kinds， and measures the impulse response with great amount of accuracy and repeatability. For its simply computation ， it is convenient to implement 3D auditory effect in the embedded termination.

Key words： maximum length sequence （MLS）； head-related transfer function （HRTF）， 3D auditory

在移动多媒体终端中，因为只有一组喇叭或者是耳机，为了让用户体验到逼真的3D音效，需要定位出环绕使用者身边不同位置的音源。这种音源追踪的能力，就叫做定位音效，它使用当时的HRTF[[1]]的功能来达到这种神奇的效果。HRTF的全名是Head-Related Transfer Function（头部相关传递函数），就是在三度立体空间中，人耳是如何监测和分辨出声音来源的方法。简单地说，就是声波会以几百万分之一秒的差距先后传到你的耳朵里面，而我们的大脑可以分辨出那些细微的差别，利用这些差别来分辨声波的形态，然后在换算成声音在空间里的位置来源。

在目前多数的虚拟3D音效的技术中，都是使用HRTF的换算法来转换游戏里的声音效果，误导你的大脑听到声音是来自不同地方的。支持声源定位的耳机将声音与游戏的物件、人物或是其他的声音的来源结合在一起，当这些声音与你在游戏中的位置改变时，耳机或喇叭就将依据相对位置来调整声波讯号的发送。

1 MLS介绍

最长序列[2]就是一串伪随机2进制序列作为系统的响应源[x（k）]，根据信号处理的理论，输入信号[x（k）]与线性系统的输出[y（k）]之间的互相关输入信号[x（k）]的自相关与系统的脉冲响应卷积得到[3]：

2 HRIR的测量与3D声效实现

利用MLS测量头相关脉冲响应（HRIR）[7]，它的数据的采用空间坐标如图1所示。

声源的空间方向由坐标（[θ]，[φ]）所决定。仰角[-90°≤φ≤90°]为方向矢量与水平面的夹角，[φ]= [-90°]、[0°]和[+90°]分别表示正下方、水平面与正上方。方位角[0°≤θ

虚拟3D信号的产生是通过原始语音与HRIR之间的卷积产生[10]，如果声源信号与HRIR卷积的结果在双耳之间精确地产生，听者就能感知声源的方向，这就是所谓的虚拟的3D的声效。

2.1 HRIR数据

2.2 DSP上实现

TMS320C6201是TI公司的TMS320系列的新一代高性能定点DSP芯片，芯片的工作频率可达200 MHz。TMS320C6201处理器由3个主要部分组成：CPU内核、外设和存储器。芯片内有8个并行处理单元，分为相同的2组，并行结构突破了传统设计而使得芯片具有很高的性能；其体系结构采用超长指令字结构（VLIW）结构，单指令字长为32 b，8个指令组成一个指令包，总字长为256 b，即每秒钟可以执行8条指令；芯片内部设置了专门的指令分配模块，可以将每个256 b的指令包同时分配到8个处理单元，并由8个单元同时执行；CPU有2组寄存器，每组寄存器由16个32 b寄存器组成；外设包括直接存储器访问（DMA）、低功耗逻辑、外部存储器接口（EMIF）、串口、主机口（HPI）和定时器。该DSP采用了具有独立程序和数据总线的修正的哈佛总线结构，即1套256 b的程序总线、2套32 b数据总线和一套32 b的DMA专业总线，大大提高了数据的传输效率。专用的硬件乘法器提高了运算过程中的乘法运算，硬件乘法器是DSP区别于通用微处理器的一个重要标志；采用了先进的超长指令字结构（VLIW），每个指令周期内同时执行8条32 b指令，大大地提高了程序的执行效率。的占用CPU的时间，有效地减少了寻址时间；流水处理使得8条并行指令同时通过流水线的每个节拍，大大提高了机器的吞吐量。DSP系统上分配一片内存来存储HRIR数据，并预留一个上层通讯接口，如果有最新的HRIR数据可以在线烧录新数据，这样可以让用户有更好的3D体验。

时域卷积可以通过频域相乘快速实现，如图2所示，整个DSP系统的软件流程如图3，由于该系统的HRIR已经离线烧录在DSP里[12]，这样省去在线计算HRIR的时间，这样大大方便了在嵌入式系统终端的实现。

3 HRIR分析

头部相关的传递函数用于描述人的听觉系统对不同方向的声音产生不同频谱特性的一种数学关系。它包含了双耳之间的声源的声压与到达时间的差别信息。

3.1 时域和频域基本特性分析

人工头HRIR的左耳数据与镜像方向的右耳数据是完全相同的，即左耳[θ=θ0]的数据与右耳[θ=360°-θ0]的数据相同，也即是说左、右镜像方向的数据仅仅是左、右互换而已[13]。因此，在下面的分析中，只给出一半空间方位，即[θ]=[0°]、[45°]、[90°]、[135°]、[180°]的结果。

图4到图8分别是基于MLS测量到的水平面方位角[θ]=[0°]、[45°]、[90°]、[135°]、[180°]的HRIR。从图中可以看出，HRIR的主体部分长度大约为50～60个采样（对于44.1 kHz采样，相当于1ms左右），反映了声波与头部、耳廓以及躯干的作用。当声源偏离正前方时，由于声源到两耳的传输距离不同，左、右耳的起始延时不同，形成双耳时间差。并且当声源处于耳的异侧（例如[θ]= [90°]，左耳），脉冲的幅度明显降低，这是头部对声波的阴影作用所致。

图9到图13基于MLS测出的头部在水平面上[φ=0°]，方位角[θ]=[0°]、[45°]、[90°]、[135°]、[180°]的频域归一化HRTF（头相关传输函数，是HRIR的傅立叶变换形式）幅度谱，对[θ]= [0°]和[180°]，由于左右耳是一样，所以图中左、右耳的曲线重合5。

在低频（ 0.5 kHz），头部等的散射作用可以略去，归一化的HRTF的幅度 20 log10|H| 应该接近0dB，基本与频率无关（图中大约150 Hz以下，幅度的下降是由测量扬声器的低频下限所引起，并非HRTF本身的特性）。

随着频率的增加，|H| 表现出与、[θ]复杂的函数关系，这是头部、耳廓、躯干、耳道等的综合作用的结果。其中在2至3 kHz附近HRTF幅度的峰是由于KEMAR人工头的耳道模拟器共振所引起。而头部作用使得在大于 3至4 kHz的高频，声源位于耳的异侧时（例如[θ]=[90°]，左耳），HRTF幅度明显下降，因而头部的阴影近似起到低通滤波的作用。而声源位于耳的同侧时（例如[θ]=[90°]，右耳），平均来说，高频HRTF幅度较低频有一定的提升（虽然存在一些谷点）。这部分是由于高频的情况下，头部对同侧声源近似起着一种镜像反射面的作用，因而可提高同侧耳的声压（理论上，无限大镜像反射面表面上的声压较自由场提高 6 dB）。

从图9和图13还可以看出，正前方[θ]=[0°]和正后方[θ]=[180°]的高频HRTF幅度并不完全相等。这是由于耳廓对后方声波的衍射作用和头部的非前后对称形状所引起。这种前后幅度谱的差别是区分前后镜象位置声源的一个因素。

3.2 HRTF谱特征分析

在频率高于5至6 kHz 时，耳廓对声波的散射和反射所带来的双耳声压频谱的特征是声源定位的一个因素。利用HRTF可以对这些谱特征进行分析。在耳廓所产生各种谱特征中，耳廓谷点的频率随仰角的变化有最引人注目，且许多研究将其作为中垂面上的一种重要的定位因素[14]。研究表明，当声源仰角从[φ] =[-40°]变化到[60°]时，耳廓谷的频率大约从5到6 kHz变化到约10至12 kHz。并且许多研究把这看成是普遍的规律。

4 结论

本文提出的MLS测量头部相关脉冲响应的方法便于用户根据自己的头部特征测量出适合自己的HTIR，从而得到精确的虚拟3D声效的感知效果。

参考文献：

[1] Douglas D. Rife and John Vanderkooy， "Transfer-Function Measurement with Maximum-Length Sequences"， Journal of the Audio Engineering Society， 1989，37（ 6 ）： 419 .

[2] 李平友，用最长序列测量扬声器的脉冲响应[J]，应用声学， 1993（1）：3.

[3] Miao B， Zane R， Maksimovic D. System Identification of Power Converters with Digital Control Through Cross-Correlation Methods[J].IEEE Transactions on Power Electronics， 2005，20（ 5）：1093-1099.

[4] Paulo， J.， Martins， C. R.， Bento Coelho， J. L.， " Room Impulse Response Measurement in the Presence of High Noise Levels using Maximum Length Sequences （MLS）". Proc. 7th ICSV， Germany ，2000.

[5] 赵跃英，盛胜我，刘海生.室内声学测量中数字化声源性能的分析[J].声学技术，2003，22（3）：143-146.

[6] 黄帆，李晓峰用幅度矢量合成定位法改进HRTF的定位效果[J]. 电声技术2007（1）

[7] 赵自力，黄成伟，HRTF在虚拟3D立体声中的应用及实验[J].清华大学学报2001.

[8] 黄玺瑛，赵定海. 基于DirectSound的战场环境三维音效实现[J].系统仿真学报， 2006（s2）.

[9] 吴鸣，林志斌，邱小军，等.相干平均法测扬声器频率响应的偏差分析[J].南京大学学报：自然科学版，2006，42（1）：44-53.

[10] 王红星，许增朴，周聪玲，等.一种基于高阶频率能量均值的扬声器异音故障诊断方法[J].天津轻工业学院学报，2010（6）：46-50.

[11] 任伟伟，侯宏，孙亮，赵静. 基于虚拟仪器的脉冲法隔声测试技术研究[J].测控技术，2011，30（3）：87-89.

[12] 蔡野锋，马登永，沐永生，等.数字扬声器系统中失配整形技术的设计与实现[J].电声技术，2011，35（2）：20-23.

[13] 马登永，蔡野锋，沐永生，等.全数字式扬声器阵列系统的设计与实现[J].电声技术，2011，35（11）：25-29.

基于最长序列的虚拟3D音效的实现

文档上传者

热门推荐更多>

精品范文更多>

基于最长序列的虚拟3D音效的实现

文档上传者

热门推荐 更多>

精品范文更多>

热门推荐更多>