数字音视频压缩技术的分析与实现

时间：2022-10-26 09:30:52

数字音视频压缩技术的分析与实现

摘要：随着人们对多媒体业务要求的不断升级，实现数字电视电影制作、新闻采集等电视节目的高效制作，数字音视频码流的分割及合并技术显得尤为重要。本文首先简要介绍数字音视频编码标准，然后针对两种不同的压缩方式（即帧内压缩和帧间压缩）下的数字音视频码流分割及合并技术进行了详细分析，并阐述了数字音视频码流的分割及合并技术的实现。

【关键词】数字音视频 MXF DV MP4

数字音频码流的分割及合并技术能够快速对音视频数据进行删除、替换以及增加等修改操作。在对数字高清视频素材进行编辑时，能够使各类高清素材完成精确帧定位并进行剪、接等操作；能够确保素材在分割后，拥有独立的组织结构，以正确的格式进行播放并且支持再次编辑；能够使多个素材片段实现无缝拼接。这就使得对数据码流的分割以及合并技术的研究显得尤为重要，因为数据码流的分割与合并技术直接关系到编辑的效果。

1 数字音频编码标准

目前在国际上，数字音视频编码压缩标准主要以MPEG和H.26X标准为主。其中，MPEG主要是针对MPEG系统、视频、音频制定的标准格式，又可分为：MPEG-1、MPEG-2、MPEG-4、MPEG-7、MPEG-21；而H.26X主要是针对多媒体通信视频和音频编码制定的标准格式。

随着数字音视频编码技术的不断完善，由 SMPTE制定的DV和MXF格式，已成为当今高清电影电视、电子新闻节目制作的主流。其中，DV是一种专业的数字音视频采集设备、数码影像规格，它广泛应用在电视电影节目制作、电子新闻采集等专业领域。MXF是一种通用的媒体容器格式，它可以在不同的协议和操作系统下工作，它能够将各类压缩方式的素材进行灵活封装。目前，音视频素材的封装主要以P2系列音视频标准格式为主。它能够直接采用MXF文件格式将音视频素材记录到P2卡上，提高了音视频编辑的速度和效率，P2已经成为高清数字音视频编缉的主要格式。本文就是在P2格式环境下，对高、低码率两类素材的分割合并技术进行研究。

2 分割及合并技术分析

要想准确顺利完成对数字音频视频文件进行分割及合并，必须在了解MXF文件结构、音视频数据组织、封装形式、素材数据等信息前提下，对文件头部重要元素进行分析。P2系列音视频素材MXF文件结构主要由头部Partition Pack标识的 Header Partition和Body Partition，以及Footer Partition所组成。由于Header Partition中涉及头部元素数据与索引表，Header Partition紧跟Partition Pack标识，Footer Partition又对索引表进行了拷贝；Body Partition中涉及音视频素材实质数据，因此，P2系列音视频素材MXF文件中的数据都将以KLV编码组织。如下图1所示：

为了将音视频数据放入通用媒体容器中，则利用Body Partition Pack后的Essence Container作为能够承受装载的容器，并采用Clip Wrapping封装映射方式对音视频数据帧进行定位分割及合并操作。因此，先对文件进行读取，查看是否属于MXF文件；其次，当文件为多个Body Partition时，则从尾读取至Partition Pack起点位置，当文件为单个时，则依次序读取，并对Header Partition进行依次序分析，并确定Essence Container的位置；再次，根据Header Metadata给出的信息，对格式、生成方式、素材输入时间等信息进行音视频确认；最后，对音视频数据帧进行定位分割及合并操作。由于数字音频数据编码方式为KLV组织，使素材检索定位效率获得了提高。在进行Clip Wrapping封装时，视频所有帧数依次一帧紧接一帧靠在一起作为Picture Item放置到通用媒体容器中。对帧的定位顺序为：Body Partition、Picture Item的位置，以及视频帧在Picture Item的位置，并取出。而音频数据与视频数据读取的方式相类似，由于数据重要放置在Sound Item中，因此，读取的时候，只需要一次读取1s或Ns的采样数据，封装时，因Sound Item中的数据量不够，则需要从多个Sound Item中读取音频数据进行分割合并，组成一个较大的数据缓冲，从而实现数字音频码流的无缝拼接。

视频压缩编码技术有帧内压缩（ Intra--frame ）和帧间压缩（Inter-frame）两种，音视频素材在编辑过程中采用哪种压缩方式决定了对素材进行分割与合并的难度。帧内压缩一般是有损压缩，针对每一帧图像进行压缩，帧与帧之间没有相互关联，在压缩以后仍然可以以帧为单位进行编辑，因此，在DV格式等非线性编辑领域常常会使这种压缩方式。但是这种压缩比率一般不高，为了要达到更高的压缩比例就得使用帧间压缩方式。帧间压缩一般是无损压缩，它通过比较相邻两帧之间的差异，在记录时仅仅记录本帧与相邻帧的差值，这种压缩方式减少了数据量，大大提高了压缩的比率。在实际应用中，两种压缩方式往往同时使用，MPEG-2编码就同时具有帧内压缩与帧间压缩两种方式。

3 数字音视频压缩技术的实现

3.1 帧内压缩方式下的分割及合并

利用帧内压缩方式下的分割及合并技术，只需要对分割文件偏移位置进行确认后，进行重新编写新的文件，所修改分割合并后的新音视频素材文件就能够正常进行播放。下面主要针对DV、AVCI两类采用帧内压缩方式的素材进行分析。其具体分割流程如图2所示：

合并的实现过程与分割过程基本相同，素材的合并主要是针对格式以及参数相同的两个素材而言。

3.2 帧间压缩方式下的分割及合并

帧间压缩方式具有压缩效率高、速度快等优点，但对素材的分割与合并不能简单的找到相应帧的位置进行操作。我们将采用帧类型变换的方法对帧间压缩的素材进行分割。以MPEG-4格式为例，首先把MP4文件分解成视频数据MPEG-4 video ES和音频数据MPEG-4 audioAAC。由于MPEG-4 文件中没有各帧对应的时码信息，没有分割MXF文件时直接供参考帧的绝对时码，因此需先依据原素材文件的开始时码即入点和出点来计算出对应的帧序号，然后根据帧头分别找到入点和出点对应的帧偏移。合并技术的重点在于实现各个素材片段的重排序以及无缝合并，实现音视频重同步效果。

综上所述，数字音视频压缩技术主要是为了能够在原音视频素材上，有效缩短任务时间快速对帧进行定位访问，并根据帧的位置，实现数字音视频素材编辑的无缝拼接。以确保数字音视频素材在经过压缩以后，依然具有完整性、可再编辑性。目前针对多种应用环境下的音视频码流素材的分割、合并技术的研究也正在进行，对数字音视频的高效长远的发展有着很大的意义。

参考文献

[1] 龚声蓉，王朝晖.结合视频分割的形状编码算法[A].苏州市自然科学优秀学术论文汇编，2010.

[2] 张晓萌，刘云，陈潜.嵌入式音视频码流合并系统的设计与实现[J].计算机应用，2011.

[3]张文丰.MPEG-2音视频码流合成与转换技术的研究和实现[D].电子科技大学，2006.

作者单位

江苏农林职业技术学院信息工程系江苏省镇江市 212400

数字音视频压缩技术的分析与实现

热门标签更多>

热门推荐更多>

精品范文更多>

数字音视频压缩技术的分析与实现

热门标签 更多>

热门推荐 更多>

精品范文更多>

热门标签更多>

热门推荐更多>