基于内容的视频检索与关键技术简述

时间:2022-09-19 05:42:33

基于内容的视频检索与关键技术简述

1.引言

随着多媒体技术的发展和信息高速公路的出现,数字视频的存储和传输技术都取得了重大的进展。如何能在海量的视频中找到需要的资料,是视频检索要解决的问题。传统的视频检索只能通过快进和快退等顺序的方法人工查找,因而是一件非常繁琐耗时的工作,这显然已无法满足多媒体数据库的要求。用户往往希望只要给出例子或特征描述,系统就能自动地找到所需的视频片断点,即实现基于内容视频检索

2.基于内容的视频检索

基于内容的视频检索(Content Based Video Retrieval, CBVR)指根据视频的内容及上下文关系,对大规模视频数据库中的视频数据进行检索。主要特点:直接从视频数据中提取信息线索,它是一种近似匹配,在没人工参与的情况下自动提取并描述视频的特征和内容。它融合了图像理解、模式识别、计算机视觉等技术。

基于内容的视频检索的过程是先将视频流通过镜头边界检测分割为镜头,并在镜头内选关键帧,再提取镜头的运动特征和关键帧中的视觉特征,作为一种检索机制存入视频数据库,最后根据用户提交的查询按一定特征进行视频检索,将检索结果按相似性程度交给用户,用户可优化查询结果,系统会依用户意见灵活优化检索结果。特征的提取和检索算法的优劣决定了系统的效率和性能。

3.关键技术

视频包含着丰富的内容。一般对视频采用分层的表达方式表示视频。一个视频可以表示为场景、镜头、帧几个层次。帧是视频最基本组成单元,镜头边界检测是视频层次化的基础。

3.1镜头边界检测

实现基于内容的视频检索首先要将视频数据自动地分割为镜头,称为镜头边界检测或场景转换检测。镜头的切换有突变和渐变,突变表现为在相邻两帧之间发生的突变性的镜头转换。

(1)基于像素的镜头检测方法

利用视频两帧对应像素之差的绝对值之和作为帧间差,当大于某个阈值m时,则认为有镜头的切换。缺点是对噪声和物体运动敏感,易造成误识别。

(2)颜色直方图差法,颜色直方图平方差法

直方图法是用得最多的计算帧间差的方法,它丢失了颜色的位置信息,故抗噪声能力较强。缺点是两幅图像可能内容完全不同但直方图相似,易造成误识别。

(3)基于边缘的方法

基于边缘的方法是提取前后两帧视频图像的边缘图,计算出现的新边缘和消失的旧边缘的像素比例,当两者的最大值大于某个阈值m时,则认为出现了镜头的切换。缺点是计算量比较大,当边缘不明显时识别效果差。

(4)压缩域的方法

大量视频数据是以MPEG等压缩形式保存的,对压缩视频进行镜头边界检测通常先解压再检测,但耗时且运算量大,故更理想的方法是直接在压缩域中进行边界检测,目前使用的主要有DC系数法和运动矢量法。

上述前三种利用帧间差的方法对镜头突变识别效果较好。

3.2关键帧提取

关键帧是反映镜头中主要信息内容的一帧或若干帧图像,其选取要能够反映镜头中的主要事件,且描述应尽可能准确完全,数据量应尽量小,计算不宜太复杂。

(1)基于镜头的方法

此法提取关键帧主要采用颜色特征,选镜头片段的第一帧作为关键帧,有帧平均法和直方图平均法,计算比较简单,所选帧具有平均代表意义。缺点是只从一个镜头中选一个关键帧,对运动较多的镜头无法充分描述其内容。

(2)基于内容分析的方法

这种方法基于每一帧的颜色、纹理等视觉信息的改变来提取关键帧,当这些信息有显著变化时,当前的帧即可作为关键帧。在基于内容分析的方法中,帧平均法和直方图平均法统计所有帧的像素值或直方图平均,取最接均值的帧作为代表帧。

(3)基于光流分析的方法

Wolf通过光流分析来计算镜头中的运动量,在运动量取局部最小值处来选取关键帧,它反映了视频数据中的静止。视频中通过摄像机在一个新的位置上停留或通过人物的某一动作的短暂停留来强调其本身的重要性。Wolf的这种基于运动分析的方法可以根据镜头的结构选择相应数目的关键帧。如果先把图像中的运动对象从背景中取出,再计算对象所在位置的光流,可以取得更好的效果。

(4)基于聚类的方法

视频聚类是将内容上有关系的镜头结合,经过聚类形成具有更高抽象层次的情节层,用有代表性的帧来代表情节(称为情节代表帧)。

4.小结

视频数据的镜头边界检测和关键帧提取是实现基于内容的视频检索的关键技术,它直接影响到视频检索的精度,其研究还处于起步阶段,各种理论和相关技术都不尽完善,需要继续做大量的探讨研究。

上一篇:同步奔小康 土地来保障 下一篇:“心罚”及“冷热说”