基于内容的视频检索技术

时间：2022-06-29 06:10:42

基于内容的视频检索技术

【摘要】本文首先介绍了基于内容的视频检索技术含义、基于内容的视频检索的特点及现状，其次探讨了镜头边界检测、关键帧的选取、特征提取及视频聚类。本文的讨论具有重要的理论价值，同时也为基于内容的视频检索技术提供依据。

【关键词】基于；内容；视频检索；技术

中图分类号：TN941.2文献标识码： A 文章编号：

一、前言

自从改革开放以来，我国的信息技术取得了前所未有的发展，同时也推动着其他行业的发展。视频检索技术就是近年来发展起来的对众多视频检索的技术，对我们的需要提供重大帮助。

二、基于内容的视频检索技术含义

视频检索就是要从大量的视频数据中找到所需的视频片断。传统的视频检索只能通过快进和快退等顺序的方法人工查找，因而是一件非常繁琐耗时的工作，这显然已无法满足多媒体数据库的要求。用户往往希望只要给出例子或特征描述，系统就能自动地找到所需的视频片断点，即实现基于内容的视频检索。

基于内容的视频检索包括很多技术，如视频结构的分析、视频数据的自动索引和视频聚类。视频结构的分析是指通过镜头边界的检测，把视频分割成基本的组成单元———镜头；视频数据的自动索引包括关键帧的选取和静止特征与运动特征的提取；视频聚类就是根据这些特征进行的。

三、基于内容的视频检索的特点及现状

1、基于内容的视频检索的特点

(1)从视频数据中提取信息线索。基于内容的检索突破了传统的基于表达式检索的局限，它直接对图像、视频、音频内容进行分析．抽取特征和语义，利用这些内容特征建立索引。并进行检索。

(2)CBVR是一种近似匹配。由于对内容的表示不是一种精确描述，因此，CBVR采用相似性匹配的方法逐步求精，以获得查询结果，即不断减小查询结果的范围，直到定位于要求的目标，这是一个迭代过程。这一点与常规数据库检索中的精确匹配方法不同。

(3)大型数据库(集)的快速检索。实际的视频数据库(集)数据量巨大，因此要求CBVR技术也像常规的信息检索技术一样，能快速实现对大型库的检索。

(4)人机交互。人对于物体的内容特征比较敏感，能迅速分辨对象的轮廓、音乐旋律及它们的含义等，但对于视频对象，一方面人工从大量数据中标志对象非常费时，另一方面人的判断易受主观性影响，且是一种重复性工作，而这些正是计算机的长处。因此人与计算机间应相互合作进行检索。

2、基于内容的视频检索技术的现状

目前视频检索，更多的是在研究阶段。研究项目包括Carnegie Mellon大学的Informeda数字视频图书馆项目、IBM Altadena研究中心研究开发的QBIC、美国堪萨斯大学的数字视频图书馆系统(DVLS)、微软研究中心等。Carnegie Mellon大学的Informedia数字图书馆项目由NSF，DARPA，NASA等资助，Informedia项目致力于研究新的方法进行自动的视频和音频的检索、浏览、检索和内容提取，并集成在一个系统中，用于教育、信息和娱乐等行业。Informedia项目发展智能、自动的视频内容分析机制以普及数字视频图书馆的应用，在语音识别、图像认知、自然语言处理等领域的研究为基于内容和知识的自动检索和内容提取提供了支持。

四、镜头边界检测

1、镜头转换边界检测的意义

从视频的制作过程可以了解视频的结构。在制作视频时，首先进行单个镜头的拍摄，每个镜头是由摄像机一次连续拍摄下了的多个画面帧组成，反映了一段连续发生的事件。然后，内容相近的多个镜头通过各种镜头编辑方式(即镜头转换方式)衔接在一起，组成场景以及视频故事单元。从视频的制作过程可以看出，镜头是组成视频的基本单元，也是对视频内容进行深入分析的基础。在基于视频内容的视频检索中，为了测览或检索视频数据库，需要对每个场景的开始点和结束点进行识别和索引。

2、镜头边界检测方法

镜头边界检测方法可分为模板匹配法、直方图法、基于边缘的方法等3种。

（1）、模板匹配法

模板匹配法的缺点是对噪声和镜头或物体运动非常敏感，因为它严格地局限于像素的位置。噪声和物体运动都会使帧间差增大，从而导致错误的场景转换检测。对此有人提出了一种改进的方法，即把各帧划分为454 像素的小块，并对每个块取平均，再用这个平均值对前后帧的对应小块进行比较，这种方法可以去掉图像中的一些噪声，并对小的物体运动和镜头运动起到补偿作用。

（2）、直方图法

直方图法是使用得最多的计算帧间差的方法它不考虑像素的位置信息，而使用像素亮度和色彩的统计值，因而抗噪能力比模板匹配强。其基本原理是将颜色空间分为一个个离散的颜色小区间，然后计算落入每个小区间的像素数目。颜色直方图法的缺点是，有时会漏掉场景变换，因为两幅图像可能有完全不同的结构，但其颜色直方图却很接近。与颜色直方图法相似的另一种计算帧间差的方法是%$ 直方图法，据介绍这种方法用于镜头转换，检测效果要好于上述两种方法。

（3）、基于边缘的方法

这种镜头边界的检测方法是根据边缘特征，它的基本思想是“在发生镜头转换时，新出现的边缘应远离旧边缘的位置，同样旧边缘消失的位置应远离新边缘的位置。

五、关键帧的选取

关键帧(有时也称代表帧)是用于描述一个镜头的关键图像帧，它通常会反映一个镜头的主要内容。关键帧的使用大大减少了视频索引的数据量，同时也为检索和浏览视频提供了一个组织框架。关键帧的提取原则是“宁愿错，勿能少”。关键帧选取方法有很多，典型的有基于镜头的方法、基于内容分析的方法、基于运动分析的方法和基于聚类的方法。

1、基于镜头的方法

一段视频分割成镜头后，将每个镜头的首帧(或首帧与末帧)作为镜头的关键帧。该方法实现起来比较简单，无论镜头的内容如何，关键帧的数量都是一定的(1帧或2帧)，但效果不是很稳定，因为每个镜头的首帧或末帧不一定总是能够反映镜头的主要内容。

2、基于内容分析的方法

这种方法基于每一帧的颜色、纹理等视觉信息的改变来提取关键帧，当这些信息有显著变化时，当前的帧即可作为关键帧。Zhang等人121依据帧间的显著变化来选择多个关键帧，首先把镜头的第一帧作为关键帧，然后计算前一个关键帧与剩余帧之差，如果差值大于某一阈值，则再选取一个关键帧。这种方法可以根据镜头内容的变化程度选择相应数目的关键帧，但所选取的帧不一定具有代表意义，而且在有镜头运动时，容易选取过多的关键帧。

六、特征提取及视频聚类

1、特征提取

镜头是视频检索的最小单位。视频分割成镜头后，就要对各个镜头进行特征提取，得到一个尽可能充分反映镜头内容的特征空间，这个特征空间将作为视频聚类和检索的依据。视频数据的特征分为静态特征和动态特征。

（1）静态特征提取

静态特征的提取主要针对关键帧，可以采用通常的图像特征提取方法，如提取颜色特征、纹理特征、形状和边缘特征等。在前面的章节中已经详尽的讨论了图像特征提取，在此不作冗述。

（2）运动特征提取

视频数据除了具有静态特征外，还更具有运动特征，它反映了视频数据的时域变化，而且往往是用户检索时所能给出的主要内容，例如用户可能要求检索有变焦的视频片段，或者在监控系统中检索某个对象从画面上消失的视频帧。因而对视频数据进行特征提取必须研究其运动特征。

2、视频聚类

视频聚类是研究镜头间的关系，也就是如何把内容相近的镜头组合起来。根据聚类目的的不同，视频聚类可分为两类：一类是把同属一个场景的镜头进行聚类，以形成层次型的视频结构———场景和电影。这种聚类不但要考虑镜头内容上的相似性，还要考虑其时间上的连续性，也就是说，虽然两个镜头内容很接近（特征向量之间的距离很小），但如果它们在时间上相距得很远，就不能认为它们属于同一个场景。把镜头聚类为故事单元后，其数量明显减少。

七、结束语

近年来随着我国信息技术的快速发展，多媒体行业发展迅速，推动我国各行各业的发展，同时多媒体行业在的应用也是相当广泛的。那么我们如何在如此庞大的多媒体信息中找到我们需要的内容，我们需要运用基于内容的视频检索技术。

参考文献

[1]周洞汝,胡宏斌.视频数据库管理系统导论[M].科学出版社,2000．

[2]唐立军.基于内容的图像检索系统[J].计算机应用研究,200l.

[3]于俊清.基于文字和图像信息提取视频关键帧[J].计算机工程与应用,2002.

基于内容的视频检索技术

文档上传者

热门推荐更多>

精品范文更多>

基于内容的视频检索技术

文档上传者

热门推荐 更多>

精品范文更多>

热门推荐更多>