基于语义的视频镜头检测的研究

时间:2022-05-28 11:00:50

基于语义的视频镜头检测的研究

摘要:由于视频信息量大,内容丰富,使得对其进行有效的管理和检索成为一个困难而又必须解决的课题。在对视频分割算法进行研究的同时,提出一种基于语义的视频镜头检测方法。主要是通过相邻帧之间的差异来判断是否存在镜头切换。实验结果部分对于算法性能进行了测试,实验验证该方法是可行的。

Abstract: For MPEG Video Information is rich in information and content, so it makes effective management and retrieval difficult but necessary. This paper points out video shot detection based on semantic while it studies video segmentation algorithm.Whether shot change exists or notisjudgedmainlyby neighbor frame difference , experimental result Carries out a test on the technology capability of algorithm, the experiment is given to approve it is feasible.

关键词:镜头检测;关键帧;镜头聚类;语义分析

Key words: shot boundary detection; key frame; shot clustering; semantic analysis

中图分类号:TP391.4文献标识码:A文章编号:1006-4311(2010)04-0064-02

随着网络技术的发展,信息量得到了迅猛增长。视频的信息量远大于其它数据形式,但它需要占用很大的存储空间和传输带宽。在这种背景下,为了克服传统方法所产生的弊端,提出了基于内容的视频检索(Content Based Video Retrieval)技术。基于内容就是根据视频的内容和上下文关系,对视频数据库中的视频信息进行检索。充分利用视频中的各种信息(包括颜色、纹理、形状、运动矢量、灰度等),实现自动或半自动的视频检索。视频数据结构化的目的是将视频序列分解为视频的基本组成单元镜头。

首先,某些视觉信息和感知特性很难用文字来获得描述。例如,对视频的主要截屏图片的纹理的感知、形体的外轮廓以及视频的视觉效果等等几乎都不能用文字准确而全面地描述。其次,文字也不适合模型化感知相似性。最后,文字描述反映注解者自己的观点,但通常他并不是与系统打交道的最终用户。因此,从20世纪90年代开始,基于内容的视频检索技术成为研究的热点问题。对视觉信息的访问不仅在概念层利用关键字进行,而且也在感知层利用对视觉内容的客观测量和合适的相似模型进行。对图象内容的语义表达可以建立不同的模型,如模糊布尔表达模型、概率布尔表达模型、形式语言表达模型、模糊逻辑语言表达模型和符号语言表达模型等。表达的典型方法主要有基于语义基元的方法和基于符号学(semiotic)的方法,另外,基于图象内容的语义表达还可建立语义索引帮助进行语义检索。

视频内容结构化的过程就是对视频流中的连续帧进行切分,在一个视频流中按内容的不同,将它分为若干语义段落单元。视频内容结构化能够从一部很长的视频中抽象出视频内部隐含的情节发展结构,为大量视频数据的导航和浏览提供了一种有效的手段。在视频内容结构化过程中,我们将把整个视频数据划分成若干等级的层次结构,然后分别对不同层次的视频信息建立索引。

1镜头分割

在视频内容结构化过程中,可以把连续视频流分割成包括镜头、组和场景等视频单元。

如图1 ,视频可分为节目、场景、镜头和关键帧。节目是时间上有序的场景组合。场景是指语义上相关,时间上相邻的一组镜头。镜头组是时间上相邻且在内容上相似的一组镜头。镜头是摄像机从打开到关闭这一过程记录下来的连续图象帧,它是视频中的最小物理单元。在镜头内部,相邻和相近的视频帧特征相近,变化很小,但在镜头切换处,视频帧的特征往往会发生明显的改变。在不同的应用中,视频内容结构化并不一定严格要求采用以上的层次结构,例如,有的视频结构中没有“组”这个概念。对视频进行有效的组织,需要将视频分解为基本单元。一般认为视频的基本单元是镜头,一个镜头由一个摄像机连续拍摄得到的时间上连续的图象组成。视频的一个特点是数据量很大,但同时其视觉内容常有较大的冗余。为访问视频内容,需要对视频进行浏览和对视频信息定位,这需要将视频分解。

镜头分割是视频结构层次化的基础,要求能够正确检测出各种复杂编辑的镜头边界,并能够有效地分辨镜头内的运动变化,排除它们对镜头边界识别的干扰。镜头的表示方法可分为两类:静止的和运动的。静止的表示方法是用于镜头内容相当的某一幅图象来代表镜头内容,这幅图象被称作关键帧(key-frame)。运动的表示方法利用了视频的运动特征,主要包括摄像机操作和目标运动等。关键帧是从原始的视频文档中抽取的一些静止图象,它们可以概括表示各个镜头的内容。一方面关键帧可以支持对整个视频文档内容的快速浏览,另一方面通过提取每个关键帧的视频特征并建立索引,可以实现对视频内容的检索。关键帧的提取是视频内容结构分析的一项重要内容,通常关键帧的提取是建立在镜头分割的结果上的。关键帧的选取方法很多,选取关键帧时不仅要注意反映视频内容,同时要考虑计算的复杂性。镜头边界检测的基础是两个相继镜头的内容有较大的不同性,因此可以用定量的方法来确定帧序列之间的差别;如果这种差别超出了给定的阈值,就可以提取出镜头的边界。因此,关键是通过利用合适的内容转换检测方法、合理的设置阈值,发现帧序列的内容变换点。由于突变的转换方式较为简单,现有算法的检测效果较为理想。但是,镜头渐变的检测却是非常的困难。两个镜头间的突变是将两个镜头直接连接在一起得到的,在镜头之间没有使用任何的视频边界特效。突变一般对应在两帧图象间某种模式(由于场景亮度或颜色的改变,目标或背景的运动,边缘轮廓的变化等产生)的突变。图2给出了一个镜头突变的例子。

2实验结果与分析

对镜头突变的检测目前都采用类似图象分割中基于边界的方法,即利用镜头间的不连续性。这类方法有两个要点:①对每个可能的位置检测是否有变化;②根据镜头突变的变化特点确定是否突变。对镜头突变的检测目前一般都是采用类似图象分割中基于边缘的方法,利用镜头间的不连续性,也就是用一种特征来表征视频中帧图象的视觉内容,用这一特征量的变化来衡量视觉内容的变化,从而将视觉上的镜头突变转化为量的变化。基本步骤就是提取特征,计算相邻两帧特征值的差值,然后将该差值与某个特定的阈值进行比较,若大于该阈值,则认为此相邻两帧分别属于不同的镜头,即检测到了镜头边界;否则认为此相邻两帧属于同一个镜头。阈值的选取主要有全局固定阈值和自适应阈值。在实际情况中,找到一个能够适用于所有视频的全局阈值几乎是不可能的。针对这种情况,本文采用了启发式的全局阈值设定方法。启发式的全局阈值设定方法首先计算同一镜头内的帧间特征差的统计分布,然后对得到的统计分布进行建模。阈值计算公式如下:

本文为全文原貌 未安装PDF浏览器用户请先下载安装 原版全文

T=m+s?滓 (1)

其中s用于控制误检测率,例如当s=5时,错误检测的概率为0.2%。虽然参数s可以显式地控制错误检测率,但是由于建模时没有考虑发生镜头突变时的帧间差,因此无法控制漏检测率。当指定的全局阈值太低时,错误检测率将会非常高。当指定的全局阈值太高时,漏检率又会迅速升高。因此全局阈值的局限性非常大。

针对上述算法中存在的问题,更好的办法是使用统计建模,在建模的同时就加入了一些额外的信息以及先验知识。一种基于统计模型的方法考虑了镜头长度信息:在检测中比较在两种假设(镜头突变,非镜头突变)情况下所求得的错误检测概率,以此作为判别是否存在镜头突变。

设镜头S由如下帧序列f1,f2,…,fn构成,算法如下:

①选择f L为关键帧输出;

②i=1, L=2;

③计算sd=(fj,fj+1)

④若sd >a,则选择fl为关键帧输出,并令i= L;

⑤L=L+1

⑥若L>n,则结束退出;否则转③。

a是一个阈值,用来控制关键帧的选取数目,sd用于度量基于某特征的两帧之间的相似性,值越小则两帧越相似。先定义两幅图象fi和fj间的差异距离为:

(fi,fj)=|fi(x,y)-fj(x,y)| (2)

提取镜头关键帧时,先计算两两候选关键帧之间的距离,即D(f1, fN/2), D(f1, fN),D(fN/2 ,fN),并将它们与一个预定的阈值T比较,按下列准则确定关键帧:

①如果它们都比T小,说明它们之间比较接近,此时取fN/2作为关键帧;②如果它们都比T大,说明它们之间差距较大,需要将它们都取为关键帧;③在其它情况下,取距离最大的两帧图象作为关键帧。

3结论

本文提出了一种基于语义的视频镜头检测的方法。视频是由不同的镜头组成的,通过检测视频的关键帧可以去确定不同的镜头,把具有相同内容的镜头组合在一起就构成了不同的场景。通过实验验证本文的方法是可行的。

参考文献:

[1]蔡波.一种基于参考帧的实时图像处理系统设计[J].电视技术,2007,31(8).

[2] 孙红辉等.图像的微分处理与相关识别[J].光学技术,2007(11):33.

[3] Mehtre B M,Kankanhal liMS, Lee W F. Shape measures for content based image retrieval: a comparison. Information Processing, Management, 33 (3):319-337.

[4] 何清华等.工程装备远程监控管理系统的设计与实现[J].郑州大学学报(工学版),2009,30(2).

本文为全文原貌 未安装PDF浏览器用户请先下载安装 原版全文

上一篇:涂层刀具摩擦磨损研究 下一篇:青饲切碎机应用安全预防措施