一种有效的视频镜头检测方法

时间:2022-06-04 02:05:39

一种有效的视频镜头检测方法

摘要:镜头是视频数据的基本单位,对视频镜头的检测是视频检索和浏览技术的基础工作。本文提出了一种简单的镜头检测方法,该方法首先使用视频亮度信息检测突变镜头,然后使用亮度和色度信息检测渐变镜头。通过实验与典型的“双阈值”镜头检测法相比较,证明该算法是有效的。

关键词:突变镜头;渐变镜头;视频检索

中图分类号:TP37 文献标识码:A文章编号:1009-3044(2007)06-11722-03

1 引言

随着网络以及多媒体技术的迅速发展,涌现出了大量的数字视频,如新闻、广告、监控视频、家庭视频等。数字视频的大量涌现引发了许多新的技术,包括视频存档、编目、索引以及有效存取等,而这些都需要将非结构化的视频数据转换成为结构化的视频数据。视频数据按层次可划分为帧、镜头、场景、故事单元等,其中镜头是视频数据的基本单位,因此对视频镜头的检测成为视频检索和浏览技术的基础工作[1][2].

根据视频编辑的原则,镜头的变换可分为突变和渐变两种,渐变又可分为淡入、淡出、慢变换和扫换等。早期的镜头检测工作主要集中在对突变镜头的检测上,其中典型的是基于颜色直方图的方法[3][4],这种方法通过比较相邻帧间的颜色变化值来检测镜头突变。对于种类繁多的渐变镜头,由于各种相机操作和镜头内的运动,目前还没有一种有效使用的检测算法。本文提出了一种简单有效的镜头检测方法,算法可以有效的检测出视频序列中的突变和渐变镜头。

2 基于亮度信息的镜头突变检测

目前,大多数的视频序列都使用YUV格式,其中Y分量表示亮度信息,U、V分量代表色度信息。YUV格式和RGB格式的转换如下:

Y=0.299R+0.587G+0.114BU=-0.169R-0.332G+0.5B+128V=0.5R-0.419G-0.0813B+128(1)

镜头突变反映的是两个连续的视频帧在内容上的突然变换,下图1显示了发生突变的连续视频帧(其中(a)表示发生镜头突变的前一帧,(b)表示发生镜头突变后的帧))。相应的,这两帧之间的亮度信息也会发生变化。我们用premiere编辑了一段含有20多个镜头的视频序列(其中包括各种突变和渐变镜头),下图2显示了这段视频帧在亮度信息上的帧间差变化情况。

从图2中可看出,在发生突变时,其 分量的直方图帧间差会发生较大的突然变化而在图中出现较多的峰值;而对于各种渐变类型以及摄像机运动, 分量直方图帧间差中差异并不是很明显。因此,对突变可以用一个固定阈值来检测,阈值的选择是镜头突变检测中的关键,若选择的阈值过大,则可能发生漏检;若选择的阈值过小,则可能发生误检测。在本文中,我们使用高斯模型法的一种改进方法。其阈值的计算公式如下:

图1 发生镜头突变的连续两帧

图2 视频片段的Y分量直方图帧间差

T=μ+ασ (2)

尽管采用高斯模型分布确定阈值的方法考虑了整个视频的整体内容变化,但这种确定阈值方法的缺点也是很明显的:(1)不利于局部发生突然变化视频段的镜头检测;(2)在实时的镜头检测之前,需要计算整个视频的特征量的统计分布并计算出阈值,这会很费时且大大降低了系统的效率。

为了解决这些问题,本文使用了一种基于内容的的阈值确定方法,它能够根据新输入的视频自适应的更新镜头检测的全局阈值。对于不同的视频片段,将逐个的计算阈值并进行镜头检测;而不是对所有的视频片段使用统一的固定阈值进行镜头检测。如:对于开始的1000帧,先计算其直方图帧间差的值以及其 μ和σ的值,然后用3.的公式计算出的阈值进行镜头检测。对于其后的1000帧重复这一过程直到视频的结束。

3 改进的镜头渐变检测方法

从图2可看到,突变的亮度信息变化很明显;相对的各种渐变在亮度信息上的变化并不明显。为了能将突变和渐变的检测统一起来,我们对同一段视频计算其 分量上的直方图帧间差,其结果如下图3所示:

图3 视频片段的V分量直方图帧间差

从图3中可以看出,在V分量直方图帧间差中,镜头突变的变化依然很明显,易于检测。但同时各种渐变变化以及对象运动在其变化的区域内也出现了一个相对明显的峰值,因此我们可以将视频的Y、V分量结合起来进行镜头渐变的检测。

进行镜头渐变检测的最典型的方法是“双阈值法”,虽然这种方法能在一定程度上检测渐变,但还是有其明显的局限性:即用于渐变检测的两个阈值Ts、Tb难于确定,尤其是用于检测渐变起始帧的阈值Ts,而Ts值的确定将直接影响到这种方法检测的效果。如果Ts的值过小,则会有大量的帧被认为是渐变的起始帧,这将毫无疑问的增加计算量也会导致过多的误检;同样,如果Ts的值过大,将会错过真正的渐变起始帧。同时,即使对于某一个特定的视频能够找到一个合适的Ts,但对于其他的视频来说,这个阈值也不一定合适,缺乏适应性。

为了解决这个问题,我们对“双阈值法”进行了改近。改进的基本思想如下:

(1)使用上节中提到的方法对视频的Y分量和V分量进行突变检测,其检测的结果将得到两个镜头边界的集合,记做Sy和Sv。

(2)对Sy和Sv做交集的结果作为视频的突变镜头集合;如果某个边界只在Sy和Sv中的一个集合中出现,则将该镜头作为潜在的镜头边界,并将Ts的值设置为该帧与其后续帧的帧间差。若其后续帧的累计差值超过Tb,则认为发生了镜头渐变。

根据上述的改进方案,本文提出了一种自适应的镜头检测方案,具体的算法流程如下:

输入:视频序列

输出:镜头边界集合s。( 中的值为镜头边界帧的帧号)

Step1:初始化:s={},w=800。CurrentFrameSet=视频序列的前w帧

Step2:当CurrentFrameSet还没有到达视频结束帧时,执行Step3。

Step3: Sy={},Sv={}。用直方图帧间差公式计算CurrentFrameSet中帧集合的Y分量及V分量的帧间差记作Yd,Vd,分别计算Yd、Vd的均值μ和方差σ并计算出其固定阈值T1b、T2b,然后执行以下过程:

(1) 将Yd中的值分别和T1b比较,若其值大于T1b,则Sy=Sy+Yd中当前比较的视频帧号。

(2)将Vd中的值分别和T2b比较,若其值大于T2b,则Sv=Sv+Vd中当前比较的视频帧号。

Step4: S=Sy∩Sv,Sp=Sy∪Sv∩S。

Step5:i=1,当i的值小于等于Sp中的元素个数时,执行以下过程:

(1)令FrameNum=Sp(i),Ts=Vd(FrameNum,FramenNum+1),计算FrameNum之后帧的累积的差值Ac,直到满足Ac>T2b就认为有镜头渐变,当Vd(FrameNum,FramenNum+1)

(2)i=i+1,转到Step4。

Step6:CurrentFrameSe=CurrentFrameSet的后w帧。若CurrentFrameSet的第一帧已经到达视频结束,则转向Step7;否则,转达Step3。

Step7:输出S中的值,得到镜头边界。

4 试验结果及讨论

本文将经典的镜头检测方法“双阈值法”与本文提出的自适应的镜头检测方法相比较。结果证明改进了的自适应的方法可以检测到“双阈值”法检测不到的渐变镜头,而且对于参数值的选取更加容易。

为了定量的评判试验的结果,我们需要一个统一的对视频边界的认同。在试验中,通过课题小组人员共同商量来手工的标记镜头边界。对于淡入/淡出镜头的起始帧和结束帧,若试验检测结果与人工标记结果的误差在2帧之内时,都认为是正确的检测。镜头检测的查全率(Recall)与查准率(Precision)的定义如下:

查全率=正确检测数/(正确检测数+漏检数)

查准率=正确检测数/(正确检测数+误检数)

为了使试验结果具有普遍性,我们对多个电影视频进行了试验,都取得了较好的试验结果,各种试验电影片段的特性及其镜头检验的结果如表1所示。

表1 试验电影片段的特性

表2 镜头检测结果统计

通过对上表的分析,发现镜头检测算法的查全率较高,而查准率则有待进一步提高,这主要是由于对于画面中含有大量打斗和运动的镜头误检而引起的。(如:七剑、特洛伊)。同时,算法中对参数的不同设置将得到不同的阈值,这也将最终影响到试验的结果。

5 结论

文章提出了一种镜头检测方法,该方法使用相邻帧间亮度信息检测突变,使用相邻帧间的色度信息检测渐变镜头。试验表明:该方法简单、有效。但该算法还不能对所有视频都达到较好的检测效果。如何提高算法的扩展性,是今后的近一步工作。

参考文献:

[1]A. Del Bimbo. Visual Information Retrieval[M]. San- Francisco: Morgan Kaufmann Publishers, 1999:85-97.

[2]P. Browne, A. F. Smeaton, N. Murphy, N. O’Connor, S. Marlow, and C. Berrut. Evaluation and combining digital video shot boundary detection algorithms[C]. In Proceedings of the Fourth Irish Machine Vision and Information Processing Conference, Queens University Belfast, 2000:136-148.

[3]R. Lienhart. Comparison of automatic shot boundary detection algorithm[C]. In Proc. of SPIE Storage and Retrieval for Image and Video Databases VII, San Jose, CA, U.S.A.;3656: 290C301.

[4]S. Tsekeridou, S. Krinidis, and I. Pitas. Scene change detection based on audio-visual analysis intereraction[J].Multi-Image Search and AnaysisWorkshop, 2001(3):253-260.

本文中所涉及到的图表、注解、公式等内容请以PDF格式阅读原文。

上一篇:B2B电子商务中Web服务安全和服务质量分析 下一篇:基于FPGA/CPLD和VHDL语言的交通灯控制系统设计