基于视频信息分割分类索引方法的初步研究

时间:2022-10-10 04:16:27

基于视频信息分割分类索引方法的初步研究

【摘 要】本文对视频信息检索的索引方法作一初步探讨,该方法包括:对视频内容进行分割;分割后具代表性的对象赋予数据特征;对视频内容按检索要求进行分类(层);分割对象与检索类型建立对应关系,从而建立索引和检索体系。

【关键词】视频 索引 分割 分类 对应关系

一、研究背景与研究思路

所谓视频,通俗的说,就是随时间变化的图像。由于数字影像技术的飞速发展及网络的普及,视频信息面广量大,种类庞杂,使人目不暇接。面对浩瀚如海的视频信息,人们要查找时往往不知从何入手,迫切希望能像检索文本信息数据那样,通过类似关键词的信息索引,快速查找到所需要的视频信息。要实现这样的要求,首要条件是构建快速而有效的索引方法,为快速检索奠定基础。现阶段,动态的视频信息的检索大多还处于研究状态,有些处于实验性模型,有些只适用于某些特殊范围视频信息的检索①。总之,就目前而论,似还没有能较普遍使用的视频信息检索和索引方法。本文作为这一研究领域的一个尝试,试就视频信息检索的索引方法作一初步研究。

本文研究的基本思路是:对视频内容的隐含结构进行分割;分割后具代表性的对象赋予数据特征;对视频内容按检索要求进行分类;分割对象与检索类型建立对应关系,从而建立索引和检索体系。

二、分割视频信息结构,选取索引对象

视频一般表现形式为节目,通过节目反映某个故事或主题。视频存储的数据并没有明显的索引信息,人们通常采用直线递进的方式欣赏和浏览。由于消费者的职业、志趣等方面的差异,人们对视频信息的消费可分成不同的类型。例如,以娱乐、观赏为目的的“消费型”,以教学、比赛等为目的的“研究型”,以视频本身的构造、修改、完善为目的的“创作型”,以视频信息为工具或载体的“应用型”等等。不同的用户检索视频信息的目的要求可能不同,有的需要检索的对象可能是镜头,也有的需要检索的对象可能是场景或者是故事单元。例如,跨栏运动员可能需要查找刘翔起跑的视频镜头,教师备课可能需要参考某段教学录像等等。所以,要建立高效的、操作性强的视频信息检索索引体系,必须对视频信息的内在结构进行分解细化,进而从中有针对性地选取索引对象。

1、视频信息的内在结构分析

一部视频类似于一本书,一本书的结构有书名(标题)、章、节、段落、句子、字词等层次构成。视频也是如此,对一部视频节目进行细化分析,可以发现,按由高到低的顺序,视频可以分解成节目(名称)、故事单元、场景、镜头、帧等层次②。其中,帧是最小的组成元素,是一个个静止的图像,类似于书中的字词;针对某个对象用摄像机拍摄得到的帧的集合是一个镜头,镜头类似于书中的句子;描述某一地点的或某一对象的、具有相对独立的叙事情节的若干连续镜头组成一个场景,场景类似于书中的段落;描述某一事件的具有相对完整的故事情节的若干个连续场景的集合构成一个故事单元,故事单元类似于书中的章或节;一个或多个故事单元构成一个节目,那就相当于若干章节构成一本书了。所以,视频信息的结构分析,与文本信息的结构分析,思想方法是一样的,可以按由高到低的顺序,也可以按由低到高的顺序。

2、视频索引对象的选取

如上所述,一部视频由节目、故事单元、场景、镜头、帧等这些层次所组成。由于消费者检索的目的要求不同,因此,索引对象也可能不同,节目、故事单元、场景、镜头、帧等都可能作为索引对象。这些对象面广量大,作为索引对象,自然应该具有代表性和关键性,因此,各层次索引对象的选取是建立索引体系的关键环节。

(1)帧的选取。帧是视频信息中的原始对象,是一个个固定的图像,其数量众多,拍摄时每秒几个或几十个。这些帧不可能都作为索引对象。这就需要利用适当的方法,从中选取一定数量的能够适应有关检索要求的具有代表性的关键帧作为索引对象。关键帧的选取方法有基于视频的分段和非基于视频的分段两种,具体方法有无监督聚类选取算法、基于公差带的方法等。

(2)镜头分割。镜头是视频信息构成的基本元素。根据镜头在视频节目中作用划分,镜头可分为交代镜头、动作镜头和空镜头等三种类型。交代镜头通常是用远景、全景等大景别的画面,交代场景中景物的空间位置或相互关系,表现人物的运动方式和运动轨迹等;动作镜头是视频节目的主要镜头,主要用以表现人物的形体语言、面部表情和运动状态;空镜头一般是指没有人物活动的镜头,通常用远景或特写两极景别表达,其作用是调整叙事结构、情绪基调和视觉感受。视频镜头分割是一项比较复杂的技术,需综合运用统计学、电子学、计算机等方面的知识。近几年,随着电子技术和计算机技术的飞速发展,镜头分割技术有了长足进步,开发出许多镜头分割的方法。总的说来,镜头分割技术有基于非压缩的和基于压缩的两大类。基于非压缩的镜头分割方法有象素比较法、块匹配似然比法、直方图比较法等;基于压缩的镜头分割方法有边缘分割法、MPEG分割法、统计判决分割法、聚类分割法等。

(3)场景分割。场景是指在某一时间或空间内发生的一定的任务行动或因人物关系所构成的具体生活画面,相对而言,是人物的行动和生活事件表现剧情内容的具体发展过程中阶段性的横向展示。更具体地说,场景就是指在一个单独的地点拍摄的一组连续的镜头。在视频节目中,场景有叙述性场景、抒情性场景、氛围性场景、主观性场景、意象性场景等几种类型。由于镜头是场景的组成部分,因此,场景分割一般是在镜头分割的基础上进行,场景分割的常用方法是根据相关镜头的相似度以及场景结构的主要特征,结合镜头颜色和运动信息特征进行镜头聚类,从而得到场景。

(4)故事单元分割。故事单元是指在内容上密切联系的描述一个完整事件的视频片段,一个故事单元常由一个或多个连续的场景或镜头组成,特别的,一个镜头也可能含有几个故事单元。和场景分割的思想方法一样,故事单元的分割在场景分割和镜头分割的基础上进行。例如,电视新闻节目的故事单元分割,常采用多模态融合的单元分割算法,即在对镜头选取关键帧的基础上,利用人脸检测和近邻传播聚类的检测算法,结合有关计算机软件,构建出电视新闻节目的故事单元自动分割系统。③

三、对视频内容进行分类(层),构建相应的索引模型

1、视频内容分类

同一段视频,不同的人观看可能会有不同的感受。即使是同一个人,如果多次观看同一段视频,可能也会得到不同的感受。例如,教师观看某一段教学录像,作为自己的教学参考,或作为教学评价的对象,或作为某一课题研究的模型,得到的感受、认识可能会有很大的不同。在这些不同的感受、认识之下把这段视频划归何种类型,可能会得到不同的结论。因此,对视频内容的分类可能会因人、因事而有所不同,很难有固定统一的标准。笔者以为,对视频内容分类,应采取宜粗不宜细的思想。不妨参照对一本书的内容分类的思想方法。我们拿到一本新书,怎样对其分类呢?首先看外观,例如是精装还是平装,初版还是再版等等;其次看基本信息,例如编者、出版社、出版时间等等;最后看内容,属于科学技术,还是文学艺术,或是教材教参等哪种类型。这样,这本书就可从这三种角度(或者说是三个层次)分别划归为某种类型。参照这一从不同角度分类(层)的方法,对视频内容也可从三个角度对其分类(层)④。第一层(低层),直觉感知,如颜色、纹理、形状、运动等;第二层(中间层),逻辑推理,如人物、地点、时间等;第三层(高层),智能推理,根据观者基于知识而得到的对视频的感受,的感知信息,如该视频属于教学、体育、娱乐等等。这种视频内容分类(层)可为建立视频信息索引模型奠定基础。

2、根据用户需要,对视频信息多方位介绍

以上关于视频内容的分类(层),仅是宏观的、粗略的,仅此是不够的。用户检索时需要的是更具体的索引信息,因此,在建立设定索引标识、建立索引体系时,还需要对视频信息的各个层次、各个侧面进行全面介绍。例如,有关创作过程的介绍(编者、导演、名称等);有关视频使用的介绍(范围、级别等);有关信息存储方法的介绍(格式、代码等);有关外观情况的介绍(颜色、字体等);有关主要内容的介绍(事件、人物等);有关浏览注意事项的介绍(占用空间、使用频率等);有关导引性介绍(类似视频,存在问题等)。

3、构建视频索引分类模型

以上对视频信息的需求描述及视频内容分类模型,可以构建如下的视频索引分类模型(见图1):

4、视频对象(分割后)与索引类型(层次)的对应关系

不同类型(层次)的视频索引通过分割后的相应的视频对象来实现,其对应关系如表1所示⑤:

结语

按如上研究思路,所设计的视频检索与索引系统,用示意图表达如图2所示。

随着电子技术和计算机技术的飞速发展,视频信息检索的研究日新月异,新成果层出不穷。本文仅从分割分类(层)这一角度进行了初步研究。期待同行们的进一步研究,以期得到更好的成果。

参考文献

①杨晓宏等:《电视节目制作系统》[M].高等教育出版社,2005

②印晓莉,《基于内容的视频结构分析》[J].《南京理工大学学报》,2005(3):32-35

③柳群英,《基于运动的视频检索系统》[J].《现代情报》,2003(6):25-28

④高赞:《基于内容的视频分析关键技术》[M].北京邮电大学出版社,2011

⑤黎晓茹,《视频流分镜头技术的研究》[J].《南京邮电学院学报(自科版)》1999(2):12-15

(作者单位:江苏省邳州市广播电视台)

责编:姚少宝

上一篇:电视媒介与社会文化传承关系之我见 下一篇:大众传媒社会责任的构成分析