基于内容的图像检索技术简析

时间:2022-05-06 10:50:38

基于内容的图像检索技术简析

摘 要: 基于内容的图像检索技术是新一代多媒体计算机的核心技术。本文介绍了基于内容的图像检索系统的关键技术,分析了现有的图像检索技术的缺陷,并提出了将来的研究方向。

关键词: 基于内容 图像检索 关键技术

1.引言

随着多媒体和计算机网络技术的迅速发展,多媒体信息的数据量正在以惊人的速度增长。面对日益庞大的数据信息,如何更加有效地分类、管理、维护和利用是多媒体数据挖掘中亟待解决的问题。多媒体数据挖掘中的研究的热点之一就是对图像的检索。目前主要有两种方式的检索:(1)基于描述的检索系统;(2)基于内容的检索系统。

传统的图像检索方法是基于文本的(Text-Based Image Retrieval,简写为TBIR)。这种技术是对图像建立关键词等文本描述信息,以解释图像的内容。然后使用关系数据库结构化查询语句来对关键字进行检索。因此,对图像的检索变成了对关键字的查找,这种方法简单易行,但是随着图像的数量与日俱增,以及图像数据来源的日益广泛,以下两个缺点就更加凸显。首先,文本描述难以充分表达图像的丰富内容。文本描述是一种定性的描述,描述能力有限,图像中则往往含有大量需要定量描述的信息。而且许多图像的特征难以用文本描述表达,如图像中的不规则形状、散布的纹理等就很难用文本来描述。基于文本的图像检索难以实现基于图像视觉特征和空间关系的相似性检索。其次,文本描述是非常主观的,不同的人对同一幅图像数据可能有不同的理解,因此当用户在查询时输入的关键词和数据库中的关键词不一致或这些关键词根本就不存在时,将导致查询失败。最后,随着图像数量的日益增多,人工标注或添加信息效率较低,并且一旦标注信息建立就不便于更新,难以满足海量环境下多媒体信息库的检索要求。为了克服基于文本检索方法的局限性,20世纪90年代出现了基于内容的图像检索技术,这种技术对图像的内容,融合了图像理解技术,可以提供更加有效的检索途径。

2.基于内容的图像检索系统组成

基于内容的图像检索(CBIR,Content-Based Image Retrieval),是指直接采用图像内容进行图像信息查询的检索,在建立图像库时,对输入的图像先进行图像分析,提取图像的特征向量,并在将输入图像存入图像库的同时将其对应的特征向量也存入相应的特征库。在进行图像检索时,对每一幅给定的查询图,进行图像分析并提取该图的特征向量。通过将该图像特征向量与特征库中的特征向量进行匹配并根据匹配结果到图像库中搜索就可提取出所需要的检索图来。随着图像特征理论的逐渐完善,人们认识到图像检索系统的用户主观性及视觉特征与语义特征难以匹配的问题,开始把用户看作检索系统的一部分,将文本检索中的相关反馈技术引入到基于内容的图像检索中。

图像的特征提取、图像特征索引技术、图像相似度度量、相关的反馈机制是研究开发基于CBIR的图像检索系统的四种关键技术,也是解决检索问题和提高检索效率的关键。

2.1图像特征的提取与表达

图像特征的提取与表达是基于内容的图像检索技术的基础。图像的视觉特征分为通用的视觉特征和领域相关的视觉特征。前者描述所有图像共有的特征,与图像的具体类型或内容无关,主要包括色彩、纹理和形状,后者建立在对所描述图像内容的某些先验知识(或假设)基础上,与具体的应用紧密有关,如人的面部特征或指纹特征等。

2.1.1颜色特征作为图像最直观最明显的特征,已经得到广泛的应用,其主要原因在于颜色往往和图像中所包含的物体或场景十分相关。此外,颜色特征对图像本身的尺寸、方向、视角的依赖性较小,从而具有较高的检索性。图像颜色特征的表达涉及如下三个方面的问题:一是选择一个合适的颜色空间;二是将颜色特征量化为向量形式;三是定义一种相似度(距离)标准用来度量不同图像之间在颜色上的相似性。

恰当的颜色空间的选择是实现基于颜色特征的图像检索的基础。常见的有RGB颜色空间和HSV颜色空间。一般情况下获取的图像都是在RGB空间描述的,但是RGB空间结构并不符合人们对颜色相似性的主观判断。而HSV颜色空间由色调(H)、饱和度(S)、亮度(V)三个分量组成。与人眼的视觉特性比较接近,从人的心理感知来说,HSV空间要比RGB空间更直观、更容易接受。因此,为了更符合人眼的视觉特征,我们经常需要做颜色空间的转换,将RGB颜色空间转换为HSV颜色空间。

表示图像颜色特征最简单的方法是颜色直方图方法。它所描述的是不同色彩在整幅图像中所占的比例。它仅仅表示了图像中各种颜色的统计分布,两幅内容完全不同的图像,也可能有相同的颜色直方图,所以不能够反映出同一色彩在空间分布的不同,因而造成空间信息的丢失。所以这种方法只适合描述那些不需要考虑物体空间位置的图像。

颜色在空间上的不同分布极大地影响了人们对图像的相似性判断。有人提出了以图像颜色聚合矢量CCV(Color Coherence、Vector)作为图像的特征,它是图像直方图的一种演变,其核心思想是将图像中在感知上颜色相似的像素所占据的连续区域的面积大于一定的阐值时,该区域中的像素为聚合像素,否则为不聚合像素,这样统计图像所包含的每种颜色的聚合像素和不聚合像素的比率为图像的聚合矢量,聚合矢量中的聚合信息在某种程度上保留了图像颜色的空间信息。此方法旨在克服颜色直方图无法表达图像色彩空间位置的缺陷。

2.1.2纹理特征是一种不依赖于颜色或亮度的反映图像中同质现象的视觉特征。纹理特征包含了物体表面结构组织排列的重要信息,以及它们与周围环境的联系。用户可通过提交包含有某种纹理的图像来查找含有相似纹理的其他图像。从人类的感知经验出发,纹理特征主要有粗糙性、方向性和对比度。

2.1.3形状特征是图像的另一个显著特征,也是刻画物体最本质的特征。形状特征也是最难提取和描述的图像特征之一。在基于形状的图像检索中有三个问题需要解决。第一,形状通常与图像中的特定目标对象有关,因此形状比颜色和纹理的语义性更强,要获得目标的形状参数,先要进行图像分割,所以形状特性会受到图像分割效果的影响。如果图像分割的准确性比较差,那么检索结果的准确率就较低,对分割效果很差的图像,形状参数甚至无法提取。第二,描述目标的形状是一个非常复杂的问题,人对形状的感觉是视网膜感受和现实世界的知识相结合的结果。事实上,目前还没有找到与人的主观感觉相一致的形状模型。第三,从不同的视角获得的形状可能会有很大差别,为了准确进行形状匹配,需要解决平移、缩放、旋转中的不变性问题。目前,提取方法主要有两大类:基于边界的形状特征提取和基于区域的形状特征提取。一般来说,两种提取方法相互结合,相互影响。通过单一的颜色特征来实现图像检索的方法通用性差,检索效果也不好。因此有人提出一种将颜色与形状相结合的新的检索方法,是将图像分割成为若干子区域,提取每一子区域的颜色特征,然后存储每一区域的颜色特征以支持图像检索。

2.2图像特征索引的建立

色彩、纹理和形状等图像特征被提取出来后,形成了特征向量,就可以用这个特征向量来表示对应的图像。在图像检索中,判断图像之间是否相似是通过比较这些特征向量是否相似来进行的。也就是,把图像特征向量之间的比较看成是图像相似度比较。但由于从图像中提取的颜色、纹理、形状等特征都是多维的,不能很好地适应传统的索引结构,通常在建立一个有效索引之前先采用降维的方法减少索引维数。目前常用的降维技术主要有两种:KLT和列间聚类。其中有一点特别要注意,降维要适度,如果盲目降维到必要维数以下,则会丢失部分图像特征,从而使图像失真,影响检索效果。所以降维后需要再利用一种多维索引技术,以确保检索能真实顺利地进行。R树是目前常用的一种空间数据索引方法,并且广泛应用于空间及多维数据库中,其主要原理是让聚集在一起的空间对象尽可能早地组合在一起。

2.3图像相似度的度量

图像相似度是指人们对图像内容的认识上(即语义)的差异,使通过计算查询样图和候选图像之间在视觉特征上存在的距离。如果这个距离满足一定条件,我们则可以说这两图像相似度匹配,放入检索结果中。相似性度量方法是在图像检索过程中用于计算两幅图像之间的相似度,但是没有一个是在任何情况下都可以使用的,因为其具有特征依赖性的特点,不同的特征应该采用不同的度量方法。一个好的比较算法对图像检索结果有很大的影响。常用的比较算法有欧拉距离、直方图交、二次式距离和马氏距离等。这些相似度匹配函数都是基于向量空间模型的。

3.基于内容的图像检索技术的国内外研究概况

尽管当前对基于内容的图像检索技术的研究还不是很成熟,但是作为商业软件包的图像检索系统已经问世。这些系统的框架和查询的处理过程很相似,只是采用的特征和搜索的方法各具特色,性能也有所差异。例如Virage是由Virage公司开发的基于内容的图像搜索引擎,支持基于颜色、纹理和结构的可视化样图查询。它进一步支持上述几种查询的任意组合,用户可以根据自己的查询需求调整这些特征查询的权值;并提出了开放的检索系统管理框架。国内研究比较有代表性的中国科学院计算机技术研究所和北京图书馆联合开发的多媒体信息检索系统MIRES。

4.基于内容的图像检索技术的研究热点

虽然根据图像低层次特征如颜色、纹理、形状等的检索有了一定的进展,但基于内容的图像检索技术日前仍处于研究探索阶段,局限于特定的应用领域,仍然存在诸多值得研究的问题。比如:1.如何能正确理解用户的要求,选择描述图像内容的适当方法,从原始图像中抽取特征描述,将高层语义特征和低层视觉特征结合起来,使得相似度匹配程度更高,检索结果更准确?目前国际上MPEG标准化组织正在制定的MPEG-7标准,其目标就是实现集高层语义特征和低层视觉特征的基于内容的多特征综合检索。2.如何有效地利用相关反馈技术,根据用户需求及时调整系统检索?3.如何定义一个客观的标准来评价检索结果。目前基于内容检索结果的评价方法采用的是信息检索中的查全率和查准率,远未令人满意?4.如何设计更加友好的人机交互接口。这些问题都会随着CBIR的发展成为将来研究的课题。

参考文献:

[1]吴永英,马笑飞.基于颜色、空间和纹理特征的CBIR系统实现[J].计算机工程与科学,2005,(6):43-45.

[2]卢爱芹等.基于内容的多媒体检索技术综述[J].科技传播,2010,(5):77-78.

[3]肖明,王永红,石勇.基于内容的图像检索研究进展[J].情报杂志,2007,(01):45-47.

[4]陈栋梁,周晓君.基于内容的图像检索技术研究[J].计算机与数字工程,2007,(5):153-155.

[5]孟繁杰,郭宝龙.CBIR关键技术研究[J].计算机应用研究,2004,(07):22-25.

上一篇:高校体育教学渗透心理健康教育的途径探析 下一篇:新课程标准下中小学生体育兴趣的培养