基于内容的图像检索综述

时间:2022-07-27 09:04:34

基于内容的图像检索综述

摘 要: 随着多媒体技术的迅速发展,传统的基于文本的信息检索技术已经不能满足需求。因此,基于内容的图像检索技术CBIR成为当今的一个研究热点。本文首先介绍了国内外基于内容的图像检索的现状研究,其次简单介绍了基于内容的图像检索系统构成,在此基础上论述了基于内容的图像检索常用的关键技术,主要从颜色、纹理、形状、组合的多特征、语义等方面进行了详细的叙述,同时指出了现有图像检索技术的优缺点,最后对基于内容的图像检索技术的未来发展作了更深一步的探讨。

关键词: CBIR 颜色 纹理 形状 语义

随着现代通信技术和多媒体技术的发展及Internet的广泛普及,数字图像的数量出现了急剧增长。如何从这些海量的图像数据中快速有效地找出需要的信息,是一个非常有理论价值和实际意义的课题。实际上,图像检索已经成为目前国内外的一个研究热点。从图像检索发展的历程来看,主要经历了两个阶段:基于文本的图像检索和基于内容的图像检索。传统的基于文本的图像检索技术是通过关键字或自由文本进行描述,查询操作是基于该图像的文本描述进行精确匹配或概率匹配。基于文本的图像检索方式简单、易于理解,但检索时要指明文本特征。由于人工注释图像的主观性和不准确性等弊端,因此这种传统的图像检索方法并不能满足用户的需求。相对于基于文本的图像检索技术来说,基于内容的图像检索实现了自动化、智能化的图像检索和管理,主要利用了图像中的一些可视化信息,如颜色、形状、纹理等信息作为检索的途径,从而提高了检索的效率和准确性,因此得到越来越多人的关注。

1.国内外的研究现状

迄今已有许多关于内容的图像检索系统面世。国外经典的检索系统有IBM公司开发的OBIc、Virage公司的Virage图像搜索引擎、麻省理工学院(MIT)多媒体实验室开发的Photobook、哥伦比亚大学开发的VisualSEEK和详ebSEEK,等等。相对于国外而言,国内在基于内容图像检索理论及应用的研究起步较晚,具有代表性的工作如下:清华大学计算机系结合国家863高科技研究发展项目“Web上基于内容的图像检索研究”,于1997年研制了一个网络版基于静态图像内容的原型系统。国防科技大学多媒体开发中心设计开发了一个基于内容的视频新闻节目浏览检索News Video CAR。浙江大学从1995年开始进行多媒体图像检索的研究,开发了基于图像颜色的检索系统Photo Navigator,并将基于颜色的CBIR技术较为成功地应用于敦煌壁画数据库的研究和开发。云南大学信息学院设计开发了基于内容的商标图像检索系统等。

目前,基于内容的图像检索技术的研究热点[1]可分为四个方面:一是最初的图像检索研究主要集中于如何选择合适的全局特征去描述图像内容和采用什么样的相似性度量方法进行图像匹配。代表性工作包括:IBM开发的QBIC、MIT多媒体实验室开发的Photobook、哥伦比亚大学开发的VisualSEEK等。二是基于区域的图像检索方法,主要思想是通过图像分割技术提取出感兴趣区域的特征;代表性工作有:美国加州大学的Netra、伯克利大学开发的Blobworld、斯坦佛大学和宾州大学开发的SIMPLicity。尽管这些方法更加贴近于用户查询的思路,但由于图像分割的准确性差,因而导致检索准确率低。上述两个研究热点是以图像为中心的方法,无须考虑用户的需求。三是利用相关反馈技术,根据用户需求及时调整系统检基于内容的圈像检索方法研究和实现索,充分利用特征和相似性度量方法,进而缩小低层特征和高层语义之间的差距。代表性工作有:美国伊利诺斯大学开发的多媒体分析和检索系统MARS,Picunter等;四是研究如何从多种渠道获取图像语义信息,如何将图像低层特征与图像关键词结合进行图像自动标注以提高检索准确率,如利用机器学习理论Bayesian,SVM,等等。

2.基于内容的图像检索系统构成

基于内容的图像检索过程[2]为:①预先分析、提取和储存各图像视觉的底层特征;②系统根据用户提交例图采用某种方法提取该图特征向量;③选取相似性比较方法,将该例图的特征与特征库中的特征进行比较匹配;④将与查询特征相似的图像,按相似度由大至小排列结果返回给用户;⑤系统反馈的结果用户可以筛选或者从候选结果中选择一个示例,经过特征调整后,形成一个新的查询,直至得到满意的结果。

3.基于内容的图像检索常用的关键技术

基于内容的图像检索技术[3]有很多种,颜色表达的是图像的全局特征,是图像的主要视觉性质,在人们对图像的印象中,颜色占了很大的比重;纹理也是一种全局特征,它描述了图像的表面性质,在检索粗细和疏密等方面有较大差别的图像时,利用纹理特征是一种有效的方法;形状特征更接近于目标的语义特征,具有一定的语义信息,可以帮助用户避开不相关的背景或不重要的目标,直接搜索与目标图像相似的图像。事实上,基于内容的图像检索方法需要综合颜色、纹理和形状的特征才能获得较好的效果。

3.1基于颜色特征的检索

颜色是图像检索中最先被采用的特征,主要方法有:①颜色直方图,②颜色一致性矢量,③颜色相关图,④颜色矩,等等。

颜色是图像的一种重要视觉特征,具有旋转不变性、平移不变性等优点,在基于内容的图像检索(CBlR)中应用广泛、性能显著。对此,人们提出了多种颜色特征提取及表示方法。其中,Swain等人提出的颜色直方图[4]在商用及实验系统中都得到了广泛应用。颜色直方图的比较是最基本方法,但缺乏图像的空间信息。而CCV方法不仅统计了整幅图像中各颜色的像素值,还统计了图像中各颜色最大区域的像素值,效果较好,但CCV并没有强调各颜色最大区域的形状及与背景的关系,于是Zachary等人又考虑了图像的边缘信息,提出了CCV―TEV(Threshold Edge Vector)算法[5]。颜色相关图法强调同一颜色在图像中的空间距离相关性,其检索效果比上述几个方法都要好,但计算量比较大。颜色矩算法主要是采用图像中各颜色的均值和方差作比较,处理简单,可用它作为图像检索的初检,为下一步的细检缩小搜索范围。

Zadeh提出的模糊集合理论[4],通过隶属函数的概念和方法描述来具有模糊性的过渡过程,将模糊集合理论及其衍生方法应用于CBlR具有较强的实用性。可以利用模糊C均值聚类算法(FuzzyC―Means AIgorithm,FCM),对图像色彩在RGB空间中进行模糊聚类,通过计算每个像素对聚类中心(即代表性颜色)的隶属度值来构造模糊颜色直方图,从而实现彩色图像的分类检索。

目前基于颜色特征的检索已成为检索的一个重要手段,并提出了许多改进方法。总体来说,主要分为两类:全局颜色特征检索和局部颜色特征检索。按照全局颜色分布来索引图像可以通过计算每种颜色的像素个数并构造颜色灰度直方图来实现,这对检索具有相似总体颜色内容的图像是一个很好的途径。局部颜色信息是指局部相似的颜色区域,它考虑了颜色的分类与一些初级的几何特征。比如smith等提出了颜色集合方法[6]来抽取空间局部颜色信息并提供颜色区域的有效索引。

3.2基于纹理特征的检索

纹理是图像的重要特征之一,通常定义为图像的某种局部性质,或是对局部区域中像素之间关系的一种度量,其本质是刻画像素的邻域灰度空间分布规律。纹理特征描述方法大致可以分为四类:统计法、结构法、模型法、频谱法。

Haley[7]等人使用Gabor小波模型提取了旋转不变性的纹理特征,该方法具有较高的复杂性。Ojala[8]等人提出了一种具有尺度和旋转不变性的LBP纹理分析方法,但该方法仅利用了纹理图像的局部特征,没有考虑到图像的全局信息。Manthalkar[9]等人采用离散小波包分解的方法得到了一种具有旋转和尺度不变的纹理特征,然而该方法在一定程度上丢失了纹理的方向信息。Pun[10]等人提出了Log-polar方法,具有旋转和尺度不变的特性,但它将尺度变量转化为平移变量进行处理,破坏了信号的频率。Kourosh[11]提出了一种旋转不变性的多尺度纹理分析方法(RIM),利用Radon变换和小波变换得到了一种新的具有旋转不变的纹理特征,具有较强的抗噪能力,然而该方法不能同时具备平移和尺度不变性。

统计法分析纹理的主要思想是通过图像中灰度级分布的随机属性来描述纹理特征。最简单的统计法是借助于灰度直方图的矩来描述纹理。但这种方法没有利用像素相对位置的空间信息,为了利用这些信息,Haralick[12]等人提出了用共生矩阵来表示纹理特征。该方法研究了纹理的空间灰度级相关性,构造出一个基于图像像素间方向和距离的共生矩阵,并且从矩阵中提取出反差、能量、嫡、相关等统计量作为特征量表示纹理特征。Tamura[13]等人基于人类视觉的心理学研究后提出了一些不同的方法来描述纹理特征,给出了几个不同的描述纹理特征的术语:粗糙度(coarseness),对比度(contrast),方句度(directionality),线性度(linelikeness),规则度(regularity),粗略度(roug hness)等。

结构法分析纹理的基本思想是假定纹理模式由纹理基元以一定的有规律的形式重复排列组合而成,特征提取就变为确定这些基元并定量分析它们的排列规则。Carlucci[14]曾提出一个使用直线段、开放多边形和封闭多边形作为纹理基元的纹理模型,其排列规则由一种图状语法结构定义。LuandFu给过一种树形语法结构表示纹理,他们将纹理按照9x9的窗口进行分割,每个分解单元的空间结构表示为一棵树。因为实际的纹理大都是无规则的,因此结构法受到很大限制。

3.3基于形状特征的检索

形状是刻画物体的本质特征之一,也是最难提取和描述的图像特征之一[15]。在人的视觉感知、识别和理解能力中,形状是一个重要的参数。形状特征具有不受目标颜色、纹理、背景变化影响的特点,它的重要原则是对位移、旋转、尺度变换的不变性。但不同于颜色和纹理等底层特征,形状特征的表达必须以对图像中物体或区域的划分为基础,形状特征的提取必须以图像分割作为前提。在二维图像空间中,形状通常被认为是一条封闭的轮廓曲线所包围的区域。要想进行形状匹配,首先需要找到一种合适的描述方式。形状特征通常有两种表示方法:一种是基于边界轮廓特征的表示方法,该特征的描述主要有:直线段描述、样条拟合曲线、傅立叶描述、小波轮廓描述,等等,其中最典型的方法是傅立叶描述,另一种是基于区域特征的表示方法,如不变矩。前者只用到物体的外边界,而后者则关系到整个形状区域。无论提取哪一类形状特征,都必须分割图像。

3.4基于组合的多特征的检索

图像内容具有各种视觉特征及视觉对象的空间关系等,而人在观察图像时也不只是观察一个特征,而是会同时看到图像的颜色、形状等多个组合特征。正如前面所提到的,不同的特征有不同的矢量表示方法,即使是同一特征,如颜色特征也有直方图特征、颜色矩、颜色集等多种特征表示方法。在用单一特征进行检索时,可能出现非常相似的两幅图,但在语义上相差很大。而采用组合特征检索法时可以在颜色、纹理、形状等几种查询特征中选择两种或两种以上的特征进行组合检索。基于多特征组合检索便于用户更灵活、更有效地表达检索要求,提高检索的准确率。该检索方法可分两种情况进行:一种是异步组合检索,另一种是同步组合检索[16]。

3.5基于语义特征的检索

基于语义的图像检索需要解决两个方面的问题:一是必须提供高层语义的描述方式;二是必须有将低层图像视觉特征射到高层语义的方法。图像的视觉特征信息和用户视觉数据理解的不一致性,使得视觉底层特征和高层语义之间存在语义鸿沟。针对这一问题,许多学者进行了研究,Amoid将图像的知识作用域分为狭义域和广义域两类,Hermes[17]等人使用了相似性技术直接从户外图像中推导场景的自然语言描述,Zhuang[18]等人提出了模糊布尔模型、概率布尔模型。这些方法在不同的场合分别显示了它们在语义表达方面的能力。

基于语义的图像检索方法,它允许用户在检索过程中用主观感觉来描述图像,这对于检索者来说,可以提高检索效率和准确性,但是“语义鸿沟”的存在,使得基于语义的图像检索仍面临着很大挑战。

4.基于内容的图像检索技术的展望[19]

目前,许多研究关注的是图像的特征提取及检索匹配算法,虽然方法很多,但没有一个统一的模型,需要易用的能对原始特征进行抽取的自动工具和获取逻辑特征的半自动工具用于开发大型、实用的多媒体信息检索系统。另外,还需要新的特征表示方法,如基于分形或小波的特征数学表示。目前使用的媒体,其格式和编码没有考虑到内容,只是针对颜色、像素、样值来编码。因此,从这些数据中抽取内容特征非常困难。在基于内容的检索中,由于检索算法比较多,需要对各种算法的检索结果进行评价,以比较其优劣。检索算法的评价方法能够在相同的条件下找出最佳算法,使不同的检索方法能更好地改进和提高,以使基于内容的检索方法朝更好的方向发展。

图像检索技术的研究是一个涉及多个领域的综合性课题,是对计算机视觉技术、数据库检索和管理技术、用户界面技术、数学建模技术、图像分析处理技术、计算机网络技术及人类心理学等各个方面成果的融合,只有这样,才能建立一个高效、快速、实用的图像检索系统[19]。

本文是对基于内容的图像检索中的关键技术进行了综述,由此可见:基于内容的图像检索技术是一种综合的集成技术,基于内容的图像检索是涉及多个领域的综合叉学科,随着信息技术的不断发展,基于内容的图像检索具有广泛的发展前景,但CBIR在某些方面仍需改进,颜色特征丢失了物体的空间信息,纹理特征不能充分地代表图像,不同的视觉可能获得不同的形状特征等。而如何实现准确的特征提取将是今后研究的一个方向,在多特征综合检索中如何实现算法匹配结果的归一化有待于进一步研究。此外,在检索过程中如何充分利用用户的信息反馈也将是一个重要的发展方向。

参考文献:

[1]史婷婷.基于内容的图像检索方法研究与实现[D].华南师范大学,2007,5:99-111.

[2]戴磊.基于内容的图像检索关键技术的改进策略[J].徐州工程学院信电学院学报,2010,11:121-139.

[3]陈桂兰,曲天伟,陈小丹.基于内容的图像检索技术[J].黑龙江科技学院计算机与信息工程学院学报,2009,2:222-301.

[4]解洪胜,王连国,孙玉芳.模糊颜色直方图在基于内容的图像检索中的应用研究[J].计算机系统应用,2009,5:139-141.

[5]黄祥林,沈兰荪.基于内容的图像检索技术研究[J].电子学报,2002,7:234-318.

[6]李心玲,李春杰.基于内容的图像检索技术[D].渤海大学信息科学与工程学院,2004,11:314-327.

[7]Haley G M,Manjunath B S.Rotation-invariant Texture Classification Using a Complete Space-frequency Model[J].IEEE Transon Image Processing,1999,8(2):255-269.

[8] Ojala T,Pietikainen M.Multiresolution Gray-scale and Rotation Invariant Texture Classification with Local Binary Patterns[J].IEEE Trans on Pattern Analysis and Machine Intelligence,2002,24(7):971-987.

[9]Manthalkar R,Biswas P K,Chatterji B N.Rotation and Scale Invariant Texture Features Using Discrete Wavelet Packet Transform[J].Pattern Recognition Letter,2003,24(14):2455-2642.

[10]Pun C M,Lee M C.Log-polar Wavelet Energy Signatures for Rotation and Scale Invariant Texture Classification[J].IEEE Trans on Pattern Analysis and Machine Intelligence,2003,25(5):590-603.

[11] Kourosh J K,Hamid S Z.Rotation-invariant Multiresolution Texture Analysis Using Radon and Wavelet Transform[J].IEEE Trans on Image Process,2005,14(6):783-794.

[12]安志勇,王晓华,赵珊,周利华.一种图像纹理特征检索算法[J].西安电子科技大学学报(自然科学版),2007,6:409-410.

[13]孟繁杰.基于内容的图像检索技术研究[D].西安电子科技大学,2004,1:103-110.

[14]周筱连.基于内容的图像检索[J].安徽电子信息职业技术学院学报,2008,7:34-45.

[15]于海珠,司瑾.基于内容的图像检索技术[J].空军航空大学电脑知识与技术,2010,10:2-5.

[16]姚弘.基于内容的图像检索技术研究[J].南通职业大学电子工程系学报,2010,8:88-96.

[17]高勇英,章毓晋.基于目标语义特征的图像检索系统[J].电子与信息学报,2003,25(10):1341-1348.

[18]孟祥娜,秦玉平,王春立.基于内容的图像检索技术综述[J].渤海大学学报,2009,1:84-85.

[19]童振兴.基于内容的图像检索技术综述与展望[J].计算机光盘软件与应用,2010,6:82-88.

上一篇:论中学思想政治课教学中的能力培养 下一篇:论非正式群体对民办高校影响的双重性