基于内容的图像检索相关反馈算法的改进

时间:2022-10-25 10:50:22

基于内容的图像检索相关反馈算法的改进

摘 要:基于内容的图像检索研究(Content-based Image Retrieval, CBIR)的目的是实现自动地、智能地检索图像,研究的对象是使查询者可以方便、快速、准确地从图像数据库中查找特定图像的方法和技术。本文在改进传统的相关反馈算法基础上,引入可更新的特征库,可以将用户反馈的信息逐步嵌入到这个可更新特征库中。实验结果证实了本文改进算法的有效性。

关键词:图像检索;纹理;特征提取;相似性度量;相关反馈

中图分类号:TP393文献标识码:A

1 前 言

基于内容的图像检索(CBIR)技术是由计算机自动提取包含图像内容的可视化特征:颜色、纹理、形状、轮廓、对象的位置和相互关系等,对数据库中的图像和查询样本图像在特征空间进行相似匹配,检索出与样本相似的图像。与传统标注文本数据库检索的拓展相比,CBIR在检索精度、表达方法、检索速度等方面有着无可比拟的优越性。

对CBIR技术的研究重点大多放在视觉特征的提取,包括颜色、纹理、形状、轮廓等。近年来研究者又引入了更多领域的知识:从知识表示的角度运用人工智能领域的推理及神经网络技术来提取特征和分类图像;构造面向对象的CBIR系统;开发面向网络的CBIR系统;并行CBIR技术也被提上议程。CBIR技术已经成为融合了模式识别、人工智能、图像处理等多个知识领域的研究热点,能够并已经开始应用于WWW上的图像检索、图像过滤、数字图书馆、视频内容检索、预防犯罪(指纹识别)、军事、知识产权(商标)、建筑与工程设计、文化遗产、医疗诊断、地理信息系统和遥感等多个领域。

国内外众多的专家学者对基于内容的图像检索技术进行了大量研究,并且取得了不少成果。如在利用颜色特征进行检索方面,Swain提出了直方图相交法[1];Stricker[2]提出了累加直方图法等。在利用纹理特征进行图像检索方面,Tamura特征法则是Tamura等人通过对6个与人的视觉感受相关的纹理特征的研究[3],采用粗糙度、对比度、方向性作为纹理特征;Gabor和小波模型法则是对图像进行多分辨率滤波,提取比付氏法更丰富的纹理特征。Gabor滤波函数是完备的非正交函数集,B.S.Manjunath和W.Y.Ma[4]先消除系列Gabor滤波器的元余度(相关性),然后又设计了一种自适应滤波器选择方法,大大降低了计算量,最后以Gabor小波变换系数的均值和方差作为纹理特征进行图像检索。在利用形状特征进行检索方面,A.K.Jain[5]利用Canny边界检测算子找出图像的边界,再统计边界的方向直方图,以此作为形状特征结合颜色直方图对400幅商标图像库进行检索,取得了很好的效果。在相关反馈基础技术图像检索方面,Rui等提出的修改特征向量和特征分量权重的方法[6]。

本文主要对已有的相关反馈算法进行了改进。改进算法在修改特征向量和特征分量权重的同时,通过拉近和推远正负反馈图像的特征,将用户对系统的反馈信息更新到特征库中,使以后的检索请求可以充分利用此信息,实验测试证实了该算法的高效性。

计算技术与自动化2007年6月第26卷第2期李庆先:基于内容的图像检索相关反馈算法的改进2 基本反馈算法

传统的相关反馈检索过程如下:首先由用户向系统提出查询请求系统根据查询实例的特征在特征索引库中查找与之相似的特征向量,从而返回给用户这些特征向量所对应的图像。然后,用户对系统检索到的图像与查询图像之间的相似度做出评价比如简单地评价为相似或不相似或标注出检索到的图像与查询实例的相似程度。将此信息反馈给系统,系统对查询实例的特征和特征分量在相似度度量中的权重进行修改然后再做特征匹配进而返回更接近于用户查询意图的图像。经过这样一次次的反馈,系统逐渐返回给用户所期望的结果。式(1)是系统根据用户反馈信息对查询实例的特征所做的更新。

式中QT表示更新后的查询特征向量,X是由所有检索回图像的特征向量组成的矩阵,N是系统检索回的图像个数,πΑ是用户对每幅图像的标注权重组成的向量。

式(2)表示系统根据用户反馈信息对各个特征分量的匹配权重所做的更新。

式中,W为权值矩阵;C是X的加权方差阵;K是特征向量的维数,当N

通过以上对特征向量的修改可以使该向量逐渐逼近要检索图像类的特征向量中心。而对于特征分量权重的修改相当于对原特征空间做一次次的空间变换,将原特征空间中比较分散的同一类特征向量映射到新空间的超椭球体内。

3 相关反馈算法的改进

基本反馈算法对特征分量权重所做的修改,虽然相当于特征空间的一种非线性变换,但并没有改变特征库中的特征向量,因此在下一次查询请求中无法利用这次查询的结果。为克服此问题本文对反馈算法的第一个改进是:在修改目标特征向量的同时将相似的反馈图像的特征向量向目标特征向量移动,位移量由一个收缩因子c来控制,如式(4)所示。

式中,PK、PK+1表示相似图像在更新前后的特征向量,QK+1表示已更新的查询向量,通过式(4)使相似图像的特征向量更加集中。

在实际检索系统中,为减少用户操作的复杂程度,用户的反馈标注往往选用较简单的方式,即对每一个检索到的图像只标注正确或错误,因此式(1)中πn的取值为1或0,所以,在对目标特征向量修改时,只有正确的图像发挥作用。

针对此问题,本文的另一个改进是:将那些负反馈图像的特征向量沿着远离目标特征向量的方向推移。与正反馈图像类似,选用一个扩散因子来控制推移的距离,如式(5)所示。

式中NK、NK+1表示更新前后负反馈图像的特征向量。图1给出了这种拉近和推远的修改过程。

在图1中正反馈向量P将向目标向量Q移动,具体移动距离由收缩因子决定;负反馈向量N1将向远离目标向量Q方向移动,具体移动距离由扩张因子决定。可以预见,当对N1进行外推移动之后,原本在检索范围之外的正例样本P4将有很大机会在下次检索中进入检索范围。实验证明,这种修改在提高检索准确率的同时明显减少了系统的反馈次数。

4 实验仿真

根据上述对纹理图像检索技术的研究,设计实现了一个实验系统,采用Gabor纹理特征和Tamura纹理特征共同组成检索用特征向量,完成基于纹理特征的图像检索。

在对特征库进行修改时,为防止正反馈图像的特征收缩于一个极小的范围,而不利于下一个用户的反馈修改,系统作如下限制:当正反馈图像的个数在反馈过程中不发生改变时,系统不再对正反馈图像特征进行收缩修改,而只对负反馈图像特征进行扩散修改。目的是为了保证在随后反馈中,那些尚未进入检索范围的相似图像特征有进入此范围的可能。而在基本反馈算法中,如果出现上面情况,系统的权重矩阵往往无法更新,从而导致系统反馈停滞不前。

关于修改特征库的变化趋势,可以从以下两种极限情况分析。如果低层特征与人的视觉感知是完全一致的,那么,修改特征库仍将保持原始特征库的构成。如果低层特征与人的视觉感知很不一致,那么,修改特征库中的特征将按照用户反馈的信息来分布,低层特征最终将被抛弃,从而使语义相似的图像特征在特征空间中聚集在一起。而在实际情况下,由于低层特征一般能够部分反映语义层内容,所以修改特征库将会成为上述两种情况的中间产物:构建在低层特征基础之上的语义特征库。

如果能将以上修改信息保存下来,无疑将会提高系统在以后检索中的性能。但是,当修改了图像特征库之后,库中图像的特征向量已经与最初的图像特征不同了。修改后的特征向量不再是简单的低层特征,而是一个综合了低层特征与语义层特征的新的图像特征描述。因此在下一次检索请求中,由于检索实例的特征向量仍然只是由计算机直接计算的低层特征,所以很可能无法在此修改后的特征库中找到本应与之匹配的特征向量,从而在系统的第一次返回图像中没有相关图像,这就使得后面的反馈机制难以实现。为了解决此问题,本文建立两个特征索引库,即一个原始特征库和一个动态更新特征库。这两个库最初是相同的,系统对特征库所做的修改仅限于动态更新特征库。由于这两个特征库最初是同一个库,所以它们之间存在精确的一一对应关系。在这种机制下,系统在用户提出检索请求之后的第一次检索计算时使用原始特征库,然后将得到的特征向量映射到修改特征库中,从而在以后的反馈检索中使用修改特征库,比较有效地解决了上面的问题。

为了验证本文所述算法的有效性,我们在实验系统的基础上设计了两大类实验,分别验证一次检索的有效性和用户反馈的有效性:①一次检索的查准率(Precision)和查全率(Recall)试验;②用户反馈试验。实验将分别在Brodatz纹理库和uni-bonn纹理库上进行。在检索精度上,主要是通过其查准率和查全率来进行判断的。在本文中图像的查准率为由该图像检索返回的15幅图中与所查询图像有相同纹理的图像的比例,而判断是否具有相同纹理则是按照图像是否来源于同一个大图像,即图像的名称中“-”前的部分是否相同。

实验结果表明图像D74-14的图像查准率11/15=73.3%,用灰度共生矩阵的方法检索为0/15=0%,用Gabor-Euclid的方法检索为8/15=53.3%;图像D27-2的图像查准率为9/15=60%,用灰度共生矩阵的方法检索为1/15=6.67%,用Gabor-Euclid的方法检索为8/15=53.3%,可见本文的方法要明显优于灰度共生矩阵的方法。另外,我们还对两种纹理图像测试集做了对比实验,如图2。

可以看到,Uni-Bonn纹理对应的总平均查准率比Brodatz纹理的要高。这主要是因为Uni-Bonn测试集中的纹理主要是均匀分布的随机性纹理,各个子图之间有较大的相似性,而Brodatz纹理中含有许多结构性纹理和非均匀分布的纹理,4x4分割后的子纹理之间相似度相对较小。

在查全率的实验中,对图像库中的每一个图像,分别寻找与之最相似的前10,15,20,25和30幅图中包含有与其切割自同一个纹理类别(大图)的图像的个数n,则每一个图像的查全率为n/15。最后定义测试集中所有图像的总平均查全率为图像库中所有图像的查全率的平均值。通过将图像库中的每个图像作为测试图像进行图像检索,用我们的方法获得了如图3所示的2个纹理测试集的总平均查全率随最大检索匹配数取值而变化的曲线。可以看到,如前所述Uni-Bonn纹理对应的总平均查全率依然比Brodatz纹理的要高。

为了更精确地研究此算法的性能,并与基本反馈算法做比较,本文选用Brodatz纹理集的非均匀纹理类别D39来进行测试,采用分割自D39的16幅子图的平均查准率来衡量其性能。

图4是对基本反馈算法和改进的反馈算法做的测试结果图,检索返回图像数为15个。由图4可以看出,基本反馈算法在5次反馈后只能达到接近40%的查准率,而改进的反馈算法,在4次反馈后可以达到60%的查准率,由此可以看出改进的反馈算法要优于基本的反馈算法。由于测试集特意选择非均匀纹理类别和我们判别检回图像是否相似的方法,所以,反馈很难检回切割自同一纹理类别的所有子图。

5结论

通过对由Brodatz纹理和Uni-bonn纹理组成的实验图像库检索,利用本文的方法与其他常用的方法进行了比较,实验证明本文提出的方法不仅比其他方法检索得更精确而且可以通过用户反馈进行多次检索,达到图像低层信息和用户视觉信息相结合的目的。但本文提出的图像检索方法只是使用了图像的纹理特征,要使此检索方法能够应用到更多的图像检索领域中,还需要把更多的图像特征,如颜色、形状等特征结合进来。

注:本文中所涉及到的图表、注解、公式等内容请以PDF格式阅读原文。

上一篇:宽带电磁散射分析中的ZT-FDTD算法 下一篇:带拒绝箱覆盖问题的局内算法