基于区域相似度的图像自动标注方法

时间:2022-10-17 11:42:41

基于区域相似度的图像自动标注方法

摘 要:面对图片的数量与种类快速的增长,如何有效的组织和处理大量的图片信息并从其中检索出用户需要的信息成为一个重要的问题。图像检索技术是解决此类问题的核心技术。为了能够有效的标注和检索图像,提出了一种基于区域匹配的图像自动标注方法,实验证明,该方法能够有效的对图像进行标注。

关键词:图像分割;特征提取;自动标注;相似度

中图分类号:TP391 文献标识号:A 文章编号:2095-2163(2015)03-

Automatic Image Annotation based on Region Similarity

XU Gongwen1, LIAO Minghai1, WANG Xiaoyan1, XU Chunxiu1,XU Lina2

(1 School of Computer Science and Technology, Shandong Xiehe College, Jinan 250107, China;

2 School of Computer Science and Technology, Shandong Jianzhu University, Jinan 250101,China)

Abstract:Face to the number and category of images growing rapidly, how to organize and processed large amounts of images information effectively and retrieved the useful information which user need become an important problem. Image retrieval technology is the core technology to solve such problems. For effective annotation and retrieval of images, an image annotation method based on the region matching is proposed. The experimental results show that this tagging pictures method is effective.

Keywords: Image Segmentation; Features Extraction; Automatic Annotation; Similarity

0引 言

随着计算机与网络的发展以及相机等数码产品的普及,图像的种类和数量也在飞速的增加[1]。如何能够有效的组织和处理大量的图片信息并从其中检索出用户需要的图片成为一个重要的问题。多媒体信息检索技术[2]是解决此类问题的核心技术。在多媒体信息检索技术当中,图像检索技术根据检索方法的不同可以分为两类:一种是基于文本的图像检索技术[3],另外一种是基于内容的图像检索技术[4]。基于文本的图像检索技术通过利用人工标注的关键词表示图像,把图像检索转化为相关关键词的查询与匹配。基于文本的图像检索技术的优点是方便,检索速度快,用户只需要输入相关的关键词就可以查询并得到相关的结果。但是基于文本的图像检索技术需要人工对图像标注关键词,工作量大。基于内容的图像检索技术依赖于图像的视觉内容,譬如图像的颜色、纹理和形状等。通过测量图像视觉内容的相似度检索图像。由于图像视觉内容特征的提取与匹配可以由计算机自动完成,因此基于内容的图像检索技术得到了广泛的研究与应用。

虽然基于内容的图像检索技术取得了很多的研究成果,但是由于基于内容的图像检索技术由于存在语义鸿沟[9],即低层视觉特征,这些特征有形状、颜色、纹理,而其对用户的查询做不到完全的反映和匹配,如何完美地实现基于语义的图像检索仍是一个问题。由于用户更习惯于用文字来表达查询需求,并且现有的互联网搜索引擎提供基于文本的图像检索,但是人工标注又是一项相当费时费力的工作, 由此催生了自动图像标注技术的发展[10]。

基于区域的图像检索技术(Region-based image retrieval technology) [5-8]通过图像分割技术将一幅图像分割为若干个同质区域(Homogenous Region),由于每个同质区域的语义相对比较单一,因此能够准确地描述图像的语义内容。其次在每一个区域使用局部的特征来描述,综合每个区域的特征对图像自动标注。然后基于固定的相似性度量标准,完成图像的检索。

在这篇论文中,提出了一种基于区域匹配的图像标注方法。首先,通过N-Cut方法把图像分割成若干个同质区域,然后用k-means方法对分割后的区域进行聚类。在每一类中,选择具有代表性的若干区域,对其进行人工标注关键词。最后用所选择区域的颜色特征和纹理特征的平均值数值化关键词。对于测试图片,计算分割后区域的颜色特征和纹理特征的值。如果区域的特征值与关键词的距离小于一定的阈值,就用这个关键词标注图像。

1图像特征提取与表达

早期的基于内容的图像检索技术,通常用全局特征表示图像。由于全局特征表示图像存在不足,一些研究提出了区域特征、局部特征等。图像区域的选择可以分为三种:固定划分法、分割法以及显著点法。固定划分法使用统一的方法分割图像,不考虑图像的视觉内容差异。Monay和Gatica-Perez提出一种方法,这种方法把每幅图像分割成三个固定的区域,即图像的上半部分、中心以及下半部分[11]。文献[12-13]提出了一种更简单的方法,每一幅图像被平均分为相同大的矩形区域,即图像栅格化划分。

分割方法的目的是把图像分割成若干个同质区域,每一个区域对应于一个对象。研究人员已经提出了很多知名的分割算法,其中,N-Cut算法[14]和JSEG算法[15]是具有代表性的分割算法。

特征提取的主要任务是提取能够表示图像可视内容的特征信息。在本论文中,主要提取了图像的颜色特征和纹理特征,并通过一定的算法得到图像的颜色特征值和纹理特征值。

1.1颜色特征

由于图像中包含大量的颜色信息,颜色特征的提取方法简单,因此,在图像检索和标注中通常使用颜色特征作为可视内容特征[16]。颜色信息可以在不同的空间中表示,其中最常见的空间为RGB颜色空间。RGB颜色空间是由红色、绿色以及蓝色三种基色组成,其他颜色都可以由这三种基色线性表示。在三维空间中,三个坐标轴分别表示红色、绿色以及蓝色,如图1所示。

图1 RGB颜色空间

Fig.1 RGB Color Space

在图1中,坐标原点表示黑色,与原点距离最远的定点表示白色。图1中三个坐标轴分别表示三种基本颜色:红色、绿色以及蓝色。剩余的三个顶点对应于三个互补色: 品红色,蓝绿色和黄色. 其余各点对应的颜色可以用该点到原点的向量来表示。

除了 RGB 之外,HSV[17]也是常见的描述颜色特征的颜色空间。由于HSV颜色空间为视觉感知的颜色空间,所以本文中使用HSV颜色空间。HSV颜色空间由色调、饱和度和亮度组成。由RGB颜色空间转换成HSV颜色空间的方法如下:

(1)

(2)

(3)

其中,R, G, B ∈ [0, 1255], H ∈ [0, 1360], S, V ∈ [0,1]。

由于转换后的HSV颜色值维度过高,因此需要对转换后的HSV颜色值实施量化。本论文中,将色调分为八份,饱和度以及亮度分为三份,量化过程如下:

(4)

(5)

(6)

通过量化,可以得到图像的颜色特征值。

1.2 纹理特征

纹理是由物理性质,如物体的表面的粗糙度决定。人们可以很容易地看出不同的纹理,因此可以通过纹理得到视觉信息[18-19]。并且纹理也是一种非常重要的可视内容特征。灰度共生矩阵通过提供图像的变化幅度、间隔、灰度方向等,能够用于计算图像对应的特征值,图像的纹理特征可以通过这些特征值来表达,所以该文采用灰度共生矩阵方法来完成纹理特征的提取[11]。在文献 [11]里面,总共涉及到十四种纹理特征的参数,在这些参数里面,选取局部平稳参数、惯性矩参数、角二阶矩参数和熵参数等四种表达能力比较强的参数。

2关键词的数值化

在第1节中,提到了两种代表性的图像分割算法N-Cut 和 JSEG,本文中将使用N-Cut算法分割图像,每个图像被划分成多个互不重叠的区域。分割过程如下:

在基于图论的图像分割方法中,一幅图像被看成无向加权图,G = {V, E, W },其中V表示节点集,在图像中像素表示节点。E表示两两节点之间的连线。Wij表示节点之间的权重。权重可以通过计算像素、亮度或者其他信息之间的距离得到。例如,一幅图像分割成两部分A和B:A ∪ B = V, A ∩ B = ?,两个子集之间的相似度由以下公式计算:

(7)

Shi 和Malikt提出了NormalizedCut描述两类间的分离度,并且可以得到一个N-cut值作为测量标准:

(8)

其中,assoc(A, V )表示节点A与其他所有节点权重的和。最佳分割方法是最小化以下目标函数:

(9)

通过k-means方法对分割后的区域进行聚类,在每一类中,选择具有代表性的若干区域,对其进行人工标注关键词。标注后用所选择区域的颜色特征和纹理特征的平均值数值化关键词。把所标注的关键词作为种子集。对于测试图片,则需计算分割后区域的颜色特征和纹理特征的值。如果测试图像分割后的区域特征值与关键词的距离小于一定的阈值,就用这个关键词标注测试图像。

3实验结果与分析

在本节中将介绍数据集以及在数据集上所做的实验,通过分析实验结果说明本论文的方法的有效性。

3.1数据集

本节中实验以及得到的结果所使用的数据集为Corel图像库。该图像库中包含10类图像集,分别为建筑,花,人,马,大象,海洋,恐龙,车,食物以及山。每类图像集中有100幅图像,选取每个类中的70幅图像作为训练集。每一幅图像通过图像分割算法被分为三部分,然后利用k-means算法对分割后的区域聚类。选择每一类中具有代表性的区域进行人工标注。剩下的300幅图像作为测试集。

3.2 测量标准

用查全率、查准率和 值来度量实验结果的性能。在测试集中,包含关键词 的图像数目用 表示。通过标注模型的应用,标注结果里面含有关键词 的图像有 个,其中 表示其中正确的数目。

查全率Recall表示被正确提取的信息的比例,计算公式为:

(10)

查准率Precision表示查询的精确度,计算公式为:

(11)

是查全率和查准率的调和平均,表示整体的性能,其计算公式为:

(12)

3.3 实验结果分析

当用特征值数值化关键词时,使用了三种方法:第一种方法是只使用颜色特征数值化关键词;第二种方法是只使用纹理特征数值化关键词;第三种方法是使用颜色特征值和纹理特征值数值化关键词。实验结果如表1所示。

表1 数值化关键词的不同方法

Tab.1 Different methods of numerical keywords

查全率 查准率 F1

只用颜色特征 0.379 0.339 0.358

只用纹理特征 0.356 0.317 0.336

同时使用颜色和纹理特征 0.494 0.467 0.479

由表1可知,当只使用颜色特征数值化关键词时,查全率为0.379, 查准率为0.339,F1值为 0.358;当只使用纹理特征数值化关键词时,查全率为0.356, 查准率为0.317,F1值为0.336;当同时使用颜色特征值和纹理特征值数值化关键词时,查全率为0.494, 查准率为0.467,F1值为 0.479。实验结果显示,结合颜色特征值和纹理特征值更能够有效的自动标注图像。

当计算区域的特征值与关键词的距离时,如果区域的特征值与关键词的距离小于一定的阈值,就用这个关键词标注图像。实验结果与阈值的选择的关系如图2所示。

图2实验结果与阈值的选择的关系

Fig.2 Relationship between the experimental results and the choice of threshold

在图2中,可以看出,选择的阈值越小,查准率的值越大,查全率的值越小。当阈值选择为0.4时,图像自动标注的实验效果最好,查全率为0.468, 查准率为0.556,F1值为 0.507。

图3为本文所提出方法的部分实验结果。

图3部分图像标注结果

Fig.3 The annotation results of part images

在图3中,设置一个阈值完成标注任务,图3(a)第一幅图像只有两个关键词海洋、沙滩符合条件,所以只有两个标注词;图3(b)和图3(c)都有三个标注词符合条件;而图3(d)图中,由于道路的特征值跟沙滩相近,所以错误地将图中的道路标注为沙滩。

4结束语

在这篇论文中,提出了一种基于区域匹配的图像标注方法。首选,通过N-Cut方法把图像分割成若干个同质区域,然后用k-means方法对分割后的区域进行聚类。在每一类中,选择具有代表性的若干区域,对其进行人工标注关键词。最后用所选择区域的颜色特征和纹理特征的平均值数值化关键词。对于测试图片,计算分割后区域的颜色特征和纹理特征的值。如果区域的特征值与关键词的距离小于一定的阈值,就用这个关键词标注图像。实验结果显示,该方法能够有效地对图像实现自动标注。

参考文献:

[1] Gantz J F, Reinsel D, Chute C, et al. An IDC White Paper: The expanding digital universe Technical reportCA Forecast of Worldwide Information Growth Through 2010 International Data Corporation (IDC)[R]. Massachusetts:IDC ,2007.

[2] Bing L. Web data mining: Exploring hyperlinks, contents, and usage data[M]. Berlin, Heidelberg:Springer-Verlag, 2007.

[3] TMURA H, YOKOYA N. Image systems: A survey[J]. Pattern Recognition,1984,17(1):29-43.

[4] KATO T. Database architecture for content-based image retrieval[C] //Proc. Of SPIE Int. Conf.

on Image Storage and Retrieval System, San Jose: SPIE, May.1992:112-123.

[5] KO B C, BYUN H. Frip: a region-based image retrieval tool using automatic image segmentation and stepwise Boolean and matching[J].IEEE Trans. On multimedia, 2005,7:105-113.

[6] LIU Y, ZHANG D, LU G. Region-based image retrieval with high-level semantics using decision treelearning [J]. Pattern Recognition, 2008,41(8):2554-2570.

[7] CHEN Y, WANG J Z. A region-based fuzzy feature matching approach to content-based image

retrieval [J].IEEE Trans. On Pattern Analysis and Machine Intellience. 2002,24(9):1252-1267.

[8] ZHANG R, ZHANG Z. Hidden semantic concept discovery in region based image retrieval [C]// Proc. of IEEE Computer Society Conference. On Computer Vision and Pattern Recognition,

Washington: IEEE,Jun.2004,2:996-1001.

[9] RITENDRA D, DHIRAJ J, JIA L, AND James Z W. Image Retrieval: Ideas, Influences, and Trends of the New Age [J]. ACM Computing Surveys, 2008, 40(2):1-60.

[10] JEON J, MANAMATHA R. Automatic image annotation of news images with large vocabularies andlow quality training data[C]// ACM Multimedia, New York:ACM, Oct.2004.

[11] MONAY F, GATICA-PEREZ D. On image auto-annotation with latent space models[C]// Proceedings of the eleventh ACM international conference on Multimedia, New York:ACM 2003:275-278.

[12] LAVRENKO V, MANMATHA R, JEON J. A model for learning the semantics of pictures[C]//SEBASTIAN T, LAWRENCE K S, BERNHARD S, eds. Proc. of the Neural Information Processing Systems, Vancouver:MIT Press, 2004:553-560.

[13] FENG S L, MANMATHA R, LAVRENKO V. Multiple Bernoulli relevance models for image and video annotation[C]//Proc. of the IEEE Conf. Computer Vision and Pattern Recognition, Washington:IEEE,2004:1002-1009.

[14] YINING D, MANJUNATH B S, SHIN H. Color image segmentation[C]// Proceedings of IEEE Computer Society Conference on Computer Vision and Pattern Recognition, New York: IEEE, 1999:446-451.

[15] JIANBO S, JITENDRA M. Normalized cuts and image segmentation[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2000, 22(8):888-905.

[16] XIN Z, XIANBIN W , QINGXIA M. Research of image retrieval method based on color feature[J].Computer Science, 2012, 39 (11):243-260.

[17] JUAN W, BING K, QIAOLI J. Color-based image retrieval[J]. Computer System and Applications,2011,20(7):160-164.

[18] MIKOLAJCZYK K, CORDELIA S. A performance evaluation of local descriptors[J]. IEEE Transactionson Pattern Analysis and Machine Intelligence, 2005, 27(10): 1615-1630.

[19] KE Y, SUKTHANKAR R. PCA-SIFT: A more distinctive representation for local image descriptors[C]//Proceedings of IEEE Conference on Computer Vision and Pattern Recognition, Washington:IEEE, 2004:506-513.

上一篇:我国战略性新兴产业发展面临的主要问题 下一篇:基于动态遗传算法的云计算任务节能调度策略研...