BP神经网络在图像语义自动标注的应用

时间:2022-10-02 11:42:59

BP神经网络在图像语义自动标注的应用

摘要:由于传统的基于内容图像检索存在的“语义鸿沟”问题,其在某些特定的领域无法满足用户的需求。图像语义自动标注的出现能够有效地解决这方面的问题。该文提出了先使用Normalized Cuts方法对图像进行区域分割并提取出每个区域的低层视觉特征,再利用BP神经网络算法来学习图像区域和标注字的对应关系来进行图像语义的自动标注的方法,实验结果证明了此方法的有效性和准确性。

关键词:图像标注;BP神经网络;Normalized Cuts;图像低层特征

中图分类号:TP391文献标识码:A文章编号:1009-3044(2011)14-3399-02

Image Semantic Annotation Based on BP Neural Network Algorithm

WU Yu-hua

(Department of information Technology, Hengyang Technician College, Hengyang 421008, China)

Abstract: Because of the "Semantic gab" problem in the traditional CBIR(content-based image retrieval ) systems, they are not fit in some special areas. The appearance of Image-Semantic-Annotation can effectively resolve this problem. This paper represents a method that first uses the Normalized Cuts to cut the image into several areas and then extract the low-level features, last use BP neural network algorithm to learn the relations between the areas and the annotation words. The experiment's results proved this method is valid and efficient.

Key words: image annotation; BP neural network; normalized cuts; low-level feature

基于内容的图像检索近10年来得到了研究者的关注,一系列的基于内容的图像检索方法和检索系统被提出来。然而由于计算机对图像信息的理解和人对图像信息的理解存在着客观区别, 检索系统中就难免存在计算机认为的“视觉相似”和人们所理解的“语义相似”之间的“语义鸿沟( Semantic gap )”。如何解决“语义鸿沟”问题是目前CBIR系统亟待解决的技术难题。图像标注这个直观的想法能有效地弥补语义的缺失,它可以利用已标注的图像集自动学习语义概念空间与视觉特征空间的关系模型,并用此模型标注未知语义的图像,即它试图在高层语义特征和底层视觉特征之间建立一座桥梁。因此,它可以一定程度解决大多基于内容图像检索方法存在的语义鸿沟问题。如果能实现自动图像标注,那么现有的图像检索问题实际上就可以转化成技术已经相当成熟的文本检索问题。它的潜在应用领域包括生物医学、商业、军事、教育、数字图书馆和互联网检索等。

1 相关研究工作

图像自动标注技术可以利用已标注的图像集自动学习语义概念空间与视觉特征空间的关系模型,并用此模型标注未知语义的图像,即它试图在高层语义特征和底层视觉特征之间建立一座桥梁。近年来图像自动标注技术正成为国际上图像检索领域的一个研究热点。许多机器学习方法由于能很好地获取图像特征和文本描述之间的对应关系,因而被引入这一领域,并且已经出了一些成果,例如同现模型(Co-occurrence Model)[1],基于机器翻译的对象识别模型[2],跨媒体相关模型(Cross-Media Relevance, CMR)[3]等等。

本文中我们提出了先使用Normalized Cuts[4]方法对图像进行分割并提取出每个区域的低层特征,再利用BP神经网络算法来学习图像区域特征和标注字的对应关系模型并用此模型来对未知语义图像进行自动标注的方法,实验证明该方法能够取得很好的效果。

2 Normalized Cuts及图像区域特征选择

因为Normalized Cuts在图像分割这块有强的优势,所以本文中我们选择其作为图像的分割方法。先对图像进行Normalized Cuts区域分割,然后提取图像的各个区域特征,在这里我们采用的图像低层视觉特征是颜色、纹理特征的结合。

2.1 Normalized Cuts区域分割

我们使用Timothee Cour等人开发的Multiscale Normalized Cuts Segmentation Toolbox对每个图像(160*160)进行区域分割(nsegs = 8),分割的效果如图1所示。

2.2 低层特征提取

由于图像的颜色分布信息主要集中在低阶矩中,因此我们采用颜色的一阶矩、二阶矩和三阶矩来表示图像的颜色分布。一阶中心矩、二阶中心矩和三阶中心矩分别表示图像或子区域图像的平均颜色、标准方差和三次根非对称性,公式分别为以下式1、2和3:

(1)

(2)

(3)

对于每幅图像每一个分割区域我们可以得到3个颜色分布特征。

我们采用的纹理特征是Gabor纹理特征(Gabor滤波变换后求取图像区域的均值和方差)。Gabor滤波后的部份图像效果图如图2所示。

我们对每幅图像从4个尺度(0,1,2,3)和8个角度(0℃,45℃,90℃,135℃,180℃,225℃,270℃,315℃)组合进行滤波后再提取每个区域的均值和方差作为纹理特征,这样每个区域就可得到32个纹理特征。

通过上面的低层特征提取,每幅图像的每个区域我们可以得到共有35个低层特征,即颜色特征3个,纹理特征32个。

3 BP(Back Propagation)神经网络

3.1 BP神经网络典型结构

图3为BP网络结构图。

3.2 BP学习算法[5]

BP(Back Propagation)算法为误差反向传播算法,主要分为两个阶段:一个前向传播阶段(计算误差),另一个误差反向传播阶段(修改权值)。

BP具体算法:

①创建nin个输入单元,nhidden个隐藏单元,nout个输出单元的网络;

② 初始化所有的网络权值为小的随机值(-0.05~0.05);

③ 在遇到终止条件前(达到迭代次数或者训练精度),对于每个训练样例做以下计算:

1)输入沿网络前向传播:把实例输入网络,并计算网络中每个单元u的输出ou。

2)误差沿网络反向传播:

对于网络的每个输出单元k,计算它的误差项dk, ;

对于网络的每个隐藏单元h,计算它的误差项δh: 。

3)更新每个网络权值wji,

3.3 图像标注基本原理

图像标注基本原理如图4所示,主要分为两个阶段:模型训练阶段和标注阶段,我们采用BP神经网络模型来学习图像区域特征和标注字之间的对应关系。

训练阶段主要是对已标注的图像集进行处理,包括:1、图像的区域分割,2、区域特征的提取,3、区域对应的标注字的提取(也即对应的标记,例如在程序中,我们使用1代表森林,2代表草地,3代表动物,4代表天空等),4、BP神经网络模型训练几个步骤,训练后得到的权值,我们保存在weight.txt文件中。

标注阶段是对待标注的图像集进行处理,包括:1、图像的区域分割,2、区域特征的提取,3、从weight.txt文件中读取各层的权值到BP模型中,使用训练好的BP模型来对待标注的图像进行标注。

4 实验结果

我们使用的实验数据为微软亚洲研究院视觉计算组的图像集。我们从中挑选了300幅包含动物、草地、森林和天空等对象的图像作为训练集,先使用NormalizedCuts方法进行区域分割,得到8个区域并抽取其36维特征向量,在程序中我们采用三层BP模型,36个输入单元(对应36个低层特征),15个隐藏单元和4个输出单元(对应4个对象,动物、草地、森林和天空),学习因子为0.3,训练后得到权值保存在weight.txt文件中。另外我们选取了50幅图像作为测试集,在PIV 2.0G 256M 硬件环境和XP系统,vs2005 + OpenCV_1.0的软件环境下进行实验,使用本文提出的方法来进行图像语义的标注,准确率达到78.23%,初期实验结果样例如图5所示。

5 结束语

使用BP神经网络算法能够很好学习区域特征和标注字的对应关系,因此图像的区域分割和低层视觉特征选择很重要,搞好了就能很好地进行图像语义自动标注,对稍微简单点的图像标注准确率比较高,对复杂图像的标注准确率下降很多,也就是BP神经网络存在无法学习图像的上下文信息的缺点。因此如果能够融合图像的上下文信息的话,标注的效果会更好。而CRF(条件概率随机场)[6]在融合上下文信息这方面功能很强大,因此,未来的工作重点主是结合BP和CRF对图像进行语义的自动标注。

参考文献:

[1] Mori Y, Takahashi H, Oka R.Image-to-word transformation based on dividing and vector quantizing images with words[J].In Proc. of MISRM,1999.

[2] Duygulu P, Barnard K, de Freitas J F G, et al, Object Recognition as Machine Translation: Learning a Lexicon for a Fixed Image Vocabulary[J].Proceedings of the 7th European Conference on Computer Vision-Part IV,2002:97-112.

[3] Jeon J, Lavrenko V , Manmatha R. Automatic image annotation and retrieval using cross - media relevance models[C].New York: ACM Press, 2003:119 - 126.

[4] Shi J, Malik J.Normalized cuts and image segmentation[J].In Proc. IEEE Conf. Computer Vision and Pattern Recognition,731-737,1997.

[5] Tom M. Mitchell.机器学习[M].曾华军,张银奎,译.北京:机械工业出版社,2003:60-92.

[6] Lafferty J, McCallum A, Pereira F. Conditional random fields: Probabilistic models for segmenting and labeling sequence data[J].In Proc.Int. Conf. on Machine Learning,2001.

上一篇:浅析如何搞好计算机教学的策略 下一篇:基于局域网的标牌绘图系统的应用