基于几何流形熵的图片分类方法研究

时间:2022-09-01 04:21:23

基于几何流形熵的图片分类方法研究

摘要: 本文提出了一种新颖的基于几何语义的熵描述符算法。借助熵描述符,可以更好的构造用于图片分类的熵环。通过最小化熵值获得最优环,此时图片将按语义顺序连接。图片分类过程分为训练和预测,训练步骤搜索各类别的最优环,在预测步骤中,如果某图片插入某个环中,相对于其他类别环产生最小的熵增量,则该图片属于该环所属的分类。通过研究发现,该方法对于很难分类的容易混淆的图片集仍能产生非常好的效果,但是各类图片须是同一个对象的多视角投影。实验结果表明,该熵描述符方法在该类图片分类过程中具有很优异的性能。

关键词: 图片分类;几何流形熵;最优环;禁忌搜索

中图分类号O1 文献标识码A 文章编号 1674-6708(2011)53-0089-01

0引言

图片分类即基于图片内容对图片进行分类。过去的很多论文都是基于支持向量机(SVM)构建分类器[1],并取得了一定的成果。但是,要获得很高的图片分类正确率以及稳定性仍具有相当大的挑战。这部分是因为语义相关的图片可能并不是一个线性超平面的特征空间。本文着重探讨这个问题,并提出了一个新颖的基于熵描述符的图片分类算法。

文中提出的熵用来描述表示几何特征的流形特征。通过最小化熵值,将图片数据组织为一个语义连续的环。优化的环实际上为训练图像建立了一个数学模型,而这些模型可用来决定测试图像的分类标签。该分类策略为:首先搜索该测试图像在每个环中最优或算法所能达到的最优位置。对于每个环,测试图像会插入使熵增加最小的位置,再通过比较所有环的熵增量,测试图片会添加到熵值增加最小的环所代表的分组即分类中。在本文的研究中,采用禁忌搜索方法[2]求解该优化问题。

1熵描述符

图片的语义表示是图片分类方法成功的关键。本文的研究中,我们应用几何流形熵(GEOMEN) 描述特征空间中得图片的语义相似性。

具体而言,给定一个图片特征向量的集合。我们首先定义一个长度为n的闭合且无自相交的环。每个在该环中得向量都与邻居相连,其对应的连接顺序O可以描述为:,其中每一项对应向量的索引。这样集合X的在顺序O下的GEOMEN值为环上各点熵值的平均值。即:

(1)

且各s(X,O,i)为两分量加权和:空间分量p(X,O,i)和几何分量g(X,O,i)如下:

(2)

上式a是用来修正空间分量对GEOMEN的贡献大小。GEOMEN表征按照顺序O连接的环的平滑程度。另外,它也是在数据近似性的量度。因为图片排序可以被看做提取一维流行的问题,但实际情况下这是一条曲线,因此我们仅仅考虑在一维曲线上GEOMEN的表示。

GEOMEN的空间分量用欧拉距离量度,其中,与为环O中得相邻项。几何分量由两部分组成:曲线曲率k和正则项。即:

(3)

引入正则项可以修正噪声对曲率的影响。

2图片分类的算法框架

因为如果两个类别有一个明显的区别,那么在边界点处熵值便会极大的增加。这个启发我们对一个点的错误分类将会导致该类最优环熵值的急剧增加。反之,如果一个点正确分组进入一个类,该类的最优环的熵值将只会增加一点点。这正是本文基于熵描述符的图片分类算法基本框架的基本思想。因此每个类首先都需要通过训练获得一个最优环即该类别的模型。这样对于待预测图片,通过比较其插入每个最优环的熵增即可获得该图片的分类标签。

这样,为了找到最优环,我们需要最小化GEOMEN值,亦即:。在该研究中,我们估计通过简单的禁忌搜索算法获得熵的全局最小值。关于禁忌搜索算法可以参看文献[2]。

每个类的最优环实际上训练图片的提取模型。该模型可用于获取测试未知图片的类别标签。分类的策略为在所有环中找到图片Q的最优位置。测试图片的类别即位最优位置所在环的类别。

3实验

本实验采用PHOG[3]作为特征描述符。实验针对对三个数据集进行了测试:UMIST 人脸数据集,以及自制的背景杂乱的汽车数据集,飞机模型数据集。飞机模型数据集通过使用3DMAX软件对各种飞机模型进行旋转,并选取角度渲染投影成二维照片获得。同时,我们基于SVM的分类器与之相比较。

4结论

由表1可知,我们的算法框架具有更好的性能,更高的正确率以及可靠性。

人脸数据集表明我们的算法框架中在人脸分析中具有很好的分类性能。同时,汽车数据集尽管背景杂乱,但仍具有较高正确率,更比SVM高出22.50%,表明该框架对背景的高稳定性。同时,对机模型优异表现,表明该算法框架对于基于图片的模型检索的重大应用潜力。总之,该算法无论对于多视角图片集中,不管背景杂乱与否,总能表现出优秀的分类正确率和健壮性。

表1 实验结果对照表

参考文献

[1]X.Li,L.Wang and E.Sung"Multilabel SVM active learning for image classification",Proc.ICIP,p.2207,2004.

[2]C.Zhang,H.Li,Q.Guo,J.Jia,and I.-F.Shen.Fast active tabusearch and its application to image retrieval. In IJCAI’09,pages 1333-1338,2009

[3]A.Bosch,A.Zisserman,and X.Munoz.Representing shape with a spatial pyramid kernel.CIVR,2007.

上一篇:立式圆筒形焊接油罐底板焊接变形分析 下一篇:对非最小相位环节的一个误解