一种异质特征融合分类算法

时间:2022-10-05 10:45:51

一种异质特征融合分类算法

摘 要:计算机视觉技术在农业上的应用研究,起始于20世纪70年代末期,主要应用于植物种类的鉴别、农产品品质检测与分级等。为了利用不同特征提供的分类鉴别信息,本文提出一种异质特征融合分类算法,此算法通过图像之间不同特征的相似度建立一个logistic核回归模型,建立有效的图像分类器。并且采用多元logistic损失函数对该算法进行了多类扩展。最后,在复杂公共的运动事件数据库上验证算法性能优越性。

【关键词】异质特征融合 logistic损失函数 groupLASSO正则项 分类模型

1 引言

计算机视觉技术在农业上的应用研究,起始于20世纪70年代末期,主要应用于植物种类鉴别、农产品品质检测与分级等。随着鉴别对象的多样性,其识别复杂度提高,我们需要更加鲁棒的分类技术作为支撑。

近年来,计算机视觉领域的研究者设计出越来越多的特征描述子来更好地表达图像。如颜色相关图特征(Correlograms), 颜色矩特征(colormoment),颜色直方图特征(colorhistogram),形状上下文特征(shape context), 梯度方向直方图特征(oriental gradient histogram), 纹理特征(garborwavelet), 仿大脑皮层生物特征(MR-SAR),sift特征,gist特征,词袋特征(Bow)等。不同特征从不同角度表达图像信息,现代特征描述子对图像的表达能力越来越强。但是,无论单特征表达能力有多强,如果只用单一特征对多样化比较突出的较大规模数据库进行描述,其分类的效果非常有限且信息表达片面。因此,许多研究者开始把目光转向用多特征描述图像,并基于多种特征对目标进行分类识别。文献通过SVM预筛选来选择有效特征表达,但预筛选的代价高。文献则通过控制不同特征参数融合特征。这种做法虽然实现了特征融合,但由于默认同一特征对所有样本的重要性是一样的,所以难以表达特征与样本之间的非线性关系。另外,两类问题的分类算法通常采用各种多类化策略来实现多类识别,在此情况下各个类模型是独立进行学习的,各类模型在整个类空间中的关联性考虑不充分,因此多类识别精度较低。

本文提出一个异质特征融合分类算法,通过图像样本间的相似度建立一个logistic核回归模型,并用经验损失函数最小原则进行参数寻优。为防止求优过程中出现过拟合现象,我们在经验损失函数的基础上增加group LASSO 正则化项,这样对模型进行稀疏处理,从而降低模型复杂度。通过清零噪声样本前的系数达到去除噪声样本的效果。另外,利用多元logistic损失函数,将本算法进行了多类化扩展。最后,算法在公共运动事件库上进行了实验验证。

2 异质特征融合算法

2.1 原理

假设样本集记为 ,每个样本标签为 。每个样本由 个特征矢量表达,因此可记为,例如,可能是gist 特征或者是基于sift的词袋特征表达。对于第种特征,两个样本间的相似度为,这样,异质特征模型定义如下:

是未知的需要学习的参数,代表着第 个样本第 种特征的参数。这个模型通过调整每个样本的每种特征的权值,衡量不同样本不同特征对模型的贡献,灵活有效地融合了多种特征。因为模型可以融合多种异质特征,所以称为异质特征融合模型(heterogeneous feature fusion model,HFM)。

数据集中由于样本的多样性,即使真实标签一样,但由于成像时光照条件,拍摄远近等差异或者由于样本本身形状的多样性,拍摄时被遮挡等条件决定,样本差异性较大。所以不同特征对不同样本识别过程中的重要性是不同的。例如,从一个远镜头拍摄的“打网球”这个运动事件,红色网球场占据了图像面积的大部分,并提供了最具鉴别性的信息,所以这个时候颜色特征最重要。如果从近距离拍摄的同样表达“打网球”这个运动事件,运动员击球动作时的身体姿态最能提供鉴别信息,所以这时形状特征的贡献大一点。见图1。对于这种同样标签不同样本的多样性的实际问题,本文模型能灵活调整不同样本不同特征的权值。除此之外,这个模型优化过程中利用groupLASSO正则化的经验损失函数作为优化目标函数,达到稀疏化噪声样本的目的。例如图1中表达“打网球”事件的图像中,网球明星Sharapova亲吻胜利的奖杯时,并没有提供任何打网球的信息,所以其样本的特征盒子为空,代表所有特征的权重应该被清零,即对“打网球”类事件建模的贡献为0,这种做法符合实际情况,因此建立的类模型更好地表达了类特性。

是经验损失函数, 是正则项。这里为了出现组稀疏,调整项应用了group LASSO[19]的正则项因子。group LASSO表示组内二阶范式调整,组外一阶范式调整,因为一阶范式更容易出现稀疏,所以group LASSO可以出现组间稀疏结构。

(10)

2.2 基于多元logistic函数的算法多类扩展

与典型SVM的一对多(WTA)的多类化策略不同,我们的多类化策略通过求解一个多目标的优化问题,可以一次性考虑所有样本和所有类别,一次性得到超平面。避免分不了类的情况,并且把所有类的模型一起训练,充分考虑各类在类空间中的关联关系,模型分类效果更佳。

假设样本集中有类样本,我们将建立个模型:

3 性能评估

为了证明多类模型更能应对数据的多样,我们沿用文献的实验模式,采用两个运动数据库:Princeton sports event和jain’sFricker sports event。Princeton sports event的图片从网上收集,并由Lotus Hill Research 机构标注。数据库的部分图片如图3示,数据库上总共有8种运动:滚球,槌球戏,马球,划船,滑雪,羽毛球,风帆,攀岩。每一类的样本数目为137~250。每幅图一般都有多个运动员,而且运动员的姿势以及在图片中所占的比例都各不相同。我们的分类原则与文献相同,对于每一类,随机抽取70幅图像作为训练,其余的60幅图像作为测试。

Jain’s Fricker sports event数据库是由Jain等人收集,数据库的部分图片如图3所示。这2449幅图像大多数多是由业余摄影师所拍,大部分从远距离拍摄。不同于Princeton sports event,这个数据库收集了更多的美国式力量

型运动时间:棒球,篮球,橄榄球,足球,网球。与文献的分类规则一样,我们随机选出50%的图像为训练,剩余的50%为测试。为后续实验部分描述方便起见,分别将Princeton sports event和jain’sFricker sports event 运动事件数据库记为数据库1和数据库2。

3.1 实验一多类化策略对比

为了证明异质特征融合的有效性,我们采用了五种特征:Gist, Histogram of Oriental Gradients,即梯度直方图(HOG), 颜色纹理矩(color texture moment,CTM), LBP特征(local binary pattern)和基于sift的词袋特征(SIFT-SPM)。前四种特征表达图像不同的鉴别信息:全局梯度变化方向统计信息,颜色信息,纹理信息和形状信息。在提取特征的时候,首先把图像分成区域,每一个区域用一个特征向量描述。然后所有向量级联成一个长的特征向量。最后用高斯核计算每种特征的相似度。基于Sift的词袋特征用空间金字塔匹配度量样本间相似度。我们的方法和文献的一对多(WTA)的多类化策略进行实验结果比较。

从表格1 和表格2中可以看到采用多元logistic函数进行多类扩展(LE)的方法比文献一对多的多类化策略获得更好的分类效果,其中某些特征,例如,数据库1上的LBP,SIFT_SPM 和数据库2 上的Gist,HOG, CTM,SIFT_SPM,融合所有特征的 HFM的多类化扩展比一对多策略高出10个点以上,证明多元logistic函数多类化扩展的有效性。

3.2 实验二的取值对稀疏程度的影响

我们讨论到优化问题中的过拟合现象,而在异质特征融合模型优化时加入groupLASSO调整项,将一个样本所有特征的权重定义为一组,用LASSO范式实现组参数清零,达到稀疏模型并防止过拟合现象。通过对值的调整,可以控制调整项的重要性。如表3所示,当越大时,调整项越重要,数据就越容易稀疏,运算量也小。当取值过大时,那么有可能不是噪声样本的图像也被稀疏。而当减少时,慢慢趋近于无调整项。所以可能出现过拟合现象,且迭代次数增多,训练时间变长,识别率却相应降低。所以选择合适对分类系统的性能是至关重要的。

4 总结

本文阐述了异质特征融合模型及其优化算法。该模型不同于经典多核模型,可以灵活地表达特征与样本之间的非线性关系。该模型建立在多元logistic回归的损失函数上,并联合goupLASSO的正则化项进行优化求解。通过坐标梯度下降法去寻求参数。实验证明多元logistic损失函数比多类化策略能获得更好的分类效果。

参考文献

[1] J.Huang,S.R.Kumar,M.Mitra,W.J.Zhu,R.Zabih.Image Indexing Using Color Correlograms.IEEE Int.Conf.on Computer Vision and Pattern Recognition,1997:762-768.

[2] M.Stricker M.Orengo. Similarity of color images. SPIE on Storage and Retrieval for Image and Video Databases, 24,20:381-392.

[3] M.J.Swain,S.H.Ballard.Color Indexing.Int.Journal of Computer Vision,7,1.1991:11-32.

[4] S.Belongie,J.Malik,and J.Puzicha.Shape context:A new descriptor for shape matching and object recognition.Advances in Neural Information Processing Systems,2000.

[5] N.Dalal and B.Triggs.Histograms of oriented gradients for human detection.IEEE Conference on Computer Vision and Pattern Recognition.2005:886-893,

[6] B.S.Manjunath,W.Y.Ma,Texture Features for Browsing and Retrieval of Image Data, IEEE Trans on PAMI,18,8,1996:837-842.

[7] J.Mao,A.K.Jain,Texture Classification and Segmentation Using Multiresolution Simultaneous Autoregressive Models,Pattern Recognition,25,No.2,1992:173-188.

[8] David G.Lowe.Distinctive image features from scale-invariant keypoints.International Journal of Computer Vision, Volume 60 Issue 2,2004:91-110.

[9] Oliva and A.Torralba.Modeling the shape of the scene:a holistic representation of the spatial envelope.IJCV,42(3),2001:145-175.

[10] Thomas Serre,Lior Wolf, TomasoPoggio.object recognition with features inspired by visual cortex. CVPR,2005:994-1000.

[11] R Kachouri,K Djemal.Multi-model classification method in heterogeneous image databases-Pattern Pattern RecognitionVolume 43,Issue 12, 2010:4077-4088.

[12] G.Lanckriet,N.Cristianini, P.Bartlett,L.El Ghaoui,and M.Jordan.Learning the kernel matrix with semidenite programming.The Journal of Machine Learning Research, 2004:27-72.

[13] F.Bach,G.R.G.Lanckriet,and M.I.Jordan.Multiple kernel learning,conic duality,and the smoalgorithm.International Conference on MachineLearning, 2004.

[14] S.Sonnenburg,G.R¨ atsch, C.Sch¨ afer,and B.Sch¨ olkopf.Large scale multiple kernel learning.The Journal ofMachine Learning Research, 2006:1531-1565.

[15] A.Rakotomamonjy,F.Bach,S. Canu,and Y.Grandvalet. Sim-pleMKL.Journal of Machine Learning Research, 9,2008:2491-2521.

[16] M.Varma and D.Ray.Learning the discrimi-native power-invariance trade-off.IEEE Internati-onal Conference on Computer Vision,2007.

[17] Platt,J.,Cristanini,N., Shawe-Taylor,J.: Large margin DAGs for multiclass classi-cation.Advances in Neural Information Processing Systems 12.MIT Press,2000:543-557.

[18] Cao,L.and Luo,J.and Liang,F. and Huang,T.S.Heterogeneous feature machines for visual puter Vision, 2009 IEEE 12th International Conference on.2009:1095-1102.

[19] M. Yuan and Y.Lin.Model selection and estimation in regression with grouped variables.Journal of the Royal Statistical Society Series B,68(1),2006:49-67.

[20] P.Tseng and S.Yun.A coordinate gradient descent method for nonsmooth separable minimization.Mathematical Programming B,2009:117(1-2).

[21] L.-J.Li and L.Fei-Fei.What,where and who? classifying event by scene and object recognition.IEEE International Conference on Computer Vision,2007.

[22] V.Jain,A.Singhal,and J.Luo.Selective hidden random fields:Exploiting domain specific saliency for event classification.IEEE Conference on Computer Vision and Pattern Recognition,2008.

作者单位

广东省广州市华南农业大学工程学院 510642

上一篇:第一次给宝宝添加辅食实战指导 下一篇:孕期吃出聪明宝宝