基于ICA―HMAX的视觉与语义相似性计算模型

时间:2022-06-19 07:43:00

基于ICA―HMAX的视觉与语义相似性计算模型

摘要:该文首先简单介绍多层次卷积ICA-HMAX模型;然后提出卷积核的可视化方法实现对不同层次卷积核的理解。提出采用ICA-HMAX模型的S3层特征实现不同类别的视觉的相似度计算。通过在Caltech101数据集上实现对不同的类别之间的视觉相似度计算,并与类别之间的语义相似度进行对比分析进而探讨语义相似与视觉相似之间的关系。

关键词:ICA-HMAX模型;视觉相似度;卷积核;语义相似度

中图分类号:TP317 文献标识码:A 文章编号:1009-3044(2016)08-0177-05

Abstract: This paper firstly introduces a multi-level convolutional ICA-HMAX model; then propose visualization methods of the convolution kernel convolution kernel to achieve different levels of understanding. Proposed using S3 layer feature of the ICA-HMAX model to achieve visual similarity calculation of different categories. By implementing different categories of visual similarity between calculated on Caltech 101 datasets, and compared with the semantic similarity between categories and further explore the relationship between semantic similarity and visual similarity between.

Key words: ICA-HMAX model ;visual similarity; kernel convolution kernel; semantic similarity

1 概述

21世纪以来,数字成像技术和存储技术得到了空前的发展;使得每天有数量巨大的数字图像进入人们的生活,成为人类生活、工作、娱乐中的组成部分。另一方面,互联网技术的发展给图像的迅速传播提供了有利的条件。此外,图像是视觉信息的重要来源之一,蕴含丰富的语义信息。图像理解是人工智能领域中的一个新的方向,其核心问题是研究如何使计算机能够像人脑一样有效正确理解图像中所表达的高层语义信息。

仿生多层模型在计算机视觉和人工智能邻域取得了显著的成果。20世纪末,Poggio和Riesenhuber根据IT皮层的生理学数据提出了标准HMAX模型[1],该模型模拟视皮层中腹侧通路中简单细胞(Simple Cell)和复杂细胞(Complex Cell)的交替处理的功能,实现多层次特征提取。在此基础上,Serre等人提出一种具有随着层次的增加复杂度和不变性逐渐增强的图像特征表达[2],并将其应用到真实场景的目标识别中,其识别性能明显优于传统的特征表达(如SIFT特征[3]);Hu等人根据大脑神经元响应的稀疏特性进一步扩展HMAX模型,提出了Sparse-HMAX模型[4],在分类性能上远远优于HMAX模型,同时较好模拟和解释神经元对视觉信号的稀疏响应。

本文内容章节安排如下:第2节首先简要描述了本文的ICA-HMAX模型;然后介绍卷积核的可视化方法;第3节介绍基于WordNet的语义相似度计算和基于ICA-HMAX的视觉相似度计算方法。第4节实验结果和分析。第5节总结与展望。

2 ICA-HMAX模型与卷积核可视化

2.1 ICA-HMAX模型简介

前馈ICA-HMAX模型由五层构成如图1所示。自底向上依次为S1C1S2C2S3五层,其中S1层卷积核(W1、V1)由独立成分析(Independent Component Analysis,ICA)方法从彩色图像的数据块中学习获得,为了使得C1层具有局部空间平移不变性,在S1层的每个二维平面响应图上进行局部最大值汇聚(max pooling)操作;同理,S2层卷积核(W2、V2)也是采用ICA方法从C1层采样块中学习获得;同样,为了使得C2层也具有局部空间平移不变性,在S2层的每个二维平面响应图上进行最大值汇聚(max pooling)操作;同理可以获得S3层的卷积核(W3、V3)以及S3层的特征表达。值得注意的是该前馈模型的卷积核均为单尺度。

2.2 卷积核的可视化

若要实现对多层模型ICA-HMAX的深入的了解,需要知道不同层次的卷积核编码的图像信息。由于S1层特征卷积核是在彩色图像的原始像素层上学习,可以在像素空间上直接观察S1层卷积核编码的图像信息。而S2、S3层的卷积核是在图像C1、C2层的响应图上经过ICA学习获得高维数据,因此不能直接观察其卷积核编码的图像信息。为了观察S2、S3层的卷积核所编码的图像信息,当给定一个某个类别的卷积核的条件下,本文提出在该类别的图像上找出使得该卷积核的刺激最大的前50个感受野区域,并将这些区域与其刺激的响应值进行加权求和,然后取平均;所得结果具有表示S2、S3层卷积核所编码的图像信息从而作为S2、S3层的卷积核可视化。

3 相似度计算

3.1 基于WordNet的语义相似度计算

WordNet是由普林斯顿大学心理学家,语言学家和计算机工程师联合设计的一种基于认知语言学的英语词典。它不是光把单词以字母顺序排列,而且按照单词的意义组成一个“单词的网络”。一般来讲,国内外的研究学者将经典的基于语义的相似度的计算方法分为三个类型[6,7]:基于距离的相似度计算(Path Counting Measures)、基于信息内容的相似度计算(Information Content Measures)和基于特性的相似度计算(Feature-based Measures)。本文主要介绍基于距离的相似度计算方法――Shortest Path算法和Leacock and Chodorow算法。

3.2 基于视觉的类别相似度

众所周知,不同类别之间存在部分外观相似性,比如山猫和豹、狼和哈士奇、浣熊和果子狸等等。可见,分别在两个类别的训练集上训练ICA-HMAX模型,若两个类别视觉相似度越高,则这两个类别的S3层卷积核相似的基元个数越多;反之,两类别的S3层卷积核中的相似的基元个数越多,两个类别的视觉相似度越高。

我们知道两个类别的相似度越高,则两个类别的ICA-HMAX模型越能较好地实现对异类图像的相互表达。因此采用配对字典的方法[10]实现对S3特征表达的重构。然后,将重构图像与输入图的结构相似度[11](SSIM)作为衡量S3层特征对输入图像描述的好坏。若重构图像与输入图的结构相似度越高,则两个类别的视觉语义相似度越高,反之亦然。基于目标类别的视觉语义相似度算法流程如表1所示:

4 实验结果与分析

实验设置:实验所使用的PC机配置为Intel(R) Core(TM) i7-4770、CPU 3.4GHz × 8 cores、RAM 16 GB、Windows 7操作系统。为了探索不同类别之间的语义相似度和基于ICA-HMAX模型S3层的特征描述子的视觉语义相似度之间的关系,本文选择了Caltech 101数据集[12]进行实验,该数据集以彩色自然场景图像为主(包含一定数量的人造图像)。包括动物、花、人脸等101个目标类别以及一个背景类别。除背景类别之外,每个类别中的每张图片只包括一个类别中的一个实例,这有利于本实验进行。在进行实验之前,首先对数据集中每张图像做如下预测处理:统一图像高度为140个像素,保持图像的长宽比不变,采用双三次插值对其进行缩放。将每个类别中的图片按照4:1的比例分成训练集和测试集,在训练上训练各个类别的ICA-HMAX模型,采用3.2节介绍的视觉语义相似度方法在测试集上测试不同类别之间的视觉相似度。

4.1卷积核的可视化

图3(b)、(c)、(d)分别给出了S1、S2和S3层卷积核的可视化结果。结果表明,不同层次的卷积核编码了图像不同类型的特征。图3(b)中的S1层卷积核均编码了图像底层特征(如彩色边缘、彩色表面、拐角等结构信息等),并且不同类别的底层特征具有相似的结构特征;值得注意的是,通过ICA在彩色图像上的学习,获得了重要的颜色信息如彩色边缘、彩色表面等。S2层卷积核编码了各类别的中层部件特征,例如face_easy类别的S2层编码了人脸的眼睛、嘴巴、鼻子等信息,如图3(c)所示。由图3(d)可以看出,由于S3层卷积核的感受野比S2层大,编码信息更趋于类别信息。研究表明:这符合图像理解的层次特性[13]。

4.2 相似度

数据集Caltech101图像部分类别之间的基于路径的Shortest Path算法和Leacock and Chodorow的相似度矩阵分别如图4和图5所示。由图4和图5可以看出这两个矩阵都是对称矩阵。与一个类别最相似的类别有的不止一个,如与ant类别最相近的类别是butterfly、dragonfly、mayfly。值得注意的是图5中基于路径的Leacock and Chodorow算法的类别相似度数据是经过归一化处理后的数据。

本文采用基于ICA-HMAX模型的S3层的特征计算视觉相似,其视觉相似度矩阵的结果如图6所示。在该相似度矩阵中,把同一类别之间的视觉相似度设置为1作参考,来衡量不同类别之间的视觉相对度。在图6中横轴表示ICA-HMAX模型的类别。纵轴表示测试图像的类别。由图6可见,不同类别之间的视觉相似度矩阵不是对称。比如用airplane的ICA-HMAX模型对helicopter类别的图像进行表达,并计算其视觉相似度其值为0.506;而当用helicopter的ICA-HMAX模型对airplane类别的图像进行表达,并计算其视觉相似度其值为0.253。且与一个类别最相似的类别只有一个。在Caltech101数据集中helicopter类别的直升机的实例图片上都存在较为明显的螺旋桨。在airplane类别的飞机图像没有明显的螺旋桨。而在忽略helicopter类别的直升机螺旋桨后,直升机的机体形状与airplane类别的机体在视觉上存在相似。基于语义和视觉的相似度统计如表2所示。

两种相似度之间的差异性分析:由表2可知,基于语言的语义的相似度与基于视觉的相似度之间存在一致性和差异性。一致性:由表2可知,20个类别中基于语义和视觉的相似度一致有5对,分别sunflower和bonsai、rhino和llama、airplane和helicopter、ant和mayfly、hedgehog和llama。比如airplane和helicopter这两个类别的实例如图7所示。由图可见,不同类别之间存在视觉相似,两个类别实例在的某些局部形状、颜色、纹理等方面具有视觉上的相似性。差异性:由表2可知:20个类别中基于语义和视觉的相似度不一致的较多。如图8所示,ant、butterfly和dragonfly这三个类别的语义相对度很高但是它们的视觉相似度相差较大。原因在于:语义即语言意义,是人脑对客观上事物的认识和理解,它具有高度的概括性和抽象性。类别之间的语义往往根据类别所属范畴、关系、属性、功能等综合特性来进行划分。而仅仅从事物的视觉外观上无法体现出上述种种关系。

5 结论与展望

通过ICA-HMAX不同层次卷积核的可视化分析可知:自底层到高层不同层次的卷积编码规律如下:不同层次的卷积核编码了图像不同类型的特征。模型的层次越高,卷积核编码的信息越趋向于反映目标类别的特性,S1层卷积核编码体现底层共享特征(如拐角、 彩色边缘、彩色表面等)。S2层卷积核编码中层部件特征,比如face_easy类别的S2层编码了人脸的眼睛、嘴巴、鼻子等局部信息。S3层编码信息更趋于类别的全局信息。研究表明:这符合图像理解的层次特性。

通过视觉的相似和语义的相似度分析可知,基于ICA-HMAX模型的S3层特性的视觉相似度与语义相似之间存在一致性和差异性。这种一致性和差异性在计算机视觉和人工智能领域具有互补性。比如对于那些语义和视觉的相似度一致的类别,尤其是视觉相似度较高的类别之间可以进行迁移学习,使得计算机实现人类的类比学习能力。对于语义和视觉的相似度差异性在图像的检索和图像理解等方面可以实现互补。通过语义的相似度我们可以检索到较多的相似类别,如与ant语义相似的有ant、dragonfly、butterfly。这样我们可以实现大范围的查找。然后在通过视觉的相似度进一步筛选正确的类别图片。反之,通过语义可以指导基于视觉的机器学习。

参考文献:

[1] Riesenhuber M, Poggio T. Hierarchical models of object recognition in cortex [J]. Nature neuroscience, 1999, 2(11): 1019-1025.

[2] Serre T, Wolf L, Bileschi S, et al. Robust object recognition with cortex-like mechanisms [J]. IEEE Transactions on Pattern Analysis and Machine Intelligence,2007, 29(3): 411-426.

[3] Lowe D G. Distinctive image features from scale-invariant keypoints [J]. International journal of computer vision, 2004, 60(2): 91-110.

[4] Hu X, Zhang J, Li J, et al. Sparsity-regularized HMAX for visual recognition [J]. PloS one, 2013, 9(1): e81813-e81813

[5] Nair V, Hinton G E. Rectified linear units improve restricted boltzmann machines [C] //Proceedings of the 27th International Conference on Machine Learning (ICML-10). 2010: 807-814.

[6] Hliaoutakis A. Semantic Similarity Measures in MeSH Ontology and their application to Information Retrieval on Medline [J]. 2005.

[7] Raftopoulou P, Petrakis E. Semantic similarity measures: A comparison study [J]. Technical University of Crete, Department of Electronic and Computer Engineering, Tech. Rep. TR-TUC-ISL-04-2005, 2005.

[8] R. Rada, H. Mili, E. Bicknell and M. Blettner, “Development and Application of a Metric on Semantic Nets”, IEEE Transactions on Systems, Man and Cybernetics, vol. 19, Issue 1, (1989) January-February, pp. 17 - 30.

[9] H. Bulskov, R. Knappe and T. Andreasen, “On Measuring Similarity for Conceptual Querying”, Proceedings of the 5th International Conference on Flexible Query Answering Systems, (2002) October 27-29, Copenhagen, Denmark.

[10] Vondrick C, Khosla A, Malisiewicz T, et al. HOGgles: Visualizing Object Detection Features[C]//Proceedings of the IEEE International Conference on Computer Vision. 2013: 1-8.

[11] Wang Z, Bovik A C, Sheikh H R, et al. Image quality assessment: from error visibility to structural similarity [J]. IEEE Transactions on Image Processing, 2004, 13(4): 600-612.

[12] Li Fei-Fei, Rob Fergus, and Pietro Perona. Learning generative visual models from few training examples: An incremental bayesian approach tested on 101 object categories [J]. Computer Vision and Image Understanding, 2007, 106(1): 59-70.

[13] 谢昭. 图像理解的关键问题和方法研究[D]. 合肥工业大学, 2007.

上一篇:4G环境下数据挖掘在通信网络优化中的应用研讨 下一篇:基于互联网技术下实现计算机软硬件资源共享机...