卷积在神经网络中的作用范文

时间:2024-03-26 17:01:00

卷积在神经网络中的作用

卷积在神经网络中的作用篇1

关键词关键词:人脸识别;卷积神经网络;图像识别;深度学习;模式识别

DOIDOI:10.11907/rjdk.171043

中图分类号:TP317.4

文献标识码:A文章编号文章编号:16727800(2017)005018603

0引言

人脸识别是近年来模式识别、图像处理、机器视觉、神经网络及认知科学领域的研究热点[12]。所谓人脸识别,是指给定一个静态人脸图像或动态视频,利用存储有若干已知身份的人脸数据库验证单个或多个人的身份[1]。作为生物特征识别的一个重要方面,人脸识别有着广泛的应用场景,如:档案管理系统、公安系统的犯罪身份识别、银行和海关的监控、安全验证系统、信用卡验证等领域。在人脸识别巨大魅力的影响下,国内互联网公司也开始了人脸识别应用的探索,如百度推出的人脸考勤系统、阿里支付宝的刷脸登录等功能都是人脸识别的具体应用。目前,人脸识别的代表性方法主要有以下几种:Turk和Pentland[3]提出的特征脸(Eigenface)方法;基于线性区别分析,Belhumeur 等[4]提出了Fisherface方法;基于统计理论,剑桥大学的 Samaria和Fallside[5]提出了隐马尔科夫模型[5](HMM),Lawrence 等[6]提出的通过多级自组织映射神经网络(SOM)[6]与卷积神经网络相结合进行人脸识别。上述方法虽然获得了良好的识别正确率,但需要人工参与特征提取,然后将提取的特征送入分类器进行识别,过程较为复杂。

卷积神经网络[79]是近年发展起来,并引起广泛重视的一种高效深度学习识别算法,其已成为当前语音分析和图像处理领域的研究热点。相比传统的神经网络而言,卷积神经网络具有权值共享、局部感知的优点。局部感知的网络结构使其更接近于生物神经网络,权值共享大大减少了模型学习参数的个数,同时降低了神经网络结构的复杂性。在图像处理领域,卷积神经网络的优点体现得更为突出,多维的图像数据可以直接作为网络的输入,特征提取和分类均集成在网络中,避免了传统识别算法中复杂的特征提取和训练分类器过程。除此之外,卷积神经网络对图像中的位移、比例缩放、旋转、倾斜或其它形式的变形具有很好的鲁棒性。为了解决传统人脸识别算法特征提取和训练分类器困难的问题,本文借鉴Lenet-5[10]的结构,设计一个适合ORL数据集人脸识别任务的卷积神经网络结构。

1卷积神经网络

1.1用于ORL人脸识别的CNN

本文提出的7层卷积神经网络模型由输入层、2个卷积层、2个降采样层、一个全连接层和一个Sigmoid输出层组成。卷积核的大小均为5×5,降采样层Pooling区域的大小为2×2,采用Average Pooling(相邻小区域之间无重叠),激活函数均采用Sigmoid函数。每一个卷积层或降采样层由多个特征图组成,每个特征图有多个神经元,上层的输出作为下一层的输入。此外,本文实验学习率的取值为常数1.5,该卷积神经网络结构如图1所示。

1.2卷积层

卷积神经网络中的卷积层一般称C层[11](特征提取层)。卷积层的输入来源于输入层或者采样层。卷积层中的每一个特征图都对应一个大小相同的卷积核,卷积层的每一个特征图是不同的卷积核在前一层输入的特征图上作卷积,然后将对应元素累加后加一个偏置,最后通过激活函数得到。假设第l层榫砘层,则该层中第j个特征图的计算表达式如式(1)。

xlj=f(∑i∈Mjxl-1iklij+blj)(1)

这里的Mj表示选择的上一层输出特征图的集合。

1.3降采样层

降采样层是对上一层的特征图进行下采样处理,处理方式是在每一个特征图内部的相邻小区域进行聚合统计。常见的下采样方式有两种:Average Pooling和Max Pooling。其中,Average Pooling是取小区域内像素的平均值,而Max Pooling是取小区域内像素的最大值。降采样层只是对输入的特征图进行降维处理,不改变特征图的个数。假设down表示下采样操作,βlj表示乘性偏置,blj表示加性偏置,则降采样层中某个特征图的计算表达式如下:

xlj=f(βljdown(xl-1j)+blj)(2)

1.4输出层

卷积神经网络的输出层一般为分类器层,常用的有径向基(RBF)函数输出单元、Sigmoid输出单元和Softmax回归分类器。在ORL人脸识别任务中,采用Sigmoid函数输出单元,输出层的编码采用非分布编码“one-of-c”的方式。由于采用Sigmoid函数,每一个单元输出值是0-1范围内的一个正数,代表该样本属于该单元对应类别的概率。数值最大的那个单元即为样本的预测类别。假设x为全连接层的输出,则输出层输出结果的计算表达式如下:

y=f(wTx+b)(3)

其中,f表示激活函数,这里采用Sigmoid函数,Sigmoid函数表达式如下:

f(x)=11+e-x(4)

2实验结果与分析

实验在Windows7 64位下的Matlab 2014a中进行,采用Matlab深度学习工具箱DeepLearnToolbox。PC的内存8G,CPU主频为3.2GHZ。

ORL人脸数据集是在1992年至1994年之间由AT &T Cambridge实验室拍摄的人脸图像所构成。数据集中包含40个不同人物的脸部图像,每个人物包含10张图像,总共400张。每个类别中的脸部图像在不同的时间拍摄得到,存在如下差异:①光线;②面部表情,如眼睛的闭合和睁开状态,面部是否带有微笑的表情等;③一些面部细节上的差异,如是否佩戴眼镜等。该数据集中所有人脸图像均为灰度图像,且图像中人物面部朝向基本一致,都朝向正前方。

图2为ORL数据集中部分人脸图像。数据集中每个原始图像大小为92*112像素,本文实验中对这些图像进行预处理,使每一幅图像的尺寸调整为28*28,并对每一副图像进行归一化处理,这里采用简单的除255的方式。随机选取每一个类别的8张图像作为训练样本,剩下的2张作为测试样本。因此,训练集有320个样本,测试集有80个样本。

2.1改变C3层卷积核个数对网络的影响

卷积神经网络性能的好坏与卷积层卷积核的个数密切相关,但每一个卷积层应该设置多少个卷积滤波器,目前并没有数学理论指导。为了研究卷积核个数对网络最终识别准确率的影响,本文保持C1层卷积核个数不变,通过改变C3层卷积核的个数,形成新的网络结构,用训练集训练网络,训练迭代次数均为60次,然后用测试集对每一种网络结构的性能进行测试。实验结果如表1所示。

从表1可以看出,当C3层有10个卷积核时,网络模型对测试集的识别正确率最高。卷积核的个数与识别准确率并不成正比关系,当卷积核个数过多时,网络的识别准确率会下降,这是因为在卷积核个数增加的同时,需要学习的参数也随之增加,而数据集中训练样本的规模较小,已不能满足学习的要求。

2.2改变C1层卷积核个数对网络的影响

由上述实验结果可知,C3层卷积核个数为10时,网络识别效果最好。因此,为了研究卷积层C1层卷积核个数对识别准确率的影响, C3层保留10个卷积核,改变C1层卷积核的个数构造新的网络结构,用测试集针对不同网络结构就测试集和训练集的识别准确率进行测试。实验结果如表2所示。

从表2的实验结果可以得到相同结论:卷积层卷积核的个数并非越多越好,卷积核个数过多,网络需要学习的参数也随之增加,当训练集中样本个数无法满足学习需要时,网络识别准确率就会下降。

2.3与其它算法比较

为进一步说明本文所提卷积神经网络结构的有效性和优越性,将该结构(C1层6个卷积核,C3层10个卷积核,学习率1.5)的实验结果与其它识别方法在ORL数据集上的实验结果进行对比,结果如表3所示。可以看出,本文所提方法比Eigface、ICA的识别效果好,与2DPCA方法的识别准确率一样,比FisherFace方法的识别准确率只低了0.20%,这进一步证实了本文所提网络结构的有效性。

3结语

本文在理解Lenet-5结构的基础上,提出一种适用于ORL人脸数据集的卷积神经网络结构。实验结果表明,本文提出的卷积神经网络结构,不仅避免了复杂的显式特征提取过程,在ORL数据集上获得98.30%的识别正确率,而且比大多数传统人脸识别算法的效果都好。此外,本文还通过大量验就每个卷积层卷积核个数对网络识别准确率的影响进行了详细研究与分析,这对设计CNN网络结构具有一定的参考意义。

参考文献参考文献:

[1]李武军,王崇骏,张炜,等.人脸识别研究综述[J].模式识别与人工智能,2006,19(1):5866.

[2]张翠平,苏光大.人脸识别技术综述[J].中国图象图形学报,2000,5(11):885894.

[3]YANG M H.Face recognition using kernel methods[J].Nips,2002(2):14571464.

[4]祝秀萍,吴学毅,刘文峰.人脸识别综述与展望[J].计算机与信息技术,2008(4):5356.

[5]SAMARIA F,YOUNG S.HMMbased architecture for face identification[J].Image and Vision Computing,1994,12(8):537543.

[6]LAWRENCE S,GILES C L,TSOI A C.Convolutional neural networks for face recognition[C].Proceedings CVPR'96,1996 IEEE Computer Society Conference on Computer Vision and Pattern Recognition,1996:217222.

[7]陈耀丹,王连明.基于卷积神经网络的人脸识别方法[J].东北师范大学学报:自然科学版,2016,48(2):7076.

[8]卢官明,何嘉利,闫静杰,等.一种用于人脸表情识别的卷积神经网络[J].南京邮电大学学报:自然科学版,2016,36(1):1622.

[9]李彦冬,郝宗波,雷航.卷积神经网络研究综述[J].计算机应用,2016,36(9):25082515.

[10]LCUN Y,BOTTOU L,BENGIO Y,et al.Gradientbased learning applied to document recognition[J].Proceedings of the IEEE,1998,86(11):22782324.

[11]BOUVRIE J.Notes on convolutional neural networks[J].Neural Nets,2006(11):18.

卷积在神经网络中的作用篇2

关键词:卷积神经网络;图像分类;空间变换;可变形卷积

DOIDOI:10.11907/rjdk.171863

中图分类号:TP317.4

文献标识码:A 文章编号:1672-7800(2017)006-0198-04

0 引言

图像分类一直是计算机视觉领域的一个基础而重要的核心问题,具有大量的实际应用场景和案例。很多典型的计算机视觉问题(如物体检测、图像分割)都可以演化为图像分类问题。图像分类问题有很多难点需要解决,观测角度、光照条件的变化、物体自身形变、部分遮挡、背景杂波影响、类内差异等问题都会导致被观测物体的计算机表示(二维或三维数值数组)发生剧烈变化。一个良好的图像分类模型应当对上述情况(以及不同情况的组合)不敏感。使用深度学习尤其是深度卷积神经网络,用大量图像数据进行训练后可以处理十分复杂的分类问题。

卷积神经网络是为识别二维形状而专门设计的一个多层感知器,这种网络结构对平移、缩放、倾斜等扰动具有高度不变性,并且具有强大的特征学习与抽象表达能力,可以通过网络训练获得图像特征,避免了复杂的特征提取与数据重建过程。通过网络层的堆叠,集成了低、中、高层特征表示。AlexNet等网络模型的出F,也推动了卷积网络在海量图像分类领域的蓬勃发展。

1 卷积神经网络

卷积神经网络是人工神经网络的一种,其“局部感知”“权值共享”[1]等特性使之更类似于生物神经网络,网络模型复杂度大大降低,网络训练更容易,多层的网络结构有更好的抽象表达能力,可以直接将图像作为网络输入,通过网络训练自动学习图像特征,从而避免了复杂的特征提取过程。

Yann LeCun等[2]设计的LeNet-5是当前广泛使用的卷积网络结构原型,它包含了卷积层、下采样层(池化层)、全连接层以及输出层,构成了现代卷积神经网络的基本组件,后续复杂的模型都离不开这些基本组件。LeNet-5对手写数字识别率较高,但在大数据量、复杂的物体图片分类方面不足,过拟合也导致其泛化能力较弱。网络训练开销大且受制于计算机性能。

2012年,在ILSVRC竞赛中AlexNet模型[3]赢得冠军,将错误率降低了10个百分点。拥有5层卷积结构的AlexNet模型证明了卷积神经网络在复杂模型下的有效性,并将GPU训练引入研究领域,使得大数据训练时间缩短,具有里程碑意义。AlexNet还有如下创新点:①采用局部响应归一化算法(Local Response Normalization,LRN),增强了模型的泛化能力,有效降低了分类错误率;②使用Dropout技术,降低了神经元复杂的互适应关系,有效避免了过拟合;③为了获得更快的收敛速度,AlexNet使用非线性激活函数ReLU(Rectified Linear Units)来代替传统的Sigmoid激活函数。

Karen等[4]在AlexNet的基础上使用更小尺寸的卷积核级联替代大卷积核,提出了VGG网络。虽然VGG网络层数和参数都比AlexNet多,但得益于更深的网络和较小的卷积核尺寸,使之具有隐式规则作用,只需很少的迭代次数就能达到收敛目的。

复杂的网络结构能表达更高维的抽象特征。然而,随着网络层数增加,参数量也急剧增加,导致过拟合及计算量大增,解决这两个缺陷的根本办法是将全连接甚至一般的卷积转化为稀疏连接。为此,Google团队提出了Inception结构[5],以将稀疏矩阵聚类为较为密集的子矩阵来提高计算性能。以Inception结构构造的22层网络GoogLeNet,用均值池化代替后端的全连接层,使得参数量只有7M,极大增强了泛化能力,并增加了两个辅助的Softmax用于向前传导梯度,避免梯度消失。GoogLeNet在2014年的ILSVRC竞赛中以Top-5错误率仅6.66%的成绩摘得桂冠。

网络层数的增加并非永无止境。随着网络层数的增加,将导致训练误差增大等所谓退化问题。为此,微软提出了一种深度残差学习框架[6],利用多层网络拟合一个残差映射,成功构造出152层的ResNet-152,并在2015年的ILSVRC分类问题竞赛中取得Top-5错误率仅5.71%的成绩。随后,对现有的瓶颈式残差结构进行改进,提出了一种直通结构[7],并基于此搭建出惊人的1001层网络,在CIFAR-10分类错误率仅4.92%。至此,卷积神经网络在越来越“深”的道路上一往直前。

2 可变形的卷积神经网络

2.1 空间变换网络

空间变换网络(Spatial Transformer Network,STN)[8]主要由定位网络(Localisation net)、网格生成器(Grid generator)和可微图像采样(Differentiable Image Sampling)3部分构成,如图1所示。

定位网络将输入的特征图U放入一个子网络(由卷积、全连接等构成的若干层子网络),生成空间变换参数θ。θ的形式可以多样,如需要实现2D仿射变换,那么θ就是一个2×3的向量。

2.3 本文模型

本文以自建的3层卷积网络C3K5(如图6所示)和VGG-16作为基准网络,分别引入空间变换网络、可变形卷积和可变形池化,构造出8个卷积神经网络,用以验证可变形模块对浅层网络和深层网络的影响,如表1所示。

图6中C3K5网络模型包含3个带有ReLU层、LRN层和池化层的卷积模块,卷积层采用步长为1的5×5卷积核,输出保持原大小,池化层采用步长为2核为2×2的最大值池化,即每经过一个卷积模块,特征图缩小为原来的一半。

3 实验与分析

3.1 实验设置

本文实验环境:CPU为Intel i5-7400,8G内存,显卡为GTX1060,采用Cuda8+CuDNN6.0加速。

实验数据集包括公共图像数据集mnist、cifar-10、cifar-100和自建图像数据集pen-7。公共数据集分别有50 000张训练样本图像和10 000张测试样本图像。自建数据集pen-7为京东商城的七类笔图像库,每类有600张图片,图像分辨率为200×200,总计训练样本数3 360,测试样本数840, 图7为其中的14个样本。

3.2 结果与分析

分别将表1中的10个卷积网络应用到mnist、cifar-10、cifar-100和pen-7四个数据集进行训练,batch-size设置100,即每次传入100张图片进行训练,每训练100次测试一次(记为一次迭代),总共迭代100次,取最后10次迭代的准确率计算平均值,得各网络应用在不同数据集的分类结果,如表2所示。

实验结果表明,在卷积网络中引入空间变换网络、用可变形的卷积层和可变形的池化层替换传统的卷积层和池化层,不管是在浅层网络还是在深层网络,都能获得更高的分类准确率,这验证了空间变换网络和可变形卷积(池化)结构,丰富了卷积神经网络的空间特征表达能力,提升了卷积网络对样本的空间多样性变化的鲁棒性。包含3种模块的网络获得了最高的分类精度,使空间变换网络、可变形卷积层和可变形池化层在更多应用场景中并驾齐驱成为可能。

4 结语

通过在现有卷积神经网络中引入空间变换网络、可变形的卷积层和可变形的池化层,使得卷积网络在mnist、cifar-10、cifar-100及自建的pen-7数据集中获得了更高的分类精度,包含3种模块的网络获得了最高分类精度,证明了空间变换网络、可变形的卷积层和可变形池化层都能丰富网络的空间特征表达能力,协同应用于图像分类工作,这为后续研究打下了坚实的基础。

参考文献:

[1]BOUVRIE J. Notes on convolutional neural networks[J].Neural Nets,2006(1):159-164.

[2]Y LECUN,L BOTTOU,Y BENGIO,et al.Gradient-based learning applied to document recognition[J]. Proceedings of the IEEE, 1998, 86(11): 2278-2324.

[3]KRIZHEVSKY A, SUTSKEVER I, HINTON G E. ImageNet classification with deep convolutional neural networks[C]. International Conference on Neural Information Processing Systems. Curran Associates Inc,2012:1097-1105.

[4]SIMONYAN K, ZISSERMAN A. Very deep convolutional networks for large-scale image recognition[J]. Computer Science, 2014(6):1211-1220.

[5]SZEGEDY C, LIU W, JIA Y, et al. Going deeper with convolutions[J]. CVPR, 2015(3):1-9.

[6]HE K, ZHANG X, REN S, et al. Deep residual learning for image recognition[C]. Computer Vision and Pattern Recognition. IEEE, 2015:770-778.

[7]HE K, ZHANG X, REN S, et al. Identity mappings in deep residual networks[J]. arXiv,2016(1603):5-27.

[8]JADERBERG M, SIMONYAN K, ZISSERMAN A, et al. Spatial transformer networks[J].Computer Science, 2015(5):1041-1050.

[9]DAI J, QI H, XIONG Y, et al. Deformable convolutional networks[J]. arXiv: 2017(1703):62-111.

英文摘要Abstract:Convolutional neural networks (CNNs) have powerful abilities of self-learning and abstract expression and they have gained extensive research and wide application in the field of image classification. However, since each module has a fixed geometric structure, it fundamentally limits the modeling of spatial transformation by convolutional neural networks, and is inevitably affected by the spatially diversity of data. The involve of a self-learning spatial transform structure and the deformable convolutional which can change its shape to adapt different input feature are both enrich the spatial expression ability of convolutional networks. In combination with the two characteristics, the existing convolutional neural networks are improved, and a better classification result is obtained in both the public image library and my own image library.

卷积在神经网络中的作用篇3

关键词: 列车车号; 车号识别; 卷积神经网络; LeNet?5

中图分类号: TN911.73?34; TP391 文献标识码: A 文章编号: 1004?373X(2016)13?0063?04

Abstract: For the character recognition of freight train license, the improved recognition method based on convolutional neural network LeNet?5 is proposed. Considering the structural features of the hierarchical convolutional neural network and local field, the parameters of quantity and size of each layer feature pattern in the network were improved correspondingly to form the new network model suitable for the freight train license recognition. The experimental results show that the proposed method has strong robustness to solve the license breakage and stain, and high recognition rate, which provides a guarantee for the accuracy of the entire license recognition system.

Keywords: train license; license recognition; convolutional neural network; LeNet?5

0 引 言

目前货运列车车号识别系统[1?2]主要是基于RFID技术实现的,但是,由于该系统的准确性依赖于列车底部安装的RFID标签,而RFID标签容易损坏、丢失,因此,此类系统无法保证车号识别的准确性。为此,研究者开发了基于图像的货运列车车号识别系统,系统根据视频采集到的图像,利用模糊集合论[1?2]、人工神经网络[3]、支持向量机[4]以及隐马尔可夫模型[4]等技术进行车号字符的识别。但是,由于货运列车车号存在因喷涂方式而导致的单个字符断裂,或者列车长期的野外运行导致的车厢污损,车号字符的残缺等现象,这使得目前的基于图像的货运列车车号识别系统的鲁棒性与识别率还有待进一步提高。

LeNet?5[5?7]是由YannLecun等人提出的一种专门用于二维图像识别的卷积神经网络,该网络避免了人工提取特征依赖于主观意识的缺点,只需要将归一化大小的原始图像输入网络,该网络就可以直接从图像中识别视觉模式。LeNet?5把特征提取和识别结合起来,通过综合评价和学习,并在不断的反向传播过程中选择和优化这些特征,将特征提取变为一个自学习的过程,通过这种方法找到分类性能最优的特征。LeNet?5已经成功应用于银行对支票手写数字的识别中。

为此,本文将卷积神经网络LeNet?5应用于列车车号字符的识别中,为了使之适用于列车车号字符的识别需求,去除掉了LeNet?5中的一些针对手写字符识别而特别设计的连接方式及参数,并在此基础上,改变网络中各层特征图的数量以形成新的网络模型。

1 LeNet?5的改进

卷积神经网络可以从很多方面着手改进。诸如多层前馈网络,可以考虑在误差函数中增加惩罚项使得训练后得到趋向于稀疏化的权值,或者增加一些竞争机制使得在某个特定时刻网络中只有部分节点处在激活状态等。本文主要从卷积神经网络的层次化以及局部邻域等结构上的特点入手,考虑卷积神经网络中各层特征图数量及大小对网络训练过程及识别结果的影响。

以LeNet?5结构为基础,去除掉LeNet?5中的一些针对手写字符识别而特别设计的连接方式及参数,得到改进后的神经网络。在此基础上,改变网络中各层特征图的数量以形成新的网络模型。定义一种新的网络模型,将其命名为LeNet?5.1,该网络结构与LeNet?5基本相同,主要做出以下改变:

(1) 将原先LeNet?5所采用的激活函数由双曲正切函数修改为Sigmoid函数,此时,网络中所有层的输出值均在[0,1]区间内,输出层的最终结果也将保持在[0,1]区间内。

(2) 省略掉F6层,将输出层与C5层直接相连,连接方式为全连接,而不是原LeNet?5中所采用的径向基函数(RBF)网络结构。

(3) 简化原LeNet?5中的学习速率。原LeNet?5网络中采用的学习速率为一个特殊的序列,而在本网络中将学习速率固定为0.002。

(4) 输入数据原始尺寸为28×28,采取边框扩充背景像素的方法将图像扩充至32×32。

之所以做以上相关改动,是因为原始的LeNet?5就是专门为手写字符识别任务而特殊设计的,这就造成了LeNet?5网络中相关的预处理及参数的选择过程或多或少均带有一些针对特定问题的先验知识。例如激活函数中参数的选择,学习速率定的速率序列以及数据预处理殊的填充方式等,这些特定的设计使得LeNet?5在其他任务的识别过程中并不一定适用,或者需要进行长期的观察实验以选得一组针对特定任务的较好的值,造成了LeNet?5不能快速的应用于除手写字符外其他的识别任务中。

2 改进后的网络对列车车号字符的识别

车号经过分割之后为一个个的单字符图像,采用边框扩充背景像素的方法将其归一化为32×32,如图1所示。

由图1中可以看出,待识别的字符图像质量不高,有的数字字符出现残缺、断裂或者严重变形。这都给识别任务提出了一定的挑战。

本文采集到的车号图像来自于不同型号的货运列车。从中选取400幅图像作为训练集,另外选取400幅图像作为测试集。用上一节提出的LeNet?5.1网络进行训练,误分类率曲线如图2所示。可以看出,在LeNet?5.1训练过程中,训练MCR(Misclassification Rate)和测试MCR的变化过程相对稳定,验证了改进后网络结构的合理性。在经过16次的迭代之后,测试MCR降至最低(5.75%),之后基本保持稳定,即16次迭代之后,网络达到了当前的最佳训练效果,达到了收敛状态。这时,训练MCR为0.5%,测试MCR是5.75%。

训练过程中的误分类率曲线

而针对相同的数据,采用原始的LeNet?5进行训练和测试后,误分类率如图3所示。从图3中可以看出,LeNet?5经过了18次的迭代后,测试MCR才达到相对稳定的状态,降至6%,最终的训练MCR为1%。相比之下,经过简化和改进的LeNet?5.1,由于改进了原始的LeNet?5中专门为手写字符识别任务而特殊设计的一些预处理及函数选择等固定模式,并且精简了网络结构,使得LeNet?5.1在列车车号的识别方面具有了更快的训练速度和收敛速度,另外,最终达到的准确度也有所提升。

在证明了改进后的LeNet?5.1网络的合理性之后,增加训练图像的规模,采用10 000幅车号数字字符图像用来训练,5 000幅用来测试。为了与其他方法进行比较,采用相同的训练数据对车号识别中常用的三层BP网络进行训练和测试,这里采用的BP网络隐含层节点数量为450,学习速率采用0.01。实验结果比较如表1所示。从表1可以看出,改进后的LeNet?5.1网络的识别率比BP网络的识别率高出4.62个百分点,在识别速度方面,LeNet?5.1也明显优于传统的BP神经网络。

3 针对车型号字母识别而改进的神经网络及其结果

货运列车车号的组成是由车型号与车号共同组成的,因此还需要对车型号进行识别,车型号中除了有阿拉伯数字字符之外,还有很多表示车种及车厢材质等属性的英文字母,这些英文字母同样采用卷积神经网络来识别。由于车型号很多,初期针对若干常用型号的列车进行识别,以测试网络的性能,后期对全车型进行识别。

3.1 常用列车车型的识别

在试运行阶段主要识别的车型局限于7种主要的车型:C64K,C64H,C70A,C70E,C80,C62AK和C62BK。由于车种都为敞篷车(第一个大写字母C),主要对后面代表该车型载重量的两位数字以及最后代表车厢材质等属性的字母进行识别。考虑到车型号字符串的固定模式,如图4所示,可以分别建立两个不同的卷积神经网络分别用来识别数字和字母,由于之前已经解决了数字的识别问题,接下来主要进行字母的识别。要识别的代表车厢材质的字母共有6个:K,H,A,E,A和B,为了尽可能的避免因字母分割问题而导致的识别错误,把AK和BK分别作为一个整体来识别,那么需要识别的字符组合变为:K,H,A,E,AK和BK。由于识别种类的减少,可以对网络模型LeNet?5.1进行相应的简化,命名该模型为LeNet?5.2。

LeNet?5.2是在LeNet?5.1的基础上进行改动而得到的:

(1) 卷积层C1的特征图由6个减少为4个,相应地,S2层的特征图也由6个减少为4个。

(2) 卷积层C3的特征图由16个减少为11个,相应地,S4层的特征图也由16个减少为11个。

(3) 卷积层C5的特征图个数由120个减少为80个。

(4) 输出分类的数目由10个减少为6个。

另外,卷积层C3层与次抽样层S2层的连接情况如表2所示。

表2的连接方式采用与表1相同的思想,每一列都说明了C3层中的一个特征图是由S2中的那几个特征图结合而成。卷积层C3中第0个至第5个特征图分别与次抽样层S2中的两个特征图相连接,一共6种组合。C3中的这6个特征图负责抽取上一层中某两个特征图所潜在的特征。C3层中第6个至第9个特征图中每个特征图分别对应上一层中的3个特征图的组合,而C3层中最后一个特征图则与上一层中所有的特征图相连接。这样卷积层C3中的特征图就包含了次抽样层S2中多个特征图的所有组合,这样使得卷积层C3抽取到的特征比S2层更抽象、更高级,同时,相对于输入数据,C3层相比S2层具有更好的对位移、扭曲等特征的不变性。

相比LeNet?5.1,LeNet?5.2将网络层中的特征图数量做了相应的削减,减少了网络中可训练参数的数量。

实验数据来自以上提到的7类常用车型。经过前面过程的定位和分割之后,将分割之后代表车厢材质等属性的字母图像收集起来。本实验中,共收集到6种代表不同车厢材质属性的字母共800幅,其中400幅用作训练数据,另外400幅用作测试数据。

图5为LeNet?5.2使用以上数据训练过程中得到的MCR曲线图。由图5中可以看出,在经过13次迭代之后,测试MCR达到最低的3.25%,并且在随后的迭代过程中基本保持稳定,而对应的训练MCR为0.75%。

3.2 全车型识别

经过对铁道行业标准《铁路货车车种车型车号编码》(TB2435?93)里面包含的所有车型号进行统计,除了10个阿拉伯数字外,包括了除O,R,V,Z四个字母外所有的大写英文字母,总共有32类字符。

训练过程中的误分类率曲线

针对车型号的识别需求,本文在LeNet?5.1的基础上提出了一种新的网络模型,称之为LeNet?5.3。与LeNet?5.2相反,LeNet?5.3是在LeNet?5.1的基础上对网络中各层的特征图数量进行扩充:

(1) 卷积层C1的特征图由6个增加至8个,相应地,S2层的特征图也由6个增加至8个。

(2) 卷积层C3的特征图由16个增加至24个,相应地,S4层的特征图也由16个增加至24个。

(3) 卷积层C5的特征图个数由120个增加至240个。

(4) 输出层神经元的个数由10个增加至32个。

其中卷积层C3层与次抽样层S2层的连接情况参考LeNet?5.2所采用的原则,使卷积层C3中的特征图包含次抽样层S2中多个特征图的主要组合。

与LeNet?5.1相比,LeNet?5.3需要有更多的输出类别,各层的特征图数量也做了相应的增加,以增加整个网络的识别性能。为了验证改进后的LeNet?5.3的性能,收集了大量真实列车车厢图片,经过车号定位和分割之后,将单个的数字字符或者大写字母字符图像尺寸依次归一化为32×32,分别建立训练图像库和测试图像库。

由于LeNet?5.1各层的特征图数量多,因此该网络涉及到的可训练参数也大大增加,这也意味着需要更多的数据样本用于网络训练。若训练集和测试集规模依然采用跟前面实验中一样的各400幅,训练过程中的误分类率曲线如图6所示,图6中的曲线变化非常不稳定,波动较大。测试MCR达到最低点后又突然升高,不能获得稳定的分类结果,训练过程无法收敛。

网络训练过程中无法收敛的主要原因在于相比网络中过多的需要训练确定的权值,数据集规模过小,已然不能满足学习的要求。从特征图角度来看,网络无法通过不充足的训练样本学习到稳定而有效的特征图组合,从而导致了网络不收敛。要解决这个问题需要加大测试样本的数量。

为了训练和测试LeNet?5.3,对数据集进行了扩充:训练图像库包含字符图像4 000幅,测试图像库包含字符图像2 000幅。训练过程中的误分类率曲线如图7所示。从图7中可以看出,经过32次迭代之后网络趋于收敛,并且达到了较好的识别率。

4 结 语

本文针对货运列车车号识别的难题,提出了基于卷积神经网络LeNet?5改进后的识别方法,主要对卷积神经网络中各层特征图数量及大小进行了改进。且与传统的BP网络进行了比较,从实验结果可以看出,改进后的卷积神经网络无论在鲁棒性还是识别率以及识别速度上都优于BP网络,可以很好地胜任列车车号识别任务。

参考文献

[1] 宋敏.铁路车辆车号自动识别系统的研究和开发[D].天津:河北工业大学,2011:1?5.

[2] LU S, CHEN B M, KO C C. Perspective rectification of document images using fuzzy set and morphological operations [J]. Image and vision computing, 2005, 23(5): 541?553.

[3] SHAH P, KARAMCHANDANI S, NADKAR T, et al. OCR?based chassis?number recognition using artificial neural networks [C]// Proceedings of 2009 IEEE International Conference on Vehicular Electronics and Safety (ICVES). [S.l.]: IEEE, 2009: 31?34.

[4] CHEN D, BOURLARD H, THIRAN J P. Text identification in complex background using SVM [C]// Proceedings of 2001 IEEE Computer Society Conference on Computer Vision and Pattern Recognition. [S.l.]: IEEE, 2001: 621?626.

[5] LECUN Y, BOTTOU L, BENGIO Y, et al. Gradient?based learning applied to document recognition [J]. Proceedings of the IEEE, 1998, 86(11): 2278?2324.

[6] LECUN Y A, BOTTOU L, ORR G B, et al. Efficient backprop [M]// Anon. Neural networks: tricks of the trade. Berlin: Springer Berlin Heidelberg, 1998: 9?50.

[7] SIMARD P, STEINKRAUS D, PLATT J C. Best practices for convolutional neural networks applied to visual document analysis [C]// Proceedings of 2003 7th International Conference on Document Analysis and Recognition. [S.l.]: IEEE, 2003: 958?962.

卷积在神经网络中的作用篇4

【关键词】压缩紧邻 字符识别 正确率

1 研究背景

样本选择是从原有的样本集中某一种选择方式来选出样本子集,是一个能加快数据处理效率,可以节省存储资源并且保证不降低分类性能的可靠方法。样本选择和特征选择在某些方面上有相似之处,一般都是与具体分类预测方法相关联。字符识别是模式识别中一类热门的研究问题,本文将利用样本选择方法结合深度卷积神经网络进行字符识别。

2 加权压缩近邻方法

基于压缩近邻的样本选择方法具有拥有降低存储、缩短运算等特点。郝红卫等人在此基础上提出了加权压缩近邻规则,针对那些未被选中的边缘样本,可以重复数次对压缩近邻的过程,从而确保样本数据均能够被选上。对于中心样本也能被保留的问题,通过对样本加权评估、再次选择的方式来解决。在选择的过程中可以根据实验需要进行样本数量进行控制,称之为加权压缩近邻规则(Weighted Condensed Nearest Neighbor)。

该算法是通过压缩近邻规则过程的循环保证子集P中有足够多的边界样本,但是其中仍存在大量的冗余,我们依据投票的原则对子集P中样本的代表性进行评估并且再次选择。其具体过程是对于U中的每个样本x找出P中距离最接近的样本xi,如果x和xi的类别是相同的,那么投xi一票。样本获得的票数最高,说明它最具有代表性。根据投票的实际情况和样本的数量来得到最终的子集A。用加权压缩近邻规则获得的子集比压缩近邻规则得到的子集包含更少的冗余样本和更多的具有代表性样本,同时还可以根据实验来控制子集中所含有的样本数。

3 实验结果与分析

本次实验分别使用MNIST和USPS手写体识别库作为训练和测试样本集。

实验平台采用英特尔酷睿i5-4430CPU 3.00GHz,8GB内存,Windows10操作系统,Matlab R2010b。我们设定随机选择和压缩近邻选取MNIST中样本数目为6600个,样本压缩比为10%,USPS库中选取样本数目为1767个,样本压缩比为20.34%。设置深度卷积神经网络训练次数设为100次。

算法给出了基于压缩近邻和BP神经网络手写体字符识别结果。通过融合压缩近邻规则选取样本和BP神经网络实验,在训练时间上虽然没有融合随机选取样本和深度卷积网络实验短,但是在时间上并没有很大幅度延长。在实验的识别错误率上,MNIST库中比随机选择实验提升了1.52%,分类效果提升明显。可见压缩近邻方法可以选择到更好的代表性样本。这两组数据依然说明了压缩近邻对样本选择的可靠性。表1给出了基于压缩近邻和卷积神经网络的手写体字符识别结果。

4 总结

本文主要介绍了基于压缩近邻的样本选择方法。样本选择的提出是为了有效减少样本数量,并且保证不降低训练精确度。在实验中进行验证,通过压缩近邻规则选取样本和深度卷积神经网络实验,证明其能够减少训练样本,提升训练速度,降低存储空间还可以提高识别正确率。

参考文献

[1]郝红卫,蒋蓉蓉.基于最近邻规则的神经网络训练样本选择方法[J].自动化学报,2007,33(12):1247-1251.

[2]姜文瀚.模式识别中的样本选择研究及其应用[D].南京理工大学,2008.

[3]余凯,贾磊,陈雨强.深度学习的昨天、今天和明天[J].计算机研究与发展,2013,50(09):1799-1804.

[4]Bouchard G.Clustering and classification employing softmax function including efficient bounds:US,US 8065246 B2[P].2011.

卷积在神经网络中的作用篇5

2020年,在省局党组的坚强领导下,在处室领导的正确带领下,紧紧围绕省局党组高质量发展战略目标,按照省局专卖管理工作部署和专卖处的工作安排,我认真履行职责,严以律己,立足本职,努力工作,积极协助处室领导开展打假打私等各项工作,在同志们的大力支持和配合下,圆满完成全省打掉符合国家局标准的网络案件工作任务。成绩的取得离不开省局党组正确的方向指引,离不开处室领导的正确决策,更离不开大家的关心和支持。现就2020年所做的主要工作总结及下年度计划汇报如下:

一、加强理论学习、不断提升工作能力

为了适应新形势、新任务下不断发展的专卖管理工作的需要,进一步提高驾驭工作的能力和水平,我始终把学习放在重要位置,努力提高自身综合素质,拓宽思路,提高修养,完善自我。不断加强政治理论学习,积极参加省局机关、支部、党小组的学习,认真学习领会党的十九大及十九届二中、三中、四中、五中全会精神和习近平新时代中国特色社会主义思想,学习党章、增强党性、坚定信念,不断提高政治理论水平,始终在政治上和党中央保持高度一致。学习国家局、省局领导领导重要讲话,力求准确吃透精神,明确工作要求,把握工作方向和重点,坚决落实执行省局党组的工作要求,自觉加强专业业务知识学习,认真学习相关法律、法规和党的路线、方针、政策。通过学习不断完善知识结构,提高理论层次,提高自己的专业水平和驾驭专卖工作、服务指导基层工作的能力。

二、尽职尽责工作,推动卷烟打假打私工作深入开展

(一)加强对卷烟打网络工作的监督指导。为了保证实现省局提出的卷烟打假打私打网络工作目标任务。在处长的正确带领下,加强对全省卷烟打假打网络工作的督促指导,有力地推动了全省卷烟打假打私打网络工作的扎实开展,取得了明显成效。一是对涉烟网络案做到及时了解,掌握案件情况、做到心中有数,高度关注各市局的网络案件查办情况,通过报表和深入实地等形式多种渠道及时掌握全省情况,加强案件督查,指导案件查办。我亲自带领打网办人员赴打假打私一线对基层查办的案件进行督办,推动打网络工作扎实开展。二是协调公安、烟草联合开展全省卷烟打假打私专项行动,对各市局办案中遇到的难题,积极协调解决,特别是对重点案件,紧抓不放,一督到底。三是积极协调省法院、省检察院、省公厅、省交通厅、省邮管局、太原海关等相关部门建立完善打假打私协作机制,使得机制建设进一步闭环提升。

(二)加强对卷烟打假工作的总结研究。参与了对全省案件查处情况的收集、统计、汇总和分析上报工作,与打网办同志一起对各市局上报的报表进行认真审核,核对分析,按时汇总上报,确保给领导决策提供准确、真实、无误的数据支撑。通过认真分析,研究全省卷烟打假打私情况,把握我省卷烟打假工作的特点和规律,及时发现打假工作中存在的问题和不足,提出解决问题的办法和措施,有效推动了卷烟打假工作深入开展。

(三)其他工作完成情况。参与了全省专卖工作会议,参与修订《烟草专卖局专卖经费管理办法》,针对我省举报费偏低、办案人员费用不足等基层反映强烈的难点问题进行了深入细致的研究论证,加大了奖励激励力度,为打假打私提供了必要的经费保障。

三、下一年度工作打算

卷积在神经网络中的作用篇6

网络的跨时空性、便利性、匿名性和实施交互性等特点,使得网络沟通成为一种发展最迅速的沟通形式。互联网的广泛普及和迅猛发展在给人们的工作和生活带来诸多便利的同时,也正在缔造着一种危机――网络成瘾。现代医学证实,一个人如果不能控制对网络的依赖,很容易患上“网络成瘾综合征”(internet addiction disorder简称IAD),医学上又称之为“病态性使用互联网”(pathological internet use 简称PIU)。据中国互联网中心(CNNIC)2004年6月30日的第十四次《中国互联网发展状况统计报告》显示:2004年6月30日,8700万的网民中18~24岁的用户占36.8%居首位。这表明,上网正逐步成为大学生生活的重要组成部分。

由网络成瘾而引发的心理障碍或社会适应障碍等案例正随着网络的普及逐渐增多。网络成瘾会导致部分大学生学习成绩下降、行为异常、心理错位。在极端情况下,网络成瘾者不再清楚虚拟和现实世界的区别,使得他们的人际关系和社会生活受到影响,长期下去必会阻碍学习和生活的正常进行。在大学生中,网络成瘾已成为影响其学习、生活、身心健康的重大公害,因此必须重视大学生的网络心理。关于大学生网络成瘾的研究主要集中于定性的描述和理论探讨上。对造成网络成瘾的原因探讨涉及到个人心理因素和外部环境两方面。本研究主要探讨大学生网络成瘾与其各心理因素之间的关系。

材料和方法

1.材料

很多研究表明,网络成瘾者往往具有某些特殊的人格特征,如角色混乱、人格扭曲、道德感弱化等。本研究拟通过病例对照研究来揭示网络成瘾大学生的人格特征及应对方式、人际交往、社会支持、生活满意度等方面的情况。

2.研究工具

将网络成瘾问卷、问卷艾森克人格问卷(EPQ)、卡特尔16种人格因素分析(16PF)、简易应对方式问卷(SCSQ)、交往焦虑量表(IAS)、人际信任量表(IT)、领悟社会支持量表(PSSS)和生活满意度指数B(LSIB)按顺序编制成一份问卷。

其中网络成瘾问卷由Young KS编制,共8个问题,以“是”与“否”作答(“是”1分,“否”0分),总分≥5分者可判定为网络成瘾(IAD)。

3.取样

从黑龙江大学2002~2005级404个专业本科生中,利用SPSS软件采用整群随机抽样的方式,共抽取13个专业(班级),1071名学生,发放网络使用情况调查问卷1030份,回收问卷906份,其中有效问卷881份。

4.施测过程

以班为单位进行统一施测,主试经过严格培训。

5.分组

在调查对象中选取网络成瘾问卷总分≥5分者进行访谈,确认具有网络成瘾的被试共50人(男生41人、女生9人)为病例组。从样本总体中排除成瘾组的学生后利用SPSS软件随机抽样选取对照组98人(男生83人、女生15人)。经检验,病例组和对照组在人口学统计资料方面均无显著性差异,可以用作对比分析。

6.数据处理

应用SPSS11.0统计分析软件包对数据进行描述性统计分析,t检验、方差分析、x2检验、多元逐步回归分析及相关分析。

结果分析

一是大学生中存在一定比例的网络成瘾现象,本研究结果表明,大学生网络成瘾发生率为6.02%。

二是网络成瘾状况在性别、年级、家庭所在地和专业特征方面有一定差异。其中男生网络成瘾发生率明显高于女生、城镇生源学生的网络成瘾发生率明显高于农村生源,理工科专业学生的网络成瘾发生率明显高于文科类学生、各年级学生网络成瘾的发生率也各有不同,二、三年级学生的网络成瘾发生率明显高于一、四年级;其中大二最高,大一最低;一年级到二年级显著增高,三年级到四年级比例显著降低。

三是EPQ问卷结果显示除E量表外其余各量表均分IAD组均高于非IAD组,在P(精神质)量表中IAD组与非IAD组有显著差异(P

四是16PF问卷对比分析中,部分因子在被试中有显著差异。

五是在SCSQ、IAS、IT、PSSS和LSIB问卷分析中,在积极应对方式上IAD组和非IAD组有差异(P

六是以网络成瘾问卷分数作因变量,将与网络成瘾相关的有统计学差异的因子P(精神质)、积极应对方式、领悟社会支持、生活满意度、性别、平均每周上网时间、平均每周上网次数等可能的影响因素作自变量,以后退法(最大似然比函数检验)(入选标准α=0.50,剔除标准β=0.10)进行多因素条件逻辑回归分析。结果表明性别、平均每周上网时间、生活满意度三个因子对网络成瘾有预测作用。

一点建议

网络成瘾大学生整体心理健康水平相对要低于非网络成瘾者的心理健康水平,这种不良的人格特征和生活事件的应激相互作用,使网络成瘾者愈发沉迷于网络,不能自拔,以致引发更严重的后果,因此必须重视青少年和大学生中的网络成瘾情况,采取有力措施。

第一,引导大学生合理利用网络,净化网络环境。正值青春期的大学生,心理发展正处于走向成熟的关键时期。应制定相应的网络管理条例,对大学生的非理性的网络行为加以引导和约束,强化大学生的网络责任感,鼓励他们控制上网时间,养成良好的上网习惯。同时应加强网络监督机制,倡导诚信上网,净化网络环境,要在加强社会监管的同时从自身做起,抵制网络的不良行为。

第二,培养大学生的网络心理素质。一个心理健康的人需要有正确的认知、健全的意志、恰当的自我评价,良好的人际交往和社会适应能力。大学生网络的心理素质要充分适应网络环境和网络社会生活。首先,要培养良好的网络认知能力,即认识到网络的正负两面性,趋利避害、合理利用。其次,要培养良好的网络交往能力,要了解网络的虚拟性和现实世界的差别,真诚待人。最后,要有健全的意志和恰当的自我评价,健全的意志和恰当的自我评价可以表现出较多的自觉性、果断性、持之以恒,不受外界诱惑,对自己抱有正确的态度,不骄傲也不自卑。

第三,帮助大学生确立目标,合理进行生活规划。许多大学生沉迷于网络是因为进入大学后失去了理想和目标,转而从网络中寻找慰藉。应当帮助大学生树立切实的目标,合理进行生活规划,让他们知道大学阶段知识积累的重要性,树立切实的目标并为之奋斗。同时鼓励大学生积极参加学校的集体活动,在活动中获得知识,增强思考能力,提高实践技能,逐渐分散对网络的关注和依赖。

第四,积极塑造健全人格。美国心理学家奥尔波特认为,成熟、健康是人格健全的标志,健全的人格可以使大学生迅速适应环境,进行自我调整,在新的环境中找到自己的朋友,排除各方面的干扰,及时宣泄不良情绪,具有正确的自我认知,能够解决内心冲突。

参考文献:

[1]丁海燕.网络成瘾研究述评.大学时代B,2006(4).

[2]叶新东.网络成瘾研究概述.心理科学,2004;27(10):144-148.

[3]林绚辉,阎巩固.大学生上网行为及网络成瘾探讨[J].中国心理卫生杂志,2001,15(4):281-283.

[4]王立皓,童辉杰.大学生网络成瘾与社会支持、交往焦虑、自我和谐的关系[J].健康心理学杂志,2003,11(2):94-96.

[5]张宏如.网络成瘾学生动机与人格特征[J].健康心理学杂志,2003,11(5):398-400.

[6]龚耀先.艾森克个性手册[M].湖南医学院,1993;2-31.

卷积在神经网络中的作用篇7

关键词:损伤检测;深度学习;卷积神经网络

中图分类号:TP183 文献标识码:A 文章编号:1009-3044(2017)04-0178-05

1 概述

光学元件损伤检测技术在许多光学装置中都有重大应用,如大型光学望远镜、高功率激光驱动器等,损伤检测的结果为装置健康维护提供重要依据。

根据检测环境的不同,损伤检测系统可分为在线检测和离线检测。在离线检测中,通过成像设备可获得高质量的原始损伤图像,图像中的噪声低、类型单一,得到的损伤检测结果足够精确,但离线检测存在着检测周期长、成本高的问题。与离线检测相比,在线检测直接利用光学装置中的成像单元采集工作状态下的图像,将其作为原始损伤图像,虽然精确程度低于离线检测,但其效率高、成本低。在线检测也存在固有问题:大规模噪声和复杂背景,如图1所示,这对损伤识别造成了严重影响,该图像为激光设备中CCD采集得到的原始损伤图像,实线标记内为明显损伤,其与背景噪声存在明显差异,虚线标记内为非明显损伤,其与背景噪声融为一体。

在经典的边界检测和区域检测算法中,原始图像可经过降噪滤波、二值化、边界提取算子等处理方法,得到边界和包围区域。这种处理方法实现简单,但在实际应用中,受高噪声、复杂背景和参数设置的局限性,鲁棒性很差,处理效果不好。在损伤识别中,微小损伤往往被背景噪声环绕,大范围的滤波对噪声有一定的抑制作用,对微小损伤同样是严重的破坏。为了改善边界提取效果,很多研究者在边界提取过程中综合了梯度方向、梯度大小、灰度曲率、拉普拉斯交叉特征等参考因素来动态修正边界检测结果[1]。面对更为复杂的检测环境,甚至需要人工添加标记点来辅助边界的检测[2],目的是为了规避全局噪声影响,在局部生成一条最优边界。在大范围噪声和复杂环境下,区域化处理是一种有效的方法。

损伤检测区域化处理的关键在于对背景噪声区域和损伤区域的识别。这个过程需要对二者进行特征提取和训练。常用的人工特征提取算法具有局限性,同一类对象表现形式的跨度越大,人工特征提取算法所得到的特征的代表性就越低。面对原始损伤图像中千变万化的背景噪声,很难设计一套将损伤和背景噪声显著区分的特征提取算法。深度学习是集特征提取和训练于一体的多层人工神经网络,按照节点间的连接关系和训练方式的不同,深度学习可分为深度信念网[3]、卷积神经网络[4],[5](Convolution Neural Network, CNN)、循环神经网络[6]等。CNN由Yann LeCun第一次提出并成功应用在MNIST手写数字识别任务中[5]。在众多深度学习网络结构中,CNN凭借其独特的卷积结构,对图像类型的数据有更好的特征提取和描述,在图像识别领域里具有天然优势,被广泛应用在各种复杂的实际问题中,如情感预测[7]、人体行为检测[8]、人脸匹配[9]、车辆类型识别[10]、交通信号标志识别[11]、医学影像识别[12]、自然图像层次分割[13]等。

本文以高功率激光驱动器为背景,设计了一种CNN结构,对原始损伤图像进行区域识别和局部处理,实验中的所有数据均由高功率激光驱动器中的科学CCD采集得到。本文的内容安排如下:第二节介绍多层网络结构和CNN;第三节中介绍损伤检测流程;第四节中介绍实验数据、检测效果及分析;第五节对整个在线损伤检测系统进行总结。

2 多层神经网络结构与卷积神经网络

深度学习结构的基础是多层神经网络,如图2所示。多层网络结构中含有输入层、中间隐藏层、输出层。相邻的不同层之间的节点均有权值连接,这样的结构为全相连结构,每个中间点输出值为公式(1)所示。

其中ω为层与层之间的参数矩阵,每一行为隐藏层节点与上层连接参数向量,b为偏移参数向量,x为输入行向量,f为激活函数,常用的激活函数有阶跃函数、sigmoid函数、双曲正切函数等。

CNN是一种特殊结构的深度学习网络,如图3所示。在CNN中存在着卷积层(C)、减采样层(S)、全相连层(F),且卷积层和减采样层交替出现。在卷积层中,数据会经过卷积核的卷积操作、对应关系叠加、激活函数的处理,形成特征图。在减采样层中,图像数据会根据减采样算子进行减采样操作。全相连层的网络结构同多层网络结构中的相邻两层。

在图3的CNN结构中,采用了SoftMax分类器,其激活函数为:

其中,θ为分类器输出层与输入层之间的参数向量,m是训练样本总数,i表示第i个训练样本,k是分类数量,hθ是输出分类概率向量,其值在0和1之间,总和为1,训练算法是代价函数对参数的梯度下降算法。

CNN的结构具有如下的特点:

A)局部相连

CNN不同于全相连网络结构,其卷积层节点与上层节点之间是局部相连的,如图4所示。局部相连的区域被称为感受野或卷积核,这种设计很大限度的减少了训练参数的数量。在图像中,一个点与周围点的信息相关性比远离点的相关性强,CNN更关注图像的局部特征。B)参数共享

在CNN卷积层中包含多张特征图,每张特征图都是由训练参数组成的卷积核与上一层的图像进行卷积操作得到的,并且这些参数在同一对应关系中是共享的,如图5所示,实线和虚线分别代表两组不同参数所组成的卷积核,这是CNN相比全相连多层网络结构参数大幅减少的另一个原因。假如上一层每张图像的尺寸为M×M,卷积算子尺寸为N×N,则卷积层征图的尺寸为:

特征图的数量是设计者在网络结构设计时决定的,并且一张特征图可以与上一层的一张图像对应(图7所示情况),也可以与上一层多张图像相对应。但不管哪种方式,都应保证在上下两层之间,两张图像的对应参数是共享的。

C)池化、减采样

池化操作是对特征图减采样的过程,如图6所示。池化的类型有最大值池化和平均值池化,最大值池化是在池化算子区域内寻找最大值,平均值池化是在池化算子内计算平均值。特征图的池化不仅降低了节点数量,同时也很好地保留了图像的局部特征,达到了特征降维的目的。

3 损伤检测流程

损伤图像处理的主要结构和流程如图7所示。主要包含:多尺度区域划分、子图像标准化、CNN识别、局部区域图像处理、损伤图像整合。接下来对每个单元的功能进行详细介绍。

输入图像单元:输入图像为像素600×600的原始损伤图像(原始损伤图像为灰度图像);

多尺度区域划分单元:按照不同的尺度,将原始损伤图像划分为不同尺寸检测区域,目的是降低损伤区域被拆分的概率,使损伤在检测区域中保持完整。当划分的尺度标准越多时,损伤在子图像中的完整性就越好,但所需的计算量就越大。实际应用中,损伤尺寸在10-20像素之间,用35×35和50×50两种尺度对原始损伤图像进行划分,损伤在所有不同尺度的识别区域中基本可以被完整覆盖;

识别区域标准化单元:不同尺度划分下,识别区域的尺寸是不一样的。CNN的输入维度是固定的,所以要把识别区域的尺寸规范到同一标准下。实际应用中,在35×35尺度下,忽略最后5像素的长度和宽度,其余识别区域保持不变。在50×50的尺度下,利用尺度缩放算子,将所有识e区域缩放到35×35尺寸;

卷积神经网络单元:CNN完成对识别区域的分类功能,输入是标准化的识别区域,输出是对应尺度的识别结果矩阵,矩阵中0代表背景区域,1代表损伤区域。实际应用中,输入是17×17和12×12的两组标准化识别区域图像,输出是17×17和12×12的两组识别结果矩阵;

局部区域处理单元:根据识别结果矩阵对原始损伤图像进行局部处理。结果矩阵中0所对应的区域为背景噪声区域,将对应区域的子图像像素置0;结果矩阵中1所对应的区域为损伤区域,将对应区域的子图像进行中值滤波、自适应二值化处理,得到损伤区域的二值损伤图;

多尺度损伤图像整合单元:将每个尺度下的二值图按原有对应位置关系组合,得到不同尺度下的损伤图像,损伤图像个数和尺度划分个数相等。在实际应用中,将得到35×35和50×50两种尺度所对应的两幅二值损伤图像,损伤图像的尺寸与原始损伤图像的尺寸相同;

整合、输出单元:对所有尺度下的损伤图像进行“或”操作,整合成为最终输出的损伤图像。

4 数据和实验

4.1数据制作

数据集是对分类器中的参数进行训练依据,数据集的好坏直接关系到识别效果。目前,在损伤检测领域里,尚未存在一个标准化的数据集,且本文中损伤检测的应用背景是高功率激光设备,训练所需的数据集也应该由该设备采集的原始图像制作而成。

为了制作更加标准的数据集,本文中调研了其他领域里的标准数据集,如MNIST[5](手写数字数据集)、NIST SD19[14](手写字符数据集)、GTSRB[15](德国交通标志数据集)、CIFAR 10[16](彩色自然图像数据集)。这些数据集有如下特点:1、数据量巨大,每类图像的样本数量均超过5000个;2、数据集中设置了训练样本集、测试样本集来进行参数训练和模型测试,个别数据集中还设置了有效样本集,其作用是在训练过程中通过在有效集上的测试,调整训练进度,在必要的时候提前中止训练,防止训练向差的方向发展。由于有效样本集参与了训练过程,所以不再适合用作测试样本集。

结合以上特点,本文所制作的数据集中包含损伤区域和背景噪声区域两类图像,识别区域尺寸设定为35×35像素。在实际应用中,共选定135个损伤区域,且均为明显损伤区域。由于损伤区域的位置会随机出现在识别区域内,所以在对损伤区域采样时,将每个损伤区域分别置于识别区域九宫格中的9个位置,对每个损伤区域进行9次不同位置的采样,共得到1215个损伤样本。对背景噪声的采样应用图像切割的方式,将600×600的所有原始损伤图像按35×35的尺寸进行分割,去除所有包含损伤区域的、不规则的样本,剩下的样本均作为背景噪声样本,共1364个。

Max Pooling\&维度变换\&全相连\&SoftMax\&]

受到原始数据数量的限制,得到的实际样本数量较少,为了扩充数据集的样本数量,获得更好的识别效果,在原有样本的基础上,对其进行处理与扩展,生成大量的伪数据,如图8所示,前两行为损伤区域样本,后两行为背景噪声样本。处理过程包括对原始样本的以下操作:旋转(3次顺时针旋转)、镜面(水平和竖直翻转)、对比度调整(增减10%)、亮度调整(增减10%)。最终得到的数据集中共有12150个损伤数据样本和13640个背景噪声样本,并从中各抽取2000样本组成测试样本集和有效样本集,其余组成训练样本集。在各个样本集中,损伤样本和背景噪声样本是随机出现的

4.2 CNN训练实验

在测试CNN在光学元件损伤检测中的表现效果时,设计了两个实验。

实验1:设计了如表1所示的CNN结构,其中F1与S2之间仅是维度的变换,由S2中50个尺寸为5×5的特征图变换成F1中节点数为1250的特征向量,卷积层所用的激活函数为双曲正切函数,全相连层所用的激活函数为sigmoid函数。用4.1中所制作的数据集进行训练和预测,在每次训练迭代完成时,用测试集对当前模型进行预测,记录错误率。

在CNN训练过程中采用批次训练的方式,每个批次含有500个样本,训练样本集分为24个批次,这样的训练方式是整体训练和逐一训练的折中,相比逐一训练,能保证训练的结果是趋于全局的,相比整体训练,能缩短训练时间。在CNN训练过程中,每次迭代需要训练24个批次,当所有训练样本训练完毕后,一次迭代完成,并用测试集进行测试。得到的结果如图9所示,经过50次迭代,错误率最终稳定在2.75%。

实验2:将实验1中训练好的CNN模型加入到损伤检测系统中,以图1所示的原始损伤图像作为输入,得到最终的损伤图像,得到的损伤检测结果如图10所示。

从损伤图像中可看出,图1中所有明显损伤均已正确识别并二值化处理。在四个非明显损伤中,仅1号损伤体现在了最后的损伤图像中,其余三个并未体现。查询所有尺度下的识别结果矩阵可得到如下信息:

1)四个非明显损伤中,1、2、3号所在区域均被正确识别为损伤区域,仅4号未被识别。2、3号之所以未在损伤图像中体现,是因为在损伤区域局部图像处理过程中,由于灰度变化不明显,自适应二值化算法并不能将损伤和背景噪声二值化区分,所以未被体现;

2)在所有背景噪声区域,有3个区域被误判为损伤区域,但并未对损伤图像造成视觉上的影响,其原因同1中所述。

5 结束语

在本文和相关的工作中,设计了一种区域识别、局部处理的损伤检测处理方式,并在光学元件损伤检测中成功规避了大规模噪声,有较好的识别效果。在数据集制作过程中,利用图像变换获取大量伪数据,扩充了数据集;设计了多尺度区域划分,使损伤尽可能的包含在识别区域内;在区域识别结构中以CNN作为分类器,设计CNN结构和训练方式;依据分类结果完成多尺度下的损伤图像和整体损伤图像。在损伤检测系统在现有数据中达到了预期的效果。

但在个别环节中仍存在不足:1、CNN分类器对非明显损伤的识别效果还有提升的空间,目前所用的训练集中的损伤样本主要是明显损伤样本,非明显损伤样本数量较少,原因是非明显损伤经过对比度和亮度变换,损伤信息会遭到极大的破坏,使其拓展样本成为脏数据。2、在局部处理中应用的自适应二值化算法仍具有参数局限性,不能满足所有情况。

在今后的研究工作中,会对CNN的结构、多任务的深度学习网络进行研究,并在实际中应用,提升分类单元对噪声的鲁棒性和非明显损伤的识别效果。

参考文献:

[1] Barrett W A, Mortensen E N. Interactive live-wire boundary extraction[J]. Medical Image Analysis, 1997, 1(4):331-341.

[2] F?rber M, Ehrhardt J, Handels H. Live-wire-based segmentation using similarities between corresponding image structures.[J]. Computerized Medical Imaging & Graphics the Official Journal of the Computerized Medical Imaging Society, 2007, 31(7):549-60.

[3] Hinton G E, Salakhutdinov R R. Reducing the dimensionality of data with neural networks.[J]. Science, 2006, 313(5786):504-507.

[4] Lecun Y, Kavukcuoglu K, Farabet C. C.: Convolutional networks and applications in vision[C]// Circuits and Systems (ISCAS), Proceedings of 2010 IEEE International Symposium on. IEEE, 2010:253-256.

[5] Lécun Y, Bottou L, Bengio Y, et al. Gradient-based learning applied to document recognition[J]. Proceedings of the IEEE, 1998, 86(11):2278-2324.

[6] Hochreiter S, Schmidhuber J. Long short-term memory.[J].Neural Computation,1997, 9(8):1735-1780.

[7] Baveye Y, Dellandrea E, Chamaret C, et al. Deep learning vs. kernel methods: Performance for emotion prediction in videos[C]// ACII. 2015:77-83.

[8] Rajeswar M S, Sankar A R, Balasubramaniam V N, et al. Scaling Up the Training of Deep CNNs for Human Action Recognition[C]// Parallel and Distributed Processing Symposium Workshop. IEEE, 2015.

[9] Khalil-Hani M, Sung L S. A Convolutional Neural Network Approach for Face Verification[C]// International Conference on High PERFORMANCE Computing & Simulation. 2014:707-714.

[10] Dong Z, Pei M, He Y, et al. Vehicle Type Classification Using Unsupervised Convolutional Neural Network[J]. IEEE Transactions on Intelligent Transportation Systems, 2014, 16(4):1-10.

[11] Lau M M, Lim K H, Gopalai A A. Malaysia traffic sign recognition with convolutional neural network[J]. IEEE International Conference on Digital Signal Processing (DSP) 2015:1006-1010.

[12] Hatipoglu N, Bilgin G. Classification of histopathological images using convolutional neural network[J]. International Conference on Image Processing Theory, Tools and Applications (IPTA) 2014:1-6.

[13] Jun W, Chaolliang Z, Shirong L, et al. Outdoor scene labeling using deep convolutional neural networks[C]// Control Conference. IEEE, 2015.

[14] Grother P J, Grother P J. NIST Special Database 19 Handprinted Forms and Characters Database[J].Technical repot, National Institute of Standards and Technology(NIST) 1995.

[15] Akasaki K, Suenobu M, Mukaida M, et al. The German Traffic Sign Recognition Benchmark: A multi-class classification competition[C]// Neural Networks (IJCNN), The 2011 International Joint Conference on. IEEE, 2011:1453-1460.

卷积在神经网络中的作用篇8

主体模糊、形式多样的新媒体具有资源的丰富性、传播的快捷性和交互的多元化等特点,给高职大学生的学习和生活带来了极大影响。本次调查采用无记名方式,发出问卷1350张,收回问卷1328张,有32%的大学生每天上网时间在8小时以上,每天上网时间6小时以上的为64%,每天上网时间最短的为2小时以上,19%的大学生上网的主要目的是用于专业学习,即查找资料或参加网络课堂学习,79%的学生主要目的是玩游戏。谈到父母对孩子上网的态度,15%的父母认为无所谓,34%的父母反感,26%的父母极度反感,25%的父母忍无可忍。从以上问卷调查结果来看,新媒体虽然对大学生有许多积极影响,但一些大学生却不经常使用和利用,或者无暇使用和利用,因为网络世界太丰富了,他们简直是分身乏术。但网络的消极作用却被大学生们快乐的享用着。因此,我们必须转变观念,增强新媒体对大学生思想政治教育的积极效应,使新媒体真正成为高职院校大学生思想政治教育的有效载体。

二、新媒体环境下高职大学生思想政治教育的对策

(一)利用新媒体拓展思政课教学渠道高职思政课是对大学生进行思想政治教育的主阵地、主渠道,思政课教师应顺应形势的发展,不断提高自己的新媒体素养,充分利用三门思政课:《思想和中国特色社会主义理论体系概论》、《思想道德修养和法律基础》、《形势与政策》,二种教学方式:理论教学和实践教学,用新媒体的优势开展思想政治教育。十召开以后,教育部《关于高等学校思想政治理论课贯彻落实十精神的教学建议》指出:让十精神进教材、进课程、进学生头脑。为此,我们在思政课教学中增加了两个环节。一是每日手机时事新闻播报,要求学生关注并收看收集近期国内外大事、热点问题。二是开办网上论坛,利用学院贴吧由思政课教师定期发帖,学生及时回复,主要目的是引导大学生学会感恩,懂得奉献,理智爱国,明辨是非。在思政课理论教学和实践教学的全过程中,我们特别注意利用多媒体的先进技术,发挥大学生擅长使用新媒体的优势,把学生吸引到思政课教学全过程中,充分发挥他们的积极性和主动性,让学生动脑思考、亲身体会和感悟,在不经意间进入角色,将自己学得的理论知识和经验内化为内心的信念,并外化出支配自己的行为,这样就可使大学生思想政治教育收到实效。

(二)利用新媒体提高大学生专门技能为了让新媒体在高职院校大学生思想政治教育中发挥积极作用,必须让大学生深入了解和掌握网络基础知识,学会正确使用网络。为此,我们邀请学院计算机系专业教师定期为大学生开办各种专题讲座。这种既专业又有趣的引导会让大学生慢慢远离网络游戏,使新媒体变成传播知识、传播文明、传播进取精神的工具。

(三)利用新媒体丰富大学生业余生活大学生沉迷网络造成不良后果的实例频频发生,因此我们必须守护网络文化阵地,维护校园网络文明,建设健康网络文化,经过以上一系列活动的开展,不仅丰富了大学生的业余生活,也解决了大学生苦恼和困惑,并且营造学业上竞争和合作的氛围,提高了大学生的综合素质。

上一篇:道路设计的合理化建议范文 下一篇:财务制度工作总结范文