神经网络极速学习方法研究进展

时间:2022-09-06 03:48:10

神经网络极速学习方法研究进展

摘要:神经网络已经在模式识别、自动控制及数据挖掘等领域取得了广泛的应用,但学习方法的速度不能满足实际需求。传统的误差反向传播方法(BP)主要是基于梯度下降的思想,需要多次迭代;网络的所有参数都需要在训练过程中迭代确定,因此算法的计算量和搜索空间很大。ELM(Extreme Learning Machine,ELM)是一次学习思想使得学习速度提高很多,避免了多次迭代和局部最小值,具有良好的泛化性能、鲁棒性与可控性。但对于不同的数据集和不同的应用领域,无论ELM是用于数据分类或是回归,ELM算法本身还是存在问题,所以本文对已有方法深入对比分析,并指出极速学习方法未来的发展方向。

关键词:数据挖掘;神经网络;极速学习机

中图分类号:TP18文献标识码:A文章编号:1009-3044(2011)10-2368-04

Survey of Extreme Learning of Neural Networks

YANG Feng-zhi1, PI Hui1, SU Jia-wei2

(1.School of Information, Yunnan Normal University, Kunming 650031, China; 2.School of Physics and Electronic Information, Yunnan Normal University, Kunming 650031, China)

Abstract: Neural Network have been widely applied in many fields including pattern recognition, automatic control, data mining etc. However, the traditional learning methods can not meet the actual needs. The traditional method is mainly based on gradient descent and it needs multiple iterations; all of the network parameters need to be determined by iteration. Therefore, the computational complexity and searching space will increase dramatically. ELM is one-time learning idea, this method is faster algorithm and voids a number of iterations and the local minimum, it has better generalization, robustness and controllability. But for different data sets and different applications, it is used for both data classification or regression. ELM algorithm has some problems. So this paper follow a comprehensive comparison and analysis of existing methods, future research directions are highlighted.

Key words: data mining; neural networks; extreme learning machine

随着计算机硬件设备技术的稳定进步为人类提供了大量的数据收集设备和存储介质;数据库技术的成熟和普及已使人类积累的数据量正以指数方式增长;Internet技术的出现和发展已将整个世界连接成一个地球村,人们可以穿越时空在网上交换信息和协同工作。在这个信息爆炸的时代,面对着浩瀚无垠的信息,人类正被信息淹没,却饥渴于知识。人类怎样从数据中获取知识,就是在这个背景下,数据挖掘应运而生。

但面对海量的不同类型的数据集,参考文献[1]中提出了数据挖掘遇到了的三个困难:首先,巨量数据集的性质往往非常复杂,非线性、时序性与噪音普遍存在;其次,数据分析的目标具有多样性,而复杂目标无论在表述上还是处理上均与领域知识有关;第三,在复杂目标下,对巨量数据集的分析,目前还没有现成的满足可计算条件的一般性理论与方法。由于真实世界的数据关系是很复杂的,非线性程度相当高,而且普遍存在着噪音。如果把神经计算技术用于数据挖掘中,借助神经网络的非线性处理能力和容噪能力,能够较好的解决数据挖掘中存在的问题。但将神经计算技术用于数据挖掘主要存在两大障碍:第一是神经网络学到的知识难于理解;第二是学习时间太长,不适合于大型数据集。把这两个问题解决基于神经网络的数据挖掘将具有广泛的应用前景。针对上述存在的问题,基于神经网络的数据挖掘主要有两方面的研究内容,即增强神经网络的可理解性以及提高网络学习速度。对于前者,主要是从神经网络中抽取易于理解的规则,后者的解决方法是设计快速学习算法。本文针对基于神经网络的数据挖掘存在的第二个问题,即设计快速学习算法,对目前所有的神经网络极速学习算法进行综述。

神经网络极速学习方法主要是用于分类和回归。分类在数据挖掘中是一项非常重要的任务,分类的目的是学会一个分类函数或分类模型(分类器),该模型能把数据集中的数据项映射到给定类别中的某一个类别,分类也可以用来预测。分类器的构造方法有统计方法、机器学习方法、神经网络方法等等。另外许多技术也可以用于分类器的构造,如粗糙集、模糊数学等。主要代表的算法有:决策分类方法代表算法有ID3算法和C4.5算法;贝叶斯分类方法代表算法有朴素贝叶斯分类方法和EM算法;规则归纳方法代表算法有AQ算法和FOIL算法;神经网络方法主要是BP算法。以上这些算法都是比较经典且有代表性的算法。不同于传统的学习方法,Huang为单隐层前馈神经网络(Single-hidden Layer Feedforward Neural Network, SLFN)提出了一种称为极速学习机(Extreme Learning Machine, ELM)的学习方法,该方法整个过程一次完成,无需迭代,与BP相比速度显著提高(通常10倍以上)。

1 单隐层前馈神经网络(SLFN)模型

神经网络逐步的应用于各个领域,尤其是单隐层前馈神经网络的学习能力强,且不同的激励函数可以用于不同的应用领域。对于N个不同的样本(xi,ti),其中一个隐藏层节点数目为N'激励函数g(x)的SLFN的统一模型为

其中αi=[αi1, αi2,…, αin]T是连接第i个隐藏层结点的输入权值,bi是i个隐藏层结点的偏差(bias);βi=[βi1, βi2,…, βim]T是连接第i个隐藏层结点的输出权值; αi.xj表示αi与xj的内积。激励函数g(x)可以是”Sigmoid”、”Sine”或”RBF”等。

上述N个方程的矩阵形式可写成为: Hβ=T其中

E(W)表示期望值与实际值之间的误差平方和,问题求解就是寻找最优的权值W=(a,b, β)使得E(W)最小,其数学模型可表示为

其中εj=[εj1, εj2,…, εjm]是第j个样本的误差。

SFLN自身具有很多优点[9-13],所以在数据挖掘、自动控制及模式识别等领域取得了广泛的应用,它具有如下的优点:具有很强的学习能力,能够逼近复杂非线性函数;能够解决传统参数方法无法解决的问题。但是由于缺乏快速学习方法,传统的反向误差传播方法主要是基于梯度下降的思想,需要多次迭代,网络的所有参数都需要在训练过程中迭代确定。因此算法的计算量和搜索空间很大。

2 BP (Back Propagation)

由Rumelhart和 McCelland提出的BP神经网络模型是目前应用最广泛的模型之一[2],BP训练方法是通过反向误差传播原理不断调整网络权值使得实际输出与期望输出之间的误差平方和达到最小或小于某个阈值。当H未知时,通常采用梯度下降法迭代调整W:

其中η代表学习速率。

基于梯度下降法BP存在以下缺点:

1) 训练速度慢。因为需要多次的迭代,所以时间消耗很长;

2) 参数选择很敏感,必须选取合适的η与w初值,才能取得理想的结果。若η太小,算法收敛很慢,而η太大,算法不太稳定甚至不再收敛;

3) 局部最小值。由于E(w)非凸,因此在下降过程中可能会陷入局部最小点,无法达到全局最小[3];

4) 过渡拟合。在有限样本上训练时,仅以训练误差最小为目标的训练可能导致过渡拟合。

3 极速学习机(ELM)

一个具有N个隐藏结点的SFLN, 即使输入权值是随机取值,它也能够准确拟合N个不同的实例,更明确的讲, SFLN的学习能力只与隐藏层结点的数目有关,而和输入层的权值无关。基于这一思想,为了改进SFLN的学习效率,Huang基于SFLN模型提出了一种称为极速学习方法[5],其基本思想是:设置合适的隐藏层结点数,为输入权值和隐藏层偏差进行随机赋值,然后输出层权值通过最小二乘法计算得到。整个过程一次计算完成,不需要迭代计算,与BP相比速度提升10倍以上。

ELM算法思想及具体步骤如下:

给定一个训练集 激励函数g(x)以及隐藏层结点数N’。

1) 随机指定输入权值和偏差(ai,bi)i=1,2,…,N。

2) 计算隐藏层输出矩阵:

3) 计算输出权值。

虽然使用ELM训练样本与其它算法相比是更快且有较好的泛化性能[14-15]。但有两个问题仍然没有得到解决:一是在隐藏层中,ELM的隐藏结点数目需要被确定,在前面的研究中,隐藏结点的数目是通过实验和误差方法得到,但这不是最优的,对于不同的应用怎样选择合适的网络结构仍然是未知的;二是ELM有时需要很大的网络结构(隐藏结点的数目很多),由于初始阶段是一个随机过程,网络的复杂性会影响到算法的泛化性能。

4 启发式方法

基于以上研究,参考文献[8]中提出了两种启发式的方法对ELM算法进行改进:剪枝方法和增长方法,就是移除隐藏结点和增加隐藏结点。

4.1 剪枝方法

为了解决以上存在的两个问题,Rong在参考文献[6]中提出了一种剪枝算法P-ELM(Pruned ELM)应用于模式分类中,其基本思想是:首先随机生成一个大的网络,然后使用?字2和信息增益方法来移除隐藏结点来降低类间的相关性。

同样基于以上的两个问题,在解决分类和回归两大类问题时,还有另外一种剪枝算法OP-ELM(Optimally pruned extreme learning machine)在参考文献[7]中被提出。此算法的基本思想是:首先基于原始的ELM算法构建MLP(Multilayer Perceptron);使用MRSR(Multiresponse sparse regression)算法对隐藏结点进行排序[15];使用LOO(Leave-One-Out)选择隐藏结点。

虽然提出了P-ELM 和OP-ELM两种剪枝方法,但在参考文献[8]中作者提出剪枝方法面临着这样的两个困难:在开始移除隐藏结点之前,要确定网络最终的规模是很难的;在很多时候,剪枝方法要处理网络规模(应该移除隐藏节点的选择),这样会增加计算复杂性和需要更多的训练时间。这样虽然降低了网络的复杂性,但是以计算时间为代价。

4.2 增长方法

虽然剪枝方法很容易被理解,它花费了大量时间来处理移除的隐藏结点,如果训练样本很大,此算法的效率会变得更差。研究者们又提出了新的启发式方法,增加隐藏节点到隐藏层。

4.2.1 I-ELM(Incremental extreme learning machine)

在参考文献[16-17]中提出了I-ELM(Incremental extreme learning machine)。I-ELM学习方法的基本思想:在学习训练的过程中,一个一个的随机生成隐藏结点增加到隐藏层,当新的隐藏结点增加到网络中时,输出权值不会被重计算,既输出权值不会被更新,添加隐藏结点以后重新调整网络结构。此种方法被证明是满足实际需求的方法。但是这种方法得不到最佳的网络结构,它增加隐藏结点的停止标准是隐藏节点达到最大值或是训练率小于期望值,最大隐藏节点的数目和训练率是由用户规定的。用户没有标准判断最大隐藏结点的数目和训练精度应该是多大,所以这种方法得到的网络结构不是最优的。

为了改进I-ELM的性能,Huang 和Chen在参考文献[16]中提出了EI-ELM(Enhanced random search based incremental extreme learning machine)方法,此算法比I-ELM有更好的泛化性能。

4.2.2 EM-ELM(Error minimized extreme learning machine)

其思想不同于I-ELM的思想,Huang 和Feng在参考文献[18]中提出了EM-ELM(Error minimized extreme learning machine)方法其基本思想是:随机生成多个隐藏结点并将它们及时添加于隐藏层,输出权值同时被更新,更新后重新调整网络结构,直到达到训练精确度或最大隐藏结点数目。训练精确度和最大隐藏结点数目是由用户自己规定的。

I-ELM和 EM-ELM这两种增长方法,它们的思想都是添加隐藏结点到隐藏层,然后重新调整网络结构。但是他们停止增加隐藏结点的条件都是达到最大隐藏结点的数目或达到训练精确度,而这两个参数是由用户规定的,对于不同的应用,用户应该如何设置这样的参数也没有标准。所以通过这两种方法得到的神经网络结构也不是最优的。

4.2.3 CS-ELM(A Constructive hidden nodes selection method for ELM)

在I-ELM和 EM-ELM算法中,用户如何确定隐藏结点最大数目和训练精确度,还是一个未知的问题,这样会导致所产生的网络结构不是最佳的。所以在参考文献[19]中提出一种新的方法即CS-ELM(A Constructive hidden nodes selection method for ELM),此方法的基本思想是:随机生成一个隐藏结点作为候选库,从候选库中选择最重要的结点来调整网络结构,在训练的过程中,主要是要选择最佳隐藏结点的数目。当隐藏结点的选择标准是:当无偏风险估计标准CP达到最小时,隐藏结点的数目达到最佳。此方法主要有3个步骤:初始化阶段,将训练数据集分成不相交的两部分;选择阶段,选择最佳的隐藏结点数P*;训练和测试阶段,根据选择的P*重新构建网络结构,对数据集进行训练和测试。

CS-ELM算法的基本思想及步骤如下:

给定一个训练数据集{(xi,ti)}2n i=1、激励函数g(x)以及隐藏结点的最大数目Lmax。

第一阶段:把训练数据集分成不相交的两个子集,使用ELM模型随机生成隐藏结点{(ai,bi)}Lmax i=1,经训练得到矩阵t=Hβ+e,H=[h1,h2,…,hL]( 注:矩阵e是残差矩阵)。

第二阶段:当k=0设置L0=0,y(0)=0, β(0)=0,p=?准和Hp=0。将矩阵H和t零均值化。

不断迭代计算残差,使无偏风险估计标准CP达到最小时,隐藏结点的数目达到最佳。

第三阶段:第二阶段得到最佳的隐藏结点数目以后重构网络,对分组的数据进行训练和测试。

CS-ELM与I-ELM和 EM-ELM相比,能够重构最佳的网络结构,但是CS-ELM算法是一种贪心方法,当隐藏结点数P*被确定时,可能会影响后面隐藏结点的选择,当一个新的隐藏结点增加于隐藏层时,之前确定的P*就变得不重要。

4.2.4 TS-ELM(Two-stage extreme learning machine for regression)

除了上面这些方法外,在参考文献[20-23]中提出的OLS(Orthogonalleastsquares)也是一种比较流行的算法。但OLS算法也不是一种很好的算法,它也只是一种贪心的算法,只能达到局部最优。基于OLS算法的思想,Li在参考文献[24]中提出FCA(fast construction algorithm),此算法先基于SFLN模型随机生成隐藏结点,选择重要的隐藏结点一个一个的添加于隐藏层中,整个过程依赖于矩阵分解,选择隐藏结点的停止标准是隐藏结点的数目达到默认值。添加隐藏结点以后重新调整网络结构,对数据集进行训练和测试。FCA算法与ELM和OLS相比是更快的和更好的。

基于FCA和CS-ELM算法思想,Yuan等人在参考文献[8]中提出了TS-ELM(Two-stage extreme learning machine for regression),此算法分成两个步骤:第一阶段,随机生成隐藏结点于网络模型中,作为隐藏结点候选库,使用前向回归算法选择隐藏结点添加于网络中,直到无偏风险估计标准CP达到最小值,通过隐藏结点的网络贡献度来衡量隐藏结点的重要性。第二阶段,选择的隐藏结点被修正,一些不重要的隐藏结点被移除,降低网络的复杂性。该算法通过计算隐藏结点的网络贡献度,作为衡量隐藏结点重要程度的度量标准,选择重要的隐藏结点添加网络并重构网络,移除不重要的结点来降低网络复杂性,此算法的泛化性能和学习能力得到均衡,重构的网络也是最佳的。

5 极速学习方法(ELM)的应用

神经网络的应用十分广泛,尤其是单隐层前馈神经网络的学习能力强,不同的激励函数可以用于不同的应用领域。为了提高单隐层前馈神经网络的学习能力和泛化性能,提出了极速学习方法,该方法整个过程一次完成,无需迭代,与BP相比速度显著提高(通常10倍以上)。比较常见的应用领域有:传感器信息处理、信号处理、自动控制、知识处理、市场分析、运输及通信、电子学、神经科学等几个方面,除了以上这些,神经网络在下面这些领域也有着广泛的应用前景:娱乐、零售分析、信用分析、航空与航天和医疗诊断系统等[25]。极速学习方法是基于BP的改进学习方法,在以上这些领域,它也将有着广泛的应用前景。

6 总结

学习性能和泛化性能是神经网络研究中的最重要的两个问题,当神经网络的学习能力较强时,会导致过度拟合问题,使得神经网络模型训练结果很好,但用来预测未知数据时表现很差,即泛化性能差,所以神经网络的学习性能和泛化性能是一对矛盾。为了使两者均衡,选择合适的网络结构(如隐藏神经元的数目)、选择合适的样本尺寸和选择合适的模型以及样本特征集的选择等这几方面是很重要。在目前的研究中,为了使神经网络的泛化性能和学习能力得到均衡,研究者们主要是隐藏结点的选择对网络结构进行调整,以提升学习能力和泛化性能。而在网络模型中的输入权值和偏差并没有单独考虑,只是配合隐藏结点的选择而选择,但网络的学习性能和泛化性能也必和这两个参数有关系,所以这两个参数应该被考虑。对于不同的数据集,不同的应用领域,应该如何调整网络结构也是一个未知的问题,如果要将神经网络极速学习方法真正用于不同的领域,这些都是必需要考虑的。在未来的研究中,将在线学习与遗传算法、ELM及SVM结合起来将是一个值得研究的问题。在应用方面,可以用于任何分类问题和回归问题中,如何将神经网络极速学习方法用于具体的应用领域是一个值得研究的课题。

参考文献:

[1] 陈兆乾,周志华,陈世福.神经计算研究现状及发展趋势[J].计算机应用研究,2000(2):34-37.

[2] Rumelhart D E,McClelland J L. Paraller Distributed Processing[J].Cambridge:MIT Press,1986,1(2):125-187.

[3] Cristianini N, Shawe-Taylor J. An Introduction to Support Vector Machimes[J].Cambridge: Cambridge University Press,2000.

[4] Huang G-B.Learning capability and storage capacity of two hidden-layer feedforward networks[J]. IEEE Transactions on Neural Networks.2003.14(2):274-281

[5] Huang G-B, Zhu Q-Y, Siew C-K. Extreme learning machine: theory and application[J].Neurocomputing,2006,70(1-3):489-501.

[6] H-J Rong, Y-S.Ong, A-H.Tan,Z. A fast pruned-extreme learning machine for classication problem[J], Neurocomputing 72(2008) 359-366.

[7] Miche Y,Sorjama A, Lendasse A,OP-ELM:theory, experiments and a toolbox, in:V,Kurkov,R.Neruda,J.Koutnk(Eds.)ICANN.(1).ofLectureNotesinComputerScience,vol.5163,2008:145-154.

[8] YuanLan, YengChai Soh,Huang G-B. Two-stage extreme learning machine for regression[J].Neurocomputing73(2010)3028-3038.

[9] Park J, Sandberg I W, Universal approximation using radial basis function networks[J].Neural computation3(1991)246¨C257.

[10] Huang G B, Babri H A, Up perbounds on the number of hidden neurons in feedforward networks with arbitrary bounded non linear activation functions[J], IEEE Transaction son Neural Networks9(1)(1998)224¨C229.

[11] Huang G B, Chen Y Q, Babri H A.Classication ability of single hidden layer feedforward neural networks[J].IEEE Transaction son Neural Networks11(3)(2000)799¨C801.

[12] Mao K Z,G.-B.Huang,Neuron selection for RBF neural network classier Based on data structure preserving criterion[J].IEEE Transactions on Neural Networks16(6)(2005)1531¨C1540.

[13] Ferrari S, Stengel R F, Smooth function approximation using neural networks[J]. IEEE Transaction son Neural Networks16(1)(2005)24¨C38.

[14] Huang G B, Zhu Q Y, Siew C K, Extreme learning machine: a new learning scheme of feedforward neural networks[J]. in: Proceeding soInternational Joint Conference on Neural Networks,vol.2,Budapest,Hungary,25¨C29July2004 pp.985¨C990.

[15] Simila T, Tikka J. Multiresponse sparse regression with application to multidimensional scaling[J].in:Proceeding soft the 15th International Conference on Articial Neural Networks, ICANN2005,vol.3697,pp.97¨C102 2005.

[16] Huang G B, Chen L. Enhanced random search based incremental extreme Learningmachine[J].Neurocomputing71(2008)3060¨C3068

[17] Huang G B, Chen L. Convexin cremental extreme learning machine[J], Neurocomputing 70(2007)3056¨C3062

[18] Feng G, Huang G B, Q.Lin,R.Gay, Error minimized extreme learning Machine with growth of hidden nodes and incremental learning[J].IEEETransactionson Neural Networks 20(8)(2009)1352¨C1357.

[19] Lan Y, Soh Y C, Huang G B. Constructive hidden nodes selection of extreme Learning machine for regression[J].Neurocomputing(2010).doi:10.1016/j.neucom.2010.05.022.

[20] Chen S, Billings S A, Luo W. Orthogonal least squares methods and their Application to non-linear system midentication[J].International Journal of Control50(5)(1989)1873¨C1896.

[21] Chen S, Cowan C F N, Grant P M.Orthogonal least squares learning Algorithm for radial basis function networks[J].IEEE TransactionsonNeuralNetworks2(2)(1991)302¨C309.

[22] Chen S, Wigger J. Fast orthogonal least squares algorithm for efficient subset Modelselection[J],IEEETransactionsonSignalProcessing43(7)(1995)1713¨C1715.

[23] Zhu Q M, Billings S A.Fast orthogonal identication of nonlinear stochastic Models and radial basis function neural networks[J],International Journal of Control64(5)(1996)871¨C886.

[24] Li K, Huang G B, Ge S S.Fast construction of single hidden Layer feedforward networks[J],in:G.Rozenberg,T.H.W.Back,J.N.Kok(Eds.),Handbook of Natural Computing, Springer, April2010.

[25] 胡守仁.神经网络导论[M].湖南:国防科技大学,1993:22-27.

上一篇:门诊HIS高可用方案的实践和改进 下一篇:人脸性别识别综述