浅谈机器学习

时间:2022-09-18 07:28:39

浅谈机器学习

[摘 要] 学习是人类智能的主要标志和获得智慧的基本手段,机器学习的研究就是希望计算机能像人类那样具有从现实世界获取知识的能力,同时进一步发现人类学习的机理和揭示人脑的奥秘。机器学习是人工智能的一个重要的研究领域。

[关键词] 机器学习 遗传算法 人工神经网络 支持向量机

当前人工智能研究的主要障碍和发展方向之一就是机器学习。包括学习的计算理论和构造学习系统。机器学习与计算机科学、心理学、认知科学等都有着密切的联系,涉猎的面比较广,有许多理论及技术上的问题尚处于研究之中。

一、什么是机器学习

机器学习就是要使计算机能模拟人的学习行为,自动地通过学习获取知识和技能,重新组织已有的知识结构,不断改善自身的性能,实现自我完善。即机器学习研究的就是如何使机器通过识别和利用现有知识来获取新知识和新技能。它是人工智能的核心,是使计算机具有智能的根本途径。该门科学起源于心理学、生理学、生物学、医学等科学,研究发展过程中涉及到数学、物理学、计算机科学等领域。机器学习主要围绕学习机理、学习方法、面向任务这三个方面进行研究,其应用几乎遍及自然科学的各个领域。其中最多的是模式识别、通讯、控制、信号处理等方面。

二、机器学习系统

学习是建立理论、形成假设和进行归纳推理的过程。为使计算机系统具有某种程度的学习能力,使它能够通过学习获取新知识,以改善性能,提高智能水平,需要建立相应的学习系统。学习系统一般由环境、学习环节、知识库、执行与评价组成,整个过程包括信息的存储、知识的处理两大部分。机器学习系统模型如图1所示。

图1 机器学习模型

框架图中的箭头表示知识的流向;环境是指外部信息源;学习环节是指系统通过对环境的搜索获取外部信息,然后经过分析、综合、类比、归纳等思维过程获得知识并将获得知识存入知识库;知识库用于存储由学习得到的知识,在存储时要进行适当的组织,使它既便于应用又便于维护;执行部分用于处理系统面临的现实问题,即应用学习到的知识求解问题。另外从执行到学习必须有反馈信息,学习将根据反馈信息决定是否要进一步从环境中搜索信息进行学习,以修改、完善知识库中的知识。这是机器学习系统的一个重要特征。机器学习系统是对现有知识的扩展和改进。

三、机器学习的主要策略

学习是一项复杂的智能活动,学习过程与推理过程紧密相连。按照学习中使用的推理的多少,机器学习所采用的策略主要可分为机械学习、通过传授学习、类比学习和通过实例学习等。学习中所用的推理越多,系统的能力越强。本文主要介绍以下三种机器学习方法,即遗传算法、人工神经网络模型及支持向量机。

1、遗传算法

遗传算法是一类借鉴生物界的进化规律(适者生存,优胜劣汰遗传机制)演化而来的随机化搜索方法。其主要特点是直接对结构对象进行操作,不存在求导和函数连续性的限定;具有隐并行性和更好的全局寻优能力;采用概率化的寻优方法,能自动获取和指导优化的搜索空间,自适应的调整搜索方向,不需要确定的规则。

由于遗传算法的整体搜索策略和优化搜索方法,在计算时是不依赖于梯度信息和其他辅助信息,而只需要影响搜索方向的目标函数和相应的适应度函数,所以遗传算法提供了一种求解复杂问题的通用框架,它不依赖于问题的具体领域,对问题的种类有很强的鲁棒性,所以广泛应用于自动控制、计算科学、工程设计、智能故障诊断、管理科学和社会科学等领域,适用于解决复杂的非线性和多维空间寻优问题。

2、人工神经网络模型

神经网络基本模型是在现代神经科学的基础上提出和发展起来的,旨在反映人脑结构及功能的一种抽象数学模型(见图3)。

图3 神经网络基本模型

一个人工神经网络是由大量神经元节点经广泛互连而组成的复杂网络拓扑,用于人类进行知识和信息表示、存储和计算行为。神经元模型如图4所示。

每一个细胞处于两种状态。突触联接有强度。多输入单输出。实质上传播的是脉冲信号,信号的强弱与脉冲频率成正比。

在神经网络中,大量神经元的互连结构及各连接权值的分布就表示了学习所得到的特定要领和知识。在网络的使用过程中,对于特定的输入模式,神经网络通过向前计算,产生一个输出模式,并得到节点代表的逻辑概念, 通过对输出信号的比较与分析可以得到特定解。神经元之间具有一定的冗余性,并且允许输入模式偏离学习样本,因此神经网络的计算行为具有良好的并行分布、容错和抗噪能力。

神经网络模型包括前馈型网络、反馈型网络、自组织竞争人工神经网络等。

图4神经元模型

(1)前馈型网络(BP)

前馈型网络,最初称之为感知器(包括单层感知器和多层感知器),是应用最广泛的一种人工神经网络模型。前馈网络结构是分层的,信息只能从下一层单元传递到相应的上一层单元,上层单元与下层所有单元相联接。转移函数可以是线性阈值的。多层感知器也被称为BP网络。多层感知器的输入输出关系与单层感知器完全相同。前一层的输出是下一层的输入。

(2)反馈型网络(Hopfield)

反馈型网络,它是一种动态反馈系统,所有计算单元之间都有联接。比前馈网络具有更强的计算能力。

(3)自组织竞争人工神经网络

在实际的神经网络中,存在一种侧抑制的现象。即一个细胞兴奋后,通过它的分支会对周围其他神经细胞产生抑制。这种侧抑制在脊髓和海马中存在,在人眼的视网膜中也存在。

自组织映射模型是由Kohonen提出来的。模型是以实际神经细胞中的一种特征敏感的细胞为模型的。各个细胞分别对各种输入敏感,可以代表各种输入,反映各种输入样本的特征。如果在二维空间上描述这些细胞,则,功能相近的细胞聚在一起,靠得比较近。功能不同的离得比较远。开始是无序的,当输入样本出现后各个细胞反映不同,强者依照“胜者为王”的原则,加强自己的同时对周围细胞进行压抑。使其对该种样本更加敏感,也同时对其他种类的样本更加不敏感。此过程的反复过程中,各种不同输入样本将会分别映射到不同的细胞上。

人工神经网络以其具有自学习、自组织、较好的容错性和优良的非线性逼近能力,受到众多领域学者的关注。在实际应用中,80%~90%的人工神经网络模型是采用误差反传算法或其变化形式的网络模型(简称BP网络),目前主要应用于函数逼近、模式识别、分类和数据压缩或数据挖掘。 但不适合高精度计算;学习问题没有根本解决,慢;目前没有完整的设计方法,经验参数太多。

3、支持向量机(SVM)

支持向量机是一种基于统计的学习方法,它是对结构风险最小化归纳原则的近似。它的理论基础是Vapnik创建的统计学习理论。

SVM就是首先通过用内积函数K(xi,xj)定义的非线性变换将输入空间变换到一个高维空间,在这个空间中求(广义)最优分类面。SVM分类函数形式上类似于一个神经网络,输出是中间节点的线性组合,每个中间节点对应一个支持向量。

由于统计学习理论和支持向量建立了一套较好的有限样本下机器学习的理论框架和通用方法,既有严格的理论基础,又能较好地解决小样本、非线性、高维数和局部极小点等实际问题,因此成为20世纪90年代末发展最快的研究方向之一,其核心思想就是学习机器要与有限的训练本相适应。

学习是人类智能的主要标志和获得智慧的基本手段,机器学习的研究就是希望计算机能像人类那样具有从现实世界获取知识的能力,同时进一步发现人类学习的机理和揭示人脑的奥秘。机器学习涉及到连接理论、认知理论、行为科学、神经科学等多门科学。因此,对于机器学习的研究,只有采用计算机科学、控制论、人工智能、认知科学、神经科学、心理学等多学科交叉的方法,才可望取得机器学习研究的更大进展。

机器学习是一个十分活跃、充满生命力的研究领域,同时也是一个比较困难、争议颇多的研究领域,虽然取得了一些令人瞩目的成就,但还存在许多尚未解决的问题。目前人工智能研究的主要障碍和发展方向之一就是机器学习,因此,机器学习有着广阔的研究前景。

参考文献:

[1] 张景绘,动力学系统建模[M].北京:国防工业出版社,2000.

[2] 杨义勇等,机械系统动力学[M].北京:清华大学出版社,2009.

[3] 闫友彪等,机器学习的主要策略[J].计算机应用研究,2004(7).

[4] 张学工,关于统计学习理论与支持向量机[J].自动化学报,2000(1).

上一篇:浅谈室内甲醛的污染及控制方法 下一篇:TSS粗煤泥分选机在王庄矿选煤厂的应用分析