时间:2022-10-06 09:55:29
摘要:本文介绍了机器学习与数据挖掘方法的基本特点,包括概念、发展、应用和分类概况,提供了一个了解机器学习与数据挖掘的应用视角。
关键词:机器学习
数据挖掘
人工智能
中图分类号:TP181
文献标识码:A
文章编号:1002-2422(2010)03-0093-02
1机器学习概述及方法分类
1,1机器学习的概念、应用及发展概况
机器学习是一种使获取知识自动化的计算方法的学习。机器学习在人工智能的研究中具有十分重要的地位。其应用已遍及人工智能的各个分支,如专家系统、自动推理、自然语言理解、模式识别、计算机视觉、智能机器人等领域。
对机器学习的研究大致经过以下四个阶段:
(1)20世纪50年代的神经模拟和决策理论技术,学习系统在运行时还很少具有结构或知识。主要方法是建造神经网络和自组织学习系统,学习表现为阈值逻辑单元传送信号的反馈调整。
(2)20世纪60年代早期开始研究面向概念的学习,即符号学习。使用的工具是语义网络或谓词逻辑,不再是数值或者统计方法。在概念获取中,学习系统通过分析相关概念的大量正例和反例来构造概念的符号表示。
(3)20世纪70年代中期,研究活动日趋兴旺。1980年在卡内基・梅隆大学召开的第一届机器学习专题研讨会,标志着机器学习正式成为人工智能的一个独立研究领域。
(4)20世纪80年代中后期至今,机器学习研究进入一个新阶段,已趋向成熟。神经网络的复苏,带动着各种非符号学习方法与符号学习并驾齐驱,并且已超越人工智能研究范围,进入到自动化及模式识别等领域,各种学习方法开始继承,多策略学习已经使学习系统愈具应用价值,而运用机器学习的数据挖掘在商业领域中的应用则是最好的例子。
1,2机器学习方法的分类
Bose和Mahapatra归纳了数据挖掘中使用的机器学习技术主要有以下五种:
(1)规则归纳:规则归纳从训练集中产生一棵决策树或一组决策规则来进行分类。决策树可以转化成一组规则,分类规则通常用析取范式表示。规则归纳主要优点是处理大数据集的能力强,适合分类和预测型的任务,结果易于解释,技术上易于实施。
(2)神经网络:由类似人脑神经元的处理单元组成,输入节点通过隐藏节点与输出节点相连接从而组成一个多层网络结构。节点的输入信号等于所有通过其输入链接到达此节点的信号的加权和。神经网络由相互连接的输入层、中间层、输出层组成。中间层由多个节点组成,完成大部分网络工作。输出层输出数据分析的执行结果。
神经网络的最大优点是能精确地对复杂问题进行预测。其缺点是处理大数据集时效率较低,用户在使用这种方法的时候需要具备相当的建立和运行该系统的工具知识。
(3)事例推理:每个事例都由问题描述和问题的解决方法两部分构成。提出问题后,系统会寻找匹配事例和解决方法。其优点是能够较好地处理污染数据和缺失数据,非常适用于有大量事例的领域。
(4)遗传算法:是一种基于生物进化过程的组合优化方法。其基本思想是适者生存,基本操作包括繁殖、杂交和变异三个过程。繁殖过程是从一个整体中选择基于某种特定标准的信息并对要求解的问题编码,产生初始群体,计算个体的适应度。杂交过程是把一个信息的某一部分与另一个信息的相关的部分进行交换。变异过程随机改变信息的某一部分以得到一个新的个体。重复这个操作,直到求得最佳或较佳的个体。遗传算法的优点是能够较好地处理污染数据和缺失数据,易于和其它系统集成。
(5)归纳性逻辑程序:用一级属性逻辑来定义、描述概念。首先定义正面和负面的例子,然后对新例子进行等级划分。这一方法具有较强的概念描述机制,能较好地表达复杂关系,体现专业领域知识,因而用该方法得出的模型易于理解。
2数据挖掘中机器学习技术的特性
商业数据库往往含有噪音,体现在存在错误和不一致性。如果数据验证过程不够充分,则可能允许用户输入不正确的数据,而数据迁移也可能产生破坏。
商业数据库的另一个常见问题是数据的缺失,尤其是当数据来自于不同的数据源时。由于数据编码标准和聚集策略的不同,有可能将导致无法对所有的属性进行分析。
另外,在商业数据挖掘中,数据集的大小从几吉到几兆不等,并往往还有大量的属性,所以可测量性是数据挖掘技术的一个重要方面。商业数据库含有多种属性类型,如果机器学习技术能够处理不同的数据类型,则将对数据挖掘产生更大的作用。
数据挖掘技术的预测精度是评价挖掘效果的一个非常重要的因素。遵循监督学习过程的机器学习系统首先被训练,但是系统对真实数据的预测精度往往低于对训练数据的预测精度。所以,能对真实数据得到较高的预测精度显然是一个所需的特性。
结果的可解释性是另一个重要的所需特性。在商业数据挖掘应用中往往需要使用不同的DSS或DBMS,所以与其他信息系统的易整合性也是一个需要的特性。不同的机器学习技术需要终端用户具有一定程度的工具知识和领域知识,一些技术还需要对数据进行大量的预处理工作,因此对于终端用户来说,易于理解和需要较少预处理工作的机器学习技术是比较好的。
3机器学习方法与数据挖掘任务类型
Bose和Mahapatra把运用于数据挖掘的机器学习方法在商业应用时的任务类型可以归结为如下;
(1)分类:利用一个训练集来确定最大可区分属性,当分类确定好之后,新的实例可以通过分析进行合适的分类。
(2)预测:根据已观测到的数据来找出可能的将来值和/或属性的分布。主要的任务之一是确定对要预测的属性影响最大的属性。
(3)关联:在寻找实体之间或者实体属性之间的潜在联系规律的关联分析当中,最常见的就是市场菜篮子分析。
(4)侦察:侦察的目的在于寻找异常的现象、离群数据、异常模式等等,并且给出支持决策的解释。
机器学习方法及其所对应解决的数据挖掘中的任务类型总结如表1所示。
4结束语
目前机器学习技术的应用较多是金融、市场营销、电信领域和网络分析。在金融领域。机器学习技术较广泛地应用于预测型任务;在市场营销领域,机器学习技术较广泛地应用于关联型任务;在电信领域,机器学习技术在分类型、预测型和侦查型任务方面均有较多应用;在网络分析领域,机器学习技术应用较为广泛的是关联型任务。