浅议数据挖掘方法

时间:2022-02-28 07:50:23

浅议数据挖掘方法

数据挖掘的研究融合了多个不同学科领域的技术成果,其方法由人工智能、机器学习的方法发展而来,结合传统的统计分析方法、模糊数学方法及可视化技术,以数据源为研究对象,形成了以下几种数据挖掘的方法。

1.统计分析方法

统计分析方法是利用统计学原理对数据库中的数据进行分析,从而找出它们之间的关系和规律的方法。统计分析一直是分析空间数据的常用方法,侧重空间物体和现象的非空间特性分析。统计分析方法包括线性与非线性分析、相关分析、回归分析、差异分析、判别分析、Bayes网络等。统计分析方法的缺点是难以处理字符型数据,需要具有领域知识和统计知识,一般由具有统计经验的领域专家来完成。

2.基于集合论的数据挖掘方法

集合论(简称集论)是一门研究集合(由一些抽象数学对象构成的整体)的数学理论。集论(加上逻辑和谓词演算)是数学的公理化基础之一,通过集合、元素及成员关系来形式化地表示其他数学对象。基于集合论的数据挖掘方法包括覆盖正例排斥反例方法、概念层次网络方法和基于粗糙集理论方法,其中应用最广泛的是粗糙集(RS)理论方法。这三种方法中都使用了集合理论中的一些概念和原理,并涉及到大量的集合运算。

粗糙集理论(Rough Set Theory)是波兰学者Z.Pawlak在1982年提出的,它被广泛研究并应用于不精确、不确定、不完全的信息分类分析和知识获取。粗糙集(RS)作为集合论的扩展,是一种用于研究不完全和不完整信息描述的数据挖掘技术,它能够在缺少数据先验知识的情况下,以考察数据的分类能力为基础,解决模糊或不确定数据的分析和处理。

覆盖正例排斥反例方法是利用覆盖所有正例、排斥所有反例的思想来寻找规则。首先在正例集合中任选一个种子,到反例集合中逐个比较。与字段取值构成的选择子相容则舍去,相反则保留。按此思想循环所有正例种子,将得到正例的规则(选择子的合取式),比较典型的算法有Michalski的AQ11方法、洪家荣改进的AQ15方法和AE5方法。

概念层次网络(HNC)理论是关于自然语言理解处理的一个理论体系,它建立了网络式概念符号基元体系,即概念表述的数学表示式,这个表示式能够与自然语言的词语建立起语义映射关系,同时它是高度数字化的,每一个符号基元(字母或数字)都具有确定的意义,可充当概念联想的激活因子。语义网络是树状的分层结构,每一层的若干节点分别用数字来表示,网络中的任何一个节点都可以通过从最高层开始到该节点结束的一串数字唯一确定。HNC通过概念符号基元体系把自然语言映射到概念空间,数字化的概念表达式可以树形展开,这样才能充分利用概念符号化带来的优点对概念进行各种运算和操作。

3.决策树方法

决策树是通过一系列规则对数据进行分类的过程,其表现形式是类似于树形结构的流程图。首先,以信息论中的信息增益原理为基础,寻找数据库中最大信息量的字段,建立决策树的根节点;然后根据字段的不同属性值建立树的分枝,再在每个分枝子集中递归建立树的下层分枝和节点,非叶子节点表示属性,最下层的叶子节点表示数据集的子类类别,这样便生成一棵决策树;最后对决策树进行剪枝处理,通过树形结构产生一组规则,依照规则将数据集分类。它着眼于从一组无序、没有规则的数据中推理出决策树表示形式的分类规则。决策树方法的优点是决策制定的过程可见,不需要长时间构造过程,描述简单、易于理解、分类速度快;缺点是很难基于多个变量组合发现规则。决策树方法擅长处理非数值型数据,而且特别适合大规模的数据处理。常用的决策树算法有 CLS算法、ID3 算法、C4.5 算法等。

4.聚类分析方法

聚类分析方法是根据数据特征,按一定的距离或相似性系统,将数据分成一系列相互区分的类,划分的标准是类内差别最小、类间差别最大。即将实体对象或抽象对象的集合分组,这个由类似的对象组成的多个类的过程称为聚类。通过聚类以后,数据集就转化为类集,同类数据具有相似的变量值,不同类数据的变量值不具有相似性。在知识模式类型无法得知的情况下,可以运用聚类分析法进行分类、识别。按照模式间的相似程度进行自动分类的聚类分析法,能够将相似度大的模式归为一类。按聚类过程分,聚类分析法有凝聚算法、分裂算法、增量聚类和划分聚类。按相似性系统,聚类算法可以分成基于距离的方法、基于层次的方法、基于密度的方法以及基于网格的方法。例如,层次方法就是按照一定的层次分解给定的数据对象集合,可以分为分裂层次方法和凝聚层次方法。聚类分析法适用于分析样本之间的内部关系,合理的评价样本结构。此外,孤立点的检测也可以应用聚类分析。聚类是为了将某个对象从大量的数据中分离出来,而不是简单地将数据集合在一起。目前,聚类分析法已广泛应用于图像处理、模式识别、经济分析等多个研究领域。

5.人工神经网络方法

神经网络法是一种模拟生物神经系统的结构和功能,通过训练来学习的非线性预测模型,可完成分类、聚类、特征挖掘等多种数据挖掘任务。神经网络(Nerual Net)指由大量的神经元(PE)互连而成的网络,神经网路模型通常由输入层、中间层(亦称隐层)和输出层组成。在每个神经元求得输入值后,再汇总计算总输入值;由过滤机制比较总输入值,确定网络的输出值。可以通过连接一组神经元来模拟复杂行为,当修改连接层的“接度”或权值时,神经网络就进行了学习或“训练”。

神经网络的学习方法主要表现在上述权值的修改过程上。这种方法模拟了人脑神经元结构,通过大量神经元构成的网络来实现自适应的非线性动态系统,具有对非线性数据快速建模的能力,通过对训练集的反复学习来调节自身的网络结构和连接权值,并对未知的数据进行分类和预测。其优点是具有自学习、自组织、自适应、抗干扰、分布存储、联想记忆、非线性学习、大规模并行处理等功能,对复杂情况能得到精确的预测结果;缺点是不适合处理高维度变量,具有“黑箱”性,人们难以理解网络的学习和决策过程,输出结果也难以解释。目前,神经网络法主要用于数据挖掘的分类、聚类知识以及特征的挖掘过程。

6.遗传算法

遗传算法是一种采用遗传结合、遗传交叉变异及自然选择等操作来生成实现规则的、基于进化理论的机器学习方法。它的基本观点是“自然选择,适者生存”,在设计中使用抽象于生物进化过程的基于自然选择和生物遗传机制的优化技术;它由繁殖(选择)、交换(重组)和变异(突变)三个基本算子组成,具有隐含并行性、易于和其他模型结合等性质。遗传算法常用于优化神经元网络,提高神经网络的可理解性,解决其他技术难以解决的问题。遗传算法在问题解决过程中不是针对参数本身,而是针对通过参数集进行编码的基因个体,使其可对一些复杂的结构对象(集合、序列、树、图、表等)进行操作。利用对所有个体进行处理的方法,可以探索空间中的多个解,使遗传算法具有较好的全局搜索特性。它的主要优点是可以处理许多数据类型,同时可以并行处理各种数据,对问题的种类具有很强的适应性;缺点是需要的参数太多,编码困难,一般计算量较大,从遗传算法自身的角度考察,遗传算法实际上是一种最难以理解和开发难度最大的算法。

上一篇:农村电网降损措施 下一篇:干燥剂尺寸对织物透湿性测试的影响