论数据挖掘技术及其应用的实现

时间:2022-10-08 04:12:22

论数据挖掘技术及其应用的实现

【摘 要】在需要处理大数据量的科研领域中,数据挖掘受到越来越多的关注,本文介绍在实际问题中,大量成功运用数据挖掘的实例说明了数据挖掘对科学研究具有很大的促进作用。数据挖掘可以帮助人们对大规模数据进行高效的分析处理,以节约时间,将更多的精力投入到更高层的研究中,从而提高科研工作的效率。

【关键词】数据挖掘 知识获取 数据库

数据的迅速增加与数据分析方法的滞后之间的矛盾越来越突出,人们希望在对已有的大量数据分析的基础上进行科学研究、商业决策或者企业管理,但是目前所拥有的数据分析工具很难对数据进行深层次的处理,使得人们只能望“数”兴叹。数据挖掘正是为了解决传统分析方法的不足,并针对大规模数据的分析处理而出现的。数据挖掘通过在大量数据的基础上对各种学习算法的训练,得到数据对象间的关系模式,这些模式反映了数据的内在特性,是对数据包含信息的更高层次的抽象。

一、数据挖掘

数据挖掘是从数据仓库中提取出可信的、新颖的、有效的并能被人理解的模式的高级处理过程。所谓模式,可以看作是我们所说的知识,它给出了数据的特性或数据之间的关系,是对数据包含的信息更抽象的描述。如:成绩优秀的学生学习都非常刻苦;发烧的人是因为患了感冒等。模式的表示方法很多,可以利用图形、文字、表达式等方式表示;所谓处理过程是指数据挖掘是一个多步骤的对大量数据进行分析的过程,包括数据预处理、模式提取、知识评估及过程优化。知识提取往往需要经过多次的反复,通过对相关数据的再处理及知识学习算法的优化,不断提高学习效率。

二、数据挖掘的技术算法

在数据挖掘的处理过程中,数据挖掘引擎是最为关键的,而决定数据挖掘引擎的算法主要有以下几类:

(一)数据挖掘的信息论方法

该类方法是利用信息论原理,计算数据库中各字段的信息量,建立决策树或者决策规则树。比较重要的有ID3方法和IBLE方法。

(二)数据挖掘的集合论方法

粗集方法:在数据库中将元素看成行对象,列元素看成属性(分为条件属性和结论属性)。等价关系定义为不同对象在某个属性上相同,这些等价关系的对象组成的集合称为该等价关系的等价类。条件属性上的等价类E与结论属性上的等价类之间有三种关系:下近似,Y包含E;上近似,Y和E的交非空;无关,Y和E的交为空。对下近似建立确定性规则,对上近似建立不确定性规则(含可信度),对无关情况不存在规则。

概念树方法:数据库中记录的属性字段按归类方式进行抽象,建立起来的层次结构称为概念树。

(三)数据挖掘的仿生物方法

神经网络方法:神经网络通过学习待分析数据中的模式来构造模型,一般可对隐类型进行分类,用于非线性的、复杂的数据。神经网络由“神经元”的互连或按层组织的结点构成。通常,神经模型由三个层次组成:输入、中间层和输出。每一神经元求得输入值,再计算总输入值,由过滤机制比较总输入,然后确定其自己的输出值。可通过连接一组神经元来模型化复杂行为。当修改连接层的“连接度”或参数时,神经网络就进行了“学习”和“训练”。这里,神经网络用恰当的数据仓库示例来训练。目前,神经网络以MP和Hebb学习规则为基础,建立了三大类多种神经网络模型。

三、数据挖掘技术的应用

首先介绍一个著名的实例:SKICAT。然后结合实际具体探讨数据挖掘技术在Bayesian中的应用。

(一)天文数据分析中的数据挖掘

数据挖掘在天文学上有一个非常著名的应用系统:SKICAT[外3]。它是美国加州理工学院(CIT)与天文科学家合作开发的用于帮助天文学家发现遥远的类星体的一个工具。SKICAT既是第一个获得相当成功的数据挖掘应用,也是人工智能技术在天文学和空间科学上第一批成功应用之一。利用SKICAT,天文学家已发现了16个新的极其遥远的类星体,该项发现能帮助天文工作者更好地研究类星体的形成以及早期宇宙的结构。

(二)Bayesian网络中的数据挖掘

Bayesian网是由变量及其关联组成的有向图。它主要用于处理实际应用中遇到的不确定信息。图中还带有各变量的概率分布,定量的概率信息被表示为条件概率表中在决策前对实际问题的先验的理解与把握。

然而,针对实际问题建立一个应用于决策的Bayesian网络时存在两个问题。首先,我们常常是凭个人对问题的经验与理解来建立模型的,因此建立的模型很难反映问题的客观实际。其二,在确定Bayesian网中的条件概率表时,我们需要用定量的数值以支持计算,但实际中,人们很难给出一个具体概率值,一般的应用往往是根据经验,这就要求我们有一个合理的方法,从大量杂乱无序的数据中将它们找到,并填入条件概率表中去。

而数据挖掘技术恰恰为我们提供了一系列有效的方法来寻找隐藏于大规模数据之中的有用数据,以解决以上两个问题。在Bayesian建模中,我们需要找到各变量之间的关联,这种关联与关系数据库理论中的函数依赖(Functional Dependence)近似,后者表示了关系表中各属性(Attribute)之间的依赖关系,而前者表示Bayesian网中各变量是关系表中的属性时,两者的表示含义是一致而和谐的。因而,只要在关系表的元组中发掘出函数依赖,便可以认清Bayesian网中各变量之间的关系,从而给建模予以理论依据,并且在数量上以具体值作为技术支持。

将数据挖掘中函数依赖的挖掘与Bayesian网技术结合起来[外4],将带来以下好处:简化Bayesian网的结构; 根据所挖掘出的函数依赖的置信度,可以使Bayesian网中各结点关联更加清晰且有理可寻。

四、总结

数据挖掘技术是一个发展十分快的领域, 随着对数据挖掘技术在各领域日益广泛的应用,实现了数据资源共享及技术发展的跨域,从而大大提高了工作效率,并带来巨大的成功。21世纪是信息时代的社会,“信息不仅是资源,更是财富”,要实现经济的腾飞,需依赖高新尖科技的发展,故利用提供的信息,充分进行数据挖掘,则将为数据库的应用开辟了广阔的前景,也为人类的文明开辟了一个崭新的时代。

上一篇:行动导向教学模式在计算机教学中的应用 下一篇:延长FM275―550、755型风扇磨煤机检修周期的技...