浅析数据挖掘技术

时间:2022-08-27 09:07:37

浅析数据挖掘技术

摘要:数据挖掘(DM)是从数据库中发现知识。该文简单介绍了数据挖掘的概念、常用技术、主要应用及其发展趋势。

关键词:数据挖掘;知识发现;关联规则;决策树

中图分类号:TP311文献标识码:A文章编号:1009-3044(2010)02-266-02

A Brief Analysis on DM Technique

ZHU Yong-chun, WAN Min

(Computer Center, Henan University, Kaifeng 475004, China)

Abstract: Data Mining (DM) is the knowledge discovery from databases. This paper briefly introduces DM technique, including the DM definition, common technology, key applications and its development trends.

Key words: data mining; KDD; association rule; decision tree

数据挖掘DM(Data Mining),又称为数据库中的知识发现KDD(Knowledge Discovery in Database),根据Usama M.Fayyy等[1]给出的定义:就是从大量数据中获取有效的、新颖的、潜在有用的、最终可理解的模式的非平凡过程。数据挖掘其实是一类深层次的数据分析方法,分析组织原有的数据,做出归纳推理,从中挖掘出潜在的模式,为管理人员决策提供支持。原始数据可以是结构化的,如关系数据库中的数据,也可以是半结构化的,如文本、图形、图像数据,甚至是分布在网络上的异构型数据。发现知识的方法可以是数学的,也可以是非数学的,可以是演绎的,也可以是归纳的。发现了的知识可以被用于信息管理、查询优化、决策支持、过程控制等,还可以用于数据自身的维护。简单的说数据挖掘就是从大量数据中提取或挖掘知识。注意不是所有的信息发现任务都被视为数据挖掘。例如,使用数据库管理系统查找记录,或通过因特网的搜索引擎查找特定的Web页面,则是信息检索(information retrieval)领域的任务。虽然这些任务是重要的,可能涉及使用复杂的算法和数据结构,但是它们主要依赖传统的计算机科学技术和数据的明显特征来创建索引结构,从而有效地组织和检索信息。即使如此,数据挖掘也已被用来增强信息检索系统的能力[2]。

1 数据挖掘中的常用技术

数据挖掘是一门涉及面很广的交叉学科,包括机器学习、数理统计、神经网络、数据库、模式识别、粗糙集、模糊数学等相关技术。就具体应用而言,数据挖掘是一个利用各种分析工具在海量数据中发现模型和数据间关系的过程,这些模型和关系可以用来做出预测。常用的数据挖掘技术包括:

1) 统计技术:统计技术对数据集进行挖掘的主要思想是:统计的方法对给定的数据集合假设了一个分布或者概率模型(例如一个正态分布)然后根据模型采用相应的方法来进行挖掘。

2) 关联规则:数据关联是数据库中存在的一类重要的可被发现的知识。若两个或多个变量的取值之间存在某种规律性,就称为关联。关联可分为简单关联、时序关联、因果关联。关联分析的目的是找出数据库中隐藏的关联网。有时并不知道数据库中数据的关联函数,即使知道也是不确定的,因此关联分析生成的规则带有可信度。

3) 神经网络技术:神经网络技术是属于软计算领域内一种重要方法,它是多年来科研人员进行人脑神经学习机能模拟的成果,已成功地应用于各工业部门。在DM(KDD)的应用方面,当需要从复杂或不精确数据中导出概念和确定走向比较困难时,利用神经网络技术特别有效。经过训练后的神经网络可以想象为具有某种专门知识的“专家”,因此可以像人一样从经验中学习。它已广泛地应用于各种DM(KDD)工具和软件中。神经网络技术也已广泛地做为一种方法嵌入各种DM成套软件中。其缺点是用它来分析复杂的系统诸如金融市场,神经网络就需要复杂的结构、为数众多神经元以及连接数,从而使现有的事例数(不同的纪录数)无法满足训练的需要。

4) 决策树:决策树提供了一种展示类似在什么条件下会得到什么值这类规则的方法。在知识工程领域,决策树是一种简单的知识表示方法,它将事例逐步分类成代表不同的类别。由于分类规则是比较直观的,因而易于理解。这种方法一般限于分类任务。

5) 遗传算法:基于进化理论,并采用遗传结合、遗传变异、以及自然选择等设计方法的优化技术。主要思想是:根据适者生存的原则,形成由当前群体中最适合的规则组成新的群体,以及这些规则的后代。它是解决各种组合或优化问题的强有力的手段,这种方法的不足之处是:这种问题的生成方式使估计所得解答的统计意义的任何一种机会不再存在。另外一方面,只有专业人员才能提出染色体选择的准则和有效地进行问题描述与生成。

6) 进化式程序设计:这种方法的独特思路是:系统自动生成有关目标变量对其他多种变量依赖关系的物种假设,并形成以内部编程语言表示的程序。内部程序(假设)的产生过程是进化式的,类似遗传算法过程。当系统找到较好地描述依赖关系的一个假设时,就对这程序进行各种不同的微小修正,生成子程序组,再在其中选择能更好地改进预测精度的子程序,如此依次进行,最后获得达到所需精度的最好程序时,由系统的专有模块将所找到的依赖关系由内部语言形式转换成易于为人们理解的显式形式,如数学公式,预测表等。

7) 基于历史的MBR(Memory-basedReasoning)分析:先根据经验知识寻找相似的情况,然后将这些情况的信息应用于当前的例子中。这个就是MBR的本质。MBR首先寻找和新记录相似的邻居,然后利用这些邻居对新数据进行分类和估值。使用MBR有三个主要问题,寻找确定的历史数据;决定表示历史数据的最有效的方法;决定距离函数、联合函数和邻居的数量。

8) 回归分析:回归分析分为线性回归、多元回归和非线性回归。在线性回归中,数据用直线建模,多元回归是线性回归的扩展,涉及多个预测变量。非线性回归是在基本线性模型上添加多项式项形成非线性回归模型。

9) 连接分析:连接分析,它的基本理论是图论。图论的思想是寻找一个可以得出好结果但不是完美结果的算法,而不是去寻找完美的解的算法。连接分析就是运用了这样的思想:不完美的结果如果是可行的,那么这样的分析就是一个好的分析。利用连接分析,可以从一些用户的行为中分析出一些模式,同时将产生的概念应用于更广的用户群体中。

10) 粗糙集:粗糙集理论基于给定训练数据内部的等价类的建立。形成等价类的所有数据样本是不加区分的,即对于描述数据的属性,这些样本是等价的。给定现实世界数据,通常有些类不能被可用的属性区分。粗糙集就是用来近似或粗略地定义这种类。

11) 模糊集:模糊集理论将模糊逻辑引入数据挖掘分类系统,允许定义“模糊”域值或边界。模糊逻辑使用0.0和1.0之间的真值表示一个特定的值是一个给定成员的程度,而不是用类或集合的精确截断。模糊逻辑提供了在高抽象层处理的便利。

12) 差别分析:差别分析的目的是试图发现数据中的异常情况,如噪音数据,欺诈数据等异常数据,从而获得有用信息。

13) 概念描述:概念描述就是对某类对象的内涵进行描述,并概括这类对象的有关特征。概念描述分为特征性描述和区别性描述,前者描述某类对象的共同特征,后者描述不同类对象之间的区别。生成一个类的特征性描述只涉及该类对象中所有对象的共性。

2 数据挖掘技术的具体应用

当前数据挖掘应用主要集中在电信、零售、农业、网络日志、银行、电力、生物、天体、化工、医药等方面。而数据挖掘技术最集中的应用领域包括以下四个方面,而且每个领域又都有自己特定的应用。

1) 金融领域:金融事务需要收集和处理大量的数据,通过对这些数据进行分析,发现其数据模式及特征,然后可能发现某个客户、消费群体或组织的金融和商业兴趣,也可观察金融市场的变化趋势。数据挖掘在金融领域应用广泛,包括数据清理、金融市场分析预测、账户分类、信用评估等。

2) 医疗保健领域:医疗保健业有大量的数据需要处理,但这个行业的数据由不同的信息管理系统管理,数据以不同的格式保存,从总体看,数据是无组织的。在这个行业中,数据挖掘的关键任务是进行数据清理、预测医疗保健的费用。例如,GTE实验室开发的KEFIR,它能进行多维分析,用以分析GTE的医疗保健数据,对比数据和预测数据,在定量范围内解释偏差,生成超文本报表[3]。

3) 市场领域:市场经济中存在形形的经济实体,这些经济实体共同造就并推动市场的繁荣与稳定。应用数据挖掘技术可协助经济实体进行市场定位、消费者分析、辅助制定市场营销策略、销售预测、库存需求、零售点的选择、价格分析等。

4) 科学研究领域:在信息量极为庞大的天文、气象、生物技术、社会学等领域中,所获得的大量实验和观察数据靠传统的数据分析工具难以应付,因此对功能强大的智能化自动分析工具要求迫切,这种需求推动了DM技术在科学研究领域的应用发展。目前己获得了一些重要的研究成果,如Jet Propulsion实验室利用决策树方法对上百万天体数据进行分析,帮助天文学家发现了16个新的星体,效果要比人工更快、更准确。

3 数据挖掘技术的发展趋势

当前,数据挖掘与知识发现研究方兴未艾,与其相关的软件研究与开发的总体水平相当于数据库技术在70年代所处的地位,迫切需要类似于关系模式和SQL查询语言等理论和方法的指导,才能使数据挖掘与知识发现的应用得以普遍推广。预计在本世纪,数据挖掘与知识发现的研究还会形成更大的高潮,研究的总体发展方向可能会集中到以下几个方面[4]:

1) 应用的探索:目前正探索扩大其应用范围,如生物医学、考古、电信、电子商务、保险等领域。

2) 改进数据挖掘算法:为了提高数据挖掘系统的可用性、可扩展性、高效性,我们需要对一批数据挖掘算法进行改进,需要探索新的挖掘算法,以适应新知识环境下的数据挖掘。

3) 数据挖掘与数据库系统、数据仓库系统和Web数据库系统的集成:数据挖掘系统的理想体系结构是与数据库和数据仓库系统的紧耦合方式。

4) 数据挖掘语言的标准化:数据挖掘语言的发展经过了数据挖掘查询语言、数据挖掘模型语言和通用数据挖掘语言或标准数据挖掘语言三个阶段。在通用数据挖掘语言的研究上一样取得了很大的进展,但还远没有达到像SQL查询语言的那种通用程度。实用的业界统一的标准语言将是未来数据挖掘语言努力的目标。

5) 可视化数据挖掘:可视化数据挖掘是从大量数据中发现知识的有效途径。多维数据的可视化、多维数据挖掘任务的可视化、模式可视化、模式比较和趋势分析可视化是进一步的研究目标。

6) 复杂数据类型挖掘的新方法:复杂数据类型挖掘是数据挖掘中一项重要的前沿研究课题。

7) Web挖掘:有关Web内容挖掘、Web日志挖掘和因特网上的数据挖掘服务,将成为数据挖掘中一个最为重要和繁荣的子领域。

8) 数据挖掘中的隐私保护与信息安全:任何事情都有其两面性,数据挖掘领域也不例外,在挖掘数据产生财富的同时,随之产生的就是隐私泄露和信息安全的问题。1995年隐私保护与信息安全成为了数据挖掘的一个研究主题,经过十几年的发展,仍不成熟,在今后将是一个研究的热点方向。

4 结束语

数据挖掘技术是一个年轻且充满希望的研究领域,商业利益的强大驱动力将会不停地促进它的发展。每年都有新的数据挖掘方法问世,每年都有新的数据挖掘方法和模型问世,人们对它的研究正日益广泛和深入。随着数据挖掘的进一步发展,它必然会带给用户更大的利益。

参考文献:

[1] 崔丽群.人工神经网络在数据挖掘中的应用研究[D].辽宁工程技术大学,2004.

[2] 陈立潮.人工神经网络在数据挖掘中的应用研究[D].华北工学院,2001.

[3] 麦强盛.数据挖掘技术应用研究综述[J].计算机与信息技术.2009(4).

[4] 文小燕,杜海若.数据挖掘的发展和应用综述[J].电脑知识与技术,2007(18).

上一篇:基于MATLAB的自相关函数基音检测的优化 下一篇:基于J2EE呼叫中心排班管理的设计与实现