数据挖掘浅谈

时间:2022-09-01 03:15:59

数据挖掘浅谈

摘要:该文分析了数据挖掘产生的背景,阐述了数据挖掘和数据仓库的区别于联系,并从从业方向进行了分析。

关键词:数据挖掘;数据仓库

中图分类号:TP315文献标识码:A文章编号:1009-3044(2009)25-7084-02

The Data Mining Discusses Shallowly

WANG Ya-fen1,2

(1.Wuhan University of Science and Technology, Wuhan 430070, China; 2.JingChu Technical Institute Computer Engineering College, Jingmen 448200, China)

Abstracts: This article mainly discusses the background of The Data Mining,and describes the diffrences and relations ofData Mining and Data Warehousing, and from was employed the direction to carry on the analysis.

Key words: data mining; data warehousing

1 数据挖掘产生的背景

数据收集和数据存储技术的快速进步使得各组织机构可以积累海量数据。如借助POS(销售点)数据收集技术[条码扫描器、射频识别(RFID)和智能卡技术],零售商可以在其商店的收银台收集顾客购物的最新数据。零售商想利用这些信息,“挖掘”出一些重要的商务问题的答案,如“谁是最有价值的顾客?”“什么产品可以交叉销售或提升销售?”又如,分子生物学研究者希望利用当前收集的大量基因组数据,更好地理解基因的结构和功能。过去,传统方法只允许科学家在一个实验中每次研究少量基因。微阵列技术的最新突破已经能让科学家在多种情况下,比较数以千计的基因的特性。这种比较有助于确定每个基因的作用,或许可以查出导致特定疾病的基因。然而,由于数据的噪声和高维性,需要新的数据分析方法。除分析基因序列数据外,还需要分析其他问题,如蛋白质结构预测、多序列校准、生物化学路径建模和种系发生学。这些需求都为数据挖掘研究提出了挑战。

2 什么是数据挖掘

通过上面的例子,我们可以将数据挖掘,用图1来简单解释。

输入数据可以以各种形式存储(平展文件、电子数据表或关系表),并且可以驻留在集中的数据存储库中,或分布在多个站点上。数据预处理(preprocessing)的目的是将未加工的输入数据转换成适合分析的形式。数据预处理涉及的步骤包括融合来自多个数据源的数据,清洗数据以消除噪声和重复的观测值,选择与当前数据挖掘任务相关的记录和特征。由于收集和存储数据的方式可能有许多种,数据预处理可能是整个知识发现过程中最费力、最耗时的步骤。

通过这些分析,我们可以得出数据挖掘(Data Mining),又称为数据库中的知识发现(Knowledge Discovery in Database, KDD),就是从大量数据中获取有效的、潜在有用的、最终可理解的模式的非平凡过程,简单的说,数据挖掘就是从大量数据中提取或发现知识。

这时,你可能会想到使用数据库管理系统查找个别的记录,或通过因特网的搜索引擎查找特定的Web页面等,然而,这些都不能称之为数据挖掘,而是信息检索(information retrieval)领域的任务。虽然这些任务是重要的,可能涉及使用复杂的算法和数据结构,但是它们主要依赖传统的计算机科学技术和数据的明显特征来创建索引结构,从而有效地组织和检索信息。尽管如此,数据挖掘技术也已用来增强信息检索系统的能力。它们的主要区别在于数据挖掘是在非有序数据中找出意外的关系或者知识,而数据库查询和搜索引擎查找是有目的地在有序数据中查找信息。

同时,也千万不要将若将Data Warehousing(数据仓库)和数据挖掘(Data Mining)相混淆。数据仓库本身是一个非常大的数据库,它储存着由组织作业数据库中整合而来的数据,特别是指事务处理系统OLTP(On-Line Transactional Processing)所得来的数据。将这些整合过的数据置放于数据仓库中,而公司的决策者则利用这些数据作决策;但是,这个转换及整合数据的过程,是建立一个数据仓库最大的挑战。因为将作业中的数据转换成有用的策略性信息是整个数据仓库的重点。综上所述,数据仓库应该具有这些数据: 整合性数据(integrated data)、详细和汇总性的数据(detailed and summarized data)、历史数据、解释数据的数据。从数据仓库挖掘出对决策有用的信息与知识,是建立数据仓库与使用Data Mining的最大目的,两者的本质与过程是两回事。如果将数据仓库比喻作矿坑,数据挖掘就是深入矿坑采矿的工作。换句话说,数据仓库应先行建立完成,Data mining才能有效率的进行,因为数据仓库本身所含数据是干净(不会有错误的数据参杂其中)、完备,且经过整合的。因此两者关系或许可解读为Data Mining是从巨大数据仓库中找出有用信息的一种过程与技术。毕竟Data Mining不是一种无中生有的魔术,也不是点石成金的炼金术,若没有够丰富完整的数据,是很难期待Data Mining能挖掘出什么有意义的信息的。

3 数据挖掘地作用

或许通过上面的分析,你已经发现了数据的挖掘的功能,在此,我们来对数据挖掘的作用作一总结:

分类 (Classification)首先从数据中选出已经分好类的训练集,在该训练集上运用数据挖掘分类的技术,建立分类模型,对于没有分类的数据进行分类。类的个数是确定的,预先定义好的。估值(Estimation)估值与分类类似,不同之处在于,分类描述的是离散型变量的输出,而估值处理连续值的输出;分类的类别是确定数目的,估值的量是不确定的。一般来说,估值可以作为分类的前一步工作。给定一些输入数据,通过估值,得到未知的连续变量的值,然后,根据预先设定的阈值,进行分类。预言(Prediction)通常,预言是通过分类或估值起作用的,也就是说,通过分类或估值得出模型,该模型用于对未知变量的预言。从这种意义上说,预言其实没有必要分为一个单独的类。预言其目的是对未来未知变量的预测,这种预测是需要时间来验证的,即必须经过一定时间后,才知道预言准确性是多少。 相关性分组或关联规则(Affinity grouping or association rules)用来发现描述数据中强关联特征的模式,如经典的尿布-啤酒规则。聚集(Clustering)聚集是对记录分组,把相似的记录在一个聚集里。聚集和分类的区别是聚集不依赖于预先定义好的类,不需要训练集。描述和可视化(Des cription and Visualization)是对数据挖掘结果的表示方式。这其实也是,数据挖掘的六种方法。

以上六种数据挖掘的分析方法可以分为两类:直接数据挖掘;间接数据挖掘

1) 直接数据挖掘

目标是利用可用的数据建立一个模型,这个模型对剩余的数据,对一个特定的变量(可以理解成数据库中表的属性,即列)进行描述。

2) 间接数据挖掘

目标中没有选出某一具体的变量,用模型进行描述;而是在所有的变量中建立起某种关系 。分类、估值、预言属于直接数据挖掘;后三种属于间接数据挖掘

4 数据挖掘从业分析

上面的一点知识仅能让我们对数据挖掘有个大概的认识,但是这点认识在您做出是否会或者喜欢从事这方面工作时,已经足够了。随后你可以作的就是选择它,开始深入的研究,或者选择相反的一面。

数据挖掘就业的途径从我看来有以下几种,(注意:本文所说的数据挖掘不包括数据仓库或数据库管理员的角色)。

1) 数据分析师:在存在海量数据的企事业单位做咨询、分析等。需要有深厚的数理统计基础,可以不知道人工智能和计算机编程等相关技术,但是需要熟练使用主流的数据挖掘(或统计分析)工具。从这个方面切入数据挖掘领域的话你需要学习《数理统计》、《概率论》、《统计学习基础:数据挖掘、推理与预测》、《金融数据挖掘》、《业务建模与数据挖掘》、《数据挖掘实践》等,当然也少不了你使用的工具的对应说明书了,如SPSS、SAS等厂商的《SAS数据挖掘与分析》、《数据挖掘Clementine应用实务》、《EXCEL 2007数据挖掘完全手册》等,如果多看一些如《中文版 数据挖掘原理》 等书籍那就更好了。

2) 程序设计开发:在企业做数据挖掘及其相关程序算法的实现等。主要是实现数据挖掘现有的算法和研发新的算法以及根据实际需要结合核心算法做一些程序开发实现工作。要想扮演好这个角色,你不但需要熟悉至少一门编程语言如(C,C++,Java,Delphi等)和数据库原理和操作,对数据挖掘基础课程有所了解,读过《数据挖掘概念与技术》、《人工智能及其应用》。有一点了解以后,如果对程序比较熟悉的话并且时间允许,可以寻找一些开源的数据挖掘软件研究分析,也可以参考如《数据挖掘:实用机器学习技术及Java实现》等一些教程。

3) 做科研:在高校、科研单位以及大型企业,主要研究算法、应用等。这里的科研相对来说比较概括,属于技术型的相对高级级别,也是(2)(3)的归宿,那么相应的也就需要对(2)(3)的必备基础知识了。

参考文献:

[1] (美)谭斯坦巴赫著,范明等译.数据挖掘导论[M].北京:人民邮电出版社,2006.

[2] 焦李成,刘芳.智能数据挖掘与知识发现[M].西安:西安电子科技大学出版社,2006.

[3] 何玉洁.数据库原理与应用[M].北京:机械工业出版社,2007.

[4] 陈志泊.数据仓库与数据挖掘[M].北京:清华大学出版社,2009.

上一篇:服务器集群及负载均衡的研究 下一篇:电动汽车所用电机控制器的性能简介及选择