数据挖掘技术的应用分析

时间:2022-08-07 04:27:25

数据挖掘技术的应用分析

摘要:网络时代,大量的信息在给人们带来方便的同时也带来了一大堆问题:第一是信息过量,难以消化;第二是信息真假难以辨识;第三是信息安全难以保证;第四是信息形式不一致,难以统一处理。面对“数据丰富而有用信息贫乏”的现象,数据挖掘和知识发现技术应运而生,并显示出强大的生命力。

关键词:数据挖掘;技术;应用

中图分类号:TP311.13文献标识码:A文章编号:1007-9599 (2010) 10-0000-01

Application of Data Mining

Bian Ruihai

(Henan University,Minsheng College,Kaifeng475001,China)

Abstract:In the Internet age,a lot of information in easy to bring also bring a host of problems:the first is information overload,it is difficult to digest;second is difficult to identify true and false;the third is difficult to ensure information security;the fourth form of information is inconsistent,it is difficult centrally.The face of"data rich and useful information poor"phenomenon,data mining and knowledge discovery techniques have emerged,and shows great vitality.

Keywords:Data mining;Technology;Application

“数据挖掘”这个名词来源于它有点类似于在山脉中挖掘有价值的矿藏。数据挖掘技术是人们长期对数据库技术进行研究和开发的结果。数据挖掘使数据库技术进入了一个更高级的阶段,它不仅能对过去的数据进行查询和遍历,并且能够找出过去数据之间的潜在联系,从而促进信息的传递。

一、数据挖掘的概念

数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知的、但又是潜在有用的信息和知识的过程。由于商业领域采用计算机技术处理业务,产生了大量的业务数据,分析这些数据也不再是单纯为了研究的需要,更主要是为商业决策提供真正有价值的信息。要从海量数据中获得有利于商业运作、提高竞争力的信息,就像从矿石中淘金一样,数据挖掘也因此而得名。

二、数据挖掘方法

数据挖掘方法是由人工智能、机器学习的方法发展而来,结合传统的统计分析方法、模糊数学方法以及科学计算可视化技术,以数据库为研究对象,形成的数据挖掘的方法和技术。数据挖掘的方法和技术可以分为六大类。

归纳学习方法是目前重点研究的方向,研究成果较多。信息论方法是利用信息论的原理建立决策树。由于该方法最后获得的知识表示形式是决策树,故一般文献中称它为决策树方法。该类方法的实用效果好,影响较大。集合论方法是开展较早的方法。近年来,由于初级理论的发展使集合论方法得到了迅速的发展。遗传算法是模拟生物进化过程的算法。它由基本算子组成。

三、数据挖掘的应用领域

目前,数据挖掘应用最集中的领域包括金融、医疗保健、市场、零售业、制造业、司法、工程与科学等。但每个领域又有其特定的应用问题和应用背景。

(一)金融

对金融事务数据的开采,能够发现某个客户、消费群体或组织的金融和商业兴趣,并可以观察金融市场的变化趋势。

(二)医疗保健

医疗保健行业有大量的数据需要处理。这个行业中数据挖掘最关键的任务是进行数据清理。系统可以从大型时变数据库中发现并理,预测医疗保健费用。由实验室开发的解释保健数据,在定量范围内解释偏差,生成报表。

(三)数字城市

数字城市建设中的数据整合系统,是通过对不同的数据库资源进行连接,根据需要获取不同的数据库资源的数据内容,组合形成所需要的数据资源,支持分析决策。在这种机制下,即实现了数据集市的建立,又解决了与城市信息化建设中业已建成的各种信息系统运行上独立,数据上统一的问题。

(四)司法

数据挖掘技术可应用在案件调查、诈骗监测、洗钱认证、犯罪组织分析等工作中,这将给司法工作带来巨大的收益,例如:美国财政部开发的系统,对各类金融事务进行监测,识别洗钱、诈骗等。

(五)制造业

制造业应用数据挖掘技术进行零部件故障诊断、资源优化、生产过程分析等。例如进行彩色扫描仪的生产过程分析。他们基于大约公司个参数建立了一个自动数据收集系统,产生了难以手工处理的大量数据,通过使用,工程师们能够对数据进行分析并对最重要的参数进行认定。

四、利用WEKA编写算法

WEKA是由新西兰怀卡托大学开发的开源项目。WEKA是由JAVA编写的,并且限制在GNU通用公众证书的条件下,可以运行在所有的操作系统中。WEKA工作平台包含能处理所有标准数据挖掘问题的方法:回归、分类、聚类、关联规则挖掘以及属性选择。作为数据挖掘爱好者自然要对WEKA的源代码进行分析并积极改进,努力写出自己的数据挖掘算法。我一直觉得对于机器学习算法来说,WEKA是很有特色的工具,算法非常多。而且还有诸如clementine之类的数据流处理工具。相比之下,clementine的算法就会失色很多。但是WEKA的可视化做的不好。这是它的缺点。如果在WEKA的基础上再做些二次开发,加强可视化的应用应该很不错。最近看到一本书叫《可视化数据》,作者竟然包装了java的图形库,自己创作出了个processing语言来做数据可视化,似乎效果不错,而且也是开源的。如果能在这个基础上做些研发应该会不错的。

数据挖掘技术是一个充满希望的研究领域,商业利益的强大驱动力将会不停地促进它的发展。每年都有新的数据挖掘方法和模型问世,人们对它的研究正日益广泛和深入。随着多媒体数据库的迅速发展,面向多媒体数据库的挖掘技术和软件亦将成为今后研究开发的难点和热点。

参考文献:

[1]韩少锋,陈立潮.数据挖掘技术及应用综述[J].机械管理开发,2006,2

上一篇:启用自然语言提高Vista系统搜索效率 下一篇:新手必看:图解电脑内外连线