浅谈数据挖掘技术

时间:2022-10-29 11:52:09

浅谈数据挖掘技术

摘要:数据挖掘技术是当前数据库和人工智能领域研究的热点课题,是目前广泛研究的数据库技术,它可以从大量的数据提炼出有用、潜在的信息,经过十几年的研究与应用,已经建立了比较扎实的理论基础,目前正在向与应用领域紧密结合,对现有技术进一步改造方面发展。

关键词:数据挖掘;方法;数据挖掘技术;数据仓库

中图分类号:TP311文献标识码:A 文章编号:1009-3044(2008)34-2030-03

Brief Analysis of Data Mining Techniques

WEI Xiao-ling

(Department of Primary education, Qinzhou University, Qinzhou 535000, China)

Abstract: Data mining techniques is an emerging research field in database and artificial intelligence.Is present widespread research data bank technology Is present widespread research data bank technology, It may refine usefully, the latent information from the massive data, After ten several years research and application, Had already established the quite solid rationale, at present, is closely integrated with applications, Further reform of the existing technology development.

Key words: data mining; methods; data mining; techniques data warehouse

1 引言

随着计算机技术,特别是数据库技术的快速发展和广泛应用,各行各业积累的数据量越来越大,传统的数据处理方式已很难充分利用蕴藏在这些数据中的有用知识,为适应这种需求 ,数据挖掘(Data Mining,DM)应运而生,并得以蓬勃发展,越来越显示出其强大的生命力。

数据挖掘技术是人们长期对数据库技术进行研究和开发的结果。起初各种商业数据是存储在计算机的数据库中的,然后发展到可对数据库进行查询和访问,进而发展到对数据库的即时遍历。数据挖掘使数据库技术进入了一个更高级的阶段,它不仅能对过去的数据进行查询和遍历,并且能够找出过去数据之间的潜在联系,从而促进信息的传递。

从80年代末数据挖掘开始出现,短短二十多年它的发展速度很快。目前数据挖掘技术在零售业的购物篮分析、金融风险预测 、产品质量分析、通讯及医疗服务 、基因工程研究等许 多领域得到了成功的应用.很多专题会议也把数据挖掘和知识发现列为议题之一。

2 数据挖掘技术概述

所谓数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。

数据挖掘的核心模块技术历经了数十年的发展,其中包括数理统计、人工智能、机器学习。今天,这些成熟的技术,加上高性能的关系数据库引擎以及广泛的数据集成,让数据挖掘技术在当前的数据仓库环境中进入了实用的阶段。

数据挖掘与传统的数据分析(如查询、报表、联机应用分析)的本质区别是数据挖掘是在没有明确假设的前提下去挖掘信息、发现知识。数据挖掘所得到的信息应具有先未知,有效和可实用三个特征。

3 数据挖掘技术功能

1) 自动预测趋势和行为

数据挖掘自动在大型数据库中寻找预测性信息,以往需要进行大量手工分析的问题如今可以迅速直接由数据本身得出结论。一个典型的例子是市场预测问题,数据挖掘使用过去有关促销的数据来寻找未来投资中回报最大的用户,其它可预测的问题包括预报破产以及认定对指定事件最可能作出反应的群体。

2) 关联分析

数据关联是数据库中存在的一类重要的可被发现的知识。若两个或多个变量的取值之间存在某种规律性,就称为关联。关联可分为简单关联、时序关联、因果关联。关联分析的目的是找出数据库中隐藏的关联网。有时并不知道数据库中数据的关联函数,即使知道也是不确定的,因此关联分析生成的规则带有可信度。

3) 聚类

数据库中的记录可被化分为一系列有意义的子集,即聚类。聚类增强了人们对客观现实的认识,是概念描述和偏差分析的先决条件。聚类技术主要包括传统的模式识别方法和数学分类学。80年代初,Mchalski提出了概念聚类技术其要点是,在划分对象时不仅考虑对象之间的距离,还要求划分出的类具有某种内涵描述,从而避免了传统技术的某些片面性。

4) 概念描述

概念描述就是对某类对象的内涵进行描述,并概括这类对象的有关特征。概念描述分为特征性描述和区别性描述,前者描述某类对象的共同特征,后者描述不同类对象之间的区别。生成一个类的特征性描述只涉及该类对象中所有对象的共性。生成区别性描述的方法很多,如决策树方法、遗传算法等。

5) 偏差检测

数据库中的数据常有一些异常记录,从数据库中检测这些偏差很有意义。偏差包括很多潜在的知识,如分类中的反常实例、不满足规则的特例、观测结果与模型预测值的偏差、量值随时间的变化等。偏差检测的基本方法是,寻找观测结果与参照值之间有意义的差别。

4 数据挖掘常用技术

在数据挖掘中最常用的技术有:

人工神经网络:人工神经网络方法从结构上模仿生物神经网络,是一种通过训练来学习的非线性预测模型。 它将每一个连接看作一个处理单元(PE),试图模拟人脑神经元的功能。它可以完成分类、聚类、特征挖掘等多种数据挖掘任务。

决策树:决策树是数据挖掘中经常要用到的一种技术,可以用于分析数据,同样也可以用来作预测。它利用树的结构将数据记录进行分类,树的一个叶结点就代表某个条件下的一个记录集,根据记录字段的不同取值建立树的分支;在每个分支子集中重复建立下层结点和分支,便可生成一棵决策树。常用的算法有CHAID、 CART、 Quest 和C5.0。

遗传算法:遗传算法是一种基于生物自然选择与遗传机理的随机搜索算法。其基本思想是基于 Darwin的进化论和 Mendel的遗传学说。该算法由密执安(Michigan)大学教授 Holland及其学生于 1975年创建。与传统搜索算法不同,遗传算法从一组随机产生的初始解,称为种群(Population),开始搜索过程。种群中的每个个体是问题的一个解,称为染色体(Chromone)。染色体是一串符号,例如一个二进制字符串。这些染色体在后续迭代中不断进化,称为遗传在每一代中用适应度 (Fitness)来衡量染色体的好坏。生成下一代染色体,称为后代(Offspring)。后代是由前一代染色体通过交叉(Crossover)或变异(Muration)运算形成。根据适应度大小选择部分后代淘汰部分后代,从而保持种群大小是常数。适应度高的染色体被选中的概率高。这样,经过若干代之后,算法收敛于最好的染色体,它很可能就是问题的最优解或次优解。

近邻算法:将数据集合中每一个记录进行分类的方法。

规则推导:从统计意义上对数据中的“如果-那么”规则进行寻找和推导。

5 数据挖掘技术实现

在技术上可以根据它的工作过程分为:数据的抽取、数据的存储和管理、数据的展现等关键技术。

1) 数据的抽取

数据的抽取是数据进入仓库的入口。由于数据仓库是一个独立的数据环境,它需要通过抽取过程将数据从联机事务处理系统、外部数据源、脱机的数据存储介质中导入数据仓库。数据抽取在技术上主要涉及互连、复制、增量、转换、调度和监控等几个方面的处理。在数据抽取方面,未来的技术发展将集中在系统功能集成化方面,以适应数据仓库本身或数据源的变化,使系统更便于管理和维护。

2) 数据的存储和管理

数据仓库的组织管理方式决定了它有别于传统数据库的特性,也决定了其对外部数据的表现形式。数据仓库管理所涉及的数据量比传统事务处理大得多,且随时间的推移而快速累积。在数据仓库的数据存储和管理中需要解决的是如何管理大量的数据、如何并行处理大量的数据、如何优化查询等。目前,许多数据库厂家提供的技术解决方案是扩展关系型数据库的功能,将普通关系数据库改造成适合担当数据仓库的服务器。

3) 数据的展现

在数据展现方面主要的方式有:

查询:实现预定义查询、动态查询、OLAP查询与决策支持智能查询;报表:产生关系数据表格、复杂表格、OLAP表格、报告以及各种综合报表;可视化:用易于理解的点线图、直方图、饼图、网状图、交互式可视化、动态模拟、计算机动画技术表现复杂数据及其相互关系;统计:进行平均值、最大值、最小值、期望、方差、汇总、排序等各种统计分析;挖掘:利用数据挖掘等方法,从数据中得到关于数据关系和模式的知识。

4) 数据挖掘一般过程

图1描述了数据挖掘的基本过程和主要步骤。

过程中各步骤的大体内容如下:

5.1 确定业务对象

清晰地定义出业务问题,认清数据挖掘的目的是数据挖掘的重要一步.挖掘的最后结构是不可预测的,但要探索的问题应是有预见的,为了数据挖掘而数据挖掘则带有盲目性,是不会成功的

5.2 数据准备

1) 数据的选择

搜索所有与业务对象有关的内部和外部数据信息,并从中选择出适用于数据挖掘应用的数据。

2) 数据的预处理

研究数据的质量,为进一步的分析作准备。并确定将要进行的挖掘操作的类型。

3) 数据的转换

将数据转换成一个分析模型。这个分析模型是针对挖掘算法建立的。建立一个真正适合挖掘算法的分析模型是数据挖掘成功的关键。

5.3 数据挖掘

对所得到的经过转换的数据进行挖掘。除了完善从选择合适的挖掘算法外,其余一切工作都能自动地完成。

5.4 结果分析

解释并评估结果。其使用的分析方法一般应作数据挖掘操作而定,通常会用到可视化技术。

5.5 知识的同化

将分析所得到的知识集成到业务信息系统的组织结构中去。

6 数据挖掘技术的应用

应用是数据挖掘技术的发展动力,数据挖掘研究具有广泛的应用前景,因为数据挖掘产生的知识可以用于决策支持、信息管理、科学研究等许多领域。数据挖掘技术与各个行业的有机结合体现了其蓬勃的生命力 ,且这种趋势正在以前所未有的速度继续向前发展。尤其是在如银行、电信、保险、交通、零售(如超级市场)等商业领域。数据挖掘所能解决的典型商业问题包括:数据库营销(Database Marketing)、客户群体划分(Customer Segmentation & Classification)、背景分析(Profile Analysis)、交叉销售(Cross-selling)等市场分析行为,以及客户流失性分析(Churn Analysis)、客户信用记分(Credit Scoring)、欺诈发现(Fraud Detection)等等。具体应用实例如:IBM公司开发的QUEST和Intelligent Miner系统可以挖掘顾客的购物行为模式,预测销售行情。AT& T实验室开发了Hancock系统,该系统主要处理电信数据流,分析电话呼叫记录。Bell通信研究所的Tribeca则是一个用于网络监控的系统。Google公司利用其数据挖掘技术Page Rank,在短短的几年内打败所有竞争对手成为Internet上的赢家。

7 结束语

数据挖掘是当前计算机工业最热门的研究领域之一。它是一个不断发展的、综合交叉的学科。随着数据挖掘成功案例的广播,越来越多的行业采用数据挖掘技术,它将会被广泛而深入地应用于人类生活的各个领域。

参考文献:

[1] 张士玲,杨林楠,孙向前,等.浅论数据挖掘技术[J].福建电脑,2005(8):61-62.

[2] 杨雪.浅析数据挖掘技术[J].华南金融电脑,2005(8):83-85.

[3] 张倩.数据挖掘技术综述[J].甘肃科技,2005,21(7):92-93.

[4] 黄晓霞,萧蕴诗.数据挖掘应用研究及展望[J].计算机辅助工程,2001(4):23-29.

[5] 唐华松,姚耀文.数据挖掘中决策树算法的探讨[J].计算机应用研究,2001(8):18-22.

[6] 吉根林.遗传算法在数据挖掘中的应用[J].信息技术,2001(12):5-9.

上一篇:C6711 DSP和PC的HPI-USB2.0通讯链路设计 下一篇:网络安全与防火墙技术研究