浅谈数据仓库和数据挖掘技术

时间:2022-09-21 04:18:41

浅谈数据仓库和数据挖掘技术

1、数据仓库

信息技术的不断推广应用,将企业带入一个信息爆炸的时代。每时每刻都有潮水般的信息出现在管理者的面前,等待管理者去处理、去使用。这些管理信息的处理类型主要分事务型(操作型)处理和信息型(分析型)处理两大类。事务型处理也就是通常所说的业务操作处理。这种操作处理主要是对管理信息进行日常的操作,对信息进行查询和修改等,目的是满足组织特定的日常管理需要。在这类处理中,管理者关心的是信息能否得到快速的处理,信息的安全性能否得到保证,信息的完整性是否遭到破坏。信息型处理则是指对信息做进一步的分析,为管理人员的决策提供支持。

1.1 数据仓库的定义

业界公认的数据仓库概念创始人W.H.Inmon在《数据仓库》(Building the Data Warehouse)一书中对数据仓库的定义是:数据仓库就是面向主题的、集成的、不可更新的(稳定性)、随时间不断变化(不同时间)的数据集合,用以支持经营管理中的决策制定。

数据仓库是将原始的操作数据进行各种处理并转换成综合信息,提供功能强大的分析工具对这些信息进行多方位的分析以帮助企业领导做出更符合业务发展规律的决策。因此,在很多场合,决策支持系统也成了数据仓库的代名词。建立数据仓库的目的是把企业的内部数据和外部数据进行有效的集成,为企业的各层决策和分析人员使用。

1.2 数据仓库的特点

从W.H.Inmon关于数据仓库的定义中可以分析出数据仓库具有这样一些重要的以下特性。

1.2.1 面向主题性

面向主题性表示了数据仓库中数据组织的基本原则,数据仓库中的所有数据都是围绕着某一主题组织展开的。由于数据仓库的用户大多是企业的管理决策者,这些人所面对的往往是一些比较抽象的、层次较高的管理分析对象。

1.2.2 集成性

所谓集成性是指在数据进入数据仓库之前,必须经过数据加工和集成,这是建立数据仓库的关键步骤。

1.2.3 时变性

所谓时变性是指数据仓库中的信息并不只是关于企业当时或某一时点的信息,而是系统地记录了企业从过去某一时点到目前的数据,主要用于进行时间趋势分析。

1.2.4 非易失性

数据仓库总是物理地分离存放数据,这些数据源于操作环境下的应用数据。

1.3 数据仓库的技术体系结构

一个数据仓库系统的技术体系结构总体来说包括后台数据预处理,数据仓库,数据管理和数据仓库的前台查询服务三大部分。

数据仓库中的数据来自企业内部不同的业务系统甚至企业外部的商业数据库,这些数据库对于数据仓库来说被称为数据源。数据源中的数据在数据的组织方式、数据格式等许多方面与数据仓库对数据的要求有很大的差别,因此这些数据不可能直接载入数据仓库的数据库中,为此必须进行数据的预处理操作。数据的预处理包括数据源的定义、从数据源提取数据到预处理数据区(数据准备区)、在数据准备区中对数据进行净化处理、作必要的转换、再将数据加载到数据仓库,等等。实现这部分功能的是数据仓库的后台数据预处理部分。

数据仓库的应用服务部分提供了各种应用工具,使用这些工具可以对数据仓库中的数据进行复杂的查询分析和知识挖掘等等。没有一种工具可以满足所有的应用需求。可选择的工具大致分为:数据挖掘工具:数据挖掘是基于人工智能来分析数据的一种技术,通过对数据仓库中数据的分析去发现一些用户可能没有想到的模式和数据关系。特别查询工具:特别查询提供了一种能力,使得分析人员可以提交一些特别的问题,并产生相应的结果。在线分析处理(OLAP,On-Line Analytical Processing):在线分析处理以数据立方体或多维的方式来查看数据,允许用户进行钻取以获得更详细或更概括的数据,或者对不同的“维”如时间、商品等进行切片操作。OLAP工具可用于对商业问题进行分析,是最常用的辅助决策工具。

2、数据挖掘

2.1 数据挖掘的概念

数据挖掘是指从大量的数据中提取有用的信息和知识的过程。所发现的信息和知识是潜在的并隐藏在大量数据背后的,是用户感兴趣的、可理解、可运用的知识。所以,数据挖掘有时也被人们称为知识挖掘、知识提取、知识发现等。

数据挖掘也可视为是一类深层次的新型数据分析方法,它与传统的数据分析的本质区别在于:数据挖掘是在没有明确假设的前提下去挖掘信息、发现知识,所得到的信息通常是预先未知的、也是很难预料到的,甚至与人的直觉是相背的,但又是非常有用的;而传统的数据分析得到的信息则是浮在表面的、人的直觉能够感受到的、或与人的直觉较为相近的。

2.2 数据挖掘的过程

数据挖掘过程,可以概括为数据准备、数据挖掘及结果的解释和评价三部分。

2.2.1 数据准备

数据准备一般包括三个子步骤:数据集成、数据选择、数据预处理。数据集成将多文件或多数据库运行环境中的数据进行合并处理,解决语义模糊性、处理数据中的遗漏和清洗“脏数据”等。数据选择的目的是辨别出需要分析的数据集合,即目标数据(Target Data),是以用户需求驱动的从原始数据库中抽取的一组数据,它使处理范围缩小,提高数据挖掘的质量。数据预处理一般包括消除噪声、推导计算缺值数据、消除重复记录、完成数据类型转换,预处理目的是为了克服目前数据挖掘工具的局限性。

2.2.2 数据挖掘

数据挖掘阶段首先要决定挖掘的任务或目标,确定了任务或目标之后我们才能决定使用什么样的挖掘方法。确定挖掘任务后选择合适的算法,可进行数据挖掘操作,获取相应的模式。

2.2.3 结果的解释和评价

经过数据挖掘阶段后,获得了一些模式结果,但通常存在冗余或无关的模式。有可能这些模式不满足用户要求,这时则需退回到发现过程的前面阶段,可能需要获取新的数据,采用新的数据预处理方法,换一种挖掘方法等等。

2.3 数据挖掘技术

数据挖掘技术主要分为:关联分析、时序模式、聚类、分类、偏差检测和预测等。

2.3.1 关联分析

关联分析用来发现关联规则。它是从数据库中发现知识的一类重要方法。关联分析广泛用于购物篮或事务数据分析。

2.3.2 时序模式

时间序列模式是用变量过去的值来预测未来的值。比如可以用前六天的数据来预测第七天的值,这样就建立了一个区间大小为7的窗口。

2.3.3 聚类

聚类是把整个数据库分成不同的组群。它的目的是使得群与群之间差别很明显,而同一个群内的数据尽量相似。划分出来的组群具有一定的意义,我们称为类。在同一类别中,个体之间的距离较小,而不同类别的个体之间的距离较大。

2.3.4 分类

数据挖掘应用最多的任务要属分类。分类找出描述并区分数据类或概念的模型,以便能够使用模型预测类标记未知的对象类。该模式能把数据库中的元组映射到给定类别中的某一个。

2.3.5 偏差检测

所谓偏差检测就是在数据分析中发现有很多异常情况存在于数据库中,我们根据这种异常情况可以获得很多有用的信息

2.3.6 预测

预测可以利用历史数据或数据分布依据一定的模型计算出数值数据或识别出未来分布趋势等。

2.4 数据挖掘面临的主要问题及对策

2.4.1 数据挖掘面临的主要问题

数据挖掘在不断的实际应用中,正不断地吸取各种领域的经验而逐渐成熟。从目前的情况来看,在运用现代数据挖掘技术时还需要注意一些问题,如数据挖掘任务、数据挖掘方法、用户交互、挖掘性能和数据类型多样性等问题。

2.4.2 主要对策

针对数据挖掘现在面临的主要问题,所应用的对策有以下一些:(1)与数据仓库技术结合。数据仓库可以为数据挖掘提供经过清洗的和转换的、完整的数据资源。(2)挖掘多种类型的知识。数据挖掘除了最常见的关联与分类之外,还有许多重要的任务待进一步的开发,包括聚合、预测模型以及时间相关分析等等。(3)发现语言的形式化描述,即研究专门用于知识发现的数据挖掘语言,如SQL语言一样的形式化和标准化。(4)可视化数据挖掘。寻求数据挖掘过程中的可视化方法,使知识发现的过程便于用户的理解,也便于在知识发现的过程中进行人机交互。(5)高效的数据挖掘。高效性和可伸缩性是目前数据挖掘算法的焦点之一,随着并行的、分布式的以及增长式的数据挖掘技术的研究与发展,这种趋势将会继续得到进一步的发展。(6)数据挖掘的应用。更加广泛的将数据挖掘技术应用于现实世界也是一个非常重要的研究方向。

3、数据挖掘与数据仓库的关系

3.1 数据挖掘是数据仓库发展的必然结果

随着大量数据被收集,从原始数据中得到有价值的决策信息越来越困难,于是新的数据库的体系结构产生了,即出现了数据仓库。数据仓库中存放的是从原始数据中经过计算和统计后得到的满足决策者需要的数据,这种数据也被称为是信息型或分析型数据。联机分析处理工具是基于数据仓库的信息分析处理过程,具有汇总、合并和聚集功能,以及从不同的角度观察信息的能力,但对于深层次的分析,如数据分类、聚类和数据随时间变化的特性,仍然需要其他分析工具。数据挖掘可以看作是联机分析处理的高级阶段。

3.2 数据仓库为数据挖掘提供应用基础

从数据挖掘的定义可以看出,数据挖掘包含一系列旨在从数据库中发现有用而未发现的模式的技术,如果将其与数据仓库紧密联系在一起,将获得意外的成功。

4、结语

本章主要介绍了数据仓库的概念、特点和体系结构,以及数据挖掘的概念、数据挖掘的过程和数据挖掘的技术,和数据挖掘面临的主要问题及对策,最后分析了数据挖掘与数据仓库的关系。为数据挖掘与数据仓库的实际运用打下坚实的理论基础。

参考文献

[1]吴庆慧.在金融数据库营销中的一种数据挖掘与决策分析的方法.中国科学技术大学学报,2009,39(2):208~214.

[2]高祥涛.数据挖掘在水文相似年查找中的应用研究.计算机工程与应用,2009,45(5):243~245.

[3]朱明.数据挖掘.合肥:中国科学技术大学出版社,2002:2~5.

[4]罗可,蔡碧野,卜胜贤,等.数据挖掘及其发展研究.计算机工程与应用,2002,14:182~185.

上一篇:《建筑法》在工程监理方面缺陷的研究 下一篇:基于网络数据库的图书馆管理系统安全性研究与...