谈对数据库,数据仓库,数据挖掘的认识和理解

时间:2022-10-06 02:58:52

谈对数据库,数据仓库,数据挖掘的认识和理解

摘要:我国市场经济刚刚起步,很多企业尤其是中小企业不能意识到数据仓库和数据挖掘在市场竞争中的决定作用,本文就是给企业的决策者提供对数据仓库的认识,从而能不断积累原始的数据建立数据仓库,更好的为企业的领导者提供决策。

关键词:数据库 数据仓库 数据挖掘 在线交易数据 历史数据

中图分类号:TP311 文献标识码:A 文章编号:1007-9416(2013)12-0227-01

为了提高企业的竞争能力,使其能够在激烈的市场竞争中生存。迫切需要从历史事务数据中发现有用的信息。

大家都知道有个沃尔玛大型超市,它现在已经把它的连锁都开到了中国。总部位于美国的沃尔玛大型超市为了促进商品的销售,想知道顾客的购物车里都哪些商品放在一起,进一步研究顾客的购物行为,就对其数据仓库里的各个连锁店里的汇总起来的原始的交易数据进行分析,发现了一个有趣的现象就是购买婴儿尿不湿的顾客,顺手买了很多的啤酒。那么这个结果是有价值的吗?符合顾客的购买规律吗?于是沃尔玛就派人员对这种数据挖掘出的结果进行分析发现美国有刚出生孩子的家庭,女人往往嘱咐她们的爱人在下班经过超市时记给孩子买尿不湿,美国的男人都很爱看NBA,经常是边喝啤酒边看球,所以他们在买尿不湿时经常也为自己顺手买了些啤酒。这一结果就好像哥伦布发现了新大陆,为了方便顾客购买,沃尔玛下令将啤酒和尿不湿放在一起,结果是啤酒和尿不湿的销量都大大增长。这就是数据挖掘技术的应用,它挖掘出在旁人看来毫无关系的两种商品的内在规律。

涉及到数据挖掘不能不谈数据库和数据仓库。稍微有点计算机基础的人都知道有个数据库的概念,可能对数据仓库比较陌生。数据库主要是针对事务的,数据仓库主要针对是主题。举个例子:露天市场与超市都卖水果,它们的区别是市场里面摊主自己卖水果,所以他会把香蕉,苹果,梨等放在一起销售,也就是说,市场里的水果相当于计算机里的数据,摊主相当于应用程序,水果按照摊主的要求归堆,相当于数据按照应用程序即事务去处理的,但在超市里,苹果、香蕉、梨各自在一块,也就相当于超市里水果是按照同一类型放在一起的,这个同一类型就相当于软件里的主题。

数据仓库具有时间属性,也就说仓库中的数据必须表明它是什么时间建立的,但数据库在保存数据时对时间属性不做严格要求。例如对于累计购买50桶豆油的顾客,一个是最近半年购买的,一个是整个三年购买,这说明前一个顾客最近用油量大增,也许他是开饭店的,而后一个顾客也许就是普通的市民。这对决策者来说绝对是不一样的。

数据仓库的另一个特性是不可修改。数据仓库中数据来源于历史的数据,所以其中的数据不一定是最新的;而数据库中数据都是日常事务,是时时更新的。例如我们查询的当月话费都是时时数据,这个数据库是可以变化的,但电信服务器中存储大量客户信息以及他们过去时段所用的话费就是历史数据,从这些历史数据中我们可能会向分析师提供哪些是优质客户,哪些是它的大型客户,这时的库里的数据就不可更改了。从上看出数据仓库里的数据是过去的,数据库里的数据是实时的;数据库是为了捕获数据,数据仓库是为了分析数据。

从概念上讲,有些难懂。下面举个具体的例子可能更好理解些。以移动业务为例,数据库是在线交易系统的数据平台,客户在移动交的电话费都会写入数据库,被记录下来,也就是说用数据库记帐。数据仓库是分析系统的数据平台,它从交易系统获取数据,并做加工,处理,为领导者提供决策的依据。比如,某移动营业厅一年发生多少交易,如果消费交易多,那么该营业厅就有必要设立自动交费机了。在线交易系统要求速度要快,客户是不能忍受交一笔话费需要好几分钟的,因为移动业务数据交易量非常大,每天可能达到几百万次,而数据库的容量是有限的,所以数据库只能将数据存储的时间很短;而对数据的分析可以事后进行,所以数据仓库需要的是有效时间段内所有的有效数据。这里的数据量是非常大的,可能处理起来要慢些,但拥有能进行分析的数据就是值得的。从上面的例子可以看出数据仓库是不是大型的数据库,它诞生的目的是为了挖掘数据中有价值的信息,为领导者提供决策依据,可以说数据挖掘是以数据仓库为依据,而数据库为数据仓库提供数据源。

据美国《财富》杂志所列的全球2000家大公司小已有90%将Internet网络和数据仓库这两项技术列人企业计划,而且有很多企业为使自己在竞争中处于优势已经率先采用。数据仓库以及基于数据仓库的数据挖掘技术是今后只能决策发展的大势所趋。数据不能凭空产生,数据仓库必须在大量的原始数据积累的基础上才能建立。欧美企业10年前就开始关注数据仓库领域。数据仓库和数据挖掘是相互结合起来一起发展的,二者是相互影响、相互促进的。数据挖掘对数据仓库中的数据进行模式抽取和发现知识,这些正是数据库所不能提供的。随着市场经济的建立,国内企业和国外企业间的竞争必然会更加剧烈 ,国内银行,大型超市,通讯公司等大型企业要注意不断积累原始数据够建数据仓库,数据仓库的构建是一个长期而有艰巨的任务,需要大量的人力,财力和较长的时间才能建设成功。为企业领导的决策提供更高层次的辅助信息,利用基于数据仓库的数据挖掘从大量的数据中挖掘出有用的信息和知识,预测未来的,发现潜在的数据价值能更好地满足高层战略决策的要求。

参考文献

[1]王闯周.打开数据仓库之门.微电脑世界周刊,2000(3-20).

[2]Herb Edelstein.浅说数据挖掘.计算机系统应用,98年第4期.

[3]苏新宁.数据仓库和数据挖掘.清华大学出版社,2006,4.

[4]张光业.从数据中发现信息 微电脑世界周刊,2000(3-12).

上一篇:微波光子链路无杂散动态范围概述 下一篇:系统聚类方法在高校资产管理中的应用