基于数据仓库的图书关联分析应用研究

时间:2022-09-30 01:06:48

基于数据仓库的图书关联分析应用研究

摘要:数据仓库是一种新的存储管理技术,能够很好地将所必需的大量分散的历史数据和详细的操作数据,经过处理转换成集中统一、随时可用的信息[1]。因此,采用数据仓库技术组织、处理、分析和存储信息,是图书馆信息技术发展的一种趋势,必将在信息服务中发挥重要作用。图书馆如何运用数据挖掘这一新技术挖掘丰富的馆藏数据资源,为读者、为部门决策者的决策提供可靠的决策依据,将成为图书馆建设中的重要部分。

关键词:数据仓库;图书;存储

中图分类号:TP393 文献标识码:A文章编号:1007-9599 (2011) 08-0000-01

Books Association Application Analysis Based on Data Warehouse

Duyu Junlong

(Information Technology Institute,Hangzhou310015,China)

Abstract:The data warehouse is a new storage management technologies,can well be necessary for a large number of scattered historical data and detailed operational data,after processing into a centralized,readily available information[1].Therefore,the use of data warehouse technology organization,processing,analysis and storage of information,library information technology development is a trend in information services will play an important role.Library how to use the new technology of data mining a rich collection of data mining resources for readers,the decision makers for the department to provide a reliable basis for decision making will become an important part of library construction.

Keywords:Data warehouse;Books;Store

一、数据仓库技术研究

(一)数据仓库的概述

数据仓库创始人WH.Inmon在他所著的《建立数据仓库》一书中对数据仓库所下的定义为:数据仓库就是用于管理决策支持的面向主题、集成、稳定、随时间变化的数据集合[5]。

1.面向主题。2.数据的集成性。3.数据的稳定性。4.数据随时间变化的特点

(二)数据仓库的体系结构

一个完整的DW应当具备建立、管理和使用的全部成分,DW结构上可分为:数据源、后端加工、前端服务以及数据仓库的管理。

二、基于数据仓库的数据挖掘技术研究

(一)数据挖掘概述。数据挖掘是从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、人们事先不知道的、新颖的、可被人理解的、但又是潜在有用的模式的过程。模式也就是所挖掘出的信息和知识。

(二)数据挖掘的过程、典型方法。数据挖掘的过程,包括数据预处理、数据变换、数据挖掘、模式评价与知识表示。1.数据预处理,数据预处理包括数据清理和数据集成。2.数据变换和选择。3.数据挖掘,即利用各种挖掘算法对数据进行处理,从而获得一些模式。4.模式评估和表示

三、数据仓库和数据挖掘技术对高校图书馆提供决策支持的图书关联分析系统的架构研究

(一)决策支持技术。高校图书馆决策支持系统(Decision Support System,DSS)是基于数据仓库、联机分析处理和数据挖掘技术的商业智能系统,通过数据采集、转换、分析和挖掘的一整套解决方案,来为图书馆管理人员提供决策支持。

(二)高校图书馆提供决策支持的图书关联分析系统的数据仓库建模。在数据仓库中,怎样设计一个简单的数据模式?信息打包方法是一种比较流行且行之有效的方法。信息打包方法具有三个不同层次的数据模型,而这三个数据模型是在数据仓库的开发过程中建立的。

1.创建信息包图。信息包图是信息包分析方法的第一层和最高层。信息打包图的目标是用简单明了的方法表达用户对信息分析系统的需求。利用信息包图,设计人员可以避免使用普通用户很难理解的专业术语,从而很容易的实现和用户之间的交流。2.将信息包图转换成星型图。建立了良好的信息包图,只能说为建立数据仓库的核心数据库打了一个较好的基础,为数据仓库建立了一个概念模型。此后,根据数据模型的精炼层次,需要将概念模型细化为逻辑模型,即建立星型模型。利用星型建模技术可以为数据仓库建立完善的逻辑模型。它与传统的实体关系建模技术相比,星型图最适合以查询为基础的情况。3.进一步将星型图转化为雪花图。星型图模型通过一种优化的方式将数据实体组织成适于分析处理的形式,而简化了逻辑数据模型。在一个简单的星型图中,中心实体被用于访问的维度实体所包围。但更多情况下,星型图还会向外延伸形成附加的关系。这些样的图也被称为雪花图。4.数据仓库实体的定义。在数据仓库的信息包定义过程中,不难发现各个包的维度之间有一定的交错现象。例如上面星型图中的时间维实体,读者维实体,书目维实体等,这些实体都不仅存在于一个信息包中。对于这样的情况,在数据仓库的开发过程中应该统一的定义这些实体,而不是对于每一个信息包中的维都定义成一个单独的实体。5.实现数据库设计。当信息包图和星型图建好以后,最后是在数据库管理系统如Oracle中物理地实现数据库。使用Oracle Warehouse Builder(OWB)这个工具帮助设计、部署与管理数据仓库。OWB依靠开放标准的通用数据仓库模型(CWM),将各种数据库,客户关系管理(CRM)与企业资源规划(ERP)应用、商业智能管理工具、联机分析处理技术等集成在一起。6.源数据的清洗、转换与加载(1)源数据的清洗。进入数据仓库的数据必须是完整的、正确的,才能得出正确的决策,但是数据仓库通常需要涉及到多个数据源的大量数据,数据中极有可能出现错误和异常。因此检测并纠正数据异常就具有很高的价值。(2)源数据的转换。主要是进行数据类型转换以及数据格式转换,这都跟具体的图书馆的数据源类型及格式相关联。(3)源数据的加载。一般情况下,可以采用以下几种方法来加载数据:①对于数据结构相匹配的关系表,用SQL insert语句加载。②对于少量数据,利用手工录入。

参考文献:

[1]周军.基于数据挖掘的数字图书馆个性化服务系统的构建[J].图书馆学研究,2007,3:106

[2]邓慧,李明东.关联规则在CRM中的应用[J].内江师范学院学报,2005,20(4):205

[3]Agrawal R,Imielinski T,Swami A.Mining association rules between sets of items in large database[J].IEEE Transactions on Knowledge and Data Engineering,1996,8(6):962-969

[4]Jiawei Han,Micheline Kamber,范明,孟小峰等.Data Mining Concepts and Techniques[M].北京:机械工业出版社,2001

[5]邵峰晶,于忠清.数据挖掘原理与算法[M].北京:中国水利水电出版社,2003,91-125

上一篇:VPN技术及其在企业中的应用 下一篇:关于提高软件工程专业学生工程能力的探索与思...