基于云平台的图书馆数据挖掘技术研究

时间:2022-10-11 09:52:10

基于云平台的图书馆数据挖掘技术研究

摘要:文章首先介绍了数据挖掘技术、云计算及“云图书馆”的相关理论,其次分析了数据挖掘技术在图书馆中的应用现状,最后对“云图书馆”利用数据挖掘技术有效提高图书资源的利用率进行了研究,从而有利于最大程度地满足读者的多种数据信息需求。

关键词:云平台;数据挖掘;数字图书馆

中图分类号:G250.72 文献标识码:A 文章编号:1008-0821(2012)07-0046-04

信息技术的快速发展和图书馆服务模式的转变为以云计算为主的前沿技术在图书馆中的广泛应用拓展了空间。以云计算为平台的数据挖掘技术适应了用户多样化、迅捷化的需求,有利于用户在图书馆的海量数据信息中更快、更准确地发现所需信息。近年来,国内外诸多学者对数据挖掘技术及其发展趋势进行了研究,普遍认为在图书馆中采用数据挖掘技术,有助于数字图书馆的自动化建设,提升服务质量。数字图书馆要适应用户特定需求,向用户及时、准确地提供所需信息,必须动态地组织和呈现与用户当前信息需求相关的信息内容,而数据挖掘可以实现这一功能。基于云平台的数据挖掘技术是数字图书馆信息资源整合的最佳方法,也是目前世界各国图书馆潜在数据技术挖掘的技术发展趋势。

1、相关理论综述

1.1 云计算概述

云计算是指基于互联网的一种新型的计算模式,即把存储于个人电脑、移动电话和其它设备上的大量信息和处理器资源集中在一起,把信息资源、数据作为服务通过互联网提供给用户。云计算是一种新兴的共享基础架构管理方法,能够把大量的、高度虚拟化的资源管理起来,形成巨大的系统池,统一提供各种IT服务。云计算依靠B/S架构,把计算压力从客户端转移到服务器端,由技术提供商进行远程服务支持,是分布式处理、并行处理和网格计算的新发展。其资源和计算都在异地的设备中完成,而自己的终端设备只需要一个显示设备和操作设备。云计算主要运用虚拟机(虚拟服务器)聚合形成同质服务,强调在某个机构内部的分布式计算资源的共享。

图书馆云计算服务是以虚拟化技术为基础的,为用户提供最大限度的信息数据资源。云计算技术能实现海量数据的存储、分析、处理、挖掘,提供高可靠性、高性能的数据挖掘分析,主要是基于数据挖掘平台PDMiner(ParallelDistributed Miner),实现了对大数据集的处理、分析,向用户提供高效的服务。云计算在对海量的数据存储、读取基础上进行大量的分析,数据的读操作频率远大于数据的更新频率。

1.2 国内云计算市场发展现状分析

目前,我国已经掀起了发展云计算的热潮。从政府层面看,政府向来是IT服务方面最稳定的市场,面对社会经济发展的形势,政府部门已将云计算与政府的工作紧密结’合,从而成为经济社会发展的重要支撑;从企业层面看,国内很多企业已利用云平台对技术、产品、服务等进行了大胆创新,取得了良好的应用实践效果;从图书馆内部业务层面看,在云计算时代来临之际,考虑到服务方式的转变、信息数据的挖掘及未来数据库的采购等问题,也已经将云计算视为发展的重要保障。有学者认为,当前几乎所有的云服务都可以在图书馆领域得到应用,包括大量的软件服务、云存储服务、平台服务和互联网整合服务等。图书馆充分利用云计算技术,推进现代化建设和信息服务进程,进一步提升自身的信息资源建设与信息服务提供能力,显然是一种不可回避的选择。目前,图书馆界正在积极探讨如何将云计算和云服务应用到图书馆的资源建设与服务提供中。中国高等教育文献保障系统正在完成CALIS数字图书馆云服务平台,构建大型的分布式公共数字图书馆服务网络,力图将分布在互联网中各个图书馆的资源和服务整合成为一个整体,形成一个可控的自适应的新型服务体系。这一系统架构是以SOA规范为基础。以OSGi标准对各个服务进行统一封装,为服务提供者提供统一的服务功能,为消费者和提供者之间提供统一的通信方式。为实现来自不同服务平台、系统的服务整合,CALIS整个云服务平台提供了统一开放API,统一的API托管以及统一的认证服务。CALIS及其成员馆提供了灵活的部署和应用方式,既能满足CALJS构建公有云服务中心的需要,也能满足图书馆构建私有服务云的需要,还能实现对这两类服务云的整合。到目前为止,CALIS云服务平台的基本框架已经完成。国外较有代表性的云服务应用先例主要有美国国会图书馆与DuraSpace公司共同启动的Dur-aCloud项目。可以说,云计算对图书馆而言并不显得虚无缥缈,只有抓住这一大好机遇,明确自己在云计算环境中的发展定位,完善网络服务设施,提高公共服务的水平,才能进一步提升自身的社会价值与地位。

1.3 数据挖掘技术相关理论

数据挖掘(Dam Mhhg)技术是一种新兴的信息处理技术,源于20世纪90年代中期,作为知识发现的关键步骤,数据挖掘对于用户从海量数据中提取有用知识具有重要作用,这一新兴技术涉及到多个学科领域,如模糊数学、人工智能、机器学习等。数据挖掘方法也在近年来不断发展,从仿生算法、数据库法(多维数据分析、OLAP等)到目前盛行的领域驱动数据挖掘(DDDM)方法,可以说日新月异。

数据挖掘也称数据库中的知识发现,就是有效地从大量的、不完全的、模糊的、图书馆数据仓库中,提取在隐含在其中的、人们感兴趣的且事先不知道的、潜在的有用信息和知识的过程,并利用各种分析工具在这些海量数据中发现模型和数据间关系,从数据库中的大量业务数据进行抽取、转换、分析,从中提取有用的知识、高层信息或辅助决策的关键性数据。随着图书馆信息化程度的提高,数据量不断积累膨胀,为进一步的数据挖掘提供了丰富的数据信息资源。可以最大限度地满足各类用户的知识信息需求。用户从数据库中提取所需数据,对其进行进一步的集成和合并,利用合适的数据挖掘技术,对相应信息资源进行整合,从而为决策提供更为有效的帮助。

2、数据挖掘技术及在图书馆中的应用

随着图书馆数字化程度的推进,如何运用新技术挖掘潜在的信息资源,为服务读者和科学管理提供可靠的依据,成为图书馆界关注的问题。主动发掘读者需求,提供读者所需信息,是现代图书馆的重要工作任务之一。由于每一种数据挖掘技术方法都有其自身的特点和实现步骤,因此,成功应用数据挖掘技术达到最终目标的过程相当复杂。这一过程是基于约束的、人机结合、往复循环、不断逼近目标、深层次的知识发现过程。其基本处理流程包括:数据收集、数据整理、数据挖掘、知识的获取等,数据挖掘的每个过程不是一次就能完成的,而是一个循环迭代的过程,只有这样才有可能达到预期的效果。

2.1 建立数据仓库

数据挖掘的技术基础之一是数据仓库,而数据仓库技术是源于数据库的技术,它主要的设计思想是将分析决策所需的大量数据从传统的操作环境中分离出来,把分散的,难以访问的操作数据转换成集中的、统一的、随时可用的信息而建立的一种数据库存储环境。人们对数据仓库的定义是面向主题的,集成的,具有时间特征的,稳定的数据集合,用以支持经营管理中的决策制定过程。为什么要建设数据仓库的主要原因在于:数据仓库可以说是决策支持系统,它是在管理信息系统的基础上发展起来的,数据仓库提供的经过整理统计归纳的数据可以给决策者很多信息,并通过数据帮助决策者做出决策。所以建立数据仓库是很重要的事情。

建立图书馆的数据仓库,用以收集信息。在学校图书馆管理系统中,全面实行校园一卡通,这样为直接收集读者的借阅数据提供了便利。下面本人简单说明针对图书馆数据仓库事实表和维表的设计。

在借阅过程中,以学生、书籍、借阅时间三方面定义3个维度来建立维表,然后建立事实表,来收集信息。维表包含的是相应维度的描述信息,这些信息用作查询的约束条件,一般是离散的,描述性的,不具有可加性的。如图1-3所示:根据图书馆数据仓库建立的3个维表:学生维表、图书维表、借阅时间维表。

数据仓库多,一般多采用多维数据模型,这样能更好的完成多维数据分析的需要。多维数据模型普遍采用的一种非常重要的模式就是星形模式,星形模式是由事实表和维表通过星形方式来连接而成,事实表包含的是借阅数据信息,这些信息用于分析型查询。数据取值通常是可度量的。连续型的,且具有可加性,数据量可以达到几百万甚至上亿条记录。事实表中的借阅数据信息可以从多个维度查看,每一个维度对应一张维表。如图4所示:

在数据仓库星形建模的基本工作完成之后,就应该开始进行数据聚集的设计。数据聚集是数据仓库系统的必备内容,它与分析型应用的需求密切相关,且与事实表和维表的设计紧密联系。就工作的时间和内容而言,它是数据仓库多维数据建模的后期工作,是事实表和维表设计工作的延续。

创建数据聚集首先确定数据聚集的内容,步骤如下:

(1)确定在各个维的哪些属性上需要进行数据的聚集,这里以时间维的月份和年份,图书维的图书种类,学生维的专业建立数据聚集。

(2)确定不同维的属性如何进行组合。

数据聚集建立后,由于分析型查询一般都比较复杂,数据仓库的数据量一般有比较大,因此建立索引提高数据仓库中数据的访问速度具有重要意义。所以这里还要建立索引。

明确了数据仓库体系结构的基本方案,完成了数据模型的设计后下面考虑数据预处理问题。对事实表和维表进行一些数据净化等工作。

数据仓库经过以上经过建设后。我们还要对数据仓库进行运行和维护。

2.2 在数据仓库中进行数据挖掘

数据挖掘建立在数据仓库的基础上,前面已经介绍了一些数据仓库的相关知识,它们二者之间有着紧密的联系。数据仓库为数据挖掘提供了数据基础,数据仓库完成了数据的收集、集成、存储、管理等工作,数据挖掘面对的是经过初步加工的数据,使得数据挖掘能更专注于知识的发现;而且由于数据仓库所具有的新的特点,又对数据挖掘技术提出了更高的要求。可以说,数据挖掘技术和数据仓库技术结合起来,能够更充分的发挥数据的威力。

通过利用图书馆的数据仓库,采用数据挖掘中的聚类分析技术为解决图书更新周期问题和合理购买新书的问题提供了技术支持。本文主要应用基于密度聚类的分析方法。

基于密度的聚类方法是以局部数据特征作为聚类的判断标准,类被看做是一个数据区域,在该区域内对象是密集的,对象稀疏的区域将各个类分隔开来。多数基于密度的聚类算法形成的聚类形状也可以是任意的,并且一个类中对象的分布也是可以是任意的。这里主要介绍DBSCAN算法。

DBSCAN算法的主要思想是可以通过其要求的两个输入参数:半径r和对象最小数目MinPt来进行描述,即一个对象在其半径为r的邻域内包含至少NinPts个对象,那么在该区域内的对象是密集的。DKSCAN算法中的类被看做是一个个按一定的规则确定的最大密集区域,被稀疏区域分离开来。没有被包含在任何类中,即存在于稀疏区域中的对象被认为是噪声。

采用DBSCAN算法的聚类过程通过收集直接密度可达的对象来完成。针对聚类对象集中的每一个对象p检查其r邻域内是否至少包含MinPt个对象,也就是确定对象p是否为核心对象。如果p是核心对象,那么就创建一个初始类C,C中包含对象p及从p直接密度可达的所有对象,也就是包含p及其邻域r内所有的对象。然后在确定该邻域中的每一个对象q是否为核心对象。如果是核心对象,那么就将其r邻域内尚未包含在类C中的所有对象追加到C中。并继续确定这些新追加到c中的对象是否为核心对象,如果是,则继续进行上述对象追加过程。这一过程一直持续到没有新的对象可以追加到C中为止。类C也就完全确定下来了。DBSCAN算法的优点是形成的聚类形状可以是任意的。并且不受异常值的影响。

通过数据挖掘技术,我们可以分析出哪些图书已经利用价值不高;估算出每一种图书大概的利用周期等。定期的对图书馆的图书进行更新,旧书入库,新书上架,使得图书资源永远保持最高的利用率。在新书购买问题上,我们通过数据挖掘技术分析内部的历史采购数据,读者数据,数据流通,反馈信息等得出的信息,提炼出哪些书读者最感兴趣;哪些书是图书馆的主流;人们在不同时间都使用哪些书等,我们可以根据这些数据做出相应决策。

3、基于云计算的图书馆数据挖掘平台架构

基于云计算的图书馆数据挖掘平台架构设计如图5所示。自下往上每层都为上层提供服务,模型数据层为云平台提供相应的应用接口,应用表现层提供用户访问界面和开放的应用接口,可以向用户提供共享平台的数据集及相关算法,从而体现出图书馆云平台的数据信息共享性和开放性。

模型数据层是实现基于云图书馆数据挖掘平台中的基本数据结构,把底层异构数据库中的异构数据映射到图书馆平台应用表现层,调动图书馆内存储的各种资源对象,包括资源文件、元信息数据、元数据目录等等。应用数据挖掘技术对采集的评价数据进行挖掘分析,发现隐藏在数据中有用的知识,并将其提取出来供用户借鉴。用户可以根据系统挖掘出的规则,作出相应的决策。根据系统已经采集到的评价数据,可以挖掘出自己需要的信息。

控制算法层是实现基于云图书馆数据挖掘平台中的内部数据处理,在模型数据层的对象层上建立图书馆平台的内部算法集,可分为多个模块实现,每个模块完成一种功能。图书馆云服务平台通过对数据库的管理和部署,提供大规模原始数据、半结构化数据和经过处理的结构化数据,采取一定的挖掘规则(如关联规则、联机分析处理等),利用数据挖掘技术对这些经过处理的数据进行融合分析,有针对性地为用户提供个性化服务,这是数字图书馆的核心部分。个性化服务主要包括:发现新的相关信息或书目数据时,及时告知用户;用户访问时,发现用户的最新需要,提供相应的预测报告、动态分析等。图书馆控制算法层可判断并争取潜在用户,并将其转化为当前用户等等。

应用表现层是实现基于云图书馆数据挖掘平台服务的方法,应用表现层是对模型数据层和控制算法层的操作进行抽象,利用“云图书馆”不同模块的功能,对分布在不同地点的服务器联接起来,进行统一调度管理,虚拟出一个统一的服务器系统,同时可以不断增加新的服务器和节点,或删除不必要的服务器和节点,以实现较高的计算性能,满足和保证不断增长的计算需要。

基于云计算的图书馆数据挖掘平台将会为用户带来如下好处:

(1)用户无需安装任何软、硬件,只需通过网络配置接人系统网址,即可享受新技术带来的便利。

(2)基于云计算体系,服务器集群可提供高可靠性,为用户提供持续服务。

(3)可以有效地对服务器上的服务进行有效监控,第一时间发现问题。通过挖掘异常数据,进行有效报警。

(4)云图书馆能将不同地域的数据、信息资源集成在一起,避免了资源重复,同时形成资源互补,有利于实现数字图书馆的数据信息资源共享。

4、数据挖掘技术应用于“云”图书馆的未来展望

根据以上分析,我们可以发现,应用数据挖掘技术为图书馆的数字资源组织和管理、服务质量提升和方式拓展等方面提供了技术支持。现在,图书馆还处于云计算应用的初级阶段,云计算作为一种新的能体现互联网精神的计算模式,未来必将会产生强大的生命力,最大限度地发挥图书馆的作用。

云计算技术应用于图书馆未来有两个发展方向:一个是构建与应用程序紧密结合的大规模底层基础设施,使得应用能够扩展到很大的规模;另一个是通过构建新型的云计算应用程序,在网络上提供更加丰富的用户体验。通过云计算模式,有关的图书馆之间可以共同构筑图书馆的信息共享空间。

图书馆应用数据挖掘技术能发现数字图书馆中隐含的有价值的信息和知识,为用户提供更为全面周到的信息需求。数据挖掘技术已经成为了目前IT领域的一个研究热点,吸引了各个方面的专家学者们投身此领域的研究和开发工作。因此,数据挖掘技术经过不断发展和完善,必将发挥越来越大的作用,并且随着人们对这一技术的关注,相信其应用范围会越来越广。

上一篇:经济订购批量EOQ和零存货JIT的比较 下一篇:基于读者需求的图书馆数字资源增效利用研究