数据挖掘为图书管理提供决策支持

时间:2022-08-17 09:52:39

数据挖掘为图书管理提供决策支持

[摘 要] 当今的高校图书馆每天都要产生大量的统计数据,而如何从这些数据中挖掘出有利于图书管理的信息就显得尤为重要。本文在介绍数据挖掘相关概念的基础上,重点分析了数据挖掘中的决策树和关联规则方法在图书流通和图书采编中具体应用,以期为图书的有效管理提供决策支持。

[关键词] 数据挖掘; 图书馆; 图书管理; 决策

doi : 10 . 3969 / j . issn . 1673 - 0194 . 2012 . 09. 070

[中图分类号] G251; TP391 [文献标识码] A [文章编号] 1673 - 0194(2012)09- 0113- 02

数据挖掘已经成为非常活跃的研究领域,它被广泛应用于制造业、零售业、供应链分析和电子商务等领域。在当今的图书管理系统中,每天都产生大量的统计数据和表单,这些数据背后往往隐含着诸如读者兴趣、借阅习惯及学科关联等重要信息,如何有效利用这些有价值的信息正是图书管理中亟待研究解决的重要课题,而数据挖掘技术为这类问题的解决提供了新的途径。

1 数据挖掘概念

数据挖掘是近年来随着数据库技术和人工智能技术的发展而出现的一种全新的信息技术,它是从大量的、不完全的、随机的实际应用数据中提取隐含在其中的但不为人们所知、且又有潜在价值的信息和知识,如趋势、特征以及相关的过程等。随着图书馆自动化程度的不断提高,自动化管理系统已经在图书馆日常工作中占有了非常重要的地位,它每天产生的流通日志数据、数字图书馆各种资源的访问记录以及图书馆网站的 Web日志等,都为数据挖掘工作提供了原始数据。要让这些数据发挥更大的作用,必须对它们进行深层次挖掘分析,以便为图书馆工作提供技术支持和决策管理支持。

数据挖掘也称知识发现,它通过对查询内容进行模式的总结和内在规律的搜索,帮助决策者分析历史数据及当前数据,进而发现隐藏的关系和模式,从而为决策行为提供有利的支持。数据挖掘有许多种方法,其中最常用方法的是关联分析、决策树和聚类分析等。

2 基于数据挖掘的图书管理决策

2.1 基于关联规则挖掘的图书流通决策

2.1.1 关联规则概述

在数据挖掘技术中,关联规则由Agrawal等人在1993年首先提出,是数据挖掘领域一个重要的研究内容,它是通过发现描述数据库中数据项之间潜在的关联,找出大量数据之间未知的依赖关系。

关联规则的产生源于交易事务的信息利用,规则给出的信息是以“if-then”的形式出现,其采用如X ?圯Y的蕴涵式,其中X ?奂I,Y?奂I,并且X∩Y = ?准,I称为项集(事务集),可以理解为数据记录中所有字段取值构成的最大合集 。关联规则一般用支持度Support和可信度Confidence两个参数描述其属性。其中,支持度是包含项集X 和Y 的事务数与所有事务数之比,记为Support(X ?圯Y),它描述了X 和Y 这两个项集在所有事务中同时出现的概率;可信度是包含项集X 和Y 的事务数与包含X 的事务数之比,记为Confidence(X?圯Y),它描述了在出现项集X 的事务集中,项集Y 也同时出现的概率。在关联规则的研究中,最著名的算法有Apriori算法、FP-growth算法和DWAR算法等。

2.1.2 流通决策过程

图书馆自动化管理系统每天都会产生大量的流通数据, 这些数据不仅包含读者当前的借还记录、账单记录,还包括曾经发生过的借还操作,它们以日志的方式写入系统文件中, 如果用关联分析的方法对日志数据进行挖掘,我们会发现其中的某些规律。例如: 特征A:借阅《管理学》;特征B:借阅《计算机网络》;特征C:借阅《信息管理与信息系统》。布尔型关联规则为A,BC。它的含义是:借阅《管理学》和《计算机网络》两本书的人也会借阅《信息管理与信息系统》。如果通过计算得出支持度为0.4,可信度为0.6,则表示在所有读者中,有40%的人同时借阅了这3 本书,在借阅《管理学》和《计算机网络》的读者中,有60%的人也借阅了《信息管理与信息系统》。

通过这样的关联分析,可以发现读者借阅行为中的规律。也就是说,从图书管理决策的角度来看,应加强相关图书的科学排架和合理摆放,将这几类书放置在离入口较近的书架上,这样可以帮助读者提高借阅效率,同时也可减轻工作人员的劳动量,以及由于减少图书的搬运活动而减少对图书的损坏。

2. 2 基于决策树的图书采编决策

2.2.1 决策树概念

决策树是分类的一种方法,其目标是从数据集中提取出能够描述数据类基本特征的模型,并利用这些模型把数据集中的每个对象都归入到其中某个已知的数据类中。它以决策树或一组分类规则展现,在最终生成的分类模型中,每条分类规则都应该覆盖一定量的数据, 而被同一条分类规则覆盖的数据应该具有比较高的相似性。

决策树是这样的一棵树,它的每个非叶节点均表示考察数据项目的测试或决策。根据测试结果,选择某个分枝,为了分类一个特定数据项目,从根节点开始,一直向下判定,直到达到一个终端节点(叶子节点)为止。这样,一个决策就形成了。

2.2.2 采编决策过程

假定系统书目数据的属性字段中有索书号、建立日期,借出总数 (即从建立之日起共被借过几次 ) 3个属性,通过这 3个属性 ,在借阅次数已知情况下,那么就可以设计一种决策树分类方法,如图1所示。

图1中的决策树用关联规则表示更容易理解:N类图书,2003年入藏 借出总数是 2 410次;…; H类图书,2009年入藏 借出总数是 2 600次。

决策树方法伸缩性好,分类速度快,能够转换成容易理解的分类规则。在本例中,可以很快地将书目数据按设定条件分类,分析出文献的利用率,及时补充短缺的文献,剔除过时的文献,为图书馆的采购决策提供支持。同时,利用决策树通过对历年借阅数据进行相关分析,相应增幅较大的图书种类在上架时可根据预测趋势预留架位;对借阅频率较大且连续续借的书目,应以量化方式反馈给采编部门以加大采编力度。

3 结 语

数据挖掘在数据组织与分析和知识发现以及信息深层次挖掘等方面体现出整体优势。随着图书馆自动化程度的不断提高,自动化管理系统每天都要产生大量的统计数据,如何从这些数据中挖掘出有用的图书管理信息已成为一个亟待研究解决的重要课题。为此,本文详细分析了决策树和关联规则的数据挖掘方法对图书流通和图书采编工作的决策支持作用,以期用于指导图书馆的各项工作,使图书馆的馆藏资源得以进一步优化和利用,使管理水平和服务质量得到进一步提高。

主要参考文献

[1] 王新筠. 数据挖掘技术在图书馆自动化管理系统中的应用[J]. 科技情报开发与经济,2007(26).

[2] 黄兰. 数据挖掘技术在图书馆工作中的应用[J]. 图书馆学研究,2005(7).

[3] 张应征,成新红. 数据挖掘在高校图书管理信息化中的应用[J]. 科技信息,2010(23).

上一篇:图书质量管理中的5个“坚持” 下一篇:论图书馆免费服务的经济学效应