数据挖掘在数字图书馆个性化服务中的研究与应用

时间:2022-10-30 07:09:33

数据挖掘在数字图书馆个性化服务中的研究与应用

摘要:随着图书馆数字化进程的不断发展,个性化服务已经成为整个图书馆服务系统中十分关键的部分。该文从数字化图书馆个性化服务以及数据挖掘的特点入手,描述了数据挖掘技术和方法,并且探讨了数据挖掘技术在图书馆个性化服务中的应用。

关键词:数据挖掘;图书馆;个性化服务;数字化

中图分类号:TP311文献标识码:A 文章编号:1009-3044(2011)28-6811-02

Research and Application of Data Mining in Digital Library Individual Services

ZHOU Wen-yun

(Library of Soochow University, Suzhou 215006, China)

Abstract: With the development of digital library, individual services had already been the critical part of library services. Data mining technology and methods had been described for digital library individual services and characteristics of data mining. The application of data mining technology in digital library individual services had been discussed in this article.

Key words: data mining;library;individual services; digital

在信息技术不断发展的今天,图书馆的管理工作已有了深刻的变化。图书馆的数字化建设变得日趋重要。图书馆运用计算机等信息技术对文献信息和读者信息进行管理,使图书馆读者的个人信息和文献信息以电子数据方式保存在数据库中,这些数据具有完整性、规范性、结构性等特点,是非常宝贵的资源,因此要充分利用。例如,可通过这些数据进行用户行为分析,对用户借阅习惯进行归纳,预测读者阅读倾向,研究结果可以为图书馆管理、服务和图书采集方案等相关工作提供信息上的支持,使得图书馆的功能变得越来越多样化。因此,数据挖掘在数字图书馆的建设中有着重要的意义[1-2]。

数据挖掘(Data Mining)是近年来在数据库技术、人工智能、数理统计等基础上而出现的一种全新的信息技术。与此同时,图书馆各种信息量也一直在不断增加,如何才能不被海量信息所淹没, 帮助读者从茫茫的信息海洋中获取有用的知识是目前图书馆信息服务急需解决的问题。数据挖掘正是迎合这类需求而产生的信息分析工具, 这种技术可以帮助我们从大规模的数据库中抽取有用的信息和知识, 从而提供决策支持,以协助图书馆的各项工作。因此,在数字图书馆的建设和发展中,数据挖掘技术具有较大的应用潜力和价值。

1 数字图书馆

1.1 数字图书馆概念

数字图书馆是一种拥有多媒体、内容丰富的数字化信息资源,是在信息技术支持下构建的数字信息资源系统,是一种网络信息资源的管理模式,它能为读者方便、快捷的提供信息。而信息存储和用户访问不受时间和地域限制。数字图书馆不是简单的互联网上的图书馆主页,而是一整套面向对象的、分布式的、与平台无关的数字化资源的集合。数字图书馆可以突破文献单元的局限,以知识单元作为基准进行信息挖掘和知识发现。正是由于上述原因,数字图书馆存在的意义不仅是传统图书馆服务媒体的方式的转变,它还利用自身丰富的数字资源和网络化优势,开发新的思路和工具,增加数字图书馆的功能,为教育、生活、学术研究等提供新的服务途径,为读者提供更为个性化的服务。

1.2 数字图书馆的个性化服务

数字图书馆个性化服务是基于信息用户使用行为、习惯、偏好、特点及用户特定的需求, 向用户提供满足其个性化需求的信息内容和系统功能的一种服务。图书馆利用现代网络、人工智能和专家系统等技术, 主动获取图书馆用户个体的特定信息需求, 以及特定用户群体的共同信息需求,针对用户需求自动检索网络信息和馆藏数字信息, 并根据用户要求把用户所需信息自动推送给用户。要提高图书馆服务质量,做好个性化服务是数字图书馆的重要的发展方向。

2 数据挖掘相关理论

数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。原始数据可以是结构化的,如关系数据库中的数据;也可以是半结构化的,如文本、图形和图像数据;还可以是分布在网络上的异构型数据。

所谓数据挖掘,就是从大量数据中获取有效的、新颖的、潜在有用的、最终可理解的模式的非平凡过程。数据挖掘的广义观点:数据挖掘就是从存放在数据库,数据仓库或其他信息库中的大量的数据中“挖掘”有趣知识的过程。数据挖掘,又称为数据库中知识发现(Knowledge Discovery in Database, KDD), 也有人把数据挖掘视为数据库中知识发现过程的一个基本步骤。并非所有的信息发现任务都被视为数据挖掘。例如,使用数据库管理系统查找个别的记录,或通过因特网的搜索引擎查找特定的Web页面,则是信息检索(information retrieval)领域的任务[3]。

数据挖掘利用了来自如下一些领域的思想:1) 来自统计学的抽样、估计和假设检验,2)人工智能、模式识别和机器学习的搜索算法、建模技术和学习理论。数据挖掘也迅速地接纳了来自其他领域的思想,这些领域包括最优化、进化计算、信息论、信号处理、可视化和信息检索。一些其他领域也起到重要的支撑作用。

数据挖掘能完成以下六种不同任务(分析方法):

1) 分类(Classification);

2) 估值(Estimation);

3) 预言(Prediction);

4) 相关性分组或关联规则(Affinity grouping or association rules);

5) 聚集(Clustering);

6) 描述和可视化(Description and Visualization) ;

7) 复杂数据类型挖掘(Text, Web ,图形图像,视频,音频等)。

而以上六种数据挖掘的分析方法可以分为两类:直接数据挖掘;间接数据挖掘。其中,直接数据挖掘是指目标是利用可用的数据建立一个模型,这个模型对剩余的数据,对一个特定的变量(可以理解成数据库中表的属性,即列)进行描述。间接数据挖掘是指目标中没有选出某一具体的变量,用模型进行描述;而是在所有的变量中建立起某种关系[4]。

3 数据挖掘在图书馆个性化服务中的应用

图书馆作为信息资源收集、加工和服务的中心, 目的是为读者提供良好的服务,帮助读者获取信息、运用信息,从而产生知识。借阅记录往往能反映使用者实际的信息需求,对于掌握读者兴趣,进而加强图书馆资源利用具有一定的参考价值。然而随着信息技术的高速发展, 图书馆中的信息量是庞大的,在堆积如山的数据中包含着许多待提取的有用知识,大量信息在给人们带来方便的同时, 也带来了许多问题: 信息过量, 难以消化, 真假难辨,形式不一。仅仅依靠简单的数据库查询检索机制和统计学方法已经远远不能满足现实需要。图书馆这样一个信息中心自然也面临这样的困难和问题。因此数据挖掘的研究应用在数字图书馆的建设和发展过程中势在必行。

数字挖掘是近年新兴的计算技术与方法,它在科学发现、商业零售等领域已得到广泛应用,并显示出巨大的威力。近几年,数据挖掘技术开始应用于数字图书馆领域,使数字图书馆的功能有了较大的变化和发展[5-7]。

3.1 应用于读者的分类研究

分类模式用于提取能代表群体的特征属性。在数据挖掘中,通过对已知类别的个体进行归纳, 找出各类的特征属性,即分类模式。读者分类研究包括读者的分类、读者的属性和特征分析、读者满意度分析、学科交叉分析及学科发展方向预测等。图书馆可以对读者群体按照年龄、学历、学科等因素进行分类,把读者进行群体细分。通过这种手段,可以更清楚地了解读者,了解他们的特点, 分析不同的群体借阅量, 从而有针对性地提供不同的服务,以提高图书馆的服务质量。

3.2 优化馆藏资源

通过对读者借阅的文献信息进行关联分析,可以及时去除旧的、使用较少的信息,而不断补充新的、需求较多的资源,包括书籍在内的其他资源都可以得到及时的优化。这样既可以优化各类资源,减少冗余的空间以及节省开销和成本,同时也提高了服务的效率。从而可以更加客观、全面、智能地建立馆藏资源,合理引导数字图书馆的馆藏建设。

3.3 为读者提供个性化服务

在数据挖掘技术出现之前, 要了解读者的需求和特点只有通过简单的人工读者抽样调查或者借阅数据的抽样统计来进行, 这项工作既费时又费力而且得到的信息的准确性也不高。在传统的图书馆信息服务中, 一般是由读者提出信息服务请求, 再由图书馆员做出解答。或是由图书馆员定期向读者提供与其所从事课题有关的信息资料。利用数据挖掘技术以后,可以根据读者的不同类型以及其爱好、兴趣和研究方向等提供专项的服务内容,充分体现个性化,而不限于一些简单的查询、浏览等服务项目。从被动服务向主动服务和智能服务转变。同时还可通过读者的反馈、互动以及各项信息的变化以及调整服务的方向和内容等,这样就可以把图书馆的服务模式从被动推向主动。

例如:Web数据挖掘的应用,Web数据挖掘也是数据挖掘在图书馆应用的一个重要方面。利用该技术, 根据读者以前借阅的资料,甚至经常访问的网页进行分析、挖掘,可赋予每个读者一个ID号,保存用户档案, 对用户的注册信息及每一次浏览事务进行挖掘, 找出用户的浏览模式和兴趣模式, 预测用户需求意向,确定个性化服务内容。Web数据挖掘技术能够帮助图书馆员在设计站点时朝着方便读者、节省时间和高效率方向发展。图书馆员能够按照各个读者的要求或习惯,为读者提供更多、更好的高质量个性化服务。如图书馆为读者提供的借书卡,每个读者都有一个自己的ID卡号,这样,图书馆在管理对读者所借的图书方面就很方便了。

3.4 提高信息检索和定题和查新的服务质量

现在不少图书馆都提供查新服务,是否能提供良好的查新服务也是衡量一个图书馆在科研服务的一个重要指标。数据挖掘技术可以为数字化图书馆提供先进的信息检索工具, 在数字图书馆的检索中采用数据挖掘的相关理论和方法,设计的系统将有更大的智能性。可以大大减少信息检索的时间和提高检索效率,同时也促进了查新质量的提升。

3.5 数据挖掘在图书馆个性化服务中的应用前景

作为图书馆的未来发展趋势,数字图书馆在研究中仍就面临着不少的困难和问题,知识的有效组织与发现就是其中重要课题之一[8]。数据挖掘作为一项逐渐发展的信息技术之一,由于其在数据组织、分析和知识发现等方面的巨大优势和对信息的深层挖掘能力,随着硬件环境和挖掘算法的改进、应用的普及和经验的积累等,数据挖掘在图书馆的发展中将显示出强大的发展潜力和广阔的应用前景。

同时,不仅在个性化服务方面,数据挖掘在决策制定方面也有可发展的空间。根据对集成的各种数据的挖掘和分析,可以得出可靠的决策信息,在合理利用有限资源的基础上,优化各项资源的配置。同时,也可从历史数据中得到潜在的模型并在此基础上做出预测,为决策的确定提供提示或帮助。好的决策可以为优化资源、个性化服务信息甚至是检索和查新等工作提供更多合理、有效的信息。

4 结束语

在信息技术飞速发展的当今社会,能否提供高质量的信息服务已经变得越来越重要。随着信息技术和数字图书馆事业的发展,数据挖掘在此过程中已经做出了一定的贡献。尽管数据挖掘技术在数字图书馆构建中的应用尚处于起步阶段,但由于其在数据组织、分析和知识发现及信息深层挖掘等方面体现出的强大优势,数据挖掘技术必将在数字图书馆建设中发挥关键性的作用。

参考文献:

[1] 周军.基于数据挖掘的数字图书馆个性化服务系统的构建[J].图书馆学研究,2007(3):15-17.

[2] 叶福兰,施忠兴.关联规则数据挖掘在图书馆个性化服务中的应用[J].福建电脑,2009(5):99-103.

[3] Dunham M H.数据挖掘教程[M].北京:清华大学出版社,2005.

[4] Jiawei Han Micheline Kamber. 数据挖掘概念与技术[M].北京:机械工业出版社,2001.

[5] 李志明,胡树森.数据挖掘及其在现代化图书馆中的应用[J]. 图书馆学研究,2006(6).

[6] 董云鹏.数据挖掘技术在图书馆中的应用[J].现代情报,2006(11):131-132.

[7] 马丰宁.数据挖掘技术在公共图书馆中的应用[J].图书馆工作与研究,2008(11):54-57.

[8] 高巨山.数字图书馆构建中的数据挖掘应用研究[J].图书馆工作与研究,2009(4):20-21.

上一篇:Library2.0系统自动修改馆藏设计 下一篇:中小学课本中藏文文字结构及统计频率