数据挖掘技术及其在数字图书馆中的应用

时间:2022-09-26 03:58:03

数据挖掘技术及其在数字图书馆中的应用

摘要:数据挖掘技术是信息市场竞争发展和信息经济竞争的产物。随着信息市场竞争的深入发展和日趋激烈,数据挖掘技术在图书馆界和信息界的应用将越来越广泛。对此进行了论述。

关键词:数据挖掘技术;数字图书馆;应用

中图分类号:TP391文献标识码:A文章编号:1672-7800(2013)001-0119-02

0引言

数字化是当代图书馆的鲜明特征,数字图书馆是未来图书馆的存在形式。在现代科学技术的推动下,高校图书馆正朝着自动化、数字化和信息化的方向发展。数字图书馆替代传统图书馆已是大势所趋。

高校图书馆不仅是学校的文献信息中心,也是为教学和科研服务的教育学术性机构,在高校的教学、科研中扮演着重要的角色,高校图书馆因其信息量大、占用空间少、更新速度快、不受时空限制等特点越来越受到人们的关注,但人们在享受着数字图书馆所带来便捷的同时,也深受其庞大而形式多样的信息资源困扰。对单个读者来说,不可能对数字图书馆的所有信息资源都需要,而同样的信息也不一定会满足所有的读者,造成了读者短时间内无法找到适合自己的有用资源。因此目前的高校图书馆面临着愈来愈严重的挑战,亟需进行改进和提高。

1数据挖掘技术

1.1数据挖掘概念

广义的数据挖掘又称数据库中的知识发现(KnowledgeDiscoveryinDatabases),简称知识发现(KDD)。它是从大量的、不完整的、有噪声的、模糊的和随机的数据中,提取隐含在其中的、人们事先不知道的、但又是可信的、潜在的和有价值的信息和知识的过程。狭义的数据挖掘是一个利用各种分析工具在海量数据中发现模型和数据之间关系的过程,是知识发现过程中的一个步骤。

1.2数据挖掘技术及其特点

在各个领域的应用中,最常用的数据挖掘技术主要有决策树、神经网络、关联规则、聚类分析、统计学习、模糊集和粗糙集等。数据挖掘的特点可以归纳为:

(1)海量性。主要从数据中挖掘出规则,其数据必须是海量的、可以表示整个领域业务状况的。数据挖掘所处理的数据源一般是多个数据库经过数据预处理后形成的。

(2)复杂性。在建模方面,数据挖掘的重点大多放在“学习”上,对模型的复杂性和需要的计算量较为关注,而很少放在大样本的渐进推论上。数据挖掘技术有能力对复杂的数据关系进行建模,更适合解决复杂问题。

(3)离散性。在实践中,算法涉及连续和离散的数据集是非常普遍的,统计学中的大多数变量分析方法是为连续变量设计模型的,但多数数据挖掘方法更适合离散变量的分析。

(4)可用性。数据挖掘的目标在于发现知识,根据历史数据提取规则,管理和维护规则,并且将数据挖掘结果用于指导现在的行为和预测未来。因此挖掘的知识必须是可用的。

(5)动态性。数据挖掘出的规则也是随着社会的进步不断变化的,当前的规则只能反映当前的数据特征。由于数据不断产生和更新,新数据不断加入进来,挖掘规则所用的数据与当前规则反映的情况吻合度会慢慢降低,因此,规则也需要动态更新。

(6)相对性。数据挖掘不是发现放之四海而皆准的真理,不是要去发现新的自然科学定理和纯数学公式,也不是证明机器定理。它所发现的知识是相对的,是有特定条件约束的、面向特定领域的。

1.3数据挖掘过程

数据挖掘是一个完整的、反复的人机交互处理过程,该过程需要经历多个相互联系的步骤,而且因为应用领域的分析目标需求不同,以及数据来源和含义不同,其中的步骤也不会完全一样。一般来说,数据挖掘的过程主要包含5个阶段:①数据准备;②数据选择;③数据预处理;④数据挖掘;⑤转换模型以及模型评价。数据挖掘的基本步骤如图1所示。

图1数据挖掘基本步骤

2系统设计

2.1数据挖掘技术应用于数字图书馆的必要性和可行性

随着计算机技术的迅猛发展,我国高校图书馆也进入一个集信息储藏、加工、交互与传播于一体的数字化时代。数字图书馆建设是21世纪图书馆迎接网络时代的必然选择,它关系着高校图书馆的生存与发展。图书馆数字化势必要求大容量的、全面的、多样化的、能满足各种需求的信息的支持。于是,大多数图书馆纷纷引进全文中外文大型数据库。但是这些来源不一的数字资源由于制作和显示规范并不统一,阅读格式以及检索界面多样而不兼容,使得读者需要安装多种阅读器,并且对同一个主题反复检索,效率低下。为了避免这种“数据丰富而信息匮乏”的局面,图书馆有必要增强对各种信息的处理能力以及对信息资源的组织能力,尤其对海量信息的深层次开发,提取表面上庞杂无序的信息的内在联系以供读者使用。

数据挖掘是一门诞生时间不长却飞速发展的计算机分析技术。这些年来,数据挖掘理论日趋成熟,并得以在社会生活的各个领域蓬勃发展,在实践中大放异彩,显示出其强大的生命力。将该技术应用于数字图书馆,将使得这种不良局面得到改观。

2.2系统设计方案

本文尝试采用数据挖掘技术,将其用于数字图书馆的信息发现和信息提供的全过程,从而向用户提供更优的信息服务。挖掘的过程如下:

(1)建立元数据标准。由于各数据库制作商制作数据的标准并不统一,各种电子资源相互独立。因此,首先要从各种类型的数据源中收集和抽取数据,对各数据进行规范,建立统一的数据标准。

(2)数据集成。数据集成就是将多种数据组合在一起。数据集成将多个数据源中的数据整合存放在一个统一的数据库或者数据仓库中,其中包含将多个异构操作系统、不同运行环境中的文件或数据库以及上一代系统中的数据提取组合,存放在一起,还有一些方法手段和数据清理中的方法重合。数据集成可以有效地解决语义模糊性,统一数据格式,消除冗余,为数据挖掘打下良好的基础。

(3)数据挖掘。从集成的数据资源中,挖掘有用的信息。

(4)信息。将挖掘所得的数据,按本系统的显示格式分类。

(5)读者使用本系统。一方面为了保护作者知识产权,另一方面为了更好地宣传本校的图书馆,校内读者和校外读者按网络的不同使用的权限也不同。校内读者可以随意全文检索、下载和打印。而校外读者在防火墙的作用下,只能进行目录的检索。系统流程如图2所示。

图2系统流程

2.3数据挖掘所面临的挑战

随着图书馆数字化的不断发展,数据挖掘的不断深入,所面临的问题也很多,比如:①所引进的数据库可能增多或变化,数据源也随之发生变化;②从异构数据源中挖掘信息还比较复杂;③挖掘出的数据表示形式各异;④数据挖掘结果有用性和确定性的评价等。

3结语

作为图书馆的未来发展趋势,数字图书馆拥有海量的信息资源,如何发挥其巨大的作用,避免信息过量,已经成为图书馆发展必然面临的问题。数据挖掘技术因其在海量信息资源中的智能表现,能为数字图书馆的个性化服务建设提供不可或缺的技术支撑。尽管数据挖掘作为一门前沿技术,自身还在不断发展完善,还面临着许多问题,如数据挖掘语言的标准化、对多种类型多层次知识的有效挖掘方法、数据的可视化等,但随着研究的深入,数据挖掘技术必将对数字图书馆的建设产生积极的影响。

参考文献:

[1]朱明.数据挖掘[M].合肥:中国科学技术大学出版社,2002.

[2]纪希禹.数据挖掘技术应用实例[M].北京:机械工业出版社,2009.

[3]王艳.数据挖掘在数字图书馆中的应用[J].情报科学,2003(2).

[4]赵嘉凌.数据挖掘在数字图书馆中的应用研究[J].网络技术,2005(10).

上一篇:任务驱动法在计算机基础教学中的应用 下一篇:Web数据挖掘技术在数字图书馆中的应用研究