数据挖掘技术在图书馆构建中的应用

时间:2022-10-06 06:46:17

数据挖掘技术在图书馆构建中的应用

摘要: 随着数据库管理系统在图书馆中的应用,系统中积累的数据越来越多,如何选择并有效利用数据挖掘工具充分挖掘出积累数据中隐含的有价值的信息,为读者提供更加人性化的服务是图书馆管理人员面临的问题。就利用SQL Server2008这一数据库管理系统对学校图书馆中的数据进行挖掘做探讨。

关键词: 数据挖掘;建模;SQL Server2008;朴素贝叶斯

0 引言

图书馆作为高校的一个重要组成部分,其管理方式的信息化亦是高校管理信息化的重要体现。图书馆图书借阅资料繁多,很多的数据需要管理。若采取手工方式对图书资料和图书借阅情况进行管理,由于资料繁多,手工处理的工作量大,整体管理效率低下,也不方便读者对图书资料的查阅。如今,虽然大多数的图书馆都采用了数据库管理系统,但是数据挖掘功能还没有被充分利用。SQL Server2008是一款非常重要数据库管理系统,其中的数据挖掘功能,可以挖掘出图书管理系统中大量有价值的信息,为管理者提供参考,为读者提供更加个性化的服务。

1 数据挖掘的概念

简单地说,数据挖掘就是从数据集中识别出有效的、新颖的、潜在有用的以及最终可理解的模式的非平凡过程。数据挖掘通过对查询内容进行模式的总结和内在规律的搜索,帮助管理者分析历史数据及当前数据,并从中发现隐藏的关系和模式,进而预测未来可能发生的行为,从而为决策行为提供有利的支持。数据挖掘技术还能够用于信息管理、查询处理和过程控制等。它与传统的数据分析(查询、报表、联机应用分析)的本质区别是数据挖掘是在没有明确假设的前提下去挖掘信息、发现知识。

2 数据挖掘的方法[1]

数据挖掘方法分为统计方法、机器学习方法、神经网络方法和数据库方法。统计学的方法是数据挖掘的经典方法。统计方法中包括回归分析(多元回归、自回归等)、判别分析(贝叶斯判别、费歇尔判别、非参数判别等)、聚类分析(系统聚类、动态聚类等)、探索性分析(主元分析法、相关分析法)等;机器学习方法中包括归纳学习方法(决策树、规则归纳等)、基于范例学习、遗传算法、粗糙集等。

3 数据挖掘建模应用图书构建中

3.1 挖掘工具的选择

SQL Server2008中的数据挖掘组件是数据挖掘工具的典型代表,系统中引入了多个新的数据挖掘算法,与传统的数据挖掘工具相比,SQL Server2008数据挖掘功能具备很多优势,因为它与所有SQL Server产品实现了集成,包括SQL Server、SQL Server Integration Services和Analysis Services。SQL Server2008数据挖掘功能具有实用性、可伸缩性和可扩展性等特点,同时它包含简单而丰富的API。基于SQL Server2008有着非常实用的数据挖掘功能,所以选择完整表达出图书类别的信息作为数据挖掘的工具。[2]

3.2 数据的收集及整理

本学校采用计算机管理图书的时间还不长,系统功能还较简单,相关数据整理起来也相对比较杂:

1)在服务器端导出Excel格式的图书信息表、借书记录表。因为系统功能比较简单,图书信息表格中只有类别编号,没有类别名称,不能完整表达出图书类别的信息,所以需要人工将数据导出来之后,进行数据汇总。

2)启动SQL Server2008 Management Studio,在对象资源管理器中新建一个数据库“library”数据库,然后建立“lib”表,将数据填写在表中,如图1。ID:编号,yxzy:是否是医学专业,sjlx:书籍类型,js:借书情况,xj:是否续借,jdrs:接待人数。

3.3 对library数据库进行数据挖掘,建立模型

1)启动SQL Server Business Intelligence Development

Studio,新建一个商业智能项目。

2)新建数据源(DS),把library数据库添加进来。

3)新建一个数据库数据源视图(DSV)。

4)使用数据挖掘向导建立数据挖掘结构和挖掘模型。

5)处理挖掘模型。

6)使用挖掘模型进行分析、预测。

3.4 对挖掘的信息进行分析汇总

1)该表通过数据汇总之后,摘录了18条有代表性的记录,进行分析。按是否是医学专业类别分书籍,共为两类:是和否;借书情况分为三类:好、一般、差。是否续借,分为两类:是和否;接待人数分为三类:200。以100和200为基准的原则是按照各个系别的人数划分,有些医学专业的人数比较多,例如临床医学,有些则适中如解剖,有些则是非医学专业的人数比较少,如:计算机。

2)采用Microsoft Naive Bayes数据挖掘技术继续分析。Naive Bayes是数据挖掘十大经典算法之一,在众多分类方法中,应用最广泛的有决策树模型和朴素贝叶斯(Naive Bayes)。本表分析则采用的是朴素贝叶斯,朴素贝叶斯分类器(Naive Bayes Classifier,后NBC)发源于古典数学理论,有着坚实的数学基础,以及稳定的分类效率。同时,NBC模型所需估计的参数很少,对缺失数据不太敏感,算法也比较简单。Microsoft Naive Bayes算法对dbo.lib,得出如下结果,如图2和图3。

图2和图3直接给图书馆管理人员提供了决策依据,为以后的工作提供了理论依据。比如根据图2依懒关系网络图,可以发现,书籍的是否续借直接和该书籍接待人数和是否借书的情况有关系。根据图3发现,接待人数多的则是医学专业的人比较多,而非医学专业的人则少,可能是因为这方面的图书太少,相关书目更新速度太慢,没有新的书籍,还有就是这些专业是学校新兴的学科,没有及时的购买书籍。但是非医学专业的书籍,如文学类的图书被借阅的次数最多,这也是让非医学专业接待人数在其中占一个大比例的原因,应该把该类图书置于易于存放的位置,以便为读者提供更人性化的服务等。同时也应该增加一些图书馆中,书籍的种类。

4 结语

图书馆管理引进数据库系统以后,节约了大量的人力、物力,提高了图书管理员的办事效率,使用数据挖掘技术可以挖掘出大量读者借阅记录中存在的隐含的信息,通过这些信息可以为管理者提供更直观的决策依据,采取更及时有效的措施,为读者提供更加人性化的服务。

参考文献:

[1](加)韩家炜、(加)坎伯(Kamber,M.),数据挖掘概念与技术[M].范明等译,北京:机械工业出版社,2001.

[2]谢邦昌,数据挖掘基础与应用(SQL Server 2008)[M].北京:机械工业出版社,2011.10

上一篇:波音披露新型空中航天发射系统概念 下一篇:采用Open Inventor类库开发的