文献资源存储数据挖掘论文

时间:2022-09-05 07:50:13

文献资源存储数据挖掘论文

1云计算技术

云计算与云存储的出现,为图书馆文献资源信息服务的建设注入了新的活力。利用云计算服务可以为图书馆提供存储、平台和计算功能,而图书馆也可以利用云服务来处理业务,大大降低图书馆信息技术的资金成本和人力资源。图书馆通过对各类信息资源、格式采用一个统一的管理平台,实现更大的网络信息效益,同时也可以共享应用和数据。

2文献资源存储

2.1存储现状

从存储系统的模式来看,当前存储技术有以下3种:直接连接存储DAS(DirectAttachedStor-age)、网络接入存储NAS(NetworkAttachedStor-age)和存储区域网络SAN(StorageAreaNet-work)[1]。DAS是最早的服务器与磁盘直联的存储方式。由于存储量小,该模式已经不再适合图书馆大容量数据资源的存储要求。NAS采用网络TCP/IP技术,优点是可以支持多计算机平台,适合访问量不大的数据库和事务处理。

2.2存储区域网络SAN

SAN是采用光纤通道交换机和光纤线缆把存储设备和服务器机群连接。提供速率高达4Gbps的数据传输,是真正的高速共享存储。它不占用外网的资源,具有自己独立的存储区域,光纤接口提供连接长度达10km。其独立的存储管理系统对存储设备进行集中管理和监测。与传统的直连存储方式相比,SAN更关注磁盘、磁带等存储设备的可靠结构。成为最具发展潜力的存储模式,在大型数据库资源存储中是主流技术。在云存储的技术支持下,我们可以利用光纤通道SAN阵列来存储数据量成倍增加的信息资源数据。把SAN阵列划分成若干逻辑区域,每个区域存放一个服务器上的数据。通过存储区域网络服务组之间的共享存储阵列,可以实现存储资源的聚合,采用集中存储架构,服务器将接入这个存储网络,并由存储平台统一提供空间并保证存储系统的可靠性和可用性。

2.3阵列存储形式

在存储区域网络SAN的数据存储模式下,文献信息资源是以磁盘阵列的方式存储的。磁盘阵列是数据存储的重要设备,其稳定性和可靠性是非常重要的。考虑到图书馆文献资源存储量日益增大,磁盘以RAID5的阵列存储形式构成。在RAID5中,数据以块为单位分布到各个硬盘上。RAID5本身不对数据进行备份,而是把数据和与其相对应的奇偶校验信息存储到组成RAID5的各个阵列磁盘上,而且数据和奇偶校验信息分别存储于不同的磁盘上。当RAID5的一个磁盘数据损坏后,利用剩下的数据和相应的奇偶校验信息可以恢复被损坏的数据[3]。RAID5是目前冗余能力和存储安全性能非常好的方式。根据RAID5的特性,阵列中其中一块磁盘是作为热备盘使用的,正常状态下该盘不存储数据。

3数据挖掘技术

数据的安全存储和有效利用是现代化图书馆文献资源建设的2个重要方面。在数据得以安全存储的前提下,如何利用好这些海量的数据信息,发现其中规律,用于指导现在或是未来的工作,就需要一门新的技术来研究它们的规律。数据挖掘技术就在这个背景下应运而生,并且得到了迅速的发展。数据挖掘简称KDD知识发现,又称数据库中的知识发现。它是从庞大的不完整、模糊的随机数据中提取潜在的和有价值的信息。例如:通过对读者以往书籍的借阅情况进行挖掘分析、对比,可以发现他们的学习情况、兴趣爱好等规律,还可以通过分析,评估图书馆工作的成效,给图书馆的服务提供科学指导。其次,可以将关联规则算法应用到图书流通数据的分析,挖掘读者借阅行为中的潜在规则,以指导图书馆的读者服务工作。应用关联规则算法,发现借阅流通日志中图书之间的关联,从而指导读者的借阅行为和提供个性化服务。通过实验分析获得的相关规律和结论,为图书馆数字资源的采购、引进以及个性化服务推荐提供有力的数据依据和决策管理支持。

4结束语

在图书馆文献资源建设中,数据的安全存储和高效的利用是2个重要的环节。现代化图书馆中,电子文献资源数量与日俱增,数据的安全存储则十分重要。采用存储区域网络SAN的存储系统具有很高的可靠性和可用性,为数据的存储提供了安全的保障。同时利用数据挖掘技术可以显著提高文献资源的利用率,给图书馆的发展带来了新的活力。

作者:贝蓓张凯单位:河北农业大学

上一篇:风功率预测数据挖掘论文 下一篇:关联规则下熔炼机组数据挖掘论文