图书馆应用网格技术的几点思考

时间:2022-09-30 09:52:11

图书馆应用网格技术的几点思考

[摘要]目前,图书馆界已经开始研究网格技术在数字图书馆领域的应用。由于存储和共享的要求,图书馆应用网格技术有一定的必要性,但大部分图书馆会遇到技术、资金不足的问题,数字版权管理的问题也更加复杂;同时,图书馆以外的数据提供商加入到网格建设中,使图书馆面临空心化的问题,图书馆应寻求解决之道。

[关键词]图书馆 网格 数字图书馆

[分类号]G250.76

1 图书馆对网格技术的研究与应用

1.1图书馆对网格技术的研究

近几年来,我国图书馆界致力于研究网格技术在数字图书馆领域的应用,以寻求数字图书馆在资源的高效利用与共享、技术的充分改进与提高、服务的快速提供与完善等方面的新突破。

据调查,2002年《情报资料工作》发表的《网格技术将带来知识管理革命》是国内首篇将网格与图书馆结合起来开展研究的论文。此后,国内学术界围绕网格与数字图书馆的研究呈逐年增长趋势。在国内公开出版发行刊物上,2003年发表相关文章的数量为3篇,2004年为8篇,2005年32篇,2006年49篇,2007年56篇。从这些文献论述中我们可以清楚地认识到,网格技术能给数字图书馆的发展带来强劲的动力。

1.2国内外网格技术在图书馆的应用实例

2000年意大利ISTI-CNR的DLib小组开发了用于创建和管理数字图书馆的服务系统“OpenDLib”,在此基础上启动了DILIGENTt研究计划,目标是开发一个基于网格框架、面向服务的数字图书馆系统。它是欧洲网格研究项目EGEEE的子项目,是目前世界上规模最大的应用网格技术支持数字图书馆建设的研究计划。

BRICKS是一个以在EDM上建立数字图书馆的组织和技术基础为目标的综合项目。这里的数字图书馆是一个网络化的系统服务,可以实现全球化的可用的多媒体数字文档的收集,并针对不同用户和访问模型提供不同的知识层次。

“CNGI中国国家网格”的数字图书馆应用包括中国国家图书馆、北京航空航天大学和西安交通大学3个数据资源节点,每个节点包括1000万条元数据记录,600GB对象数据。数据资源节点通过Web方式封装数据的检索和访问,并在中国国家网格中整合,形成数字图书馆资源联邦。

2 网格技术在图书馆中应用的必要性

2.1存储的要求

随着数字建设进程的加快,图书馆在存储方面存在以下问题:①数据扩充性能差,无法满足数据资源爆炸式增长的需求;②多用户、异构性与跨平台导致数据兼容性和共享性较差;③存储系统智能性较差,不能满足动态存储、按需存储的要求;④数据的批量传输、移动和复制能力较差;⑤数据的存储速率无法满足大数据量、大并发访问的要求。

以高校为例,数字资源投入使用后,资源更新使资源总量增长很快,这给信息存储的扩展性带来严重阻碍。普通本科院校每年的数字资源以5-10TB数量增长,正常发展每年至少要增加1-2个磁盘阵列以及服务器,而硬件设施需投入大量资金,很难承受。

存储网格技术则因以下特点而能全面、灵活地解决数字图书馆面临的存储问题。

海量存储技术。传统的存储模式无法满足存储容量不断增长的需要。存储网格架构将以数据中心的集中式存储管理转化为分布式的管理和控制,从而解决了海量数据存储问题。

异构存储技术。数字图书馆系统具有主机系统多类型、数据来源多方向性、数据存储格式复杂、数据用途多样等特点,使得资源存储在实现功能、性能和访问接口上变化很大。存储网格方案无论数据存储接口如何变化,无论数据存储在什么位置,用户都能完全无缝地访问到所需数据,而不必关心存储设备所处的位置、采用何种存储系统以及资源如何配置。

动态存储技术。数字图书馆系统在不同时刻对服务的需求是不同的,某段时间内可能因为访问人数激增造成对某部分的计算资源需求增加,一段时间后可能需求又有所下降。这些都是无法预知的,而网格存储技术能有效地解决数字图书馆资源动态存储和按需存储的问题。

2.2共享的要求

图书馆早期的资源共享主要是文献信息资源共享,通过图书馆之间的馆际合作来实现,包括馆际互借和藏书的分工协调等。在数字化时代,信息共享机制仍不健全,各单位购置的数字资源一般只供本馆读者使用,外界不能访问,限制读者使用与公网的不稳定性大大降低了数字图书馆资源利用率。虽然现在出现了诸如CALIS文献中心、省级高校数字图书馆等共建共享的中心馆模式,实现了一定程度的共建共享,但也只限于参建馆读者使用,没有实现真正意义上的资源共享。

网格技术能催生信息资源共享新模式,使图书馆实现广域范围的真正资源共享,消除信息孤岛:

网格为信息资源共享搭建了统一的平台。网格技术的巨大优势是比较明显地降低建立网站和提供网络服务的成本,实现了信息共享,主要解决广域分布、异构信息源的互连和互操作问题,为用户提供一体化的智能信息平台,用户可以通过网格操作系统透明地使用整个网络资源。网格利用现有的网络基础设施创建了一种基于因特网的新一代信息平台和软件基础设施。

网格有利于海量数据的处理。广域范围的资源具有海量的特性,共享过程中会产生海量的数据和指令。网格把整个因特网整合为一个巨人级的超级计算机,连接的计算机规模越大,计算能力就越强。因此,网格能很好地解决海量数据的计算处理和分析问题。

网格有利于知识的管理和信息的集成。网格的知识生产特性是网格与因特网之间的本质区别。传统的因特网本身不生产知识,用户只能查找利用人们放在因特网上的已有的信息知识。而网格则能根据用户的要求,自动地查找有关的数据源,并进行综合分析和知识发现,形成新的认识。用户可以在较短时间内,把需要的数据从不同的数据库中找出来综合在一起,省去了多次访问不同数据库的麻烦,从而为分布式异构环境中实施信息资源发现提供支持。

网格技术支持的资源共享,使整个社会资源建设成本更低,使信息的传递和使用更加便捷,共享对象更加广泛,有利于图书馆开展深层次的信息挖掘和整合服务,提高用户的信息保障率和馆藏资源的利用率。

3 图书馆在使用网格技术时需解决的问题

3.1技术和资金问题

据易观国际《图书馆IT信息化建设综合研究报告》(2004年)显示,我国有统计的图书馆数量共15 437家,其中县以上公共图书馆2697家、高校图书馆1700家、科研院所图书馆4100家、党校系统图书馆1600家、医院系统图书馆1200家、中等专科学校图书馆3800家,其他类型图书馆340家。

3.1.1从技术层面上看该研究报告表明,我国图书馆IT应用的水平分为3个层次:①初级层次:还处于起步阶段,已配置了计算机相关设备,但只是应用于图

书馆部分业务(如编目),这一部分图书馆在数量上占整体的76%;②中级层次:已经实施了图书馆网络集成系统,图书馆的全部业务都实现了计算机化、网络化处理,这一部分图书馆在数量上占整体的18%;③高级层次:即图书馆已经进入数字化阶段,可以向读者提供数字信息资源的加工、检索服务,这一部分在数量上占整体的6%。

从人才储备方面看,占整体的76%、处于IT应用初级层次的图书馆对于应用网格技术显然有很大的困难,占整体的6%、处于高级层次的图书馆则是应用网格技术的主力军和开拓者,而占整体的18%、处于中级层次的图书馆经过加强配备可成为网格的应用者。如此,则四分之三的图书馆有可能被网格大潮抛离。

3.1.2从资金层面上看据研究报告统计,大型图书馆有成熟的IT应用,对IT有清晰的认识和理解,在资金方面有保证。大型图书馆数量只占全部图书馆总量的4%,IT投入却占了总投入的25%。小型图书馆由于缺乏经费,在IT投入方面不会有大的突破。

高等院校及科研院所图书馆的IT投入排在图书馆行业的前两位。2003年,我国图书馆IT投人共计6.09亿元,其中公共图书馆IT投入为0.26亿元,高等院校图书馆IT投入为2.45亿元,科研院所图书馆IT投入2.46亿元,其他类型图书馆IT投入0.92亿元。高校图书馆IT投入占全部的40.2%,科研院所图书馆的IT投入占全部的40.4%,两者之和达到了80.6%。而高校图书馆和科研院所图书馆占我国图书馆整体的比例不到36%。

县以上公共图书馆2697家,IT投入仅为0.26亿元,省级图书馆IT应用达一定水平,而除少数经济发达地区外的广大市县公共图书馆,却是难以为继。

综上所述,绝大多数的图书馆要加大投入进行网格技术改造建设的难度很大。

3.2版权问题

版权问题是图书馆数字化进程中不可回避的问题。我国在2006年7月1日起施行的《信息网络传播权保护条例》第7条中,对图书馆的网络传播权进行了明确的规定。

数字版权管理需要利用法律、经济、技术等手段对数字化的内容信息给予一定的权益保护,从而维护作者和出版商的权益,鼓励数字化作品创新,促进信息的传播与交流。其技术手段是通过对数字化内容的控制,使版权所有人能够掌握其作品被使用情况,并且获得相应的报酬。解决数字版权管理是网格环境下信息资源真正实现共享的基础。

网格环境下的数字图书馆数据流量大,为了避免大量的数据传输而造成通信资源阻塞,也为了避免单点故障造成损失,现在网格采用了三种解决方式:

设立专门固定的交换中心。对于用户众多的大型数据提供商来说,仅靠一个数据中心是显然不够的,于是它们在多个主要城市设立了分中心,这样形成的资源网格是一个分布在各地的由交换中心构成的节点网络,各节点还可以包含子节点。中国期刊网(CNKI)网格资源共享平台就是这样一个网格化资源管理体系的操作系统和应用系统,其资源是以网格结构的形式分布式地存在的。

利用P2P技术。在一个广域网格中,网格把副本数据分成无数小片,分存于网格中的部分终端,加快数据传输,防止通信资源阻塞。由于文件的存储和服务分散到了系统的每个节点,使得每个节点只需要承担相对少量的任务,很好地起到了负载均衡的作用,从而避免以服务器为中心的网络结构的性能瓶颈。

创建资源副本。当网格一节点的用户使用同一资源频次达到一定程度,即在该节点创建该资源副本,从而有效地解决了大数据量并发访问瓶颈的问题,以减轻网格负担。

现行网络中图书馆资源信息传播是线性的、单向的,信息提供者先将信息到网络,网络再将信息传递到用户;而网格图书馆中资源信息传播是网状的,双向的,如上述网格的第二、第三种传播方式,即网格的资源为分布式的存储和传播。

因此,在网格环境下信息资源共享程度极大提高,但数字版权管理的问题也更加复杂。网格图书馆是开放式的存取环境,网格中信息的复制性、全球的传播性和变幻莫测的交互性给著作权保护带来了空前的震撼和挑战。如何限制信息由授权使用方传送给非授权使用方、版权所有人怎样能够掌握其作品被使用情况,是图书馆应用网格必须解决的问题。

做好整个网格范围的资源利用的管理和控制,掌握读者对网格资源的使用情况,尽量提高网格资源的免费率,严控收费的范围和力度,研究收费的方法,保证网络收费的安全,是解决网格数字版权的不二法门。

4 网格给图书馆带来的挑战

4.1图书馆空心化

图书馆空心化问题包含着两层含义:①到馆读者逐渐减少;②图书馆使用者逐渐减少。

到馆读者逐渐减少是数字图书馆所带来的效应。由于数字资源的便捷性,原本需要到图书馆才能获得的信息,现在读者可在其他地方通过网络访问图书馆数字资源达到阅读和使用的目的,造成到馆的人数减少了。因此,一个图书馆的读者数现在并不仅仅是到该馆阅览的人数,而是该馆的实际使用人数(还应包括馆外使用该馆数字资源的人数)。这样,从另一个角度看,到馆读者减少了,图书馆数字化在一定程度上使图书馆空心化了。

图书馆使用者逐渐减少的问题则归因于图书馆外社会因素的影响。首先是网络对图书馆的冲击。随着近些年来网络的普及,网民急剧增长,网络信息不断丰富,数字化阅读趋势已不可阻挡。据中国出版科学研究所最近公布的第五次国民阅读调查显示,网络阅读已经超过了图书阅读。其次在印刷型书籍的阅读争夺中,现在书店人文化的开架阅览购买方式也吸引了大量的读者。另外,快节奏的生活方式也限制了部分读者到图书馆来阅读。手机等新型移动电子阅读方式将更猛烈地冲击传统阅读方式。

网格对于图书馆来说也是利弊兼而有之。除前文提到的中国期刊网(CNKI)网格资源共享平台,现在还有书生之家数据网格,表明图书馆以外的数据提供商已经加入到网格建设中,它们提供的资源更全面,书刊、学位论文、专利标准等应有尽有,与图书馆争夺读者。一旦广域网格建成,图书馆将出现一定程度的资源空心化,面临被釜底抽薪的危险。网格一方面让图书馆便捷性大大强化;另一方面将使得使用图书馆数字资源的人数减少,把到馆读者逐渐减少的问题转化为使用者逐渐减少的问题,加剧了图书馆空心化趋势。

4.2解决之道

4.2.1发展非电子文献的阅读虽然现在网络阅读已经超过了图书阅读,但电子阅读仍有很大的局限性,如果它不能取得突破性的进展,那么图书馆的非电子文献的阅读就仍将牢牢占据很大空间。

4.2.2建立特色数据库与地域特色文献数据库 图书馆以外的数据提供商不可能提供所有的资源,图书馆应大力建设自己的特色数据库与地域特色文献数据库,为自己争得一席之地。比如,北京邮电大学的邮电通信专题文献数据库、北京服装学院的服装大师信息数据库、兰州大学的敦煌学数据库等都是很好的建设。

4.2.3培养图书馆核心竞争力――知识的组织能力网格图书馆能对域内资源进行一定程度上的整合和挖掘,但这是远远不能满足读者的需求的。图书馆能利用馆内的专业人才,对人类已有知识进行有针对性的组织、深层次的挖掘和整合,这才是图书馆最大的优势。图书馆员应逐渐发展成为网络信息导航专家和信息咨询专家,才能跟随时代的步伐,不被淘汰。

上一篇:“用户可感知数字参考咨询服务质量”概念模型... 下一篇:信息构建在政府信息公开中的应用