国家图书馆:打造大数据时代的数字图书馆

时间:2022-10-05 01:34:01

国家图书馆:打造大数据时代的数字图书馆

伴随着大数据时代的到来 ,承载着知识存储、利用和开发重任的传统图书馆也开始向数字图书馆转型。数字图书馆时代的来临,给传统的图书馆模式带来了巨大挑战,从线下传统图书馆过渡到线上,需要解决的首要问题是数字化后的千万数量级书籍的数据存储问题。

国家图书馆中央控制室主任、总工程师于洪波表示,为实现国家图书馆全面数字化,目前国家图书馆正在进行一期维修改造,建成之后的数字化图书馆的非结构数据存储量将达到800TB左右。

迎接“数字图书馆时代”

网络环境使图书馆赖以提供服务的资源基础以及图书馆和读者获取资源的方式都发生了根本性的变化,图书馆的馆藏建设已经从过去的实体馆藏建设延伸到了虚拟馆藏建设,数字化图书馆成为图书馆的未来发展方向。在谈到数字化图书馆时,于洪波表示,“数字图书馆时代”可以理解为,数字时代的图书馆模式,应该是既有传统意义上的图书馆和读者,也有网络终端模式的图书馆和读者,它所带来的影响是方便、快捷、及时、有效。

作为互联网上重要的信息内容提供者,国家图书馆很早就意识到了自己在中文数字资源建设与服务方面的重要责任。从1987年起,国家图书馆开始致力于电子出版物的收集与馆藏书目数据库的建设,2000年起开始有计划地进行馆藏特色资源的数字化建设。2005年10月,由国家图书馆主持建设的国家数字图书馆工程获得国务院批准开始建设,工程明确提出了建设世界上最大的中文数字信息保存基地和中文数字信息服务基地的目标。目前正在进行的一期维修改造工程完成后,建成的数字化图书馆的非结构数据存储量将达到800TB左右。

数字化图书馆发展的根本是馆藏资源数字化。于洪波认为,解决大数据问题是一个全球性的问题,目前,世界发达国家都在积极策划和运筹大数据,如果没有认识到这一问题,那么我们将再次在这方面落后,这样的落后必将在信息产业方面造成致命的缺陷。为了迎接大数据时代,实现馆藏资源的数字化是未来图书馆大数据战略的基础,不断扩充建设网络服务和其他服务手段使之适合社会需求成为国家图书馆的目的。

数据存储面临的挑战

大数据时代的到来,改变了传统的IT架构与数据存储、利用机构,也对作为社会中储存信息知识、提供信息服务的信息中心的图书馆形成冲击和挑战。在信息环境下,信息产生的成本快速下降,产生的方式也多种多样,存在于社会空间中的信息数据量迅猛增长,但大数据时代更是会促使数据产生的范围、方式、途径发生翻天覆地的变化,人们的一举一动、一言一行、行为规律等都将产生出大量的半结构化、非结构化信息数据,信息数据的组成结构、类型格式、存在形态等都愈加复杂。大数据时代来临后,图书馆对这些复杂数据进行的应用、存储将有着极强的挑战性,如何来更好地解决大容量的存储成为重要问题。

“现在国家图书馆大数据面临的问题是存储问题。”于洪波介绍说,图文、视频是现在的表现形式,但是实际上存储量比较大的就是视频内容,国家图书馆中央控制室视频存储数据量非常大,达800T到900T。视频内容很大,一个是数据块大,都是连续的,如果中间有存储不好,就可能出现马赛克显示不了。另外,存储量也比较大,最后它在存储当中占的内容也比较大,2011年IDC企业外部存储市场季度跟踪报告显示,到2020年将达到35ZB,是2011年1.2ZB的近29倍,这个量大到不可想象,再过几年数据量可能会更大。

未来存储的发展方向

大数据存储有两方面的问题需要面对,一个是“存”,另一个是“用”。于洪波表示,“存”讲的就是完整、持久,“用”的含义是及时、有效,这也是国家图书馆大数据存储面临和需要应对的问题。从目前来看,主要的解决办法是,由于纸质的传统文献的保存只有几百年的时间,同时和保存的环境、手段息息相关,而数字化的多种介质存储是持久保存的手段之一,所以传统纸质文献的数字化转变是保存、传播和应用的基础。

国家图书馆的数据存储介质包括很多种,最早是磁带,此外,磁盘驱动器用得很多。大磁盘阵列使用得也比较多,它的特点是,受到冲击以后可以保存,在高热量的情况下,磁铁就会消失或者被破坏,这样容易造成存储量不容易保存,这是一个特点。还有固态硬盘,它的存储功能比较好,但是有一定的局限性。光盘的存储好处比较多,不易被改写,刻录后内容永久写入,不易被篡改。除了一次性刻录光盘,现在有一种光盘是蓝光光盘,保存年限大于50年,它与其他光盘的不同是永久保存比较理想。

目前国家图书馆的数据多以光存储为主,“以“光存储”数据的主要介质是“缩微胶片”,于洪波认为,这种存储形式的局限性很大,主要体现在传播和应用环节上,故此需要逐步转为以数字化存储为基础的模式上来,这样就可以形成“存”和“用”这两个问题的解决办法。

“光存储”是文献、资料数字化的一种表现形式,同“电”存储和“磁”存储相比,其特点为稳定、不能修改、抗击强电磁场和强磁电场干扰、抗击热冲击的能力也强于“磁”存储,同时可以完全抗击网络黑客和病毒的攻击,可以方便简洁地做到离线保存,并且复制、修复成本也较为低廉。于洪波表示,不仅仅是图书馆的存储,以后“光存储”的普及是未来“数据中心”面对的现实,当克服了“光存储”设备在技术层面的制约后,这种“光存储”的表现内容会逐步形成离线“存储环节”广泛应用的庞大规模。

对于未来的存储方式,于洪波介绍说:“国家图书馆的需求是这样,都是大数据的存储,既需要考虑现实情况,也应该考虑到未来的发展趋势,抓住当前的机遇,使我们策划的方案具有前瞻性,不至于呈现在设计时就落伍的局面,这是一种考虑。未来存储的策略是要对长期存储数据至少三份拷贝,存储在两种不同的介质上。在目前已有的存储技术中,应该选择两种介质:磁介质加光介质,电介质和光介质,电介质和磁介质。现在还有另外一种方式就是胶片,模拟性的数字,这是上个世纪初来做的,做得比较大,但是数字化程度很低,因此在传播方面稍微逊色。”

国家图书馆一期维修改造工程竣工后,建成的数字化图书馆将在数据存储方式上呈现对外应用、传播使用数字化的网络传播,并且同传统的纸质及其他介质阅读相结合的复合表现形式,对内采用的存储形式为数字化和传统形式相结合的手段,组成相互支撑的存储和应用结构,从而服务于社会。

相关链接

国家图书馆数字资源

国家图书馆自建的数字资源包括全文文本、全文图像、音频、视频等多种类型。

截至2008年底,全文数据总量超过1.15亿页。

中文古籍文献数字化

截至2008年底,国家图书馆已经完成或正在进行的主要中文古籍文献数字化项目有:

馆藏地方志数字化。截至2008年底,已完成馆藏地方志全文影像6868种335万页,其中有2000种120余万页经过了全文文本转换。

馆藏拓片数字化。截至2008年底,已经完成元数据加工2.3万余条,影像2.9万余幅。

馆藏甲骨实物及拓片数字化。截至2008年底,已完成甲骨实物影像6,075种1.06万幅,甲骨拓片影像5,273种6,463幅。

馆藏敦煌文献数字化。截至2008年底,国家图书馆已完成敦煌写卷820卷、2.3万拍的数字化加工工作。

民国文献数字化

截至2008年底,已完成4535种8.6万期民国期刊的数字化加工工作,全文影像达504万页,完成11259种12075册民国图书的数字化加工工作,全文影像达286万页。

中文现代文献数字化

2008年已完成13万册学位论文的数字化加工工作,全文影像数据达1730万页。

上一篇:浅析高等学校《计算机基础》课程教学 下一篇:移动互联时代:“后PC”还是“PC+”