网站文件的归档

时间:2022-09-03 03:12:56

网站文件的归档

网站文件无论是对组织机构还是对人类社会来说,都是很有价值的原始信息,网站文件还具有一些与一般电子文件不同的特点,所以很有必要对网站文件进行归档保存。网站文件是原生信息,具有原始性;网站文件沟通了历史的桥梁,具有历史性;网站文件更新快、寿命短,具有很强的动态性;网站文件还具有唯一性。

网站文件归档的可行性

目前,网站文件的归档大多由国家图书馆来承担,例如:美国国会图书馆的NDIIPP项目(Na-tional Digital Information Infrastruc-ture Preservation Program),日本国立国会图书馆的WARP( Web Archiving Project),澳大利亚国家图书馆的PANDORA项目(Preserv-ing and Accessing Networked Docu-mentary Resources of Austral-a)。这些项目对网站文件的捕获、归档、存储都进行了研究,并在实践中取得了可喜的成绩,但是并没有将网站文件归档纳入适当的文件管理需求中,在收集过程中,只是注重了它的文化价值,忽视了它的原始记录性,因而无法充分保证网站文件的完整性和可靠性,对于元数据捕获也没有给予足够的重视。

笔者认为,网站文件归档的任务应当由档案部门来承担,档案学理论可以借鉴到网站文件归档中来。

电子文件管理对网站文件归档的借鉴意义。网站文件本身就属于电子文件的范畴,可以按照电子文件的管理方法进行管理,网站文件的生成、、捕获、归档、利用是一个完整的运动过程,应当对其全程控制,不仅保存网站文件本身,要连同元数据、网站文件的变化日志、插件程序一起保存,才能保证网站文件的真实性和完整性。

来源原则对网站文件归档的借鉴意义。面对浩如烟海的网站文件,最好的方式就是以网站为单位进行保存,同一个网站的所有网站文件构成了该网站的“全宗”,应当将同一个网站上的网站文件保存在一起。网页与网页之间的链接关系和网页与程序文件的依附关系也不能被破坏。目前美国的互联网档案馆(Internet Archive)已经体现出“来源原则”,同一个网站上的网页收集到一个目录下,二级目录是按照时间顺序进行排列,与按照“机构―年度”的案卷排列相类似。

虽然档案部门面临许多挑战,目前,已经有互联网档案馆的称呼,但也从侧面反映出人们已经把网站文件看作档案来进行保存,档案部门理应承担网站文件归档的责任,由机关档案室对本机构网站包括内联网和外联网上的网站文件进行归档,公共档案馆对所有的公共网站和个人网站上的有价值的文件进行保存。网站文件的归档这一问题将会成为档案学以及电子文件管理研究的一个新领域。

网站文件的归档策略

用电子文件管理原则来指导网站文件的归档是保证网站文件完整性、真实性的有效方法。由于网站文件自身的特点,它的归档,尤其是捕获,与一般的电子文件不同,一般来说,网站文件归档的过程包括网站文件归档范围的确定,网站文件的捕获,网站文件的存储。

(一)网站文件归档范围的确定

并非所有的文件都成为档案,同样,并非所有的网站文件都具有长期保存的价值,因而需要制定一个策略决定哪些需要归档,保存多长时间,由于网络上的海量信息,除了一些公司要求强制删除存档在个人电脑中的机密文件之外,对于海量网站文件,我们只要从中鉴别哪些需要保存,不需要保存的则任其自生自灭,与档案管理中显著不同的是档案管理中必须将不需要归档的文件进行销毁。

从内容上来看,有两种基本的收集方法:广泛收集法(compre-hensive approach)和选择收集法(selective approach)。

广泛收集法是通过自动捕获软件收集网络上的一切资源。与其选择性地收集倒不如全盘皆收,广泛收集法工作量比选择收集法小很多,对网站文件的选择是一项耗时、复杂且需要大量资金投入的工作。

选择收集法由人工进行鉴别有价值的文档然后再进行收集。澳大利亚的PANDORA采用选择收集法,澳大利亚图书馆和合作者并没有收集所有的在线出版物,而是选择一些有价值的值得长期保存的信息。从技术上来看应当归档的文件包括:系统软件、自动化软件的结构文件、日志、cookies、索引、图形、文本、出版物、图像、音频、视频。

(二)网站文件的捕获策略

捕获策略取决于网站的类型和复杂程度,最常用的两种捕获方式分别是:对象驱动法(object driven strategy)和事件驱动法(event driven strategy)。

对象驱动法适合于由HTML文件构成、不能实现交互功能的网站。“对象”(object)指的是一个完整的HTML文件,有时候也指用来构成HTML文件的所有元素,包括:标题、页脚、网站徽标、图像、文本内容。对象驱动法必须保证阶段性地给网站拍摄快照(snap-hot)、跟踪网站的变化和记录事务的细节。对象驱动法必须跟踪变化的轨迹以便在既定的时间范围内能够重现网站,所以对象驱动法应当捕获一下元素:用户简表、样式表(style sheets)、搜索引擎、脚本和程序、定期的数据库快照、数据库事务日志。

拍摄快照(take snapshots)属于对象驱动法。拍摄快照指的是在某个时间点,及时地生成一份完整而又准确的网站文件副本,这份文件副本就称作一个快照。给网站拍摄快照的时候,将内容、样式、技术平台的功能全部复制,保证网站功能的连续性和数据的完整性。快照的缺陷在于仅仅展现出了网站在某一时间点的画面,对于单独的一份快照来讲,它是孤立的,只有和其他的快照联系在一起才能重现网站,为保证快照之间的连续性,需建立快照目录,即快照的变化日志。

事件驱动法主要是捕获网站和用户之间发生的事件或事务,适用于数据库驱动(database-driven)的动态网站。与对象驱动法的最大不同就是着眼点的不同,对象驱动法关注的是构成网站文件的对象,而事件驱动法关注的是网站和用户之间的单独的一个事件。事件驱动法应当捕获一下元素:事件发生的日期和时间、用户的IP和域名、用户简要概况、用户查询活动、用户其他活动以及相关的元数据。

以上两种方法讲的是什么元素需要捕获,并没有说明捕获时间。捕获的时间取决于网站变化的范围和频率。网站更新存在以下四种情况:(1)经常更新:更新间隔的时间是三个月以内;(2)不经常更新:更新间隔的时间是三个月以上;(3)有规律地更新:按照计划有规律地进行变化(例如一周一次,一天两次);(4)不规律地更新:没有按照计划进行更新,更新时间比较随意,更新间隔的时间也是不确定的。按照以上四种变化情况,网站可以分成以下四种类型:规律且经常更新的网站、规律但不常更新的网站、不规律但经常更新的网站、既不规律也不经常更新的网站。捕获网站文件的时间是由网站的变化情况来决定的,跟踪不规律但经常更新的网站难度很大。

(三)网站文件的保存策略

由于计算机软件和硬件的不断更新,今天还存在的电子文件20年后未必能够读取。除了HTML文本文件属于非专利的形式外,网站上包含许多专利格式,例如,Java程序, ActiveX程序、.jpg格式文件、.gif格式文件、.tiff格式文件、images文件、Word文件都是网站的构成要素,所以仅保存HTML文本文件是远远不够的。网站的内容、结构、背景都要保存,脚本程序(Script)和插件程序(plug-in)也需要保存,对于网站文件来说,元数据和数据同样重要。

网站文件归档存在的问题

虽然网站文件归档的项目已经展开,人们对网站文件的关注程度逐步上升,但是目前网站文件归档尚处于探索阶段,对于网站文件仍然面临许多问题,尤其是国内网站文件归档的有关研究还是相对滞后的。

(一)动态网页的捕获问题

动态网页一般都有后台数据库做支持,具有很强的交互性,网页会根据用户的要求和选择而动态改变和响应,客户的客户可以在网站上留言发表疑问、建议和意见等。动态网页的组成要素(内容、结构、背景)都是自动生成,无须手动更新HTML文档,通过数据库便会自动生成新的页面,例如在线采购系统、商务交流系统中的订单都是自动生成。目前,只有PANDO-RA项目对动态网页进行收集,对于动态网页的捕获及存储技术还有待进一步探讨。

(二)网站文件管理流程该如何设定的问题

文件的流程管理属于业务活动的特殊流程,文件管理流程负责管理组织机构所有业务流程中形成的文件。网站文件与一般的文件管理流程也有所不同,因为网站文件的生成、控制、传播和保存的责任相对比较分散,给网站文件的管理流程设计加大了难度。

(三)数字文件的长久保存问题

网站文件长久保存包括:软件硬件更新对网站文件的再现造成的威胁,网站文件保存体系的构建,备份系统的建立等。在数字保存方面,OAIS参考模型已经成为公认的标准,网站文件的保存也可以借鉴OAIS参考模型,实现长久保存和利用。也有人提出了建立软件和硬件博物馆来实现数字文件的长久保存。

(四)相关的法律问题

著作权问题,网站文件的作者是无法明确的,有些还是匿名的;编辑权问题,包括URL链接的相对变更、文字编码转化、信息单元表现形式的变更;采集权问题,档案部门是否有权对网页的下载、复制、备份;长期保存权问题,保存机构是否可以无限期拥有作为国家文化遗产的网站;公布权问题,保存机构捕获网站文件之后是否具有公布权;隐私权问题,在对网站的利用过程中是否侵犯了网站形成者的隐私权。

1996年,互联网档案馆(In-ternet Archive)建立至今,世界各国已经对网站文件的归档予以重视,不惜投入大量人力和资金,对网站文件进行捕获和存储。一些企业和政府对内联网上的文件进行保存,以备不时之需,博客备份软件已经上市,说明人们意识到存储网站文件的重要性。谢伦伯格(T. R. Schellenberg)曾经说过,“电话是掠夺历史的盗窃者”,在人们享受网络带来的便利的同时,有没有意识到网络带走了历史呢?

(作者单位:中国人民大学信息资源管理学院100827)

上一篇:SOA与信息资源共享 下一篇:第20次ISO/TC46/SC11工作会议及其启示