民国档案数字化研究与思考

时间:2022-05-21 09:13:54

民国档案数字化研究与思考

随着信息技术、网络技术、数据库等技术的迅速发展及其在各领域的广泛应用,社会信息流通的基础结构发生了根本性的变化,档案数字化的建设势在必行①。民国档案年代久远,记载着民国社会历史的原貌,反映着民国社会发展的轨迹。将馆藏民国档案数字化,对于继承和保护人类宝贵的文化财富,无疑是最有意义的。为此,笔者就档案数字化建设作粗浅的探讨,与档案界同行交流,以推进档案数字化的健康发展。

一、档案数字化

档案数字化就是将存储于传统载体上的档案信息进行数字化。它利用扫描、照相及其他数字转换技术、将纸质及其他载体中记录的传统档案信息(模拟形式)转换成可以被计算机识别和处理的数字形式的过程。数字化档案的最大特点是能够通过网络迅速流动,彻底改变档案的利用方式,促使档案管理从档案的保管、利用职能向信息采集、信息管理和信息服务职能转变。

二、档案数字化面临的问题

近些年来,为充分利用现代信息技术为档案的管理与利用服务,档案界对档案数字化进行了理论研究,同时全国各地的一些档案馆也开展了积极的尝试,但是在档案数字化过程中也面临着一些问题。

1.标准问题

数字化标准是数字化建设规范和高效的保障,是稳步推进档案数字化建设的基础。但目前档案数字化标准化建设还处在简单、孤立、单个的状态,还没有形成完整的体系。全国档案数字化无相关数据标准,不同档案部门数据结构格式不统一,尽管可以通过大量的元数据来克服这样不一致的问题,但不利于网络条件下档案信息的高效率共享。档案数字化标准的缺位与滞后,已成为制约档案数字化建设的瓶颈;档案管理软件低水平与数据壁垒现象,已成为阻碍档案数字化发展的阻力②。

2.优选问题

长期以来,受历史档案“片纸只字不得销毁”思想影响,在民国档案接收进馆过程中,采取“有文必收,有档定管”的态度,永久保管。这样,不免将内容极具一般的事务性文件、零散性文件、重复性文件与体现民国时期机关主要职能的业务性文件交织在一起,这种“鱼龙混杂,玉石不分”的馆藏现象,造成了“馆藏的虚肿,内容的庞杂”,影响着馆藏档案的优化管理。在当前档案数字化工作中哪些内容优先数字化,哪些全宗优先数字化,哪些全宗暂缓数字化等,这些问题都很难明确。极端的做法是尽其所能通过键盘、采集卡及扫描设备等将其内容全部数字化③。目前,二史馆共收藏有940多个全宗,计180多万卷档案,排架长度达5万余米,绕南京城墙1.5周④,如果将这些档案全部数字化,需耗时20年。

3.检索问题

档案信息检索是馆藏档案数字化基础工作的重中之重。数字化的馆藏档案,不仅应该是经过系统化整理的,而且是建立了能与全文数字化信息钩链检索的案卷级或文件级机读目录。因此,必须处理好馆藏档案实体整理中的遗留问题,完善案卷级目录的主题揭示和加强文件级目录的编制以及目录数据库的建设。

三、档案数字化对象的界定

民国档案数量浩繁,而资金和人力资源相对有限,档案数字化不可能一步到位。因此,我们应该从实际出发,采取优先原则进行档案数字化⑤。

一是馆藏珍贵档案应优先数字化。各档案馆都有其最为珍贵的“镇馆之宝”,从保护人类历史遗产和抢救的角度出发,这些特藏应该成为数字化的首选对象。

二是濒危、经过鉴定确认具有重要保存和使用价值的档案应优先数字化。此举有利于加快抢救与妥善保存这些反映民国时期历史进程、社会变迁等重大历史事件的濒危档案信息。

三是具有馆藏特色的档案应优先数字化。选择本馆独有、特有的资源进行档案数字化,可以突出自己的特色,实现优势互补和共享。

四是利用率高、需求大、开放的档案应优先数字化。这样不仅可以发挥馆藏档案的社会效益和经济效益,而且有利于对档案原件的保护。

二史馆在长期的馆藏建设中形成了自己的核心馆藏,它们形成时间早、影响范围广、使用价值大、利用频率高。早在上世纪六十年代,老一代档案工作者为适应当时形势的需要,从实体馆藏150万卷,700多个全宗的基础上,精心选出74000多卷重要档案。虽然这些档案不能代表馆藏中极具重要价值档案的全部,却是二史馆馆藏最为核心档案的一部分,成为馆藏档案中利用最频繁和最有亮点的档案。我们应该在尊重前人劳动成果基础上,将这些档案优先进行数字化运作。

四、档案数字化建设

1.档案目录数据库

由于馆藏档案历史跨度大,数量多,早期档案整理编目工作较粗,目录数据库质量不高。例如案卷过大过厚,目录笼统不准确,不能反映卷内内容或只反映部分内容等,造成大量有价值的信息没有被揭示出来,降低了档案利用的效益。2009年4月我馆正式启动馆藏档案数字化扫描工作,先期将教育部全宗和内政部全宗进行整理编目,共计36931条目录,比原来增加了6000多条,解决了部分案卷过厚、标题不准确、档案著录项缺失(如形成时间、责任者不详、事由不清)等问题,使整理后案卷标题规范,主题清晰,能够全面反映卷内文件内容。然后将这些优质目录和规范数据输入计算机档案管理系统,形成的新案卷目录数据库质量大为提高。同时,也为今后数字化全文扫描准确挂接,为档案利用者快速和准确查询提供了重要保证。

2.纸质档案全文数字化

通过扫描仪、数码相机对档案原文进行光学扫描,以图片格式或光学字符进入计算机,形成图像文件。之后可用ocr识别软件,将扫描后的图像文件转换成文本文件。

扫描系统参数的选择和确定对扫描数字影像质量有着较大影响,其中扫描分辨率直接关系到扫描文件的清晰度和还原效果。我们在选择分辨率时应根据实际需要综合考虑,包括扫描文件的可阅读性、存储空间、输出打印质量等。

根据档案纸质的不同,采用不同的分辨率。否则,有的幅面清晰度好;有的幅面则清晰度差。对大幅面的表册和地图等档案资料进行分块扫描,形成的多幅图像,要即时合并为一个完整的图像,避免遗忘,以保证档案资料数字化图像的整体性。

3.多媒体档案数字化

(1)照片档案数字化。可采用以下两种方法进行输入,一种是利用光电扫描仪将照片存贮到计算机中的磁盘上,然后将照片采用压缩文件格式进行缩小,解决因扫描图象占用磁盘空间较大的问题。另一种方法是采用数码相机对照片进行拍摄,图像存贮在相机的磁盘上,再将图像下载到计算机的硬盘或光盘上。对照片档案进行扫描转换,照片档案扫描采用图形格式,一般格式为jpg、tiff,并且采用较高的分辨率,便于日后冲洗和印刷利用。

(2)声像档案数字化。主要是对录音带、录像带进行数字化处理。声像档案采用视频采集卡和软件进行模数转换,音频数据采用mp3、wav等格式存储,视频数据采用mpeg、mov等格式存储。

(3)对数码照相机和摄像机产生的已经是数字化格式的多媒体档案,则可直接进入对应的多媒体档案管理系统。

(4)档案缩微品的数字转换。使用缩微胶片扫描仪进行扫描,直接将缩微胶片转换成数字信号,避免再对纸质原件进行重复扫描。

4.实现扫描文件和已有目录数据库的挂接

通过档案目录数据库和扫描文件的快速挂接,系统就可初步实现对目标档案的全文检索。然而,真正意义上的全文检索,不仅应该构建功能完备的档案全文数据库,而且能够集成数据库检索技术、全文检索技术、图像内容检索技术以及数字化音频和视频信息的检索技术等。由于数字化档案要求必须与档案原件完全一致,然而目前的数字转换、识别技术又不能完全满足这一要求,因此,要实现数字档案全文检索,还有待技术的进一步发展。

5.开展网上利用服务

档案数字化的目的就是要组织数字信息上网,面向应用,建立“活性”,实现档案信息的网上检索和利用,为用户提供更好的服务。

五、结束语

档案数字化是对档案部门的挑战,也给档案工作带来了新的契机。面对新的挑战和机遇,我们要勇于担负起社会使命,以优化理论为指导,以用户需求为导向,以档案利用为目的,加快档案数字化建设的进程,实现“资源共享、保护档案、传承历史”的愿景目标。

注释:

①熊飞,熊艳.城建档案数字化建设[j].城建档案,2009(2):12-13.

②赵宁燕等.档案数字化建设危机[j].兰台世界,2008(10):6-7.

③王素立.档案信息数字化边界问题的研究[j].档案学通讯,2008(4):65-67.

④王俊明.九州图籍归天府——中国第二历史档案馆解放初期接收政权档案纪实[j].中国档案,2009(9):37-39.

⑤陈光谊.浅谈档案数字化建设中应遵循的几个原则[j].四川档案,2009(3):46-47.

⑥赵炜.档案的影像化趋势研究[j].中国档案,2009(7):44-49.

上一篇:努力构建政府与市场互动的城市新区开发模式 下一篇:超竞争格局下的主题公园合作机制研究