浅议纸质档案数字化与“大数据”

时间:2022-09-27 04:54:49

浅议纸质档案数字化与“大数据”

一个时期以来,馆藏纸质档案数字化成了各级档案馆信息化的中心工作。但也有同志乐观地将档案数字化与“大数据”等同起来,似乎只要实现了馆藏档案数字化,档案工作就进入了“大数据”时代。这是一个误区,需要澄清。馆藏档案数字化后的馆藏电子档案也是“大数据”中的重要组成部分。但纸质档案数字化远不等于“大数据”。理由有三:

第一,从大数据的类型来看。数据类型繁多是大数据的基本特征之一。它“包括结构化数据、半结构化数据和非结构化数据等”,“有图像、声音、视频、社交网络、博客甚至应用的使用习惯等”;纸质档案数字化后的图像型电子档案只是大数据中多种数据类型中的一种类型。而且是相对容易控制的那一部分。真正大量的、复杂的、不易控制的是新增档案的电子件。以政府财政系统为例,一个市级财政管理部门使用的系统就达20多个,这些系统有的是国家财政管理部门统一配发使用的,有的是省级财政管理部门统一配发使用的,有些是单位自行开发的,还有的是从市场上购买的商品化软件。这些系统出自不同的开发单位,使用不同的开发和运行平台,后台数据库及数据结构也不相同,产生的电子文件格式各种各样,这使得归档后的电子档案格式也各式各样。加上各种数据库中产生的动态数据,仅数据类型就是十分繁杂的。一个单位尚且如此,一个行政区域内众多单位所产生的电子档案数据格式就更加繁杂。这样多的档案数据格式,与全部系统中的数据格式来比,还算是简单的。纸质档案数字化后的图像型电子档案只是电子档案一种类型,只算是“大数据”的九牛一毛。

第二,从大数据的数量上看。“庞大的数据量,能达到PB甚至EB级别”是大数据的另一基本特征。依全部档案的类型划分,我们现在处理的纸质档案多数是所谓的文书档案,而更多的含有表格、图纸、账册、录音、录像、影像的科技档案、财会档案、人事档案、基建档案、录音档案、录像档案、影像档案等各种类型的专业档案还没有进入我们数字化的视线。这种相对狭隘档案观,仅仅从数量上看,不仅算不上“大数据”,就连“大档案”都算不上。要实现融入“大数据”的环境,首先要取消文书档案的称谓,从“大档案”的角度来看待、对待档案数字化。就目前情况看,一个使用多个业务系统的单位,一年产生的数据量少则几个G,多则几十G上百G,甚至几个T。如果将这些数据全部作为档案归档管理,将是一个非常庞大的数量。依此类推,一个单位尚且如此,一个行政区域内众多单位所产生的电子档案将是一个令我们档案管理者从来没有面对过的巨大数量级。如果不能有效地管控这一巨大数量级的电子档案,那就不能算做是“大数据”。客观地说,即便是实现了对这一巨大数量级的电子档案的有效管控,也只是“大数据”中的沧海一粟。对这些原生电子文件信息,“要按照‘增量电子化’的思路,积极进行原生电子文件的归档接收工作。现在,绝大多数新形成的文件都有电子版,及时把电子文件归档接收并纳入档案部门管理、纳入档案信息资源体系,不仅关系当前,而且涉及长远,必须高度重视,立即抓起,抓得越早越好”。

第三,从“大数据”的处理方式上来看,“大数据”的核心是对庞大数据进行检索与运算。“档案大数据”的关键信息需通过一定的技术方法进行提取,并针对提取出的有效信息根据一定的规律进行挖掘。要实现这一点,智能化的检索分析软件与经过统一标引的基础数据至关重要。智能化的检索分析软件,我们可以通过购买解决(暂不考虑我们是否有能力选择购买到性价比高的检索分析软件),而经过统一标引的基础数据只能由档案馆工作人员自行完成。问题是许多基层档案工作者包括领导者并不清楚这一点,以为只要将纸质档案一扫描,图像文件就可通过计算机和网络检索到了;档案中任何内容都可随意检索和查找到。殊不知,如果没有智能化的检索分析软件和对纸质档案扫描件的细致标引或全文识别,所有通过扫描产生的电子档案只是些没有用处的电子图像文件。问题是没有多少基层档案馆知道并在下大气力做纸质档案扫描后形成的电子档案的标引或全文识别工作。未经处理的纸质档案扫描件,不仅不是“大数据”,甚至都算不上有用的数据。扫描得越多,浪费就越大。

综上所述,纸质档案数字化是档案数字化组成部分,但不是档案数字化全部。纸质档案数字化与“大数据”密切相关,但完全不能等同于“大数据”。在“大数据”环境下,我们不仅要做好纸质档案数字化――存量数字化,也要做好原生电子文件接收管理――增量电子化,还要将各业务部门通过业务系统产生的业务数据转为档案数据,这样才能在数量上向“大数据”靠拢。要适应“大数据”环境的要求,并有所作为,我们还有许多的工作需要做,还有许多的东西需要学习,千万不可只满足于馆藏档案的数字化。

(作者单位:开封市陇海医院 来稿日期:2014-04-08)

上一篇:培智学校语文校本课程改革的生活化探索 下一篇:浅谈高校档案工作创新