地质生产企业传统纸质技术档案数字化路径初探

时间:2022-09-15 07:04:02

地质生产企业传统纸质技术档案数字化路径初探

【摘要】传统的纸质技术档案管理,由于存放空间大,保管成本高、保存年限短,容易损坏,查找不便等软肋,不能满足地质企业在激烈的市场竞争中高效运作的需求。当前数字复制技术以及存储技术的发展日臻成熟,为技术档案的电子化管理提供了坚实的技术保证。这些先进技术的应用必将给纸质档案管理带来革命性的变革,实实在在地为企业发展助力。

【关键词】地质企业;纸质档案;数字化

一、引言

在现代地质生产企业信息化改造的过程中,很多地质企业发现企业中存在着大量的历史纸质技术档案,并且在其日常运作过程中仍然不断的产生这种技术档案。这些技术档案对于企业生产和运营来说是很不可或缺的的企业智力支撑资源,是企业经营管理经常要调用的科学技术数据资料。但一个现实的问题是,企业老旧的传统纸质技术档案管理模式不能满足企业发展的要求。由于纸质档案占用空间大,保管成本高、保存年限短,容易损坏,查找利用不方便等问题,不能满足地质企业在激烈的市场竞争中高效运作和降低成本的需求。而当前数字复制技术以及存储技术的发展日臻成熟,为这些技术档案的电子化管理提供了坚实的技术保证。特别是近年来出现的数字档案处理系统采用先进的图像处理、分布式计算、分布式海量存储、数据库以及人工智能OCR识别等技术,广泛考虑了各个行业档案管理和利用的现实要求。地质生产企业作为一个高度依赖技术档案的高技术的科考和生产行业,更对档案的数字化工作提出了迫切要求。为了实现数字档案的共享和方便利用,提高地质生产企业的生产效率,可以说,对现有纸质技术档案数字化加工势在必行。

二、档案数字化的重要意义

传统纸质档案的数字化处理和应用,可以集中、高效、安全和长久保存历史档案,实现信息的高度共享和档案信息的集中高效管理,也同时提高了企业内部的档案部门的的服务水平,能够整体上增强企业的运作效率。具体而言,第一,实现资源共享,提高工作效率。档案资料经过数字化加工后,各勘探部门、实验部门、生产部门、销售部门都能通过档案管理系统即时查询利用所需要的电子文档原文信息,档案利用不再受档案原文不能共享的限制,也避免了传统档案利用方式对档案实体多次辗转造成的经济成本,从而提高工作效率,降低档案信息利用的成本。第二,有效地保护纸质档案的安全。纸质档案年久脆弱,易于损坏,一些纸质档案因经常外借翻阅易产生破损,给档案的永久保管造成威胁,有些纸质档案因为当事人责任心缺乏甚至出现过丢失现象,给当事企业造成了无法弥补的损失。而档案进行数字化加工后,可通过数字方式在很多阅读终端使用,减少了原件的使用频率,有效地保护了原件。最后,传统档案数字化也可以塑造企业良好的企业形象,增加地质企业的无形资产。纸质档案档案数字化,是促进档案管理信息化、现代化的具体举措。数字化项目完成后,不仅档案管理和利用手段实现了现代化,档案作用也越发显著,同时也将极大地提升企业形象,是展示企业整体管理素质的一个重要窗口。

三、传统纸质档案数字化的技术原理与工作流程

(一)技术原理

传统纸质档案数字化工作的核心技术是自动识别技术,数字识别技术的优劣决定纸质档案电子化的速度和精度。OCR(光学字符识别,Optical Character Recognition),是通过图像处理和模式识别技术对光学的字符进行识别的意思,是自动识别技术研究和应用领域中的一个重要方面。它是一种能够将文字自动识别录入到电脑中的软件技术,是与扫描仪配套的主要软件,属于非键盘输入范畴,需要图像输入设备主要是扫描仪相配合。近两年随着扫描仪逐渐普及和OCR技术的日臻完善,OCR己成为绝大多数扫描仪用户的得力助手。自20世纪60年代初期出现第一代OCR产品开始,经过30多年的不断发展改进,包括手写体的各种OCR技术的研究取得了令人瞩目的成果,人们对OCR产品的功能要求也从原来的单纯注重识别率,发展到对整个OCR系统的识别速度、用户界面的友好性、操作的简便性、产品的稳定性、适应性、可靠性和易升级性、售前售后服务质量等各方面提出更高的要求。

目前印刷体OCR的识别技术已经达到较高水平。OCR产品已由早期的只能识别指定的印刷体数字、英文字母和部分符号,发展成为可以自动进行版面分析、表格识别,实现混合文字、多字体、多字号、横竖混排识别的强大的计算机信息快速录入工具。专业型OCR产品多是面向特定的行业,即适用于每天需处理大量表格信息录入的部门,如邮政、税务、海关、统计等等。这种面向特定行业的专业型OCR系统,格式较为固定,识别的字符集相对较小,经常与专用的输入设备结合使用,因此具有速度快、效率高等特点,比如邮件自动分拣系统等。

(二)工作流程

纸质档案数字化并不是眉毛胡子一把抓,因为涉及到成本问题,所以首先就是要做好有价值的纸质档案的数字化工作。由于纸质档案档案数量庞大,档案的价值也各有不同,所以不可能将全部档案数字化,既浪费有限的资金,又会增加档案部门的工作量。因此,要根据馆藏实际情况,先进行档案价值鉴定,筛选重要全宗,突出重点,有选择地对馆藏档案进行数字化。第一,对档案馆中保存年代久远已濒临损坏的珍贵老档案进行数字化。第二,对具有长远使用价值且不方便用户反复翻阅的原件档案进行数字化。第三,对利用率高、需求量大的开放档案进行数字化。第四,针对主体服务对象,对具有地质特色的纸质档案进行数字化。

其次是细分工作流程,严格执行进度。一般都是按照先公开后保密、先近期后历史的原则,分步开展数字化加工工作。这其中的数字化工作流程包括:第一步是整理拆分:从档案管理员处填写《档案领取记录单》,并领取档案后,以件为单位拆除档案的装订线,区分出需扫描的档案材料。对档案进行整理,将其中夹杂的纸屑以及订书针等金属物全部去掉,对已破损的文件进行必要的修复,对于不清楚的文件资料在征得档案管理员的同意后进行素描,以保障扫描图像的质量。第二步就是档案的技术扫描:档案经过整理后,将需要扫描的案卷交给档案扫描人员,纸张状况较差,以及过薄、过软或超厚的档案,采用平板扫描方式;纸张状况好的档案采用高速扫描方式以提高工作效率。特别要重视技术细节问题操作员可在系统界面上实时浏览、监控扫描的图像,适时做出相应调整。第三步是图像处理:系统具有去黑边、纠偏、条码识别等功能,还可为图像增加数字水印。操作员可对图像进行镜像、任意角度旋转,调整亮度、拼接、裁边等处理,提高影像质量。第四步是图像识别。针对扫描得到的电子文件的不同文档类型,灵活定义各种文档的版面。使用内置OCR识别引擎,根据区域特征自动进行版面还原,对文档中的文字信息进行识别。第五步是索引录入,主要工作是经由OCR自动提取的信息在数据库中形成索引,还可手工补充其他的图像索引信息。这样扫描图像入库后,就有索引信息支持用户通过文号、标题、作者等属性进行查询。录入人员首先检查条码的正确与否、图像文件的页数及图像质量,然后创建索引,同时检查索引建立的正确性,进行必要的人工修改。最后的工作是档案复原,包括在索引录入检查无误后,档案资料以件为单位归入档案盒,检查是否有缺失、遗漏的内容,填写《扫描生产流程单》,交由档案管理员检查接收入库,要保证盒内每件档案的完整准确。

最后是数字化成果的存储工作。同一种档案在数字化后可以生成不同的格式,在实际工作中,采用最多的就是TIFF和PDF两种格式。其中TIFF格式主要用于存储生产图纸等输出精度要求较高的图像文件。而PDF格式一般用于存储输出分辨率要求不高或者多页的文字内容较多的文件。采用服务器、磁盘阵列、光盘等多种存储方式对数字化后的文件进行安全存储,依据档案的类别建好相应的目录结构,以文件的档号为扫描后的图像文件命名,再将文件存储到对应的目录下。规范文件名称及存储逻辑结构,便于对加工好的文件进行组织和挂接利用。

四、结论

地质矿产单位传统纸质档案的的存储介质是普通纸张,普通纸张难以长期保存和备份,占用大量档案库房空间,特别是存在时间很长的地质勘探和生产企业,随着企业的不断发展,纸质档案数量不断增加,仓储的费用和管理成本不断增加。另外最重要的问题是,纸质档案查询的途径不够全、查询非常不变,特别是地质纸质档案集中在管理机关,分散全国各地的分支勘探和生产单位往往要为一个简单数字奔波千里来机关查询,不但成本巨大,而且耽误正常的工作效率,此外,纸质档案查全率低、查准率低,容易出现文件丢失、损坏或无法找到所需的资料的情况也是其软肋,总体上难以充分地利用档案资源促进企业发展的任务。因此数字化势在必行。在纸质档案数字化的工程中,要注意一些问题,如纸质档案数量庞大、类型多样,要加强遴选工作的科学性。再就是高度重视纸质档案数字化效率问题、在数字化流程的各个环节,都需要进行质量控制,而这就需要大量的工作时间为保障。以纸质档案为例,陈旧发黄的油印文件与现行的打印文件相比,识别率明显要低很多,已损坏的文件还需要修复处理,甚至有些文件识别下来并不会比手工录入快。还有就是要重视企业内部相关部门之间的协调问题。纸质档案数字化工作是一项需要投入大量人力、物力和财力的工程,不仅仅是档案信息部门的事情,还会涉及业务指导部门、档案保管部门等。争取分管领导的支持与协调,才是馆藏档案数字化工作得以顺利进行的保障。

参考文献

[1]互动百科http:///wiki/OCR.

[2]全桂英.探讨地质勘察企业资料档案管理工作[J].现代企业文化(理论版),2011(15).

上一篇:关于人脸识别技术在城市轨道交通的研究与应用 下一篇:华电包头项目机械专业工程技术报告