基于知识挖掘的档案初级鉴定系统构想

时间:2022-07-22 11:02:59

基于知识挖掘的档案初级鉴定系统构想

摘 要:档案鉴定虽然有着成熟的理论体系和较为完整的规范,但囿于实践取向与鉴定者能力的不同,其工作质量与客观性存有不足。通过知识挖掘,将档案鉴定中的知识规范化地表述出来,然后以之为基础,构建并应用档案初级鉴定系统,能够以系统的规范化操作来提升档案鉴定工作的质量与客观性。

关键词:知识挖掘;档案鉴定;系统

Abstract: Despite the developed theories and specifications, the quality and objectiveness of the archival appraisal is weakened by the actual situation and the disparity of the operator’s ability. Based on the formulation of the knowledge in archival appraisal practice by knowledge mining, maybe we can improve the quality and objectiveness of archival appraisal practice by structuring and applying an primary archival appraisal system.

Keywords: Knowledge Mining; Archival Appraisal;System

知识挖掘,是知识管理领域的重要内容,是信息处理方面的新技术。知识挖掘的目标非常明确,那就是对目标对象进行分析处理,进而获得有实际意义的知识。在信息时代,知识挖掘是非常有益的,因为它有助于从庞大的数据、信息中获取有用的知识。知识挖掘的知识抽取、分析与聚类整合过程对于目前的档案鉴定工作有着一定的启发意义。当前的档案鉴定工作存在着明显的主观性与手动性,其客观性与工作效率存在着一定的不足。将知识挖掘应用到档案鉴定工作中,构建有效的档案初级鉴定系统,对于提高档案鉴定工作的质量与客观性大有裨益。

1 知识挖掘概述

1.1 概念。关于知识挖掘的定义较多,其中Usama M.Fayyyad给出的定义:“知识挖掘是从数据集中识别出有效的新颖的潜在有用的以及最终可理解的模式的非平凡过程”,被公认为较为中肯。知识挖掘可根据信息载体的不同分为图像知识挖掘、数据挖掘和文本挖掘。相比于已经形成较为成熟的程序化技术方法的数据挖掘,知识挖掘领域目前的着眼点主要在于隐性知识的挖掘,尚未形成模式化的技术方法,更注重依据研究对象的特点,有针对性地开展具有一定主观性的挖掘活动。

1.2 技术方法。虽然上文述及知识挖掘与数据挖掘相比,体现出一定的主观性,但是知识挖掘涉及数据库技术、人工智能、统计学等多种学科的技术基础,这决定了它能够以现代化的信息技术构建出比传统的经验总结更具客观性和科学性的方法体系。目前常用的知识挖掘的技术方法有聚类分析、神经网络方法、决策树方法、遗传算法、规则推理等方法。统计学方法与人工智能在知识挖掘中有着重要的作用,它们的应用有助于人们通过知识挖掘对抽取出的大量潜在知识进行高效的分析。

1.3 流程。目前对知识挖掘流程的研究尚未成熟,尚未产生公认的知识挖掘流程体系。一套完整的知识挖掘流程应当包含确定应用领域、建立目标数据集、数据预处理、数据转换、数据挖掘、数据评价这几个步骤。

2 当前档案鉴定的主要理论与方法

档案鉴定理论迄今发展已经较为成熟。早期法国在档案管理工作中确立的来源原则和普鲁士的迈斯奈尔提出的“高龄档案应当受到保护”的观点为档案鉴定提供了初步的框架,这两条准则至今仍然适用。其后的档案鉴定方法更为成熟,更为系统,对档案鉴定工作更具现实的指导意义。波兰档案学家卡林斯基提出了“职能鉴定论”,认为档案的价值取决于其产生机关的职能与地位。这一理论对档案鉴定实践具有重要的、突出的意义。英国档案学家谢拉里・詹金逊根据古典档案理论,提出档案工作者只是档案的保管者、保护者,不宜对档案进行鉴定,档案鉴定应当是行政人员的职责。美国的谢伦伯格在总结前人研究成果的基础上提出了双重价值鉴定理论,将档案的价值区分为对其产生机关的第一价值(初始价值)和对其他利用者的第二价值(从属价值),第二价值又分为证据价值和情报价值。谢伦伯格的理论对档案价值进行了全新解读,使得档案的价值系统地、有层次地展现在人们眼前,对现今的档案鉴定理论与实践有着显著的影响。

以上这些理论形成了档案鉴定方面的基础性理论,在此之后的档案鉴定理论在这些理论之上有了新的发展。社会分析和职能鉴定理论是对卡林斯基职能鉴定理论的继承与发展,其将档案鉴定的重心放在了对档案形成机关职能的系统化分析,区分不同的职能、活动与计划及其之间的联系,并依其不同的重要性来对档案进行鉴定。

总的说来,根据上述理论以及档案工作实践,档案人员在对档案进行鉴定时主要依据其形成机关的职能地位或档案本身的价值来进行鉴定。档案人员通过对鉴定理论的内化,以及在实践中的探索来对档案进行鉴定的活动,表明档案鉴定活动中存在着公认的隐性知识,只有获得了这种隐性知识的人员才能对档案进行有效的鉴定。对这种隐性知识进行挖掘有助于我们构建档案初级鉴定系统。

3 档案初级鉴定系统构想

笔者所定义的档案初级鉴定系统,是基于目前的档案鉴定理论与实践经验所构建的一个自动化系统。该系统将此前档案工作者鉴定档案时所依赖的知识素养与工作经验通过知识挖掘整合到其中,进而依据拟定的规则对档案进行初步的鉴定,输出鉴定结果,并将未能形成鉴定结论的档案交由档案工作者进行鉴定。所谓“初级”,一方面是指这套系统可能尚不成熟,还需不断完善,提高准确性;另一方面是指这套系统在档案鉴定工作实践中,可能只是辅助工具,无法彻底取代人工鉴定。

但是,这套系统也有其积极意义。现行档案鉴定体系下,档案形成部门以及档案管理部门都有可能涉及鉴定工作,而档案鉴定人员的理论素养与实践经验却是参差不齐的,即使是有着长期档案鉴定工作经验的人员,也可能在实际操作中遵循着不同的标准,这样可能有损档案鉴定的质量与客观性。而档案初级鉴定系统则可以弥补这一不足,同时也能显著地提高工作效率。

3.1 档案鉴定知识挖掘。构建档案初级鉴定系统,首先应当结合鉴定理论,将鉴定实践经验显性化、系统化。档案鉴定相关的知识非常丰富,包括档案鉴定理论,档案鉴定工作标准、规范或细则,档案保管期限表等显性知识和档案鉴定人员的实践经验等隐性知识。这些信息的聚集,为知识挖掘提供了条件。档案鉴定人员经验相比于其他的信息集,较为零散,但也能够有效地记录、组织。在档案鉴定活动中,无论是从档案形成机关的职能地位,还是从档案本身的价值来进行鉴定,档案鉴定的流程应当是固定的、系统的,从固定流程中的最初环节逐级向下推导,将各个环节所有的可能组合都记录下来,则能基本总结出档案鉴定相关的经验。

在建立包含档案鉴定相关显性知识与隐性知识数据库之后,应当对其中数据进行预处理。数据库中的数据可能存在冗余、错误,必须去粗取精、去伪存真。其间的数据也可能只是量的堆积,而缺乏明确的关系网络。比如档案鉴定工作细则中可能存在着一定的行政事务性规范,这些与知识发现的目标相关性较弱,应当降低其重要性,或者直接去除。而来自不同的档案鉴定人员的经验记录可能存在缺乏科学性,甚至相互冲突的内容,应将这些经验记录进行规范化的统一表述,然后对其应进行分析比对,谨慎筛选。

档案鉴定知识挖掘的核心在于将档案鉴定工作中的隐性知识系统地抽取出来,并以系统能够理解的方式进行处理与表述。在具体的档案管理工作实践中,档案形成部门与档案管理部门一般都有较为稳定的业务工作联系,档案真伪鉴定较为少见,档案价值鉴定是档案鉴定工作的主要内容。在日常的档案鉴定工作中,档案鉴定人员通常利用档案保管期限表来确定档案价值与保管期限。档案保管期限表对不同部门、不同具体类型文件的价值与保管期限作了较为明确的规定。不同的部门,其职能轻重有别。同一部门,在处理重要性不同的具体事务时产生的档案的价值也是有区别的。服务全局的部门产生的档案、核心部门产生的档案,其价值较高。辅部门、边缘性部门产生的档案的价值较低。同一部门内部不同文件,其价值也有不同,譬如机关办公室,年度工作总结、计划与一般性的宣传教育及培训文件的价值应当是有区别的,在具体的实践操作中,其保管期限也很有可能是不同的。对于会计、设备等专门性档案,其档案保管期限表也对不同来源与类型文件的保管期限做出了规定。通过区分档案的不同来源与类型能够对档案价值进行初步的鉴定。对于涉及多个部门或半独立部门等档案来源较为复杂的情况,以及在档案保管期限表下难以对文件类型进行归类的情况,则需要档案鉴定人员以其经验进行判定。对于某些具体的文件,譬如因应突发性事务而成立的临时性机构产生的文件,其鉴定则需要鉴定人员对具体文件的内容进行判别,包括为处理该项事务而涉及的领导层级、部门职能与地位、内容是否关乎全局工作或核心工作等几个方面,从而来对其价值进行鉴定。

不同机构有不同的工作实践情况,因而其档案鉴定标准可能是有区别的。但同一行业、同一业务系统,其鉴定标准应该是有共性的,是能够进行标准化规范的。同一机构内部,档案管理部门与不同的档案形成部门,其标准应当统一,并且在实践中得到切实遵守。对于档案管理部门来说,进行前端控制,将工作延伸到档案形成部门的文件管理工作中,必然能提高档案鉴定工作的质量与效率。但在实际工作中,这很难实现,鲜有先例。设计一套能够替代或辅助档案鉴定人员开展鉴定工作的系统能够提高档案鉴定工作的质量与效率,保证在某一机构内部或某行业系统内档案鉴定的规范性与客观性。

3.2 档案初级鉴定系统构想。对于档案初级鉴定系统,本文只是提出一种构想,重点在于其工作模块与运作逻辑,并未试图建立完整的技术框架。本文的自动鉴定系统构想,只涉及档案的价值鉴定,而没有涉及真伪鉴定,主要适用于纸质档案。

3.2.1 档案初级鉴定系统功能分析。档案初级鉴定系统功能主要有来源与类型定位和内容分析。要实现这两项功能,需要首先建立两套数据库,能够区分价值层级的来源与类型库和关键词库。来源与类型定位,主要是扫描提取档案的来源与类型信息,并与数据库中的信息进行比对,确定其来源,以及在某一来源下的具体档案类型,从而对档案进行准确的定位,确定其价值。档案内容分析,包括关键词与文摘的分析。当不能对档案进行准确定位,无法鉴定其价值时,系统开始进行档案内容分析。对档案的关键词与文摘等信息进行扫描提取,与系统关键词库进行比对,从而确定其保管期限。

3.2.2 档案初级鉴定系统模块分析。档案初级鉴定系统主要包含著录模块、鉴定对象描述转换模块、档案来源与类型定位模块、档案内容分析模块、鉴定结果输出模块。著录模块主要是根据相应著录规则,将纸质档案的标题、时间、责任者、文种、档号、主题词、关键词,甚至文摘等信息输入系统中形成可供系统鉴定的基本单元。鉴定对象描述转换模块将用户著录的档案信息的语法规范进行审核,并在审核通过后将其转换成系统能够识别的形式。档案来源与类型定位模块提取档案的来源与定位等基本信息,根据系统确立的档案保管期限规则进行定位,从而确定其价值与保管期限。对于不能进行定位的被鉴定对象,将其关键词组合与系统关键词库进行比对,根据系统关键词库中不同关键词组合所对应的价值层级,从而对被鉴定对象开展价值鉴定。若系统无法依据来源与类型库和关键词库对被鉴定对象进行鉴定,直接将未能鉴定的结果发送到结果输出模块。

结果输出模块,主要是对输出档案鉴定的结果,区分不同档案的保管期限,将无法鉴定的档案反馈给用户,同时输出鉴定结果统计。档案初级鉴定系统鉴定流程如图所示。

档案初级鉴定系统鉴定流程图

4 结束语

本文所尝试构建的档案初级鉴定系统意在通过系统的规范化操作,尽可能地消除因为实践取向与鉴定者能力的差异而导致的档案鉴定工作质量与客观性不足的问题。档案鉴定在本质上是一种较为主观性的活动,因为档案价值是难以量化认定的。经典的档案鉴定理论对具体档案价值的判断也可能不是完全一致的。对于主观性活动而言,无论实施主体在能力上是否对等,其结果都有可能因人而异。但是,无论这项工作的主观性多强,在一个机构中,其长期的档案鉴定实践一般都能在不断的试错与学习中探索出一套能够持续运行,且为各方接受的操作方案,尽管可能存在着一些或者能够及时消除,或者需要不断完善的误差。这种方案一般是经验式的,难以形成知识体系并进行系统的传承。若能对这种经验式的知识进行抽取、挖掘,并构建一套以其为基础的自动鉴定系统,则能消除鉴定工作中的主观性,保证鉴定工作的质量。当然,笔者深知,一套所谓的鉴定系统并不能一劳永逸地解决鉴定工作中存在的所有问题,但希望这能提供有益的启发。

(作者单位:武汉理工大学档案馆 来稿日期:2014-04-12)

上一篇:浅谈班级管理现状分析与对策 下一篇:浅析公共图书馆地方文献建设