档案检索利用技术研究

时间:2022-09-03 11:47:36

档案检索利用技术研究

收集、整理和保管档案资源,并向社会提供利用是档案工作者的核心工作。目前,各级国家综合档案馆都把建设公共档案馆作为一项核心任务,为了提高对公众的服务水平,在加强档案资源的收集、整理、保管的同时,必须加强档案利用手段的研究,跟踪信息技术和计算机技术的最新发展成果,利用先进的技术手段为档案管理和利用服务,从而改变传统的档案管理模式,提高档案工作的社会认知度,提升档案在社会生活中的作用,充分发挥档案信息在服务社会中的价值。

传统档案检索模式

传统档案检索,主要依赖于档案工作者预先著录的项目,在预先著录的基础之上,通过计算机辅助检索或者人工直接检索,实现对档案信息资源的利用。

档案的传统著录模式,主要依赖于人工完成,对档案管理者的自身素质要求较高,且由于每个人的业务经历、教育背景和关注点的区别,对相同档案资源的著录结果会有较大的差别,直接影响档案检索利用的效果,人工著录工作效率低下,工作效果依赖于个体的工作人员,无法做到完全的规范化。而目前有些系统采用计算机辅助著录系统的实际著录效果,无法达到我们满意程度,还需要大量的人工参与,人工著录的瓶颈亟待解决。

由于人为因素参与较多,依赖于档案著录项目的档案检索的查全率和查准率会受到直接影响。仅仅依靠有限的著录项目,通常无法完全覆盖档案文件的内涵,直接导致未著录的内涵部分无法检索到,从而影响对档案资源的查全率。当著录项目对档案资源的内涵表述不够准确时,导致对目标档案文件的定位无法准确,从而影响文件的查准率。

互联网搜索引擎

随着互联网技术的蓬勃发展,搜索引擎技术进入了黄金时代。Google、百度等搜索引擎是每个网民非常熟悉的工具。通过搜索引擎,可以帮助我们在非常短的时间内,从互联网上搜索到数量非常巨大的信息资源。但因为搜索信息量过分巨大,有时反而影响我们的判断,可以说其查全率较高,但很难快速定位用户真正需要的小部分文件,查准率不尽如人意。比如,在Google上查询“数字档案馆”这一条目,在几秒钟之内显示有394000项符合查询结果,响应速度很快,但返回的结果过多,而且有大量的重复信息,反而会对用户造成困扰。

搜索引擎在支持对著录项目检索的同时,还支持全文检索技术。全文检索系统一般由三个模块构成,包括数据库维护模块、检索模块、结果处理模块。在搜索引擎中,由一个成为蜘蛛(Spider)的机器人程序,按照预定的策略搜索和发现信息,是其数据库维护模块的重要组成部分;由索引器根据用户的查询输入检索索引库构成检索模块;将查询结果反馈给用户,是其结果处理模块。其中运用了自然语言理解、知识检索、知识挖掘等密集的智能计算等多项技术。

为提高档案信息的利用效率,可以参考搜索引擎中的信息自动收集和加工技术、数据存储技术、多种检索技术,拓展档案信息的检索利用思路,更好地为社会提供服务。

下面,笔者对提高不同类型的档案信息的利用率具体进行分析。

提高档案信息检索利用的具体举措

为了提高档案的检索利用效率,应规范档案著录体系,提高档案的著录效率,加强计算机技术在档案自动著录中的作用,并在利用著录项目进行档案利用的同时,加强以内容为主导的档案利用技术的研究,为公众提供全方位的档案检索利用服务。

为了进行以内容为主导的档案信息的利用,需首先对传统载体的档案进行数字化转换,在计算技术的支持下,提高检索利用的效率。不同类型的档案,采用不同的检索工具进行检索,充分发挥计算机技术和数据处理技术的先进技术手段,在继续提高档案著录项目质量,为检索利用提供服务的同时,加强以内容为主导的档案利用技术的应用,提高档案的查全率和查准率。

1. 提高文本(文书档案)档案的查全率和查准率

利用扫描、数码拍照技术实现纸质档案的数字化转换。处理完毕的文件一般为某种格式的图片。为了支持以内容为依据的档案检索,提高检索利用的效果,支持全文检索,对扫描拍照的图片进行OCR识别,以文本文件(如txt格式文件)进行检索。

参照搜索引擎技术,利用自动分词技术,对全部文本文件进行扫描,建立档案信息资源索引,构建检索资源数据库,对档案信息的全文进行检索,提高档案信息的查全率。

为提高档案信息的利用效果,需重新审视主题词库的作用,应借助搜索引擎中主题词库的应用模式,完善档案信息的主题词库,借助自然语言理解和公文构词规律,建立档案主题词词典,并建立完善的词典更新机制,尽量保证词典能够覆盖全体档案信息,提高查全率。主题词库应具备同类项管理功能,对同义词、近义词进行归并,并具有一定的容错功能,当用户输入的检索词有错字、别字时,系统能够联想到正确的主题词,从而提高现行文件的查全率。主题词库管理系统应支持树形管理结构,从而当用户某一检索词进行检索时,系统能够提供其相关的下位类检索词,从而大幅度提高档案信息的查准率。

为了保障档案的原始性特征,反馈给用户的档案信息可以是未经识别处理以前的扫描图片。

2. 图片档案的查询手段

不仅仅依靠图片的著录信息,而是基于图片内容的本身,根据图像的视觉特征,包括图像的颜色、形状、纹理和空间特征,从图片数据库中搜索到具有制定特征或与制定特征相似的图片,通过引入人工智能技术和机器学习技术,可以较好地解决图片的高层语义难题。目前,基于内容的查询成为了当今图像检索的热点,多采用颜色特征或空间特征作为检索的依据,根据图像的颜色或空间特征对图像的高级语义进行映射(如花朵、高山、瀑布等),目前已经形成了多种著名的算法。

目前开发较成熟的基于内容的图片检索系统有:

由IBM Almaden研究中心开发的第一个商用基于内容的图像及视频检索系统QBIC(Query By Image Content),它提供了对静止图像及视频信息基于内容的检索手段,其系统结构及所用技术对后来的视频检索有深远的影响;由MIT多媒体实验室开发研制的Photobook,图像在存储时按人脸、形状或纹理特性自动分类,图像根据类别通过显著语义特征压缩编码;美国哥伦比亚大学开发的VisualSEEK图像查询系统,利用图像区域的空间关系查询和直接从压缩数据中提取视觉特征;EXCALIBUR技术公司开发的retrieval ware系统;Virage公司开发的virage检索系统能;香港中央图书馆的多媒体信息系统(MMIS)是IBM和分包商ICO于1999年年底开始承建190万美元的数字图书馆项目,被认为是世界上最大且最复杂的“中文/英文”双语图书馆服务之一,其采用的DB2 Text 和Image Extenders既支持文本查找,又支持图片按内容查找。

3. 音频档案的查询手段

对模拟音频载体(非数字音频载体)的档案需首先进行采集加工,以便建立音频档案的索引库。

MPEG-7标准被称为“多媒体内容描述接口”(Multimedia Content Description Inteface) ,它是一种多媒体内容描述的标准,它定义了描述符、描述语言和描述方案,对多媒体信息进行标准化的描述,实现快速有效的检索;在MPEG-7中,提出了对音频文件基于内容进行索引和检索的标准与规范。该规范侧重于语音识别和音乐分类。

语音索引和检索的基本方法是运用语音识别技术把语音信号转化为文本,具体通过语音自动识别系统通过音频训练和模式匹配,对音频档案进行自动识别为文本,并根据识别结果建立索引,构成音频索引数据库。用户通过音频检索模块对档案文件进行检索,把检索结果以音频压缩格式反馈给用户。

4. 视频档案的查询手段

对视频文件的基于内容的检索,同样可以遵循MPEG-7的标准。

基于内容的视频信息检索是当前多媒体数据库发展的一个重要研究领域,它通过对非结构化的视频数据进行结构化分析和处理,采用视频分割技术,将连续的视频流划分为具有特定语义的视频片段――镜头,作为检索的基本单元,在此基础上进行代表帧(representative frame――或者称为关键帧)的提取,以及其动态特征的提取,形成描述镜头的特征索引文件,建立音频档案索引库;依据镜头组织和特征索引,采用视频聚类等方法研究镜头之间的关系,把内容相近的镜头组合起来,逐步缩小检索范围,直至查询到所需的视频数据。其中,视频分割、代表帧和动态特征提取是基于内容的视频检索的关键技术。?笮

(作者单位:天津经济技术开发区档案馆300457)

上一篇:《中国档案机读目录格式》的结构与功能 下一篇:基于VLAN的档案馆新型计算机信息网络