档案元数据国际标准(EAD)在中文环境下的实例研究

时间:2022-07-06 09:17:15

档案元数据国际标准(EAD)在中文环境下的实例研究

[摘要]以电子档案著录标准(Encoded Archival Description,(EAD))作为档案信息组织技术和方法,使用JAVA、JSP、XML计算机语言和相关网站技术,选取《吉林桑蚕局全宗(部分)》为实例,通过EAD制作工具的获取、安装与配置以及EAD文件的编写依据和过程,为其创建全宗级EAD在线著录模板,实现EAD从XML格式到HTML格式的转换,最后对项目网站的功能、结构、设计及实现过程进行描述和揭示。

[关键词]电子档案著录标准 元数据标准 档案著录

[分类号]G271

1 引言

EAD(Encoded Archival Description,编码档案著录)作为档案工作者编制检索工具最合适的方法,已经在国外许多国家和地区得到了大量研究和实验,也有档案馆实际利用EAD编制档案检索工具,并放在网站上供浏览者使用。与之相比,国内档案界关于EAD的研究起步较晚,主要局限于理论层面的研究,研究范围主要集中于EAD概念介绍、标准构成、元素使用以及EAD与其他元数据标准的比较等方面,对于EAD的实际验证和应用则是空白,这既不能适应网络环境下档案著录工作的需要,也不利于我国数字化档案信息资源体系的建设以及我国档案信息资源在国际范围的交换与共享。

为求实践突破,本文以《吉林桑蚕局全宗(部分)》为实例,以EAD作为信息组织基本方法,创建全宗级EAD在线著录模板,并实现EAD从XML到HTML的转换。

2 桑蚕局全宗(SCJEAD)著录原则

国际档案著录标准理事会认为,著录信息应能反映档案整理的各个层次,精确表述档案信息的收集、鉴定、分析和组织,以便于揭示档案材料所形成的活动的全貌,以便对其进行信息控制和提供利用。以此为宗旨,SCJEAD著录遵循如下原则:

2.1 尊重全宗原则

著录虽然是通过对档案信息加以采集、提炼、分析和组织,揭示档案的内容及其产生规律,但是仍然要以尊重档案的本质属性和规律为前提,因此,这也是本项目著录文件的基本原则之一。SCJEAD要求档案文件的来源在著录时必须加以严格体现,使馆藏中同一来源的文件通过著录得到集中反映,使档案的著录与档案的来源相联系,以此通过EAD置标著录揭示同一来源的档案文件之间的各种联系,为档案文件的理解与利用提供来源方面的背景信息。

2.2 多层级著录原则

SCJEAD首先将全宗作为一个整体进行著录,再以体现全宗内文件原有整理结构的方式为档案原件提供元数据。

SCJEAD根据我国馆藏整理工作的一般情况,将著录层级分为全宗级、案卷级和文件级三个层次。最底层(文件级)著录的是具体的每份档案文件。通过施行这种多级著录,检索工具中的元数据得到了分级,形成了一种从整体到部分的关系,而且每个著录层级都嵌套在它的上一级之中,明确了某个著录层级在整个分级体系中的位置,并且在每一个层级上,都只著录了与该层有关的信息。图l描绘了SCJEAD全宗级著录结构:

2.3 客观性原则

客观性原则是指文献著录必须符合文献本身的状况,符合用户检索的特点与规律。

・SCJEAD依据“吉林桑蚕局”全宗文件的实际状况,选取适用的元素编写EAD文件,并且严格按照著录对象本身的信息来描述档案文件的特征,如实反映档案原貌。

・SCJEAD参照著录规则对“吉林桑蚕局”全宗文件各种特征做准确无误的描述,正确地识别和选择具有描述价值的信息点,正确描述是顺利检索和利用档案文件的前提。

・SCJEAD按照EAD元数据标准,运用多样化的元素,从多种角度、多个层次全面反映档案文件特征,充分揭示其内容和形式特征等相关信息。

2.4 一致性原则

一致性原则是指文件著录必须在著录原则、著录内容、著录格式等方面基本一致。在SCJEAD著录过程中,每个著录项目都遵守统一的规定,以保证著录信息规范统一。这体现在对“吉林桑蚕局”全宗内每个文件著录内容的详略程度、著录的具体细则、著录元素的选择与描述方式等方面,目的是使SCJEAD的著录信息具有一致性和通用性,以提高不同机构中数字信息资源的互用性。

2.5 实用性原则

实用性原则是指档案文件著录的内容信息及其表现形式必须符合特定的使用要求,并尽可能便于档案用户利用。SCJEAD著录在实用性方面主要遵循以下3项准则:①著录项目充分考虑档案用户的检索习惯和规律,以便其检索和利用;②著录内容务求直观,方便用户识别和理解,力求使不懂档案著录的用户也能了解著录的基本内容;③著录形式整洁美观,著录信息显示界面友好。

3 SCJEAD技术实现

XMLSpy是集成编辑、检验、预览等多项功能的商业性XML开发软件,支持XML文档所见即所得的编辑方式,同时提供强有力的样式表设计。本项目使用的是符合行业标准的Altova XMLSpy 2008,它为用户提供最顶尖的可扩展标记语言编辑器、模式设计器、代码生成器、文件转换器、调试器、配置器,并支持XSLT(可扩展样式表转换语言)、Xquery(XML查询语言)、WSD―L(Web服务描述语言)、SOAP(简单对象访问协议)技术和,NET、Eclipse等集成开发环境。项目中使用的Altova XMLSpy 2008下载于XMLSpy官方网站。下载流程如图2所示:

第一次使用XMLSpy进行EAD编程时需要进行简单配置。首先,在XMLSpy中新建一个XML-Doeu-ment,XMLSpy会提示导入DTD或Schema,XMLSpy只是一个基于XML语言的编程平台,如果想要进行EAD编程,就必须导入一个支持EAD的DTD。

项目使用的EAD DTD来源于美国国会图书馆官方网站。美国国会图书馆网站提供两种类型的EADDTD文件,一种是压缩文件;另一种是可安装文件。虽然两种文件在安装流程上略有不同,但是最后都会生成一个cad.dtd文件和一个名为related_optional的文件夹。在XMLSpy中需要导入的就是cad.dtd文件。如图3所示:

3.2 SCJEAD著录模板

完成XMLSpy的安装与配置后,进入著录模板制作阶段。本项目创建的SCJEAD著录模板共使用48个EAD元素。这些元素是根据实证中选用的吉林桑蚕局全宗的具体情况而选择的。SCJEAD模板如图4所示:

3.3 EAD从XML转换为HTML的技术实现

在项目中我们通过CSS(层叠样式表)和JSP的共同协作来完成EAD从XML到HTML的转换。其中CSS主要负责EAD在转换为HTML页面后页面显示

的效果,JSP主要负责将EAD文件中的信息进行提取并将文件解析为HTML文件。

支持EAD转换为HTML文件的CSS文件共有4个,这4个CSS文件分别是:default.ass、form.css、pic-ture.css和search_result.css。其中default.css对网站页面的布局、通用字体大小、字体、颜色、动态导航背景显示方式等进行规定;form.ass文件针对带有表框的页面布局进行限定;picture.css对picture_list.html页面中图片部分的显示方式、大小、字体、背景等进行定义;search_fist.css文件则是针对search_list.jsp网页显示规范的定义。

在项目中将EAD文件转换为HTML文件的功能是由chooseFile.html和XMLTToJsp.jsp共同完成。

在ehooseFile.html页面中有一个上传模块,在该模块中可以通过点击浏览按钮选择需要转换的EAD文件,选中文件后点击开始解析按钮。chooseFile.html页面会通过表中的action=“XMLToJsp.jsp”//语句调用XMLToJsp.jsp,并对已选择的cad.XML文件中的代码进行逐条解析。在XMLToJsp.jsp中引用的包有org.jdom.output、org.jdom.input、org.jdom、java.io和java.util。在该jsp中使用

Element a=read_doc.getRootElement();

Element ead元素名=stu.getChild(”ead元素名”);

String ead元素名=上级ead元素名,getOdldText(”ead元素名”);

这几个语句从cad文件中读取信息。并通过使用

将读取的数据以HTML的格式显示出来。该方法能够非常准确地将所需转换的EAD文件转换为HTML文件。

4 项目网站(WWW.省略.ca)

项目网站开发使用了前台(Dreamweaver MX和Firework MX)和后台(Eclipse和Mysql)两种开发工具。这里主要说明后台建设的情况。

Eclipse来源于官方网站,运行时根据需求进行配置,在配置过程中会使用到JDK、Tomcat 5.0.28、TomcatPlugin V3.1和JDBC3.1.12。

Mysql同样可从官方网站获得,版本为5.0.15。Mysql提供了许多第三方管理工具,项目中所用到的第三方管理工具主要是Mysql Administrater 1.1.2和Mysql Query Browser 1.1.14。

在网站内容方面,主要将其规划为EAD标准及项目介绍、吉林桑蚕局全宗指南和EAD在线著录模板三大部分。网站中共有18个JSP页面及程序,这些JSP页面对整个项目的功能实现进行支持,其中description-1.jsp、description_2.jsp、description_3.jsp、description_4.jsp和description_5.jsp五个JSP页面属于EAD在线著录模板,EAD信息著录是EAD检索功能及格式转换的起点。通过该部分的实现,检索功能获得了检索所需数据,而EAD文件生成功能也获得了需要转换的数据和内容。

在设计过程中,项目组采用分页著录方法使著录界面更加友好和人性化,具体过程见图5。

其中,testMysql.jsp是将著录数据存人数据库的功能性jsP文件,其本身并不显示到前台。由于该页面是description_5.jsp的提交页面,因此该页面中包含将description_5.jsp中所传递来的值提交到session中的功能,其语句为

session.setAttribute(“value_name”,request.get-Parameter(“value_name”));

此页面还包括链接数据库并将session中的数据添加到数据库表ead_all中的代码。

在链接到数据库以后我们通过

session.getAttribute(“value_name”)==null?:session.getAttribute(“value_name”);

语句将session中的著录信息存入数据库表ead_all中。

完成了将著录信息存入数据库的操作,接下来将数据转换为ead页面需要creat_XML.jsp和Write-XML.java的协同工作。Write_XML.java是一个手工编写Java类,该Java类的主要功能是将已存入数据库的数据进行解析并转换为ead文件。该类引用了java.io、java.sql和org.jdom这三个包。在包中使用

BuildXML();

方法,在该方法中通过使用

Element“ead元素名”:

语句对ead元素进行定义,并通过

“ead元素名”=new Element(“数据库宇段名”);

语句将数据库中相对应的著录信息与相应ead元素进行映射,并通过

ead元素名,setText(rs.getString(“数据字段名”));

语句将数据库中字段的值赋给ead.XML文件中对应的ead元素。一个ead文件就生成了。

ead文件生成以后,还需要提供一个搜索信息的检索入口(吉林桑蚕局全宗指南),见图6。

支持这一功能的JSP页面共有5个,这5个页面按照流程顺序排列,分别是:fond_example.jsp、search_list.jsp、description_result.jsp、file_list.jsp和record-list.jsp。其中,fond_example.jsp是检索功能入口,search_list.jsp负责链接数据库并从数据库中取得fond_example.jsp中检索所需要的著录信息,并将符合检索要求的著录信息中的文件标题、内容概述罗列成表供用户选择,当用户看到所需文件时,点击文件标题进入description_resuh.jsp页面查看该文件著录信息。de-scription_result.jsp页面包含三个链接:pictures_list.ht-rnl、file_list.jsp和record_list.jsp页面,这三个页面将所有案卷和文件列出供用户查阅。在Mysql的表中,有一个隐藏而不显示的字段“file_id”,该字段的功能是以此字段名来区分不同的数据串,当通过fond_exam-ple.jsp和search_list.jsp在页面中选取所需文件信息后,“file_id”字段伴随着它所在的数据串被一同传递到description_resuk.jsp中,但是与其他字段信息不同的是该字段不会显示给用户浏览,而是被传到session中用来区分不同的字符串,这样description_result.jsp、用来显示全宗简要信息的search_result_1.jsp、用来显示全宗管理信息的search_resuh_2.jsp、用来显示全宗内容概要的search result_3.jsp和显示著录信息对应的文件原版图片的页面都可以通过对“file_id”的判断来从相应的数据串中取到所需要的信息,而无需重新调用。在这几个页面中都要使用

rs.getStfing(“字段名”)==null?“”:rs.get-String(“字段名”);语句

调用数据。检索功能具体流程如图7所示:

5 结语

我国档案数字化目前还处在初级阶段,发展的路程中还需要面对众多困难与挑战,而EAD作为一种刚刚引人中国的元数据标准,凭借其自身优势,在提高我国数字档案管理质量方面将发挥巨大作用。本文在中文环境下开发应用EAD的根本目的就是希望能够使更多的人认识和了解EAD,促进EAD在我国信息资源管理领域的应用推广,同时也希望本文的研究成果能够为其提供参考借鉴。

上一篇:论数据挖掘与电子商务的契合 下一篇:中国图书馆学会专业图书馆分会 中国科学院国家...