高校复合图书馆数字化技术的发展

时间:2022-04-17 09:50:57

高校复合图书馆数字化技术的发展

摘要:从高校复合图书馆数字化和FRBR、MARC技术,论述了文献信息资源和电子信息资源的组织中各种整合应用模式,提出了未来语义数字图书馆、MARC XML、元数据三种模式。

关键词:FRBR MARC XML 复合图书馆

中图分类号:TP3 文献标识码:A 文章编号:1007-9416(2012)11-0068-02

1、高校复合图书馆面临FRBR的意义和问题

(1)复合图书馆(Hybrid Library)是英国图书馆学家S.Sutton提出的旨在将纸质文献与数字化信息资源结合成一体的图书馆。我国与国际上的资源共享程度不高,其根本的原因除了传统的编目技术和电子信息资源组织技术整合标准缺乏是主要原因外。国际上缺乏统一的共用的语义概念标准体系也是重要原因。

随着信息资源的网络化、多态化和语义网技术的发展,IFLA制订了全球性信息资源描述规则(RDF),并提出了新形势下书目数据的功能FRBR,FRSAR。FRBR采用对象关系模型(实体-关系模式)便于帮助用户采用一种或多种属性执行检索请求,查到一种实体或多种实体及相关的各种复杂关系,从面达到实现书目数据的用户任务。我国高校图书馆书目数据与电子信息资源分立,书目数据库记录数量庞大检数据交叉重复,语义汇聚知识的功能不强,造成用户检索上的困难。从应用上看,calis开发FRBRizec OPAC试验和CDLIS计划;OCLC和RLG在OPAC显示方面实现了FRBRized;OCLC还研究开发出了基于FRBR的软件FictionFinder;美国国会图书馆电子信息资源通过MARC XML书目数据达成数据串流,实现共享;美国哥伦比亚大学图书馆实现基于语义网FRBR模式的整合信息组织工作模式。我国目前FRBR的应用是在联合目录层次,具体图书馆还难以操作,这些问题需要编目技术的变革和制订一系列FRBR化的规则(如xml schema对应于CNMARC的映射)。

(2)电子信息资源组织主要依靠元数据方式。FRBR建构元数据DC的操作模型是用XML或HTML为其15个元素置标而实现的。但是FRBR对于电子资源的处理是有局限的,如数据结构语义识别的有限性:描述不充分(如不同的概念的主题表达,上下文的理解,不同专业领域的专业术语的理解,跨系统的不同词汇概念差别);时间识别的有限性(FRBR不是事件触发性型模型,对于网络信息更新和对事物的动态描述明显不足)。RDF虽能表达语义但缺乏足够的词汇表达完整意义上知识(Onology),需要DAML+OIL(标记语言和本体推论语言),用来对web中的术语含义进行形式化描述。需要主题图(Topic Map)来进行深层次的语义识别。主题图标准与RDF?标准的本质区别是数据模型对信息资源的描述抽取数据模型时的侧重点不同。主题图标准的核心概念是主题(Topic)。RDF标准是直接面向信息资源进行的操作。单纯FRBR,FRSAR,FRAR来构建基于DC的电子信息资源的加工组织是远远不够的,需要更深层次的XML的支持再加上其它语义工具的配合(RDF,DAML+OIL,主题图(topic map)。用这样的方式进行信息组织国际上还存有许多争议。因为许多网络信息资源是可以从搜索引擎中直接搜索获取并实现智能存取的,再花费人力去编目是多余的。

2、图书馆数字化研究趋势中的关键问题

(1)MARC与FRBR的映射关系研究:以MARC21为例,美国国会图书馆使用FRBR模式和AACR2的逻辑结构,比较FRBR和MARC发现有一定的适应性,从MARC映射到FRBR,2300个要素中1200个要素附合FRBR,从FRBR映射到MARC及AACR2有十分之一的要素附合要求。从FRBRC映射到MARC的四个实体层次各种属性呈现非常复杂的分布,有30%的MARC字段在FRBR模型之外,FRBR有必要定义新的实体和关系。CALIS已经发表了CNMARC与FRBR模型的对照表,只有确定了映射关系,其FRBR的模式才会在自动化系统中做相应的改变(增减字段,重新定义新字段,必备和可选字段的选择)。

(2)XML和RDF定义的DC局限性:XML DTD/Schema描述的是XML文档中标签的顺序和组合,是XML语言的语法。它所表达的语义是隐含的(如DC的元素和属性的名称置标和排列顺序),而不是像RDF Schema是采用XML的格式文件解释RDF中词汇的语义。XML用XML DTD/Schema与RDF Schema定义了DC的各种元素和属性及其数据结构,但DC存在元素定义上的模糊性(考虑到DC著录上的弹性空间,元素定义相对简练),对使用者来说,容易造成对元素定义的不同理解。限定词的制定是使DC变得复杂化。元数据著录标引上的弹性空间,容易增加检索电子信息资源的难度。为了能更为精确地检索资料,DC着力发展XML方面限定词与著录控制表的制定。这虽然能解决前面所述的问题,但也相对增加了著录者的负担。发展到一定的程度时,DC会比传统的MARC还复杂难懂。DC与ISO 2709格式不在一个数据结构的层面。XML格式与ISO 2709格式才是一个数据层面的两种数据结构,两者的转换才具备真正完整意义上的数据转换。

(3)MARC XML模式的探索:支持多种MARC的ISO2709格式是产生于磁带信息交换时代,其格式可以用语义网的底层语言XML语言进行转换:其头标区,目次区和可变数据区可以在XML schema中分别用XML的元素和类来定义声明,构造词表(多个MARC制订多个MARC各字段与XML元素对照表)作为为元素的限定词并可选,将各字段的子字段定义为类的属性和属性值(不能定义为XML的元素)。按FRBR的要求利用ISO 2709的记录分隔符可以把书目记录和规范记录甚至馆藏记录都定义到一个XML记录中去。

3、未来语义网环境下复合型图书馆数字化技术的三种模式及评价

(1)语义网模式:以XML技术为基础,结合RDF,DAML+OIL,主题图(topic map)等语义工具和保存于语义网中的新的信息组织工作模式。由于XML存储数据的特点,用XML+MARC,构建语义网的数据的无缝集成,把重点放在Onology的逻辑研究上(机器理解方面的研究),研究怎样在MARC XML上构建更高层次的Onology。这种情况,为期尚早。随着云计算的发展和成熟,基于语义的分布式数字资源需要用户端的知识管理系统集成已成气候,其商业应用已经较多。应用于语义数字图书馆方面的不多。

(2)ISO2709模式:支持各种MARC的ISO2709格式的文件如果能转换成XML文件则在根本上改变了纸质文献和电子信息资源的编目手段和方法,从技术上解决了两者整合的难题。用MARC XML处理电子资源比用DC 处理多了更多的空间并兼容了纸质文献的数字化处理。统一了资源描述的标准。图书馆编目技术可以直接应用新型的基于语义信息交换的MARC XML数据库。电子资源还是用DC组织和管理。只是在数据时抽取MARC XML 中的字段与DC实现统一平台检索。这样MARC与MARC XML的转换对于改造传统书目数据库FRBR化有重要现实意义。但目前只有我国国家图书馆才实现了部份古籍的处理,普及有待时日。

(3)元数据模式:充分利用现有的DC元数据资源,利用其在元素细分的限定扩展方式,用XML基本编码方式表现DC元素限定词,用XML元素定义每个限定词属性,通过属性值表达限定词的语义,这样做可以用DC统一图书馆编目技术的记录单元。目前这种方法实现的难度相当大,因为DC毕竟太过简略对于反映FRBR复杂的书目关系恐难胜任。

4、结语

在全球化的FRBR影响下,高校复合型图书馆的数字化工作当前面临着巨大的变革,以信息资源的整合为先导,发生了知识聚集和目录用户任务的变化。模式上出现了基于语义网的FRBR整合、MARX XML整合、元数据整合等模式。变化的核心是XML应用于图书馆数字化领域。

参考文献

[1]FRBR [DB/OL][2009.12.2]http:///VII/s13/frbr/frbr.htm.

[2]谢琴芳.FRBR用户任务对CALIS联合目录编目实践的影响[DB/OL][2008.12.10]/calis/1html.

[3]Semanticweb[DB/OL][2012.12.05]http://boole.cs.iastate.edu/semanticweb/.

[4]陈和琴.FRBR初探[DB/OL][2008.12.15]http://resarch.dils.tku.edu.tw/conference/read paper/C2.pdf.

[5]RDF Model Theory [DB/OL][2011.9.2] http:///TR/rdf-mt/.

[6]RDF/XML Syntax Specification(Revised)[DB/OL][2012.9.2]http:///TR/rdf-syntax-grammar/.

上一篇:浅谈基于电力通讯网组建IP以太网的方式及存在... 下一篇:信息推送技术在企业中的应用研究