基于SKOS方法的分类法本体描述研究

时间:2022-10-25 12:38:38

基于SKOS方法的分类法本体描述研究

[摘要]分类法实现本体化的关键是实现本体建构和本体描述。以《中国图书馆分类法》(简称《中图法》)为例,以SKOS语言为工具,探讨如何建构分类本体并研究如何描述分类本体中的复杂关系。根据《中图法》的设类情况,提出一个本体框架,以此框架为依据详细分析描述中的各种方法问题,包括分类法主表类目关系的描述方法,附表的本体框架和与主表的结合方法等,以解决分类法语义描述中一些典型的难题。

[关键词]中文分类法 分类本体 SKOS 语义描述 《中国图书馆图书分类法》

[分类号]G254.1

1、引言

分类法能够良好地适应语义网和知识检索的需要,是未来知识组织系统发展的主要目标。分类法语义本体创建就是适应未来新一代网络中知识检索需要的关键措施,而分类法本体化的要点是如何实现类目关系的本体描述,在此基础上进一步实现分类法的语义处理和重用。

1.1 分类法本体描述的意义

本体描述使分类词语成为未来语义网的重要资源,使类目的语义关系更加明晰,便于机器自动理解和处理;本体化使分类法实现大量的细化处理,类与实例可以明确地联系起来,使每个大类大体上是一个独立的领域本体;本体化可以传统分类法处理过的资源成为本体处理的对象,通过叙词或自然语言与类目映射,使分类法、叙词表及其他分类系统成为可以相互兼容的工具,在未来智能化的网络环境中实现集成、互操作、重用和共享;本体语言是一种机器可以理解和处理的语言,分类法的本体描述可以实现类目关系的自动推理,从而使分类法成为真正的知识组织与语义检索工具。

基于以上原因,本文采用最新版本的SKOSL(Sim-ple Knowledge Organization System)规范描述,尝试探讨中文分类法的本体构建以及分类法类目关系的SKOS描述的细节问题。为了使编码简捷,方便阅读,所有代码均采用SKOS 2009年推荐标准的代码书写格式。

1.2 SKOS语法与框架

SKOS是RDFS的一个应用,语法设计具有简单、灵活、可扩展、机器可理解的特征。它遵循RDFS的语法格式,即每个概念(或资源)都是一个陈述(a state.ment)句,每个陈述都是一个三元组(triples)。三元组的语法格式是由“subject[主语]predate[谓语]-ob-jeet[宾语]”组成的语法单元,它也可以表示为一个图(graph)。

在SKOS语法中,RDFS三元组一般是用“ex:a-rdf:type-skos:Concept”语句表示,a慨念是一个sKOs概念类。如图1所示:

图1是代码(a)的图示,它表示概念a是一个SKOS概念类,它有上位概念b和下位概念c;其中,“ex:”是一个域名前缀,代表一个URl地址,可以根据所定义的概念的地址命名;在下文中,笔者用“clc”前缀表示《中图法》的URL地址。在图l中可以看到,表示语义关系的SKOS语法每一句都是一个由“主语-谓语-宾语”构成的图。在该图中,圆形图表示主语,椭圆表示宾语,箭头表示谓语,它们构成了一般的语义描述句法。本文使用的代码,均遵照本节所示的SKOS语法和语义。

2、中文分类法本体语义描述框架

2.1 分类法主表的语义描述

本文以《中图法》为例,建立一个“中图法本体(clcScheme)”,这个本体把《中图法》的一级类(基本大类)根据情况设为“最高概念”(topConcept)、“概念组类”(groupConcept,即几个并列概念共有一个类号,如《中图法》的G类)、“双表概念”(doubleSchemeCon.cept,即用双表列类的大类,如《中图法》的法律类)。二、三级类目根据情况分别设置“学科类”(su bjectCon-cept,指可以成为“XX学”或分支学科的类)或“main-Concept”(指非学科性的知识部门);三级以下类用“subConcept”。类间关系语义描述采用“skos:broa-der”、“skos:narrower”、“skos:related”等SKOS语句进行构建。上述“groupConeept”、“doubleSchemeCon-cept”、“doubleSehemeConeept”、“subjectConcept”等概念均是“skos:concept”的下位概念,是对SKOS的扩展(skosxl)。本文采用的方案如表1所示:

2.2 分类法主表的语义框架与语义结构

2.2.1 分类法的上层框架 根据表1的基本类型,可以把《中图法》框架的上层(即基本大类),用SKOS语法添加到clcSeheme。下面的代码是把基本大类与clcScheme联系起来的示例:

代码1-3行声明clcScheme是skos:Con-ceptScheme,它有“军事”最高概念类;第4-6行声明文学、艺术是《中图法》的概念类。其中前缀“clc:”是《中图法》命名域(一个URI),命名域在文件开始时已经声明过,这里略去了文件开始部分。上述代码分类法高层框架的语义结构如图2所示:

其中,实箭头表示《中图法》有最高概念(用“skos:hasTopConcept”表示),也可以把最高概念用“skos:in-Scheme clc:clcScheme”语句与《中图法》联系起来;虚箭头表示几个概念类都属于“skos:Concept”(sKOS概念)类。

2.2.2 分类法类组的语义表示 根据SKOS语法,可以把类组看作一个整体概念,把类组分开后的概念看作它的下位概念。描述方法如下:

这段代码是一个类组(group concept)描述片断,第1行声明它有“政治法律”概念组类;第3-4行声明政治和法律分别有上位概念类“政治法律”。这段代码还可以用“skos:OrderedCollection”的形式,表示为一个类组的语义集,方法更为简练。

上面两段代码构建了《中图法》的高层基本语义结构。如图3所示:

图3通过rdf:type这个谓词,声明《中图法》(eleSeheme)是一个SKOS概念分类表。同时又用“skos:inSeheme”声明“军事”等基本大类属于“elcSeheme”。这种方法的语义描述构成了《中图法》高层框架。

对于基本大类以下的类目概念,可以通过“skos:broader”、“skos:narrower”属性构造上、下位概念类,如以下代码所示:

这段代码声明了《中图法》中的一个学科类“经济学”,然后又声明“经济学”的上位类是“经济”,最后声明“经济”属于eleSeheme(《中图法》)的一个类。

2.3 分类法附表的SKOS语义描述

2.3.1 附表描述的基本设想本文将《中图法》附表(appendix list)尝试作为一般的概念表处理,即地区、时代、民族都以概念词语为中心,这和主表基本相同。

就是说,可以用一般的国家、时代等作为本体的类,然后再用SKOS语句定义其关系。用SKOS语句还可以定义该概念类在哪个附表,再用一定的方法把它的复分号与概念的主类号联系起来。如“美国”在《中图法》“世界地区表”(clc:worldDistrietList)中的复分号是“712”;当主表和附表联合使用时,可以将此看作是主表概念和附表概念的交叉组配,引入OWL方法,用“owl:intersectionOf"语句进行两概念的组配和类号组合。附表基本语句如表2所示:

2.3.2 附表描述的两种方法

第一种方法是先声明一个附表中的概念为“skos:Concept”,然后把该概念定位到《中图法》的某个附表。下面是以表2的框架为依据,描述附表基本用法的一个例子:

上面的代码第2行声明“美国”的上位概念是“北美洲”,第3行声明“美国”这个概念类在“世界地区表”,第4行声明“世界地区表”在《中图法》中,最后一行采用SKOS标注(skos:notation),声明“美国”的地区号是“712”。

第二种描述方法是采用“skos:notation”方法,直接引入描述对象的编码作为SKOS的注释属性。如下面的代码:

这段代码用SKOS注释语句描述了一个《中图法》附表中的标签类“美国”,第一行首先引用《中图法》“世界地区表”的号码“712”,声明该号码的正式标签是“美国”,语言是中文;第二行引入SKOS注释,声明“712”号码的数据类型是《中图法》“世界地区表号码”;最后一行声明“712”也是一个正式标签。

2.3.3 主表号码与附表号的组配 主表类和附表类结合的主要方法是采用一个“逻辑交”运算,把主表概念与附表概念用“逻辑交”组配为一个概念,然后用SKOS注释声明这个合成概念的完整类号(主类号+附表类号)。也可采用各个词表独特的控制符号来组配。

假如标引“美国仿生学研究”这样主题的资源,要用“仿生一美国”这样的主题词组配标引(《中图法》第5版中“仿生学”用类号“Q811”),涉及到主表和附表,可以用SKOS方法描述如下:

上面的代码采用“clc:eoordinationOf”(合成、控制或组配)属性,描述定义了“美国仿生学”由“仿生学”(注意:“仿生学”在《中国分类主题词表》中使用“仿生”)和“美国”“组配(eoordinationOf)”为一个正式SKOS标签(第2-3行);最后一行引用SKOS注释,声明“美国仿生学”在《中图法》中的类号是“Q8Il(712)”。这种方法也可以引入OWL逻辑交属性(owl:intersectionOf)组配“仿生”和“美国”,把主表概念和附表概念交叉组配成SKOS正式标签。

3、分类法类目关系的SKOS描述

3.1 分类法的类间关系及描述语句

分类法的类目关系大部分类似于本体语言的概念关系,所以有可能通过类目关系的SKOS语言描述,实现类间关系的本体化语义标注或语义描述,并进一步实现类问关系的本体推理。流行的中文分类法本体处理的优越条件,是已经实现了分类法的叙词化,编制了《中国分类主题词表》(CCT),因此可以用叙词关系的语义标注或描述,实现类问关系的本体表示,定义每个类目和类号。

分类法的类问关系主要有等级关系、并列关系、同一关系、相关关系。其中,等级关系表示上下位概念的关系;并列关系表示同一个父类划分出来的、在外延上不相交的子类间的关系;相关关系表示两概念在某些方面有联系;同一关系表示两概念有相同的内涵和外延。分类法的一般类目关系及SKOS语句如表3所示:

上表说明SKOS表达概念关系与其他本体语言稍有不同,其中最明显的是SKOS把并列关系看作一个上位概念下的类成员或概念集合列表;同一关系在分类法中一般是交替关系,这样可以用正式标签(skos:prefLabel)和交替标签(skos:altLabel)表示分类法中的同一关系。

3.2 类间关系描述

3.2.1 等级关系 分类法类目等级关系用上位类、下位类表示,实际上是本体的“父类一子类”关系,所以可以用“skos:broader”表示“A是B的子类”,或用“skos:narrower”表示“A是B的父类”。等级关系用SKOS语句描述如下:上面的SKOS代码使用了两种方法表达等级关系。这段代码定义了“摄影美学”类,它的上位类是“摄影艺术”。

3.2.2 并列关系 分类法中类目的并列关系用同位类表示,同位类是一个上位类划分出来的、外延不相交的概念之间的关系。在SKOS语言中,可以用“skos:member'’或“skos:memberList”等语句描述,也可使用“skos:narrower”语句在一个上位类下罗列所有下位类。

这样,可以把一个上位类划分出来的下位类定义为几个类的外延是某个上位概念外延的合集:

上面的代码建立了“舞台艺术”类,它的子类有“导演学”、“表演学”和“舞台美术”,事实上这段代码描述了一个简单的类集片断。

3.2.3 同一关系 分类法的同一关系主要表现在两个方面,其一是交替类,可以用“skos:prefLabel”和“skos:altLabel”或“skos:hiddenLabeI”加以描述,把两者联系起来,如:

这段描述先说明《中图法》(由ck前缀决定)“水声工程”是一个SKOS概念类,然后声明它有正式标签“TB56”(第1-4行)。这里要说明的是,正式标签相当于《中图法》的使用类号,根据SKOS规定,概念和其他符号都可以作为标签。比如本例中,“水声工程”和它的类号"TB56"都可以作为正式标签(skos:prefLa-bel),因为定义“TB56”是英文(@en),而“水声工程”是中文(@zh),在一个SKOS系统中,允许有两个以上语言的正式标签。第5行声明了“水声工程”的交替标签(这里相当于交替类号)是“P733.24”。第3行与第6行分别说明标签的数据类型是《中图法》类号。

由于《中图法》的交替类是灵活的,各使用单位可以根据情况决定使用类和交替类,所以上面的处理方法只是就一般情况所作的选择。《中图法》的正式类号和交替类号的处理,只能把这个概念类或两个类号的资源联系在一起。因为在语义Web中,并不知道众多的系统(或网站)怎样使用交替类(可以灵活选用),所以应该把交替类看作是特殊同一关系的类,即正式类目和交替类目是可选的。

《中图法》同一关系概念的另一个重要问题,是大量类目使用的自然语言与叙词之间的关系。考虑到自然语言检索是网络资源查询的潮流之一,所以《中图法》类目规范过的叙词和类目的自然语言词汇要尽可能联系起来。可以考虑用《中图法》类目作为正式标签(skos:prefLabel),其他如《汉语主题词表》(CT)、

《中国分类主题词表》(CCT)作为“skos:hiddenLabel”或“skos:ahLabel”语句描述,然后映射到正式标签的类目,如:

本段代码用《中图法》的“艺术的哲学基础”类目与《中国分类主题词表》(CCT)的“艺术哲学”进行相近匹配(c]oseMatch)映射,这样做的好处是可以把用自然语言(包括类目词)与受控词表的概念联系在一起,或实现非叙词与叙词系统相关内容的连接。

3.2.4 相关关系 分类法的类目相关关系表面上的显示方式只有类目参见,实际上非常复杂。比如有专论与总论、理论和应用、应用方面与应用到的方面(即一个主题应用于另一主题),等等。这些复杂情况难以在一篇短文中解决。所以本文只讨论一些典型的相关关系。这里用“skos:related”等语句描述相关关系的概念.如:

上例说明“军事医学”是“战备卫生”的相关类,两类具有内容上的联系。值得注意的是,《中图法》中还有相当数量的类目并没有注明“参见”,但是实际上具有“参见”关系。就是说,相当数量的分类法参见类目用其他方式说明相关关系。比如“R81放射医学”下注:“放射卫生人R14;法医放射线学入D919.1或DF795.1”(《中图法》第5版)。这些注释实际上也指出了类目之间的相关关系,有必要进行相关描述如下:

这段代码定义了“放射医学”的分类号(“R81”)(第2行);第3-5行声明“放射卫生”和“法医放射线学”与“放射医学”是相关概念;最后的两行代码描述“法医放射线学”有两个类号,因为《中图法》“法律”类采用双表列类,所以这里先给出它的正式类号(skos:prefLabel“D919.1”),而后给出它的可选类号(skos:al-tLabel“DF795.1”)。

4、结语

近几年来,世界著名分类法都在使用本体语言(主要有OWL、RDF、SKOS等)进行语义本体建构,或把分类法、叙词表转换为RDF格式在Web上阅读和应用,或在主页面上显示概念或类之间的语义关系,如LCC、DDC等。《中图法》、《中国分类主题词表》与《汉语主题词表》的本体构建和分类法的本体研究也在步入高潮,这种形势使汉语受控词汇的本体化与中文资源的语义处理走向一个新阶段。在此背景下,本文参考了相关文献,改进了相应的描述方法和建模原理。

本文讨论了用SKOS方法描述《中图法》主表的基本框架和编码方法,概括了《中图法》附表的描述方法,举例说明了类目关系及描述细节,论述了主表与附表结合的方法,从而为分类法建立一个轻量本体(lightweight ontology)奠定了方法基础。然而,中文分类法的描述和本体建构还需要更多更好的方案和方法,同时还有一些问题需要进一步解决。如多语种整合问题《中图法》、《中分表》、《汉语主题词表》、专科词表的集成问题,受控词表与自然语言系统的集成和处理等。这些问题,都有待深入研究和探索。

上一篇:艺术家永远不要忘记时代使命 下一篇:大规模普及电动汽车指日可待?