法律框架体与项层本体sumo的映射研

时间:2022-07-12 01:59:01

法律框架体与项层本体sumo的映射研

[摘要]顶层本体SUMO富含公理但是缺乏词汇信息,而法律框架本体具有高层次的、丰富的语义信息,但词汇覆盖面较小并缺乏公理。为了在两者之间建立映射,达到知识重用和共享的目的,从本体映射的概念和方法入手,将法律框架本体的框架、词元、语义类型和框架元素分别与SUMO中的类建立联系,从而将法律框架本体与SUMO建立映射。

[关键词]本体映射法律框架本体SUMO

[分类号]TP39

1 导言

自从本体在信息检索、语义web、人工智能等领域成功应用后,目前在许多领域都有若干本体,由于创建者不同,创建目的和方法不同,即使是同一个领域,建立出的本体也有差别。本体映射正好解决了本体之间语义联系的问题。人工构建的法律框架本体是建立在美国加州大学伯克利分校建立的FrameNet的基础上,通过法律专业人士参与修订而建成的。SUMO(Suggested Upper Me~ed Ontology建议上层共用知识本体)是由IEEE标准上层知识本体工作小组所建置的一个成熟的顶层本体。法律框架本体和SUMO都是比较成熟的资源,他们在自然语言处理中都有各自的优缺点,SUMO作为顶层本体提供的是一般的、抽象的或者哲学概念,为领域本体的建立提供了基础,通过顶层本体能衍生出许多领域的知识本体,并为一般多用途的术语提供定义,并且它富含公理,能够进行推理,但是它缺乏词汇信息。而法律框架本体通过语义及句法配价进行建模,并且用大量的高质量的标注例句对其进行实例化,具有高层次的、丰富的语义信息,提供了对自然语言进行句法及语义分析的手段,但它的词汇覆盖面较小,并且缺乏类似SUMO本体中的公理。若建立法律框架本体与SUMO映射,将使法律框架本体通过利用SUMO来使得其部分数据获得公理性,也可以使SUMO通过法律框架本体及其标注例句对本体知识进行补充。

本体映射是指两个本体存在语义级的概念关联,通过语义关联,实现将源本体的实例映射到目标本体的过程,其最重要的过程就是发现语义关联。本体映射的功能就是要在已经生成的本体上建立联系,以便与其他本体使用通用接口,对同一事物有共同的理解。本体映射的方法有很多,基于语义的方法、基于概念实例的方法、基于概念定义的方法和基于概念结构的方法等。为了提高映射准确率,一个本体映射往往是若干方法的结合。本文着重研究法律框架本体的框架、框架关系、语义类型、词元和框架元素与SUMO的映射问题,旨在实现法律框架本体与SUMO之间的知识共享和重用。其中建立的映射采用的是将基于概念定义和基于概念结构相结合的方法。基于概念定义的方法是指在映射时主要考虑本体中概念的名称、描述、关系、约束等,而基于概念结构的方法则是考虑了概念间的层次结构,如结点关系(父结点、子结点)、语义邻居关系等。

2 法律框架本体与suM0映射的方法

一个法律框架包含框架定义、框架元素、语义类型、框架关系和词元等方面的信息,如框架“逮捕”,表1是对“逮捕”框架的描述。将从框架定义、词元、框架关系、框架元素、语义类型5个层面建立法律框架本体与SUMO的映射。

2.1 将法律框架本体中的框架、词元与SUM0建立映射

由于SUMO本体目前的中文版本仍不是很成熟,并且本体映射的研究还多局限于英语的应用领域同,因此在建立映射前需要将汉语框架转换成对应的英文。使用的映射策略是根据各个本体中对概念的描述将法律本体和SUMO直接建立映射关系或者将WordNet作为中介,先在WordNet中找到词汇对应的词集,然后根据WordNet与SUMO之间的映射关系,找到对应的SUMO类。

2.1.1 以框架为中心的映射框架在法律本体中是对其对应所有词元的一个抽象,即词元与框架有相同的框架元素等信息,可以把词元理解为框架的近义词集,把词元和框架一起作为一个整体和SUMO建立映射,即如果一个框架和某个SUMO类建立了映射关系,那么它下属的词元也将和该SUMO类建立映射关系。如图1所示,根据对类的描述发现法律本体中的“犯罪”(committing_crime)与SUMO中的类“CriminalAction"存在映射关系。在SUMO中“CriminalAction”有自己的结构体系,而“犯罪”(Committing_crime)在法律本体中也有自己的结构体系,在建立映射时以不破坏两个本体各自的体系结构为原则,分别建立带有词元框架与SUMO词集的对应,即“犯罪(committing_crime)”与SUMO类“CriminalAction”建立映射关系。其中方括号内的部分为该框架下对应的词元。

SUMO类中“CriminalAction”的子类有Murder、Stealing、PoliticalCrime等。法律本体中“犯罪”(Committing_crime)的子框架有侵犯公共安全、侵犯财产安全等类,而这些类下还有更具体的代表具体罪行的类,如劫持航空器、盗窃、抢劫等类。而这两个本体的子类之间也存在映射关系,即“盗窃(theft)[偷盗,盗取,盗…]”与SUMO类Stealing建立映射,其它框架的映射与此类似。框架与SUMO的映射见图1。

2.1.2 以词元为中心的映射将法律框架中的词元为对象,使用的方法是将WordNet作为法律本体和SUMO的中介,即将词元对应到WordNet中具有相同意义的词集中,再将该词集与SUMO的映射关系来确定法律本体词元与SUMO的映射,即将法律本体的词元作为SUMO类的下位类。此方法利用WordNet词汇量大的特点弥补SUMO中词汇信息少的不足。以词元“逮捕”为例,在SUMO的搜索引擎中输入“逮捕”对应的英文“arrest”,该搜索引擎自动找到WordNet中与“逮捕”(arrest)对应的4个意项,根据描述,找到与“逮捕”(arres0符合的意项“take into custody”,其对应的SUMO类是“Imprisoning”,因此将“逮捕”(arrest)作为SUMO类“Imprisoning”的子类。

2.2 将法律框架本体中的语义类型与SUMO建立映射

法律框架本体中的语义类型主要基于框架元素的类型特点,在与本体、WordNet的体系结构相关的基础上所构建的语义类型,其参照FrameNet的本体语义类型规定,大约涉及到49种本体语义类型,结构如图2所示,在该图中,以WordNet作为中介进行映射,可分为以下四种情况。

2.2.1 语义类型直接与SUMO类建立对应关系 法律框架本体中一些语义类型有对应的SUMO类,例如形状(Shape)、时间(Time)、关系(Relation)、物理实体(Physical_Entity)、地点(Location)等语义类型都在SUMO类有对应。以盗窃(theft)框

架中的框架元素――地点(Place)为例,它对应的语义类型是位置(Location),定义为

WN synset:location

由上可得知语义类型位置(Location)与WordNet中的loca-tion建立了等同映射关系,而在SUMO中与WordNet中词汇location建立等同关系的是Region,由此可以认为语义类型位置(Location)与SUMO中的Region建立了映射关系。

2.2.2 语义类型与多个SUMO类的交集建立映射关系 如法律框架本体中一些语义类型在SUMO类没有明确对应关系,但其可以和多个SUMO类的交集建立映射,以盗窃框架中的框架元素――。犯罪者(Perpetrator)为例,它对应的语义类型是感知者(sentient),定义为:

线路(Line)在法律本体中的意思是二维的线性区域,街道、赤道、航线等都属于它的范畴。而与之建立映射的塔UMO类-TransitWay,主要包括用来运输的公路、水路或航空等,由此得知,线路(Line)比TransitWay含有更广泛的含义,因此,笔者将TransitWay作为线路(Elnc)的子类。

2.2.4 语义类型与SUMO类的实例建立映射关系 语义类型的含义比对应的SUMO类广,但其与这些类的实例含义接近。如语义类型源点(source)、路径(Path)、目的(Goal)与SUMO类的SpatialRelation对应关系不明确,笔者发现他们与实例origin,path和destination非常相近,因此,将origin作为源点(Source)的实例,path作为路径(Path)的实例,destination作为目的(Goal)的实例。即表示为:

origin:Source

path:Path

destination:Goal

以上四类映射如图3所示,图中粗箭头代表了在语义类型和SUMO类之间的子类关系。这种链接保留了SUMO和语义类型的体系结构。

2.3 框架元素与SUMO的映射

框架元素与SUMO映射是建立在语义类型与SUMO映射的基础上,通过将WordNet作为中介来找到框架元素对应的SUMO类。本文使用以下方法来建立框架元素与SUMO的映射:①从法律领域所有的标注中确定框架元素的类型,②在WordNet中为每一个寻找它所对应的词集。③从SUMO-WordNet映射中寻找该词集对应的SUMO类。这种方法可以帮助我们找到与该框架元素对应的若干候选SUMO类,为了保留框架元素与语义类型的联系和框架元素的层次,一般按照以下原则处理这些候选类。

・如果一个框架元素f有语义类型,且该语义类型与SUMO类cl建立映射,那么与该框架元素的填槽类型建立映射的SUMO类应该是类c1的子类,如图4所示。

以法律本体中逮捕框架下的框架元素“犯罪嫌疑人”为例,选择词元“逮捕”法律领域的句子共17句,这17句都是在北大语料库9中随机抽取的句子,如表2所示,可以看出具体的填槽值、中心词、出现频率。

从上述的统计中可以发框架元素“犯罪嫌疑人”激活的SUMO素有Human、Group Of People和SoclalRole(见表3)。

由于“犯罪嫌疑人”有相应的语义类型感知者(sentient),其对应的SUMO类是Sentient Agent和Animal。根据前述的第一条原则,笔者认为人类(Human)、人群(GroupOfPeople)和社会角色(socialRole)是Sentient Agent和Animal共同的子类,如图5所示。

・如果一个框架元素f是另一个框架元素e的子类,那么与f填槽建立映射的SUMO类c2也是与e填槽建立映射的SUMO类c1的子类,如图6所示。

・如果框架元素f是另一个框架元素e的子类,并且e有语义类型,并该语义类型与SUMO类cl链接,那么与f的填槽类型建立映射的SUMO类也应该是c1的子类,如图7所示。

上一篇:项目驱动式竞争情报教学模式实证研究 下一篇:基于本体的专题知识库智能检索系统研究