基于语义网的中医药术语系统融合方法研究

时间:2022-10-06 10:48:04

基于语义网的中医药术语系统融合方法研究

[摘要] 中医药领域已出现了中医药学语言系统、中医临床术语集等许多术语系统。中医药术语系统的总量很大,但互不兼容,难以融合,尚不能完全满足中医药信息化建设的需求。实现多术语系统的融合已成为推动术语系统应用的一个先决条件。为此,本文提出基于语义网的中医药术语系统融合方法:将各种术语系统转换为统一的语义网本体,并将这些本体合并起来,进而在不同本体的概念之间建立语义关系。采用该方法实现了中医药学语言系统等中医药术语系统的转换与融合,从而初步验证了所提方法的可行性。

[关键词] 中医药;本体;语义网;术语系统融合

[中图分类号] R-058 [文献标识码] A [文章编号] 1673-7210(2016)01(a)-0092-03

Research on the method of TCM terminology fusion based on the semantic web

YU Tong LI Haiyan LIU Jing JIA Lirong

Information Institute of Traditional Chinese Medicine, China Academy of Chinese Medical Sciences, Beijing 100700, China

[Abstract] In recent years, traditional Chinese medicine (TCM) practitioners have constructed a series of terminologies, such as traditional Chinese medicine language system and traditional Chinese medicine clinical terms. These systems are not compatible with each other and are difficult to be integrated, therefore they can't meet the requirements of informatics applications. Terminology fusion has become a prerequisite for the applicability of TCM terminologies. Therefore, this paper proposes a method for TCM terminology fusion based on the semantic web: transforming terminologies into semantic web ontologies, which are then linked and merged together. This method is used to achieve the transformation and merging of TCM terminologies such as traditional Chinese medicine language system, which demonstrates the feasibility of proposed method.

[Key words] Traditional Chinese medicine; Ontology; Semantic web; Terminology fusion

本体是一种用于表示领域知识的计算机模型,它定义了一个领域中的概念以及概念之间的关系,从而对领域概念体系进行精确描述[1]。本体技术具有逻辑严谨、易于维护、支持推理等特点,因此逐渐成为构建生物医学术语系统的一项主流技术[2]。近年来,中医药工作者还将本体技术引入中医药领域,研制了“中医药学语言系统(traditional Chinese medicine language system,TCMLS)”[3]、“中医药临床术语集(traditional Chinese medicine clinical terms,TCMCT)”[4]等大型的术语系统。实践证明,本体能很好地处理中医药领域中的词义模糊、一词多义、一义多词等各种复杂的语言现象,是构建中医药术语系统的有效手段[5]。

中医药领域的术语系统已渐成体系,初具规模,但彼此之间并不兼容,难以融合,严重影响了中医药术语系统的应用效果。实现多术语系统的融合,已成为推动术语系统应用的一个先决条件,可将各种形式的术语系统统一转换为规范化的本体,并建立这些本体的映射和关联,从而解决术语系统融合问题。作为一项新兴的互联网技术,语义网(semantic web)[6]为实现基于本体的多术语融合提供了理想的技术手段。本文简要介绍语义网的相关技术,并阐述基于语义网的中医药术语系统融合方法及其应用价值和意义。

1 语义网技术简介

万维网创始人Berners-Lee等[6]于2001年提出了语义网的技术构想,认为它将成为一个机器可理解、人机共享的信息空间。自2001年至今,语义网技术及其应用迅猛发展,出现了本体编辑工具、推理机、语义浏览器、语义搜索引擎等大量的实用工具,使语义网从一个构想发展成为一套相对完整的技术体系[7]。语义网技术在中医药领域已得到了成功的应用[8]。

语义网的基础性数据模型被称为“资源描述框架(resource description framework,RDF)”[7]。RDF的基本单元是形如(主体、谓词、客体)的三元组,被称为RDF陈述。RDF陈述表示主体与客体之间的一种关系,谓词则用于定义这一关系的类型。RDF陈述可被表示为一个有向图,其中:①主体被表示为一个节点;②客体被表示为一个节点;③属性被表示为从主体节点到客体节点的弧。一系列RDF陈述可组成一个RDF图,用于描述领域知识。简单地说,将两个RDF图进行融合意味着求两个RDF陈述集合的并集。RDF使用统一资源标识(URI)来表示共享领域术语,因此RDF图的融合不会造成语义的丢失和扭曲。这一技术特点决定了语义网在解决术语系统融合方面的内在优势。在国际上,已出现了一系列实用的RDF库,用于RDF数据的管理和维护。SPARQL(simple protocol and RDF query language)是语义网的标准查询语言,可通过SPARQL查询语言对RDF库进行查询和访问[9]。

在语义网的技术体系中,有一项专门面向术语系统等知识组织系统的技术规范,被称为“简单知识组织系统(simple knowledge organization system,SKOS)”[10]。SKOS将各种知识组织系统的共性提炼出来并给予明确规定,以支持知识组织系统的规范化表达。SKOS所规定的核心词汇(即SKOS core),可用于将术语系统表达为机器可理解且能在互联网上和交换的领域本体[11]。因此,SKOS为各种术语系统在互联网上的、共享与连接提供了通用的数据标准格式。

2 基于语义网的术语系统融合方法

SKOS和RDF相结合为术语系统的规范化表达提供了理想的模型,可用于中医药术语系统的、转换、移植、融合等,可通过SKOS/RDF技术,将中医药术语系统转化为语义网本体,从而实现中医药术语系统的融合。为此,采用Protégé[12]、Pellet[13]、OntoGraf[14]等技术开发了相关的术语系统融合工具,并通过这套工具将TCMLS等术语系统整合在一个术语资源库中。术语系统融合方法包括如下的步骤:①将术语系统转化为语义网本体;②实现多个语义网本体的合并和对齐;③将融合后的本体存入术语资源库中,实现中医药术语资源的集中式管理与服务。下面对这一过程进行具体介绍:

第一步,将各种术语系统转换为SKOS格式的规范化本体。于彤等[11]介绍了将TCMLS这一典型的术语系统转换为SKOS本体的方案:TCMLS的数据被转换为对应的RDF陈述,这些RDF陈述最终构成了一个SKOS本体。通过该方法,进一步将国家标准“中医临床诊疗术语证候部分”[15],以及世界卫生组织出版的传统医学术语(以下简称WHO Terms)[16]等其他术语系统转换为SKOS本体。

下面以图1所示的RDF图为例介绍这些SKOS本体的形态。在TCMLS这个RDF图中,包括“木”“火”等概念以及“生”等语义关系,它们都带有“tcmls”的前缀。RDF图中包括概念的编码、标签及定义等语义信息,以及概念之间的语义关系。例如,“木”与“火”之间有一条标记为“生”的边,表示“木、生、火”这条语义关系。WHO Terms这个RDF图中,则以英文为主表达类似的内容。

图1 中医药术语系统融合示意图

第二步,将上述本体汇集在一起,实现本体之间的对齐(Alignment)。本体对齐的主要工作,是在不同本体的概念之间建立语义关系。如图1所示,以TCMLS和WHO Terms这两个术语系统为例,本体对齐主要是在它们的概念之间建立等价(owl:sameAs)关系,例如:在TCMLS中的“tcmls:火”与WHO Terms中的“who:fire”之间可建立owl:sameAs连接;在TCMLS中的“tcmls:木”与WHO Terms中的“who:wood”之间也可建立owl:sameAs连接。这些等价关系将本体融合在一起,从而丰富了概念的语义信息。例如,在融合后的本体中,“木”这个概念具有了中英文两种定义。

在语义网的框架下,可综合使用各种方法来生成本体之间的语义关系。最有效的方法是使用通过SPARQL CONSTRUCT实现的规则。例如,如图2a所示,如果两个术语资源具有相同的正名(skos:prefLabel),则它们之间具有语义等价性。又如,如果两个术语资源具有相同的编码或ID,则它们之间具有语义等价性。再如图2b所示,如果某个属性具有唯一标识性,两个资源具有相同的属性值,则这两个资源是语义等价的。一个典型的实例是关于人的电子邮箱地址:如果两个资源(foaf:Person表示“人类”这个类别)具有相同的电子邮箱地址,则它们具有语义等价性,即指代同一个人。

第三步,建立术语资源库,对多个术语系统进行集中管理,并基于万维网提供统一的术语服务。这一术语资源库是基于RDF库构建的,它可通过SPARQL查询语言进行访问、编辑和扩充,并通过万维网服务接口为各种语义网应用程序提供统一的术语服务。

3 讨论

术语系统融合是中医药术语加工与应用中非常重要的一环。首先,通过术语系统融合,能有效提升术语系统的规模和完整性。中医药领域术语极其丰富,且随着学科发展在不断产生新词。即使是TCMLS之类大型的通用术语系统,也难以完整覆盖中医药领域的术语。但若能将面向中医理论、中医临床、温病学、针灸学等各专科的术语系统融合起来,则可产生更为完整的术语系统,从而更好地满足信息应用的需求。其次,通过术语系统融合,能够显著提升术语构建工作的效率。从头开始构建一个术语系统往往是一项复杂的工程。若能重用已有术语系统中的内容以形成新的术语系统,则可避免术语资源重复建设。通过术语系统融合方法,可从已有的术语系统中提取出相关内容,融入新的术语系统之中;也可将多个术语系统融合起来,再进行必要的增加、删除、修改操作,从而得到新的术语系统。再次,通过术语系统融合,可建立中医药术语集成服务系统,面向网络用户提供一站式的术语服务,支持用户对多个术语系统进行检索、浏览、编辑、纠错与分析。这有助于术语学家归纳中医药术语系统的共性特征,对术语系统进行比较分析以及进一步的改进。最后,术语系统融合能更好地满足信息系统的术语需求。例如,基于融合后的术语资源,可构建更加完整的领域知识库,对领域知识资源进行更为系统的组织;术语系统融合方法与语义网技术相结合,可支持语义维基、语义搜索等语义网应用系统的实现。

近年来,中医药术语系统的建设方兴未艾,在取得一系列成果的同时,也存在系统之间无法有效融合的问题。RDF、SKOS等语义网技术为在互联网环境中实现术语系统的规范化表达、统一访问及进一步的融合提供了潜在的解决方案。本文提出了基于语义网的中医药术语系统融合方法,用于将TCMLS等术语系统转化为语义网本体,实现这些术语系统的语义融合。这项研究初步验证了采用语义网实现中医药术语系统融合的可行性,对于实现中医药领域其他术语系统的转换与融合具有借鉴意义。术语系统融合是一个循序渐进的过程:在术语资源库对外提供术语服务的过程中,可进一步增加术语系统,添加术语系统之间的关联关系,不断充实术语资源库的内容。

[参考文献]

[1] Rubin DL,Shah NH,Noy NF. Biomedical ontologies:a fun-ctional perspective [J]. Brief Bioinform,2007,9(1):75-90.

[2] 于彤,崔蒙,杨硕,等.生物医学本体工程进展[J].中国数字医学,2012,7(11):3-6.

[3] 贾李蓉,于彤,崔蒙,等.中医药学语言系统研究进展[J].中国数字医学,2014,9(10):57-59,62.

[4] 董燕,李海燕,崔蒙,等.中医临床术语系统建设概况与改进措施[J].医学信息学杂志,2014,35(8):43-48.

[5] 于彤,崔蒙,李敬华,等.中医药本体工程研究现状[J].中国中医药信息杂志,2013,20(7):110-112.

[6] Berners-Lee T,Hendler J,Lassila O. The semantic web [J]. Scientific American,2001,284(5):28-37.

[7] Hall W,Berners-Lee T. The semantic web revisited [J]. Intelligent Systems,2006,21(3):96-101.

[8] 于彤,崔蒙,李敬华.语义Web在中医药领域的应用研究综述[J].世界中医药,2013,8(1):107-109.

[9] Pérez J,Arenas M,Gutierrez C. Semantics and complexity of SPARQL [J]. ACM Trans Database Syst,2009,34(3):16.

[10] Manaf NA,Bechhofer S,Stevens R. The current state of SKOS vocabularies on the web [J]. Lecture Notes in Computer Science,2012,7295:270-284.

[11] 于彤,崔蒙,张竹绿.从中医药学语言系统到简单知识组织系统本体的转换研究[J].中国中医药信息杂志,2014, 21(12):38-41.

[12] Knublauch H,Fergerson RW,Noy NF,et al. The Protégé OWL plugin:An open development environment for semantic web applications [C]// McIlraith SA,Plexousakis D,Harmelen F. Third international semantic web conference. Berlin Heidelberg:Springer,2004:229-243.

[13] Sirin E,Parsia B,Grau BC,et al. Pellet:a practical OWL-DL reasoner [J]. J Web Semantics,2007,5(2):51-53.

[14] Sean Falconer. OntoGraf [EB/OL]. Stanford,California,USA:Stanford University,2010 [2015.7.23]. http://protegewiki.stanford.edu/wiki/OntoGraf.

[15] 国家中医药管理局医政司.GB/T 16751.2-1997中医临床诊疗术语证候部分[S].北京:中国标准出版社,1997.

[16] WHO Regional Office for the Western Pacific. WHO Int-ernational Standard Terminologies on Traditional Medi-cine in the Western Pacific Region [S]. World Health Orga-nization,2007.

(收稿日期:2015-07-28 本文编辑:张瑜杰)

上一篇:迪达尔:让梦想起航 下一篇:梦想的力量 《昂首名流·蔡金华小传》读后