基于本体驱动的叙词表词间关系可视化系统的研究与实现

时间:2022-10-24 01:16:14

基于本体驱动的叙词表词间关系可视化系统的研究与实现

摘要 目前尚无专用的叙词表可视化工具,研究人员一般借助现存可用的可视化技术或工具来可视化词间关系。分别选取三类具有代表性的通用可视化工具,对其特点、可视化效果进行分析,在此基础上,提出一种新的适于叙词表可视化的逻辑模型,简述该模型所具有的功能、可视化效果,并开发其相应的原型系统,从而为今后叙词表可视化工具的开发提供参考。

关键词 叙词表可视化 Protege 主题图 SKOS 本体驱动

分类号 TP393

信息可视化是在20世纪90年代中期才兴起的情报学研究领域,是情报学研究的热点与前沿,是指在计算机的协助下,对数据的可见的、交互的表示。可视化就是把数据信息和知识转化为图形、图像等比较直观的视觉形式的过程。叙词表词间关系可视化就是利用可视化工具对词间关系进行图形化的显示。所谓叙词表词间关系是指叙词之间内在的语义联系,包括等同关系、等级关系和相关关系。纸制叙词表的编制通常采用三种词间关系控制方法:①编制范畴索引和词族索引;②建立参照系统;③图形显示。前两种方法只能线性显示词间关系,而第三种方法借助图形的直观优势,更有助于把握词间关系。显然,对叙词表的词间关系进行可视化,能够帮助用户更直观地感知词间关系,了解叙词的涵义。

1 叙词表词间关系可视化现状分析

叙词表的可视化属于知识组织可视化范畴,学术界提出的知识组织工具包括主题地图(Topic map)以及本体(描述语言包括RDF、OWL)。目前可用于叙词表词间关系可视化的工具或技术有三类:本体工具,主题图和SKOS。下面分别选取其中最常用的有代表性的通用可视化工具,对其进行分析比较,为叙词表词间关系可视化模型提供理论基础。

1.1 本体工具

从哲学的范畴来说,Ontology是客观存在的一个系统的解释或说明,关心的是客观现实的抽象本质。在人工智能界,Neches等人最早将Ontology定义为“给出构成相关领域词汇的基本术语和关系,以及利用这些术语和关系构成的规定这些词汇外延的规则的定义”。本文主要选取目前最具代表性的Prot6g6进行分析研究。Prot6g6是一个开源本体编辑器,采用基于插件形式的高度可扩展的体系结构。它提供一系列插件来图形化浏览本体之间的关系,如TGVizTab采用的是网状图结构,将类、实例、属性节点相连,形成一张动态的语义相关的网状图(见图1)。TGVizTab使用TouchGraph技术可视化显示本体。类和实例均以节点形式出现,类和实例间的关系则用直线相连。每个节点又可以再扩展,或收缩和隐藏。鼠标可任意拖动节点,微调节点位置,也可以移动整个图形的位置。

Protege基本能够满足动态、全面地实现叙词表可视化的需求,但不是专门的叙词表可视化工具,在使用上还存在以下一些缺点:①对于类、对象及属性不提供复用,其定义域和值域中的值并未建立一一对应关系,需要建立子属性加以区分;②Protege设置的各级类不允许重复,即只支持不交叉的类,其建立的等级关系也就不能体现交叉类这一常见关系,需要增加对象属性来加以揭示;③在可视化显示效果方面,虽然TGVizTab能够提供图形缩放功能,但只能提供节点问连线的缩放,节点大小并不相应地按照比例缩放而是始终保持不变。这样当图形放大到一定程度,结构就过于松散,而当缩小到一定比例,图形就相当拥挤。这些缺点在之后开发的可视化系统中需要加以改善。

1.2 主题图

主题图的目的在于通过一个资源的叠加层或者资源地图表达资源的知识。目前,国外情报工作人员在主题图工具可视化叙词表方面的实践有很多,这里主要分析美国的思维导图可视化词典(Thinkmap Visu-al Thesaurus,TVT)和英国的Xreferplus网上参考服务系统的概念图。

TVT是用Java语言编写的图形显示工具。TVT可视化词典创建词语和词义的动画显示――对英文词语的可视化表示,提供2D和3D的显示模式。TVT把检索词放在显示图的中心位置,检索词与相关词和词义相连。用户通过点击图中词语或词义获得进一步的探究。可视化词典的确超越同义词的范畴,在词语定义、多义、甚至反义词之间显示和可视化联系。用户通过选择词性或词间关系类型,能够进行交互性的扩检和缩检。在可视化效果方面,节点表示所连词语的含义,不同词性用不同颜色节点表示,节点与词语之间用实线相连,与同一节点相连的所有词语为同义词。虚线代表词间关系,反义词之间用红色虚线相连。

Xreferplus是世界上最大的在线参考服务系统。其中的大型词典库除了提供简单检索和高级检索以及主题浏览功能之外,还提供了检索结果的可视图浏览,即概念图。概念图呈现的是Xreferplus中检索词和主题问的相关关联。随着鼠标在图中结果上移动,系统就会显示鼠标附近节点的词条标题。选中的结果的词条标题用黄色框加以标记,双击黄色框后,系统就会在新的窗口显示该词条详细内容。周围结果的词条标题则用白色框加以显示。在鼠标移动过程中按住shifl键,系统就在图上自动产生一个方形放大镜,对所获概念图进行局部放大,特别是对节点众多的概念图来讲相当有用的一个功能。在鼠标移动过程中按住Ctrl键,可以看到检索结果间如何相连。

国内采用的工具主要有Personalbrain软件和OKSSamplers。

Personalbrain是一个基于Thebrain技术的思维导图组织系统。Thebrain揭示信息关系的基本思想是:将屏幕空间划分为5大区域:中间是聚焦结点,可代表一个短语、文件、web页等,四周分布的是与之有关联的结点。这些结点在屏幕空间的不同位置,代表了与聚焦结点的不同关系。而这种关系是由用户自行定义的。该技术支持的可视化效果有:①快速焦点转移;②过量结点的隐藏;③隐含关系的揭示。Person-alBrain预定义了parent、child、jump三种关系,类似于词表中的属、分和参,如果词表中叙词关系超过这三种,就无法显示,而且只能显示局部关系,也就是说只能显示与中心词最直接的关系和相应词语。

OKS Samplers是由挪威Ontopia软件公司开发的一套构建、维护和配置基于主题图的应用软件,包括Omnigator、Vizigator和Ontopoly。其中Vizigator是免费的主题图可视化工具,它使用一个图形化接口提供了一个额外的主题图导航方式,以不同颜色、不同形状来区分主题图的各个部分,节点代表主题,节点与节点之间的连线代表主题之间的联系,可拖动图中的滑条来控制图形显示大小。除可通过图中提供的输入框输入检索式查找主题外,还可以控制只显示与该主题有关的信息。四川大学公共管理学院的纪希禹副教授和朱良兵选取《管理科学主题词表》中部分叙词,先用

Ontopoly构建主题图,再用Omnigator浏览主题图,最后用Vizigator可视化主题图。Vizigator可视化的界面很简单,但是在节点、连线、视图的右键菜单提供很多功能,采用的是JAVA APPLET窗口。节点右键菜单提供的功能有:扩展节点、收缩节点、隐藏节点、粘性/滑性节点、节点属性、挎贝名称、进入主题浏览导航页面。连线的右键菜单提供一个隐藏连线/取消的功能。

从以上几种主题图工具的分析可以看出,它们在可视化效果方面比本体工具更胜一筹,值得借鉴。但在叙词表词间关系种类多样化的支持上却存在缺陷,不足以用来可视化一个词间关系丰富的专业叙词表。

1.3 SKOS

SKOS(Simple Knowledge Organization System),是W3C在2005年制定的规范标准,是在语义网框架下,用机器可理解的语言来表示知识组织系统的一个模型。SKOS包括三个主要部分:①SKOS Core,可以用于表示除Ontology外的几乎所有其他NKOS;②SKOS Mapping,用于概念框架之间的映射;③SKOS Extensions,用于辅助SKOS的特定应用。其中比较成熟的是SKOS Core,已经形成了相应的语法标准和应用标准,而后两者目前还处于发展阶段。目前与SKOS相关的实际应用并不多,主要是以SKOS标准书写的受控词表,这里不做介绍。SKOS是一种相对较新的标准,整体还处于工作草案阶段,因而目前还存在不足,有待进一步完善。

2 基于本体驱动可视化系统的设计

2.1 叙词表可视化模型

前面介绍的几种通用可视化工具,它们可视化的原理及效果各有不同,但都不是专门的叙词表词间关系可视化工具,这就在一定程度上限制了它们对于叙词表的可视化能力;另外,通用的可视化工具所能够展示的词间关系不够完备,有些只支持有限几种简单的关系显示;其次,这些工具对叙词表的可视化效果并不是很理想,有的可视化结果显示不够直观;再次,许多可视化工具的易用性不强,会造成一些非专业用户使用上的困难,难于普及。如Prot6g6,用户要有一定的基础知识才能很好的利用,且可视化功能是通过一些可视化插件来实现的,使用上会给用户带来一些不便;最后,这些可视化工具全都是国外的研究成果,给国内的用户使用带来很大的不便。

因此本文提出一种新的适于叙词表词间关系可视化的逻辑模型,针对以上分析所做的改进之处主要包括以下几点:①本体驱动:将叙词表以一个领域本体文件的形式输入,增强系统的灵活性;②基于本体的检索功能:方便用户的查找;③用节点连线的形式图形显示词间关系:用图的形式显示检索结果,并对图形处理,通过颜色及文字等提示直观的表示出实体之间的关系;④支持查找类的实例;⑤返回历史检索功能:设历史列表,便于用户方便的返回之前的检索状态;⑥图形的动态切换以及缩放:点击图形节点,系统将以该节点为中心,绘制新的图形,用鼠标点击缩放滑块,图形将以所查询的本体为中心进行缩放,在研究某一类目时,可以得到更清晰的视图;⑦简单方便的中文操作界面,让用户可以很快地掌握操作方法。

原型系统预期的可视化功能与效果如表1所示:

该原型系统将用JAVA语言编写,在开源环境下采用Eclipse平台进行开发,选用MySQL关系型数据库。系统以本体文件作为驱动,也就是先将叙词表转换为相应的OWL文件,以一个领域本体文件的形式输入,创建相应的本体模型,利用Jena推理工具解析出本体中的所有类,并利用相关函数,采用深度遍历方法,将结果提取出来,存放在相应的列表中,为图形绘制提供必要的数据。系统自身集成可视化功能,为用户提供便捷,总体结构(见图2)。

系统的检索主要采用前方一致的方案,找出所有匹配的类,显示在本体列表中,供用户选择。由于本体中有些类有对应的实例,因此应该有查看实例的功能,例图如图3所示。

图4表示的是本体可视化系统分层结构图。系统的结构共分三层,从上到下依次是用户浏览层、逻辑实现层和数据层。其中:①用户通过浏览层访问本体可视化系统,并向它发出具体的检索请求,再由它将请求转给逻辑实现层,最后由逻辑实现层得到检索结果,反馈给浏览层,再绘制具体的图形;②逻辑实现层:对具体的请求做出处理,这些具体的功能处理对关键词进行检索,找出检索类的上下位类,找出类的实例等;③数据层:存储OWL文件中解析出来的类。

2.2 基于JAVA的本体可视化原型系统实现

基于以上思想,笔者参与构建了一个面向医学领域的本体可视化原型系统。该系统是在Windows XP操作系统上的JAVA平台下,运用JCeator Pro开发工具来完成的。本体检索的实现选用Jena作为推理工具。

系统数据存储主要采用文件存储方式,创建相应的本体模型,解析出本体中的所在类。系统主要利用OntModel、OntClass、OntResource、OntProperty、Individual类实现了本体的检索,查找本体上下位类与类的实例,采用深度遍历方法,将结果提及出来,存放在相应的列表中,为图形绘制提供必要的数据。系统已经可以实现一些简单的可视化功能,主要有:图形显示部分词间关系,主要是词与词之间的等级关系,包括上位关系,下位关系和同位关系;可以对显示结果进行整体缩放以更清晰的显示复杂的结果;可以通过单击相关节点对其实例进行检索。

系统的界面分成以下5个部分:

・可视化视图。视图框显示在界面的左边,用来显示查找的本体以及与其相关的类。中心节点代表所检索本体,绿色节点代表其上位类,黄色节点代表其下位类,其中,图形中同一颜色的节点为同位的关系。当用户左键点击一个节点时,该节点将重新成为焦点,系统用该节点代表的本体进行重新查询,然后生成新的可视化图形。当鼠标停留在某一节点上时,显示该节点与周围节点之间的关系。

・查询输入框。文本输入框用于用户输入查询的关键词,检索按钮的功能是提交检索。若查询结果只有一个,则系统自动绘制相应图形。

・本体列表框。本体列表框显示了在本体库中与关键字前方一致的所有类。选中列表中的某一项,系统将绘制相应图形。

・实例描述框。鼠标右击某节点,该节点的所有实例便会出现在实例列表中。

・检索历史框。检索历史框保存了用户在本体列表中点击过的所有类。这样便于用户重新回到之前的检索状态。

图5为词间关系浏览图,中心词就是检索词,与检索词相关的叙词显示在其周围,主要有检索词的上位词和下位词以及等级关系的词。相同颜色代表同一等级,鼠标放到连线上可以看到词间关系。单击每一个词可以转换中心词并显示与新的中心词相关的词间关系。

3 结语

信息可视化在情报学领域是一个较新的研究方向,国内对信息可视化工具的研究尚属雏形阶段,还没有形成比较系统的体系结构,探索更加有效的可视化工具将是以后的研究重点。

本文在分析和研究本体工具、主题图工具和SKOS工具三类通用可视化工具的基础上提出了一个适于叙词表词间关系可视化的逻辑模型,简单讲述了该模型的总体结构及功能,分析了模型的需求,并用计算机语言实现了一个简单的本体可视化原型系统。笔者在后继的研究过程中将会进一步改进与完善,希望能够实现一个操作便捷、功能完备的基于本体驱动的叙词表词间关系可视化系统,为今后的叙词表可视化工具的开发提供一点参考。

上一篇:基于SOA的企业知识地图构建研究 下一篇:知识管理学演进发展的系统动力学分析