mdKOFT:文献型异构信息源知识组织框架的构建技术

时间:2022-07-25 02:00:00

mdKOFT:文献型异构信息源知识组织框架的构建技术

摘要 在对文献型异构数字信息群知识组织的需求分析基础上,研究其多种元数据环境下进行知识组织的理论体系,提出一种多文献数字信息知识组织框架构建技术(mdkoft),该框架通过使用元,元数据(m-metadata),在知识组织工具和数字信息源元数据之间搭建一个桥梁,以实现对数字信息群的知识组织,并从可扩展性、灵活性、分层结构和组件结构等方面对该框架进行探讨,从而为多领域多类型信息系统协同发展和文献信息知识集成提供重要基础。

关键词 数字信息群 知识组织 技术框架 信息机构

分类号 G250.73

1 引言

从信息技术和图书情报学两个方向来看当前的文献型数字信息群的知识组织,其技术大致可以分为两种研究路线,前者注重于依靠人工智能,通过自然语言处理技术对数字信息内容进行文本分析和知识组织;后者则强调通过元数据对数字对象内容进行揭示和组织。由于研究背景的不同,这两个方向的研究侧重点有所不同,单纯从计算机技术进行知识组织研究,势必使对知识的揭示和组织停留在表面,很难对深层次的知识进行揭示和组织;图书情报学方面更多的停留在理论的探讨,还缺少从知识的角度进行信息组织方法的实践与应用。特别是对于长期积累下来的各类元数据信息,例如图书馆中的书目数据,一方面承认其编制过程中包含着广大知识工作者的辛勤劳动。另一方面由于对数字对象的内容中蕴含的知识挖掘不够,对知识之间的关系难得到充分表示,往往是换一种实现方式用传统书目数据来对文献本身进行组织。

本文研究多文献多类型数字信息群的知识组织框架,提出该知识组织框架的一种构建技术(multi-documents Knowl-edge Organization Framework Technique,mdKOFT)。这个知识组织框架在整个知识工程中处于核心地位,为上层的知识应用提供服务,具有对知识的发现、整序、组织等功能。整个知识组织框架分为知识表示层、知识发现层和知识存储层三个层面,每一层分工负责知识组织中的某一方面的工作。其目的是试图在上述两个方向之间进行平衡,为多领域信息系统协同发展和文献信息知识集成提供重要基础。

2 知识组织框架的功能需求

在信息机构实施多文献数字信息群知识工程中,知识组织的核心作用是起到承上启下的作用,从数字资源中发现知识,提供知识的表示模式和知识库,为提供知识服务奠定基础。目前的信息技术还很难进行包罗万象的知识组织,更多的是对特定学科领域的知识进行组织。因此,应从整个知识工程划定涉及的领域范围,确定一个上下文语境,以便按统一的知识表示视图进行。知识组织的实现形式可以是虚拟的或者实体的组织,虚拟的组织侧重于提供统一的知识表示视图和对资源的定位,实体的组织则将分散的信息资源按照统一的形式重新进行组织。其中,元数据的地位非常重要。根据元数据的功能的不同,可以在知识工程的不同层次使用不同的元数据。如描述数字对象的书目型元数据MARC仍然有用并将长期存在,但对各类描述性元数据的功能的发掘不应该只停留在数字馆藏的保存上,还应该重视其揭示内容方面的功能的发掘。在知识组织的层面上,还需要定义知识表示相关的元数据。这类元数据对知识的表述应该提供一定的灵活性,在大的框架下允许适当进行扩充或者变换,以满足不同领域的需要。

知识组织框架的功能需求是指实现对数字信息群的知识组织工具要求的功能。先给出文中一些概念的定义:

定义1:元-元数据(m-metadata)是关于元数据的数据,记作Super(M)。

元数据多用作对数字对象的描述,但对于元数据自身的描述却存在缺位的现象。各种元数据规范的定义缺乏对元数据自身包含元素的语义的计算机可理解的表示形式,导致计算机对于元数据的元素语义很难进行理解,更不能进行推理等高级应用,这大大影响了元数据互操作的可用性。元-元数据也采用结构化的数据组织模式,但其重点是对元数据本身进行描述,尤其是揭示元数据内部的组织关系和元素的语义含义。

定义2:对于领域知识Kd,如果可以采用某种形式对其内容进行表现,则称这种表现形式为领域知识Kd的一种知识表示,记作Kd。

知识是一个抽象的概念,要使其能够被人和计算机理解,就需要采取必要的形式将其从抽象到具象。知识表示就是要完成这个过程。对知识的表示的方法很多,有一阶逻辑、Rough集、神经网络、语义网等,每一种知识的组织工具其实都是通过一系列的规则来对知识的内容进行定义。本文使用基于规则的表示方法。

知识组织框架的功能需求直接来源于知识组织框架的总体需求,在功能上包括以下基本内容:

知识定义。知识定义是整个知识工程的基石,也是进行知识组织的核心。知识定义功能包括对知识表示框架定义、规则库管理等功能。知识表示框架定义是使用XML、RDF等技术,根据特定领域对知识的定义,将其形式化的过程,主要是对知识包括的属性、方面以及如何呈现进行定义。对知识定义有多种方法,但都离不开一定的规则,通过对规则库的管理,可以对知识的表示、组织、利用等功能产生直接影响,并反映到整个系统上。

元数据管理。由于用于描述馆藏数字对象的元数据方案多种多样,对这些元数据方案的管理就特别重要。元数据管理包括元-元数据管理、元数据注册、元数据抽取和元数据映射等功能。元-元数据管理就是要为元数据标准的制定提供一个管理的接口;元数据注册是将元数据方案纳入到系统框架中的第一步,通过注册告知系统元数据方案的结构定义、资源的位置等信息,为元数据抽取提供信息;元数据抽取要根据元数据注册信息,自动地从信息源中抽取符合知识组织需要的元数据元素的相关信息,如在数据库中的字段名称、长度、依赖关系等,元数据映射是一个半自动化的过程,将抽取回来的元数据元素信息进行语义分析后,按照一定的映射模板,与知识表示框架中的具体属性建立关系。

知识挖掘。知识挖掘是知识组织的关键步骤。根据系统对知识的定义和信息资源元数据抽取映射的结果,定时地按照系统和用户的需求,从信息机构的馆藏信息资源中挖掘知识。这样的挖掘是一种增量的挖掘,不但能够满足用户不断变化的知识需求,还能够及时反映信息资源变化导致的影响。知识挖掘的过程是可控的,如果不采用实体的知识组织方式,还要考虑知识挖掘过程中的效率要求。

知识存储。知识存储包括两个方面的要求,一个是对于抽取回来的元数据信息的存储,它不但能够存储元数据的当前信息,也能够保留元数据方案演化产生的历史信息,以保证知识挖掘的一致性,另外一个方面是对知识挖掘结果的存储。不管是采用虚拟还是实体的知识组织方式,对知识挖掘过程中产生的信息都需要采用恰当的存储方式,从而方便

发现知识之间存在的关系,为产生新的知识提供条件,也便于提高整个知识组织的运行效率。

3 知识组织框架mdKOFT的分层结构

知识组织框架mdKOFT,利用长期积累的信息学科的数字信息群相关元数据信息,通过构建基于规则的知识表示框架和以元-元数据为基础的元数据互操作协议,以对元数据的注册、抽取、映射、存储为核心,从而搭建信息资源与知识组织之间的桥梁,按照灵活、可扩展、可定制的思路,解决知识组织的问题。以知识工程的分层结构观点,多文献数字信息群的知识组织包括知识应用层、知识组织层和数字信息资源层,由系统管理层统一管理。数字信息群知识工程中知识组织起着粘合剂的作用,承上启下,向上为知识应用提供服务,向下整合信息资源,因此其架构的可扩展性和灵活性直接决定着知识工程的生命力。

知识组织框架的可扩展性:表现在对新的信息资源的接纳能力和对知识表示层的变化的应对能力。信息机构的信息资源是时常更新的,新的资源的加入,对原有知识组织肯定会产生影响,比如对知识之间关系的补充和扩展、知识层次结构的调整和补充以及可能出现和加入新的知识等。因为用户需求变化而带来的知识表示层的变化,会导致知识组织内容上的变化,而且必须认识到这些变化都是不可避免的。知识组织架构的可扩展性为知识工程应对这种变化,及时有效地满足用户的需求提供了可能。

知识组织框架的灵活性:表现在其提供的应用接口对知识服务要求的满足能力上。根据不同用户的需求,信息机构需要向用户提供的各种类型的知识服务和知识获取工具。不同的知识服务和工具对知识组织在知识内容、表现形式、响应速度、检索条件、检索质量等方面都提出了不同的要求。各种应用都要通过知识组织层提供的接口来访问和操作经过组织的知识。灵活的知识组织框架的含义就是要能够为上层应用提供足够灵活的功能接口,通过适当的配置和调整、组合来满足这些上层应用的不同要求。

现代的计算机软件系统大多采用分层的结构组织形式。分层就是按照需要实现的功能,将系统水平地分为多个层次,每个层次负责完成一项或多项功能,下面的层次为上面的层次提供数据和服务,上面的层次通过调用下面层次提供的功能和数据来完成本层的功能。每一层的功能划分应该清楚,按照“高内聚,低耦合”的原则,层与层之间通过接口进行调用,一般不允许跨层的功能调用。依据分层设计的思想,知识组织框架mdKOFT按照功能分为知识表示层、知识发现层和知识存储层三层,如图2所示:

知识表示层。提供对知识框架中知识表示的定义,实际上这一层不仅仅用于知识组织,还对知识应用层有所约束,只是知识的表示是对知识进行组织或其他操作的前提,因此也一并归于在知识组织框架中。在整个知识工程中,必须要对知识达成一个共同的理解,才有可能实现对知识的加工处理和应用。

知识发现层。根据知识表示层提供的知识定义,从信息机构的馆藏信息源中去发现知识。在知识发现层中,首先使用元-元数据定义知识发现的协议,再从各个注册信息源中抽取出元数据,通过元数据互操作定义,形成信息源的全局视图,然后再根据系统给定的规则,按照知识定义中对信息的需求,定期或不定期地从信息源中获取所需信息。

知识存储层。由数据仓库组成,负责将知识发现层从信息资源中抽取的知识按照主题进行组织。还要负责对系统中引入或用到的各类Ontology、叙词表、分类词表等知识组织工具的存储。对上要提供进行知识应用的接口,上层的知识应用都是在知识存储层上进行的。

4 mdKOFT构建技术:组件结构

基于上述知识组织框架的分层结构,研究知识组织框架mdKOFT的组件结构。与整个架构采用的分层的组织思想相似,框架每一层内部也按照功能进行了划分,不同的功能由各自相对独立的模块完成,模块间通过接口调用来实现数据通信。每个模块之间尽量减少相互的依赖关系,做到功能单一,“高内聚、低耦合”,这样既可以为整个架构带来扩展的空间,合理的模块划分也使各个功能的实现和测试变得更加容易,大大增强了架构的鲁棒性和灵活性。层与层之间通过公开定义的接口进行调用。

4.1 知识表示层

知识表示层由规则库管理模块、知识定义模块和规则库等三部分组成。

规则库管理模块是对系统中用于知识组织工具和知识定义的规则进行管理的模块。所谓规则,在系统中表示为对知识属性的产生方法的定义,例如:“知识应至少由创建者、知识的类别、知识的描述三部分组成”就是-条规则,该规则规定了知识的结构。系统中的规则不但影响到知识的表示,也会影响到知识的采集策略。规则使用XML/RDF表示,存储在规则库中。

规则库是一个关系数据库,根据规则的定义对规则进行存储,对规则库的访问只能通过存储过程进行。

知识定义模块提供用户和系统管理员通过一定的规则对知识进行定义的功能,系统中对知识的定义是通过规则来实现的,其规则来源于规则库。

4.2 知识发现层

知识发现层需要实现的功能比较多,但从大的方面分可以分为对元数据的管理和对知识的抽取,核心是对元-元数据的定义和管理。系统就是通过元-元数据将知识的抽取和知识组织工具、数据信息资源联系起来。元数据的管理包括元数据注册、元数据抽取、元数据映射、元-元数据存储等几个模块。

元数据注册模块公布了要加入系统的数据信息资源的注册接口,通过该模块可以通过元一元数据的形式,向系统登记数字信息资源使用的元数据标准、资源位置、学科领域、使用的数据库管理系统等有关数据信息资源本身的信息。

元数据抽取模块可以在数据信息资源注册以后,根据其注册的元一元数据,自动地抽取其元数据信息,还提供侦听数据信息源元数据改变情况的功能,通过定期数据信息源的定期访问,比较其元数据变化情况,及时地反映数据信息源的变化,并提供历史变化情况的比较和回顾。

元数据映射模块根据定义的元一元数据和抽取来的数据信息源的元数据,采用自动映射与人工干预相结合的方式,通过数据转换模板,实现从元-元数据中的元素与数据源元数据的元素的映射。映射结果使用XML/RDF的形式进行表示并存储在元一元数据库中。

元-元数据库是存储元-元数据定义,元-元数据与数据源的元数据映射信息,以及其他与知识发现相关的信息的地方。

知识抽取模块提供根据元-元数据的定义和系统对知识的需求,以及知识组织工具的组织规则,从数据信息资源中抽取、清理、转换信息,以构建、补充知识组织工具内容的功能。

4.3 知识存储层

知识存储层实际是一个数据仓库,提供按照不同的主题对知识进行存储的功能。在具体的实现时应考虑如下几个方面的因素。

知识组织工具(指叙词表、主题词表、ontology等)一般具有自己的结构,不同的知识组织工具应该按照其自身的要求进行存储,提供不同的学科领域的使用入口;

对于系统采纳使用的知识组织工具,也应该通过元数据注册、抽取的形式获取其信息,并统一加以管理,为实现知识工具与元一元数据之间的映射提供信息;

可以通过规则管理模块对知识组织工具的内容组织规则进行管理,为知识抽取提供依据;

通过统一的接口为上层的知识应用服务,对知识的访问应通过存储过程进行。

本文对文献型异构数字信息群知识组织的功能需求进行了分析,研究其多种元数据环境下进行知识组织的理论体系,提出mdKOFF知识组织框架的构建技术,给出了其中涉及到的元一元数据等概念的定义,这个知识组织框架在整个知识工程中处于核心地位,分为知识表示层、知识发现层和知识存储层三个层次,从可扩展性、灵活性、分层结构和组件结构等方面对该框架进行探讨,从而为多领域多类型信息系统协同发展和文献信息知识集成提供重要基础。

上一篇:信息服务机构的诚信机制研究 下一篇:群体信息能力测试分析模型

文档上传者
热门推荐 更多>