数字图书馆中自动创建知识库的研究

时间:2022-08-16 04:20:57

数字图书馆中自动创建知识库的研究

【摘要】由散落于各种文献中的学者观点构建成的“学者观点”知识库,是教学科研中非常重要的知识来源。文章提出一种自动创建学者观点知识库的技术构想,解决了通过人工创建此类知识库所带来的庞大的人力投入和漫长的时间投入。文章以创建教育技术学学者观点知识库为例展示了自动创建知识库的过程。

【关键词】学者观点知识库;知识智能抽取技术;教育技术学;数字图书馆

【中图分类号】G40-057【文献标识码】B 【论文编号】1009―8097(2009)12―0095―04

一 数字图书馆中的“学者观点”知识库

1 学者观点

在教学科研及其相关的工作实践中,经常会就某个概念、定义或论题产生理论上的争议,不同的学者可能会提出不同的观点,把这些观点全面汇总比较分析,才能够对这个概念、定义或论题理解得比较全面、透彻,这对于教学科研工作者来说尤其重要。因此,人们一般首先会在数字图书馆中全面查找关于某个概念或论题的所有观点,并记录每个观点的提出者、提出时间、文献出处、提出背景、观点内容、理论背景等。查找这样类似的观点资料,是一项非常繁琐的工作,特别是要找到最完整的资料,因此,有必要建立一个专门的“学者观点”知识库,以供读者检索查阅。

2“学者观点”知识库

知识库(Knowledge Base)是知识工程中结构化、易操作、易利用、全面有组织的知识集群,是针对某一(或某些)领域问题求解的需要,采用某种(或若干)知识表示方式在计算机存储器中存储、组织、管理和使用的互相联系的知识片集合。这些知识片包括与领域相关的理论知识、事实数据,由专家经验得到的启发式知识,如某领域内有关的定义、定理和运算法则以及常识性知识等。

“学者观点”知识库,就是将符合“学者观点”形式特征的数字资源,通过某种标准化的编辑过程,而产生的知识库。

3 “学者观点”知识库的资料来源

学者观点来源有很多途径,例如专著、期刊杂志论文、报纸、会议论文,以及其他一些文献资料中。

图书馆中的资料数量非常庞大,传统图书馆的标引方法,只能够揭示出诸如“标题、作者、主题、关键词、出版信息”等信息项,而不能够精确地查询和定位到某个学者观点。因此,在这种情况下,很难快速精确地直接查找到所需要的学者观点资料。

数字图书馆的出现和发展,使得数字资源逐渐成为图书馆中资源的主导,数字资源使得快速查找定位资源成为了可能。

4 “学者观点”知识库的创建思路

知识库的资料来源,和“学者观点”知识库本身之间的信息形态,存在重大差异。“学者观点”知识库,是结构化的数据,而知识库的资料来源,比如专著,是非结构化的文本信息,要想创建“学者观点”知识库,就必须通过一定的方式从非结构化的文本中提取出这些结构化的数据。

从文本中提取学者观点,有两种创建思路:一是以人工标引的方式,从文本中整理出各种学者观点来,然后按照“学者观点”知识库的信息要素填充到知识库中形成结构化的知识库内容;二是以计算机自动标引的方式,通过专门的计算机程序对文本进行分析,把符合“学者观点”形式特征的数字资源,按照学者观点的信息要素标准进行自动提取,并填充到知识库中。

因此,需要创建一种计算机技术,能够实现从非结构化的文本数据中进行自动分析并提取出符合目标数据结构标准的结构化数据,我们把这种技术称为“知识智能抽取技术”。

“学者观点”知识库的创建过程,可以用下图的模型来抽象表示:

图1 “学者观点”知识库的创建过程

二 知识智能抽取技术创建“学者观点”知识库的目标

通过知识智能抽取技术,对数字图书馆中的数字资源进行自动分析,达到创建“学者观点”知识库的目标,具体来说,是创建一个结构化的、可持续的、可回溯的、去重的、高度关联的“学者观点”知识库。

1 结构化的知识库

“学者观点”知识库是一个结构化的数据资料,具体的结构可以分为:

(1) 学者观点出处数据结构:学者信息、出版信息。学者信息数据结构为学者姓名、学者个人资料(比如性别、单位、职称、学历等);出版信息数据结构为观点发表时间、发表所在文章、发表所在位置(哪一篇文章的哪一个部分的哪一页的哪一段落的哪一行)、引证情况。

(2) 学者观点内容数据结构:观点命名信息、观点内容信息。观点命名信息就是对该观点的命名;观点内容信息就是对观点的具体文字性的描述。

(3) 学者观点标引数据结构:以叙词表的知识结构将学者观点统一整合起来,不同观点针对同一个概念或论题就能够被整合在一起。其数据结构按照叙词表的结构来存储。比如,在教育技术学领域中,针对“教育技术”这个概念,有不同的学者观点,针对“教学技术”这个概念,也有不同的学者观点,而“教学技术”是“教育技术”的下位概念,我们通过叙词表中的上下位词关系功能,就可以将上述两类学者观点关联在一起提供给查询者。

2 可持续的知识库

由于采用了计算机自动分析技术,一旦有新的数字资源(往前回溯、往后增加、对现有数字资源错误的修正),完全可以采用知识智能抽取技术对数字资源进行重新扫描分析,以增量更新的方式添加到现有的“学者观点”知识库中。

3 可回溯的知识库

(1) “学者观点”知识库是经过知识智能抽取技术自动化处理成的结构化的数据,这些数据很重要的一种应用是要展现出其原始的出处,即这种数据资源是可以回溯到数据的原始样态的。

(2) 由于对同一个“学者观点”,除了学者自身的发表之外,可能其他学者会大量引用,这里也存在一个回溯的问题,即被引用的“学者观点”需要回溯到其最初始的发表来源中。

(3) 同一个“学者观点”,有可能会有一定的发展,此时,需要将此“学者观点”的历史沿革进行全面的展现,即需要将同一个“学者观点”的不同版本全面按照沿革的顺序串联起来展现出来。

4 去重的知识库

某一个“学者观点”,有可能被发表多次,有可能被引用多次,此时,需要把这些重复的“学者观点”经过去重处理,以达到单一的展现目的。

5 高度关联的知识库

通过叙词表对每一个“学者观点”进行处理,不同的“学者观点”被关联起来,形成一个完整的知识网。

三 “学者观点”知识库的知识智能抽取实现过程

分为以下四个信息提取阶段:(1)“学者观点”的特征定义;(2)“学者观点”的结构分析;(3)“学者观点”的智能抽取;(4)“学者观点”的存储。其中,第三个阶段是主要的实现工作,具体可分为以下五个步骤的工作:①“学者观点”内容元素(命名实体)的识别;②“学者观点”的多义消解;③“学者观点”的模板元素抽取;④“学者观点”模板关系抽取;⑤“学者观点”情景模板抽取。

1 “学者观点”的特征定义

是指“学者观点”的表现特征是什么样的。分为几个方面(1)什么是学者观点:针对某个概念、定理、运算法则、常识性知识和其他论题表明个人的观点。(2)学者观点的表现形式:以什么样的文字描述方式表述出一个观点,即从文字表述的形态特征来考虑,哪些内容符合“学者观点”。

2 “学者观点”的结构分析

通过上述的特征定义分析,我们就可以创建“学者观点”的数据结构,并根据此数据结构,通过归纳和演绎来构建各种“学者观点”的形态结构特征,用于后续的知识智能抽取。

3 “学者观点”的智能抽取

(1) “学者观点”内容元素(命名实体)的识别

命名实体识别就是要判断一个文本串是否代表一个命名实体,并确定它的类别。[1]常见的命名实体包括人名(Person)、地名(Location)、机构名(Organization)、日期(Data)、时间(Time)、百分数(Percentage)、货币(Monetary Value)等,其他的命名实体可以根据具体的专业、文本形式特征等角度来增加命名实体的定义。比如一般的文章有明细目录,有定义文本,有学者观点等。

“学者观点”是一个描述性文本,此文本是由不同的内容元素构成的,这些内容元素,就是命名实体。我们通过对命名实体的识别,来定位“学者观点”。

(2) 多义消解

多义消解指从文本中标识出对同一“学者观点”内容元素(命名实体)的不同表达方式。通过叙词表的支持,我们就可以实现对“学者观点”内容元素的不同表达形式的等同和消解。

(3) “学者观点”模板元素抽取

知识智能抽取技术将特定的描述信息与实体联系起来。它需要从文本的任何地方将与组织、人物或其它实体相关的基本信息抽取出来,并将这些信息作为实体的属性进行聚集,形成实体对象。知识智能抽取技术需要能够从文本中抽取特定类型的实体信息,并将这些信息填写到预先定义的小型的属性模板之中。[2]例如对人物实体的模板元素抽取,需要信息抽取系统能够抽取出预先定义的人物的名称、职务、国籍等属性。

(4) “学者观点”模板关系抽取

知识智能抽取技术需要在模板元素抽取的基础之上标识出模板元素之间的关系,并将此关系保存下来,以形成完整的学者观点内容。

(5) “学者观点”情景模板抽取

当学者观点是关于某个事件的分析,就需要抽取某一事件中的事件信息并将事件信息与某个组织、人物或其它实体相关联。

需要标识出特定事件及事件的相关属性,包括将事件中的各个实体填充到事件的相应角色中,通过各个对象之间的关系,能够还原出整个事件的“原型”。

4 “学者观点”的存储

通过“学者观点”的智能抽取,会形成一个结构化的数据文件,此文件包含符合“学者观点”的预定义的数据结构特征。此时,需要一个文件导入工具,将结构化的抽取结果文件导入到数据库中,供后续知识检索应用。

5 “教育技术”学者观点的智能抽取实例分析

众多学者对教育技术给出了不同的定义。为了全面地、系统地、发展地了解人们对教育技术学这个学科的理解,我们可以将目前存在的所有对教育技术的定义做成一个知识库,详细记录每个定义的提出者、提出时间、定义内容、提出背景、引用情况等信息。这样就形成一个关于“教育技术学”定义的学者观点知识库。

我们试图将数字图书馆中所有关于“教育技术”定义的知识点抽取出来。可以通过学者观点的智能抽取技术模型对数字图书馆中的全部电子资源进行扫描和抽取,当数字图书馆中存在符合关于教育技术定义形式特征的语句时,相应可以抽取建立一个关于“教育技术”定义的学者观点库。

学者观点的智能抽取技术模型,是通过研究“学者观点”的形式特征,结合抽取技术框架来实现的。对于“学者观点”的形式特征,可以通过归纳和演绎两种方式来研究。

(1) 演绎法

对一个概念的定义表达方式,一般来说,为“教育技术,是指……”;或者有专门的段落或章节来研究其定义,表现为“……教育技术……定义”

(2) 归纳法

通过对多篇教育技术相关文献的浏览,归纳出教育技术定义的形式特征。

例如,数字图书馆中有一篇文章《“教育技术”概念综述》(作者 蔡连玉 “中小学电教 2006年第2期”)这篇文章中作者对教育技术的概念进行了综述。[3]

AECT1963定义:视听传播是教育理论和实践的一个分支,它主要研究对控制学习过程的信息进行设计和使用。

AECT1970定义:教育技术可以按两种方式加以定义。在人们较为熟悉的定义中,教育技术是指产生于传播革命的媒体,这些媒体可以与教师、课本和黑板一起为教学目的服务……教育技术是由电视、电影、投影机、计算机等软件和硬件所组成。第二种定义不太为人们所熟悉,其中教育技术的定义超出了任何特定的媒体或设备。它指出教育技术是一种根据以对人类学习和传播进行的研究为基础而确定的目标,来设计、实施和评价学与教的总体过程的系统方法。

电化教育指的是“在教学过程中,使用视听教材,采用电、声、光设备,把声、色结合起来、借以直观地揭示事物的本质和内在联系,引导学生从感性认识上升到理性认识,促进学生尽快地掌握知识与技能的教学手段。”[4]

国内有代表性的教育技术界定是《教育大辞典》所做的定义:“人类在教育活动中所采用的一切技术手段的总和。包括物化形态的技术和智能形态的技术两大类。”[5]

根据学者观点中的“概念库”的形式特征(学者+观点特征匹配+观点结束标识+引注信息)[6],可形成如下学者观点库表:

表1 观点内容表

表2 观点出处之学者信息表

表3 观点出处之出版信息表

表4 观点出处之引证表

四 “学者观点”知识库的应用

1 “学者观点”知识库的主要应用是提供“观点”查询

在完成“学者观点”的抽取和存储之后,知识库就创建起来了,可以在此基础上创建一个查询系统。查询系统应该具有以下功能:

(1) 多个检索条件的组合检索。根据“学者观点”知识库的数据结构,设立学学者姓名、学者个人资料、观点发表时间、发表所在文章、发表所在位置、引证情况、观点命名信息、观点内容信息、学者观点标引结构等多个检索条件,检索条件之间可以提供各种逻辑组合功能。

(2) 关键词检索应能够提供叙词表扩展模糊检索的功能。

(3) 检索命中时应提供相关观点功能,即关于同一概念、论题的不同学者观点,以一定的相关形态显示在一起,供查询者比较使用。

(4) 观点回溯功能,具体包括同一学者观点历史回溯功能、观点原文回溯功。

2 “学者观点”知识库的其他应用是提供学科百科、引证分析等应用

在结构化的观点库中,可以就类似观点进行各种数据挖掘分析,在学科叙词表的框架下,提供学科观点百科功能,在观点关系分析框架下,提供观点引证分析功能。

五 结语

文章提出的自动创建知识库的方案还处在技术构想的阶段,许多细节的理论和技术问题还需要进一步研究,比如专家观点的特征定义即符合什么形式特征的“定义”或“概念”才能被认为是专家观点,这个问题本身就需要大量的统计研究,只有在统计学意义上得出来的特征定义才会有实践意义。数字图书馆作为一门交叉学科,它利用其它学科领域的理论和技术来应用于信息资源管理的实践。我们坚信无论对于教育技术学还是其他学科,数字图书馆关于知识管理的成果都将大大方便相关领域研究人员的工作,而这些学科不断涌现的新需求也会给数字图书馆带来新的发展机遇。

――――――――

参考文献

[1] 李向阳,苗壮等.无结构文本信息抽取综述[J].军事通信技术,2004,25(2):31-36.

[2] 刘鲁红.信息抽取技术及其在数字图书馆中的应用[J].信息技术,2005,(2):49-52.

[3] 蔡连玉.“教育技术”概念综述[J].中小学电教,2006,(2).

[4] 许勇,苟恩东等.基于互连网的术语定义获取系统[J].中文信息学报,2004,18(4):40.

上一篇:试析光技术应用于虚拟现实课堂教学的可行性 下一篇:基于关键词标注的教学论坛内容组织方法研究