基于叙词表的知识单元检索系统设计

时间:2022-07-29 06:04:49

基于叙词表的知识单元检索系统设计

摘要 通过调查总结叙词表在文献数据库中的应用现状,在此基础上设计一个基于叙词表的文献数据库知识单元检索系统。该系统首先将数据库中的文献分解为知识单元,检索时用叙词表中的正式叙词对用户输入的检索词进行规范化处理,并将该正式叙词作为中心词,利用叙词表中的词间关系查找出该词的等同词、上下位词和相关词作为扩展检索词,对知识单元进行加权检索,按权值之和以及检索词的密集程度排序输出。经实例分析,具有可行性。

关键词 词间关系 加权检索 叙词表 知识单元

分类号 G350

叙词表从出现至今,经过长期的发展和完善,已在传统文献标引和检索中取得巨大成功,正在向网络应用发展。但不管是传统文献检索还是网络文献检索,系统为用户提供的都是整篇文献,而非直接反映需求的知识单元。知识单元是随着知识服务发展起来的,旨在直接为用户提供有用的知识点,而非文献单元或信息单元。王子舟将“知识单元”定义为“客观知识系统中有实际意义的基本单位”;文庭孝认为“知识单元是指在知识管理中可以对关联知识进行独立、自由、有效识别、处理与组织的基本单元”。本文设计了一种利用叙词表检索文献数据库中知识单元的方法,进而探索叙词表在文献数据库知识服务中的应用方式和前景。

1 叙词表在文献数据库中的应用现状

叙词表提供了比较规范和全面的检索词体系,对多义词和同义词进行了控制,从而保证了信息检索的检全率和检准率。在标引过程中,可依据叙词表通过人工或自动化方法确定文献的叙词描述,形成叙词字段,从而更加准确、规范、全面地描述文献主题。检索过程中,可利用叙词表中的正式叙词对用户检索词进行规范化控制,还可以利用词表中的词间关系实现一定程度的扩检和缩检。

国外基于叙词表词间关系的信息检索研究早在20世纪90年代初就已出现。Fowler R H等曾提出在一个统一的可视化界面上整合用户提问、叙词表和文献信息。他们认为叙词表中的相关关系网络和文献间相互关系可对检索目的起到辅助作用。Voorhees EM也曾对叙词表词间关系在检索扩展中所起的效果进行实证研究主要利用WordNet中的词间关系对文献进行基于词义的自动标引,在此基础上,分别对两种标引结果进行基于向量空间模型的检索实验。但实验结果表明,与词形匹配效果相比,这种基于词间关系扩展的查询语句并没有明显改善检索效果。NieJianyun和Brisebois M则认为,向量空间模型并不适用于这种类型的检索式扩展,它将使扩展检索式的质量很大程度上依赖叙词表关系的结构;而且WordNet是一个非专业词表,它的词间关系设置不严格,领域范畴也不规范,因此将WordNet用作叙词表不具有代表性。

与网页信息更新速度快、类型复杂、质量参差不齐等特点相比,文献数据库中的文献更符合叙词表规范化控制、学科设置严格的特点,因此近年来叙词表在检索系统中的应用更多地体现在文献数据库中,例如:英国国家数字档案馆NDAD,ERIC数据库,MeSHDatabase,ISI Web of Knowledge的INSPEC,Engi-neering Village等国外文献数据库。在目前的应用中,叙词表主要用于帮助用户选择适当的正式叙词作为检索词,个别数据库为用户提供的叙词字段,在一定程度上保证了检全率和检准率。以ERIC数据库为例,输入检索词“Agricuhure”,分别利用关键词(Key-words)、题名(Title)、叙词(Descriptors from Thesaurus)进行检索,得到的结果如表1所示:

由此可见,使用叙词检索可以获得比关键词检索更加准确、比题名检索更加全面的检索结果。

但在实际应用中,叙词字段的建立还不能由计算机自动完成,需要大量标引人员的参与,费时费力,人工建立叙词描述的方法并不可取。另外,文献数据库展示给用户的检索结果大多是以整篇文献为单位的著录信息,如题名、摘要、关键字、作者等,属于文献单元’层次,没有深入到文献的知识层次,即知识单元,用户往往需要阅读完整篇文献后才能确定其是否有用。为了同时满足检索需求和效率,文献数据库的检索结果应该是能直接解决用户问题的知识单元,而这些知识单元又应该以叙词表为依托,才能保证其准确性。

2 系统总体设计

本文结合叙词表、文献数据库的特点以及用户需求,利用叙词表中规范的词间关系,设计了一个数据库中知识单元的叙词加权检索系统,该系统的总体结构如图1所示:

本系统主要分数据加工、规范化和检索三部分:

2,1数据加工

将文献转换为文本格式,便于进行切分处理。本系统将以自然段落作为知识单元的粒度,因此要将文献切分为以段落为单位的片段,并对其进行切分词处理,存入数据库中形成知识单元集合,以供检索。

2,2规范化

用户输入检索词K,系统根据叙词表判断K是否为正式叙词。若不是正式叙词,则查询叙词表为用户列出与K部分一致的正式叙词,由用户选出最符合其检索需求的叙词作为新检索词K’。

2,3检索

叙词表中词问关系设置既简单又严格,能方便地进行获取和利用,而网络叙词表电子化的存储方式更增强了其可用性。可以将网络叙词表看作一个网状结构,通过对该网状结构的遍历,获得以K’为中心的等同词u(use)、上位词BT(broader term)、下位词NT(narrower term)和相关词RT(related term)。考虑到检索时的效率,仅考虑与K’直接相关的词和直接上下位词,不考虑间接关系。

本系统采用了加权技术的思想,对根据不同词间关系所获取的多个扩展检索词进行赋权。在叙词表提供的3种词间关系中,用代关系所连接的叙词表达的概念含义是最接近的,属分关系次之,而参照关系所连接的叙词所表达的含义差异最大。因此,笔者认为等同词与中心词具有相同的重要程度,权值最大;上下位词次之,且下位词比上位词重要;相关词重要程度最低,权值最小。为每个词赋予权值后,即可利用它们与数据库中预处理后的知识单元进行匹配,并计算权值之和。

3

系统关键步骤分析讨论

3,1

建立知识单元集合

为了在数据库中实现知识服务,本系统的检索结果为用户提供的不是整篇文献,而是文献中含有叙词和词问关系的文献单元,这里称为知识单元。这种知识单元类似于Google学术搜索结果中的文摘片段,但因为有叙词表作为依托而有所区别,它更倾向于直接为用户提供处理过的有用知识。

根据本文的设计,检索结果将以知识单元的形式输出给用户,知识单元中含有检索词及扩展检索词。在知识单元中应用加权检索的思想,必须确定知识单元的单位,在一篇文献中,知识单元可以是句子,也可以是段落。笔者认为,以句子作为单位不合理,原因如

下:①一篇文献中旬子的数目远远超过段落,会制约切分和检索速度;②每进行一次检索都将有多个检索词和扩展检索词,它们一般分散在多个句子中,某几个词出现在同一个句子中的概率极低,在这种情况下,应用加权检索并按权值排序就失去了意义。当然,以段落为单位也存在缺点,因为段落涵盖的内容较多,每个段落与文章主题必定相关,最后的检索结果可能使某文献的每个段落都被命中,只是权值和排序有所差异而已。综合上述讨论结果,本文选择以段落作为知识单元的粒度,因此,在构建知识单元集合时,要对文本格式的文献切分段落,形成原始的知识单元集合。

3,2检索词规范化

为了保证检索的准确性和有效性,检索词必须是规范的,因此,要对用户输入的检索词进行规范化处理,检验该检索词是否为叙词表中的正式叙词。若不是,则应以该检索词为关键词查找叙词表,找出与其部分一致的正式叙词,由用户从中挑选出最符合其检索需求的词作为新的检索词。

在这个过程中可能出现以下几种情况:①用户输入的检索词为正式叙词,则无需规范化处理;②用户输入的检索词可能是正式叙词的一部分,则进行部分一致字面匹配即可获得与之相关的正式叙词,再由用户做出选择;③用户输入的检索词为叙词表中收录的非正式叙词,则直接查找叙词表的用代关系即可获得与之相对应的正式叙词;④检索词有可能是超出叙词表收录范围的不规范词,此时既不能通过关系查找,也不能进行字面匹配,属于比较复杂的情况。解决方法可以采用建立大规模基础词库,大量收录叙词表外不规范的词、词组等作为入口词,并建立与叙词表正式叙词之间的映射,从而实现不规则词与正式叙词的转换。

3,3获取词间关系

叙词表中设置规范、严格的词问关系是实现扩检和缩扩并保证检准率的基础。网络叙词表虽然是以文本形式存储在OWL等类型的文件中,但它的逻辑结构是一个由用、代、属、分、参关系相互交叉形成的庞大网状结构。若以其中一个叙词为中心,利用图的遍历算法,就可以方便地获得与该中心词直接或间接相连的多个词,包括等同词、上下位词以及相关词。这些词都与中心词有着密切的联系,利用它们可以检索出更多与用户检索目的相关的结果,同时也保证了检索的准确性。

考虑到信息检索的准确性和效率,本设计只获取与中心词直接相连的词,即直接关系。如果继续获取与中心词有二级间接关系的词,扩展检索词的数量就会大大增加,势必会扩大检索范围,虽然在一定程度上增加了检全率,但却使检准率得不到保证,也会大大降低检索速度。

3,4叙词加权检索

加权检索是信息检索系统中的一种定量检索技术,词加权即是指用量化的方法来度量和表示某个词语在特定文献中的重要程度和相关性。因为对于用户而言,不是每个检索词都同等重要,它们的检索意义往往有所差异。加权检索的基本思想是:为每个检索词赋予一个数值用于表示该词的重要程度,即权重。检索时不仅要对这些检索词进行匹配,还要计算每个检索结果的权值之和,它是一种能提高检准率的信息检索技术。

本系统将根据关系的不同为扩展检索词赋予不同的权值。我们认为:等同词与中心词K’具有同等的重要程度,权值应相同,均为W1;下位词可以检索到比原检索范围更细化的信息,权值为W2;通过上位词能检索到比原检索范围更广泛的相关信息,重要程度不及下位词,权值为W3;相关词与K’之间仅存在同现、联想等弱关系,重要程度最低,权值为W4。则有:W1>W2>W3>W4,W1+W1+W2+W3+W4=1。

为了加快检索速度,本文暂不考虑检索词在知识单元中出现的次数,从而简化权值计算过程。以相关词RT为例,权值的具体计算过程如下:相关词权重为W4,设某检索词K’有n个相关词RT1、RT2、……、RTn,知识单元Di中出现了其中的m个词(0≤m≤n),则D,的相关词检索权值D,RTW为:

DiRTW=w4×(m/n) (0≤DiRTW≤W4)

同理,Di的检索词、等同词、上下位词检索权值分别为:DiKW,DiUW,DiBTW,DiNTW,相加即得Di总权值wi:

Wi=DiKW+DiUW+DiBTW+DiNTW+DiRTW(0

最后,将总权值超过预定阈值Y(O

4 实例分析

虽然该系统设计的可行性和有效性目前还不能确定,须在后续研究中用实践进行验证。但可通过一个具体实例从理论上对其进行分析,本文以《农业科学叙词表》中一个款目词为例说明。款目词“玉米”在词表中的记录如表2所示:

在维普中文科技期刊数据库的文摘字段中检索“玉米”,检索结果为60007条,其中一部分结果与“玉米”这一主题不太相关或完全不相关,如表3所示。

按本文设计的检索思路,可将文摘切分为以自然段落为单位的知识单元,通过切分词、术语提取等过程抽取出其中的叙词,形成倒排文档,再利用“玉米”及其代、属、分、参项对检索式进行加权扩展,就能将上述不太相关或不相关的记录排在检索结果的最后,而把出现相关叙词数量最多,即与检索目的最相关的记录排在最前面,如表4所示:

5 结语

基于叙词表的知识单元检索可以直接为用户提供所需的知识点,而且在叙词表为依托的环境下,这些知识单元具有更高的可靠性和有效性。本文所设计的系统利用叙词表词间关系对检索词进行扩展,对知识单元进行加工和检索,是为叙词表和知识服务有效融合所做出的尝试。在后续研究中,将通过大规模数据,在系统平台上进行进一步实验,探索更多的改进方法。

上一篇:知识链接理论与实践的三次嬗变探究 下一篇:数字内容产业发展研究