基于本体的个性化信息检索研究

时间:2022-10-16 10:59:14

基于本体的个性化信息检索研究

摘要:分析传统的信息检索系统存在的不足及其原因,将本体加入到检索系统中,提出一个基于本体的个性化信息系统的设计思路和系统模型,并对该模型的主要模块进行了介绍,探讨了利用本体的领域知识和用户的本体模型实现信息检索的过程,最后对该模型进行的性能评价表明在查全率和查准率方面都有很大改善。

关键词:本体;个性化;信息检索;用户模型

中图分类号:TP311文献标识码:A文章编号:1009-3044(2009)25-7079-02

Research on Ontology-based Personalized Information Retrieval

LIU Xia, YANG Xiao-hua

(Computer Department, University of South China in Hunan Province, Hengyang 421001, China)

Abstract: Analyzing the problem that the traditional information retrieval system has some weak point, we put forward a ontology-based personalized information retrieval system design ideas and system model, and described the components of the model, introduced how to realize information retrieval with domain knowledge of ontology and user ontology profile. Finally, performance evaluation of the model shows the great improvement of the ratio of recall and precision as expected.

Key words: ontology; personalized; information retrieval; user profile

在当前网络信息与知识日益膨胀并且呈爆炸性增长的形势下,信息检索作为信息社会中人们获取信息的主要手段,越来越为人们倚重。然而目前的信息检索技术主要是基于关键字的匹配,它主要存在以下四方面的不足:

1)无法根据语义匹配,检索的结果没考虑词的语义,无法获得与关键词语义一致的其他词的检索结果;

2)无法准确获取用户意图,机器无法准确获取用户基于自然语言的检索要求;

3)无法获取隐含的知识,机器不能智能地发现系统隐含的知识;

4)无法适应用户多样化的信息需求。基于关键词的信息检索对不同知识背景的用户提供几乎无差别的检索界面、检索方式和检索结果,缺乏智能和个性。

以上几方面的因素导致传统的信息检索在查全率和查准率两项指标上难以有质的飞跃。因此,寻找新的方法使之能在web上准确高效的检索出符合用户个性化需求的信息也就成为目前研究的热点。

要提高现有检索系统的检索效率,一方面必须将信息检索从目前基于关键词层面提高到基于知识(或概念)层面,必须基于语义层面组织和表示信息,设计合理的智能信息检索系统;另一方面还需要建立表示用户个性特征并能适应用户兴趣变化的用户模型,使得在向用户提交信息检索结果时,自动过滤掉用户不感兴趣的记录,避免用户在检索结果集中继续大海捞针。

本体的出现使得信息检索技术有了新的突破。

本体作为一种能在语义和知识层次上描述信息系统的概念模型建模工具,已被广泛应用于知识工程、系统建模、信息处理、数字图书馆、自然语言理解、语义Web等领域之中。本体具有的良好的概念层次结构和对逻辑推理的支持,因而把本体融合到传统信息检索技术中,不仅可以继承传统信息检索技术的优点,还可以利用本体支持逻辑推理的特点,获取更多更准的知识,提高检索的查全率和查准率。

另外,引入本体到用户模型领域能够更好地表达用户的个性化信息,从语义层次上为用户提供个性化服务[1-3]。研究结果表明,本体作为领域概念化模型,能够明确地描述领域涉及的概念、概念的含义、概念之间的关系,为简单的术语赋予明确的背景知识,因而利于知识的共享和重用[4],并具有语义扩展和推理功能。

本文针对传统的信息检索存在的不足及原因,将本体加入到检索系统中,提出一个基于本体的个性化信息系统的设计思路和系统模型,并对该模型的主要模块进行了介绍,探讨了利用本体的领域知识和用户的本体模型实现信息检索的过程,最后对该模型进行的性能评价表明在查全率和查准率方面都有很大改善。

1 相关背景知识介绍

1.1 信息检索

信息检索(information Retrieval,IR)是从数据集中提取相关文档和信息的过程。

目前最为普遍采用的检索效果量化评价指标主要有:查全率(Recall Factor)、查准率(Pertinence Factor)、漏检率(Omission Factor)、误检率(Noise Facor)其中查全率是对所需信息被检出程度的度量,用来表示信息系统能满足用户需求的完备程度;查准率是衡量信息系统拒绝非相关信息的能力的度量,查全率的误差是漏检率;查准率的误差是误检率。查全率和查准率的数学公式分别如下:

1.2 本体

本体的概念源自于哲学领域,旨在研究客观事物存在的本质和组成。随着人工智能及其相关领域的研究发展,本体一词有了多种新的解释。

其中获得普遍认同的定义是Studer等人在1998年提出的“认为Ontology是共享概念模型的明确的形式化规范说明”。这包含4层含义[5]:概念模型(coneptualization)、明确(explicit)、形式化(formal)和共享(share)。

1)“概念模型”指通过抽象出客观世界中一些现象(phenomenon)的相关概念而得到的模型。概念模型所表现的含义独立于具体的环境状态。

2)“明确”指所使用的概念及使用这些概念的约束都有明确的定义。

3)“形式化”指本体是计算机可读的(即能被计算机处理)。

4)“共享”指本体中体现的是共同认可的知识,反映的是相关领域中公认的概念集,即本体针对的是团体而非个体的共识。

本体的目标是捕获相关领域的知识,提供对该领域知识的共同理解,确定该领域内共同认可的词汇,并从不同层次的形式化模式上给出这些词汇(术语)和词汇间相互关系的明确定义[6]。

本体在信息检索中的作用主要体现在5个方面[7]:1)检索扩展;2)信息抽取;3)自动分类;4)语义形式化表示;5)推理机制。

2 基于本体的个性化信息检索模型

2.1 设计思想

基于本体的个性化信息检索的基本设计思想可以总结如下:

1)构建本体库。 收集训练文档,在领域专家的帮助下,建立本体库。

2)建立用户本体。从所构建的领域本体库中选取一个用户研究领域的本体,以及结合用户的基本及需求信息,对领域本体进行筛选精化,投影获取本体,以此作为用户的初始个性化本体。

3)Web信息收集、组织与存储。收集信息源中的数据,并参照已建立的本体,把收集来的数据按规定的格式存储在元数据库(关系数据库、知识库等)中。

4)检索处理。对用户检索界面获取的查询请求,查询转换器按照本体把查询请求转换成规定的格式,在本体推理机的帮助下从元数据库中匹配出符合条件的数据集合;

5)查询结果集的处理。结合用户本体模型的语义扩展和本体推理,对查询结果进行过滤排序,最终以个性化的方式显示给用户。

6)通过挖掘日志文件,根据用户浏览或检索信息的日志文件构建参考本体,并将参考本体归并到个性化本体中,完成用户个性化本体的学习。具有学习功能的用户本体模型能反映用户的信息需求和兴趣偏好的变化,从而更好地提高信息检索的查全率和查准率。

2.2 主要模块

根据个性化信息检索系统的设计目标和基于本体的信息检索系统的设计思路,本文提出了基于本体的个性化信息检索系统的结构(图1)。该系统共分成了五个模块:领域本体管理模块、用户本体管理模块、信息获取模块、语义标注和抽取模块、查询模块,下面论述其功能和实现流程。

1)领域本体管理模块的作用主要是负责领域Ontology的建立、存储和进化。

2)用户本体管理模块的作用主要负责用户本体模型的建立、存储和学习更新。从所构建的本体库中选取一个用户研究领域的本体,以及结合用户的基本及需求信息,通过用户对领域本体的修剪精化,删减掉用户不感兴趣的信息,得到一个用户视图的本体,即为用户的个性化本体。通过挖掘日志文件,根据用户浏览或检索信息的日志文件构建参考本体,并将参考本体归并到用户的个性化本体中,完成用户个性化本体的本体学习,并实现用户模型的学习更新。

3)信息获取模块的作用是从Web上获取信息文件存储在网络资源文件Cache库中,以备进一步的处理。

4)语义标注和抽取模块的作用是将信息获取模块抓取的Web文档进行加工处理,把用HTML、XML描述的无结构、半结构的数据进行标注,然后抽取其中的元数据并进行语义编码,最后存放在语义元数据库中。

5)查询模块的作用是接受用户的查询请求,参照建立的本体,对用户的查询请求进行语义映射和语义扩展,实现信息的查询,获得初步查询结果后,再结合用户本体提供的个性化信息,并在本体推理机的帮助下,对查询结果进行二次过滤排序,最终以个性化的方式显示给用户。

3 系统评价

该模型通过领域本体库和用户个性化本体的支持解决了信息检索中的以下问题:

1)查全率。由于领域本体的引入,增加了概念的同义词、概念的上下位关系以及概念的多义性等描述,系统可根据用户提出的检索词推理出一组相关或相近的词,共同组成扩充后的查询条件。例如用户查询“电脑”的相关知识时,有关“计算机”、“微机”和“PC机”的知识也会被检索出来,这样就提高了查全率。

2)查准率。基于领域本体的用户模型将会大大改善传统用户模型的语义信息不足的缺陷,在向用户提供检索结果时能结合用户模型,对检索到的结果进行过滤排序,提供符合用户个性化需求的检索结果。例如一个计算机相关领域的用户查询“agent”的相关知识时,会将检索到的与计算机专业无关的“agent”(如:房产经纪人、人等)过滤掉,这样就提高了查准率。

4 总结

本文提出了一个基于本体的个性化信息检索系统模型。文章首先分析传统的信息检索存在的不足及其原因,然后介绍了本体的概念及其在信息检索领域的作用,在此基础上提出了基于本体的个性化信息检索系统的设计思路和系统模型,并对该模型的主要模块进行了说明,最后对模型进行了性能评价。

该模型由于本体的引入,能通过概念之间的关系来表达概念语义的能力,所以能够有效地提高信息检索的查全率和查准率。

参考文献:

[1] Gaueh S,Chaffee J,Pretsehner A.Ontology-Based Personalized Search Browsing[C].Web Intelligence and Agent system,2003:219-234.

[2] Pretsehner A.Ontology Based Personalized Search[D].Lawrenee,KS:The University of Kansas,1999.

[3] 李勇.智能检索中基于本体的个性化用户建模技术及应用[D].国防科技大学,2002.

[4] 李勇,徐振宁,张维.Intemet个性化信息服务研究综述[J].计算机工程与应用,2002,38(19):183-188.

[5] Studer R,Benjamins V R,Fensel D.Knowledge Engineering Principles and Methods[J].Data and Knowledge Engineering,1998,25(122):161-197.

[6] 李善平,尹奇.本体论研究综述[J].计算机研究与发展,2004,41(7):1048.

[7] 吴丹.本体在信息检索中的作用及实例研究[J].情报杂志,2006(6):1.

上一篇:虚拟现实探究 下一篇:题库系统中试卷生成算法的改进