基于本体的查询扩展研究

2019-07-06 版权声明 举报文章

摘要:查询扩展是优化信息检索的一种有效方法。基于关键词的查询扩展对语义信息的忽略为结果带来了不好的影响,因而提出一种基于本体的查询扩展方法。首先建立本体模型,通过计算本体中的概念语义相似度和实例语义相似度,实现语义查询扩展。

关键词:查询扩展;本体;语义相似度

中图分类号:TP391文献标识码:A 文章编号:1009-3044(2010)05-1025-02

The Study of Ontology-Based Query Expansion

HU Zhe1, ZHU Qiang2

(1. School of Sciences of Anhui Agricultural University, Hefei 230036,China; 2.Department of Computer of Hefei Normal University, Hefei 230061,China)

Abstract: Query Expansion is an effective way to optimize information retrieval. Query expansion based on key words results in a bad effect because of losing sight of the semantic information. Therefore a query expansion method based on ontology is proposed. Firstly, an ontology model is built. Then, semantic query expansion is carried out, through computing the concept semantic similarity and entity semantic similarity based on ontology.

Key words: query expansion; ontology; semantic similarity

目前,许多信息检索系统仍采用传统的关键词匹配技术,查准率和查全率并不理想。针对这种情况,早在1986年Van Rijsbergen[1-2]提出须先对原有查询词进行扩展后再进行检索,这就是“查询扩展”。语义查询扩展是向原有用户的查询添加语义相关的新概念,使查询条件更准确从而达到优化信息检索的目的。最早在1994年Voorhees就曾提出基于本体的查询扩展[3],即使用本体中的概念进行查询扩展。

1 研究背景

查询扩展的方法有很多[4-5],例如人工查询扩展:人工挑选与原始查询词相关的其他特征词,手工建立词表;自动查询扩展:利用根据某些规则自动化建立的扩展词表,自动对查询进行扩展。

查询扩展其核心问题是如何设计和利用扩展词的来源[1,6]。目前按照其扩展词来源的不同主要有以下几种方法:基于全局分析的查询扩展、基于局部分析的查询扩展、基于关联规则的查询扩展和基于用户查询日志的查询扩展、基于词典的查询扩展方法等。

全局分析法是最早产生的查询扩展方法[6-7]。它需要对整个文献集中的词进行相关分析,计算每对词之间的关联程度。接受到用户检索词后,将与检索词相关度最高的词扩展进来。全局分析法的优点是可以最大限度地探求词间的关系,但是系统计算量很大,只能适用小范围内的文献检索。

局部分析法[8]:利用原始查询检索结果来扩展原始查询。局部分析法认为初次检索结果是可以作为扩展源的,它实现了自动化过程,但因对初次检索的依赖性很强,也有局限性。当初次检索结果与原始查询相关度不高时,会扩展大量无关的词,严重降低查准率。

基于关联规则的查询扩展效果依赖于数据挖掘技术。基于用户查询日志的查询扩展,依赖于大量用户查询日志的存在,需要有一个积累的过程。

以上传统的基于关键词的查询扩展技术,存在难以克服的缺陷,主要是由于忽略了语义层面上的扩展,不能从根本上实现用户查询意图与检索资源之间的语义匹配。

基于词典的查询扩展是利用现有词典[7],在词典中定位原始查询词,将与原始查询词语义相似度高的词扩展进来。近年来,基于本体的语义查询扩展技术成为研究热点。本体因其可以明确地、形式化地表达概念的含义以及概念之间的语义关系,成为提供语义信息的“语义词典”。借助于本体的语义信息及语义推理机制可实现对用户查询的语义层次扩展,更好地获得用户查询意图,进而提高检索质量。

2 本体及语义相似度计算模型

语义相似度计算模型是语义查询扩展的核心部分。它建立在领域本体之上,一个好的相似度计算模型应当在尽量简单的基础上,力图更细致的衡量概念、实例、属性之间的语义相似度。在本文提出的查询扩展模型中,主要用到概念相似度计算模型和实例相似度计算模型。

概念之间的语义相似度计算,我们采用前期工作中提出的算法[9]。算法中,以基于距离的计算模型为基础,从有向边类型、强度、方向三个因素衡量有向边的权重。在相似度计算中,考虑了有向边权重、两概念在本体中的深度、密度。在相关度计算中,考虑直接相关度:直接连接两概念的关系;间接相关度:非直接连接的属性。通过相似度、相关度综合衡量两概念的相似程度。该算法经过试验验证能够细致的衡量概念之间的语义相似度,进行有效扩展。

值得注意的是,在用户的查询中不仅包括概念还可能包括实例、属性等。在大多数的论文中,实例一般转换为所属概念,然后参与概念语义扩展。显然,这是粗糙的。实例转换为所属概念是显然的,但是另一方面,实例应由实例相似度计算模型来进行扩展,本文采用 SSCM:一种实例语义相似度计算方法[10],该方法综合考虑了实例多重继承关系、属性及属性值的层次关系,根据实例所处本体知识库中的位置和继承关系得到实例继承关系相似度,分别由实例属性之间的相似关系和实例属性值之间的相似关系,得到实例属性相似度和实例属性值相似度,将三者综合得到实例相似度值。该方法细致有效,可以利用它对用户输入的实例进行扩展。

3 查询扩展模型

3.1 查询扩展预处理用户的输入

可以有多种情况存在,但大致上遵循几种主要的方式[6]。

1) 单个关键词:用户输入单个关键词作为查询条件。

2) 多个关键词组合查询:用户输入多个关键词组合作为查询条件。

以上两种用户输入,可以是本体中所定义的概念、关系、实例或者是其他词语,对于这些查询需要先将用户的输入映射至领域本体中,在此可以使用《语义查询扩展中词语-概念相关度的计算》一文中提出的算法[11],分为两大步,第一步使用K2CM计算用户输入词语和本体中概念的相关度,第二步再计算用户查询整体和概念的相关度。第一步中首先要对文档进行本体标注,再从词语-文档-概念所属关系和有效窗口的局部共现性两方面综合衡量词语-概念相关度。两方面分别基于若干直觉假设,给出词语-概念所属程度权值和词语-概念共现程度权值,二者直接相乘得到词语-概念相关度。第二步中,根据词语-概念相关度计算查询整体和概念的语义相关程度,即查询-概念相关程度。将查询-概念相关度最高的n个选作为扩展概念。原文中将此方法的结果作为查询扩展的最后结果,但在将用户输入映射至本体概念时,并未利用本体结构中蕴含的语义信息,所以还应该可以利用本体相似度计算进行进一步扩展,故本文将此方法作为预处理阶段的算法,用于完成用户输入到本体概念的映射。

3) 自然语言查询模式:对于这种用户查询模式,首先使用分词、切词技术对用户查询进行处理,生成词组。这样就可以转化为上面两种情况。经过以上处理,用户输入可以映射为本体中的概念、实例、属性,则利用语义连接算法获得核心概念和实例集合[12]。对核心概念提取方法做如下修改:

1) {s,p,o}:s,o若为概念则选为核心概念;

2) {s,*,o}:s,o若为概念则选为核心概念;

3) {*,*,o}:如果o为概念,则选为核心概念。否则,查找o所属概念,作为核心概念;

4) {s,p,*}:s若为概念则选为核心概念。如果存在o'使得(s,p,o')属于本体,则,若o'为实例将它并入用户输入的实例集合,否则若o'为概念,则选作核心概念;

5) {*,p,o}:如果o为概念,选择o为核心概念。如果本体中存在s',使得(s',p,o)属于本体,则,若s'为实例并入用户输入的实例集合,否则若s'为概念选为核心概念。

3.2 查询扩展算法

基于本体的语义查询扩展算法,首要是建立一个强大的本体,选用合适算法充分利用本体中的语义信息,从而达到对用户查询进行语义层面上的扩展。具体的查询扩展算法描述如下:

1)如果用户输入均可直接映射为本体中的概念、实例、属性转3,否则转2:

2)对于不能直接映射的部分,利用K2CM算法及查询-概念相关度算法,将用户输入映射至本体概念。

3)利用修改的语义连接算法,对概念、实例、属性进行处理,提取核心概念,实例集合。

4)对核心概念,利用概念语义相似度算法进行扩展,得到带权的扩展概念集合。

5)利用SSCM算法处理实例集合,得到带权的扩展实例集合。

扩展概念集合、扩展实例集合,就构成了最终的查询扩展结果。

4 结论

本文首先着重分析了SSCM、K2CM、查询-概念相关度算法的特点,根据分析将它们应用至语义查询的不同阶段,依托于前期工作中提出的语义相似度计算模型作为核心,提出了一种基于本体的语义查询扩展方法。

该方法首先需要建立一个优秀的本体,为本体中概念之间的关系分配相应的权重。权重的分配需考虑具体信息检索系统的应用目标和专家意见,这些是语义相似度计算的基础和核心。然后,建立文档集及用本体对其进行标注为K2CM算法打下基础。考虑可能的用户输入方式,针对不同的情况应用合适的算法,以达到全面而细致的语义扩展。

最后,在提出此查询扩展方法之后,下一步的工作,是要建立一个实验系统,对此方法的有效性进行验证。

参考文献:

[1] 林国俊,叶飞跃,耿冬,郑国良.基于语义的概念查询扩展[J].计算机工程与设计,2009,30(6):1502-1504.

[2] 杨学兵,钱蓉.语义检索系统中的查询语句扩展算法改进[J].计算机技术与发展,2008,18(l2):1-7.

[3] E. Voorhees. Query expansion using lexical-semantic relations[C]. Ireland, In Proceedings of the 17th annual international ACM SIGIR conference on Research and development in information retrieval Dublin,1994, page 61-69.

[4] 王秀娟,郑康锋.基于文档空间向量距离的查询扩展[J].计算机工程,2009,35(l8):54-56.

[5] 熊桂喜,王开锋.基于语义的查询扩展研究[J].微计算机信息,2008,24,(10-3):177-178.

[6] 刘爱军.基于领域本体的语义信息检索及相关技术研究[D].西安:西北大学,2008.

[7] 任雨.基于本体的信息检索研究[D].南京:南京理工大学,2009.

[8] 蒋辉,阳小华.基于文档与搜索结果上下文的查询扩展方法[J].计算机应用,2009,29(3):852-853

[9] Cheng Zheng, Zhe Hu,Yaping Shen. Concept Similarity Computation Based on Ontology [C].Baoding: Proceedings of the Eighth International Conference on Machine Learning and Cybernetics (IEEE),2009.165-169.

[10] 梅翔, 孟祥武, 陈俊亮, 徐萌SSCM:一种语义相似度计算方法[J].高技术通讯,2007,17(5):458-463.

[11] 田萱,杜小勇,李海华.语义查询扩展中词语-概念相关度的计算[J].软件学报,2008,19(8):2043-2053.

[12] 胡哲,郑诚,王艳玲.语义检索关键技术研究[J].计算机技术与发展,2008,18(10).

注:本文为网友上传,不代表本站观点,与本站立场无关。举报文章

0

好文章需要你的鼓励

上一篇:高职院校计算机网络实训教学探讨 下一篇:基于时间窗口的蠕虫事件量化技术研究

你需要文秘服务吗?

提供一对一文秘服务,获得独家原创范文

了解详情
期刊发表服务,轻松见刊

提供论文发表指导服务,1~3月即可见刊

了解详情

被举报文档标题:基于本体的查询扩展研究

被举报文档地址:

https://wenmi.com/article/pu7rpv04iuw0.html
我确定以上信息无误

举报类型:

非法(文档涉及政治、宗教、色情或其他违反国家法律法规的内容)

侵权

其他

验证码:

点击换图

举报理由:
   (必填)

发表评论  快捷匿名评论,或 登录 后评论
评论