基于本体的语义搜索研究综述

时间:2022-08-12 12:35:33

基于本体的语义搜索研究综述

摘要:基于本体的语义搜索将Web搜索带入一个新时代。它使我们能够在浩瀚的网页中更加快速准确地找到想要的信息。本体具有明确的概念描述,基于本体的搜索能够评测关键词之间的语义差异,从而在文档或者查询中找到更准确的结果。因为所选本体的不同,基于本体的语义搜索方法也会不同。该文总结了多种不同的研究方法,并根据搜索相关技术的分类标准进行了比较。最后通过这些比较,找到今后进一步研究的方向。

关键词:本体;语义搜索;概念;关键词

中图分类号:TP311 文献标识码:A 文章编号:1009-3044(2015)02-0153-03

1 引言

语义网的目标是扩展现有的Web标准和技术,实现自动化地处理Web语义[1]。传统的搜索引擎使用关键词检索用户需要的信息,实际上在网页搜索过程中,可以使用多种方式来表达查询,将关键词映射要相关主题的语义层。在搜索过程中使用本体能够加强用户与计算机之间的语义沟通,使查询结果更接近用户的需求。

目前已经公布的基于本体的搜索引擎有很多。它们的应用领域和具体实现都有所不同,但是它们的目标都是提高搜索的查全率和查准率。基于本体的语义搜索能更加智能地在Web查询过程中使用各种方法或结构。研究人员常用领域本体表达特定领域知识的概念和关系。本文将介绍这些搜索引擎利用领域本体处理查询请求所采用的不同方法。

1)相关术语

传统的搜索依据的是关键词是否在文档中出现。基于本体的语义搜索定义为利用领域本体的背景知识库进行信息检索的过程。

领域本体是具有层次结构的术语集,这些术语是描述此领域知识库的框架[2]。用实体、实例和属性来表示词语之间的关系或槽。基于本体的语义搜索的目的是最大化查准率和查全率。

2 分类标准

本节介绍几种不同的基于本体的搜索的分类标准。分类标准是在搜索过程中的重要步骤,包括:本体技术,语义标注,索引,排序,信息检索模型(IR模型)和性能改进。

1)本体技术

本体是实现语义Web的基础,相关技术包括推理机,标注工具,基于本体的爬虫(2014届国际智能计算的应用会议中提出)和挖掘工具。在几种不同的本体描述语言里,RDF和OWL得了广泛的认可。Java语言提供了Jena API和AJAX技术,可以用来存储和处理RDF数据。

2)语义标注

概括地说,语义标注是在文本中分配实体,用以链接到它们的语义描述[15]。语义标注分为手动语义标注、半自动语义标注和自动语义标注三种类型。下面是语义标注的先决条件:

(1)本体,定义实体类;语义标注中可能涉及到这些类。

(2)实体标识,允许区分并链接到它们的语义描述。

(3)一个实体描述的知识库。

3)索引

索引是为了更快的检索信息而进行的信息存储。一个搜索引擎必须保留在抓取过程中获得的所有内容,并以索引的形式存储,以便下次更容易地查找。索引的目的是为了加快匹配过程。索引的分类:

(1)转发索引:存储每个文档的单词列表。

(2)倒排索引:为每个单词存储所有文档的列表。

(3)图索引:给定一个查询图,查找索引并检索答案集,验证哪些图包含查询图,返回查询结果。

4)排名

排名取决于查询结果的排序过程。搜索引擎会请求匹配和并为查询结果进行排名。匹配是选择元素的子集进行评分。排名是由相关概念的相似度决定的。排名是在句法/语义映射完成后,依据网页的评分进行计算得来的。最后将已经排序好的网页结果进行索引之后返回给网页的使用者。排名模型的类型如下:

(1)句法排序模型:是依据查询关键词与搜索引擎数据库相匹配而进行的搜索,从TF-IDF到谷歌PageRank,这些著名的信息检索排名技术丰富了这种搜索的排名方法。

(2)语义排序模型:搜索是基于结果的相关性,缩小了语法和语义之间的差距,根据相关性得到的结果集,可以更好的满足用户的需求。

5)信息检索模型(IR模型)

IR模型的作用是提供一个形式化的信息发现过程。下面是3种IR模型:

(1)布尔模型C一方面是基于关键词的查询,另一方面用关键词的组合表示一个文档,用关键词的逻辑描述表示一个查询

(2)矢量模型C表示用户查询和文档中的所有关键词形成的空间矢量。

(3) 概率模型C采用基于概率理论的数学模型。

6)性能改进

基于本体的语义搜索方法的性能可以用一定的标准来衡量,如查准率,查全率,F值和平均查准率。查准率和查全率的值介于0和1之间,最大值为1。应用本体的背景知识库进行查询,可以使查准率和查全率得到提升。

3 不同的搜索方法

经过大量文献的阅读,本文总结了14种不同的基于本体的搜索方法。依据上述分类标准进行详细分析,讨论它们实现语义查询的不同解决方案。

1)概念图匹配方法

基于本体的搜索早期的方法是使用概念图匹配的方法进行语义搜索[3],这种方法定义了概念、关系和概念图之间的语义相似度。这种语义匹配算法能够计算资源CG(概念图)和查询CG之间的相似度。

2)XSEarch

它是一种基于XML的语义搜索引擎,能够使用简单的查询语言,适合于初级用户,并且为XML文档的语义搜索引擎发展奠定了基础。它只返回语义标识,而不需要返回整个文档[4]。它使用目前较为常用的TF-IDF技术进行信息检索,计算查询词与文档之间的相似度。它使用倒排索引,并根据语义相关性进行排序。

3)本体驱动的语义搜索

基于本体的语义搜索,使用现有的平台进行资源检索和语义标注,使用本体描述领域知识库,并在知识库中进行查询[5]。它还具有额外的功能,如使用本体导航进行推理,从而在查询中获取更多的有意义的资源。在这里,文档使用RDF三元组进行语义标注,RDF三元组能够表示资源和本体概念结点之间的联系。

4)基于本体的信息检索中向量空间模型的适用性

这种方法包含一个基于本体的用于文档半自动语义标注的模型和一个检索系统[6]。在文档中,通过多个领域本体的概念描述,创建了知识库,并关联到相关的信息资源或文档。KIM是一个语义信息扩展和检索的平台[17],在这个平台上创建了KB系统,能够对文档进行自动化的语义标注。索引和排序是通过标注权重并使用向量空间模型的信息检索方法来实现。

5)基于本体的用户配置文件的学习:基于语义的个性化web搜索方法

该方法提出了一种基于本体配置文件的个性化搜索,本体配置文件给领域本体中的概念指派隐含的兴趣得分[7]。该方法提出一个可扩展的激活算法,根据用户当前的行为在用户的配置文件中更改兴趣得分。领域本体中的每一个概念都根据这一兴趣得分而进行标注。通过所有子概念的文档索引来建立概念的文档索引。

6)SPARK:采用关键词查询的语义检索

这是一种新方法,首先使用合适的关键词查询语义Web,然后将关键字查询自动转换为形式逻辑查询,最终使用户可以使用关键词进行语义搜索[8]。概率查询排序模型使用基于最小生成树方法的SPARQL查询算法,最小生成树方法可以为查询集合创建查询图。

7)使用本体对关键词进行解释的语义查询

此方法使用本体的背景知识库将关键词查询转化成描述逻辑关联查询[9]。用户输入的关键词使用Lucene搜索引擎进行处理。搜索引擎进行查询处理后返回本体实体,并考虑半径为d的范围内的本体实体。它将与实体连接的子图可视化地返回给用户,并高亮显示实体匹配了的关键词。

8)Q2semantic:具有轻量级关键词接口的语义搜索

这种方法类似于SPARK方法和使用本体对关键词解释的语义搜索方法,但它解决了可扩展性问题,提出了一种新的聚类图的结构对应于原始本体的概要[10]。它的查询结果排序采用多种机制,比如查询长度、与查询相关的本体元素相关性和本体元素重要性。索引采用的是倒排索引和查询索引。排序是基于本体元素(是概念,而不是关系和属性)的关键词匹配。

9)对传统的信息检索和基于本体搜索模型进行交叉比较的TREC方法

Fernandez等人比较了传统的信息检索模型和基于本体的搜索模型,使用的标准包括:

(1)一个文本文档集

(2)查询集和相应文档相关性的判断集。

(3)本体集和覆盖查询主题的知识库。

文档集和查询集、判断集是信息检索论坛和TREC(文本检索会议)网站中使用最广泛的数据集[11]。作为一个应用案例,它所应用的标准是基于本体的搜索模型和TREC 9、TREC 2001中最好的信息检索系统。它使用RDF、OWL和DAML构建本体,在背景知识库中进行自动化语义标注。

10)提高元数据库的数据发现机率的语义搜索

带Metacat元数据系统的语义搜索系统能够存储OWL-DL本体,另外语义标注是将数据集属性链接到本体元素中[12]。它是允许使用本体进行语义标注的关键词搜索。本体进行形式推理,更方便地通过科学的观察进行语义描述。

11)电子病历的语义搜索和推理:基于概念的信息检索方法

这种方法处理了概念之间的语义差异问题,利用了SNOMED-CT本体的医学领域知识库,提高了查询的准确度[13]。根据基于SNOMED-CT本体而定义的医学概念,将查询词和文档进行转化。将超过平均精度基线25%的关键词进行倒排索引和语义相关度排名。

12)基于本体的WEB查询结果的语义排序方法

这是一个新的基于语义的方法,提供了信息检索系统的评价方法[14]。我们的目标是增加搜索工具的选择性和改善这些评价和证明,它是提高搜索引擎的性能和返回结果的相关性的有效途径。WordNet本体用于提取查询术语和语义预测,并基于由概念(非单词)组成的语义向量构建向量模型。

13)使用RDF为同一类产品设计一个基于领域本体的特定网页搜索引擎

这种方法使用一种新的搜索模型,可以存储特定领域中的特定网页的RDF信息,提供更完整、全面的信息输出,搜索引擎可以从搜索结果页面中得到产品的基本信息,而不需要访问搜索结果链接,从而节省搜索时间以及网页的下载的时间[15]。这个模型通过本体概念的语法和权重计算下载页面的相关度,根据相关度大小为查询结果排序。

14)OntDR:一个扩充的基于本体的文档检索方法

这种方法提出了基于本体的文档检索的扩充方法,这种本体带有数组索引 [16]。数组索引有助于获得文档之间的关系。数组索引通过本体定义的概念所产生的值和文档进行比较而得到。

4 评价

按照分类标准比较文中所选的基于本体的搜索方法,并进一步讨论未来的研究方向。本文所得的结论对于文中没有提到的其他方法也是有效的。

1)比较

本文大多数方法都使用了RDF和DL联合查询的本体技术。这些方法都使用RDF进行半自动或者自动的语义标注。语义标注如果是正确的,它将会成为语义信息检索最有效的一种方式。同时本文所选的搜索方法都提升了查全率和查准率。

索引的评价标准能够判断出某种方法是否利用了合适的索引技术和排序技术,并会判断检索过程是否会更快更容易。很多方法都是用的倒排索引。本文中绝大多数搜索使用的是基于相似度计算的语法级排序。

信息检索方法绝大多数的方法是使用传统的TF-IDF方法,这与排序标准相互依存。如果信息检索是基于关键词相关性的查询,那么它就会减小语法和语义之间的差距。布尔模型和概率模型为语法级的信息检索。向量空间模型为语义级的信息检索模型。

基于本体的语义搜索方法的性能测试标准有查全率、查准率、F值和平均精度。本文预想如果搜索系统能够利用标注、索引、排序和适当的信息检索方法,查询过程一定会提高查全率和查准率。

[13] Koopman, Bevan. Towards semantic search and inference in electronic medical records: An approach using concept-based information retrieval[J].The Australasian medical journal ,2012,5: 482.

[14] Bouramoul, Abdelkrim, Mohamed-KhireddineKholladi.An ontology-based approach for semanticsranking of the web search engines results[C].MultimediaComputing and Systems (ICMCS), 2012 International Conference on.IEEE, 2012.

[15] Sinha, Sukanta, Rana Dattagupta.Designing an ontology based domain specific web search engine for commonly used products using RDF[C].Proceedings of the CUBE International Information Technology Conference.ACM, 2012.

[16] Yadav, Poonam.OntDR: An Ontology-based Augmented Method for Document Retrieval[J].International Journal of Computer Applications, 2012.

[17] Kiryakov, Atanas. Semantic annotation, indexing, and retrieval." Web Semantics: Science, Services and Agents on the World Wide Web,2004: 49-79.

[18] Kr?tzsch, Markus. "Efficient rule-based inferencing for OWL EL[C].Proceedings of the Twenty-Second international joint conference on Artificial Intelligence-Volume Volume Three,AAAI Press, 2011.

上一篇:基于井下的人员定位算法性能比较 下一篇:噪声对随机共振系统影响的研究