语义Web环境下的搜索引擎功能分析

时间:2022-08-04 03:38:48

语义Web环境下的搜索引擎功能分析

[摘要]探讨当前搜索引擎存在的问题以及搜索引擎的语义功能需求,然后基于Web搜索引擎和语义Web,提出语义Web环境下的搜索引擎功能流图,并针对crawler、本体与知识库、语义注释、筛选与推理、语义索引、语义检索等对搜索引擎的功能进行分析。语义Web环境下的搜索引擎将促进信息、知识需求得到更好、更精确的语义表述和满足,推动高效的信息和知识管理。

[关键词]语义Web 搜索引擎 功能 语义检索

[分类号]G203

1 引言

搜索引擎如Google和百度极大地改变了人们存取信息的方式。在用户眼里,搜索引擎为他们提供了一个友好的检索入口,用户只需提供检索式(关键词列表)便能搜寻到包含或者不包含这些关键词的相关网页。但是,当前Web内容的含义不是机器可处理的,虽然一些工具可以检索文本、分割文本、检查拼写、计算词频,但在解释句子和抽取有用的信息方面,当前的软件能力还是非常有限的,如搜索引擎只返回排序的检索结果列表,提供极少甚至不提供文档间的语义关系,检索结果在语义上难以满足用户的需求。

Web上分布着大量重要而有价值的信息和知识。但是,Web内容是按照供人类理解的形式设计的。面对Web上的信息,知识工作者不得不花费大量的时间进行浏览、检索、比较和分析,以便找出文档间是如何相互关联。只有当知识工作者开始在不同的信息间找出相似与不同时,他们才有可能构建关系以创造新的知识。随着Web上信息内容的剧增,这种基于人力理解的Web信息处理和开发利用已难以适应高效率的网络信息和知识管理的需要,人们对Web信息索引、检索、知识共享和处理等提出了更多更高的功能需求。

在技术上如何提高Web信息和知识管理效率方面,目前存在两种方案:一种方案是继续基于目前Web内容的表示形式,不断地开发出基于人工智能和计算语言的处理这种表示形式的更加复杂的技术;另一种方案是增加一种更容易让机器处理的Web内容的形式化表示,并让智能技术充分利用这种形式化表示。后一种方案已具体体现在语义Web的产生和发展之中。语义Web是当前Web的扩展,它按照某种语义方式进行结构化设计,以便Web内容不仅被人类所理解,同时也为计算机所理解。语义Web将促使机器能够像人一样具有智能,能够从信息间找出相似与不同,并且构建关系以创造新的知识。语义Web为搜索引擎的语义功能实现提供了一个全新的渠道和崭新的平台。

2 语义Web及相关标准

语义Web的内容是按照某种语义方式进行结构化设计,以便该内容不仅被人类所理解,同时也为计算机所理解。语义Web不是一个独立的Web,而是当前Web的扩展。在当前Web基础上增加一个语义(知识)层,便形成语义Web。语义Web方法应当开发出以机器可处理(machine processable)的形式表示信息的语言。在语义Web中,信息被赋予描述良好的含义,这有利于促进计算机和人类的相互合作。

从某种意义上说,将本体(Ontology)应用到Web促进了语义Web的发展。领域本体对本领域描述和表达的对象、对象间关系及对象属性进行了规定,具体的描述和表达构成了知识库。本体和知识库能够促进信息间相互关系的更有效发现。所选信息间相互关系的发现能够将分隔而孤立的信息变成有意义的上下文,所揭示出的隐含结构将帮助用户更有效地利用和管理信息。这种从语义上链接不同数据源(文本、图像、人、概念等)的思想非常重要。有了这个,人们能够从当前具有简单链接的Web转向更具语义表示的丰富的Web,在这个Web中,人们能够逐渐增加含义,并在资源间表达一个全新的关系集,使得当前Web中隐含的特殊上下文关系变得更加清晰。

将语义Web融入当前Web结构之中的步伐已经迈出,语义Web构件的相应标准在W3C(World WideWeb)、学术界和产业界的共同努力下已在全世界范围内得到认可和一定范围的应用。XML为语义Web的发展带来了希望。在语义Web中,XML Schema作为基础构件,与XML一起,尽管缺少语义约束,但对具有语义约束力的RDF(Resouree Description Framework)、RDF Schema和OWL(Ontology Web Language)起到很好的语法、结构与数据类型上的支撑作用。RDF是一种对Web资源进行信息表达的语言,其目的在于表达Web资源的元数据,如标题、作者、Web页面更改日期、Web文档的版权和注册信息、语言、格式、内容条目等。RDF Schema并不直接提供特定应用类以及属性的词汇,而是提供描述这些类和属性的工具,并显示哪些类和属性在一起使用。OWL被设计成用于那些处理信息的内容而不是仅向人类呈现信息的应用,OWL通过提供更多具有形式化语义的词汇,以便在Web内容的机器可理解性方面强于XML Schema、RDF Schema等所能达到的程度。XML Schema、RDF Schema和OWL可看成是表示功能递增的本体语言,它们逐渐具有更多的语义表示能力,并分别和不断满足了不同层次和不同时期信息和知识处理的需求。

3 搜索引擎的语义功能需求

3.1 当前搜索引擎存在的问题

Web上当前的信息检索关注的是用户需求和信息库,而极少关注信息间的语义关系。Web上的信息不是机器可利用的形式,仍然需要人来区分信息的含义及其与需求间的关系。下面对当前Web环境下的推理和检索中存在的问题进行分析:①当前的Web搜索引擎不直接适合于语义标记的索引和检索。大多数的搜索引擎利用关键词作为索引词语。当一个利用RDF书写的文档被索引时,标记会被许多搜索引擎简单地忽略;而语义Web的基础是标记语言且完全表达成标记,因而对搜索引擎来说是不可见的,即使搜索引擎能够探测和索引文档内含的标记,但也并不以某种方式来处理这些标记,而只是或者允许在检索中使用标记,或者能够区分标记和其他文本。②当前的Web搜索技术不能利用语义标记来改善文本检索。Web搜索引擎基本依赖于简单的词语统计来识别与检索最相关的文档。利用相关技术如辞典扩展可以在检索中集成一定的推理,但与利用语义标记的情形相比,这样的推理是简单的。在语义环境下,语义标记可能出现在检索式或索引文档中。③文本在推理中没有得到利用。如果有可能自动地将文本转换为语义表示,则所形成的语义表示可在推理中加以利用。

3.2语义功能需求

语义Web的目标之一是提升人和软件在Web上发现和处理文档、信息和知识的能力。语义Web环境下的搜索引擎建立在Web搜索引擎、信息检索技术和语义Web基础之上。在本体和知识库的基础上,应当研究语义标记的产生与处理问题。语义Web环境下的搜索引擎应当将标记看成是结构化信

息,并能在RDF和OWL语义之后执行推理。搜索引擎的语义功能需求具体表现如下:①本体与知识库的支持。通过本体和知识库,改善Web搜索的精确度,对网页上的信息与相关知识结构和推理规则进行关联;②同时支持检索驱动和推理驱动过程;③能够利用单词或语义标记或同时利用单词和语义标记作为索引词语;④索引和检索应当与推理紧密关联,推理的改善应当导致索引和检索的改善。

4 语义Web环境下搜索引擎的功能

基于当前的Web搜索引擎和语义Web,本文提出语义Web环境下的搜索引擎功能流图,如图1所示:

语义Web包含两种类型文档,一类是通常的Web文本文档(text documents)(暂不考虑多媒体资源和Web服务资源);另一类是与这些Web文本文档平行的语义Web文档。一方面,Web文本文档通过语义Web文档的注释得到丰富,这些注释提供元数据和机器解释的捕获Web文本文档内容含义的陈述;另一方面,语义Web文档用来对Web文本文档进行语义描述,以便机器能够理解与处理Web文本文档中的知识。

语义Web环境下的搜索引擎应当能够运行一些推理引擎以识别所需要的事实和规则,从而达到所期望的结论,如能够在语义Web上筛选所需的事实和规则,并将筛选结果合并到推理过程之中。图1中的功能针对语义Web环境,显示了搜索引擎的语义推理、语义索引和语义检索等功能。另外,语义Web环境下的搜索引擎还具有传统搜索引擎功能,即基于关键词的索引与检索,这已具备了成熟的理论与实践。下面结合图1,对语义Web环境下的搜索引擎功能展开分析。

4.1 Crawler

URLs集和crawl模块一起组成为基本crawler,控制并执行所有的爬行过程。crawl模块先从一个种子URLs集出发开始爬行,对爬回的静态网页,crawl模块进行以下两个方面的处理:从网页中抽取所有的由链接指向的URLs,并将这些URLs存入到URLs集中;将爬回的网页保存在文本文档数据集中(如果存在),或者保存在缓存中足够长的时间,旨在完成索引。URLs集为crawl提供将要爬行的静态网页地址,crawl从URLs集中选择下一个将要爬行的URL地址重复前面的过程。crawl模块爬行的网页总数由存储资源决定或事先由人为决定。

语义Web环境下的搜索引擎与传统搜索引擎一样,也是基于crawler。因此,当前搜索引擎所面临的爬行问题也同样是语义Web环境下的搜索引擎必须面对与研究的,如动态网页爬行与并行爬行。

4.2本体与知识库

语义Web包含Web文档和与这些Web文档平行并对它们进行描述的语义Web文档(Semantic Web Documents,SWDs)。语义Web文档中拥有大量的本体与知识库。本体与知识库以及下面的语义注释,构成了语义Web的核心,为搜索引擎的语义功能实现提供了基础。

本体构建语言在W3C的努力下已得到标准化,相应的工具也得到很好的开发和应用,如Prot6g6平台是一个集成的软件工具,其最新版本是2010年3月8日的Prot6ge 3.4.4。Prot6g6平台为越来越多的用户提供一套利用本体构建领域模型和基于知识库应用的工具,可供系统开发者和领域专家开发基于知识的系统,以便构建基于知识的工具和应用,从而解决特定领域中的问题。但是,本体的构建和标准化以及知识库的构建还有一个漫长的路要走,它依赖于许多组织的关注和努力。与多媒体资源和Web服务资源相比,文本资源本体涉及人类知识体系的各个学科和领域。在语义Web文本本体构建中,一方面,不论在哪个领域,本体构建都需要可以使用的概念以及概念之间的关系表达,强烈地依赖于特定领域的知识体系结构,因此,需要领域专家的参加和介入;另一方面,本体构建需要充分考虑标准本体语言如OWL的知识表示能力,以便利用标准本体语言来恰当而合理地表示特定领域的知识体系。本体的构建是其标准化的前提,围绕特定领域本体的构建已有一些研究,如客户抱怨本体的构建,合同本体的构建,等等。

4.3语义注释

语义注释能够在文本文档中注释和链接命名实体,将到语义描述的链接分配给文本中的实体,产生有关文本中实体、实体属性和实体间关系的语义元数据标记。应当说,手工获得清晰的语义并不是一个可行的方法,从手工到自动的转变应当首先研究和开发完全自动的语义注释方法。因此,应当面对和解决必要的设计和建模问题,提供必需的资源和基础设施。

语义元数据必须以一种允许进行有效管理的格式加以存储,相关研究认为,最有效的方法是对文本文档、元数据(注释)和形式化知识(本体和知识库)进行分开的表示和管理。

4.4筛选与推理

并非所有的语义标记都是有价值的,因为一些标记可能来自于不适当的或不可信的机构,一些标记是多余的,一些标记是不相关的。因此,抽取的语义标记必须按照一定的规则进行筛选和推理,所得的结果将是可信任的事实和规则集,新增加的事实和规则集添加到本体与知识库中。不断扩展的本体与知识库将进一步促进推理运行。推理引擎利用在文本抽取中获得的元数据信息可推理更多的语义关系,为搜索引擎系统的索引做好准备,这些语义关系将直接决定检索的范围并提供更相关的响应。

对于何时对语义Web标记进行推理可以进行选择,如在对文档即将索引之前对标记进行推理,这将导致产生更多的三元组语义标记,扩大该文档的语义检索点;对包含RDF三元组的检索在处理和提交到检索系统之前进行推理,以提高检索效率;为了完成检验任务进行推理。另外,在语义Web上发现的知识在信任度上将存在很大变化,正如当前Web上发现的信息一样。为了产生一致的知识库,需要对语义Web上的信任模型环境进行研究。在对语义Web上发现的事实和知识进行抽取和推理时,应当能够从语义模型中去掉重复的事实,能够掌握信任模型并对每个事实的信任度做出更好的决策。

4.5语义索引

索引文档包含RDF三元组和RDF三元组通配符,这为用户提供了表达具有RDF三元组通配符检索式的灵活性。语义标记能够捕获词语之间的语义关系,因而提供检索式与相关词语间更好的匹配。在一个索引文档的表示中包含语义标记能够提高信息检索效率,如果在索引前对文档语义标记运行推理,将会获得更好的效果。

4.6语义检索

当前的检索技术是基于关键词的,而许多用户可能倾向于根据高层语义概念构建检索,这些概念是更标准的术语和隐含知识。开发在词语之间抽出语义关系的检索技术将促进智能信息服务、个性化Web站点和语义强大的搜索引擎。

图1中,语义Web环境下的搜索引擎应当能够通过定制的检索界面进行检索,并接受自由文本以及结构化的检索。假设系统的输入是某些类型的语义Web检索式,如果用户的目标是检索,则该检索式可能是对正在检索的概念进行编码的语义标记;如果用户的目标是推理,则该检索式可能是一个系统将要证实的陈述。在任何一种情况下,检索式被提交给推理引擎。对于检索,推理引擎可以利用用户模块、本体与知识库产生新的语义标记;对于检验,推理引擎将尽可能地利用本体与知识库,产生部分检验树。

基于图1功能流图的语义Web环境下的搜索引擎应具有更好的检索效果:首先,Web搜索引擎应很好地处理同义词问题,如可以将“HK”和“H.K.”索引为特定的实体“Hong Kong”,就好像存在一个惟一的ID标识符一样,体现了对命名实体引用的清晰处理。相反,当前的索引系统因为不包含实体识别,所以只能对“HK”、“H”和“K”分别进行索引,这正是基于关键词的搜索引擎存在的问题。其次,在对搜索引擎进行检索时,可通过指定实体类型限制、名称和其他属性限制以及实体之间的关系限制检索实体。例如,通过语义索引,能够更有效地检索到某个人,即使只知道该人在某机构中担任某职位、具有某些属性如性别等。最后,搜索引擎能提供强大的推理功能。例如,“检索包含在中国从事信息服务行业的企业的文档”,则返回的文档可能包含“清华同方股份有限公司”、“万方数据股份有限公司”,或“维普资讯公司”,而不是简单地包含“中国”、“信息服务”或“企业”等文字。

5 结语

语义Web是一个全球分布的知识库,这一点由Tim Bemers-Lee在Web开发中提出。Tim Bemers-Lee试图最终创建出网络化的知识库,他将语义Web描述成:能够从经验中学习,创建不同应用环境下知识获取、表示和利用的基础设施。基于语义Web的搜索引擎能够为每个文本中的实体引用同时提供到本体定类的链接和到知识库定实例的链接;能够基于实体对文本文档进行索引和检索;允许用户指定感兴趣的命名实体,并通过命名实体的属性和关系进行限制。语义Web环境下的搜索引擎将促进信息、知识需求得到更好、更精确的语义表述和满足,推动高效的信息资源开发利用以及高效的信息和知识管理。

上一篇:近20年我国信息资源配置研究文献计量分析 下一篇:基于语义Web服务的数字图书馆资源整合研究