中外主流搜索引擎查准率比较研究

时间:2022-09-04 05:04:06

中外主流搜索引擎查准率比较研究

【摘要】万维网络信息查询有赖于搜索引擎。搜索引擎的查准率是衡量搜索引擎优越性的重要指标,事关信息检索的质量和效率。日前在线启用的国内外搜索引擎种类繁多,普及通用的主要有Goole,百度及中国搜索等,依据公认查准率标准,本文将对此三者具有代表性的搜索引擎的查准率加以比较和对照,并在此基础上尝试查找、分析影响查准率高于0.5的根本原因,并提出尝试性的解决方案。

【关键词】搜索引擎 信息检索 查准率随着计算机网络技术的不断发展,人们对信息需求也越来越高,为了方便人们共享网络信息资源,更有效地利用信息资源,搜索引擎应运而生,国内外出现了一大批著名的搜索引擎。它们都有各自的优缺点,本文通过查全率和个性化服务两方面的比较,对中外著名的搜索引擎进行分析,并对这些搜索引擎提出了一点自己的设想。

一、Goole,百度与中国搜索的查准率之比较

因特网拥有丰富的信息资源,其中以超文本标记语言存贮和传输的WWW(World Wide Web,即万维网)信息资源,因其方便迅速的浏览、一点即开的超链接和声音图像、视频等多媒体显示方式,成为网上信息资源的主流。在互联网发展初期,网站相对较少,信息查找比较容易。随着互联网的迅速发展,Interne资源的骤然增加,特别是web信息的迅速膨胀,使得检索新出现的网页变得越来t越困难,普通网络用户想找到所需的资料如同大海捞针,这时为满足大众信息检索需求的专业搜索引擎便应运而生。

(一)国内外搜索引擎回顾

搜索引擎技术1994年在美国出现,1995年开始进入大规模的商业化开发阶段。由于中西方语言文化的差异,中文搜索引擎的出现相对晚些,但在随后几年的中文搜索引擎得到快速发展,涌现了许多著名的搜索引擎。在内地,北大天网1997年10月29日开始为Internet用户提供WEB信息导航服务,1998年2月搜狐成立,新浪1999年开始搜索服务,2000年百度创立,同年网易开始创搜索服务,2001年TOM的搜索服务及2002年8月慧聪搜索的成立等。2003年9月25日,慧聪搜索携手中国互联网新闻中心共同发起并成立了以搜索引擎应用为基础的联盟组织――中国搜索联盟,12月23日原慧聪搜索正式独立运作,成立了中国搜索。香港地区有1997年创立的添达香港搜索(www.ti mway.co m)以及2002年创立的巴辣香港(www.ba )等。台湾地区,1995年8月蕃薯(番薯,藩属)藤()开始繁体中文的搜索服务,成为世界上第一个开始启动中文搜索服务的搜索引擎;1998年1O月penfind(.tw)成立,同年4月开始提供繁体中文搜索服务等。国外著名的搜索引擎从1999年开始也相继开展中文搜索服务,如:Yahoo中国于1999年9月正式开通,2000年9月12日Google启动中文搜索服务,2004年6月21日雅虎在中国推出一搜Ill等。从第一个中文搜索引擎问世至今,互联网上有记录可查的中文搜索引擎有数百个,现已成为人们查找网络信息资源必不可少的工具。中文搜索引擎通常包括两种类型:一种是网页全文搜索引擎,另一种则是网站搜索引擎,前者由程序自动抓取网页进行分析并建立索引,后者由专业编辑人员进行人工分类和维护。它们各自满足不同的搜索需求,而且互为补充。

据此可见,顺应信息检索需求,1994年以来国内外搜索引擎相继涌现,在成就其数量优势的同时,也为其彼此间服务质量优势的角逐提供了平台。国外引擎以Goole为例,国内以百度和中国搜索为例,本文将就其各自的相对查准率进行下列比较。

(二)Google,百度和中国引擎查准率之比较

我们拿一些实例来具体比较一下国内的一些搜索引擎与国外的搜索引擎的区别在哪里,国外以Google为例,国内就拿百度和中国搜索来比较。

相对查准率是衡量搜索引擎的一个重要指标。有人在网上做过这样的测试,即,在这三大搜索引擎中输入同样的30条记录,然后观察它们所搜索出来的信息情况,其结果是这样的:

不管是国外的Google,还是国内的百度与中国搜索,有很多重复或无用的信息呈现,甚至前10条记录中都有这一现象发生。在搜索结果的前30条记录中,重复或无用的信息最多的是中国搜索(共110条)其次是百度(共101条),最少的是Google(共91条)。在前10条记录中重复或无用信息最多的是中国搜索(33条),Google与百度几乎相当;在11-20条记录中重复或无用信息最少的是Google(24条),百度与中国搜索相差无几。就出现在21-30条记录中的重复或无用信息量而言,三者完全相同,都是42条。并且在重复或无用信息中,有一定字面联系、但内容信息无用的链接占有相当的比例。其主要原因之一是搜索引擎采用全文检索,不能完全理解搜索查询请求,也不能很好地理解网页的内容,只要在全文中可以找到所有的检索词,信息就会被检出。这样,有些web页面只在全文中含有检索提问式中的所有相应关键词,在信息内涵上并不符合检索提问的要求,也会被检索出来,造成这一现象的另一个主要原因则是搜索引擎使用的排序技术本身的不足所致,它是由网页的权值决定的。网页的权值与网页被链接的数量及质量有关,被链入的网页数越多、网页的权值越高及被链出的网页数越少,则该网页的权值越高,这样小站、新站、专业站的内容再好,因为不能迅速得到大量高质量的超链,难以得到合适的排名,而一些权值高的网页硕士学位论文讨论认为,即使其内容与搜索词之间没有相关性,只要在网页中有搜索词出现,其排名也会比较靠前。还有一个原因就是重复网页没有完全被过滤掉。因此,许多有用和相关页面无法返回给用户,很多重复无用的信息出现在,Google、百度和中国搜索的相对查准率分别为0.449,0.433,0.399,从数字上看Google的相对查准率比百度与中国搜索的相对查准率高一点六个百分点和5个百分点,但Google与百度前30条记录查准率、Google与中国搜索前30条记录查准率,都经t检验,P>0.05 ,故尚不能认为国外搜索引擎Google的相对查准率比国内搜索引擎百度、中国搜索的相对查准率高。在搜索引擎相对查准率的测试过程中,对其有影响的因素有检索表达式、前N条记录、组的权值、相关范畴以及相关范畴的相关系数等。如何合理地选取表达式及N如何取值是值得研究的问题,另外对前N条记录如何合理地进行分组、组的权值如何分配、相关范畴如何分配以及相关范畴的相关系数如何赋予都是值得探讨的问题。值得探讨的问题。

二、Google,百度及中国搜索个性化服务功能之比较

个性化搜索服务对于搜索引擎来说应该是属于一个卖点。你有怎么样的服务,你就有怎样的服务人群,所以这种拥有自己特点的服务对于每一个搜索引擎来说都是至关重要的。

由于Google、百度和中国搜索默认每页显示10条搜索结果,为了方便查看,减少显示结果的页数,需要到搜索引擎相应的功能区重新设置每页搜索结果显示条数。除中国搜索无法更改外,在Google和百度的高级搜索与个性设置功能区都能重新设置每页搜索结果显示条数。并且在重新设置的过程中发现:搜索与某个指定网页存在链接的所有网页、搜索35种语言的网页、提供包括简体中文和繁体中文共101种语言的搜索界面、提供中文简体和繁体文本之间的"翻译"转换等功能,只有Google拥有。虽然百度与中国搜索只有简体中文界面,百度的无法在检索的结果页进行搜索高级搜索与个性设置,中国搜索也无法在结果页进行个性设置,但都能按地域搜索网页,并且中国搜索还能按行业进行网页搜索等。同时,在利用中外主流搜索引擎搜索中文网页的过程中发现,不同的人使用相同检索表达式得到的搜索结果却完全相同,不会因人的地域、性别、年龄、职业、爱好、专业、心理倾向的差异而有所不同,并且搜索结果都无法按网页更新日期、网页生成日期等其它方式排序,而是都只有按内容相关度排序一种方式。由此可见,百度和中国搜索的个性化服务与Google一样有了一定的体现,个性化搜索服务水平仍然不高,但各具特色。

通过以上的分析,我们不难概括出国内主流搜索引擎存在的几点优势:百度中文网页的收录量超过了Google;国内的百度和中国搜索对中文的理解要比国外的Google好;纵观中外主流搜索引擎的更新周期及最近一天中文网页的更新能力,百度中文网页的更新能力超过了Google;国内的百度与中国搜索的更新周期比国外的Google短。显然,国内主流搜索引擎也存在诸多的不足:中国搜索缺乏对PDF,PS,DOC,PPT等非HTML文档的收录;综观Google、百度和中国搜索的去重、类聚能力和网页的重复率,国内主流搜索引擎的去重能力仍然比国外主流搜索引擎逊色;中国搜索最近一天的网页更新能力明显低于Google,并在使用百度与中国搜索的搜索结果后的网页快照功能查看该网页的快照内容时,仍出现"死链"现象;百度和中国搜索前30条记录中重复和无用信息的总数高于Google国内外主流搜索引擎共同的不足:而国外的搜索引擎也不乏有这样的缺陷;国内外主流搜索引擎的相对查准率虽然基本相等但都没有超过50%(0.5),离用户的情报需求还有相当的距离;国内搜索引擎百度和中国搜索与国外搜索引擎Google的个虽然有了一定的体现,并各具特色,但搜索结果却都不会因人的地域、性别、年龄、职业、爱好、专业、心理倾向的差异而有所不同,并且除新闻网页的搜索结果提供按日期排序和按相关性排序方式外,其它网页的搜索结果都无法按网页更新日期或网页生成日期等排序,只能按相关性进行排序,用户没有选择的余地。

三、结论

如今,知识经济、信息时代均以互联网的存在为自身存在和发展的前提。知识的一半是"找到知识"。信息经过加工转化为知识,知识经过实践继而转化为智慧,此三者的辩证性循环与攀升建构了人类智能发展的历程。而搜索引擎的存在及其功用一定程度上颠覆性地革新了人类信息的提取速度和质量。但是,在信息爆炸的年代,如何提进一步提升搜索引擎互联网信息检索的查准率并使之最大化的发挥作用,是信息提取效率的关键所在。实践证明,加强语义检索的应用是提高搜索引擎质量的一个重要办法也应该是未来的发展方向。

众所周知,查准率是衡量搜索引擎优越性的重要指标,国内外主流搜索引擎的相对查准率都在0.5以下,主要原因是它们都将关键词检索作为主要的检索途径,采用全文检索所致。

目前的关键词搜索是对关键词进行机械式匹配,只注重检索词的外在表现形式,而非它们所表达的概念,并且查询结果完全依赖用户给出的关键词,系统与用户之间无进一步的交互。而在大多数情况下,用户很难简单地用关键词或关键词串来真实地表达他们的检索需求。由于同一概念,对其称呼以前与现在不同,随着地域的改变,同一概念的表达也会不同,不同的学科专业领域,也都有自己的术语命名规则。因此,同一概念可以用不同的词来表达,使得许多关键词都有同义词、近义词、上位词、下位词、全称、简称、俗称、商品名等。同时,不同的用户对同一概念往往会采用不同的检索词,从而使检索效果不佳,相对查准率偏低,重复和无用信息在前30条记录中大量存在。如果搜索引擎的检索子系统可以真正理解检索词的概念含义、理解关键词之间的联系,具有同义扩检和其他相关检索的能力,对用户需求和文本实施概念匹配,将会减少重复网页的出现,提高相对查准率,极大的提高检索质量,使搜索结果真正按相关性排列,从而使检索结果真正符合用户的检索要求,提高用户查询的满意度。

参考文献:

[1]李明.中文元搜索引擎万纬搜索研究[J].现代图书情报

技术,2003,(5).

[2]邹小筑.专业搜索引擎-Scirus科学搜索引擎研究[J].图

书馆建设,2002,(6).

[3]刘海航,黄碧云.元搜索引擎Profusion[J].情报科学,

2002,(9).

[4]李村合.因特网多元搜索引擎SearchX2000的研究[J].情 报学报,2002,(4).

[5]陆兴.八个著名中文搜索引擎的特征及其评析[J].图书馆

理论与实践,2003,(2).

[6]陈继红,青晓.四种搜索引擎的比较研究[J].情报科学,

2003,(10).

上一篇:怎样教好《计算机应用基础》课 下一篇:对油田开发中后期提高油井吞吐效果的思考