搜索引擎原理及存在问题

时间:2022-09-21 01:07:42

搜索引擎原理及存在问题

摘 要 本文主要是对搜索引擎的工作原理以及所存在的问题进行分析,同时指出了以后搜索引擎的发展主要是根据用户作为中心来提出更为个性化的服务。

关键词 搜索引擎;工作原理;存在问题;

中图分类号:TP3 文献标识码:A 文章编号:1671-7597(2014)20-0237-01

由于网络信息在不断飞速的发展,一定程度上人们对信息获取的方式得到了极大的改变,但是针对浩如烟海的网络信息,怎样才能够方便以及更加迅速的获取信息已经成为人们比较关注的一个问题,由于各类搜索引擎的层出不穷,并且得到了比较快速的发展。本文主要介绍的就是搜索引擎的原理以及所存在的问题。

1 工作原理

在一九九零年,加拿大某一所计算机学院的老师对A reh ie软件进行了开发。并且在一定程度上对各个FTP主机中分布的文件服务进行相应的提供以及查找,把这个软件进一步的公认为现代搜索引擎的鼻祖。所以就导致各种不同的搜索引擎应运而生,例如一些比较著名的百度、搜狐、网易以及天网等等。结合技术的相关原理,针对检索的方式,搜索引擎可以进一步的划分为两种引擎,一种是独立型搜索引擎,另外一种就是元搜索引擎。

1)独立型搜索引擎。针对独立型搜索引擎而言,它在一定程度上又称为单一搜索引擎,其特点就是都具有一个与数据库能够绑在一起的检索系统,并且同时还具有自动检索程序,能够对Intemet的内容进行搜集,针对所找到的信息资源能够送回集中管理的数据库。独立型搜索引擎系统在一定的程度上能够统一的分为两个部分构成:第一是分析索引模块;第二是检索服务模块等。

针对分析索引模块而言,能够在一定的程度上把Robot程序能够采集到的信息进行相应的比较以及分析,对那些内容比较相似的转载网页进行有效的删除以及没有添加任何的修改,然后对一些能够留存的网页信息,把HTML等相关标志的符号进行有效的剔除,对网页源文件内容特征代表的关键词进行提取,在一定的程度上能够汇集成索引数据库,并且进一步的顺着链接对网上新加入的主页跟踪,为其建立相应的索引。

针对检索模块而言,主要分为四个内容:一是对界面进行检索,对用户提交的相关检索要求进行接收。二是检索过程中的策略,针对用户所提交的检索要求,在一定的程度上编成计算机能够执行的规范化检索式。三是对检索进行相应的执行,结合用户上交的检索式,可以到索引数据库中进行相应的搜索。四是检索的结果,把检索到的一些资料进行整理以及组织后,在一定的程度上按照顺序给用户进行提供。

2)元搜索引擎。针对元搜索引擎而言,它没有属于自己的资源数据库,它属于中间的角色,是由许多个相对比较独立型的搜索引擎聚集到一起的,并且还在一定的程度上能够对多个搜索引擎上的资源库进行共享,同时还能够提供相对统一的界面,为用户在一定的程度上提供信息服务智能化的检索

系统。

2 所存在的问题

由于互联网的不断发展,在网络方面搜索引擎已经是使用率最高的服务项目之一。然而,一些大量的信息增长和人们所获得的信息之间存在的矛盾也是不断增加,同时,搜索引擎所出现的问题也不断的显现出来,主要有以下几点。

1)信息质量控制不好。在对网络信息质量控制的过程中由于信息的冗余很大,而且覆盖又十分有效,因此,在质量控制过程中存在着欠缺,同时对于层次比较深的Web文档挖掘并不够,对于一些层次比较深的网页被遗漏掉,并且,大多的垃圾网页同时也被采集到。一些网页虽然并没有出现搜索的词,然而其内容却是和搜索的词比较相似,但是,搜索引擎却是没有办法搜到这些的网页。所以,信息在查准的过程中比较低、误检率以及漏检率比较高。

2)占据的CPU以及网络宽带比较大。由于信息数据库的不断膨大,在对信息进行搜集以及数据库进行维护的过程中将会占据很多的CPU资源以及网络宽带。在此之外,在进行检索的过程中存在着很多的重复性也会对宽带资源进行额外的消耗,并且,在对网页进行转载以及镜像网页也将会导致出现重复性的检索工作,进而导致出现宽带消耗的额外增加。

3)数据库更新比较困难。在搜索引擎的数据库中,存在着更新困难以及所提供的信息滞后等情况。搜索引擎只是能够经过系统的管理人员来确定出一定时间之内的跟踪信息,并不能够保证信息能进行及时的更新,进而就会导致出现死链的情况。与此同时,由于网络的信息量在不断的加大,将会致使数据库出现膨胀,最终也将会导致检索的速度被降低。

4)搜索引擎之间缺乏合作。对于每一个搜索引擎来讲都是有着自己的一个检索规则,用户的查询接口不论是在方法上面还是在技术上面,每一个搜索引擎将会给出一种不同的实现方式,并不是统一的,用户在使用不同的搜索引擎的时候所适应的过程也并不相同。所以,对搜索引擎的使用方便性以及用户的有好性都是需要进行改进。

5)搜索的结果比较单一。所有的人在用同一个搜索引擎对一个词进行搜索的过程中其所得到的结果都是相同的,在搜索的过程中搜索引擎并不会考虑到性别以及年龄等用户对信息的需求,同时也不会做到采用记录来对用户的行为日志进行查询。因此,可以在搜索引擎的系统当中增加一种用户的行为分析模块,以此来对用户进行了解以及分析,从而使信息数据库能够具有个性化,在用户进行搜索的过程中通过对个性信息数据的调用,以此使搜索能够满足每一个用户的需要。

3 结束语

21世纪科技创新也进一步的强调以人为本,所以在发展搜索引擎的过程中,也主要是围绕着用户,让其搜索引擎在一定的程度上对用户的行为以及用户的习惯进行关注,也就是让搜索引擎学习人类的思维,同时还能够进行自适应的一个

过程。

参考文献

[1]佘正平.搜索引擎原理及存在问题[J].图书情报论坛,2006,12(24):120-124.

[2]杨卫明.独立式搜索引擎原理及存在问题分析[A].重庆计算机学会.2008年计算机应用技术交流会论文集[C].重庆计算机学会.2008,12(24):114-116.

[3]陈鑫,常致全.智能化搜索引擎原理及实现[J].计算机应用,2003,12(24):136-138.

上一篇:输电线路智能化运行维护技术探析 下一篇:基于AutoCAD平台的土方量计算程序设计