搜索引擎研究范文

时间:2023-12-04 08:41:34

搜索引擎研究

搜索引擎研究篇1

关键词:搜索引擎;信息检索;互联网;网络信息量

中图分类号:TP393

文献标识码:A

文章编号:1004―373X(2008)04―074―04

伴随着互联网的爆炸性发展,网络用户想找到所需的资料如同大海捞针,为了满足人们信息检索需求,专业搜索网站应运而生了。搜索引擎(search engine)是一个信息处理系统,他以一定的策略在互联网中搜集信息,对信息进行理解、提取、组织和处理,并为用户提供检索服务,从而起到信息导航的目的,从用户的角度来看,他就是一个帮助人们进行信息检索的工具。搜索引擎以传统信息检索技术的索引模型、匹配策略等技术为基础,涉及数据库、信息检索、人工智能、统计数据分析、数据挖掘、计算机网络等诸多领域的理论和技术。

本文回顾了搜索引擎发展的简史,介绍他的分类和关键技术,并对中文搜索引擎各组成部分进行分析,最后指出了中文搜索引擎的发展趋势。

1 搜索引擎的发展、分类和性能指标

1.1发展简史

1990年由蒙特利尔的大学生Alan Emtage等人发明的Archie是搜索引擎始祖,他依靠脚本程序自动搜索网上的文件,然后对有关信息进行索引,供使用者以一定的表达式查询。后来,一些开发机器人(Robot)程序的编程者提出了设想:既然所有网页都可能有指向其他网站的链接,那么从跟踪一个网站的链接开始,就有可能检索整个互联网。最早现代意义上的搜索引擎出现于1994年7月,当时Michael Mauldin将John Leavitt的Robot程序接入到其索引程序中,创建了大家现在熟知的Lycos。同年4月,斯坦福大学的David Filo和杨致远共同创办了超级目录索引Yahoo,并成功地使搜索引擎的概念深入人心,Yahoo也被称为第一代搜索引擎,从此搜索引擎的发展进入了黄金时代。1998年9月,同样是Stanford大学两位博士生Larry Page和Sergey Brin成功开发了新一代搜索引擎一一Google,具有比Yahoo使用的技术更快、更准确的特点,被视为第二代搜索引擎的代表。随着互联网规模的急剧膨胀,搜索引擎之间也开始出现了分工协作,并有了专业的搜索引擎技术和搜索数据库服务提供商。

1.2搜索引擎的类别

根据搜索引擎的系统结构、信息搜集方法、服务提供方式的区别,搜索引擎分为以下类别:

(1)机器人搜索引擎:机器人是指某个不断重复执行某项任务的自动程序,基于机器人的搜索引擎多提供对全文的检索,有时也叫作全文搜索引擎。机器人程序以某种策略对Internet进行定期搜索,对一定IP地址范围内的互联网站进行检索,一旦发现新的网站,他会自动提取网站的信息和网址加入自己的数据库,由索引器建立索引。对用户查询则由检索器检索索引库,最后将查询结果返回给用户。该类搜索引擎的优点是信息量大、更新及时、不需人工干预;缺点是返回信息量大,且有很多无关信息,用户必须从结果中进行筛选。Google、百度就是这类搜索引擎的代表。

(2)目录式搜索引擎:以人工方式或半自动方式搜集信息,由编辑员查看信息之后,人工形成信息摘要,并将信息按照主题分成若干个大类,每个大类再依次细分,使信息形成按主题分类和组织的树型结构。信息大多面向网站,提供目录浏览服务和直接检索服务。由于目录式搜索引擎的信息分类有人的参与,因此其搜索的准确度是相当高的,缺点是人工维护、信息量少、信息更新慢。典型代表是:Yahoo(现已采用Robot技术)、LookSmart等

(3)元搜索引擎:这类搜索引擎没有自己的数据,而是将用户的查询请求向多个的独立搜索引擎递交,再对返回的结果进行重复排除、重新排序等处理后,作为自己的结果返回给用户。优点是返回结果的信息量更大、更全,缺点是用户需要做更多的筛选。元搜索引擎的搜索效果始终不理想,目前还没有任何一个元搜索引擎取得强势地位。

1.3搜索引擎的性能指标

搜索引擎性能评价既要参考传统型文献检索工具的质量评价标准,如:信息组织加工及检索服务提供方式等,又要立足于用户的立场,即能满足大多数网络用户要求的搜索引擎就是一个好的搜索引擎。

在通常情况下,我们可以从以下几个方面来衡量一个搜索引擎的性能:

查全率 指搜索引擎提供的检索结果中相关文档数与网络中存在的相关文档数之比,他是搜索引擎对网络信息覆盖率的真实反映。

查准率 是搜索引擎提供的检索结果与用户信息需求的匹配程度,也是检索结果中有效文档数与搜索引擎提供的全部文档数之比。

响应时间 一般而言取决于2个因素,即与带宽有关的网络速度和搜索引擎本身的速度,只有在二者均获得可靠的技术支持的情况下,才能保证理想的检索速度。对搜索引擎来讲,查全率和查准率很难做到两全其美,影响搜索引擎的性能的主要是信息检索模型,包括文档和查询的表示方法、评价文档和用户查询相关性的匹配策略、查询结果的排序方法和用户进行相关度反馈的机制。

2 搜索引擎系统架构和关键技术

搜索引擎一般由搜索器、分析器、索引器、检索器和用户接口等5大部分组成,其工作原理如图1所示:

2.1搜索器

搜索器是通过网页的链接地址来寻找网页的计算机程序,他从网站的某一个页面开始,读取网页的内容,找到网页中的其他链接地址,然后通过这些链接地址寻找下一个网页。在搜索器实现时,系统中维护一个超链队列,其中包含一些起始URL,搜索器从这些URL出发,下载相应的页面,并从中抽取出新的超链加入队列中,上述过程不断重复直到队列为空。为提高效率,搜索引擎还将Web空间按照域名、IP地址或国家域名进行划分,使用多个搜索器并行工作,让每个搜索器负责一个子空间的搜索。由于互联网上的信息太多,因此搜索器必须采用一定的搜索策略对互联网进行遍历并下载文档搜索器,目前一般采用以广度优先搜索策略为主、线性搜索策略为辅的搜索策略。搜索器主要的搜索策略有:

线性搜索策略 线形搜索策略的基本思想是从一个起始的IP地址出发,按IP地址递增的方式搜索后续的每一个IP地址中的信息,完全不考虑各站点的HTML文件中含有的超链地址。该策略只适用于小范围的全面搜索,可以发现被引用较少的新HTML文件信息源。

广度优先搜索策略广度优先搜索策略是先抓取起始 网页中链接的所有网页,然后再选择其中的一个链接网页,继续抓取在此网页中链接的所有网页。广度优先搜索策略容易实现并被广泛采用,但是需要花费较长时间才能到达深层的Web文件。

深度优先搜索策略 深度优先搜索策略是早期开发搜索器使用较多的一种方法,他顺着HTML文件上的超链走到不能再深入为止,然后返回到上一个结点的HT―ML文件,再继续选择该HTML文件中的其他超链。深度优先搜索适宜遍历一个指定的站点,但不适合于搜索相当深的Web结构。

2.2 分析器

分析器对搜索器找到的网页信息进行分析,以便建立索引。其分析技术包括:分词、过滤、转换等。通常选用“词”作为文本特征的元数据,在分词时,大部分系统从全文中抽取词条,也有部分系统只从文档的某些部分(如标题等)抽取词条。中文句子的词语间没有固定分隔符、汉语语义及结构的复杂性给中文分词带来极大困难。

2.3 索引器

索引器的功能是对搜索器所搜索的信息进行分析处理,从中抽取出索引项,用于表示文档以及生成文档库的索引表。索引项有元数据索引项和内容索引项2种,元数据索引项与文档的语意内容无关,如作者名、URL、更新时间、编码、长度、链接流行度等。内容索引项可以分为单索引项和多索引项(或称短语索引项)2种,用来反映文档内容,如:关键词及其权重、短语、单字等。为了快速查找到特定的信息,必须将文档表示为一种便于检索的方式并存储在索引数据库中。索引数据库的格式是一种依赖于索引机制和算法的特殊数据存储格式,一个好的索引模型应该易于实现和维护、检索速度快、空间需求低。搜索引擎普遍借鉴了传统信息检索中的索引模型,包括倒排文档、矢量空间模型、概率模型等。索引器的输出是索引表,他记录索引项在文档中出现的位置,以便检索器计算索引项之间的相邻或接近关系,索引表一般使用倒排形式,即由索引项查找相应的文档。索引器可以使用集中式索引算法或分布式索引算法。一个搜索引擎的有效性在很大程度上取决于索引的质量。

2.4检索器

检索器的功能是根据用户的查询在索引库中快速检出文档,进行文档与查询的相关度评价,对将要输出的结果进行排序,并实现某种用户相关性反馈机制。常用的检索方法有以下几种:基于关键词的检索;基于概念的检索;基于内容的检索。

如在矢量空间索引模型中,用户查询q首先被表示为一个范化矢量V(q)=(t1,w1(q);…;t,wi(q);…;tn,w。(q))。然后按照某种方法来计算用户查询与索引数据库中每个文档之间的相关度,而相关度可以表示为查询矢量v(q)与文档矢量v(d)之间的夹角余弦,最后将相关度大于阀值的所有文档按照相关度递减的顺序排列并返还给用户。

2.5 用户接口

用户接口的作用是为用户提供可视化的查询输入和结果输出界面,方便用户输入查询条件、显示查询结果、提供用户相关性反馈机制等。用户接口的设计和实现必须基于人机交互的理论和方法,以适应人类的思维和使用习惯。在查询界面中,用户按照搜索引擎的查询语法制定待检索词条及各种简单或高级检索条件。在查询输出界面中,搜索引擎将检索结果展现为一个线性的文档列表,其中包含了文档的标题、摘要、快照和超链等信息,用户需要逐个浏览以找出所需文档。目前一些公司和机构正在考虑制定查询选项的标准。

2.6检索结果排序

对于某个检索项,通常会返回大量的查询结果列表,其中混杂着大量的不相关文档,为了提高查询效率,搜索引擎要对检索结果进行相应排序。

(1)基于内容的相关度排序:考虑用户所查询的词条在文档中的出现情况,包括词条频率,逆文档频率,词条位置等因素,根据文档相关度决定其在检索结果集中的位置。

(2)基于超链的相关度排序:考虑一个页面被其他站点引用的次数,这基本上反映了该页面的重要性,超链的标记:艾本也对链宿页面起到概括作用。斯坦福大学研究开发的PageRank算法,不仅考虑Web页上的标题或文本,还考虑与之相连接的其他网站,通过为Web页面构造引用图,综合页面的被引用次数,以及链源页面的重要性来判断链宿页面的重要性,能够查询与用户请求相关的“权威”页面。

(3)检索结果的联机聚类:用户查询相关的文档通常会聚类的比较近,而远离与查询无关的文档。因此可利用聚类技术将结果文档集合分成若干组,同一组的文档内容相似度尽可能地大,组间相似度尽可能地小,用户只需考虑他所选择的文档所在的组。

(4)推测用户最终目的:通过各种技术推测用户没有在查询语句中表达出来的查询目的,如使用智能跟踪用户检索行为,分析用户模型,通过同类用户的行为记录推荐相关页面;使用相关度反馈机制,通过对查询请求的不断修正以提高系统搜索结果的精确度等。

3 中文分词技术

中文自动分词是网页分析的基础。在网页分析的过程中,中文与英文的处理方式不同,这是因为中文信息与英文信息有一个明显的差别:英文单词之间有空格,而中文文本中词与词之间没有分割符。这就要求在对中文网页进行分析之前,先要将网页中的句子切割成一个个的词的序列,这就是中文分词。中文自动分词涉及到许多自然语言处理技术和评价标准,在搜索引擎中,主要关心中文自动分词的速度和准确度。现有的分词算法可分为3大类:基于分词词典的机械分词方法、基于理解的分词方法和基于统计的分词方法。

(1)基于分词词典的机械分词方法:这种方法是按照一定的策略将要分析的汉字串与词典中的词条进行匹配,是比较成熟的技术,又叫做机械分词方法。按照不同长度优先匹配的情况,可以分为最大(最长)匹配和最小(最短)匹配;按照扫描方向的不同,串匹配分词方法可以分为正向匹配和逆向匹配;按照是否与词性标注过程相结合,又可以分为单纯分词方法和分词与标注相结合的一体化方法。常用的几种机械分词方法如下:正向最大匹配法(由左到右的方向);逆向最大匹配法(由右到左的方向);最少切分(使每一句中切出的词数最小)。实际使用的分词工具,只是把机械分词作为一种初分手段,此外还要利用各种其他的语言信息来提高切分的准确率。例如一种方法是特征扫描(或标志切分),首先在待分析字符串中识别和切分出一些带有明显特征的词,以这些词作为断点,可将原字符串分为较小的串再来进行机械分词,从而减少匹配的错误率。

(2)基于理解的分词方法:这种分词方法是通过让计算机模拟人对句子的理解,达到识别词的效果。其基本思想就是在分词的同时进行句法、语义分析,利用句法信息和语义信息来处理歧义现象。他通常包括3个部分:分词子系统、句法语义子系统、控制部分。在控制部分的协调 下,分词子系统可以获得有关词句的句法和语义信息来对分词歧义进行判断,即他模拟了人对句子的理解过程。这种分词方法需要使用大量的语言知识和信息。由于汉语语言知识的笼统、复杂性,目前基于理解的分词系统还处在试验阶段。

(3)基于统计的分词方法:这种方法是对语料中的字组频度进行统计,不需要切分词典,因此也称为无词典分词方法。从形式上看,词是稳定的字的组合,因此在上下文中,相邻的字同时出现的次数越多,就越有可能构成一个词。因此可以对语料中相邻共现的各个字的组合的频度进行统计,计算他们的互现信息。互现信息体现了汉字之间结合关系的紧密程度,当紧密程度高于某一个阈值时,便可认为这些字的组合可能构成了一个词。但该方法时空开销比较大,而且经常把不是词的常用字组当成词,例如“我的”、“之一”等。在搜索引擎领域的实际应用中,一般将机械分词方法与统计分词方法相结合,先进行串匹配分词,然后使用统计方法识别一些未登录的新词,这样既发挥了匹配分词速度快、效率高的优势,又利用了统计分词中新词自动识别和自动消除分词歧义的特点。

分词词典是影响中文自动分词的一个重要因素,其规模一般在6万条词左右,若辞典过大,则歧义现象将大大增加;而辞典过小,有些词切分不出来,同样影响分词的精度。因此,分词词典中词条的选择是非常严格的。对于不断出现新词的网络领域,仅使用6万条词左右的分词词典是不够的,但随意向分词词典中加入新词将导致分词精度下降,一般的解决方法是使用辅助词典,其规模在50万词条左右。另外,中文自动分词的难点在于未登录词的识别和分词歧义的处理,如何处理这两个问题一直是该领域研究的热点。

4 搜索引擎的技术热点与发展趋势

随着互联网的发展,针对基于关键词搜索引擎所存在的不足,各搜索引擎网站纷纷向智能化、个性化方面发展,出现了值得关注的技术热点。

4.1 多媒体搜索技术

可用于网络检索的多媒体信息的内容特征大致包括:图像的颜色、纹理、形状等;声音的音频、响度、频度和音色等;影像的视频特征、运动特征等。这种类型的搜索引擎还不多见,并且主要用于图像检索,如QBIC、WeebSeek、ImageRover等。目前的多媒体搜索引擎覆盖面小,检索功能不够完善,效果也不太理想,因此,多媒体搜索技术尤其是音频、视频数据的检索仍是搜索引擎的一个研究重点。

4.2 用户行为分析

现在的搜索引擎是以关键字作为表达查询的主要手段的,以按相关度大小排列的文献列表为展示方式,任何人搜索同一个词都会得到同样的结果。为了克服千人一面的不足,人们逐步引入了一些个性化的技术,包括对查询输入的修正,查询结果的聚类等。但是,到目前为止,查询输入的主要方式还是关键字,查询输出的主要也还是文本列表。如何为用户的学习和工作营造一个个性化的信息空间,是未来搜索引擎应该追求的方向。

4.3智能检索技术

智能检索主要包括自然语言处理、个性化搜索等技术。自然语言理解是计算机科学中的一个引人入胜的、富有挑战性的课题。从计算机科学特别是从人工智能的观点看,自然语言理解的任务是建立一种计算机模型,这种计算机模型能够给出像人那样理解、分析并回答自然语言。以自然语言理解技术为基础的新一代搜索引擎,称之为智能搜索引擎。由于他将信息检索从目前基于关键词层面提高到基于知识(或概念)层面,对知识有一定的理解与处理能力,能够实现分词技术、同义词技术、概念搜索、短语识别以及机器翻译技术等。因而这种搜索引擎具有信息服务的智能化、人性化特征,允许网民采用自然语言进行信息的检索,为他们提供更方便、更确切的搜索服务。

4.4 P2P搜索技术

目前的互联网是以服务器为中心的,人们向服务器发送请求,然后浏览服务器回应的信息,而对等搜索技术P2P(Peer to Peer)将以用户为中心,所有的用户都是平等的伙伴,用户可以通过P2P共享硬盘上的文件、目录甚至整个硬盘。把这一理念具体运用到搜索引擎技术上来,P2P将使用户能够深度搜索文档,而且这种搜索无须通过Web服务器,也可以不受文档格式和宿主设备的限制,具有传统搜索引擎无可比拟优势。P2P网络的一个很大的问题在于搜索信息时所产生的网络通信量非常巨大,在时间和网络资源方面造成很大的浪费。为方便P2P网络中的信息检索,有关专家提出3种建立在特征文件基础上的检索机制:对语义路由进行详细分析,提出了一个建立在此技术和RDF技术基础上的新方法。

5 结 语

搜索引擎研究篇2

近年来网络发展迅速,信息爆炸带来的知识需求也日益增长,搜索引擎也呈现百花齐放、百家争鸣的局面。在此背景下,如何应用搜索引擎获取准确有效的信息成为人们非常重视的研究问题 [1]。为此,我们在教师的指导下开展了面向高校学生的搜索引擎评价研究,希望结合教学改革项目,进行教学实践课题的研究。我们希望通过搜索引擎评价,筛选出面向高校学生的、更有效的信息收集方法,提高高校学生信息收集效率和效果。

1 搜索引擎评价

网络信息资源评价的指标一般分为网络信息资源内容、网络设计、可获得性 、成本等方面[2]。搜索引擎的评价受到许多因素的影响。国内外有许多学者研究了如何评价搜索引擎,提出了相应的评价指标体系。苏君华进行了搜索引擎评价的研究综述,从内容层次、技术层次、界面/交互层次、用户层次、服务层次以及环境层次的评价几方面梳理了搜索引擎评价研究[3]。马志杰进行了国外以及我国搜索引擎评价的研究综述,指出了国外搜索引擎评价的特点及趋势,分析了我国搜索引擎评价的指标、方法,指出了我国搜索引擎评价研究存在的问题以及主要发展策略[1] [4]。

2 搜索引擎分析

使用者对于搜索引擎的评价很多地依赖于一些专业网站的搜索引擎排名。根据数据专家网站统计分析平台提供的搜索引擎使用情况分析报告,表1列出2013年9月搜索引擎排名,表2列出2014年8月搜索引擎排名。占有率指使用某搜索引擎的独立访客数占总访客数的比例;使用率指某搜索引擎产生的页面浏览量占总页面浏览量的比例[8]。由表1、表2可以看到,对于不同的评价指标,搜索引擎的排名结果不全相同。

3 基于AHP的综合评价

根据以上的分析,我们认为搜索引擎评价不能简单地从一、二个指标进行,而应该进行综合评价。层次分析法是定性定量相结合的系统决策方法。我们考虑应用层次分析法进行搜索引擎的综合评价。在查阅、学习相关文献的基础上,我们认为搜索引擎应该从全面性、准确性、目的性、时间性、用户友好性等方面进行评价。在此基础上,我们确定了搜索引擎评价指标。我们考虑了搜索结果、可获得性、界面设计、功能几个大类为一级指标。这些一级指标又分为相应的二级指标。搜索结果的二级指标有全面性、准确性、时效性;可获得性的二级指标有使用复杂度、链接方便性、响应速度;界面设计的二级指标有美观性、布局合理性、交互性;功能的二级指标有丰富性、独特性。

层次分析法构造判断矩阵进行因素对比若同等重要,标度的量化值为1;若稍微重要,标度的量化值为3;若较为重要,标度的量化值为5;非常重要,标度的量化值为7。若介于两相邻判断的中间值,标度的量化值分别为2,4,6,8。我们应用了专家打分法确定搜索引擎评价指标的权重。一级指标可获得性与搜索结果比值0.1669,界面设计与搜索结果比值0.2490,功能与搜索结果比值0.2327,界面设计与可获得性比值1.6610,功能与可获得性比值1.8644,功能与界面设计比值1.3218。二级指标搜索结果类指标准确性与全面性比值2.4662,时效性与全面性比值2.2787,时效性与准确性比值0.3952;可获得性类指标链接方便性与使用复杂度比值1.5731,响应速度与使用复杂度比值1.9693,响应速度与链接方便性1.5874;界面设计类指标布局合理性与美观性比值1.6984,交互性与美观性比值2.4929,交互性与布局合理性比值1.6475;功能类指标独特性与丰富性比值0.8061。

各指标通过了一致性检验。在此基础上,我们进行了二级指标的权重计算,可以得出二级指标的权重:全面性为0.102267,准确性为0.325395,时效性为0.174129,使用复杂度为0.030989,链接方便性为0.045011,响应速度为0.065953,美观性为0.017442,布局合理性为0.028499,交互性为0.045167,丰富性为0.091441,独特性为0.073707。我们可以得到各指标的权重排序:(1)准确性指标,权重为0.325395;(2)时效性指标,权重为0.174129;(3)全面性指标,权重为0.102267;(4)丰富性指标,权重为0.091441;(5)独特性指标,权重为0.073707;(6)响应速度指标,权重为0.065953;(7)交互性指标,权重为0.045167;(8)链接方便性指标,权重为0.045011;(9)使用复杂度指标,权重为0.030989;(10)布局合理性指标,权重为0.028499;(11)美观性指标,权重为0.017442。

4 问卷调查

对于现在比较流行的几个搜索引擎:百度、好搜、搜狗、必应、谷歌等,我们进行了问卷调查。我们设计了调查问卷,在网上并且收集了高校学生的反馈信息。搜索引擎评价调查问卷题目有:(1)请评价下列搜索引擎的搜索结果是否全面(内容来源是否广);(2)请评价下列搜索引擎的搜索结果是否准确(与你想得到的内容是否相符);(3)请评价下列搜索引擎搜索结果的时效性(是否是较新的内容);(4)请评价下列搜索引擎界面的美观性;(5)请评价下列搜索引擎界面的结构设计(结构、布局是否合理);(6)请评价下列搜索引擎界面的交互性是否良好;(7)请评价下列搜索引擎是否简单易用(操作方便);(8)请评价下列搜索引擎的链接是否方便(链接是否容易获得);(9)请评价下列搜索引擎使用时的响应速度快慢;(10)请评价下列搜索引擎的功能是否丰富;(11)请评价下列搜索引擎的功能是否独特。

我们共回收调查问卷131份,有效问卷131份。高校学生对搜索引擎百度进行问卷调查评分的平均值对于指标全面性、准确性、时效性、使用复杂度、链接方便性、响应速度、美观性、布局合理性、交互性、丰富性、独特性为:5.58、5.23、5.5、6.11、5.96、5.94、5.47、5.66、5.66、5.96、5.26。高校学生对搜索引擎谷歌进行问卷调查评分的平均值对于上面的指标为:5.8、5.69、5.55、5.81、5.63、5.18、5.64、5.64、5.5、5.9、5.57。高校学生对搜索引擎必应进行问卷调查评分的平均值对于上面的指标为:4.44、4.69、4.86、5.05、5.06、5.02、5.11、5.03、5.02、5.08、4.87。高校学生对搜索引擎搜狗进行问卷调查评分的平均值对于上面的指标为:4.44、4.49、4.84、5.12、5.06、5.15、4.73、4.82、4.74、5.01、4.64。高校学生对搜索引擎雅虎进行问卷调查评分的平均值对于上面的指标为:4.37、4.42、4.69、4.84、4.89、4.76、4.76、4.85、4.82、4.89、4.73。高校学生对搜索引擎好搜进行问卷调查评分的平均值对于上面的指标为:4.11、4.32、4.5、4.83、4.69、4.86、4.48、4.64、4.66、4.85、4.55。高校学生对搜索引擎有道进行问卷调查评分的平均值对于上面的指标为:4.01、4.18、4.43、4.85、4.72、4.75、4.53、4.6、4.6、4.64、4.6。

我们根据层次分析法得到的指标权重以及高校学生问卷调查的结果,计算了百度、谷歌、必应、搜狗、雅虎、好搜、有道搜索引擎得分并进行了搜索引擎排名。搜索引擎谷歌排名第一,总分5.643732;搜索引擎百度排名第二,总分5.524589;搜索引擎必应排名第三,总分4.82446;搜索引擎搜狗排名第四,总分4.718028;搜索引擎雅虎排名第五,总分4.620574;搜索引擎好搜排名第六,总分4.490624;搜索引擎有道排名第七,总分4.398873。表3 问卷调查的结果

对于被调查的七大搜索引擎,谷歌的综合得分最高,排名第一。国内最大的搜索引擎百度排名次之,其布局合理性、交互性、使用复杂度、链接方便性、响应速度、丰富性指标得到最高的评价。而必应、搜狗、雅虎、好搜、有道分别排名3到7位,且综合得分与前两名差距较大。这些搜索引擎的各项指标得分都较低,还有待改善。

5 结论

搜索引擎研究篇3

【关键词】SEO;网站推广;网站优化

SEO( search engine optimization) 即搜索引擎优化,其主要工作是了解各类搜索引擎的特点和工作原理, 以此为基础对网页进行优化完善, 提高其在搜索引擎的排名,从而进一步提高网站的访问量, 最终提升网站的销售能力或宣传能力。由于用户在互联网检索信息时,通常的手段是使用搜索引擎(如百度、谷歌等)进行搜索。因此,在网络推广领域,搜索引擎优化就具有了举足轻重的作用,从而备受广大网站的重视。 SEO,是遵循搜索引擎科学而全面的理论机制,对网站结构、网页文字语言和站点间的互动外交策略等,通过进行合理的规划部署,来发掘网站的最大潜力。使网站对搜索引擎更友好(Search Engine Friendly),使其在搜索引擎中具有较强的自然排名竞争优势和较多的收录数量,。

1 SEO的目的分类及作用

由于各大搜索引擎在排名算法均是以“为搜索用户带来良好的搜索体验”为指导思想,所以各大搜索引擎基本搜索策略大同小异。通过掌握SEO技术,可以提高网站被搜索引擎捕捉质量,在检索结果中获得较好排名的机会,进而方便搜索引擎检索信息并对浏览者返回具有足够吸引力的检索信息。通过这个目的引导浏览者点击企业网站,提高网站访问量。

通过SEO目的分类主要有以下几种:首先是吸引搜索引擎上的潜在客户光顾网站本身,了解并购买搜索的产品。例如:各种网店、销售型企业网站等。希望获得来自搜索引擎的大量流量,向浏览者推介某一实体或虚拟产品。例如:生产型品牌企业网站、交友网站、会员模式站点等。其次是力图从搜索引擎引来充足的访问量,来扩大品牌的知名度。例如:中国移动、国美电器等。依靠搜索引擎的流量,并将这个流量作为产品吸引广告商来网站投放广告。例如:谷歌广告、阿里妈妈、百度推广等。再就是力图让搜索引擎给网站带来大量流量,以使网站的业绩指标攀升,提高ALEXA排名,从而吸引投资者或者被收购。

2 面向搜索引擎的网站建设策略

2.1 更好地让搜索引擎收录网站中的内容

由于搜索引擎只能读懂文本信息,所以重要的内容或链接,应使用文字而不是flash、图片、JavaScript等来显示。另外也应避免使用frame和iframe框架结构,否则这部分内容也将无法被搜索。

理想的网站结构应该是更扁平一些,从首页到内容页的层次尽量少,这样搜索引擎处理起来会更简捷。建议采用树型结构,即分为以下三个层次:首页——频道——文章(内容页)。后期网站内容增多时,可通过细化树枝(频道)来应对。

细节上,应当需注意网站应该没有断链。确保每个页面都可以通过至少一个文本链接到达,网站内重要的内容,应该能从首页或者网站结构中比较浅的层次访问到。应当合理分类网站上的内容,但不要过度细分。同时,网站导航应该简明、清晰,不但可以让浏览者快速找到所需内容,同时也可以帮助搜索引擎更好地了解网站的结构。为此,应为每个页面都加上导航栏;对于内容较多的网站,使用面包屑式的导航(如:首页>频道>当前页),以便让浏览者理解当前所处的位置。当使用图片做导航时,可以使用Alt注释,用Alt告诉搜索引擎所指向的网页具体内容。

应当注意的是,在网站设计之初,就应该有合理的URL规划。应创建具有良好描述性、规范、简单的URL。网站中同一网页,只对应一个URL,以防止多个URL形式分散该网页的权重。 此外,网页的开发是采用动态还是静态对搜索引擎没有影响,但建议尽量减少动态网页URL中包含的变量参数,以减少让搜索引擎掉入黑洞的风险。

2.2 在搜索引擎中获得良好的排名

良好的排名不仅在于网站被搜索引擎收录的内容多少,更取决于title、内容建设等方面的优化。Title(网页标题)用于告诉浏览者和搜索引擎这个网页的主要内容是什么,搜索引擎在判断一个网页内容权重时,title是主要参考信息之一,每个网页都应有独一无二的title。根据网页所在位置,title通常应描述为:首页可以是“网站名称”,或者是“网站名称_提供服务(或产品)介绍”; 频道页如“频道名称_网站名称”;以及文章页:如“文章名_频道名称_网站名称”。内容建设以服务网站核心价值为主,提供给搜索引擎收录的也应该是对自己核心价值有帮助的内容。因此,网站展现是否是原创内容至关重要。

做到了以上工作,开应当赢得浏览者对网站的推荐。当网站上的内容对浏览者有用时,他就有可能推荐给其他人,无论通过论坛的转帖、博客文章,或在自己网站上做友情链接等,这些推荐信息都会被搜索引擎用来判断网页或网站价值的高低。

3 网站后期维护的关键要点

为了保证网站的收录数量以及排名稳步上升,网站的日常维护更应注重。首先是不要频繁地对网站改版。搜索引擎每次对网站捕捉时,都将本次收录的页面与上次收录的页面进行分析对比,一旦有大的不同,就会认为这是一个新的网站,从而将网站列入考查期,减少检索次数,并降权。在网站内容上,应当及时的进行更新。搜索引擎检索收录网站的频度,将尽量与网站更新同步,因此,有规律、频繁地更新网站内容,可以让搜索引擎更好地收录。

4 结束语

SEO技术虽然包括很多方面,但宗旨就是使网站对搜索引擎更加友好。搜索引擎的收录和排名规则也会不定期地调整完善,因此SEO需要不断观察、研究,从而适应各种变化。目前,网站SEO 技术日渐成熟, 对网站优化的效果越来越好, SEO网站优化是一个完整的系列优化过程, 从网站结构栏目布局, 到具体网页标题、关键词、域名、链接等内容的设计, 都需要考虑其在搜索引擎下的表现效果。SEO 技术提出了很多解决网站优化的问题。但是具体实现还需要网站设计维护人员不断研究自身网站的特点, 研究高效的SEO策略, 不断更新网站内容, 增加网站流量, 进而增强网站的市场竞争力。

参考文献:

[1]刘文云,袁兆勇.面向搜索引擎的关键词优化统计分析——以我国情报学核心网站为例[J].情报杂志,2013(01).

[2]周丹,李春若.构建电子商务信息系统的技术难点及解决方案[J].信息与电脑(理论版),2012(07).

[3]唐雅媛.基于搜索引擎的网络蜘蛛实现原理的研究[J].湖南科技学院学报,2006(11).

[4]王永策,张义良.搜索引擎优化(SEO)的认识误区及优化技巧[J].萍乡高等专科学校学报,2010(03).

[5]李立威,王晓红,薛万欣.基于SEO的中小企业网站信息编辑策略研究[J].现代情报. 2010(12).

[6]张娜.SEO技术在电子商务网站中的应用[J].中小企业管理与科技(上旬刊).2011(01).

搜索引擎研究篇4

关键词: 搜索引擎;网络爬虫;实现;设计;主题

中图分类号:TP393 文献标识码:A 文章编号:1009-3044(2016)17-0023-02

Abstract: In the information age, the Internet is full of all aspects of our lives, and the application of the search engine for our life brought great convenience .The research on the realization of web crawler in search engine is of great significance to improve the efficiency of search engine. This paper analyzes the realization of the web crawler in the subject oriented search engine, and puts forward the corresponding methods and measures.

Key words: Search Engine; Web Crawler; Implementation; Design; Theme

1 概述

使用搜索引擎,人们可以方便快捷地在网上获取有用信息。随着大数据时代的到来,传统的通用搜索引擎面临着索引规模、更新速度和个性化需求等多方面的挑战。主题搜索引擎以提供分类精细、数据全面、更新实时的搜索服务为目标。网络爬虫是搜索引擎的基础模块,是搜索引擎的重要基础。

网络爬虫是一种能自动提取网页内容的程序,利用网页信息格式进行网页分析,也可以定期搜集某个或某些网站的内容,跟踪网站的发展历程。随着网络爬虫技术的快速进步,网络爬虫更加广泛地运用于网站结构分析、个性化信息获取以及用户兴趣挖掘等多种服务中。

2 主题搜索引擎简述

搜索引擎是一种用来在万维网上检索资源文件的计算机程序。搜索引擎根据用户输入的检索关键词推测出用户的查询意图,然后快速地返回相关的查询结果信息供用户使用。

大数据时代互联网数据爆炸性地增长,急切地需要一种快速、准确细致、全面深入且更新及时的信息检索方法。主题搜索引擎克服了传统搜索引擎的诸多困难,使信息检索变得更加精确细致,使搜索到的信息更加全面深入,同时使专题信息和学科信息的更新更加及时。

3 网络爬虫简述

网络爬虫从一个初始URL队列开始,从中获取一个URL,获取网页,从网页中提取所有的URL,并将新的URL添加到URL队列中。然后网络爬虫从队列中获得另一个URL,重复前面的过程,直到达到停止条件。这种爬取资源的方式存在着网络连接不稳定、网页特征多样化、URL不规范等一些问题。

4 网络爬虫分类

第一个网络爬虫是美国麻省理工学院的学生Matthew Grey于1993年写成,后来改进了爬虫程序并将其引入到搜索引擎中。随着搜索引擎技术的不断进步,爬虫程序也越来越复杂,后来产生了通用爬虫、限定爬虫和主题爬虫等几种不同类型的爬虫。

4.1通用爬虫

基本原理上文已分析,但爬取的范围过大,爬取顺序要求低,对爬取速度和存储空间要求较高。

4.2限定爬虫

限定爬虫是一种能爬取用户感兴趣的某一类网页的爬虫程序。但它不要求爬取所有的网页,只需爬取某些特定种类的网页即可。工作过程是:采用朴素贝叶斯方法用网页样本训练一个文本分类器,然后用这个文本分类器指导爬虫的偏好,从爬虫队列中选择出用户感兴趣的网页。

4.3 主题爬虫

主题爬虫先确定一个或多个主题,根据一定的分析算法过滤与主题无关的URL,保留与主题相关的URL并将其放入等待URLs队列中;然后使用某种搜索策略从等待队列中选择下一个要抓取的URL,并重复上述过程,直到达到某种停止条件。

首先主题爬虫需要判定当前抓取与设定的主题的相关性,其次主题爬虫采用按相似度大小抓取网页的策略来抓取网页。相比通用爬虫它极大地节约了硬件和网络资源,加快了爬取速度,还可以满足人们对特定领域的需求。

5 主题爬虫的爬取策略

主题爬虫以通用网络爬虫为基础,在此基础上进行优化和扩展,使其具备主题网络爬虫特有的功能,进而实现面向主题的网页信息提取。

主题爬虫尽可能搜集与主题相关的网页,减少下载无关网页的可能。主题爬虫与通用爬虫相比需要解决以下问题:主题的描述和定义、网页内容与主题相关性的判定、链接重要程度的判定、如何提高主题爬虫资源覆盖率。

面向主题的信息采集系统可分为4个部分,即主题集选取、Web信息提取、页面预处理、链接过滤。

5.1 主题集选取

主题网络爬虫中,为有效进行剪枝和过滤操作,需要对主题进行定义或描述,以此来确定采集的方向,主题集的好坏直接影响到了最终的采集效果。主题可以是几个关键词,还可以是自然语言。用户可以自己定制主题,对主题做进一步的描述。主题集的合理选择是主题爬虫的基础。

5.2 Web 信息提取

从采集起点开始,主题爬虫开爬取Web上的信息资源,通过各种Web协议自动爬取站点的有效信息。为了高效地获取信息,主题爬虫系统中大多都采用了多线程的方式来提取Web信息。

5.3 页面预处理

把主题爬虫抓取到的Web页面规范化,主要包括:页面语法分析,页面去噪等操作,提取网页中的有效信息,然后判定网页信息的主题相关性,过滤与主题无关的页面,从而提高主题爬虫的主题信息提取的准确性。

HTML网页内容可以从正文、标题、标记信息、链接信息等方面反映。因此,对网页信息的提取只需将这些特征信息提取出来。读取页面时,找到标记,将标记中间的内容中的所有标记去除,就得到了页面正文;标记中的内容就是网页的标题,它显示在标题栏中。

即使提取的URL通过了主题相关性判别,提取到的页面内容与设定的主题也可能有很大差距。所以,在页面提取之后应对页面信息进行与主题相关性判别,淘汰与主题无关页面。

5.4 链接过滤

要提高主题Web信息的提取速率和准确性,系统需对采集到的UI进行URL和主题的关系的判定,叫做链接过滤,或链接预测。

链接过滤常用的算法是EPR算法。在链接关系的基础上加入针对链接的相关主题的权重,再引入链接网页之间的主题相关度权重,使产生的重要页面是针对某一主题的,这形成了EPR算法。

6 结束语

网络爬虫的发展为搜索引擎的成功奠定了坚实的基础,然而随着互联网技术的迅速发展,人们对搜索引擎的需求越来越大,信息检索服务也在向着个性化、精细化的方向发展,人们对网络爬虫的进一步设计优化提出了更高的要求。

主题爬虫核心问题是主题页面群的采集和无关页面的过滤问题。网络爬虫具有重复性,如何将页面动态变化的规律与先前的搜索统计结果相结合,提高爬取效率是一个值得研究的问题。目前网络爬虫采用的搜索策略都较固定,缺乏适应性,如何提升爬虫的自适应性有待进一步研究。

参考文献:

[1] 刘金红,陆余良.主题网络爬虫研究综述[J].计算机应用研究,2007,24(10):26-29,47.

[2] 盛亚如,魏振钢,刘蒙.基于主题网络爬虫的信息数据采集方法的研究与应用[J]. 电子技术与软件工程,2016(7):168-169.

[3] 梁萍.搜索引擎中网络爬虫及结果聚类的研究与实现[D].中国科学技术大学,2011.

[4] 于娟,刘强. 主题网络爬虫研究综述[J].计算机工程与科学,2015,02:231-237.

[5] 杨文刚,韩海涛. 大数据背景下基于主题网络爬虫的档案信息采集[J].兰台世界,2015(20):20-21.

搜索引擎研究篇5

关键词:油田信息;专业搜索引擎;Web技术

中图分类号:TP391.3 文献标识码:A 文章编号:1007-9599 (2012) 12-0000-01

随着科学技术的发展,信息时代的到来,企业的快速发展,目前企业信息化的兴起,不仅提高企业的工作效率,并且也为企业创造了更多的价值。这些信息以及数据如同企业的财富宝贵,如果不能及时利用,不仅会导致企业的市场竞争力下降,而且对企业的发展也将会有一定的呆滞。本文主要以某油田信息资源为主要平台,设计油田信息专业搜索引擎。

一、专业搜索引擎

信息资源的检索不仅包括市场状况、产品生产、销售以及供应商等多个方面,并且对于不同的企业由于生产特点、产品的类型以及经营方式等不同,从而将会造成企业信息检索的属性以及关键词也就不同,比如对于自动化仪表的生产与计算机生产和汽车生产在产品设计、制作属性以及应用等都有所不同,所以如果在信息检索中依然笼统的进行检索,则就很难检索到对企业有价值或者准确的信息。所以在信息搜索引擎设计的过程中应该根据企业自身的特点,设计具有针对性的搜索引擎系统[1]。

二、Web技术应用于搜索引擎装置

良好的专业搜索引擎装置不仅可以搜索到文档数据,而且也能够搜索到其他的数据以及资源,并且还能够和其他的信息资源进行相互交换,但是对于一般的搜索引擎是没有这种功能的,因此将搜索引擎与新的信息系统相融合,不仅需要中间软件,而且在使用中对于系统的维护也是非常困难的,但是将Web技术应用于信息搜索引擎,不仅不会受到语言或者某种平台的限制,并且对于防火墙也是非常友好的,还能够为模块以及系统之间的整合和交换提供有力的条件。

三、油田信息搜索引擎系统的设计

(一)油田信息搜索引擎总体结构

油田信息搜索引擎是Web技术的模块化处理以及分布式计算的一种模式,它的总体结构如下图1所示:

如上图1可以看出此设计方案主要包括资源注册模块、资源站点模块、Web查询接口模块、索引服务模块以及资源检索模块等五个模块。下面具体进行分析资源注册模块。资源站点模块、Web查询接口模块的应用以及实现:

(1)资源注册模块。在油田信息网络中资源注册模块主要是对资源站点模块的注册,在注册后通过UDDI进行查找,其中UDDI的数据核心结构主要是商业实体的服务、商业实体以及的技术信息、技术指纹等,资源注册模块通过UDDI注册并自己的不同的服务,然后采用服务技术具体进行参数以及接口等,这样就能够明确得出哪个站点具有什么样的特定服务。

(2)资源站点模块。在油田信息搜索引擎中,资源站点模块是信息以及数据的最初的提供者,并且能够进行区分专用数据和公用数据,其中对于油田信息来说专用数据主要有地质数据、试井数据、钻井数据以及测井数据和分析化验数据等[2]。资源站点模块的主要功能是把有价值的资源信息提供根据一定的关系,提供给油田专业搜索引擎中,并生成资源索引信息。

(3)Web查询接口模块。在油田信息专业搜索引擎系统中,如果用户采用关键词搜索时,首先进行分解搜索请求,然后采用搜索信息系统进行搜索与关键词相关的网页,这些网页对于此关键词来说,仅仅需要进行综合信息或者对网页级别形成相关度的数据,并根据数据的相关度进行排序,最后将生成的网页信息以及数据传递给用户,为用户提供有价值的信息和数据。

(二)工作流程

对于上述设计的油田信息搜索引擎系统的工作主要按照下面几个步骤实施的:

(1)首先油田信息搜索引擎系统中的资源站点模块把服务通过UDDI注册并服务,并有UDDI系统注册的服务模块向Web接口提供相关的服务,从而能够使外网与本站点相互连接。

(2)然后油田信息搜索引擎系统中资源检索模块在获取服务模块的服务信息后,从Web接口处提取有价值信息,资源检索模块把信息作为源数据存储早本地的文件中,

(3)接着有索引服务模块对本地文件夹中的信息数据进行分析,并把信息存储到索引数据库中。

(4)在用户采用Web接口进行查询信息时,Web接口的程序首先进行查询数据,并进行划分关键词,然后再到索引数据库中进行查询,最后将搜索到的信息反馈到用户端[3]。

四、应用效果

在油田信息专业搜索引擎系统中应用Web技术具有一定的实用性和可行性,并且也具有非常大的优点,不仅能够为用户提供更加快捷方便的信息资源搜索系统,而且还能够有效保护油田信息数据资源的机密性,从而能够极大程度的实现油田数据信息资源共享。

参考文献:

[1]许军.基于Web技术的网络制造资源专业化搜索引擎研究[J].电脑编程技巧与维护,2009,16:71-73

[2]K.D.Bollacker,S.awrence,C.L.Giles.Discovering Relevant Scientific Literature on the Web[J].IEEE Intelligent Systems,2000,2

搜索引擎研究篇6

关键词:搜索引擎 ;网络营销;旅游业

Abstract:In today′s “eyeball economy” era,consumer′s attention is very limited under the situation of Internet′s a mass of information. Enterprises attract the attention of potential consumers annihilated by information has become an important source of competitiveness, so search engine marketing has also reflected tremendous business value. At the same time, Internet users more and more rely on search engines, making search engine marketing is more and more attended by enterprises, and also making tourism industry′s reliance on the internet increases gradually.

Key words:search engine;Internet marketing; tourism industry

在Web 2.0时代的今天,互联网已经影响到人类生活的各个方面,互联网正在彻底改变着人们的生活习惯,网络营销已成为每个企业不可忽视的重要的营销策略。搜索引擎营销(Search Engine Marketing)根据用户使用搜索引擎的方式,利用用户检索信息的机会尽可能将营销信息传递给目标用户,体现了在当今体验经济背景下,市场营销越来越注重与消费者进行互动沟通的趋势。同时,互联网用户对搜索引擎的依赖程度不断加深,也使得搜索引擎营销越来越受到企业的重视。根据艾瑞市场咨询公司的调查报告显示,中国已经超越美国,成为全球首个每月搜索请求超过100亿次的国家,创下了全球互联网最新的世界纪录。

作为文化产业重要组成部分的旅游业,对互联网的依存度极高。全球搜索引擎巨头Google在一份针对在线旅游业的调查报告中指出:互联网在提升消费者的信息获得能力方面作用显著,82%的受访者认为互联网是取得旅行信息最有用的媒体来源,97%的受访者在线上查找或购买旅行产品或服务时,使用了搜索引擎。旅游企业的搜索引擎营销也日益受到专家学者的关注,在“2007年全球搜索引擎营销大会”上,第一次尝试为旅游行业开辟专门的议题,使得搜索引擎营销的相关理念与具体行业的实际应用相结合。因此,探讨旅游企业如何正确而有效地实施搜索引擎营销具有重要的意义。

一、搜索引擎营销的主要模式

搜索引擎营销不同的发展阶段存在不同的营销模式,本文就目前最常见的几种模式展开论述。

(一) 搜索引擎优化

搜索引擎优化是用于提高网站自然搜索排名的一系列技术和方法。网络营销专家冯英健认为:搜索引擎优化是指按照规范的方式,通过对网站栏目结构、网站内容、网站功能和服务、网页布局等网站基本要素的合理设计,提高网站对搜索引擎的友好性,使得网站中尽可能多的网页被搜索引擎收录,并且在搜索引擎中获得好的排名,从而通过搜索引擎的自然搜索获得尽可能多的潜在用户。搜索引擎优化的着眼点并非只是考虑搜索引擎的排名规则,更重要的是要为用户获取信息和服务提供方便,符合“体验经济”时代顾客对商家的要求。

相对于其他几种搜索引擎营销手段,搜索引擎优化(SEO)的技术性较强,成本主要是聘请搜索营销顾问的费用。在美国,如果找一些搜索营销公司来帮助企业针对重要的关键词来优化网页,收费通常从5 000-20 000美元不等,在我国要相对便宜一些,通常在几千至几万之间,根据公司所消耗的成本而定,如关键字分析、页面布局、代码调整、结构分析、标签分析、外部链接改善等。但是搜索引擎优化(SEO)也为企业提供了独特的收益和价值。调查显示,搜索者对于自然搜索结果具有更高的信任度,他们也就成为质量更高的搜索者,能够最大限度地实现网站的目标,从而带来更高的转化率。

(二)固定排名

固定排名是指企业与搜索引擎供应商商定以一定价格将公司网站放置在固定位置的一种方式。这种方式使企业网站不必为了与竞争对手争夺排名而陷入非理性的关键词价格战泥潭,但同时它也存在不足,例如当市场上对某一关键词变成“冷门”时,企业却仍然要以“热门关键词”的固定高价去取得好的排名,造成了企业资源的浪费。

(三)关键词竞价排名

关键词竞价排名的先后并不固定,而是根据企业出价的高低来决定。随着搜索引擎技术的发展,全球搜索引擎巨头Google又提出了一种“混合竞价排名”的方法,即除了价格以外,还要看网站点击率的高低,这样有效地避免了企业陷入高价格战的恶性循环。竞价排名是一种高度优化的资源配置方式,这种方式对企业的价值体现在其对广告界的一句名言的改写,即“我的广告费有50%是浪费的,但是我不知道是哪50%”。当企业使用竞价排名以后,增强了广告的针对性,只要用户没有进入企业的网站,那么企业就无需为这种推广付费,有效地节约了广告投入中浪费的那50%。

二、旅游业搜索引擎营销策略的制定

旅游业搜索引擎营销策略的制定首先从旅游企业所面临的内外部环境分析入手,还要调查研究搜索者的搜索行为模式,把握好“用户体验”这一影响策略成功的重要因素。旅游业的搜索引擎营销策略需要组织内部很多人的支持,因此需要制定非常清晰的营销计划,科学地组织实施搜索引擎营销,并积极地与其它营销方式相组合,以提高营销效果。

(一)旅游市场营销环境分析

旅游市场营销环境是指影响旅游企业市场营销活动有关的一切内外部因素和力量的总和,包括宏观环境和微观环境。从宏观环境角度来看,我国“十一五”以来,经济持续健康发展,人民物质生活水平有了大幅度的提高,开始追求精神层面的满足感,旅游市场迎来了发展的机遇。同时,互联网经济的浪潮冲击着传统旅游业,出现了许多依托互联网的在线旅游企业,比如旅游预订网站携程、艺龙等。在互联网经济下,由于信息的爆炸式增长,导致消费者注意力成为稀缺资源,旅游企业如何赢得旅游者的注意力是取得成功的第一步。搜索引擎营销适时而出,它不仅代表着互联网技术的发展,而且促进了消费者与旅游企业之间的互动和沟通。

微观环境的分析主要从四个角度出发:旅游消费者、竞争对手、旅游企业自身、旅游服务中介企业。旅游消费者作为搜索者,他们的行为模式已发生根本性的变化,营销人员需要对其行为模式进行分析;搜索引擎对于竞争对手情报收集工作具有非常重要的价值,在制定搜索营销策略之前,企业可以利用搜索引擎来调查研究竞争对手的动态;对于旅游企业自身而言,主要是要合理配置资源,制定科学的营销组合策略;旅游服务中介企业主要指搜索引擎营销平台,如Google,Yahoo!,百度等,旅游企业需要分析这些平台的特点,做出合理的选择。

(二)调查研究搜索者的搜索行为模式

在搜索经济时代,依靠搜索引擎开展旅游活动的消费者与传统的消费者具有不同的行为模式,消费者使用搜索引擎的一个最基本特征就是对搜索结果不同页面的关注程度:据美国搜索引擎营销专业服务商iProspect(iprospect.com)于2002年11月份的一项调查结果表明:75%以上的用户使用搜索引擎,56.6%的用户只看搜索结果前两页的内容,大约16%的用户只看搜索结果的前几条内容,只有23%的用户会查看第2页的内容,查看前3页的用户数量下降到10.3%,愿意查看3页以上内容的用户只有8.7%。把握这个基本特征对于评估搜索营销效果有一定的意义。

另外,需要把握搜索者的需求特点。笔者在此借用雅虎的Research Fellow和新搜索技术副总裁Andrei Broder对于搜索者的分类来分析搜索者的需求特点:导航型搜索者(Navigational Searchers)要寻找特定的网站,可能因为他们不知道确切的网址,使用的搜索请求如“E龙网”“携程网”“希尔顿饭店”等;信息型搜索者(Informational Searchers)需要信息来回答他们的问题或者了解新的主题,使用的搜索请求如“北京的旅游景点介绍”“贵州饭店的分布”等;交易型搜索者(Transactional Searchers)想要做些事情(如买东西,注册,参加竞赛等等),他们使用的搜索请求如“机票预定”“饭店预定”等。这三类搜索者并不是截然分开的,有的搜索者可能会先查询信息,成为信息型搜索者,掌握信息后马上进行交易,便转变为交易型搜索者。

对搜索者类型的了解能够帮助搜索营销人员事半功倍地吸引更多的搜索者。通常一个导航型的搜索者明确知道自己想去哪里,他们需要的就是进入这家公司网站的首页。因此,搜索引擎营销人员首先需要保证搜索引擎能够正确链接到公司的首页,然后确保搜索引擎在搜索结果页面中有对公司主页很好的描述,使搜索者的注意力不被流失。信息型搜索者还没有确定他们要购买的产品或服务,搜索的主要目的是收集信息以帮助他们做出决策,因此要通过网页优化来提供产品或服务的相关信息,帮助他们了解情况,使他们成为选择性需求的搜索者。交易型搜索者的目的是快速完成交易,因此企业在做搜索营销时要注重便捷性这样一个用户体验点,将网页的内容编辑得简洁易懂,使顾客能够较快完成交易。

(三)制定搜索引擎营销计划

1.搜索模式的选择计划。即选择自然搜索、付费搜索还是两者兼而有之,以及选择自然搜索服务后如何做搜索引擎优化,选择付费搜索后如何管理竞价。自然搜索主要依靠搜索引擎优化技术来获得高的排名,这种模式具有持续的效果,当优化了一个网页以后,很长一段时间都能够保持较高的排名,但是优化工作非常复杂。而付费搜索的时间短、工作量少。付费放置在搜索引擎营销中变得越来越流行,据统计,Google95%的收入都来自付费广告。旅游企业应该对这种模式引起重视,有效地将一部分资源配置在付费模式上。但对于希望取得长期效果的企业应该将资源配置到自然搜索模式上。

2.搜索引擎营销平台的选择计划。即选择全球性的搜索引擎,如Google或者Yahoo!,还是企业业务所在地的本地搜索引擎,如我国的百度、波兰的Onet.pl(onet.pl)、欧洲的Seekport(seekport.co.uk)等。搜索引擎营销平台的选择除了需要考虑各个搜索引擎的特点以外,还需要考虑本企业的业务范围。如果公司业务只专注于国内市场,那么就应该选择国内市场上占主导地位的搜索引擎,如百度、谷歌等;如果公司的业务遍及世界各个国家,除了考虑全球性的搜索引擎外,还要注意国外市场的本地搜索引擎平台,通常这些本地搜索引擎平台由于其本土化的优势能够占据搜索市场的重要位置。

3.是关键词计划。雅虎提供的“关键词选择工具”(inventory.overture.com/d/searchinventory/suggestion)可以作为搜索引擎营销人员选择关键词的一个参考工具。这个工具能够显示近几个月某个关键词的最热门的搜索请求,搜索引擎营销人员可以选择其中的一些热门词来做竞价,还可根据网站自身的内容特征,选择一些竞争对手不会涉及的较冷门的关键词。此外,关键词的选择还可以借助专业机构的帮助,由外包团队来做。

4.预计搜索营销成本。搜索引擎营销的成本主要在于三方面:搜索引擎优化的成本、聘请外包人员的成本、付费放置的成本。搜索引擎优化对于旅游企业来讲主要是时间成本,每个网页的优化工作都是一项繁重的工程,这对于那些面临激烈市场竞争,急于取得竞争优势的企业而言代价太高。除此以外,由于搜索引擎优化涉及技术方面的知识较多,可能需要聘请外包人员,在美国,要针对自然搜索来优化网页,通常每个网页需要100-200美元。付费放置在各个搜索引擎平台上针对不同的关键词有不同的价格,这也是搜索引擎营销不可忽视的一项成本。

(四)实施搜索引擎营销计划

1.合理选择关键词提高转化率。旅游企业要根据搜索者的特点及搜索习惯合理选择关键词,如有的导航型用户不知道艺龙网的确切名称,他会输入诸如“艺龙”“E-long”“elong”这些企业名称的错拼词,艺龙网可以针对导航型用户的这些特点选择关键词。当交易型用户需要进行交易时,他们的目的更明确,因此往往喜欢输入组合关键词来缩小搜索范围,如“打折机票 上海至北京”。同时需要注意,关键词不要太“热门”,比如对于旅游企业要想通过“旅游”这一关键词来得到高的排名所花费的费用比普通关键词要高几倍甚至是几十倍。并且,这些“热门”关键词由于太过于宽泛,搜索这类词的客户目的并不明确,从而导致点击率高但是转化率低这样糟糕的结果。

2.运用搜索引擎优化(SEO)方案来达到营销目标。搜索引擎优化方案主要包括:优化网页内容及吸引外部链接。旅游企业在优化网页内容时,需要把握两个原则:第一,网页内容要对搜索引擎友好,即能够吸引搜索引擎,获得高的排名;第二,内容要对旅游搜索者友好,能够满足不同类型搜索者的需要。营销人员在做网页内容的写作时,不能只是为了得到搜索排名而仅仅去“迎合”搜索引擎,而忽视旅游搜索者的用户体验。要将注意力放到潜在旅游者身上,牢记公司网站的目标是提高转化率。携程网的网页内容的编辑就体现了其围绕“以客户为中心”的携程经营理念,其网页分为酒店、国内国际机票、度假、商旅管理、目的地指南等几大版块,每一版块都以旅行者在整个旅游过程中会碰到的问题为指导来设置,全面快捷地满足客户的需求。

优化自然搜索的另一个方面是网站链接的建立,三大英文主流搜索引擎Google、Yahoo!、MSN将外部网站的链接作为网页排名算法第一位考虑的因素,他们认为企业链接越多高质量的网站,其信誉程度越好。康辉旅行社的主页链接了中国旅游网、北京旅游信息网、上海旅游网等各个政府旅游网站以及各个旅游协会的旅游网站和一些国外旅游局的网站,这些链接提升了康辉旅行社在百度的排名。康辉旅行社借助于在百度上的搜索营销,大大提升了其网站的访问量,吸引了大批的游客。

3.合理选择竞标管理工具。竞标管理工具能够自动调整付费放置竞价并搜集点击和转化数据,为企业控制搜索引擎营销效果提供方便。选择竞标管理工具取决于企业使用的搜索引擎方式,当计划只使用一个付费放置引擎,如谷歌或者雅虎,或者付费搜索预算不多时,可以使用这些搜索引擎供应商提供的免费工具;当搜索引擎平台有多个或者有足够的付费搜索费用时,可以购买第三方的付费管理工具,它能够实现跨搜索引擎检测整个付费搜索过程。

4.到达页的优化。到达页是指访客通过搜索引擎进入企业网站时所打开的第一个页面。到达页优化(Landing Page Optimization,简称“LPO”)泛指为了提升网站流量转化效果而采取的着陆页视觉效果和核心内容优化工作。到达页优化目标是使得到达页在内容上包含搜索者正在搜索的信息,并且这些信息能够非常明显地展现在搜索者面前。如当旅游者输入“预订打折机票”时,从搜索结果页面进入的网站到达页必须是对应于“打折机票”这一重要信息,而不能是别的页面,如网站的主页。

(五)搜索引擎营销组合

1.搜索引擎营销四种模式的组合。搜索引擎优化(SEO)、关键词广告、固定排名、竞价排名四种模式并非完全排斥,他们各有优势、互为补充。比如在营销预算允许的条件下,旅游企业可以组合使用SEO和竞价排名,SEO能够长远的在根本上帮助企业网站获得高点击率及高的转化率,而竞价排名则是能够让企业以最快的速度获得高排名,吸引搜索者的注意力。如e龙网综合了两种模式,对“酒店预订”、“深圳酒店”、“香格里拉酒店”、“打折机票预订”等体现网站特色的词在百度上做竞价,而对一些竞争激烈的关键词,如“酒店”、“旅行”等实施SEO的方式。这种做法能够吸引高质量的搜索者、提高用户的转化率、节省营销成本。

2.搜索引擎营销与其他营销手段的组合。将搜索引擎营销与电子邮件营销相结合能够有效降低电子邮件营销的盲目性。电子邮件营销可以起到品牌形象推广、在线调查等功能,这种营销方式信息传播覆盖面广、成本低,但是它是一种强制性的营销方式,缺乏与消费者的互动沟通,会引起那些非目标客户的消费者反感。而整合搜索引擎营销策略后,可以利用搜索引擎营销识别出企业的目标客户,从而减少用户反感,达到有效传播的目的。在线旅游企业还可将搜索引擎营销与传统的营销手段组合起来,借助传统营销手段达到提高企业网站知名度的目的。如在携程网创办初期,就是靠在机场、火车站散发携程的宣传手册而被广大旅游者所熟知。

总之,以互联网为代表的新媒体对旅游业产生了深远的影响。搜索引擎营销已成为旅游业依托互联网激发新的活力、增强自身竞争力的有力工具。旅游企业要制定科学合理的搜索引擎营销策略,成功运用搜索引擎营销,吸引基数庞大的用户群的注意力,不断提升企业的价值和核心竞争力。

参考文献

[1] Mike Moran ,Bill Hunt.搜索引擎营销——网站流量大提速[M].北京:电子工业出版社,2007.

[2] Catherine Seda.搜索引擎广告——网络营销的成功之路[M].北京:电子工业出版社,2005.

[3] 巫宁.旅游信息化与电子商务经典案例[M].北京:旅游教育出版社,2006.

[4] 刘纯.旅游者行为与旅游业组织行为[M].北京:高等教育出版社,2007.

[5] 陈广胜.网络经济时代搜索引擎营销探讨[J].计算机与信息技术,2007(17).

搜索引擎研究篇7

SEO搜索引擎优化的英文缩写,是指通过采用易于搜索引擎索引的合理手段,使网站各项基本要素适合搜索引擎的检索原则并且对用户更友好(Search Engine Friendly),从而更容易被搜索引擎收录及优先排序。

SEO搜索引擎优化发展趋势是什么:

SEO服务价格

国外和国内一样,有很多网站都声称自己提供SEO服务,价格相差也很大,不过有号召力、可信的SEO公司服务价格相差不是很多。一些小的不太正规的公司也在宣传几百块钱做一个关键词之类的服务,但真正可信赖的SEO公司都不会做几百几千块的项目。

业务多样化

几年前Google大规模数据更新使不少SEO服务公司陷入困境,这些公司都在分散风险,建立多种多样的收入来源。大部分SEO公司都在积极开拓不同的业务,建自己的电子商务网站,这是一个很重要的战略方向的改变,在这方面投入的精力往往在百分之三四十以上。

SEO服务专门化

有一部分SEO专家和公司专注于做SEO的某一方面,比如专做关键词研究、专门做链接建立、专门写文案等。

建立信誉和地位

做得有声有色的SEO公司,绝大部分都有这样一个人:他(她)通过论坛或博客等方式,在业界建立一个标志性地位。客户在寻找SEO服务公司时,提到这个人,行业内都知道有这么一号人物,这对于SEO服务公司来说是非常有好处的,虽然这位人物并不一定直接做具体的项目。

白帽SEO占据话语主流

与国内SEO行业情况相比,国外SEO行业的话语主动权基本上掌握在白帽SEO手里。无论是搜索引擎本身,还是网站设计公司或者客户,对SEO都有比较正确的认识。白帽SEO们在私底下并不一定就那么排斥黑帽SEO和作弊,甚至可能也在偷偷使用黑帽手段。但基本上,在台面上,大家还是都在提倡白帽SEO技术,所以整个行业的氛围比较健康。

国外SEO大多关注高端市场

搜索引擎研究篇8

>> 电子商务网站搜索引擎优化(SEO)策略研究 服装类电子商务网站的搜索引擎优化 电子商务网站的搜索引擎优化策略 某B2B电子商务网站搜索引擎优化应用与分析 浅谈电子商务网站站内搜索引擎 搜索引擎:电子商务类网站访问量排名等 消费类电子产品搜索引擎商务网站设计探索 网站搜索引擎优化研究 搜索引擎:为电子商务做媒 站点搜索引擎排名优化关键点及重要性浅析 面向电子商务的智能搜索引擎技术的研究 搜索引擎营销在B2C电子商务中的应用研究 基于搜索引擎的电子商务新模式初探 搜索引擎在电子商务中的应用分析 微课在电子商务《搜索引擎》课程中的应用 浅析搜索引擎排名 浅议高职院校网站搜索引擎的优化 基于网站搜索引擎优化 为什么要优化网站搜索引擎 网站搜索引擎优化36计 常见问题解答 当前所在位置:l或者.htm结尾的网页都是静态页面。而动态页面是可以进行数据交互的页面,因此很多旅游企业网站都采用动态页面建站。但是“%”、“&”这些符号是搜索引擎是无法解读的,所以这些动态页面很难被搜索引擎的robot抓取到,网页也不会被搜索引擎收录。所以,在搜素引擎优化中,一定要尽量使用静态页面,至少对于重要页面一定要用静态页面。即使建站的时候使用了动态,也应该采用技术使动态页面转化静态页面,使URL不再包括特殊符号,以便于搜索引擎的robot进行抓取。

2.3关键词优化

关键词就是指用户在使用搜索引擎搜寻信息时,在搜索框中输入的与自己想要查找的相关的词语。关键词优化策略的思想是,在页面的主题内容中提取出来与内容相关度最高的词作为关键词,并将这些关键词放到网页的合适位置中,以达到提高在索引结果页面中排名的目的。

2.4链接优化

链接一般分为内部链接、导入链接和导出链接。导出链接的作用在旅游企业网站中很小,下面讨论导入链接优化和内部链接优化。

(1)导入链接优化

对于旅游企业网站来说,高质量的外部链接非常重要。搜索引擎的robot的优先抓取对象一般都是一些重要网站,如果我们的旅游企业网站能链接在重要网站上,搜索引擎的robot就会沿着重要网站的链接找到我们的网站,就能很快地抓取到我们的网站,从而会获得满意的排名。

(2)内部链接优化

内部链接是指在同一个网站域名之下,各个页面之间的相互链接。内部链接非常重要,它可以直接链接到网页内部或者深层次的网页搜索。在旅游企业网站的内部应该尽量增加内部链接,这样不仅方便了用户,同时也有利于搜索引擎的robot抓取。

3结束语

本文介绍了搜索引擎优化对旅游企业的重要作用,提出了旅游电子商务网站排名优化的具体方法。只要旅游企业能够遵循上述方法,就一定可以为旅游企业网站带来源源不断的访问者,从而提高旅游企业的收益。

参考文献

[1] 王专.旅游网站的搜索引擎优化[J].旅游学刊,2007.06.

[2] 张英. 旅游网站的研究探讨[J].商业研究,2009.12.

上一篇:男生贾里读书笔记范文 下一篇:一年级语文下册课文范文