搜索作文范文

时间:2023-10-07 04:26:11

搜索作文

搜索作文篇1

请以“爱憎”为话题,自拟题目作文。

1.爱力愈大,所爱愈博。()

2.假如我的血肉该喂动物,我情愿喂狮虎鹰隼,却一点不给癞皮狗吃。(鲁迅)

3.人总是匆匆忙忙地爱,却总是不慌不忙地恨。([英]拜伦)

4.没有东西比健全的爱更伟大,它导引着一切。(郑振铎)

5.只有强烈的爱,才能产生强烈的恨。(日本谚语)

6.有明确的是非,有热烈的好恶。(鲁迅)

7.青山有幸埋忠骨,白铁无辜铸佞臣。(西湖岳庙对联)

8.横眉冷对千夫指,俯首甘为孺子牛。(鲁迅)

9.君子当有所好恶,好恶不可不明。(唐・韩愈)

秋瑾严辞斥县官

贫苦农民阮财富的田产被当地恶霸教民黄老虎霸占,阮财富告到县衙门,请求县官老爷为他伸冤。县官害怕教会,庇护恶霸,非但不为受害者伸冤,反而诬蔑阮财富:“和信教人作对,要造反不怕国家王法。”要拿他问罪。围观群众敢怒而不敢言。此时正好秋瑾路过衙门,她听完受害者的诉说以后,义正辞严地对县官说:“阮财富的田产被别人霸占去了,怎么落得个没理还要吃官司呢?你讲的是什么王法?他无罪,应该放了!”秋瑾在家乡有名声,县官有几分怕她,于是就把阮财富当场开镣放了。

鲁迅为车夫医脚

“横眉冷对千夫指,俯首甘为孺子牛”是鲁迅人格的写照。对敌人恨,对人民爱,在鲁迅的日常生活中,处处可以看到他的这种高尚人格。有一年的冬天,在他家门口不远处,他见到一位人力车夫双手捂着流血的脚,原来脚被玻璃碴划破了,疼得不能走动。鲁迅很快从家中拿来药品、钳子和纱布,在凛冽的寒风中,他蹲下身子,细心地把车夫脚底的碎玻璃碴用钳子取出来后,又用消毒药水清洗了伤口,敷上药,扎上了绷带。然后扶他站起来,并设法找人送他回家。

齐白石老人的“群鼠图”

著名书画大师齐白石老人爱憎分明,痛恨日本军阀,痛恨汉奸、特务。1937年“七・七”事变后,他在门口贴出一张“告白”,上书:“从来官不入民家。官入民家,主人不利。谨此告知,恕不接见。”拒绝卖画给敌人,拒绝与他们打交道。老人还常常借诗画影射咒骂敌人。他曾画了一幅“群鼠图”,在画上题诗道:“群鼠群鼠,何多如许?何闹如许?既啮我果,又剥我黍。烛灯残天欲曙,严冬已换五更鼓。”严励尖锐地揭露鞭挞了日寇“群鼠”对我国的侵略罪行。

“华人池”洋人不准进

1932年,侨居新加坡的华人著名企业家胡文虎得悉:上海租界内,洋人在公园门口挂着“华人与狗,不得入内”的牌子,他痛恨不已。于是他就修建了一座漂亮的游泳池,命名为“华人池”,在门口高挂着一块牌子,写着:只准华人入内。有一天,两个洋人绕过牌子,偷偷摸摸地跳进泳池,当即被游泳的华人扭送出门。

杨令弗巧斥希特勒

法西斯头子希特勒,为了给自己装饰门面,冒充风雅,在柏林举办了一次画展。旅美中国著名女画家杨令弗也应邀参加。她画了一幅粉墨花鸟画,画的是翠竹数竿,两只鹌鹑怒目相视,在青枝翠叶中争斗。并在画的左上角题上一首《致战魔》的诗。希特勒对这幅富有东方神韵的画很喜欢,并买下了这幅画。

搜索作文篇2

不同寻常的文件搜索

无论是Windows 7还是Windows 8,我们都可以用Win+F组合键来启动Windows搜索工具。Windows 7的搜索工具是一个标准的资源管理器窗口(图1),Windows 8的搜索界面则是一个贴靠右侧弹出的搜索框(图2),二者均在搜索框中输入关键词进行搜索。

该文件搜索的一个鲜明特点是,搜索结果可以被作为一种特殊文件保存,且保存的搜索是动态的,这就意味着每次打开它们时都会有所变化,并导致潜在的搜索查询操作。

例如:我创建一个包含所有DOC和DOCX文件的搜索并保存,第一次搜索结果可能是250个文件,但如果我在电脑中又创建了5个DOC文件,那么当我下次打开此前保存的这个搜索后,发现结果已经是255个而非250个了。可见,这个自定义搜索建立之后仍保持着关联,是动态的。

进一步筛选结果

搜索的结果也许会很多,如果能利用搜索筛选器,缩小搜索范围,那么会更快获得搜索结果。方法是在Windows 7搜索框的任何地方单击,下拉列表中将显示搜索筛选器选项,从中进一步选择筛选条件(如种类、修改日期、类型、大小、名称等)即可(图4)。

将搜索结果保存起来

如果一种类型的搜索是我们经常要用到的,那么没有必要每次都去构造搜索条件,进行繁琐的重复搜索。取而代之的是,我们将这种搜索保存起来供日后重复使用。

最简单的方法是单击工具栏上的“保存搜索”按钮,或者在按下Alt键呼出经典菜单后用“文件保存搜索”菜单命令项保存(图5)。

在保存搜索时,系统也自动地将它添加到资源管理器导航窗口的“收藏夹”列表中。系统使用蓝色的图标表示保存的搜索。显然微软这个功能很体贴。

更丰富的定制服务

搜索作文篇3

关键词:搜索引擎;元搜索引擎;目录搜索引擎;全文搜索引擎

中图分类号:TP391 文献标识码:A文章编号:1007-9599 (2011) 19-0000-01

Talking on the Search Engine

Lin Liyun

(Jilin Business and Technology College,Changchun130062,China)

Abstract:This paper describes the classification of its search engine works,and compare and search engine status.

Keywords:Search engine;Meta search engine;Catalog search engine;Full-text search engine

搜索引擎(search engine)是指根据一定的策略、运用特定的计算机程序从互联网上搜集信息,在对信息进行组织和处理后,为用户提供检索服务,将用户检索相关的信息展示给用户的系统。搜索引擎按其工作方式主要可分为三种:全文搜索引擎(Full Text Search Engine)、目录索引类搜索引擎(Search Index/Directory)和元搜索引擎(Meta Search Engine)。

全文检索是指计算机索引程序通过扫描文章中的每一个词,对每一个词建立一个索引,指明该词在文章中出现的次数和位置,当用户查询时,检索程序就根据事先建立的索引进行查找,并将查找的结果反馈给用户的检索方式。这个过程类似于通过字典中的检索字表查字的过程。其实就是使用动态网页程序自动到网站目录下的所有静态文件记录全文内容到数据库。在用户输入相关词语时,再自动调用相关内容返回,完成搜索。一般这些服务会对服务器资源占用较大,一般适合中小网站使用。

目录索引虽然有搜索功能,但在严格意义上算不上是真正的搜索引擎,与全文搜索引擎相比,目录索引有许多不同之处。以人工方式或半自动方式搜集信息,由编辑员查看信息之后,人工形成信息摘要,并将信息置于事先确定的分类框架中。信息大多面向网站,提供目录浏览服务和直接检索服务。该类搜索引擎因为加入了人的智能,所以信息准确、导航质量高,缺点是需要人工介入、维护量大、信息量少、信息更新不及时。

元搜索引擎在接受用户查询请求时,同时在其他多个引擎上进行搜索,并将结果返回给用户。元搜索引擎(META Search Engine)一般都没有自己网络机器人及数据库,它们的搜索结果是通过调用、控制和优化其它多个独立搜索引擎的搜索结果并以统一的格式在同一界面集中显示。元搜索,也叫Meta搜索,是指搜索引擎之后或之上的搜索引擎,即可以同时查询多个搜索引擎内容的网站。元搜索引擎,通过一个统一用户界面帮助用户在多个搜索引擎中选择和利用合适的(甚至是同时利用若干个)搜索引擎来实现检索操作,是对分布于网络的多种检索工具的全局控制机制。元搜索引擎的优点:元搜索引擎是为弥补传统搜索引擎的不足而出现的一种辅助检索工具,有着传统搜索引擎所不具备的许多优势。但是,元搜索引擎依赖于数据库选择技术、文本选择技术、查询分派技术和结果综合技术等。用户界面的改进、调用策略的完善、返回信息的整合以及最终检索结果的排序,仍然是未来元搜索引擎研究的重点。

搜索引擎工作原理:

全文搜索引擎:这种引擎它的特点是搜全率比较高。在搜索引擎分类部分我们提到过全文搜索引擎从网站提取信息建立网页数据库的概念。搜索引擎的自动信息搜集功能分两种。一种是定期搜索,即每隔一段时间(比如Google一般是28天),搜索引擎主动派出“蜘蛛”程序,对一定IP地址范围内的互联网站进行检索,一旦发现新的网站,它会自动提取网站的信息和网址加入自己的数据库。

另一种是提交网站搜索,即网站拥有者主动向搜索引擎提交网址,它在一定时间内(2天到数月不等)定向你的网站派出“蜘蛛”程序,扫描你的网站并将有关信息存入数据库,以备用户查询。由于近年来搜索引擎索引规则发生了很大变化,主动提交网址并不保证你的网站能进入搜索引擎数据库,因此目前最好的办法是多获得一些外部链接,让搜索引擎有更多机会找到你并自动将你的网站收录。

目录搜索引擎:这种引擎的特点是找的准确率比较高。与全文搜索引擎相比,目录索引有许多不同之处。首先,搜索引擎属于自动网站检索,而目录索引则完全依赖手工操作。用户提交网站后,目录编辑人员会亲自浏览你的网站,然后根据一套自定的评判标准甚至编辑人员的主观印象,决定是否接纳你的网站。其次,搜索引擎收录网站时,只要网站本身没有违反有关的规则,一般都能登录成功。而目录索引对网站的要求则高得多,有时即使登录多次也不一定成功。

元搜索引擎:我们可将元搜索引擎看成具有双层客户机/服务器结构的系统,用户向元搜索引擎发出检索请求。元搜索引擎再根据该请求向多个搜索引擎发出实际检索请求;搜索引擎执行元搜索引擎检索请求后将检索结果以应答形式传送给元搜索引擎,元搜索引擎将从多个搜索引擎获得的检索结果经过整理再以应答形式传送给实际用户。当然,某些元搜索引擎具有略微不同的机制。

元搜索引擎与传统搜索引擎的区别:

搜索引擎与元摸索引擎的主要区别在于搜索引擎拥有独立的网络资源采集标引机制和相应的数据库,而元搜索引擎一般没有自己独立的数据库,却更多地是提供统一联接界面(或进一步地提供统一检索方式和结果整理),形成一个由多个分布的、具有独立功能的搜索引擎构成的虚拟整体,用户通过元搜索引擎的功能实现对这个虚拟整体中各独立搜索引擎数据库的查询显示等一切操作。元搜索引擎中各独立搜索引擎被称为"目标搜索引擎",或者"成员搜索引擎",它们各自保持其原来的局部数据模式和自己的检索指令;元搜索引擎给出一个全局外部模式,用以接受用户检索输入和结果输出。不过,有些元搜索引擎给出的全局外部模式不够完善。

目前搜索引擎越来越不能满足用户的各种信息需求,如收集的网页数量和其数据库的更新速度存在着不可调和的矛盾。用户经常无法打开查询的结果。网络信息时刻变动,实时搜索几乎不可能。网络信息收集与整理是搜索引擎工作的重要部分。搜索引擎需要定期不断地访问网络资源。目前网络带宽不足,网络速度慢,遍历如此庞杂的网络时间花费非常庞大,这就是不能实时搜索的原因。

参考文献:

[1]Search Engines:Information Retrieval in Practice(美)W.Bruce Croft Donald Metzler Trevor Strohman

搜索作文篇4

关键词:搜索引擎;网站结构;关键字;外部链接

中图分类号:TP393.01 文献标识码:A文章编号:1007-9599 (2011) 11-0000-02

Web Search Engine Technology and the Optimization Strategy

Miao Hanjun,Ai Qingyi

(Wuhan International Trade University,Wuhan430205,China)

Abstract:The search engine is through the computer network to provide users with the information needed by a query search tools,according to their way of gathering information and services can be divided into different directory-style search engine robots search engine,meta search engine categories.Search engine for the convenience of users,such as technology,there are still limited,rules are complicated,limited coverage,high accuracy is not limited,so should the site structure,content,keywords,links and other aspects of search engine technology optimization.

Keywords:Search engines;Site structure;Keyword;External links

搜索引擎即根据一定策略、运用特定计算机程序从互联网上搜集信息,并对信息进行组织和处理后,为用户提供检索服务,将与用户检索相关的信息展示给用户的系统。随着计算机网络技术的飞速发展,网络已然成为人们日常工作生活中必不可少的一部分。然而,网页数据量非常庞大,因此为了使网络使用者在纷繁复杂的网络信息中准确找到自己所需的有价值的信息,提高网络搜索引擎的效率,让搜索引擎做网页排序使得更有价值的搜索网页排列在搜索结果前列,就成为网络搜索引擎技术优化的方向。

一、搜索引擎技术

(一)搜索引擎的定义及分类。搜索引擎,是指主要通过网络搜索机器人在网络上搜索信息并加工处理,建成倒排索引,为用户提供查询服务的一种工具。搜索引擎的组成部分包括负责搜集网页的信息采集模块、负责组织处理信息的文档组织索引模块、连接用户与搜索引擎的检索模块。搜索引擎按其搜集信息的方法及不同服务方式可分为如下三类:

1.目录式搜索引擎。目录是搜索引擎亦称之为网站检索,这类搜索引擎往往伴有网站查询功能,可以在提供文字输入框中输入要查询的信息,然后点击旁边的按钮,搜索引擎就会在目录里查询相关网站和内容提要,并将内容列表传送过来。目录式搜索引擎是以人工或半自动方式搜集信息,先由搜集员查看信息,然后人工形成摘要,同时在分类框架中置入信息。这类搜索引擎由于加入人工智能,提高了信息的准确性和导航的质量,但是因为需要介入人工的缘故,这类搜索引擎往往有信息量少、信息维护量大、信息更新不及时等缺点。2.机器人搜索引擎。所谓机器人搜索引擎,是指运行名为蜘蛛的机器人程序,按某种策略自动在互联网中搜索信息,它的工作过程是先通过索引擎建立信息索引,然后将用户查寻信息通过检索器输入到检索索引库,最后将查询结果反馈给用户。这类搜索引擎具有无需人工干预、信息量大、信息更新及时的优点,同时也具有信息量过多导致很多返回的信息是无用信息,加大用户筛选工作量的缺点。3.元搜索引擎。元搜索引擎是通过一个统一的用户界面帮助用户在多个搜索引擎中选择合适的搜索引擎来实现检索操作。这一类搜索引擎无自身数据,仅是将用户的查询信息递交给多个搜索引擎,并将返回结果做重复排除和重新排列,将最终结果反馈给用户。可见,元搜索引擎有信息量巨大、信息覆盖面广的优点,但同时也加大了用户的筛选工作量,未能充分发挥搜索引擎的功能。

(二)Web信息预处理。读取保存web页面后,要实现对信息的处理,就要过滤掉html指控命令等无用信息,因此,Web信息预处理,是提取html文档的标题、内容、新连接、关键字及文档的描述五种信息,将其转化为txt文本文件的过程。

(三)Page Rank的算法。Page rank是Google排名运算法则的一部分,是Google用于标识示网页等级和重要性的一种方法,是Google衡量网站好坏的唯一标准。因此,Page rank值和搜索结构之间的相似程度是搜索引擎排序的依据。Page rank的计算公式是:

PR(W)=(1-d)+d( )

(四)搜索引擎的发展历程。1.早期文件定位和传输文档方式。早期文件定位和传输文档方式有Archie、Gopher、Veronnica、WAIS等。Archie是最常用的FTP服务器检索工具,用户无需记住所有的FTP服务器,仅需登陆至Archie服务器,然后精确输入要查询的程序名称或者文件名称,Archie就会在服务器中为用户搜索所需程序及文件;Gopher主要运用于学术论文等文献的查询,它是基于C/S结构的分布式文档发送系统,可以有效处理多台计算机上分散的文件系统,并且它的操作简单易掌握,在网上文档资料的查询工作中被广泛运用;Veronnica加强了Gopher的功能,它可以帮助用户通过多个Gopher服务器搜索多个文件夹下的多个文档;WAIS即广域信息查询系统,它是一种对全文本信息进行查询的系统,可以通过用户给出的关键词,在指定数据库中搜索出相关条目全部文本。2.编目技术中搜索引擎技术的发展。随着对文献编目技术不断探索和研究,现代文献的编目有了越来越多的方法。既可以浏览页面,又可用于搜索的搜索引擎受到广泛欢迎,其中具有代表性是Yahoo、Northen Light和Infomine等。Yahoo创建了服务于非专业用户浏览与搜索的树状结构;Northen Light提供对关键词和标题组织文件夹的检索,效率很高;Infomine是一个网络的学术文献图书馆,通过浏览与搜索的方式为用户提供服务。3.基于3w的搜索引擎技术。随着互联网技术的发展及网络信息资源日渐增加,基于3w的搜索引擎技术成为搜索引擎的发展趋势。所谓基于3w的搜索引擎,即从3w数据库中搜索信息,并构建索引数据库,向用户提供检索信息的服务工具。基于3w的搜索引擎发展历程包括,以Lycos、Infoseek等为代表的第一代搜索引擎,它们的检索速度还比较慢;以Inktomi、AltaVista为代表的搜索引擎在技术上和数据量上较第一代有了很大进步;以Inktomi、NL等为代表的搜索引擎时代,网页数量突破了1亿;以google、百度等为代表的最新一代搜索引擎为用户提供了更多的数据信息,其数据量已突破20亿。

(五)搜索引擎技术存在的问题。搜索引擎能够为用户提供广泛、及时的信息,为网络用户工作生活提供了很大的便利,然而,受到技术水平限制,使用搜索引擎对网络信息进行检索中还存在如下一些问题:

1.检索技术受制。由于搜索引擎存在着复杂检索功能缺乏的技术限制,检索技术不够完善,导致搜索引擎的检索结果重复率高、检索网页打不开、专业检索与多媒体检索能力差、信息更新迟缓及搜索引擎理解力底等缺陷。

2.检索规则复杂。由于用户在很多情况下难以用关键词及关键词组配来准确地表达其需要的信息,搜索引擎要求用户掌握一定检索规则,加之不同搜索引擎下同一搜索方法往往表达方式有差异,导致用户的检索工作不易进行。

3.检索范围有限。搜索引擎的覆盖面还很有限,就连作为全球最大搜索引擎的Google也没能达到覆盖全部网页的1/6。搜索引擎一般仅索引一些类似博客、新闻信息网站等的最新页面,一般不超过三个月,很多类型的网站都被忽略了。

4.检索结果准确性不高。在搜索引擎中输入搜索信息,经常会返回大量结果,然而在这些结果中,很大一部分都不是用户需要的信息,有些页面点击后甚至会出现网页跳转现象,使得检索的准确性不高。

二、网络搜索引擎技术的优化策略

(一)网站结构的优化。首先,应尽量用文本链接构成栏目导航系统,运用相关工具对图片链接导航的图片予以关键字填充,并将相似栏目组织在一起以提升关键字群体的密度;其次,一级栏目首页URL一般以不超过2个层次为宜,详细信息页面不应超过4个层次;最后,减少页面体积,选择正确的页面编写代码,并精简多余的无效代码。

(二)网站内容的优化。网站拥有丰富的、有价值的内容是搜索引擎优化的重点,对网站内容的优化应做到,保证网站内容的质量及与其主题的契合性,网站的内容一定要有价值;搜索引擎只能根据页面内容判断网址与关键词的相关性,因此应尽量在网页的标题、页面主要内容及段落开头部分体现关键字,尽量准确编写Meta的属性,页面命名及图片名称亦应尽可能使用关键字或者搜索引擎可理解的代码。事实证明,一个内容丰富多彩、主题旗帜鲜明的网站才是用户所欢迎的网站,抛开内容谈搜索引擎的优化毫无意义,要想让本网站不断发展并得到搜索引擎信任,只有源源不断地提供丰富的、有价值的内容。

(三)关键字的优化。关键字是用户为找到所需网页而在搜索引擎中输入的有一定特征的语句,可见关键字对搜索引擎的营销有着重大意义,是搜索引擎优化工作的重中之重。对于关键字的优化,首先应对目标用户进行调查研究,统计他们在对相关信息查询时会输入什么样的语句,然后通过记录、整理,筛选出作为关键字的结果,关键字应根据业务种类或产品种类尽量选择具体的、人们在搜索中常用到的词,并且保证关键字要与网站的主题相吻合;关键字的位置决定着搜索引擎对其在页面的重要性的判断,因此将关键字置于标题和meta标签等中,有助于提升对网页的搜索排名;关键字的密度是影响搜索引擎排名结果的重要因素,它是指关键字占除了html代码之外的页面内容的比例,一般情况下,页面某关键字密度的高低与搜索引擎对页面与该关键字的关系大小判断直接相关,但也应注意切勿过度使用关键字而造成关键字堆砌,因为一旦触动了搜索引擎过滤器对其进行过滤,反而会造成页面排序降低甚至被屏蔽的结果,关键字的密度一般应控制在2%-8%之间。

(四)链接的优化。合理有效的链接是网络搜索引擎技术优化策略的重要因素,对于搜索引擎来讲,一个网站排名的先后取决于其外部链接的数量和质量。

1.外部链接。搜索引擎认为,一个网站的价值越高,其他网站对其提及的频率就会越高,可见网站即便没有提交目录,若其他重要网站有该网站的链接,同样会被搜索引擎快速抓取,进而提高网站排名。获取高质量的外部链接的方法有,向百度、yahoo、google等搜索引擎的目录提交本网站;提高网站的质量,寻找搜索引擎的分类目录下的相关网站、本网站竞争者链接的网站、与本网站有业务关系的网站等等,申请与其加为友情链接;通过提供免费资源、丰富网站内容等方式提高网站质量,增加网站被链接及转载的几率,这也是提高排名的重要手段;在一些重要网站发表带本网站签名的专业文章,提高本网站知名度,获取更高质量的外部链接,等等。

2.内部链接和导出链接。搜索引擎除分析外部链接外,也会分析导出链接,如果在网站增加适当、适量的与本网站的主题相关的网站链接,在丰富网站内容的同时,还可提升搜索引擎对本网站的排名。然而,应注意对导出链接数量的控制,一般一个页面不应超过15个。

网站内部链接的优化是一项长期、稳定且可控的工作,因此应作为链接优化的重点。内部链接是链接网站内部页面之间的纽带,一个站点应做好所有页面之间的链接,并将重要页面对应链接到其他页面,便于搜索引擎识别进而对其进行重点索引。需注意的是,一定要保证所有连接的有效性,以免影响排名。

3.搜索安全的优化。网络搜索引擎在推广网站的同时,也为网站埋下了安全隐患。有些单位并不希望自己的网页被单位外部或部门外部的人共享,这是就需要对网站进行搜索引擎安全优化,可在网站根目录下建立一个名为robots.txt的文本文档,指明搜索引擎可搜索的范围,保证本网站的安全性。

三、结束语

总之,对网络搜索引擎技术的优化是一项复杂而精细的工作,如何让用户更方便、更快速、更准确地利用搜索引擎找到所需的有用信息,是搜索引擎技术优化的最终目的。本文给出的几个优化策略仅是从几个重要方面进行简单的探讨,在网络信息技术飞速发展的今天,改善搜索引擎技术还需要投入更多的人力、物力等资源进行不断探索和研究。

参考文献:

[1]崔明,王振u.当前搜索引擎技术的不足及改进[J].图书馆学研究,2006,7

[2]刘存杰.互联网搜索引擎技术的性能优化策略[J].科技咨询导报,2007,6

[3]聂影.浅议搜索引擎优化SEO[J].科技信息,2010,34

[4]高阿云.浅议搜索引擎优化技术[J].硅谷,2008,11

[5]谭营军,李翠霞.搜索引擎技术的研究与展望[J].电脑知识与技术,2011,3

[6]刘小鸿.搜索引擎技术及其优化策略[J].中国医学教育技术,2010,4

[7]刘昊.搜索引擎优化策略在新闻网站中的应用[J].电脑知识与技术,2009,8

[8]夏勇.网络信息检索与智能化搜索引擎[J].科技信息,2009,14

[9]焦丽,路波.基于五大因素的搜索引擎优化研究[J].中国管理信息化,2009,17

搜索作文篇5

1自动建立文件索引提效

要提高文件搜索效率,需要搜索软件有一个快速反应机制。Glary Utilities快速搜索的快速反应机制是通过建立文件高速索引来实现的。首次运行Glary Utilities快速搜索时,软件会先自动按照默认设置对本系统连接的所有有效存储介质进行文件索引。索引建立完毕后,在搜索窗口列表中会自动显示总共找到的有效搜索文件总数(图1)。

如果需要搜索的文件类别比较确定,利用“快速搜索”自动提供的分类搜索功能可以提高效率。“快速搜索”提供的自动分类功能有快捷方式、音乐、图片、程序、视频、压缩文件等几个大类,如果只希望在其中某个类别中搜索,只需点击相应的类别选项卡,这时搜索范围就大大缩小,搜索所用时间也会相应缩短。

2缩小磁盘选择范围提效

要搜索的文件如果明确局限于某个或某些存储器中,那么,大可不必使用软件默认的搜索范围。虽然“快速搜索”默认的搜索速度已经够快,但若通过选项窗口的“磁盘”分类目录进入磁盘选择窗格,只对其中要使用的存储器进行勾选(图4),就可以排除在无关驱动器上搜索浪费的时间,从而大大提高搜索效率。

小提示

由于“快速搜索”为Glary Utilities的一个组件,平时只在启动Glary Utilities后由用户主动运行才能提供搜索服务,因此需要将其设置为常驻模式,以便于平时搜索。为此,右击系统托盘“快速搜索”图标,选择“选项”命令(图2);在选项窗口中选择“一般”项,选中右侧窗格中的“在Windows登录时自动启动”,确定后可将其设置为随系y自动启动(图3)。

3建立文件特定筛选提效

虽然文件分类搜索能够快速找到某类文件,但也不一定能够如愿。按照默认设定搜索,可能出现一种意外的错误情况――明明需要搜索一种图片,且这种图片文件也的确存在,但搜索结果中就是不出现这些文件。这是因为该种类别的图片没有被软件的默认分类所包含引起的。要解决这个问题,需要用户自定义文件分类搜索所包含的文件种类。为此,要在“选项分类”窗格中先选中要搜索的文件种类,然后通过“添加”按钮添加新的文件类别到当前列表中(图5)。如此,才能真正实现所需文件存在即能被正确按类搜索到的目的。

小提示

如果自己经常使用的某类文件仅是有限的几种,为了提高效率,也可在分类文件类别自定义窗格中,将平时不用的文件种类删除掉,这样对搜索效率的提高也有利。

4整合系统必应搜索提效

Windows 10的一大亮点就是搜索功能中不但包含了文件搜索,还同时能够搜索系统设置、应用、网络资源等。Glary Utilities快速搜索完全可以充分利用这种优秀的搜索特性,这样可以快速找到文件(图6)。要实现上述目的,只需保证在软件的“界面”选项设置中,将“显示必应搜索”和“显示应用程序搜索”两个选项选中即可。当然,如果仅希望用该软件作为文件快速搜索工具,则不需要选中以上两个选项,这样也有助于搜索效率的提高。

5排除无用搜索项目提效

搜索作文篇6

关键词:Web数据;聚类搜索;聚类算法

中图分类号:TP391文献标识码:A文章编号:1009-3044(2011)22-5398-03

Research Development of Clustering Search Engine

CAO Yu1, YIN Gang1, LI Xiang2, CHENG Rong-bin2, WANG Huai-min1

(1.School of Computer, National University of Defense Technology, Changsha 410073, China; 2.Armed Police Command College in Hangzhou, Hangzhou 30023, China)

Abstract: Clustering search is a hot topic in both Internet-based information retrieval and data mining. This paper defines the basic work process of clustering search engines and gives an overview of their current research states; analyzes the clustering search engines based on their clustering objects, functions and algorithms; analyzes and evaluates two important clustering search systems from the their working processes, clustering methods and application states, and finally gives the research trends of clustering search engines.

Key words: web data; clustering search; clustering algorithm

随着互联网技术和互联网应用系统的快速发展,各个领域的互联网应用系统都已经积累了海量的Web数据,包括产品数据、用户数据、评价数据、关联数据、状态数据等等。这些数据不仅内容极其丰富,而且很大程度上都开放给互联网用户,可以免费的访问、下载和处理。这就为进一步集成和开发这些Web数据的潜在价值,建立增值应用提供了重要基础。聚类搜索是近年来发展最为迅速的互联网数据集成和增值技术。聚类搜索是在垂直搜索基础上发展起来的新型搜索技术。垂直搜索是主要针对行业的专业搜索,侧重于某一行业领域,其目的是使用户能够更加方便地找出所需的专业信息。而聚类搜索是为了进一步提高搜索的精度使其符合用户的搜索习惯和兴趣,在搜索引擎的搜索结果中进行聚类,把搜索出来的信息进行分类处理,将使信息资源更加清晰明了。

目前国内对聚类搜索引擎的综述主要见于文献 [1]和文献[2],虽然这两篇文章对聚类搜索引擎进行了很好的综述和分析,对聚类搜索引擎的形成和发展过程进行了说明,并对主流聚类搜索系统进行了测评和分析,但是对于聚类系统的功能分析还不够详尽,对于聚类搜索引擎未来的发展没有给出明确的定位。

本文首先给出了典型聚类搜索引擎系统的基本工作流程,对聚类搜索引擎的发展历史和现状进行了概括式综述,然后从聚类对象、聚类功能和聚类算法三个角度对聚类搜索引擎进行研究,并全面分析了若干著名聚类搜索引擎。

本文结构:第1节介绍聚类搜索引擎的发展现状;第2节对聚类搜索引擎的功能进行分析;第3节对典型聚类搜索引擎进行综述;第4节描述聚类搜索引擎的发展趋势;第5节总结全文。

1 聚类搜索引擎的研究现状

1.1 聚类搜索引擎概念和工作过程

所谓聚类搜索引擎,就是运用聚类技术对搜索结果进行自动聚类分析的搜索工具。其特点是去重性强、分类性强、汇集性强,即可以及时去除重复信息,对搜索的结果进行分门别类,并可以汇集各大知名搜索引擎的信息资源。目前,典型的聚类搜索引擎的基本工作步骤为:①依据用户查询的关键字,从一个或多个搜索引擎获取搜索结果;②对搜索结果进行预处理,过滤掉重复、无效信息;③将文档中关键短语作为特征提取出来生成聚类标签;④将文档分配到生成的聚类标签下;⑤将聚类后的搜索结果进行排序并显示给用户。

1.2 国内外聚类搜索引擎的发展现状

搜索引擎的发展阶段总共经历了三个阶段[3],其中第1代搜索引擎主要是基于人工分类的通用搜索;第2代主要依靠机器进行自动爬取和分析,利用链接分析技术实现更为准确的搜索,如Google、百度等;第3代搜索引擎更加体现了智能化、互动式和人性化。功能包括自动聚类、去重、用户习惯记忆等方面,是未来搜索引擎主要的发展方向。

近几年,国际上对聚类搜索引擎系统的研究日渐火热,已经出现了一些知名的聚类搜索系统。其中,Scatter/Gather系统[4]是第一个在搜索引擎上使用聚类方法的系统;Vivisimo[5]是一种商业化聚类搜索引擎,符合用户使用习惯,搜索效率高。基于Java的开源Carrot2聚类搜索引擎[5]可自动的把搜索结果归类到相应的语义类别中,它的一个亮点是速度和易用性的提高。中文搜索领域,早期比较有实力的聚类搜索引擎有Bbmao,Bbmao搜索系统推出了去重功能,为网民解决了大量阅读重复信息的烦恼。Bbmao的聚类功能,能够提高查找信息的效率,它还具有云集各大搜索引擎结果的功能,同时完成海量信息的分门别类。近期出现的baigoogleledu综合了谷歌、百度两大搜索引擎。其基本出发点是两大搜索引擎的搜索结果的很大的差异性。这类系统对搜索结果进行聚类分析,在一定程度上缓解了广告泛滥的局面,使用户更便捷地找到需要的信息。

有关国内外聚类搜索引擎的相关技术,主要有聚类分析、聚类算法、中文信息处理等技术。Anton等人[7]致力于把分类体系引入评估体系来评价聚类效果质量的研究。Sudipto Guha等研究人员[8]应用概念关联代替传统的计算欧式距离,来衡量数据之间的相似度,从而确定聚类,达到了很好的效果。

国内一些学术组织和团体很早就开始对自动文本分类、聚类领域等相关内容进行研究,从“天网”和“网络指南针”开始北京大学和清华大学就开始致力于网页的聚类技术研究。此外,北京科技大学的麻雪云提出了一种基于关键名词短语聚类的中文搜索结果聚类方法[9],利用百度、谷歌、雅虎三大搜索引擎来获取互联网信息,对搜索结果进行聚类分析。国防科技大学的肖坤对STC算法和Lingo算法进行了比较,并对STC算法进行了改进,设计实现了一个面向校园网聚类搜索引擎系统[10]。

2 聚类搜索引擎的功能分析

2.1 聚类对象分析

现有聚类搜索引擎的聚类对象主要包括三类数据:商业数据、评价数据、社交数据。

商品数据主要包括对服装、电器、化妆品等数据信息进行分类整理,例如用户在淘宝网输入“牙膏”关键字,在网页上立马显示出“功能”、“品牌”、“产地”等分类信息,并按照销量、价格、信用进行了排序,对商品的聚类分析清晰明确。评价数据主要包括论坛对相关主题的讨论信息,博客的交流信息,商业网站对商品的满意度评价信息等。大连海事大学的鲁明羽、姚晓娜等人提出一种基于模糊聚类的网络论坛热点话题挖掘算法,通过分析帖子和用户间的影响力传递,来判断是否为焦点人物和热门话题[11]。社交数据主要包括社交网络注册用户个人资料信息、用户关注度信息、用户之间交互信息等社交数据资源。社交数据隐含了大量可以用于聚类的关联信息,对实现智能和个性化聚类搜索具有重要意义。此外,聚类对象按数据类型还可以划分为文本数据、多媒体数据等。

2.2 聚类功能分析

聚类搜索引擎的聚类功能主要有智能聚类、去重、多媒体、覆盖性等能力。

智能聚类:聚类搜索引擎大多具有这项功能。目前做得最好的如Vivisimo系统,它最大的特色是会对搜索结果自动分类,采用专门开发的启发式算法来集合或聚类原文文献。

去重:去重可以取掉大部分的广告网页并节省掉用户的选择时间,是十分实用的一项聚类功能。国内的比比猫的去重功能非常出色,在用户获得多个搜索引擎的搜索结果后,比比猫可以自动为用户获取最有搜索结果并取掉重复的信息。

多媒体:除了文本聚类,聚类搜索引擎还关注视频、音频等多媒体信息进行聚类的功能,商业化、集成化、多媒体化的气息更加浓厚。搜狗音乐推出了新版的聚类页面,可视化强,用户输入音乐名称,将获得全新的聚类结果,该结果首先按照音频特征聚类,再按照文本信息聚类,保证搜索界面显示的音乐相关度最高。

覆盖性:聚类搜索引擎一般基于一些大型通用搜索引擎的数据资源,这样能够保证搜索的结果覆盖全面,可聚类的对象内容丰富。

2.3 聚类算法分析

聚类搜索引擎的聚类算法主要有层次聚类、树状聚类、网状聚类、圆形聚类。其中Carrot2、Clusty()、iBoogie( )等系统使用层次聚类的方法,按照来源及站点进行聚类。PinkySeach[12]和Mnemomap()系统是使用树状结构的聚类算法,将聚类的结果以列表的形式展示出来。UJIKO系统()是使用圆形结构的聚类算法,它将搜索结果聚类后按照主题自动分类成图形界面显示出来。Quintura系统()是使用网状结构的聚类算法,是通过标签云的形式将在语义上相关的词聚类,构成网状链接。

3 典型聚类搜索引擎

3.1 Vivisimo系统

Vivisimo系统[5]的基本步骤包括:首先系统自动地、并行地向多个大型搜索引擎提交查询请求,然后汇集每个查询返回的结果,对查询的结果进行聚类分析,经过去重、合并、分类等步骤后,通过输出处理显示给用户。Vivisimo的聚类对象是从多个搜索引擎返回的搜索结果,主要是文本信息。Vivisimo的聚类功能主要是文本的聚类,通过对文本内容进行搜索和归类分析,vivisimo的软件可以使用户从没有预先标记或分类的资源中整合、分类内容。Vivisimo采用启发式算法,借鉴了人工智能的理念,对检索的结果进行聚类,可以把文本信息自动地分成等级排序的类目,它的每一步都是自动化的,不需要人工干预。

目前Vivisimo的商业应用十分广泛,它对信息的分类很体贴,具有人性化。其细致的检索结果显示方式使它成为了业界的精品,连续多年成为“最佳元搜索引擎”。但是,Vivisimo于没有自身的数据资源库,依附于其他大型搜索引擎,独立性较差,检索功能有待加强。

3.2 Carrot2系统

Carrot2是基于Java开发的开源聚类搜索系统[6],主要用于对搜索结果进行聚类。与Vivisimo相似,首先也是用户输入关键字在Bing、baidu、google等知名搜索引擎进行搜索,然后对返回的搜索结果进行聚类,并通过树形的分类图进行显示出来。Carrot2的聚类对象主要是各大搜索引擎返回的搜索结果,其通过文档聚类平台workbench,对搜索的数据进行聚类分析,并通过文档聚类服务器DCS,将聚类结果作为REST服务呈现。最后,Carrot2以WebApp方式将聚类结果作为网络应用呈现给终端用户。Carrot2采用的聚类算法主要是Lingo(基于奇异值分解的索引结果聚类)算法和STC(Suffix Tree Clustering)后缀树聚类算法。

目前Carrot2支持的聚类算法较多,代码开源可以进行版本的更新和改进。该系统应用广泛、可移植性较好。但是Carrot2中文分词效果不好,可视化效果不佳。

4 聚类搜索引擎发展趋势

文献[1]通过对大量搜索引擎的评测,发现独立性差、专用算法欠缺、搜索速度慢等一系列问题,但该文主要对搜索结果的聚类方法进行了评测,对聚类搜索引擎的趋势的分析也主要侧重于聚类方法。本文认为聚类搜索引擎未来将向数据海量化,链接社交化,聚类综合化三个方向发展。

4.1 数据海量化

现阶段的聚类搜索由于数据集较为单一,聚类算法过于老旧,造成呈现给用户的检索结果数量少,内容贫乏,这样必然影响聚类搜索的发展壮大。所以未来聚类搜索必然要向数据海量化发展。近期,美国互联网公司“耶宝”日前推出一种更具人性化的搜索引擎,有别于当今主流搜索引擎网站提供的单维搜索,并非一般的罗列搜索结果,而是通过对搜索的词条和海量的网页的内容进行分析,自动对搜索结果进行聚类和分类,为用户提供丰富而直观的结果。

4.2 链接社交化

在搜索引擎中引入社交元素,由于目前Web社交网络形成了一个巨大的Deep Web(针对网络爬虫而言),而这个数据量对搜索引擎来说是非常大而且有用的,搜索引擎作为用户获取信息的主要渠道,势必需要这些用户活跃度和新鲜度很高的数据资源。由于社交数据中蕴含着大量数据之间的潜在链接,因此基于社交数据进行聚类搜索可望更好满足用户的个性化需求。

4.3 聚类综合化

聚类的多元化、跨领域、综合化将是新型聚类搜索的重要特点。局限于单个应用领域的聚类搜索已经难以适应需要,跨领域聚类将是未来聚类搜索面临的主要挑战。

5 结束语

随着Web2.0的蓬勃发展,网页数量成级数增长,为了使互联网用户更加方便、快捷的得到需要的信息,聚类搜索代表着一种重要搜索引擎的发展方向。随着聚类搜索引擎的算法和数据源的逐步完善,聚类搜索引擎技术将得到迅猛发展和更为广泛的应用。

参考文献:

[1] 苏建华,张灿,聚类搜索引擎研究[J].新世纪图书馆,2009(6):72-75.

[2] 苍宏宇,谭宗颖,聚类搜索引擎发展现状研究[J],图书情报工作,2009,53(2):125-127.

[3] 沈贺丹,潘亚楠,关于搜索引擎的研究综述[J].计算机技术与发展,2006.16(4):147-152.

[4] Banos R,Gil C,Reca J,et,al.Implementation of scatters search for multi-objective optimization:A comparative putational Optimization and Applications,2009,42(3):421-441.

[5] Koshman Sherry,Spink Amanda,Jansen Bernard.Web Seaching on the Vivisimo Search Engine[J].Journal of the American Society for Information Science and Technology,2006,57(14):1875-1887.

[6] Carrot2 Framework.Carrot2:Design of a Flexible and Efficient Web Information Retrieval Framework[C].Third International Atlantic Web Intelligence Conference(AWIC2005),Lodz,Poland,2005:439-444.

[7] Anton V Leouski,W Bruce Crift.An Evalution of Techniques for Clustering Seach Results[J].Computer Science Depart-ment,1996:1-19.

[8] Stdipto Guha,Rajeev Rastogi,Kyuseok Shim.ROCK:A Robust Clustering Algorithm for Categorical Attributes[J/OL].[2008-08-12].

[9] 麻雪云,基于聚类的元搜索引擎设计和实现[D].北京:北京信息科技大学,2008.

[10] 肖坤,面向用户兴趣的校园网聚类搜索引擎的研究与实现[D].长沙:国防科技大学,2010.

[11] 鲁明羽,姚晓娜,魏善岭, 基于模糊聚类的网络论坛热点话题挖掘[J].大连海事大学学报,2008,34(04):52-58.

搜索作文篇7

但是,反思搜索领域的现状,应该说,搜索在理论和文化上与互联网2.0潮流的大方向结合得还不够紧密。笔者坚信,互联网2.0将改变搜索,从技术到流程,以至商业模式、价值分享,将全面改变。因次,发掘搜索的2.0空间,寻找搜索的2.0创新,实现搜索模式的2.0突破,尤其显得重要之极。

还有什么可以被用来搜索?

每个人的大脑中有自己的搜索引擎,谷歌、百度们的搜索引擎也不过是人类大脑的搜索引擎的延伸,而且集中于对内容和信息的搜索,在此之外,还有什么可以被我们来搜索?这里隐藏着在线搜索产业的未来,空间还非常巨大。

首先,我们应该相信所有存在的事物都应该可以被搜索,包括我们还没有被发现的规律、世界和存在,由此“科学研究”本身将被搜索所改变,“研究”活动无论是实证方式、逻辑推理方式或者形而上的方式还是形而下的方式,一旦掺杂诸多来自机器和互联网的新的“搜索”力量,那么“研究”活动的异化也就难以避免――人类对未来、未知的探索、学习和研究,从21世纪开始将建立于“搜索”的基础之上,基于“搜索”的世界观和方法论将在21世纪大行其道。

其次, 我们应该重视对于过去的“遗失的世界”的搜索,万物的普遍联系可以帮助我们由一点及于全局,由现在及于过去的任何时刻,我们应该用搜索来发现人类的历史和真相,攫取已经被我们丧失和淡忘了的先祖们的智慧。第三,人类的部分个体的智能在特定的背景、条件下可以结合成“加和”的综合智能,这个前景因为搜索的介入并不是没有可能,为了改变现代人类落后的重复性的学习方式,知识和智能的延续只有通过在个体之外的更加广泛和持续的传承来形成惯性、线性和连续的积累,才可望生产出人类的总体智能。第四, 在我们容易想到的搜索内容、关系、知识、规律之外,我们还可以考虑大量的搜索可能,诸如搜索来自未来的内容,搜索潜藏着的风险或者机遇,搜索矿藏,搜索外太空,搜索更高物理维度下的新概念,搜索纳米世界的奥秘,搜索可视化的逻辑联系网,搜索最高级别的系统,搜索一幅湮没的图像……

第五,搜索的发育还刚刚开始,搜索的前途不可限量,搜索的本质是人类的智能的延伸,他所搜的目标、领域的每次扩展,都将成为人类未来史中的路标,人类社会通过将来自搜索的力量转换为全息社会,大量基于全息和搜索的社会实践最终将成为重要的证据,来证明人类的使命――大大相异于传统观念中的理性化认识――在于让人人成为宇宙之神,也就是说,人类的使命不是发现和实践“人”的人性、理性,而是创造和发展“人”的神性、永恒性、与宇宙的一体性。

从“博搜”看搜索引擎五大发展趋势

用博客网最新推出的博搜,对我的个人博客进行博搜网页分类计算,结果如下:

从上述结果来看, 博客、网络、经济、服务分占前四名,构成个人博客内容组成的第一梯队,组织、商业、公司、发展分占第五到八名,构成个人博客组成的第二梯队,资源、个性、传播、投资、企业、历史等构成第三梯队,基本能够涵盖我平时发表博客文章的主要内容,也能够反映出大致的内容分类结构。

通过博搜,可以搜索有哪些网页被其它搜索引擎搜索到,可以搜索这些网页被搜索到的关键词是什么,可以搜索对于特定的关键词,有哪些网页被搜索到。从国内外搜索服务的现状看,这个系统性的运用作为搜索领域的一次有益创新,其中所体现出的搜索趋势值得思考。

搜索的模糊化趋势

通过对个人集中性文字的内容索引和自动化分类,对于个人文字进行的深度加工和全貌抽象,发掘个人内容中所体现出的个人个性、爱好、知识结构、价值观等方面的主客观信息,成为搜索从对图文音像的搜索走向对个人化的思想个性进行搜索的一个重要拓展,这也是互联网试图自发满足个人间社会化网络联系和社会资本体系建设的一种尝试。

搜索的博客化趋势

博客使得个人网络活动轨迹集中体现,为搜索个性、爱好、知识结构、价值观等提供了全新基础,打破了过去欲对网络中的个人存在进行搜索却无从下手的局面,为进一步在搜索中引进个人自服务和自组织以及更大的全网参与提供了全新的条件。

搜索的重叠化趋势

在个人文字的深度加工和全貌抽象中,关键词和词频技术得到创新运用,从而在信息加工方面释放出更大能效,同时也遭遇了一些全新的研究课题,如何设置合理有效的词义体系,成为新的重点。词系的确定必须打破简单和平面的设置规则,也必须打破一次引用的静止的设置规则,更要打破固定化不变的设置规则,既可以设置单词体系,又可以设置单词组合体系,还可以设置文章组合体系,以及上述三重体系自由结合的复合体系。总之,词义体系的构成以及不同体系组合搜索流程成为“博搜”定位系统的核心所在。

搜索的个人评价趋势

在个人化搜索信息结果的基础上,对个人进行更加深入的个性化评估将逐步浮现,从而大大增加博客作为个人化记录的效率和价值。个人在博客发表形成一个巨大的信息体系,成为迅速了解其观点思想和性格爱好的数据库,博搜为我们提供了一个更有力的博客价值挖掘思路。我们期待在博搜的基础上,演化出更加系统和立体的个人博客评价体系,并且在此基础上促进博客在人际沟通和社会组织等方面的深度挖掘。我们也相信博搜的最终发展远远不止于现状,在目前基础上将进化出包括原创转载分类、内容价值分级、评价文本分层的更加细致、客观、简便的博客评价体系。

搜索与SNS、BLOG的融合趋势

从传统的个人资料目录式排列、封闭性共享、表层性数据,到基于博客的立体化发表、面向全网的个人化定位、深入分析评价性数据,在网络间的个人联系沟通技术将出现飞跃,无疑博客的出现是其中最基础性的因素。因为博索所代表的深度个性搜索模式的发展,最终必然将改变BLOG和S N S的价值形成和挖掘机制,从而大大地促进BLOG和SNS的全息化发展。

搜索的开放型

垂直化的四大领域

目前各大搜索服务商集中精力打造普遍性搜索技术的同时也兼顾开展搜索力的横向渗透,比如在内容领域以搜索

开展内容自组织而派生出的“搜索引擎内容”机制,比如以在电子商务领域呼之欲出的搜索型电子商务模式,比如以搜索组织社会关系的搜索型社会网络,搜索的横向运用在谷歌、雅虎、百度等巨头的躯体上正在迅猛生长。但是,搜索技术的开放属性和搜索权力的分散趋势是不可逆转的方向,任何搜索巨头独立垄断搜索价值链的想法对其自身发展和社会都存在一定的风险,也是不切实际、违反互联网的2.0文化的。

搜索的垂直化浪潮符合搜索的技术开放和权力分散的大趋势,但是对于垂直搜索的理解直接决定了其变革效果和实际影响力,因此必须突破传统垂直运用的框架思路,以全新视角定义搜索的垂直化发展――简单讲,搜索的垂直化发展,就是突破专业搜索服务商的范畴,扩大搜索技术和权力的分享范围,从市场、技术、用户、知识的四个角度分别实现垂直化。

搜索的市场垂直化

针对现实的不同产业部门进行市场细分,分行业、分产品、分生产销售服务的不同环节、分需求提供搜索运用,已经成为搜索垂直化的主流,但是我们必须注意,市场垂直化远远不能够代表搜索垂直化的全部,即使这样的任务在目前普遍的、集权的非垂直化搜索占有决多统治地位的情况下还显得框架巨大,也无法忽视其外的技术、用户和知识的垂直化。

搜索的技术垂直化

将搜索技术与互联网的传统运用进行整合已经广泛开展,但是以搜索为根基的行动显得滞后,比如内容网站以搜索技术完善服务的努力,博客网站推出的博客搜索,交友网站的开放人际搜索,都属于站在传统技术模式的角度上对搜索的借力性运用,而搜索技术的垂直化思想是以搜索为思考根基,以内容、关系及行为为三类目标,主动构造搜索力攻击、渗透、改造、影响甚至颠覆传统技术服务模式的系统思路,按照这样的思路,互联网、电子社会、产品、服务、虚拟价值等众多领域,全部可以以搜索力的枢纽予以革命性的变革,区别于传统模式的搜索革新,搜索的技术垂直化是以系统思维来凝聚和发挥搜索的力量,以自觉和自信来攻击传统技术模式的落后性。

搜索的用户垂直化

搜索对用户的意义,不仅仅在于搜索信息,更在于用户生存和参与社会活动的所有层面。搜索的用户垂直化就是对个人化的搜索挖掘,就是基于用户角色论的搜索,就是要让搜索与用户紧密融合无处不在,搜索成为脱离网线的、与用户如影随形的服务,随时为用户的生活、学习、职业、商务、娱乐、自我价值实现等提供服务。通过搜索的用户垂直化,可以让个人的生命和价值得到提升、延伸、沉淀,个人对于社会的价值、权力、意义都将被搜索所改变。

搜索的内容垂直化

由于差异服务、政府影响、商业利益、搜索权力等因素,搜索所提供的信息在分享性具有由开放到封闭的垂直纵深结构,目前对于大众提供的搜索输出信息普遍停留于浅表共享性的阶段,人类知识的深度共享以及搜索所产生的“B类知识”都远远没有开放,事实上上述内容对于大众具有相当的民主意义和现实意义,社会性的分享和监控是必然的趋势。搜索的内容垂直化,就是针对搜索内容的纵深分布结构,扩大知识分享,提供开放而垂直的内容机制。通俗讲,在搜索服务中有所保留,“我知道你们不知道”的状况,对于社会和用户而言,反映的是搜索服务商的搜索某种霸权意识,搜索内容的垂直化开放是必然趋势。

内容“主动推送机制”如何改变搜索?

目前的在线浏览阅读方式和内容存取机制大致划分为三类:

主动寻找机制

用户因为特定的信息知识需求,可以通过两种方式进行主动寻找:一是到特定网站浏览,二是搜索引擎,构成当前最主流的内容存取机制。相对而言,前者已经成为在线浏览阅读的主流习惯,如很多用户会选择到新浪看新闻、到博客网看博客、到联众玩在线游戏都成为一种大众性习惯。而后者,因为近年百度中文搜索的迅速崛起正在趋于主流,很多网民为了寻找特定事件的详细信息、寻找特定的背景知识,越来越多的以搜索引擎支持自己的阅读浏览。“百度资讯”的推出,进一步加强了搜索引擎阅读的趋主流地位,而这种内容机制,本质上属于一种搜索引擎内容阅读机制的二次信息加工,与传统的新闻网站相比,在内容获得、内容的覆盖面、内容的联系性和扩展性、内容深度等方面都具有特殊的优势。

随机匹配机制

相对而言,“随机匹配机制”是更加原始的一种阅读浏览方式,在互连网兴起之初成为最主流,目前也仍然是主流机制之一,有很多很多网民在网站间漫游切换,随机获得信息知识。对于这一浏览机制,当前需要开发的创新空间在于,基于随机浏览中的动机成分,如何通过用户目的性的模糊分析和大致分析,促进随机匹配的动机性。具体答案,隐藏于宏观的互相网信息内容的质量提升、秩序优化和价值挖掘之中。

主动推送机制

“主动推送机制”是一种基于用户高度参与的内容阅读浏览方式,目前未成为主流,但是2.0浪潮唤醒了他的发展空间,在不远的将来他将成为最主流之一。“主动推送机制”分为三类:作者的主动推送;读者的主动推送;网站的主动推送。“主动推送机制”的主要功能在于以社会关系组织阅读行为和信息流动,促进网络信息的利用和重组效能。

搜索引擎作为一种“ 主动寻找机制”,与“主动推送机制”的结合,可以形成一加一大于二的倍增效应。

“主动推送机制”

改变搜索阅读的质量

目前搜索阅读内容,无论用户通过关键词搜索获得还是通过搜索引擎工作人员统计新闻信息和用户数据形成二次内容,都偏重于一种传统的、机械成分居多的、参与度相对较弱的机制,读者和作者在其中所起的作用相对薄弱,其对于质量控制和提升的巨大潜能远远没有发挥。“主动推送机制”使得作者和读者参与到阅读机制的流程各环节,有利于推送好的内容与大众分享,产生出更加公平合理有效的内容价值评价机制,进而在实现内容价值的推送也激发和实现了内容生产者、阅读者在过程中的个人价值。

“主动推送机制”

改变搜索阅读习惯

传统阅读停留于信息表层,在背景阅读、互动阅读、积累阅读、关系阅读四个方面存在一定缺陷。“主动推送机制”让用户改变搜索阅读习惯:一是用户可以将搜索内容进行个性化评论和评价并且予以;二是用户可以获得来自大众的公众性定向内容;三是用户评价记录可以形成社会性阅读趋势数据库,指引内容的宏观完善;四是用户全面参与推动了背景阅读、互动阅读、积累阅读、关系阅读是全面进步进而形成全新的阅读感受。

“主动推送机制”

改变搜索阅读的影响力

大众参与阅读机制是对于传统传播模式的革命性挑战,尤其当它与搜索阅读的全息属性相结合后,将在读者、作者、评价者、传输者、背景知识整理者、延伸阅读协作者等不同的角色层面形成立体性的参与规模,从而深刻地改变搜索阅读规则,形成一种全息主动阅读影响力。在一种新阅读机制的推广挖掘中,对其内在机制和价值本质的细节完善和外部宣传是重要环节。基于搜索引擎的内容机制目前在全球仍然处于探索之中,而“主动推送机制”的导入,无疑将为其带来新的思考切入点。

“主动推送机制”

改变搜索阅读的机制

“主动推送机制”将阅读和写作更好地结合,不仅在于信息的供求匹配,更加在于他模糊了阅读和写作的界限,融合了作者、读者的身份,激发了不同角色定位的延伸性和控制力。比如作者的写作构成因为“主动推送机制”的功能支持,也成为一个不断获取写作信息的阅读过程;再比如作者的阅读过程,因为“主动推送机制”的功能支持,而成为一个加入评论、评价和背景知识的写作组织过程。

搜索作文篇8

关键词:桌面搜索引擎;系统资源占用率;查全率;友好界面

中图分类号:TP393文献标识码:A文章编号:1009-3044(2011)20-4949-03

Design of a Desktop Search Engine

LI Xiao-xin

(Department of Mathematics, Shaanxi Education College, Xi'an 710061, China)

Abstract: Currently the main desktop search engines lack the good user experience, and they can not build index instantly, and they have high resources occupation rate. So the thesis designs a smart, powerful and fast desktop search engine that has the better user experience. It supports the function of re-retrival of search results. Apart from this, it has low resources occupation rate, including cpu, memory and disk.And the thesis designs three types of indexes that ensure the real-time and recall ratio of the desktop search engine.

Key words: desktop search engines; resources occupation rate; recall ratio; friendly interface

信息爆炸的时代,人类的记忆能力在不断的接受着挑战,搜索成了替代记忆需求的行之有效的方法,所以搜索引擎应势而生。随着硬盘容量的增大,用户本地文件系统目录结构越来越复杂,文件数量越来越庞大,用户对本地文件快速搜索的需要也越来越迫切,桌面搜索成了搜索领域的关注点,桌面搜索的竞争也成为各大搜索引擎公司竞争的焦点。Windows自带的搜索功能搜索速度很慢,在全盘中搜索某个文件需要花费十几分钟的时间(在Windows7和vista中有所改进),而用户的等待耐心是有限的,所以需要一款能提供高速搜索硬盘文件的软件,来满足用户快速查询的需求。当前,各大搜索公司都开发了自己的桌面搜索引擎,但从用户体验、索引实时性和系统资源占用率上来说,都有很大的欠缺。所以开发一款实时性高,用户体验好,且占用系统资源低的桌面搜索引擎成了大势所趋,而且桌面搜索比web搜索更靠近用户,用户粘度更大,所以如果能借助腾讯这个大平台来做这件事,我想应该会赢得广大用户的欢迎和认可。

1 相关产品

Windows下已有几款比较成熟的桌面搜索软件。这些软件按其主流功能分为两类:对文件属性信息的搜索和对文本文件内容的搜索。对文件属性信息的搜索软件主要有File finder、Ava、Locate;对文本文件内容索引的软件主要有Google桌面搜索、百度硬盘搜索、微软桌面搜索、中搜网络猪等。

1)Google桌面搜索Google公司开发,主页为/;主要对各种文本文件内容索引和检索,能够对各种格式文件进行解析,能够搜索邮件和即时消息,目前拥有较大用户群。主要缺点是索引过程可能需要几个小时,索引文件一般占用几百兆到几吉硬盘空间,搜索时需要开启专门服务器,占用资源较大,以网页形式给出搜索结果,不适合与普通电脑用户。

2)百度硬盘搜索:百度公司开发,主页为,在国内亦拥有较大用户群,实现方式和使用界面均与google桌面搜索类似。

3)微软桌面搜索:微软公司开发,主页为,微软桌面搜索是一款针对电子邮件、Office文档、MP3、图片、联系人等信息的搜索软件。

4)网络猪:由中搜公司开发,主页为/,搜索本地文档和邮件。

以上几款大型桌面搜索软件缺点是建立索引需要时间长,更新索引速度慢,索引实时性不高,硬盘等系统资源占用率高。例如用户群最大的Google桌面搜索,建立一次索引一般需要几个小时,在我本机上的索引时间大约20个小时,索引文件达到2G,需要时刻开启一个桌面搜索服务器,即时用户不进行搜索也需要耗费15M左右内存。

2 系统总控模块

当用户启动系统之后,系统首先检查索引状态,包括三种:索引完整,索引不完整,没有索引,并提示给用户,当索引不完整或没有索引时,用户需要先使用批量索引功能建立索引,如果索引完整,用户可以选择查询,或重新建立索引,或建立增量索引,增量索引的意思就是在原有索引的基础之上增量建立索引,而非覆盖原有索引。用户在查询时,可以选择两种查询方式,一种是基于文件名关键字的查询,一种是基于文件内容的查询,系统针对这两种查询分别采取两种完全不同的索引查询方式,详细过程稍后会讲,同时用户可以对查询文件通过属性信息过滤,比如通过文件大小,修改时间,文件类型等属性信息过滤,精确地定位用户需求。

当系统启动之后,除了响应用户的请求之外,系统还并行执行其他两个任务,一个是实时索引,一个是慢索引。执行这两个任务的目的是为了保证索引的实时性。实时索引实时捕获系统的文件操作,并建立动态数据结构索引,而慢索引则通过条件触发方式执行,触发慢索引的条件包括三种:1)到达系统预设的索引更新时间;2)实时索引中新增文件或目录达到预设最大值;3)实时索引中标记删除文件或目录达到预设最大值。三种触发条件保证了索引的实时性,同时也保证了系统的较低的内存使用率。

查询数据显示给用户,可以采用基于文件大小,修改时间等属性的再排序操作,同时还通过用户在结果中二次查询操作,精确定位用户查询目的,满足用户快速查询需求。

3 磁盘扫描模块

磁盘扫描模块针对快索引(批量索引、增量索引)和慢索引采用不同的扫描处理机制,使快索引能高速扫描,并保证慢索引极低的系统资源占用率。

批量快索引采用多线程并行磁盘扫描方式,针对每个需要扫描建立索引的目录分别开启一个线程去扫描。扫描的过程我们采用栈来模拟递归,解决了递归函数深度调用带来的时间和系统资源等耗费,提高了扫描速度。

增量快索引同样采用多线程并行磁盘扫描方式,但在扫描过程中需要处理目录重叠问题,避免了重复的磁盘扫描。所谓增量就是在原先索引的基础上新添目录索引,假设用户需要增量索引的目录集合为A,原先已经扫描索引的目录集合为B,则增量快索引在扫描磁盘时只需要扫描A-B(A与B的差集)目录集合中的目录。避免了重复扫描,加快了扫描速度。

慢索引是一种隐式索引方式,是系统的一种索引更新方式,在用户察觉不到的情况下进行的,所以要求cpu,内存等系统资源占用率极低,因此在扫描硬盘时我们采用单线程的方式来尽量的减少系统资源的占用率。

4 索引模块

系统使用了三种索引模式:快索引、慢索引、实时索引,其中快索引又分为批量索引和增量索引。其中快索引是一种显式手动索引方法,慢索引和实时索引是一种隐式自动索引方法。

快索引和慢索引采用倒排文件的索引方法,处理过程包括分词,建立倒排文件,除了对文件或目录名建立倒排索引之外,为了加速基于内容的查询,我们还对扩展名建立了倒排索引,并采用红黑树结构对扩展名进行编号,实现快速编号且节约了存储空间。索引的内部数据采用gbk编码,对utf-8等其他编码进行了编码转换,节约了存储空间。倒排索引链表的存储采用游程编码和字节对齐的压缩存储方法,即节约了硬盘空间,又减少了磁盘I/O时间。倒排索引词典的建立采用完美哈希的方法,达到O(1)时间复杂度的快速查找定位,并且只占用大约64KB左右的磁盘空间。

分词过程采用n-gram语言模型,使用1-gram和2-gram相结合的分词策略,分别对中文、英文分词,保证了系统的查全率和查准率。

实时索引并非倒排文件形式,而是采用了两种动态数据结构配合存储,包括:红黑树数据结构和Bloom filter哈希表结构,两种数据结构配合操作,实现了对添加文件或目录、删除文件或目录、重命名文件或目录、移动文件或目录等文件操作的的快速实时索引。

5 查询模块

通过数据分析对比发现,用户桌面查询需求主要集中在对文件属性信息的查询上,用户很少使用基于内容的查询服务,基本上符合2-8原则,所以针对文件属性和内容两种不同的查询需求,系统设计了两套索引查询方法,既保证了常用文件属性的查询操作的速度,又极大减少了磁盘等系统资源的占用率,同时,内容查询采用基于自动机理论的高效多模式串匹配算法,在一定程度上保证了内容查询的速度。

基于文件属性的查询,我们采用预先建立倒排索引的方法(快索引,慢索引和实时索引),查询过程从倒排索引文件和实时索引动态数据结构中提取数据,排序处理并返回给用户。

基于内容的查询,首先在扩展名倒排索引文件中提取出文本文件,然后对文本文件进行格式解析,抽取纯文本内容,然后通过AC-BM多模式串匹配算法进行关键词匹配,最后将包含用户查询关键词的文本文件返回给用户,同时这个过程采用并行处理技术,进一步提高了速度。

6 结果显示模块

结果显示采用与资源管理器无缝结合,搜索结果文件或目录可以直接操作,支持在结果中查找,如果搜索结果过多,可以进一步过滤;同时支持各种排序显示,比如按文件大小,修改时间等显示;除此之外显示模块支持分类显示,可以将结果按文件格式分类显示,方便用户查找。

7 结束语

本论文设计的桌面搜索引擎是一款短小精悍,功能强大,性能卓越,界面友好的桌面搜索引擎。主要解决了目前主流桌面搜索引擎的一些缺点,如用户体验不好,索引实时性不高,查全率不高,索引和索引更新时间过长,系统资源占用率过高等缺点。功能方面,本桌面搜索引擎支持多关键词检索、通配符检索、精确检索、复合检索、文件类型检索以及检索结果的再检索,同时系统采用倒排索引和基于自动机理论的多模式串算法保证了系统的检索速度。针对文件属性和文件内容两种查询需求,设计了两套完全不同的索引检索机制,保证系统运行时cpu、内存和磁盘等较低的系统资源消耗。采用手动显式索引和自动隐式索引来满足用户不同的索引需求,同时系统内部使用三种索引机制:快索引(又包括批量索引和增量索引),慢索引和实时索引,来保证索引的实时性和系统的查全率,对索引文件采用游程编码和字节对齐压缩存储,进一步减少了磁盘占用率,同时提高了I/O磁盘操作速度。系统采用n-gram语言模型,设计了1-gram和2-gram相结合的分词算法,保证了系统的查全率和查准率。系统界面使用窗口界面,而非web界面,可以与资源管理器无缝结合,支持对搜索结果的二次查询,分类显示,排序显示,支持对搜索结果文件的直接编辑操作,方便了用户的使用。

参考文献:

[1] 丛磊.桌面搜索引擎的研究与实现[D].北京:北京化工大学,2006.

[2] 李伟超.桌面搜索引擎评析[J].现代情报,2007,27(12): 211-214.

[3] 孟美华.桌面搜索引擎的设计与实现[D].大连:大连理工大学,2009.

[4] 任树怀,卢志国.基于Google桌面搜索开发站内全文搜索引擎[J]. 图书情报工作,2005,49(11):88-90.

[5] 李子臣.搜索技术的现状及发展前景[J]. 情报科学,2006,24(3): 468-474.

[6] 张卫丰,徐宝文.Web搜索引擎框架研究[J].计算机研究与发展,2000,37(3):376-378.

[7] 张卫丰,徐宝文.Web搜索引擎框架研究[J].计算机研究与发展,2000,37(3):376-378.

[8]郭立力,赵春江.高效FTP搜索引擎的设计与实现[J].华南理工大学学报,2009,37(1):135-139.

上一篇:团队凝聚力拓展范文 下一篇:春分的古诗范文