robots协议范文

时间:2023-03-15 10:34:57

robots协议

robots协议范文第1篇

>> 不行贿与公平竞争责任 Robots协议维护互联网秩序 公平竞争 Robots “公平竞争”何来公平 民营企业发展与公平竞争环境 拨开最后迷雾 迎接公平竞争 公平竞争:从摩擦走向协调 不公平竞争等 漫话CS之公平竞争 药品行政监管与市场公平竞争的冲突与平衡 浅谈技术产权\公平竞争与建设创新型国家 对农村中学“高考录取”与“公平竞争”的思考 体育竞赛公平竞争原则与社会契约原则的关系研究 刘纪鹏:让国资与民资公平竞争 从行业惯例的角度分析robots协议的司法约束力 公平竞争保障“自家和尚好念经” NBA的公平竞争经济学 论公平竞争权侵权及法律救济 徐林:只希望有公平竞争的机会 常见问题解答 当前所在位置:l,这意味着京东不允许所有搜索引擎抓取/pop/目录下所有以.html结尾的页面,其后的*代表所有可能性。再以Disallow:/pinpai/*.html/*为例,这意味着不允许所有搜索引擎抓取pinpai后所有有问号的,或是问号后面有*的内容。协议还可以针对特定来源的爬虫User-agent: EtaoSpider Disallow:/,其中disallow:/代表所有内容一淘都不能抓取。除此以外,spider还分版本,由于robots协议分大小写,所以一个网站可能有几个spider。

为什么要运用“Robots协议”?除了保护隐私之外,是否还有其它目的?李哲解释说:我先对搜索引擎原理做个解释。搜索引擎的工作分为三个阶段:第一,释放蜘蛛,将所有能抓取的网站内容收集起来,其为信息收集阶段;第二,入库,分析,做词表,建立索引;第三,响应用户请求。用户通常只感知到第三个阶段。耗时最长的是第一个阶段,占总耗时80%左右。另两个阶段主要在于技术高度,在竞争中占有更重要的位置。如果竞争对手直接抓取我的信息,他只要有足够的财力和人力,前期可以把我的信息都爬完。

那么,从技术角度来看,如果不遵守“Robots 协议”会有什么后果?据了解,技术人员往往具有两面性。一方面不愿意遵守“Robots协议”;另一方面不遵守协议可能造成以下危害:1、分流目标网站流量。当网站不够大时,是欢迎爬虫的;但当网站足够大时,入口的重要性就显现出来了。当网站不是该网站所有信息的唯一入口时,会降低网站的展示率。以携程网为例,订酒店时,一般遵循“看评价,选择区域,选择酒店,下单”的顺序。假如被spider抓取,那么携程网就不是唯一入口,会对信息的展示几率造成影响。再以Etao网为例,该网站会对消费信息提供比较,从京东买8600,从其他网站买8200,这样用户就不会去点击京东了。2、安全。“Robots协议”一般不允许索引管理者网页,如果不遵守“Robots协议”,会危害网站安全。

“Robots协议”的法律定性

在百度诉360不正当竞争案中,360公司认为,“Robots协议”不是法规、不是标准,也不是合约,不存在违反与不违反的问题。相关资料也表示,“Robots协议”并不是一个规范,而只是约定俗成的,所以并不能保证网站的隐私。那么,“Robots协议”在法律上终究该如何定性?

华中科技大学法学院教授郑友德:“Robots 协议”在法律上如何定性很重要。是自律性的公约,是行为准则,是同业工会的规则。我国法律对此没有规定,但德国竞争法2008年修改时做了明确界定,专门纳入规范范畴。自律公约是恶规还是良规,在德国法上,要以是否违反善良风俗加以判断。

北京理工大学法学院硕导杨华权:我们讨论爬虫协议时,要区分1994年互联网公开邮件组里讨论的爬虫协议,和依据爬虫协议制定具体的Robots.TXT文本文件。这是两个不同层次的概念。首先,从1994年开始为爬虫协议制定了强调搜索引擎需要遵循的规则。不管是称作习惯法还是什么法,或者叫做“惯例”。它是搜索引擎都要遵循的惯例。第二,爬虫协议确定了每一个网站要编写Robots.txt 的语法规则。就像我们看到GOOGLE.TXT 写的是“.”,对所有搜索引擎都是一样的;第二种写法,百度是分别针对不同的搜索引擎,比如对百度对搜狗,对谷哥允许抓什么,不允许抓什么,其他都不允许抓,这也是黑白名单问题。第三,爬虫协议要注意确定信息交流,信息沟通的原则。搜索引擎本身是促进信息流动。

中国互联网协会研究中心秘书长胡钢:中国有关“Robots协议”的法学文章、经济学、计算机学文章,都认可这是一个行业惯例。2012年经过多轮协商,达成了《互联网搜索引擎服务自律公约》。本案当事人两方都是互联网协会的重要成员。在研究方面,中国司法判决对“Robots协议”比国外还早,国外法律对该协议的法律性质认定也比较一致。美国、欧洲设置的协议大多针对内容,而中国则很多针对主体。这两者有很大区别,无法说哪个更合理,至少都是事实。去年8月份之前,中国这种情况普遍存在,业界也一般认同。互联网协会的立场是,协议的制定要经过当事人协商,协商不成的要进行票决,但这个票决规定还没有实施。

上海市协力律师事务所合伙人傅钢:第一,“Robots协议”的地位。从根本上来说,协议是基于经济学考虑而设定的,旨在加强信息快速流通,是促进信息流通便利的协定。第二,具体到本案,百度针对部分搜索引擎实施了歧视性待遇,是出于限制竞争目的,客观上限制了竞争、阻碍了信息传播、妨碍了大众自由获取信息,因而不具有合理性。

百度“白名单”的竞争法考量

“Robots协议”从1994年制定以来,设定了两个原则。第一,搜索技术应服务于人类,同时应尊重信息提供者的意愿,并维护其隐私。第二,网站有义务保护使用者个人信息及其隐私。搜索国内和美国系列网站协议后发现,美国十大网站,极少禁止某个特定爬虫来爬行;绝大多数网站设置的协议只是禁止爬行一些可能涉及用户隐私和网站经营者隐私的内容。而中国的网站运用“黑白名单”比例远远超过美国网站。竞争法只保护竞争而非竞争者,规制不正当竞争行为而不限制竞争者。那么,百度设计的针对特定竞争者的“黑白名单”行为是否符合竞争法基本理念?

华中科技大学法学院教授郑友德:协议与协议禁止访问的内容,是两个概念。百度既然设计了白名单,就意味着有相应黑名单,即把360排除出去。这一行为,是否涉及反法某个条文?我觉得很难说。除非适用反法第二条的一般条款。这让我联想到傅钢律师提出的歧视行为。这个行为是不是歧视行为呢?所谓歧视,是没有正当理由对条件相同的交易相对人在交易价格等交易条件上实行差别待遇。我认为,这是一种单方拒绝交易的行为。白名单包含的都是我愿意与之交易的伙伴,黑名单属于拒绝交易。

我看了《自律公约》第八条,限制搜索引擎抓取应当有合理的正当理由,不得利用协议进行不正当竞争。其行为是否是属于拒绝交易呢?百度在搜索引擎市场上占有支配地位,垄断法中规定没有正当理由不能拒绝与交易相对人交易。当然,在适用该条款之前要特别研究,双方之间是否具有交易关系。第二,1994年“Robots协议”一个原则是,要尊重内容提供者的意愿。有的权利人没有设置“Robots协议”,他希望自己的信息能够自由传播使用。设置“Robots协议”明显违背信息提供者意愿,这一点违背了协议的基本原则。

中山大学法学院教授谢晓尧:第一,“Robots协议”的性质必须从多个维度去考量。其一,协议是一种计算机语言;其二,一种自力性救济手段;其三,是行业内的经验性做法。第二,使用协议本身并不违法,有其合理性。判断不正当竞争,不以公民道德为标准,而以经济人为标准。反不正当竞争法一般条款判断的主体是经济人。第三,具体到本案,尽管这个措施有其合理正当性,也并不表示百度以不正当竞争一般条款进行诉讼是正确的。一般条款寻求竞争法的支持需要更多理由。从一般商业伦理规范走向一个具体判决,需要做的事情更多。刚才说到绕开协议可能只是侵犯一种技术措施,但如果要构成不正当竞争行为,从目前我国法律来看,它所侵犯的法律必须危及公共竞争秩序。这一点在我国司法实践中一直被忽略。

中国互联网协会研究中心秘书长胡钢:在中国环境下来说,我认为白名单和黑名单都是合理的。我认为,不能以欧美的标准为标准,中国有中国的做法。第二,互联网精神是开放自由流动,黑名单制度是否符合开放流动原则应该让市场说话。

上海市海华永泰律师事务所合伙人吴民平:白名单的设置是不合理的。首先,百度的内容不涉及隐私与网络安全。第二,其主张的内容都来源于网民。从检索到的用户协议来看,用户同意百度享有网民内容的非排他性权利,并不限制他人的访问。

上海市协力律师事务所合伙人傅钢:第一,“Robots协议”构成了互联网行业的商业道德。第二,“Robots协议”的适用是有条件的。我倾向针对内容设定白名单。假如内容具有强烈的私权性质,协议应当认可,但对本身就有公开性质的内容来说,要以同创共享原则为主。尤其UCG 网站,主要内容源于网民或其他网站。百度的行为与同创共享的初衷相违背。除了“Robots协议”外,还有互联网行业必须遵守的其它公序良俗。假如百度只是为了打击竞争对手,其效力不应认可。

robots协议范文第2篇

Robots协议和搜索引擎的爬虫程序(Spider)其实是一对同胞兄弟。1994年之前,以AltaVista、Infoseek等为代表的搜索引擎,在互联网可以通过Spider直入网站管理后台,把所有网页信息悉数收录。除了涉及隐私,爬虫程序的反复收录在20年前对网站带宽也是不小的负载。荷兰工程师Martin Koster深感互联网丛林之乱,于是提出通过设立名为Robots规范的网站访问限制政策(Access Policy)方式,在整个互联网统一解决Spider无所不在所带来的威胁。从早期的AltaVista、Infoseek,到后来居上的Google 、雅虎及美国以外的百度和奇虎360等各大搜索引擎群体,都接受了Robots协议,避免和内容网站为Spider陷入一场危机。

在百度与360的这场战役中,反对3B案一审判决的理由集中在对Robots协议法律效力的否定上。Robots协议并不是法律,也没有被IETF、ITU和W3C等国际标准组织接纳。所以,百度以不正当竞争为案由360,而《反不正当竞争法》本身就是通过列举加兜底的方式,在少数明确规定的违法行为外,以原则性规定了不正当竞争行为的判断标准。

在这种情况下,司法者的权限并不局限于寻找包含Robots协议内容的具体法条,而是可以根据实际案情裁量违反Robots协议,是否就违反了《反不正当竞争法》(第二条)中对经营者应当遵循自愿、平等、公平、诚实信用和公认商业道德的强制性规定。认定违法也并不需要将Robots协议上升为法律作为前提,违反规则就可能导致违反法律的结果。

况且,3B案发生背景之一是被告奇虎360签署了《互联网搜索引擎服务自律公约》,承诺“遵守机器人协议(Robots协议)”和“限制搜索引擎抓取应有行业公认合理的正当理由,不利用机器人协议进行不正当竞争行为”。360在明确承认Robots协议约束力后又规避了协议,既是违法,又构成违约。

百度在360推出网络搜索后迅速启用Robots协议,在百度旗下的知道、贴吧、文库、百科等产品屏蔽了360爬虫。需要指出的是,百度拒绝360爬虫抓取的产品,基本属于用户创造内容(UGC)类型的上传平台,而百度对这些内容并不直接享有著作权,360因此质疑百度无权拒绝收录。但UGC平台身份也无碍百度根据《著作权法》第十四条对相关内容享有作为汇编者的权利。在百度主张反不正当竞争保护情况下,举证责任更简化到证明原告合法投入因被告竞争行为受到实际损害及被告竞争行为违反诚实信用或商业道德,而360强行利用百度网站内容已构成搭便车的不正当竞争行为。

360在3B案中,以百度滥用Robots协议作为抗辩,但换个角度看,真正容易被滥用的倒是爬虫程序。互联与分享是网络的基本性格,而信息的多元化也决定了网络传播在很多情况下必须受到控制。不受Robots协议限制的Spider程序必然使互联网陷入严重混乱,网站后台隐私无法保护,网页更新的旧信息必须完全删除而不能仅仅屏蔽,音乐、视频等内容的收费盈利模式遭到毁灭性打击。互联网经过长期博弈逐步摆脱无序状态,难道只因搜索爬虫失控又将回到比拼技术暴力的暗黑丛林?这种情景,绝非法治下的互联网可以接受的。

Robots协议自产生以来在全球受到严格遵守,利用Robots协议屏蔽搜索的案例举不胜举。比如,Facebook和Twitter长期屏蔽Google,后者除了发发牢骚,却也不敢采取任何规避手段;默多克的新闻集团一度全面屏蔽Google,后者一直忍到默多克自己投降。在国内,搜索屏蔽360的除了百度,还有腾讯的QQ空间,更有意思的是,QQ空间却在2012年后对百度和Google开放,360甚至都没有为此指责腾讯歧视。腾讯尽管向百度开放QQ空间,却将腾讯微博的内容屏蔽至今,新浪微博也一度加入屏蔽百度的队列。电商领域可能是互相屏蔽的高地,淘宝从2008年起一直屏蔽百度搜索,京东、苏宁、当当网等也屏蔽了阿里旗下一淘搜索的爬虫。

各国法院承认Robots协议效力的判决同样不胜枚举。美国联邦法院早在2000年就在eBay诉BE(Bedder’s Edge)案中,通过禁令支持了eBay屏蔽BE爬虫的主张。美国内华达州立法院在2006年审理的Field v. Google 案中,明确认可Robots协议是有效保护网站权利的通行标准。北京一中院同样于2006年在审理著名的浙江泛亚诉百度著作权侵权案判决书中认定原告有权利用设置Robots.txt文件拒绝百度收录。

上述通过Robots协议屏蔽搜索爬虫的互联网实例和认可Robots协议法律效力的中外法院判决,证明Robots协议的效力并不是在3B案中才成为争点,也证明Robots协议在产业实践和司法实践中都一直得到认可和尊重。

robots协议范文第3篇

【关键词】robots协议;爬虫协议;搜索引擎;法律性质;行业惯例

一、案例简况

2012年8月16日,360搜索上线并成为360网址导航的默认搜索,360搜索将百度多项业务纳入搜索范围供用户选择,如百度知道,百度音乐,百度地图等纳入自己的综合搜索。这一行为遭到百度的强烈抵制,随后百度通过技术手段,令这些搜索请求无法通过360直达结果页面,而是跳转至百度首页,让用户重新搜索。双方的争议随后进入司法程序,2012年10月16日,百度将奇虎360 诉诸北京市第一中级人民法院。

百度不允许360搜索直接访问百度的内容,其依据的是国外成型已久的所谓搜索行业规范――robots协议。百度认为,百度知道、百科、贴吧等内容是百度所有的内网内容,百度有权决定其内容是否要被360综合搜索抓取与展示,而360综合搜索无视百度在robots协议中未对其进行授权的事实,对百度知道、百度百科等内容进行强行抓取,违背行业规范,涉嫌侵犯著作权、不正当竞争。奇虎360则认为,“robots.txt仅仅是指导和提示搜索引擎蜘蛛程序,善意的提示性TXT文件,既不是法规或标准,也不是合约,因而不存在违反与不违反的问题”。百度既是搜索引擎,也是内容网站,百度百科和百度知道等内容的robots协议仅针对360综合搜索,其他引擎如谷歌搜索则可以顺利抓取,这是一种歧视性的行为,是假robots协议之名阻止360进入搜索市场,是不正当竞争。并且,百度百科和百度知道等都是公开的信息,是网民一点一滴贡献出来的,允许其它搜索引擎抓取就正说明不涉及隐私的内容,不符合robots协议的适用范围。

本文无意探讨上述双方谁是谁非,只是借助这个案例,告诉大家什么是robots协议,通过对robots协议的法律性质作出认定,从行业惯例的角度去分析robots协议的司法约束力。

二、robots协议的法律性质

robots协议也称爬虫协议、爬虫规则等,就搜索引擎抓取网站内容的范围作了约定,当一个网站不希望其全部或部分内容被搜索引擎收录时,可以通过建立一个robots.txt文件来告诉搜索引擎哪些页面可以抓取,哪些页面不能抓取,搜索引擎则通过一种爬虫蜘蛛程序去自动依据这个文件来决定抓取或不抓取该网页内容。robots.txt类似于游览景区的指示牌,为搜索引擎蜘蛛程序爬行于本网站的路径进行提示,同时标明了哪些是开放景区(允许抓取),哪些游客止步景区(不允许抓取)。通常鉴于网络安全与隐私的考虑,每个网站都会设置自己的robots协议,来明示搜索引擎,哪些内容是愿意和允许被搜索引擎收录的,哪些则不允许。例如高校bbs类网站,如有不希望被搜索引擎收录的相关内容,最好设置robots.txt以指示搜索引擎的访问路径,从而限制其蜘蛛程序的访问权限,这就解释了为什么一些bbs的网站内容能被搜索引擎检索到,而另一些则不能。

Robots协议并非强制性法规,而是搜索引擎诞生后,互联网业界经过长期博弈,最终在搜索引擎与商业站点、公众知情权和用户隐私权之间达成的一种妥协。是为了互联网的和谐发展而制定的一种行业规范,是行业内一个约定俗成的协议,其根本性的权力来源是团体成员的理性契约与集体认同。正如Robots协议创始人Martijn Koster所言,该协议并不是有权机关制定的,不具有强制执行力,任何人都没有义务一定要去遵守这个协议。

事实上,robots协议在20世纪93、94年出现后,几乎被所有的搜索引擎采用,包括最早的altavista、infoseek,后来的google、bing,以及中国的百度、搜狗、搜搜等公司也相继采用这一规则并严格遵循。Robots协议限制搜索引擎的抓取内容,保护网站数据和敏感信息、确保用户个人信息和隐私不被泄露,对“人肉搜索”这类侵犯用户隐私的行为树立了一道屏障,为互联网的和谐发展起着重要的作用,如果某一搜索引擎被禁止访问某一网站全部或者部分内容,该搜索引擎蜘蛛程序就要绕开robots.txt而随意抓取该网站的内容,无视robots.txt的存在,这必然会导致信息提供者保护私有财产的权利无法得到保护和用户的隐私无法得到保障。

此外,中国互联网协会于2012年11月1日在北京举行《互联网搜索引擎服务自律公约》(以下简称“公约”)签约仪式,百度、360等12家搜索引擎服务企业现场签署了该公约。该公约第7条规定,搜索引擎企业要“遵循国际通行的行业惯例与商业规则,遵守机器人协议(robots协议)”,对于违反公约内容的,相关网站应及时删除、断开连接。从上诉公约内容来看,可以看出网络搜索行业自身已认可robots协议具有国际通行的行业惯例与商业规则的地位。

那么,行业惯例在像我国这样的成文法国家是否可被用来作为司法裁判的依据?惯例成为具有法律拘束力的习惯法应该具备些什么条件?robots协议又是否符合惯例构成要件,得到更强有力的法律保障?以下将逐一分析。

三、行业惯例的法律适用

robots协议范文第4篇

robots协议是搜索行业的一种行业自律规则,它的约束力固然仅限于自律,没有强制约束力,但这不等于说,它背后反映的精神,没有法律基础。例如美国《电子隐私权法》就规定“将决定权交给消费者,让其切实有效地授权或者拒绝他人采集和使用其个人信息”。更重要的是,规则有没有强制力,同它是不是规则并没有关系。遵守规则是要遵守公平竞争,不是没有强制力就可以不公平竞争。

我们可以把robots协议理解为客房的“请勿打扰”标志,服务人员不得以“更好服务”为借口,强行进入提供服务。因为这会损害三个主体的利益,一是消费者,未来人们更多把自己的数据存储在云端,涉及私有数据隐私安全,挂上“请勿打扰”,就不能硬闯;二是企业,企业网站后台的机密数据信息,应受到robots协议的保护。三是竞争中的服务者,如果离开robots协议的保护,服务网站、网站站长权利就会受到侵犯。robots协议执行中是否排他,不直接影响robots协议本身涉及的上述利益关系。当然,robots协议应该是对所有人都适用的。

在这一事件中,我认为当事人涉嫌违反《信息安全技术个人信息保护指南》,该指南制订中,北京奇虎科技有限公司、北京百度网讯科技有限公司均有参与,理应遵守。违反的原则包括:1、安全保障原则(防止未经授权检索、公开及丢失、泄露、损毁和篡改个人信息)。2、合理处置原则(不采用非法、隐蔽、间接等方式收集个人信息,在达到既定目标后不再继续处理个人信息)。3、知情同意原则(未经个人信息主体同意,不处理个人信息)。此外,企业自有版权及所具有其他机构的版权授权,未经许可不得复制。随意抓取,会造成侵权,涉嫌违反知识产权有关法律。

现在的问题处理主要着眼于预防、避免3Q大战那样的事件重演。首先要明确规制的原则。我认为原则应是保障行业秩序和市场秩序,保护消费者与从业者正当权益。其次,要慎重运用规制手段。规制的顺序,应是市场优先,鼓励企业自律;市场失灵后,行业协会介入,行业规范;社会自律失灵后,政府介入,以政策法律形式规范,包括行政手段。鉴于robots协议的自律约束失灵,首先应向企业提示遵守协议。如果企业不接受,应考虑由行业协会出面,以他律方式进行协调,劝解。如果仍不起作用,为避免引起不良社会后果,可考虑政府出面,采取行政、法规手段进行强制制止。

为了避免搜索引擎行业出现恶性竞争,我建议加速行业规则和政策法规制订并抓紧实施。首先,要运用好现有政策法规。如知识产权法律、尤其是《信息安全技术个人信息保护指南》。其次,行业协会可针对搜索引擎制订具有他律效果的行业规章。第三,政府制订政策法规时,站在互联网产业健康发展和个人信息开发和保护全局高度,将robots协议内容纳入具有强制力的条款中,并加强监管。

robots协议范文第5篇

Robots协议引发的大战

8月16日,360搜索上线,与百度展开正面竞争,被业内称之为“3B大战”。在这场大战中,一个关于Robots协议的技术性话题浮出水面,百度指责:360搜索不顾Robots协议肆意抓取百度数据,是一种不遵守互联网基本协议的行为,对全体网民的隐私和安全都会造成威胁。360则回应:百度是在滥用Robots协议,阻碍360进入搜索市场。暂且不论两家公司的是是非非,让我们先来了解一下,什么是Robots协议?为什么会威胁网民的隐私?

我们在用搜索引擎查找资料时,不少人以为是在网络上实时搜索,这其实是一个假像,我们实际是在搜索引擎服务商的数据库中搜索。当搜索出结果后,点击链接,此时打开的才是真正的网上数据。那么,搜索引擎数据库中的数据又是怎么来的呢?每家搜索引擎,都会有一种爬虫程序(Spider),也称作机器人(Robot),它们能自动采集互联网上的网页相关信息,并存储到数据库中。

大多数网站,都会希望网络爬虫来采集自己网站的信息,这样可增加被网民搜索到的概率。但也有部分网站,出于信息垄断或隐私安全等考虑,却并不希望被搜索引擎采集到数据。不过更多的网站,它们希望网站的一部分内容被采集,而另一部分敏感内容则希望能保护起来。针对这些情况,Robots协议应运而生。

Robots协议的实体就是一个robots.txt的文本文件,存放在网站根目录下,它里面包含了一些声明内容,用来告诉搜索引擎的爬虫程序,此网站中的内容哪些可以抓取哪些不可以抓取。我们可以打开http:///robots.txt,看看实际的Robots协议文件是什么样子。

可以看到,robots.txt中有大量的Disallow(不允许)及Allow(允许)语句,每个语句后面标明了具体的文件或文件夹。第一条语句“User—agent: *”,表明此网站的协议适用所有类型的网络爬虫。也有仅针对某个特殊爬虫的,比如“User—agent:Googlebot”则表示仅针对谷歌搜索。

搜索引擎的爬虫程序,首先会读取网站的robots.txt中的声明,再确定抓取信息的权限。这就好比去到别人家里,“需要先敲门,得到许可以后才能进入客厅。除非有主人的进一步许可和邀请,否则你不能擅自进入内室,或者在别人家里四处溜达。”

网络爬虫是这样抓走网页的

Robots协议是国际互联网上网站间通行的道德规范,但它并不是命令,需要搜索引擎自觉遵守。遇到不自觉的信息采集者,完全可以绕过它采集任意数据,包括网站后台数据和个人信息等,这就构成了很大的隐私威胁。这里不妨了解一下网络爬虫的工作原理。

网络爬虫(也叫网络蜘蛛、网络机器人等,谷歌称之为漫游器),实际就是一种能自动抓取网页的程序。对此程序大家应该不会陌生,宽带之前的窄带年代特别流行的离线浏览器(下载整个网站以便离线的时候也能浏览),本质上就是一种网络爬虫程序。

网络上的所有文件,都会有一个独一无二的访问地址,即URL(统一资源定位符),也就是平常我们说的网址或链接。网络爬虫从一个初始的网页URL开始(即所谓的种子),在抓取当前网页的过程中,不断抽取出网页中包含的其他URL,放入下一步要继续抓取的网页队列,如此反复,从而实现从一个页面到另一个页面的自动爬行,漫游因特网,为搜索引擎尽可能多地搜集数据。

原理说起来简单,不过技术实现异常复杂,比如对网站结构的分析,如何识别链接,深度优先还是广度优先,海量抓取效率涉及的多线程并发,定期更新等等问题。

网站如何赶走讨厌的爬虫

从上面的分析可以看出,一方面,搜索引擎要抓取互联网上所有的网页几乎是不可能的,一是抓取技术瓶颈,另外数据存储和处理也是很大问题。但是另一方面,许多网页上看不到的后台文件,比如用户的账户信息及隐私数据等,完全有可能被网络爬虫神不知鬼不觉地抓取。而这些是不可能通过一个Robots协议文件就能阻止的。

我们的账户信息等隐私数据是怎么跑到网上的?有很多途径,比如,你在网站注册时填写的信息将会被网站保存,你发送邮件时E—mail也会游历多家网络服务器,你浏览网站时网站通过Cookies收集到本机的信息,等等。而存有我们信息的网站数据,完全有可能被网络爬虫所提取并到网络上,我们此时的隐私安全,只能看所在网站的技术力量了。

作为网站,完全可以从技术上屏蔽网络爬虫的提取。首先要找出爬虫,识别出哪些是正常的访问哪些是爬虫的访问。一般来说,爬虫程序发出的网络(HTTP)请求,其中的User Agent字段包含它所使用的操作系统、CPU类型、浏览器(现在你对网站能识别你所用浏览器的事不奇怪了吧,原来信息藏在这里)等信息。爬虫的User Agent字段一般与浏览器有所不同,比如Google爬虫的User Agent字段中会有Googlebot字符串,百度搜索引擎爬虫有Baiduspider字符串等。

有些网络爬虫,则会在HTTP请求的User Agent字段中进行伪装,刻意伪装成浏览器的访问。不过,爬虫的访问一般有一定的规律性(并且高发),而浏览器的访问随机性高一些,通过访问频率的统计,也能很容易识别出真正的爬虫程序。

识别出爬虫程序之后,对于那些你想屏蔽的爬虫,只要在服务器软件中设置通过User Agent字段进行访问过滤,就可以有效赶走大部分爬虫的访问了。

网络爬虫软件

robots协议范文第6篇

焦点事件:

2013年9月25日,由于用户投诉称其搜狗浏览器的默认设置被改为IE或者360浏览器,且用户手动恢复无效,北京搜狗信息服务有限公司、北京搜狗科技发展有限公司(以下统称搜狗)以不正当竞争为由向陕西省西安市中级人民法院提起民事诉讼,奇虎科技公司、奇虎360软件(北京)公司(以下统称360)利用其开发和运营的“360杀毒”、“360安全卫士”系列软件作为杀毒软件的“监督者”地位,误导、欺骗用户,甚至直接采用破坏性技术手段,阻碍用户正常使用搜狗浏览器,破坏其向广大用户提供服务的完整性,构成不正当竞争,要求360停止不正当竞争行为,公开赔礼道歉,并赔偿经济损失4550万元。

针对搜狗的,360辩称:“搜狗所谓360篡改默认浏览器的说法不成立,360实际上是向用户提示搜狗的诱导捆绑行为,在用户知情并允许的情况下,对被篡改的浏览器进行修复,使被诱导安装的搜狗浏览器恢复为系统最初默认的浏览器,在这一过程中,360充分尊重了用户的知情权和选择权。”与此同时360还宣布搜狗不正当竞争及搜狗CEO王小川商誉诋毁,索赔5100万元。

律师坐堂:

目前,有关“3g”法律之争未来会如何发展,我们还难以断定。但该起案件却再次引发了公众对互联网信息服务市场竞争问题的关注和思考。

自2010年10月,因“360隐私保护器”爆发3Q大战以来,互联网行业围绕360的不正当竞争诉讼一直没有停止过,先后有腾讯、百度、金山、搜狗等公司与360对簿公堂,其中影响较大的一起是2011年8月腾讯向广东省高院的“360扣扣保镖”不正当竞争纠纷一案,2013年4月25日法院已对该案作出一审判决。

法院审理认为,腾讯向用户提供免费的即时通讯服务,再以此搭建平台,向用户提供网络社交、资讯、娱乐等增值服务,并为广告客户投放商业广告实现盈利,是当前国际国内即时通讯行业的商业惯例,360无权假借查杀病毒或者保护用户利益之名,侵入其他网络服务提供者合法软件的运行过程,擅自修改他人软件,破坏他人合法经营;另外,360将自己的产品和服务嵌入腾讯QQ软件界面,依附QQ庞大的用户资源推销自己的产品,拓展360软件及服务的用户,不但给腾讯造成了严重的经济损失,而且增加了自己的交易机会,违反了诚实信用和公平竞争的原则,且主观上具有明显恶意,已构成不正当竞争,判令360赔偿腾讯经济损失及合理维权费用500万元人民币,并在包括360官方网站、新浪网、搜狐网、网易网、《法制日报》、《中国知识产权报》等网站和报刊的显著位置连续15天刊登道歉声明,消除影响。这是中国互联网行业目前为止判罚金额最高的一起案例。

通过广东高院的一审判决我们可以看出,对于企业的恶性竞争司法审判惩罚力度正在不断加强。

3Q法律之争尚未结束,我国互联网行业搜索引擎巨头百度与360之间的诉讼战(简称“3B”大战)也是不断升级,愈演愈烈。随着2012年8月360搜索服务上线,百度与360之间竞争加剧。2013年2月,因百度认为360违反“Robots协议”抓取、复制其网站内容的行为构成不正当竞争,百度向北京市第一中级人民法院提讼,索赔1亿元人民币,10月26日正式开庭审理。

百度诉称,百度除向网民提供搜索引擎服务外,百度网站还设有百度知道、百度百科、百度新闻、百度音乐、百度旅游等内容,百度对这些内容享有著作权及其他合法权益。现360公然违反国际通行的“Robots协议”行业规则,不顾百度的权利声明和所采取的技术措施,非法抓取百度网站内容生成“快照”复制件存储于其自身服务器中并实时向网民提供,严重侵害了百度的合法权益,其行为已构成不正当竞争,要求赔偿其经济损失1亿元人民币以及为制止侵权的合理费用支出20万元。

对此360辩称,上述内容页面实际上是由网友提供的,根据互联网的通行规则,这些页面的相关权利属于网友,360搜索索引这些内容页面并没有侵犯百度的权益,相反还为百度带来了大量的用户和流量。百度利用“Robots协议”自设黑名单,其实质是滥用“Robots协议”,设置歧视性条款以实现限制竞争的非法目的。”

另外,百度对360也采取了相应的反制措施,如果点击360搜索结果中的百度页面链接,将强制跳转至百度首页,而无法进入具体内容页面。360表示,该行为严重违反了工业和信息化部的相关规定,是对用户选择权和使用体验的严重践踏,是极其不负责任的。日前,360以不正当竞争为由已向北京市高院提讼,索赔金额4亿元人民币。

此次3B诉讼之战首先在于“Robots协议”的法律效力如何确定。所谓“Robots协议”,又称机器人协议或爬虫协议,该协议就搜索引擎抓取网站内容的范围作了约定,包括网站是否希望被搜索引擎抓取,哪些内容不允许被抓取,网络爬虫据此“自觉地”抓取或不抓取该网页内容,其目的是为了保护网站数据和敏感信息,确保用户个人信息和隐私不被侵犯。

2012年11月1日,百度、360、腾讯、搜狗、新浪等12家发起单位在北京共同签署了《互联网搜索引擎服务自律公约》。公约规定,搜索引擎服务应当遵循国际通行的行业惯例与商业规则,遵守机器人协议(Robots协议);互联网站所有者设置机器人协议应遵循公平、开放和促进信息自由流动的原则,限制搜索引擎抓取应有行业公认合理的正当理由,不利用机器人协议进行不正当竞争行为,积极营造鼓励、公平、公正的良性竞争环境;违反Robots协议抓取内容的企业,应在收到权利人符合法律规定的通知后及时删除、断开侵权链接,努力维护健康有序的网络环境。上述内容确定了“Robots协议”作为行业规范的地位,也因此成为一项公认的商业道德规范。虽然公约本身并不具有强制执行的法律效力,但对于签约企业而言却具有契约性质,应当本着诚实信用原则,自觉遵守,认真履行,一旦违反,则可能构成不正当竞争。

专家观点:

robots协议范文第7篇

本月,腾讯诉奇虎的案件以奇虎赔偿腾讯500万元而终结后,3月初的《互联网不正当竞争案件观察报告》将自2004年以来互联网行业内涉及的不正当竞争案件做了统计,共有79件相关案件。所涉及的不正当竞争行为主要存在以下几种:就安全产品来说,主要存在阻碍软件安装、阻碍软件运行、破坏软件、诱导卸载软件、恶意卸载软件、安装恶意插件、诋毁商誉等;网站经营主要涉及商业混同、侵犯商业秘密、擅自使用内容、诋毁商誉等;搜索服务主要涉及篡改搜索结果、诋毁商誉、商标侵权、擅自使用其他企业名称等。其中大部分不正当竞争案件的共同特点是,平均赔偿金额较低,除腾讯诉奇虎“扣扣保镖”案被判赔偿500万元外,其余案件平均赔偿数额仅为156690元。这其中,不仅仅是因为法定赔偿额过低造成的,原告损失和被告获利证据不足,也是导致判赔过低的一大因素。

在腾讯诉奇虎“扣扣保镖”案中,奇虎公司两次借用“消费者”的名义为其行为做正当性辩护,而在审理该案中,两级法院的判决并未忽视对消费者权益的关切,而是立足于反不正当竞争法的价值本身,从保障消费者的“知情权”和“选择权”的角度,对相关行为是否构成不正当竞争进行了深入剖析。

而在百度奇虎不正当竞争案中,更主要的是涉及到“Robots协议”与公平竞争,这也是引发争议的关键点。据了解,“Robots协议”旨在推动尊重信息提供者意愿,保护网站及其使用者的信息和隐私。百度以“Robots协议”白名单方式将奇虎360搜索引擎排除在百度知道、百度贴吧、百度文库等访问权限之外,是否超出了合理限度?行业默认的“Robots协议”究竟有怎样的效力?

互联网的快速发展,引发了不正当竞争的诸多问题,我国现行法律法规对网络不正当竞争的规范少之又少,导致互联网界的不正当竞争行为有愈演愈烈之势。犹如乱麻的互联网不正当竞争是否将阻碍互联网健康发展?互联网技术创新、自由竞争和不正当竞争的合理界限究竟如何划分?通过近期在业内引发巨大影响的3Q大战、百度诉360插标案、优酷诉金山猎豹浏览器不正当竞争案等一系列互联网不正当竞争案先后判决,是否能为互联网不正当竞争拨开云雾?

robots协议范文第8篇

凤巢系统的新插件

据悉,此前只有木马和间谍软件使用过类似“偷拍”用户电脑隐私的恶意做法,而360的百度“偷拍插件”技术分析显示,该插件主要推广渠道为百度凤巢系统登录界面,百度会利用插件暗中收集用户CPU、浏览器进程等信息,并对用户登录界面进行截图,以此来识别用户使用的浏览器,最终对360浏览器用户进行不兼容提示。

实际上,从去年8月16日360搜索正式上线至今,百度与360之间的竞争一直在持续。百度坐拥国内搜索市场第一的宝座已经多年,面对360搜索市场流量份额的快速增长,百度明显感觉到了竞争的压力,而自己的巨额广告收入也因360浏览器推出的“禁止跟踪”功能而遭受很大冲击。这也就不难理解百度封杀360浏览器的做法。

据了解,百度“美杜莎插件”推广目前只针对二三线城市。面对360的举报,百度强调该插件面向的仅是“凤巢”客户,并非面向普通用户,目前不会对普通用户使用百度的产品和服务产生任何影响。

“Robots协议”再起风波

所谓“Robots协议”,又称机器人协议或爬虫协议。该协议就搜索引擎抓取网站内容的范围作了约定,包括网站是否希望被搜索引擎抓取,哪些内容不允许被抓取,网络爬虫据此“自觉地”抓取或者不抓取该网页内容,其目的是为保护网站数据和敏感信息、确保用户个人信息和隐私不被侵犯。

在此案中,百度方面认为,除了搜索服务外,百度网站还设有百度知道、百度百科、百度新闻、百度音乐、百度旅游等栏目,百度对这些内容享有著作权及其他合法权益。百度在Robots文本中已设定不允许360爬虫进入的情况下,360爬虫却仍然对“百度知道”、“百度百科”等百度网站内容进行抓取。“奇虎360的行为违背国际通行的行业规则、不顾百度的权利声明和技术措施,非法抓取、复制百度网站内容,直接以快照形式向网民提供,严重侵害了百度的合法权益。”百度方面认为,奇虎360的行为构成了不正当竞争行为,因此索赔1亿元。

奇虎360公司相关负责人则对媒体回应称,Robots协议创始人明确提出“如果该协议被当成市场竞争工具,爬虫不需要采纳”,也就是说它不是法规、不是标准,也不是合约,不存在违反与不违反的问题,各搜索公司对Robots协议的使用都遵从一视同仁原则,只有百度当成不正当竞争的工具。

贴身近战的意义

记者了解到,百度也对360采取了反制措施,如果点击360搜索结果中的百度页面链接,将强制跳转进入百度首页,而无法进入具体内容页面。对此,奇虎360认为,这是严重违反工业和信息化部规范的违法行为,也是对用户选择权和使用体验的严重践踏,是极不负责的。

360与百度的交锋毫无疑问成为2013年开年以来互联网业界最重头的大戏。互联网观察家方兴东分析称,百度360之战很可能成为互联网竞争规范的风向标:2013年将是互联网治理重拳出击的一年,法律法规纷纷出台,互联网领域十多年基本无为而治竞争局面也将改变。“作为2013最关注的竞争,百度360各自的一举一动将受到法律、业界和媒体格外关注,反垄断法可以指向运行商,又怎么能忽视百度呢?但百度让用户这样二选一,不但触犯法律,而且侵犯用户权益。”

中央财经大学民生经济研究中心主任李永壮认为,互联网巨头过度垄断,对行业和用户都不是好事。如今各巨头都在进行“平台化”发展,巨头之间已经由过去的“错位竞争”演变为“贴身近战”,这对打破垄断具有独特意义。

相关链接

网友吐槽3百大

网友“苏筱某”在微博中质问:“百度,你要搞那样????百度账户要求安装插件就是这个作用嘛-偷拍用户行为上传到制定的百度服务器???”

知名IT独立博客作者“月光博客”表示:“百度新推出的插件,使用Chrome浏览器的用户也必须安装,我使用Chrome浏览器,不安装这个插件就无法登录百度推广系统。这个插件不是只针对二三线城市,我在深圳也会出现安装插件的信息。安装百度插件后,用户密码框输入将件替代。”

宁波和众互联总经理吴鼎伟认为,“这是不是昏招啊?拿客户来赌,虽然代表百度很牛叉,但是,干涉客户使用浏览器这么霸道的事也干?”

新浪微博网友“Ave一原”说:“百度凤巢的所谓安全插件(美杜莎?!)不是还只对在二三线城市的360浏览器用户么?北京,Firefox,Chrome……”

写在最后

360和百度必有一战。两家互联网公司存在最核心业务和利益的冲突,因此发生种种竞争都不奇怪。另外,互联网领域公司间的争端比其他行业都要多,也从另一个方面说明,相比于传统行业,这个市场仍然存在红利和成长的空间。

仔细研究爬虫协议的内容,不难发现这个协议本身就有一定矛盾性。一方面,强调商业伦理和契约精神;另一方面,也强调防止先发优势的企业设置垄断壁垒。所以这个协议引发了一个多重现象:1、行业对此协议普遍认可;2、协议在市场中和法律上都没有强制性,例如国际电信联盟、W3C等一些行业组织对这个协议目前也采取观望态度。

不少人都关心360为什么要抓百度的内容?更深层次的原因,在于搜索引擎产品本身的属性。一款搜索引擎的搜索结果,不但需要好的引擎技术和算法;另一个重要因素是长期以来用户搜索结果的沉淀和优化,这个是技术层面以外的东西,需要有足够多的搜索量做基础。

普通的搜索引擎抓取,百度可以不介意,但是对于形成强大威胁的360来说,百度不愿意。有业内人士计算,按照目前国内搜索市场的规模,如果360未来目标抢夺百度15%的份额,至少影响百度25-30亿元的收入。这才是大战背后的矛盾所在。对这一事件,记者认为任何市场都需要创新和新兴势力崛起,不光是互联网。

robots协议范文第9篇

关键词:网站诊断;网站优化;SEO;网站运营

中图分类号:TN929.532

网站优化,也称为搜索引擎优化,英文翻译为Search Engine Optimization,所以也可简称为SEO,它能够利用搜索引擎的规则来提高网站排名。本文以从网站诊断、站内优化、外链优化以及流量监控四个方面系统地对网站优化工作进行详细的说明。通过阅读本文,读者能够了解网站优化工作如何开展,并掌握网站优化工作的注意事项。

1 网站诊断

无论是新建网站,或是老网站,想要进行网站优化,都需要进行网站诊断。网站诊断从以下几个方面开展:

1.1 域名以及URL诊断

网站的域名相当于网站的首页门牌号码,比如在浏览器地址输入http://即能打开百度官网。而URL即统一资源定位符,也被称为网页地址,既包含首页域名,也包括内页网址。

从优化的角度来讲,网站的域名简单易记为好,最好能够符合网站主题,比如京东商城的网址就从http://更换成http://,显而易见,jd是京东的拼音首字母组合,简单易记。

另外,网站的URL简短为好,简短的URL易于搜索引擎蜘蛛的爬行和收录,URL的目录层次最好不要超过三层。

1.2 KTD诊断

这里的KTD代表着网站的关键词keywords、title标题以及描述description。

(1)关键词keywords

网站的关键词,一般选择为代表用户搜索意图、搜索量大的词。以“启征网”为例,用户搜索量大的词可确定为:长春职业技术学院、长春职业技术学院论坛。内页关键词的设置要与主页不同,且不同内页关键词最好不相同。需要注意的是,关键词3-5个为宜,词与词之间用英文逗号相隔。

(2)标题title优化

网站的标题,一般与网站关键词相同,只是关键词之间用下划线或者竖线相隔,代表并列关系。

(3)描述description

网站的描述一般七十字左右,是网站的整体概括和介绍,一般是围绕关键词写的一段连贯且语义通顺的话,这段话能够吸引并打动用户,使其做出进站或购买决定。同时,描述内最好留下电话号码等联系方式。

1.3 图片诊断

网站的图片,要经过压缩、美化以及添加水印处理后再上传到网上,压缩图片可加快网页的打开速度。

1.4 内链诊断

网站的内部链接尤其重要,它是搜索引擎蜘蛛爬行的通路,通畅的内部链接能够引导蜘蛛进入该网站的每一个页面,以便搜索引擎能够尽可能多地收录网站内容。一般来说,网站的内部链接有以下几种:导航、面包屑导航、Tags标签、文章中的锚文本链接、长文章的分页链接、图片链接、网站地图。

1.5 robots.txt文件诊断

robots协议(也称为爬虫协议、机器人协议),也就是robots.txt文件。robots.txt文件是一个文本文件,使用记事本即可创建和编辑。robots.txt是搜索引擎中访问网站的时候要查看的第一个文件,它告诉蜘蛛程序在服务器上哪些文件是可以被查看的,哪些页面是禁止被访问的。

一般来说,我们要为网站建立robots.txt文件,来告诉搜索引擎蜘蛛它的访问权限,如果没有该文件,则默认为允许蜘蛛访问全站。

1.6 404页面诊断

404页面是客户端在浏览网页时,服务器在无法正常提供信息的情况下返回的错误页面。404页面的存在目的是“告诉浏览者其所请求的页面不存在或链接错误,同时引导用户进入网站其他页面,而不是关闭窗口离开”。

互联网上有很多404页面的模版,我们只需要用Dreamweaver软件打开进行修改编辑即可,一般来说,我们替换Logo以及导航条文字内容即可。

1.7 网站更新诊断

如果一个网站内容从来不更新,必然不能吸引用户反复来到网站,这样的网站也不是一个好的网站。而一个符合用户以及搜索引擎喜好的网站,必能做到定期、定时、定量更新网站内容。

一个中小规模的网站,要求每天至少更新两篇文章,每篇文章五百字左右,且文章要求是原创或者是伪原创文章。

以“启征网—长春职业技术学院校园论坛”为例,启征网在运营的过程中,每天定在晚七点左右更新文章,给蜘蛛一个讯号:每天七点前来到网站,必能看到并收录最新发表的文章,经过这样的运营,网站的收录效果很好。

如果是大型的资讯站或者行业网站,每天需要更新十篇文章左右。这样的工作量要求该网站有专业的运营团队,且团队成员具备修改伪原创的能力。所谓伪原创就是把一篇文章进行修改再加工,使其让搜索引擎认为是一篇原创文章,从而提高网站收录和网站权重。伪原创文章的写法有很多,可百度搜索或根据个人资源确定。

1.8 网站作弊情况诊断

常见的网站作弊情况包括以下几种:采集文章、隐藏链接、关键词堆砌等。一旦网站有作弊情况被搜索引擎蜘蛛发现,会影响网站的排名,因此要坚决杜绝网站作弊情况的发生。

如果您了解网站诊断的基本思路,可以在新建站前的网站设计阶段就将这些因素考虑进去,对于新站来说,会更好地收录并更快地获得网站排名。

2 站内优化

依据网站诊断结果,进行网站的站内优化工作。

2.1 在购买到合理的域名以后,我们需要设置好网站的关键词、标题以及描述,同时将网站所需图片进行压缩、美化以及添加水印等处理备用。

2.2 检查网站的内部链接是否通畅,是否有死链接存在。互联网上有许多专门检测死链接的工具,读者朋友可自行下载,也可在各个站长工具网站内通过输入网址的形式进行查询。如果查询到有死链接存在,要从源头消除死链接,一般是通过修改代码的形式去掉死链接。

2.3 是否定义了robots.txt文件以及404页面。

3 外链优化

外链是指从别的网站导入到自己网站的链接。外部链接对于网站优化来说非常重要,导入链接的数量和质量直接决定了我们的网站在搜索引擎中的权重,且一个高质量的外部链接可以给网站带来很多很好的流量。

从SEO的角度来考虑,一个网站的外部链接越多、外链链接质量越高,越有利于目标网站的排名。那么什么样的外部链接是高质量的外部链接呢?链接在访问量高的网站比链接在访问量低的网站更有优势;外链网站如果权重过低,对自身网站影响是比较微小的;如果在一些被K过的和一些垃圾低俗网站挂外链的话,则有可能会使蜘蛛对自身网站造成不良影响。综上所述,外链在达到数量的同时质量也是要注意的,且外链数量最好要循序渐进地增长,质量也要有所挑剔。

4 流量监控

每个网站都可以安装站长工具,比如“百度统计”、“51.la”,可以查询每天的网站流量以及来源地区、客户停留时间、详细浏览页面等信息。通过流量监控,我们可以更好地掌握客户来源,定位精准客户,筛除不精准或流量小的关键词,选用大流量关键词,为网站运营提供决策依据。

以上,我们从网站诊断、站内优化、外链优化以及流量监控四个方面系统地对网站优化工作进行了说明。认真研读此文,您一定能够掌握网站优化的工作流程,能够在实际项目中开展网站优化工作,使网站更好更良性地运营。

参考文献:

[1]张希.SEO在网站设计中的优化策略分析[J].计算机光盘软件与应用,2012(17):163+165.

[2]林涵.B2B网站的搜索引擎优化问题探究[J].计算机光盘软件与应用,2012(15):72-73

robots协议范文第10篇

【关键词】爬虫 ajax 并行

1 背景

自媒体时代,网络舆论管理、议题管理和危机管理变得十分困难,解决难题的关键是对网络用户身份的有效识别。目前,用户身份识别主要依赖人工检索结合技术提纯的方式,也就是通过在网络中检索用户分享的数据,从中查找身份信息之间的相关关系、身份特征信息,最后结合技术手段获取真实身份,简单来说就是先检索再发现最后收集的过程。优势是,随着用户分享带来的数据丰富性,可以挖掘的潜在相关关系越丰富。然而,缺陷也很明显,一是效率不够,对广泛互联网数据的搜索需要花费大量人力;二是缺少真实性评估,相关关系没有绝对,只有可能性,面对不对称的检索结果,真实性势必受到主观偏见的影响;三是时效性带来的数据丢失,无论是用户的主动删除还是资源平台的被动删除,缺少主动收集机制造成的数据丢失不可避免。

为了解决上述存在的缺陷同时让优势大放异彩,本文提出一种用于网络原型挖掘的AjaxCrawler系统,通过主动收集的方式对现有工作模式进行有效升级。

2 设计目标和详细设计

网络原型挖掘的对象主要是提供用户数据交互的web、bbs站点,而此类站点为了提供更好的用户体验多在开发中采用AJAX技术,所以AjaxCrawler的设计重点是实现对支持AJAX技术的动态网页的有效挖掘。

2.1 设计目标

设计主要考虑几方面因素:一是抓取质量,针对Web、Bbs采取不同的抓取策略,通过JavaScript解析器实现对AJAX动态页面完整抓取,同时支持JS代码中的DOM操作,以获取页面元素、修改页面元素的内容;二是抓取效率,针对网络延迟、站点限制等因素采取并行策略,使爬虫同时处理不同的URL,以提高网络带宽利用率,加快处理速度;三是抓取策略灵活性,能够设定采集范围、采集频度、采集时间和采集深度,以期能达到最好的特定信息采集效果。

2.2 详细设计

系统采用四层结构。第一层Client节点是门户和命令入口,用户通过它进行任务下发、查看执行结果;第二层Master节点是唯一的控制器,连接Client和Crawler,进行任务的抽取和分发;第三层XCrawler节点由不同的Crawler组成,结构上便于扩展,同时,将Ajax模块独立出来以降低系统耦合性,便于针对非JS脚本页面添加其它引擎;第四层Depository节点是系统仓库,存储运行结果等信息,此讨论重点将不再提及。本系统的通信库基于MINA开发,系统各节点之间通信,只需要调用相应的API即可,不用关心通信细节。系统体系结构设计,如图1所示:

2.2.1 XCrawler设计

XCrawler是具体执行任务的节点,分为WebCrawler、BBSCrawler,架构基本相同,仅抓取策略和方式有所区别。其架构如图2所示:

爬虫系统分为两部分,第一部分是预处理,负责净化URL,去除不必要抓取的URL,类似于过滤器。第二部分是网页抓取,由于网页下载比较耗时,为充分利用资源,采用多线程。抓取阶段获得网页,析出网页内部的链接,然后进行预处理,以净化可能包含有以前抓去过的重复URL、Robots协议禁止抓取的URL等。Clean URLs是净化后的URL库,存放需要抓取的URL。

2.2.2 页面预处理

(1)页面去重 为避免页面重复抓取,系统包含网页去重管理机制,建立了一个可维护的HASH表,记录已处理过的URL的MD5值。页面预处理通过判断任务URL的MD5值在HASH表中是否存在,来判断URL是否重复。

(2)HTTP协议控制和URL文件格式控制 目前只支持HTTP协议,HTTP协议控制用来检测URL协议,如果不是HTTP协议直接抛弃;系统收集对象是包含用户身份信息的网页文本,一些多媒体格式,比如MP3,AVI和JPG等格式并不需要,URL文件格式控制用来过滤不支持的URL。

(3)Robots控制。遇到一个新网站时,首先会通过Robots文件管理模块获取该网站的robots.txt文件,然后根据robots.txt的文件规定控制URL的抓取。

2.2.3 AjaxEngine设计

3 AjaxCrawler的实现

3.1 Crawler的实现

对于Internet上不同类型的网站,采用单一的抓取模式、抓取策略,显然不合适宜。如前文所述,本系统Crawler包括WebCrawler、BbsCrawler两种Crawler,以下逐一叙述。

3.1.1 WebCrawler

对于最基本的Web内容,设置一定的抓取深度,配置广告等无关内容的过滤器,依照Web内容更新频度设定爬虫的更新频率,依照详细设计中的XCrawler的框架,实现较为简单,这里不再赘述。

3.1.2 BBSCrawler

3.2.2 DOM Builder

DOM Builder建立JS对象与HTML对象的映射,构造DOM树,触发事件等功能。本系统借助NokoHTML扫描HTML文本,建立DOM树。NekoHTML还能增补缺失的父元素、自动用结束标签关闭相应的元素及不匹配的内嵌元素标签。使用NekoHTML进行DOM树建立接口很简单,使用NekoHTML中DOMParser对网页进行解析即可。

Rhino在执行JS代码时,需要根据JS对象与HTML对象映射表修改DOM树中的元素内容。本系统中,借用了HtmlUnit建立的JS对象与HTML对象之间的映射关系。在Html Unit中,继承了W3C的DOM接口,同时实现了JS对象与HTML对象之间的映射。

4 结束语

本文在分析了互联网身份管理的现状和优缺点后,根据大数据相关关系分析法的理念基础,提出一种通过爬虫技术对互联网交互式站点中开放数据进行主动收集,挖掘其中存在身份信息以及身份信息件存在的相关关系的工作方法,从而通过已知身份挖掘出可能尚未掌握的未知身份信息,同时针对现有交互式网站普遍采用Ajax技术模式详细设计实现了AjaxCrawler挖掘模型,是现有网络身份管理模式的升级和有力补充。最后,作者相信随着科技浪潮的发展,更多的管理困境将找到更好的解决方案。

参考文献

[1] 马民虎.互联网信息内容安全管理教程[M].北京:中国人民公安大学出版社,2008.

[2] 李学凯.面向多任务、多通道并行爬虫的技术研究[D].哈尔滨:哈尔滨工业大学,2009.

[3] 曾伟辉,李淼.基于JavaScript切片的Ajax框架网络爬虫技术研究[J].计算机系统应用,2009.

[4] Viktor Mayer-Sch?nberger,Big Data:A Revolution That Will Transform How We Live, Work,and Think[M].Hodder,2013.

[5] 罗兵.支持 AJAX 的互联网搜索引擎爬虫设计与实现[D].杭州:浙江大学,2007.

作者单位

上一篇:协议格式范文 下一篇:协议管辖范文

友情链接