基于链接分析的网站评价实证研究

时间:2022-04-20 12:21:25

基于链接分析的网站评价实证研究

【摘要】本文运用网络链接分析方法,对10个排名靠前的商业性旅游网站的网页数、总链接数、内部链接数、外部链接数进行测度并计算出总网络影响因子和外部网络影响因子。将这3种链接数和2种网络影响因子与旅游网站Alexa流量的中国排名进行相关性分析,发现总网络影响因子与流量排行存在着显著相关性。同时将这5种链接指标与网站的人均页面访问量进行相关性分析,初步确定外部链接数能同时提升网站影响力和流量,为旅游网站自身优化提供了思路。

【关键词】总网络影响因子;链接分析;网络计量学

1.引言

利用网络计量学方法开展网站评价研究是众多学者探求的重要领域,其中站外链接数量和网络影响因子是网络评价中人们讨论最多的两个测度指标。网站只有通过与其它的网页及其自身内容的链接,才能相互交换信息,扩大使用价值。网站的不同链接体现了不同的信息功能,具有不同的特征和规律。对网站的链接特征进行分析是了解网站发展的一个重要途径[1]。目前,我国关于网络计量的研究文献已有百余篇,但是实践评价类的文献较少,且评价对象大多限于科研学术型网站和政府门户网站。随着旅游业的迅猛发展,各种旅游网站大量出现,数量之多但质量却良莠不齐,对其网站的质量进行科学地评估不仅可以有助于评选出高质量的核心网站,为用户提供好的旅游服务,更有助于发现旅游网站建设中的不足,寻求改进和完善措施。本文利用链接分析的方法,对旅游网站进行评价,并将链接分析的结果与网站流量排行进行相关性检测,探讨影响旅游网站流量的因素,并对旅游网站的建设提出参考性意见。

2.研究方法

2.1 研究对象

调查发现旅游类网站主要分为两类:一是非商业性网站,只提供旅游、地理资讯等信息,如国家旅游局、中国国家地理网;二是商业性网站,提供包括旅游线路报价、机票住宿在线订购、旅游评论等综合性资讯,如携程旅行网、去哪儿网等。笔者此次选取第二类网站作为研究对象,利用http:///、http:///、http:///这3个主流的网址导航,选择10个排名靠前、重叠度较高的商业性旅游网站作为此次的研究样本,然后利用Alexa网站进行搜索,查询出十个网站的中国流量排名。Alexa是一家专门网站世界排名的公司,它是当前拥有URL数量最庞大,排名信息最详尽的网站[2],排名具有一定的权威性。

表1 AltaVista的检索语句

检索项目 检索式

总页面数 host:

总链接数 link:

外部链接数 link: host:

内部连接数 link: +host:

2.2 研究工具

作为网络计量学研究的最基本的研究工具,搜索引擎在网站链接特征的研究中应用广泛,尤其是对于一些数据量较大的商业网站,搜索引擎的作用甚至是无可替代的。本文选用了AltaVista作为搜集数据的工具,主要是因为AltaVista是著名的搜索引擎,提供检索网页的站内外链接功能,能实现复杂的检索任务,是国外链接分析的主要应用工具,其可用性在国外研究中得到了实证。

2.3 检索指令

不同的搜索引擎有不同的检索方法, 以携程旅行网()为例,列出AltaVista的检索语句,如表1所示。

2.4 研究指标

网站链接特征是网站链接属性的总和。任何事物的属性都是多方面的, 因此, 为了能够全面反映旅游网站的建设情况,笔者主要选取以下七种指标:

(1)网页总数:指某网站内的网页数,反映了网站规模大小,但并不代表网站信息质量与信息浓度的高低。

(2)总链接数:总链接数是衡量网站链接数量特征最重要的指标之一。通常, 网站中存在的网络链接数量越多, 网站的组织体系就越完整, 信息的揭示程度越高, 通过此网站所能访问到的网上资源越丰富。

(3)外链接数:外部链接数。网站外部链接数也是评价网站影响力和价值的重要尺度。尽管网站被链接的原因很多, 但一般来说, 具有独特资源优势, 价值高、影响力大的网站被其他网站链接的次数就越多。

(4)内链接数:从网站内部指向该网站的链接数量,反映了网站内部结构的层次性与完备性。

(5)网络影响因子:网站规模是影响网站被链接次数的重要因素, 规模大的网站由于信息容量大,通常被其它网站链接的次数就多, 而专业性强、规模小的网站往往处于劣势[3]。为了更准确地评价网站影响力, 消除网站规模的影响,Peter Ingwersen在The Calculation of Web Impact Factors一文中提出了网络影响因子的概念。他将Web―IF定义为:在某一特定时刻,指向特定国家或网站的网页总数与该国或网站中网页数之比。作者还指出指向网站的链接分为来源于外部的链接(external.citations)和源于自身的链接(self-citations),认为“external Web-IF”是测度网站影响力的指标,而“self-linkage”反映的是服务器上网页组织的逻辑结构[4]。WIF的计算公式为:

WIF=(其一国家或网站的)总链接数/(该国家或网站内部的)网页数

(6)外部网络影响因子:外链接数与网页数的比值即为外部网络影响因子,它反映了网站网页被外部链接的总的平均水平。通常把外部链接数占链接总数的比例定义为链接效率[5],这样它就能够客观地表明网站链接来源的组成结构。外部链接所占的比例越高,外部网络影响因子越大,其链接效率就越高,来源于外部的链接就越多,那么网站的相对影响力就越大。因此,链接效率是反映网站影响力大小的一个重要指标。

(7)链接测度偏差:从理论上讲,总链接数应该等于内部链接数与外部链接数之和;但是在实际的搜索中存在偏差,它们之间并不相等,这就产生了链接测度偏差。链接测度偏差={总链接数-(内链接数+外链接数)}/总链接数。

3.数据获取及分析

笔者于2013年6月8日下午14:00到17:00利用AltaVista对选取的10个商业旅游网站进行各指标的测定,利用Excel作为数据统计工具,利用SPSS16.0进行数据的处理。采集到的各指标数据如表2所示。表中“排名”指的是各网站的Alexa中文排名。

从表2可以看出,流量排在前面的“去哪儿网”、“携程旅行网”、“艺龙旅行”等网站无论是网页总数、总链接数还是外部链接数都相对较高,所以造成其网络影响因子和外部网络影响因子普遍相对较低,但这并不影响网站的流量排名,说明它们依然很受欢迎。流量位居榜首的“去哪儿网”在这三项指标中均排名第一。相反,“驴妈妈”、“芒果网”和“穷游网”的外部网络影响因子明显比其他网站偏大, 但其流量排名却很靠后,这是由于网络影响因子和外部网络影响因子的计算都要以网页总数做分母来计算,当分子变化不大时,分母普遍又很低的时候,这些网站的网络影响因子和外部网络影响因子势必相对较高。但理论上认为,网页总数只反映网站规模大小,并不能代表网站信息质量与信息浓度的高低。所以,虽然“驴妈妈”、“芒果网”和“穷游网”等网站的自身影响力较高, 但是其网站规模仍需扩大,在不断地推出创新服务的同时加大宣传力度,吸引更多的用户,这样才能在流量上取胜。从表中还可以发现,排名第三的“酷讯网”和第九的“悠哉旅游网”的各项指标数都相对较低,除了有其网站自身设计的因素,还可能是因为以下原因:(1)网站服务器如果有病毒, 就会使搜索引擎爬行器难以爬行下去,造成检测到的网页数偏小。(2)搜索引擎不稳定会造成所测得的数值波动太大。(3)商业搜索引擎覆盖范围不全,检索范围往往受到制约,很多网站不能检索出来。1999年,Lawrence和Giles在文章 Accessibility of information on the web中指出,任何搜索引擎的网络覆盖率都不大于16%[6],这必然导致网页数等其它各项指标下降同时从表2中不难发现,这两个网站的网络影响因子和外部网络影响因子数值虽相差不大,但排名却相差很大。通过浏览“酷讯网”,发现其网站在服务范围、用户界面和信息及时性方面都比“悠哉旅游网”要略胜一筹,甚至比排名第一的“去哪儿网”提供的服务还要好,这从一个侧面说明了,商业网站要想在市场上占据有利地位,必须以提高自身网站的质量为核心,以加大网站的宣传力度为后盾,扩大网站的规模和影响力,才能使网站更受欢迎,获得更高的流量排名。

在Excel里面计算出总络影响因子和外部网络影响因子后,对各旅游网站的WIF与外部WIF进行排名,从表2中我们可以看出,由于“携程网”的外部链接数与内链数总和超过了总链接数,导致其链接测度误差为不正常的负值,视为异常数据。“酷讯网”和 “悠哉旅游网”的网页总数、总链接数和外部链接数等各项指标都相对较低,所以均将其排除,剩下7组数据。将七大旅游网站的网页总数、链接总数、外部链接数、网络影响因子、外部网络影响因子等五个链接指标与这七个旅游网站的alexa流量中国排行做皮尔森指数分析,计算其相关性,如表3所示。

从表4可以看出,网页总数的P值小于0.05,与流量排名存在着显著相关性。相关系数为-0.983,说明了旅游网站的网页总数与旅游网站的中文流量排名存在着显著的负相关,即网页总数越大,流量排名数值越小,也就是说,其排名越靠前,其网站的影响力越大。

但是,理论上认为,网页总数指的是某网站内的网页数,可以反映网站规模大小,但并不能代表网站信息质量与信息浓度的高低,而Alexa网站流量排名却是网站信息质量与信息浓度的反映,这两者似乎存在着矛盾性。再者就是,许多网络计量学的研究表明:网络影响因子和外部链接数与网站的流量排名存在显著地相关性,而表4的测量结果可以看出,外部链接数、总网络影响因子和外部网络影响因子与流量排名均不存在相关性。Alexa网站排名的主要依据是网站流量, 除此之外, Alexa网站还列举了用户量、页面访问量、人均页面访问量、网站访问时间等指标。笔者认为人均页面访问量是网站流量的最直接反映, 可以把它作为参照值, 分析各链接特征指标与其之间的相关性, 从而确定能更好地体现门户网站影响力的指标。利用SPSS16.0进行相关性分析分别得出网页总数、链接总数、外部链接数、内部网络影响因子、总网络影响因子、外部网络影响因子等六个链接指标与人均页面访问量的皮尔森等级相关系数,如表4所示。

从表4可以看出,各网站的链接总数、外部链接数与网站的人均页面访问量有显著的相关性。也就是说, 网站的链接总数和外部链接数越大, 网站的人均页面访问量就越大, 相应的网站的流量也会大。

二者中, 链接总数与人均页面访问量的相关性更为显著。从表中也可以看出网站的网页总数、网络影响因子和链接效率与网站的人均页面之间的相关系数不具有统计学意义, 认为不相关。

4.结论

4.1 提高流量排名的建议

旅游网站要想提高流量排名需做到如下几点:一是要实行站内优化。即提高网站质量,丰富网站内容,完善网站服务,具体表现在网站栏目的细化,导航的清晰,目录的明确,方便用户快速查找网站内容,设置链接结构并在合理的首页添置最新内容与最热内容,满足用户的好奇需求,在相应栏目,设置相关内容,最新栏目内容,最热门栏目内容等,信息量大的话,可以设置TAG,方便用户快速查找相关内容信息。及时提供内容更新,还要保持网站速度的稳定畅通,给访问网站用户良好的体验,只有这样才能有效提高网站的粘度,才能留住用户,使用户回访。加强网站互动,给网站内容设置RSS订阅,网站收藏夹、友情链接、论坛交流、内容评论、内容投票、博客交流等都能吸引用户常驻,提高网站浏览量。二是实现站外优化。如利用借节假日举办各种活动,商品打折等等,以提高人气。加入论坛联盟、网摘联盟、图摘联盟,通过联盟平台来产生流量的新的端口,能够让用户有一定的交叉。首先应该针对网站的特点,加大宣传力度,提高网站在行业中的知名度,让更多的潜在用户人群知道有这样一个网站,使得这些人群成为网站的用户。还有就是有效增加网站的外链,引导爬行蜘蛛进入自己的网站,增加被搜索引擎收录的机会,提高网站在搜索引擎中的权重。

4.2 开发专门的进行链接分析的搜索引擎

商业门户网站数据较大, 要分析其链接特征,只有选取商业搜索引擎搜集数据。但是,目前的商业搜索引擎往往存在很多缺陷,如搜索范围不全,漏检率高,功能限制等[7]。这些使得链接分析时统计的数据不全面,而且波动较大。虽然AltaVista被认为进行网络计量学研究的最佳搜索引擎,但它的稳定性和可靠性仍待提高,特别是其布尔逻辑性的稳定性。以前的研究已经证明了AltaVista的布尔逻辑性有着一定程度的不稳定性,比如A∩B和B∩A并不总是返回相同的搜索结果。所以,开发出专门的进行链接分析的搜索引擎就显得非常必要。

4.3 对链接类型进行分类和计算

在网站链接数量的统计上过于简单,只要是存在的链接均进行统计,但是没有从链接动机和链接类型出发进行考虑,分类讨论。网络上充斥着大量的非实质性链接,广告传播,商业推广,友情链接等都会影响网络信息的链接数量,这使得网络链接变得复杂。其次,什么样的内容才能被当作是一个网页并没有公认的标准。一篇论文可以被认为是一个网页,也可以将该篇论文分成几个页面显示而作为几个网页进行计算。只有对链接类型进行分类划分和计算,才能真正区分和计算出一个网络的影响力。

4.4 网络影响因子反映网站质量的相对性

网络影响因子的计算定义是链接总数和网页总数的比值,是一个相对数值。它抹煞了网页总数和链接总数对网站影响力的绝对影响,也就是说,网站的影响力的一个重要因素就是网页和链接的绝对数量,在一定程度上这两者的绝对数量越大表示其社会影响力越大。而网络影响因子恰恰是没有如实的反映出这一点,网络影响因子经常表现出与绝对数量变化相反的趋势。

4.5 流量排名在反映网站质量和排名的局限性

影响流量排名的因素很多,例如:网站改版,增减频道,URL规则调整,页面优化,内容调整等等对网站结构、内容和页面的修改都可能会对流量产生影响。这部分的影响主要体现在SEO渠道中,每次网站的调整和修改都可能影响到搜索引擎对网站的排名,进而影响网站获得的流量。商业网站的特殊性也会造成流量的不稳定。例如:旅游业的相关网站会受到节假日的影响,一年中的销售淡旺季也会对网站流量的变化产生影响,一年中不同的节假日,通常每个节假日的开始和结束的两个时间段里,旅游网站的流量都会有一个明显的下降和上升的趋势,这个变化比较有规律,并且会同时对网站的所有流量来源造成影响。所以,流量排名并不能十分准确的反映网站的质量和排名。

5.结语

网络计量学作为一门新兴的学科,在研究过程中还存在着一些问题。它作为一门学科,还缺乏明确的学科体系、完善的理论基础,也缺乏可靠的研究方法及深入的应用研究[8],网络影响因子自身存在的缺陷也使得它很难全面有效地对网站的质量做出评价。但是,网络影响因子毕竟是一个开创性的科学理念,对于信息计量学的发展有着一定的意义,相信随着科学技术的不断发展,网络影响因子的作用将日益显现。

参考文献

[1]王知津,张收棉.网络计量学方法在网站评价中的应用及其理论模型[J].图书与情报,2006(3):372.

[2]百度百科[EB/OL].[2013-06-03].http:///view/663.htm.

[3]知识共享中国大陆[EB/OL].[2013-06-04].http:///.3

[4]Peter Ingwersen.The calculation of web impact factors.Journal of theJournal of Documentation,1998,54(2)4.

[5]Ingwersen P.The Calculation of Web Impact Factors[J].Journal o f Docum en tation,1998(54):236-2435.

[6]Lawrence S,Giles C L.Accessibility of information on the web[J].Nature,1999(400):107-1096.

[7]邱均平,李江.当前链接分析工具的缺陷及其解决方案[J].情报科学,2007,25(25):6437.

[8]邱均平.网络计量学[M].北京:科学出版社,2010(31).

作者简介:曹晶(1986―),女,湖北黄冈人,硕士,现供职于石河子大学图书馆,研究方向:信息资源建设。

上一篇:井下低压电网电动机起动电流的VB计算程序 下一篇:校友资源信息查询和管理系统的设计与实现