Web预取技术综述

时间:2022-07-15 01:49:30

Web预取技术综述

【摘要】本文分析了Web预取技术的概念,Web预取的分类,在这些理论的基础上,本文重点论述了Web预取技术,最后,本文简要的分析了缓存和Web预取技术的综合利用。

【关键词】Web;预取技术;综述

中图分类号: TP393 文献标识码: A 文章编号:

一、前言

Web预取可以减少网络用户访问互联网的时间,从而可以提高网络的服务质量。因此,近年来,国内外对于Web预取技术都进行了深入的分析和研究,得到了比较多的分析研究结果,本文从理论出发,进一步对Web预取技术进行了分析综述。

二、Web预取技术

与Web Cache技术相比较,预取技术首先预测用户将来的请求,并且在用户请求之前,将预测的Web对象预取到Cache中,这样当用户以后真正请求这些对象时,它们己经在Cache中了。如果预取的对象是正确的,就可以省去到Web站点获取请求对象的时间。但是如果预取系统作的预测是错误的,将会造成对服务器负载的增加和网络带宽的浪费。Web预取利用了Web页面访问的空间局部性,是一种延迟容忍( latencyTolerant)技术。延迟容忍的基本思想是当高延迟时间在进行时,允许处理器执行别的任务,延迟时间被并行的计算时间所隐藏。预取对于那些常见的数据访问模式非常有效。预取操作一般发生在系统正在等待用户输入或执行某些操作的时候。为方便起见,称这段能够发生预取的时间为浏览时间(或称为视图时间, viewing time)。图1显示了具有预取机制和没有预取机制下的时间关系。T1是前一请求响应时刻,用户开始浏览获取的页面,T1-T2表示该页面的浏览时间;在无预取机制的情况下,用户在时刻T2发出了对d的访问请求,在时刻T4,用户接收到对象d,T2-T4表示对象d的响应时间(或检索时间);在具有预取机制下,情况就大不相同,系统可以利用用户浏览的时间将对象d预取到本地,当用户准备访问d时,该对象可以立即得到。

三、预取分类

1按照预取实施的位置可以将预取分为客户端预取、服务器端预取和服务器端预取.客户端预取是根据单个用户的当前和历史请求来建立预测模型,由客户端决定预取哪些Web页.客户端预取的服务对象仅是单用户,因此具有划分用户会话简单、易于实现、能够体现用户的个性化等优势,但预取的内容不能被多个用户所共享,可能会大大增加对网络带宽的需求.服务器端预取是基于收集的日志和当前用户请求来构建预测模型,依据预测结果由服务器发起预取.服务器记载的是多用户对多服务器的请求,能够反映群体用户的共同兴趣,预取内容能够被多个用户所共享.服务器端预取是依据服务器端收集的信息建立预测模型,由服务器为用户预测将要访问的网页,并将预测列表传递给用户,然后由用户决定是否预取.相对于服务器,服务器具有记载所有用户对其请求的优势,但由于客户端缓存、缓存和防火墙的存在,难以区分不同的用户,不能反映用户的真正浏览行为.

2按照预取算法可以将预取分为基于访问路径和基于语义的预取.基于访问路径的预取根据用户访问路径建立预测模型,对于那些具有较强路径依赖关系的访问模式非常有效,但对于从没访问的文档不能进行预测.基于语义的预取通常根据超级链接上的描述文本来推断用户请求之间的语义关系,依此对用户请求进行预测.该方法能够预测用户从没访问过的网页,适合于新闻类的服务,但难区分多义词和歧义词.

四、Web 数据挖掘综述

Web 数据挖掘是只从大量 Web 数据中发现和获取有用的、重要的信息(也包括模式、规则等),这些可以统称为知识,是数据挖掘与知识发现的一个重要研究和应用领域。它反复使用多种数据挖掘算法从观测数据中确定模式或合理模型,是将数据挖掘技术和理论应用于对 WWW 资源进行挖掘的一个新的研究领域。目前在该研究领域中,根据挖掘对象的不同,Web 数据挖掘可以分为三类(图2所示),即 Web 内容挖掘、Web 结构挖掘和 Web 使用记录挖掘。

图2Web数据挖掘分类图

数据挖掘是面向发现的数据分析技术,通过对大型的数据集进行探查,可以发现有用的知识,从而为决策支持提供有力的依据。从理论上讲,数据挖掘的各种技术和理论都可以直接或间接地应用于 Web 信息挖掘,然而由于 WWW 资源的异质性、多样性、分布的广泛性,特别是其上数据的半结构化特点,导致了 Web 挖掘与普通大型数据库挖掘有很大的不同。Web 内容挖掘是挖掘 Internet 的页面和后台交易数据库。Web 结构挖掘是运用数据挖掘技术来重建 Web 站点结构。Web使用记录挖掘是通过挖掘相应站点的日志文件和相关数据来发现站点上的浏览者和顾客的行为模式。

五、缓存与预取技术

英国的JANET、德国的DFN、俄罗斯的FreeNet、新加坡的SingNet、泰国的ThaiSARN等,都是全国性的Web缓存系统,目的是提供廉价的高速缓冲服务。中国教育科研网CERNET也制定了层次结构的Web缓冲计划,在国家中心建立一级缓存系统,各个联网学校建立二级缓存系统,并通过有关缓存交互协议构成一个CERNET范围的缓存体系。缓存技术的关键问题是替换算法。目前关于Web缓存替换策略已有大量的研究,主要有以下四种类型: (1)基于访问次数的替换策略,例如LFU; (2)基于访问时间间隔的替换策略,例如LRU; (3)基于网页大小的替换策略,例如GDSize;(4)基于目标函数模型的替换策略,例如GDSF。Web缓存替换算法是给出替换算法的一般描述,基本思想是:将新请求的文档放到Cache中,如果没有足够的空间,就把权值(k)最小的文档替换出来,直到Cache有足够的容量容纳新的文档。

根据目前Web预取方面的工作和成果,将预取算法分为以下几种类型: (1)基于访问概率的预取算法; (2)基于数据挖掘的预取算法; (3)基于Web语义的预取算法; (4)基于网络性能的预取算法;(5)基于流行度的预取算法。

Web预取模型的建立过程可归纳如下:

第一步:对日志进行预处理。日志记录了每个用户访问请求的如下属性:访问时间、用户IP地址、访问资源的文件名或脚本、参数域。在日志文件中清除由搜索引擎的Crawler以及Proxy发出的Web申请,删除日志中的图片申请,因为通常这些图片都是包含在某个页面中,对这些图片的申请是由HTTP协议发出的,而不是用户。删除所有访问次数小于某个频率阈值TH_F的页面访问信息。

第二步:日志划分。根据每一个访问者的IP划分日志,即在Log中找到每一个访问者的访问记录集。

第三步:提取会话过程。对于一个用户的申请,如果相邻两个Web申请的时间间隔大于某个时间阈值TH_T,就认为它们属于不同的对话过程。对每一访问者的访问记录集,根据时间阈值TH_T进行分割,找到每一个访问者的每一次访问记录集,这时,每一个访问者的每一次访问记录集就构成了一个访问事务。最终按时间排序的所有访问事务形成访问事务集。

第四步:建立预测模型。针对经过处理以后的数据,建立预测模型,提供Web对象的预测方法,得到预测候选项。

第五步:预取操作。实现Web对象预取,即确定哪些预测的对象被预取到本地。预取控制方法一般是把预测的候选项中超过某个控制阈值TH_C的对象预取过来。TH _C一般是通过概率的形式表示。随着网络资源更新频率的增加,缓存带来的性能改善已不再显著。预取技术只有与适当的缓存算法相结合才能得到较大的好处。

六、结束语

Web预取技术解决了诸多互联网性能方面的问题,使得网民上网的体验得到了很好的提高,在后续的研究中,我们还需要对Web预取技术进行进一步分析探讨,从当今时代需要出发,更好的优化上网性能。

参考文献

[1] 卫琳,姚青山.Web缓存与预取一体化模型研究[J].郑州经济管理干部学院学报. 2007(02)

[2] 班志杰,古志民,金瑜.基于滑动窗口的自适应网页预测模型[J].电子科技大学学报. 2009(02)

[3] 张玉叶,徐宝文.基于的数据挖掘在Web预取中的应用研究[J].贵州工业大学学报(自然科学版). 2003(01)

[4] 石磊,古志民,卫琳.基于Web流行度的选择Markov预取模型[J].计算机工程. 2006(11)

上一篇:东濠涌高架桥加固工程中预应力CFRP布加固钢筋... 下一篇:滑坡治理中抗滑桩桩位分析