基于Web日志的浏览兴趣度分析技术研究

时间:2022-08-09 05:24:46

基于Web日志的浏览兴趣度分析技术研究

摘要: 本论文主要针对Web挖掘领域中的Web日志挖掘领域,分析了已有的度量用户浏览兴趣方式的不足,提出了一种基于用户浏览行为度量用户浏览兴趣的方法,并通过线性回归预测方法预测了浏览兴趣度,建立了更准确的浏览访问路径树。实验表明,该方法是可行的并且具有较好的效果。

Abstract: This paper is mainly in the field of web Mining Web log mining areas.As a measure of the user's browser, it has analyzed in the lack of means, on the basis of this, a measure based on user browsing interest is proposed in the way of the user's browser, and through the linear regression forecasting methods to predict the degree of interest, and establish a more accurate view of the access path tree. The experiments show that the method is feasible and has achieved good results.

关键词: Web日志挖掘;浏览兴趣度;线性回归方程;访问路径树

Key words: Web log mining;view degree of interest;linear regression equation;access path tree

中图分类号:TP393 文献标识码:A 文章编号:1006-4311(2013)33-0175-02

0 引言

Web日志挖掘就是运用数据挖掘的思想来对服务器日志进行分析处理,解决网络用户的个性化服务问题。目前人们已经在Web信息个性化服务的一些基本问题的研究工作上取得了一些成果,但如何将解决这些基本问题的方法有机地结合起来,以实现Web个性化服务,有必要继续研究。

1 Web日志挖掘技术

1.1 Web挖掘基本概念及应用 Web挖掘指使用数据挖掘技术在WWW数据中发现潜在的、有用的模式或信息。Web挖掘研究覆盖了多个研究领域,包括数据库技术、信息获取技术、统计学、人工智能中的机器学习和神经网络等。通过Web挖掘,可以发现潜在客户,延长客户的驻留时间,改进站点设计等。

1.2 Web日志的挖掘过程 Web日志挖掘过程一般是预处理阶段、挖掘算法、模式分析。数据预处理阶段主要包括数据清洗、用户识别、会话识别几个步骤。阶段流程如图1所示。

2 基于用户浏览行为的挖掘实现

在目前已有的数据挖掘的实现方式中,主要有用户端实现和服务器端实现两种方式。服务器端实现的方式主要是从服务器端的日志文件中获取浏览信息。这种方式主要有以下缺点:①利用缓存进行的访问在服务器端不被记录;用户按后退键,利用本地缓存浏览以前访问过的页面占用户所有浏览行为的30%。②当用户通过进行浏览时只能通过用户注册的方式获取用户身份标志。③在中,只能找到用户浏览了哪些网页,不能准确地知道用户对其的浏览时长。④服务器负担重。如何将解决这些基本问题的方法有机地结合起来,以实现Web个性化服务,还较少提出过完整的解决方案,有必要继续在这一方面进行研究。

3 利用线性回归预测方法预测页面浏览兴趣度

3.1 Web日志页面浏览兴趣度分析研究的“微差” 如何有效地表达用户浏览兴趣是Web日志模式挖掘研究的方向之一。页面兴趣度的计算并不是一个新的课题,目前许多Web个性化推荐系统都涉及到页面兴趣度的计算。根据计算得到页面兴趣度,应用数据挖掘技术获得用户的兴趣模型,但这些计算方法都存在不足。

基于以上分析,提出了利用线性回归预测方法预测页面浏览兴趣度。回归分析不仅能确定待估参数,还能对回归的有效性(显著性)、估计误差及待估参数的相关性做出定量描述。线性回归预测方法为:根据历史的样本数据,建立多元线性回归的预测模型,从而在不需要未来样本数据的情况下,预测未来时刻多元线性回归模型中的回归参数,以及主要的模型精度评估指标。

3.2 兴趣度线性回归方程设计 利用线性回归方程计算兴趣度关键是通过已有的兴趣度,访问次数,访问时间和接收字节数求出回归系数,其中访问次数,访问时间和接收字节数可通过Log得到。根据线性回归模型,假设访问次数、访问时间和接收字节数与页面浏览兴趣度线性相关,线性方程建立如下:兴趣度=α*访问次数+β*访问时间+γ*接收字节数+ε,其中α、β、γ、ε为回归系数。兴趣度主观设定为:很感兴趣,一般感兴趣,偶尔感兴趣和不感兴趣。具体说明如下:在特定的时间内和特定的网页范围内,对于一个页面,若访问次数,访问时间和接收字节数大于等于平均值的1.5,则认为是很感兴趣的,兴趣度最小值设为80;若访问次数,访问时间和接收字节数大于等于平均值的0.8,则认为是一般感兴趣的,兴趣度最小值设为40;若访问次数,访问时间和接收字节数大于等于平均值的0.4,则认为是偶尔感兴趣的,兴趣度最小值设为20;若访问次数,访问时间和接收字节数小于平均值的0.4,则认为是不感兴趣的,兴趣度最小值设为10。

3.3 利用线性回归方程求解兴趣度 根据LINEST(known_y's,known_x's,const,stats)函数要求,把数据α=3.247829、β=0.228428、γ=0.194637、ε=11.39658带入到:兴趣度=α*访问次数+β*访问时间+γ*接收字节数+ε中,从而得出页面兴趣度回归方程:

兴趣度=11.39658+3.247829*访问次数+0.228428*访问时间+0.194637*接收字节数,记为:兴趣度=11.39658+3.247829*count+0.228428*time+0.194637*sbs。

3.4 实验结果分析 通过利用线性回归方程计算出的兴趣度值与设定的兴趣度值进行比较,易发现兴趣度值几乎吻合,误差很小,而且数据计算精度高。

由表1数据偏差值的统计数据,易初步判断本实验建立的线性模型“兴趣度=α*访问次数+β*访问时间+γ*接收字节数+ε”准确,下面进行理论证明。证明方法:利用方程的显著性检验——F检验,判定访问次数、访问时间和接收字节数与页面浏览兴趣度的相关性程度,进而准确判定线性模型准确与否。证明:由回归系数不难看出回归平方和ESS=4981.081,误差平方和RSS=1162.919。由Table1:原始数据表A,B页面,易得出总记录数n=25,自变量个数k=3。所以利用方程显著性检验——F检验公式:F=(ESS/k)/(RSS/(n-k-1))可求出统计量F的数值为F=29.9828。给定显著性水平α=0.05,利用查F-分布表可得到临界值Fα(k,n-k-1)=F0.05(3,21)=3.07。显然F>Fα(k,n-k-1),所以可判定原方程兴趣度=α*访问次数+β*访问时间+γ*接收字节数+ε总体上的线性关系在95%的水平下显著成立,模型准确。

实验和理论同时表明,通过线性回归预测方法预测浏览兴趣度,兴趣度由线性回归方程求出,相对于“兴趣度=(访问次数*访问时间)/接收字节数”这个公式来说,由于考虑的因素更多,建立的线性回归模型更准确,所以求得的结果更精确,并且具有预见性。需要指出的是,本实验所提出的利用线性回归模型预测页面浏览兴趣度的方法还有很大的理论探讨空间。此外,本实现的设定兴趣度值是作者主观设定的,是否具有说服力还需进一步探讨。改进的思想是:兴趣度设定为三类,重新确定回归系数。

通过线性回归预测方法预测页面浏览兴趣度,是可行的并且具有较好的效果。

4 结束语

本文研究的是Web日志挖掘,希望通过Web日志分析研究浏览兴趣度。研究的主要工作是:建立兴趣度的线性回归方程,求出线性回归系数α、β、γ、ε,预测网站浏览兴趣度。随着互联网的发展,Web服务的个性化趋势已成必然,对浏览兴趣度的分析势必将成为分析浏览路径的一个越来越重要的依据。以后的研究应综合考虑各种因素,这样挖掘出的用户兴趣模型会更准确。

参考文献:

[1]张娥,冯秋红.Web使用模式研究中的数据挖掘[J].计算机应用,2002(3).

[2]赵亚林.线性回归模型估计的一种简便方法[J].青海大学学报,2004,22(3).

[3]田昌鹏.基于Web日志分析的Web Qos研究[J].计算机科学,2007,34(6).

上一篇:浅谈超声非正式出版文献的获取和利用 下一篇:基于应用型《数控加工》资源库的布局设计