用户行为驱动的网页布局自动调整的研究

时间:2022-10-06 04:34:50

用户行为驱动的网页布局自动调整的研究

摘 要:在传统的Web网站中,网页的布局往往由网页制作人员安排并很少变化。为了更好的为网络用户提供服务,提出通过对Web日志的数据清洗,识别出每个用户在一个会话期内访问的页面,依据网页内容在逻辑上的关系和用户经常访问的页面,得到用户对网页内容的兴趣度矩阵及各子项目的兴趣度矩阵。对网络用户根据兴趣度矩阵进行层次化的分类,得到每个用户所属的类别。当用户访问网站时,根据该用户所属的类别进行网页布局的自动调整,让用户能够方便、快捷地访问到自己感兴趣的页面。这样能够给每个用户提供更加个性化、柔软的服务,增加网站的服务效果和用户对于网站的信赖,避免用户迷失在海量数据中。

关键词:用户行为;Web 挖掘;分类;兴趣度;网页布局

中图分类号:TP393 文献标识码:A

User Behavior-driven Automatic Adjustment of Page Layout

Niu YongJie1, Zhang Cheng2

(puting Center, Yan’an University, Yan’an 716000,China;2. Network Center, Yan’an University, Yan’an 716000,China)

Abstract:In a traditional Web site, the page layout was often arranged by the web production staff, and very few changes.In order to better provide services for network users, the datum of Web log were cleaned, each user to access a page during a session was identified, according to the logical relationship of web content and pages which were frequently visited to get interest matrix about content and the sub-item. Web users were hierarchical classified by these matrices.When users visited the Web site, page layout was automatic adjusted by the categories of the users. Users can quickly and easily access interesting pages.This will give each user more personalized, flexible services,service performance of site and trust of user were increased to prevent the user lost in the mass data.

Key words:user behavior; Web mining; classification; interesting degree; page layout

1 Web使用挖掘

随着信息技术与计算机技术的飞速发展,人们的生活、工作、学习等各方面都与互联网紧密相关。目前,在互联网上的信息量正在迅猛的增长,可以使用海量来描述,为避免用户淹没在海量数据中,同时为更好的服务于互联网用户,Web挖掘就显得十分有必要。根据挖掘过程中关注对象的不同,Web挖掘可分为Web内容挖掘、Web结构挖掘、Web使用挖掘、Web 用户性质挖掘等[1]。其中Web使用挖掘,即Web用户行为模式挖掘,可分为一般访问模式分析、分析定制Web站点等。 能够满足用户个性化的需要,是Web挖掘的一个分支和重要组成部分。

目前,绝大部分的门户网站都包含了大量的内容与信息供不同的用户浏览与访问。但是网站中网页的布局在制作过程中被固定以后,基本不会再发生变化,变化的大多是网页里面的内容与图片,有的网站为了增加网站的浏览量或者用户的兴趣,在不同的时间会变换网站的背景、主题颜色等。但真正吸引用户的除了网页的内容外,网站使用或者浏览时的方便、快捷性也是一个重要的因素。正是基于这样的考虑,本文提出了一种能够根据用户浏览网站时的行为动态调整网页布局的方法,该方法能够根据不同的用户呈现出不同的网页布局,能够让用户最快的在网页中找到并浏览自己感兴趣的内容。

Web用户行为模式的挖掘结构千差万别,但基本的Web 用户行为模式挖掘结构包括数据源、数据预处理、模式挖掘、模式分析、模式应用几个部分[2]。如图1所示。

图1 Web用户行为模式挖掘基本体系结构

2 用户行为模式的挖掘

2.1 数据预处理

在传统的Web用户行为模式挖掘方法中,基本都是采用Web日志作为数据源[3-5]。如果单纯使用Web日志,在用户识别过程中一般只能采用IP地址对用户识别,而不能区分不同用户使用同一IP地址的情况。这就造成用户识别不准确,为后面用户行为模式的挖掘带来了干扰。本方法采用自定义的日志系统与Web日志系统相结合的方法进行,提高了用户识别的准确度。

在每个用户登录网站系统时,在数据库中记录登录的用户名和该用户的会话ID(Session_Id)。Web日志采用符合W3C扩展日志格式的文件,在该日志文件中,分别获取日期(date)、时间(time)、用户名(csusername)、服务名(ssitename)、服务器名(scomputername)、URI资源(csuristem)、Cookie字段。 在Web日志中,由于通常用户没有进行注册,故一般都为占位符所替代。而且每个用户在访问一个页面时,会自动同时请求与该页面相关的图片及脚本代码等资源文件,所以需要将与这些资源请求有关的记录删除掉,得到仅与内容相关的网页记录。

为了得到完整的关于用户访问网站的信息,将自定义的日志系统与Web日志系统通过Session_Id进行连接,就得到了完整的用户访问网站的信息,每个信息字段使用空格进行分隔。一条完整的日志信息如图2所示。

2010-06-25 13:02:22 用户名 网站名 计算机名 /yd/sports.aspx

_Session_Id=fsnvds45hkz3mh31frfvwb30

图2 一条完整的日志记录

按照每条记录中用户名的不同对所有记录分组,在每个组内并按照时间进行排序,于是得到每个用户在一段时间内访问网站所有页面的集合P。P={P1,P2,…,Pi,i∈U},U为网站所有用户的集合,i表示网站的第i个用户。

2.2 用户兴趣度的计算

一个网站可能包括数量众多的若干个不同的网页,为了计算用户的兴趣度,应该先完成两个任务:基于内容的网站结构划分与用户行为轮廓的识别[6-8]。一个门户网站按照网页的内容可以被划分为图3所示的层次结构。

图3 网站内容层次结构

将根看作0层,将新闻、体育等称为一级项目,相应的将国内、国际等称为二级项目。对每一个节点按照层次+所属类别+位置顺序进行编号,比如足球的编号为221,其中第一个2表示它位于第二层,第二个2表示它属于体育项目,1表示它位于体育项目子节点的第一个,按照这个规律,电视的编号为232。而第二层的节点的编号只有两位,比如体育的编号为12,1代表它属于第一层,2代表它属于体育项。在网站中的每个网页都可以根据其内容将其划到图3中的某一项,即网站中的每一个网页都有一个对应的编号存在。

按照用户在网站中浏览网页的顺序及网页所属项目的不同,可以将用户的行为分为三种不同的方向,向下浏览、向上浏览、侧向浏览。其中向下浏览、向上浏览动作发生在同一个项目之中,而跨越不同项目之间的网页浏览都属于侧向浏览。向下浏览的顺序是用户从根(主页)进入某一项目(比如体育),然后由体育页面又进入关于排球的页面。向上浏览的顺序与向下浏览的顺序刚好相反。侧向浏览是指用户从一个项目中直接进入另外的一个项目,比如从排球页面直接进入电视页面,或者直接从国际页面直接进入了娱乐页面。用户浏览网页方向的示意如图4所示。

图4 浏览方向的说明

在集合P中的日志记录中,首先将网页全部更换为与之对应的编码,然后对于每个用户的页面集合Pi,按照Session_Id的不同分组,每一个分组标志着用户访问网站的一次会话,根据网页的编码,将每个用户每个会话中浏览方向为向上的记录删除,只保留浏览方向是向下与侧向的记录。然后再删除所有非最底层的网页,即删掉所有编号长度只有1和2的记录。经过删除的记录构成了集合PS, 被编码替换及清理以后的日志记录如图5┧示。

2010-09-25 13:02:22 用户名 网站名 计算机名 211 _Session_Id=fsnvds45hkz3mh31frfvwb30

图5 清理后的日志记录

根据PS按照下面的步骤计算用户的兴趣度。

1)对每个用户构建一个二维表Ti。表中的每一行表示一个一级项目,每一列表示一个二级项目。表中每个单元格的初始值为0。

2)读取日志中关于请求页面的编码abc,截取后两位,在b行c列单元格中加1。

3)PSi中记录结束,终止,否则转步骤(2)。

4)寻找表Ti中的最大值Max,次大值Sub_max与第三大值Th_max。它们处于的行代表了该用户最感兴趣的三个一级项目,而每一行中数字的最大值与次大值表示了该用户对于该子项目感兴趣的二级项目的程度。

例如用户i的兴趣度如表1所示。

在表1中,最大值是5897,次大值是4831,第三大值是4325,表明用户i兴趣度由大到小的顺序是新闻>娱乐>体育,而在体育项目中兴趣度的顺序分别为足球>篮球>排球。

2.3 用户分类与实施方案

根据用户的兴趣度,可以将用户进行多层次的分类,比如依据用户的最大兴趣度,使用判定树进行分类,判定树与图3的网站内容层次结构相似,称该判定树为最大兴趣度判定树,同理,可以依据每个用户的第二兴趣度建立第二兴趣度判定树;根据系统的具体情况可以适当决定用户分类层次的深度。

根据用户浏览网站的Web日志和自定义的日志,经过数据清洗,依据网站内容的层次结构计算用户兴趣度,进而对用户进行分类,整个过程在网站的后台离线进行。当一个用户登录网站后,根据最大兴趣度判定树判定该用户所属的最大兴趣类别,同理也可以根据用户的第二兴趣度判定树得到该用户的第二兴趣类别。比如用户UA根据最大兴趣度属于体育/篮球类,而根据第二兴趣度该用户属于娱乐/电视类,那么该用户一旦登录网站,网站主页应将体育、娱乐模块放在网页的主要位置,而且在关于体育的模块中应该将篮球放在首要位置,而在娱乐模块中,将电视放在首要位置,让用户更加方便的浏览自己最感兴趣的内容。

对网页布局控制的方法有多种 [9,10],使用表格对网页进行布局缺乏灵活性,使用DIV+CSS的方法目前比较流行,但是该技术缺乏定制性,文献[10]采用了JSP标签库技术,此技术缺乏通用性,文献[11]使用的XML技术比较灵活且具有通眯浴*

3 结 论

为更好的服务网络用户,吸引用户对网站的浏览与访问,应根据用户的行为模式实现对网站的个性化设置,即不同的用户登录同一网站时因用户兴趣度的不同,网站的页面布局应有所不同,使用本文提出的方法计算每个用户的兴趣度,并对用户分类,根据用户不同的类别动态调整网站的布局,该方法具有一定的创新性、实用性。但也存在不足,就是要求用户浏览网站时应登录网站,否则,本文中的方法将退化为使用IP地址来识别用户。

参考文献

[1] 杨风雷,阎保平.Web 用户行为模式挖掘研究[J].微电子学与计算机.2008, 25(11):146-149.

[2] 杨风雷,阎保平.新的Web用户行为统计分析系统研究和实现[J].计算机应用研究.2008, 25(9):2758-2761.

[3] 潘莹,梁京章,黎慧娟.基于K-means算法的校园网用户行为聚类分析[J].计算技术与自动化.2007, 26(1):66-69.

[4] 周爱武,程博,李孙长,等.Web日志挖掘中的会话识别方法[J].计算机工程与设计.2010, 31(5):936-938.

[5] 赵文忠,张长利,房俊龙.Web日志挖掘在农业网站的应用[J].东北农业大学学报.2010, 41(8):135-140.

[6] 王攀,张顺颐,陈雪娇.基于动态行为轮廓库的Web用户行为分析关键技术[J].计算机技术与发展.2009, 19(2):20-23.

[7] 马卫东,李幼平,马建国,等.面向Web网页的区域用户行为实证研究[J].计算机学报.2008, 31(6):960-966.

[8] 赵海燕,戴佳筑,施善.基于用户行为编码的数据库入侵检测模型[J].计算机应用与软件.2010, 27(2):97-99.

[9] 卢雷,万建成,鹿旭东,等.基于Web应用特点的界面组成及交互模型[J].计算机工程与设计.2006, 27(23):4551-4554.

[10]A李诺,曹勇刚,金茂忠.可定制高可用性Web应用程序界面的设计和实现[J].计算机工程与设计.2005, 26(4):862-866.

[11]A朱红果,钟志农,陈宏盛,等.基于XML的界面管理技术[J].软件技术.2006, 25(2):89-90.

注:本文中所涉及到的图表、注解、公式等内容请以PDF格式阅读原文

上一篇:一种认知行为模式的概率化确定方法 下一篇:支持向量机在柴油机尾气分析中的核模型选择