基于网页浏览的群体用户兴趣模式挖掘

时间:2022-10-14 08:22:13

基于网页浏览的群体用户兴趣模式挖掘

摘 要 当今社会,网络的发展日益成为人们生活的重要组成部分。随之而来的,网络中的巨大数据资源亦得到了广大学者越来越多的重视。因此,许多学者致力于数据挖掘技术与人类动力学研究的结合,并应用于实践当中。

关键词 网页 群体用户 模式

中图分类号: TP311 文献标识码:A

著名学者Barabasi 在2005年的一篇文章中,提出了一个基于决策的优先权模型,自此开启了人类动力学方向的热烈讨论。随后,Vazquez又得到了对该模型的精确解。我们发现这些模型都是从排队论的任务模型中角度来研究人类动力学。其实,生活中的人类行为纷繁复杂,何止是完成任务这类行为。比如说兴趣爱好往往也是人类的一种重要行为去向,诸如电影点播、发短息和网页浏览等行为就是典型的兴趣爱好。

在当前阶段,挖掘用户兴趣行为的方式有两种:一是单纯从用户行为的历史信息中发现隐藏的规律;一种是基于浏览内容和行为相结合的方式。我们认为,单纯从一个方面来分析用户的兴趣是不够的,应该从各个角度,各个层面来建立用户的兴趣模簇,在此基础上,从网页浏览日志中提取出若干关键字,进行分类统计分析。

1 用户兴趣的挖掘――兴趣的分类标准

利用文本分类技术,首先对用户浏览过的页面进行内容分析, 并根据主题信息对页面进行聚类;在聚类的过程中除了考虑页面内容的相近程度外还辅以页面路径进行归类判断。在最后得到页面的兴趣簇。最后,我们为了较为准确的反映用户的真实兴趣,将用户的网络

行为分为了18类:搜索引擎、教育、新闻门户、论坛博客、交友聊天、娱乐、网上购物、生活相关、游戏、体育、电影音乐、网页浏览邮件、文学、财经、求职招聘、房产装修、股票交易、军事。鉴于所选对象为高校师生,因此这18类兴趣可基本代表这一特定群体的主流兴趣取向。

2 运用关联规则和频繁模式发现群体用户兴趣的频繁模式

2.1什么是关联规则

关联规则反映了一个事务与其他事务之间的相互依存性和关联性。如果两个或多个事务之间存在着一定的关联关系,那么,其中一个事务就一定能通过其他与之相关的事务进行预测。最经典的例子是超市中尿片和啤酒的关系。

2.2关联规则的基本模型

设 = {,,…}为所有项目的集合,为事务数据库,事务是一个项目子集(眨C恳桓鍪挛窬哂形ㄒ坏氖挛瘛I枋且桓鲇上钅抗钩傻募希晌罴J挛癜罴鼻医龅H铡H绻谑挛袷菘庵谐鱿值拇问贾凶苁挛竦陌俜直冉凶鱿罴闹С侄取H绻罴闹С侄瘸没Цǖ淖钚≈С侄茹兄担统聘孟罴钠捣毕罴虼笙罴?

2.3 规则度量:支持度和置信度

查找所有的规则&!具有最小支持度和可信度。

支持度:一次交易中包含{}的可能性。

置信度:包含{}的交易中也包含的条件概率。

3 结合数据,具体分析

3.1 群体用户的网络访问兴趣统计

这里的群体用户是指把所以用户看成一个整体,即按照访问网络的时间来进行群体用户访问量的排序,以考察所有用户浏览网页的行为特征。我们发现,在这两周时间内,群体用户的兴趣保持了一定的稳定性,搜索引擎的访问量居高不下,其次,教育类、新闻类、交友聊天类成为搜索引擎之后的主流;对于体育、电影音乐和军事属于特定人群的兴趣。另外,途中第四天是5月12号纪念汶川地震日,娱乐活动暂停,故而访问量大幅下降。

3.2 运用软件进行分析

软件中设定最小支持度和置信度均为90%,在此规则下,共得出27组频繁模式,例如98.2%的用户会通过搜索引擎,新闻门户来浏览娱乐网页,其置信度为92.8%;而且99.6%的用户会直接选择搜索引擎来去浏览娱乐信息,置信度为92.8%等。详细结果如表1。

4 结束语

网页浏览记录对于研究人类动力学具有重要的实际意义。文章的核心思想是从实证角度利用关联规则对日志中群体用户的兴趣簇进行频繁访问模式挖掘,使用的是经典的Apriori算法。该算法一直是关联规则中被使用次数最多的算法。但是,在处理web日志时却存在着两个不容忽视的问题:(1)web日志的数据量是制约算法实现效率的一大瓶颈,从而对数据的先期预处理提出了更高的要求;(2)在进行兴趣模式挖掘的时候,我们事先给定的18个兴趣类,也是人为的划分,因此也容易产生人为因素的干扰。

文章用关联规则来研究人们的兴趣模式,并从实证角度为人类动力学研究提出了一个切实可行的思路。

参考文献

[1] 陈文伟 越新且. 数据挖掘技术[M]. 北京:北京工业大学出版社,2002.

[2] Jiawei Han,Micheline Kamber.数据挖掘[M]. 北京:机械工业出版社,2008.

[3] 王继成. Web文本挖掘技术研究[J].计算机研究与发展 2000(37).

上一篇:Windows系统下关于硬件驱动程序的通知应用程序... 下一篇:潮乐自由地!风尚大集结!