基于Apriori算法的Web日志挖掘研究

时间:2022-09-16 06:18:20

基于Apriori算法的Web日志挖掘研究

摘 要 本文对日志挖掘过程中的数据预处理和模式发现进行了深入的讨论,总结了用户的频繁访问路径,得到了比较理想的结果。

关键词 Web日志挖掘研究 Apriori算法 访问路径

中图分类号:TP393.07 文献标识码:A

0 引言

在Web数据挖掘中,Web日志挖掘是一个尤为重要的研究课题,通过Web日志挖掘,可以充分利用Web服务器上大量的日志文件,从中发现用户访问网站页面的模型和访问习惯,为电子商务网站管理员优化网站页面结构提供依据,从而为用户访问网站时提供便捷服务。

1 Web日志数据分布

Web日志挖掘的数据来源主要包括:Web日志、站点拓扑结构、站点文件、与站点服务相关的数据库数据以及其他一些信息等。目前,Web日志挖掘的主要数据来源是Web服务器日志,它完整且详细地记录了网站访问者的浏览行为。

2 Web日志挖掘的处理过程

它是通过挖掘相关的Web日志记录,来发现用户访问Web页面的模式,通过分析日志记录中的规律,可以识别用户的喜好、满意度,可以发现潜在用户,增强站点的服务竞争力。

Web使用记录数据除了服务器的日志记录外,还包括服务器日志、浏览器端日志、注册信息、用户会话信息、交易信息、Cookie中的信息、用户查询、等一切用户与站点之间可能的交互记录。

3 关联规则Apriori算法及改进

4 Web日志挖掘系统设计及应用

4.1 系统的设计思想

结合前文讨论的Web日志挖掘关键技术、方法,应用改进的Apriori算法,开发一个Web访问日志挖掘的测试系统:

(1)项:网站中的每个页面为一项;

(2)事务:每个客户端IP地址,在会话持续时间的阈值(设置为30分钟)范围内访问的页面为一条事务;

(3)事务数据库的定义:同一天所有客户端访问的页面的集合。

根据客户端IP地址对会话识别过的页面进行处理,将IP地址和该IP地址对应的页面的集合作为一条事务,根据用户输入的最小支持度和最小可信度,构造频繁项集和产生规则并将所有的规则显示在表格中。

4.2 开发环境的选择

系统的开发语言采用微软公司推出的开发Win32应用程序的、面向对象的可视化集成工具Visual C++6.0。

后台数据库使用微软公司推出的基于Windows的桌面关系数据库管理系统(RDBMS)的Access。

4.3 Web服务器日志处理

将Web日志挖掘系统应用于学院网络中心的“招生信息网”上,从访问日志中挖掘出用户的频繁访问路径。基于这一目的,结合实验条件和自身的技术水平,对日志文件数据的预处理主要做了如下工作:

数据清理阶段:将日志文件导入数据库后,通过使用SQL把数据库中无关的数据消除,是数据库保持干净,有利于程序的运作。

用户识别阶段:IP优先考虑,即IP不同代表不同的用户。

会话识别阶段:同一IP地址(该IP可能是用户的,也可能是服务器的)在一个时间段内可能会不只一次访问网站,需要把同一IP地址用户的所有访问序列分割成多个单独的用户一次访问的序列,本文采用通用的会话持续时间阈值(=30分钟)的启发式会话识别方法。对日志数据进行预处理后,生成对应的日志数据库文件Weblog.mdb。

4.4 Web日志挖掘

结果分析:Web日志挖掘实验结果表明,访问招生网主页的有六成访问者访问留言版信息,有五成多的人员访问专业设置页面和招生信息,依次类推。

参考文献

[1] 孔昊,周长胜.Web日志挖掘预处理研究[J].北京机械工业学院学报,2005(04).

上一篇:基于Matlab GUI的麦克斯韦速率分布律的数字化... 下一篇:数据库的安全性保护