基于Apriori算法的Web日志挖掘研究

时间：2022-09-16 06:18:20

摘要本文对日志挖掘过程中的数据预处理和模式发现进行了深入的讨论，总结了用户的频繁访问路径，得到了比较理想的结果。

关键词 Web日志挖掘研究 Apriori算法访问路径

中图分类号：TP393.07 文献标识码：A

0 引言

在Web数据挖掘中，Web日志挖掘是一个尤为重要的研究课题，通过Web日志挖掘，可以充分利用Web服务器上大量的日志文件，从中发现用户访问网站页面的模型和访问习惯，为电子商务网站管理员优化网站页面结构提供依据，从而为用户访问网站时提供便捷服务。

1 Web日志数据分布

Web日志挖掘的数据来源主要包括：Web日志、站点拓扑结构、站点文件、与站点服务相关的数据库数据以及其他一些信息等。目前，Web日志挖掘的主要数据来源是Web服务器日志，它完整且详细地记录了网站访问者的浏览行为。

2 Web日志挖掘的处理过程

它是通过挖掘相关的Web日志记录，来发现用户访问Web页面的模式，通过分析日志记录中的规律，可以识别用户的喜好、满意度，可以发现潜在用户，增强站点的服务竞争力。

Web使用记录数据除了服务器的日志记录外，还包括服务器日志、浏览器端日志、注册信息、用户会话信息、交易信息、Cookie中的信息、用户查询、等一切用户与站点之间可能的交互记录。

3 关联规则Apriori算法及改进

4 Web日志挖掘系统设计及应用

4.1 系统的设计思想

结合前文讨论的Web日志挖掘关键技术、方法，应用改进的Apriori算法，开发一个Web访问日志挖掘的测试系统：

（1）项：网站中的每个页面为一项；

（2）事务：每个客户端IP地址，在会话持续时间的阈值（设置为30分钟）范围内访问的页面为一条事务；

（3）事务数据库的定义：同一天所有客户端访问的页面的集合。

根据客户端IP地址对会话识别过的页面进行处理，将IP地址和该IP地址对应的页面的集合作为一条事务，根据用户输入的最小支持度和最小可信度，构造频繁项集和产生规则并将所有的规则显示在表格中。

4.2 开发环境的选择

系统的开发语言采用微软公司推出的开发Win32应用程序的、面向对象的可视化集成工具Visual C++6.0。

后台数据库使用微软公司推出的基于Windows的桌面关系数据库管理系统（RDBMS）的Access。

4.3 Web服务器日志处理

将Web日志挖掘系统应用于学院网络中心的“招生信息网”上，从访问日志中挖掘出用户的频繁访问路径。基于这一目的，结合实验条件和自身的技术水平，对日志文件数据的预处理主要做了如下工作：

数据清理阶段：将日志文件导入数据库后，通过使用SQL把数据库中无关的数据消除，是数据库保持干净，有利于程序的运作。

用户识别阶段：IP优先考虑，即IP不同代表不同的用户。

会话识别阶段：同一IP地址（该IP可能是用户的，也可能是服务器的）在一个时间段内可能会不只一次访问网站，需要把同一IP地址用户的所有访问序列分割成多个单独的用户一次访问的序列，本文采用通用的会话持续时间阈值（=30分钟）的启发式会话识别方法。对日志数据进行预处理后，生成对应的日志数据库文件Weblog.mdb。

4.4 Web日志挖掘

结果分析：Web日志挖掘实验结果表明，访问招生网主页的有六成访问者访问留言版信息，有五成多的人员访问专业设置页面和招生信息，依次类推。

参考文献

[1] 孔昊，周长胜.Web日志挖掘预处理研究[J].北京机械工业学院学报，2005（04）.

基于Apriori算法的Web日志挖掘研究

热门推荐更多>

精品范文更多>

基于Apriori算法的Web日志挖掘研究

热门推荐 更多>

精品范文更多>

热门推荐更多>