基于SAS的Web使用日志用户聚类分析

时间:2022-07-15 02:06:03

基于SAS的Web使用日志用户聚类分析

摘要:基于SAS的Web使用日志用户聚类分析,即通过SAS数据挖掘工具将由Web使用日志数据经过数据转换和数据预处理后形成的用户事务表数据运用不同的方法进行聚类分析,以达到根据不同类别用户的需求对数字资源进行合理的采购和管理,为用户提供个性化服务的目的。

关键词:SAS;Web使用日志;用户聚类分析;用户事务表;数字资源

中图分类号:TP311 文献标识码:A 文章编号:1009-3044(2013)25-5595-03

1 聚类分析法的实质及其主要统计量

聚类分析方法实质上就是一个数据划分归类问题,即根据某一特定的相似度对被研究对象进行归类,建立数据归类方法或规则。在SAS数据挖掘工具中STAT模块提供了谱系聚类、快速聚类、变量聚类和TREE四个聚类过程[1],每个聚类过程都有相应的聚类方法与之对应,如表1所示。

其中SPRSQ 、CCC 、PSF 、PST2统计量都可以判断最优聚类数,而CCC 、PSF 、PST2统计量最具代表性[2]。各个主要统计量的特点如下:

1) R2统计量:当R2越大时将样本数据分为G类是合适的,此时每个类内离差平方和都比较小;

2)半偏R2统计量:当SPRSQ值越大时,说明上一次合并的效果越好;

3)伪F统计量:当PSF值越大表示这些样本数据可分为G类;

4)伪t2统计量:PST2越大,说明上一次聚类效果较好。

2 数据来源、数据类型和数据预处理

对于Web使用日志数据挖掘来说,数据预处理过程常常占到工作总量的60%-80%[3],这是由于在原始日志数据中有很多的冗余数据、不符合数据挖掘要求的数据等等,需要对原始日志数据进行清洗,将冗余的、不符合要求的数据清除,再将符合数据挖掘的数据转换成用户事务表后进行数据挖掘。

1)数据来源

Web使用日志挖掘的主要数据来源是服务器日志文件,日志文件包括Web服务器访问日志和应用服务日志[4]。获取的方法可直接从服务器获得,也可以利用网络爬虫工具从用户机器上获得。

2)主要数据类型

能进行Web使用日志挖掘的数据主要是使用记录数据,是由Web服务器自动收集的,体现用户的网络访问行为,是Web使用日志挖掘中重要的数据来源[5]。

3)Web使用日志数据预处理结果

对Web使用日志数据进行数据转换和预处理后,就形成可以进行数据挖掘的用户事务表。该用户事务表说明N个用户在某一时间段内对数字图书馆数字资源的访问情况(表2)。

3 基于SAS的Web使用日志数据挖掘过程

基于SAS的Web使用日志数据挖掘,主要过程是将Web使用日志数据导入SQL Server 2000 进行数据转换和相应的数据预处理后形成适合数据挖掘的事务表,再根据研究目的利用SAS数据挖掘工具将事务表数据进行聚类、关联等数据挖掘,获得相关知识或规则的过程[4]。图1 展示了基于SAS的Web使用日志数据挖掘的整个过程[4]。

如图1所示,在数据预处理阶段,主要是利用SQL Server 2000的DTS工具对导出的Web日志数据的文本文件进行数据转换和数据清洗;在模式挖掘(SAS)阶段,利用SAS提供的数据挖掘方法来发现用户特定的隐藏模式并对Web资源和用户进行简要统计;在挖掘结果分析阶段,将挖掘出的模式和统计信息进行分析、归纳、整理,形成符合挖掘目标的知识和规律[5]。

4 SAS模式挖掘结果分析

1)对经过数据预处理所形成的用户事务表,利用SAS所提供的方法并结合SPRSQ、PSF和PST2统计量进行聚类分析。各种方法能够形成最合适的聚类类数目如表3所示。

从表中可以看到聚类数目在2、3、4类比较合适,但还需要结合TREE聚类树法才能确定究竟采用哪种聚类方法更合适。

2)用Proc Tree绘制聚类树。将聚类类数目表结合聚类树图进行分析后,认为采用complete方法效果较好,各聚类数据分布较为均匀,类间距离明显,可确定聚类类数目为3,如图2所示。

5 结束语

利用SAS数据挖掘工具和SQL Server 2000对Web使用日志数据进行聚类分析,对用户进行科学合理的划分,并依据不同用户的需求情况,对数字资源进行科学管理和个性化采购,以提高数字资源的利用程度和数字图书馆的服务水平。

参考文献:

[1] 范金城,梅长林.数据分析[M].北京:科学出版社,2002:228-241.

[2] 韩中华,马斌,许可,等.基于谱系聚类的粗糙集数据挖掘预处理方法[J].计算机工程与应用,2008,44(2):194-196.

[3] 和春慧.数据仓库中数据预处理的研究与算法实现[D].吉林大学,2004.

[4] 欧阳烽.基于数据挖掘的高校数字图书馆信息资源管理[D].中南大学,2009.

[5] Bing Liu. Web数据挖掘[M].1版.俞勇,薛贵荣,韩定一,译.北京:清华大学出版社,2009.

上一篇:基于LinqToSql的多DC的数据库模式设计与实现 下一篇:XML有序多重签名在公文流转系统中的应用