基于点击技术的用户兴趣数据挖掘研究

时间:2022-03-24 08:49:30

基于点击技术的用户兴趣数据挖掘研究

摘要:深入研究了基于点击技术的方案的服务流程和体系结构,根据方案的特点和实施要点总结出实现点击流信息服务方案的实施流程。对点击流数据的主要来源Web日志文件结构和内容进行深入的分析,总结出点击流数据的预处理内容和方法,使之变成能够进行数据挖掘和数据分析的数据仓库表文件。

关键词:用户点击;数据挖掘;Web日志

中图分类号:TP274文献标识码:A文章编号:1009-3044(2009)33-9412-03

Click on the User Interest in Data Mining Technology Research

YAN Bing-kuan

(Xinxing Pipes Group Technology Center,Handan 056017,China)

Abstract: The in-depth study of the program click technology-based service processes and architecture, based on program characteristics and implementation of the key points summarize information services to enable click-stream implementation of the program flow. Right click-stream data, the main source of Web log file structure and content of in-depth analysis, summarized clickstream data pre-processing the content and methods to be turned into to carry out data mining and data analysis of the data warehouse table file.

Key words: user hits; data mining; web log

在电子商务网站环境中,点击流的分析越来越有价值,已经远远超出点击流的范围,对这些数据深层次分析已经成为电子商务网站了解经营状况、了解用户行为的有效工具。点击流分析以WEB上的点击流数据为基础,利用OLAP、数据挖掘等技术满足电子商务企业的所有人员的需求。不同的部门有不同的需求,通过对点击流数据不同角度的分析来达到不同的目的。

1 基于点击流技术的服务方案

基于点击流的个性化信息服务方案主要是对电子商务网站信息用户浏览信息的行为采用点击流技术进行记录、采用数据挖掘的方法,分析得出用户在不同时期内的准确而全面的信息兴趣。同时为了弥补方案初期用户浏览信息记录数据的不足,分析不准确的缺点,在用户成为网站用户的初期采用用户定制信息的方式。具体实现机制是:

1)在用户最初注册时根据用户填写的基本信息,为用户提供个性化信息推荐服务;

2)利用点击流技术对用户对信息行为记录跟踪,通过建立点击流数据仓库、点击流数据集市抽取用户信息行为的相关数据,再利用商务智能工具进行用户当前信息需求偏好的分析,对用户需求信息的类型加以修正、补充;

3)再通过点击流技术对用户推荐的信息行为跟踪,对分析模型进行评测、改造,直至提出一个完善的用户信息行为分析模型。

这个个性化信息服务的流程如图1所示。

2 基于点击流技术的服务结构

本文所描述的用户信息兴趣分析主要使用Web内容挖掘和Web使用记录挖掘对Web日志文件和网站信息页内容进行挖掘,得出加权的用户曾访问过信息类和信息关键字,然后通过聚类的方法得出用户的信息兴趣集合,来判定用户感兴趣的信息。然后通过信息推荐平台把网站的信息页和分析得出的信息兴趣集合进行比对,符合一定条件的信息将由系统自动推荐给用户。用户信息兴趣分析阶段主要是离线完成,信息阶段主要是在线进行,以满足用户的信息需求。

系统的体系结构见图2,图中分为两个部分,用户信息访问兴趣分析部分和信息部分。由于每个用户都有不同的登录时间和兴趣类型,信息是根据用户访问行为的不同实时地进行信息的,因此信息部分为在线处理部分。而用户访问信息兴趣分析部分则为离线处理部分。

3 基于点击流技术的用户兴趣服务设计

基于点击流技术的用户兴趣服务方案的实现分为用户访问信息兴趣分析和在线信息两个部分,在离线部分中要对点击流数据进行收集,预处理和建立点击流数据仓库才能建立起对用户访问兴趣分析的数据基础,用户的信息兴趣描述特征集合是通过Web挖掘方法的应用并结合挖掘算法才能得出。在线部分需要结合用户的信息兴趣描述特征集合使用过滤算法向用户推荐信息。本章对这些关键技术及如何在实施个性化信息服务中应用进行了详细介绍和描述,并总结出了一个实施基于点击流技术的个性化信息服务流程。

3.1 方案的总体实施流程

在本文系统实施中重点为用户访问信息兴趣分析。用户访问兴趣分析中本文根据实际的系统实施结果分为三个处理步骤,一是收集支持兴趣分析的数据基础;一是处理收集来的数据,即对收集来的点击流数据和信息内容数据预处理,使这些基础数据转换成能够进行数据挖掘和数据分析的点击流数据仓库数据;三是利用数据挖掘方案,建立分析方案分析这些数据获取用户的信息兴趣类型。本文将信息服务方案的实施分为点击流数据收集,点击流数据预处理,用户信息兴趣分析,信息匹配、信息推荐四个阶段。这四个阶段也别有各自的结果集,点击流数据记录,点击流数据仓库,客户信息兴趣类型,网站推荐的信息。如图3所示。为了便于实施,本文将点击数据的收集,点击流数据的预处理都包含进建立点击流数据仓库阶段中。

3.2 建立点击流数据仓库

点击流数据仓库通常包含来源于Web服务器的日志文件和其他数据源的各种数据。从前面的有关日志文件所包含内容可以得知,从日志数据方面看要进行点击流的分析远远不够。在很多电子商务网站建立点击流数据仓库,而不是仅仅使用Web站点分析工具的主要原因之一是服务器日志数据的不完整性。如要达到商务分析要求,需要更多的有关站点内容,用户活动以及用户全貌的详细信息,这些信息来自企业内外的各种各样的数据源。所以点击流数据仓库的数据源除了Web服务器和Web应用服务器的日志数据,还需要在线商务处理的数据,和Web网站的内容等信息系统的数据。在本文的个性化信息服务方案中要关注的还有网站信息的详细资料和客户资料,所以点击流数据仓库中至少还应包括信息数据和客户资料数据。

3.3 数据预处理

由于本地缓存、服务器以及防火墙的存在,使得Web日志中收集的数据缺乏完整性,从而也影响了Web日志数据的可靠性。由于这些问题存在,直接在Web日志上进行挖掘就非常困难,首先需要修补收集到的Web日志数据的不完整性和不一致性,继而从Web日志数据中抽取有用的数据,将数据转化成适合Web日志挖掘算法可用的数据格式,这些都属于数据预处理过程研究的范畴。数据预处理的工作量占整个挖掘过程的50%。数据预处理的结果是挖掘算法的输入,它直接影响挖掘质量,因而数据预处理是整个数据挖掘过程中关键而又非常必要的一步。浏览记录处理处理过程数据预处理可以大大改进数据的质量,从而提高其后的数据挖掘的精度和性能。如图4所示。

1)数据转换

数据转换是将非结构化或半结构化数据转换成结构化数据,然后利用现在成熟的、广为使用的数据库、数据仓库技术来处理。Web日志Web日志文件是文本文件,是一种半结构化数据,可以采用将文本文件转换为数据表文件的方式解决。根据日志格式的不同,首先判断该日志是标准格式的日志文件还是扩展格式的日志文件,然后根据日志中记录的各个不同的部分按实际意义分开,在数据表中构造对应的字段。经过数据转换,半结构化的Web日志文本文件变成了结构化的数据表记录。

2)数据净化

数据净化,就是指删除Web日志中与数据挖掘目标无关的垃圾数据。具体的数据净化方法很多,在具体实现上采取的是在向数据库中导入数据时进行程序操作净化。经过数据净化处理后的Web日志文件不但大幅度缩小,而且具备了相对精确的原始数据。

3)数据抽取

数据抽取,就是指在充分理解挖掘目标后,规划所需要的数据源和数据定义,制定抽取规则,以去掉与挖掘目标无关的数据,形成一个个主题源数据。数据抽取操作是与挖掘目标紧密联系,不同的挖掘目标,由于所需要的数据源是不同的,因而有不同的抽取规则。完成上述工作之后,就形成了比较精确的Web日志原始数据。

4)数据集成

完成以上几个步骤后,要进行数据集成处理。数据集成是将多个相关数据源中的数据结合起来存放到一个一致的数据存储中(如中央数据库或者数据仓库)。相关数据源如注册用户数据表,网站结构数据表等。数据集成处理是将注册用户数据表,网站结构数据表以及经过类似处理的其他相关日志文件根据一定数据匹配模式进行集成,形成网站的中央数据库。中央数据库是数据挖掘的数据基础,中央数据库的形成标志着数据预处理的基本结束。

网站可以根据实际情况,选择一定的时间周期,将不断产生的Web日志文件经过数据转换、数据净化、数据抽取、数据集成后形成的新的数据表记录追加到一个固定数据表文件中。

3.4 点击流数据仓库

点击流数据仓库是数据仓库在电子商务系统中的应用,是存储供查询和决策分析用的集成化信息仓库,与传统的数据仓库相比点击流数据仓库的主要数据来源是人们网络活动中进行各种活动从而在各个网络服务器中所留下的Web日志文件及其它的相关数据库。

在本文中点击流数据仓库的建立主要是建立面向用户信息兴趣分析的点击流数据仓库,在这个数据仓库中需要汇集的是在Web日志文件中的信息用户点击信息页面的点击事实表和信息数据库中各个包含信息页面的信息数据表,以及确认用户身份的客户资料数据库中的客户信息表。

在表达分析主题的逻辑模型设计中,数据仓库多采用星形模型和雪花模型。星形图清晰地反映概念模型中各种实体间的逻辑关系,可以更好地在此基础上组织检索和查询,使设计者完整地掌握系统的数据流程.星形图包含三种逻辑实体:维度、指标和详细类别实体。在很多情况下,维度实体还要向外延伸至详细类别实体,或者说,详细类别实体是维度实体的附加信息,是维度实体的扩展,说明了维度实体间的关系。这种在维度实体上扩展详细类别实体的星形图称为雪花图。具体采用哪种模型来表示,还要结合具体分析主题设计来定。

4 用户信息兴趣的挖掘

在本文中采用采用Web数据挖掘来分析统计用户在浏览网站信息所体现出的信息兴趣。Web挖掘指使用数据挖掘技术在WWW数据中发现潜在的、有用的模式或信息。

通常来讲,经典的数据挖掘算法都可以直接用到Web用法挖掘上来,但为了提高挖掘质量,研究人员在扩展算法上进行了努力,包括复合关联规则算法、改进的序列发现算法,分类聚类算法等。

在本文中是针对WEB挖掘进行个性化挖掘,针对单个用户的使用记录对该用户进行建模,结合该用户基本信息分析他的使用习惯、个人喜好,目的是在电子商务环境下为该用户提供与众不同的个性化信息服务,应用到的算法是分类、聚类算法。

参考文献:

[1] 赵水森.基于因特网的个性化信息服务研究[J].中国图书馆学报,2003(4).

[2] 何军,周明大.信息网络中的信息过滤技术[J].系统工程与电子技术,2001(11).

[3] 高凤荣,马文峰,工珊.数字图书馆个性化信急推荐系统研究[J].情报理论与实践,2003(4).

[4] 陈金海.实现Internet个性化信急服务[J].情报杂志,2003(5).

[5] 王继成,潘金贵,张福炎.Web文木挖掘技术研究[J].计算机研究与发展,2000(5).

[6] 胡昌斗.个性化一网络环境下信急服务的趋势[J].图书馆理论与实践,2004(6).

上一篇:浅析浙江省护理质控网络管理平台的应用 下一篇:基于Struts架构的大型购物系统研究与实现