Web用户行为模式挖掘及其在E?Learning系统中的应用

时间:2022-08-21 12:29:08

Web用户行为模式挖掘及其在E?Learning系统中的应用

作者简介作者简介:张力平(1988-),女,青海师范大学计算机学院硕士研究生,研究方向为数据挖掘与生物信息。0引言

web技术的飞速发展和web信息的迅猛增长使得web不再仅仅是一个信息共享和平台。如何在用户的web活动中挖掘获取有价值的信息和隐含知识,并以此提供智能化、语义化、个性化的信息服务已经成为研究热点。

随着信息化教育的发展,数字化校园和网络教育逐渐成为人们足不出户完成教育和学习的关键领域,各种类型的教育软件和网站层出不穷,用户在自由浏览教育网站信息的同时出现了海量的具有潜在价值的日志信息。如何把这些教育数据转变成教育决策和教育教学活动优化等有用信息和知识,便是e?learning用户行为模式挖掘的意义所在。

1web数据挖掘

1.1web数据挖掘及web用户行为模式挖掘

web数据挖掘(web data mining)是数据挖掘技术在web上的应用。web挖掘是集数据挖掘、信息检索和信息抽取多种技术于一体的研究领域。web数据挖掘的发展源于数据挖掘,但是web挖掘的研究对象囊括了很多传统数据挖掘技术很难处理的数据:图像、视频、声音及网页之间的各种链接等。这些数据具有海量、异构、非结构化等特性,web挖掘就是针对这些数据特点而进行研究并获取潜在有用信息的过程。

行为模式是指用户操作过程中所体现出来的某种规律性[1]。用户行为模式挖掘是在web日志挖掘(web usage mining)基础上的应用研究,以网络日志为研究对象。web日志挖掘是指从用户的访问记录中提取感兴趣内容的挖掘模式。在用户浏览internet信息的过程中,服务器会记录用户访问及其与客户端之间的交互信息(包括访问的页面、时间、用户id等信息)并被记录在日志文件中,包括3种类型的日志文件:server logs、error logs、cookie logs。web用户行为模式挖掘正是对这3种日志文件进行挖掘,从而发现相似用户群体、访问模式、频繁路径等知识。

1.2web行为模式挖掘

目前, web行为模式挖掘研究领域主要包括:形式化描述网络访问行为、自动获取行为特征以及发现行为规律,研究的数据主要包括url页面请求、页面间链接的拓扑结构、注册用户特征等[2]。常用的研究方法主要有统计分析、关联规则分析、聚类分析和频繁序列模式分析[3]。

(1)统计分析是指获取用户行为的统计信息,如访问时间、频率等[4]。

(2)关联规则分析可获取用户页面访问行为间的关系。

(3)聚类分析是指通过聚类将特征相似用户的访问行为特点归并分组。

(4)频繁序列模式分析可以获取用户访问习惯、爱好及趋势等[5]。

通过这些分析方法获得的数据在页面导航、应用和产品推荐及公共教育服务系统的开发方面有着十分重要的作用。

1.3用户行为模式挖掘工作流程

结合web应用的需求,针对用户行为模式的特点,参照web日志挖掘的方法和流程,建立了用户行为模式挖掘模型,其工作流程如图1所示。

图1web用户行为挖掘工作流程

1.3.1数据准备

web挖掘过程中的数据采集和预处理阶段,旨在收集web服务器的访问日志文件,生成挖掘数据源,主要包括数据清洗、用户唯一性识别和完善访问路径等。通过这些可以有效地过滤掉一些类似用户访问传输协议、错误请求和短时间内多次重复的干扰信息,从而提高数据的纯净度、准确度和可信度。

1.3.2用户行为建模

早期的web应用大多以静态网页的形式呈现,现在越来越多的应用系统转变为基于平台的,并逐步发展成为具有实时交互性和开放性的web服务模式。人们发现在应用这些服务系统的过程中,理解用户与系统交互行为对于网络系统性能的提高、站点的重构以及个性化、多元化服务等具有重要意义[6]。同时,大量实践也表明,用户行为在时序、聚集、依赖等方面确实存在强一致性的行为特征[7]。

传统的建模方法和仅基于web日志的访问路径建模方法缺乏对用户行为模式的动态语义信息描述,为了解决这些建模方式存在的问题,我们采用一种新的基于网页元数据的建模方式。根据web用户行为的分层特性,行为模式可分为url访问、活动、会话3个层次。

基于分层的行为模型在用户访问序列信息的基础上增加了访问内容的局部主题、关键字等信息,这样的行为模型不仅有助于对用户行为的分析和理解,而且为新的

网络服务系统构建提供了良好的支持。

1.3.3用户频繁行为序列模式挖掘

用户行为序列模式挖掘是在用户行为序列模型的基础上,根据网络行为的一般规律,在目标用户群中通过序列模式挖掘方法,获得频繁的、普遍的、潜在的行为序列规律。这种行为序列描述了该用户群体在网络环境下一定程度上的共特征,为后期的个性化行为预测提供了必要的支持[8]。

针对行为序列数据的特点,对现有序列模式挖掘算法适用场合进行分析,我们选择出一种合适的访问行为频繁序列模式挖掘算法——prefixspan算法。根据访问行为序列特点,发现此算法比较适合行为序列模式挖掘。这主要是因为:①行为序列的每个元素都是单向的,便于序列投影;②以活动为单位的序列模式很长,使用此算法才能提高挖掘效率。

prefixspan算法是一种深度优先搜索算法,其基本思想是使用频繁前缀划分搜索空间和投影序列数据库,并搜索相关序列,检查前缀子序列,将其相应的后缀子序列投影到数据库中。该算法同时采用分治的策略,不断产生更多个更小的投影数据库,然后在各投影数据库上进行序列模式挖掘。

假设用户分为一个组,根据prefixspan 算法得到频繁序列模式为:

fsgroupid=(groupid,{(s1,t1),(s2,t2),…,(si,ti),…,(sn,tn)},tmin)(1≤i≤n)(1)

其中, groupid为用户组的标识,具有唯一性。si是该组内频繁行为序列,ti为si的支持度。

1.3.4用户行为模式聚类

web用户访问模式聚类就是根据用户访问的公共特性进行聚类。通过聚类形成多于一个的用户簇,这样每个簇中的用户都具有共同特性。通过对上述web日志挖掘数据的获取,提取用户的访问特性。

当前,用户网络行为分类研究还处于初级阶段,可将用户的网络行为简单分为交互行为、浏览行为、查询行为、协同行为等。然而现实生活中,用户的网络行为模式大多是这些行为的综合。聚类技术根据被分析对象间的相似性将相同或相似的对象集划分在同一类中。根据行为序列模式在时间轴上的变化特点,通过以序列相似性为基础的序列聚类算法对行为序列模式聚类,实现行为序列模式类别划分。

(1)序列相似性计算。因为网络用户行为存在着自主性和不确定性的特点,使得用户的访问行为发生的时间有很大的差异,普通的基于时间序列的欧几里得距离及其变形的序列相似性计算算法难以满足需要,因而,此处使用一种基于序列投影压缩的相似度计算方法。

以网络活动序列为例,假设有两条活动序列si,sj,且si=(ai1,ai2,…,ain),sj=(aj1,aj2,…,ajm),n≤m。则相似度计算公式如下:

sim(si,sj)=s(si,sj’)(t/m) (2)

sj’为sj 投影压缩后的变形,t为sj’的长度,即t= |sj’|

(2)序列聚类算法。在行为序列相似度计算的基础上,进行行为序列聚类,可以采用基于k?中心聚集的序列聚类算法。

输入:行为序列集d,预设的簇数k。

输出:k个簇的集合,使得所有对象与其最近中心点的相异度总和最小。

方法:①从序列集d中随意选取2k个序列,组成k个初始簇,则每个簇就包含了两个序列;②将剩余的每个序列进行序列相似性计算,寻找与初始序列的投影压缩最相似的簇;③添加序列到该簇;④反复迭代执行,直到簇的大小不再发生变化。

2web行为模式挖掘在e?learning系统中的应用

2.1e?learning系统

e?learning是指通过因特网或其它数字化内容进行的学习与教学活动,它充分利用现代信息技术所提供的、具有全新沟通机制和丰富资源的学习环境,实现一种全新的学习方式,这种学习方式将改变传统教学中教师的作用和师生之间的关系,从而根本改变教学结构和教育本质[9]。目前市场上的e?learning供应商大致分为3类:平台技术供应商、课程资源供应商和平台兼资源共同发展的供应商。e?learning系统应用也经历了从最初的在线学习阶段,到在线学习+学习管理阶段,再到在线学习+学习管理+培训管理阶段,最终发展成为现在的在线学习+学习管理+培训管理+知识管理阶段。

2.2web行为模式挖掘与e?learning系统

基于web用户行为模式的数据挖掘在e?learning方面的应用,就是指一个将来自各种e?learning网络教学平台的日志文件所包含的潜在有用的

数据转换为有用信息的过程,这些有用信息可为教师、学生、家长、教育研究人员、教育管理人员以及e?learning软件系统开发人员所利用,以了解学生及其所受教育的情况,并据此采取有针对性的管理和教学优化措施[9]。

e?learning用户行为模式挖掘过程如下:①收集网络e?learning系统服务平台用户使用数据;②数据预处理;③用户行为建模;④用户频繁序列模式分析和行为序列聚类,如图2所示。

实验发现,将用户行为模式挖掘算法和流程应用在e?learning系统的分析和挖掘,具有很好的效果,可以获得一些有用的数据,进而为教育教学工作服务。

通过用户行为模式挖掘,e?learning系统的建设者可以清楚地了解用户的需求,建立“以用户为中心的”网络结构体系,针对不同用户的需求“量身定做”课程设置,使e?learning教育系统的优势最大化,同时提高用户满意度;网站管理者可以利用系统向用户推送一些可能有兴趣的新知识;当用户关注到下一个知识点时,系统会建议并提供一些在学习新知识时可能会用到的知识点和相关信息,针对不同用户的个性化学习,定制个性化信息,即通过用户行为模式挖掘,建立、调整用户的喜好,使用户能够以自己的方式来访问,从而实现服务的个性化。不仅如此,通过用户行为模式挖掘可以让网站的设计者不再完全依赖专家的定性指导来设计网站,而是根据访问者的信息来修改网站的结构,设计网站的外观,找出优化网站组织结构的策略,节省用户的访问时间,节约网站的开支;通过挖掘结果还可以分析用户浏览学习的历史资料,预测用户的需求趋势,评估需求倾向的改变,提高e?learning服务系统的核心竞争力。通过web用户行为模式挖掘知识、规律和信息,及时调整系统课程设置和专业设置,满足广大用户的需求,留住现有用户,吸引更多用户。

图2e?learning用户行为模式挖掘流程

3结语

web行为模式挖掘是在web数据挖掘基础上发展起来的一门综合技术,主要致力于从网络海量的、异构的、多维的信息资源中寻找有潜在价值的知识。e?learning在我国经过十几年的发展,其模式也在不断改变,从单纯的在线学习发展到在线学习与在线管理相结合的模式。随着网络教育的发展,科学安排在线学习及管理模式非常重要,将web行为模式挖掘运用于e?learning系统中,能有效地帮助网站开发者和网站管理者了解用户,依据用户的偏好合理布局、改变管理模式以及调整发展战

第6期 陈新:基于java rmi的分布式数据库系统开发与应用软 件 导 刊2014年标题

基于java rmi的分布式数据库系统开发与应用

作者陈新

作者单位(镇江高等职业技术学校,江苏 镇江212000)

摘要摘要:以java rmi(远程方法调用)机制为基础, 以多层数据库作为模型,成功地实现了分布式数据处理。通过对java rmi的使用,实现了对数据的反复利用,不仅使系统效率得到显著提高,还使系统开发过程变得更为简便。

关键词关键词:java rmi;分布式数据库系统;多层模型

中图分类号:tp392文献标识码:a文章编号文章编号:1672?7800(2014)006?0120?03

上一篇:浅谈小流域水土保持的综合治理 下一篇:简析高层住宅防渗漏施工技术的运用