Web数据挖掘在电子商务中的应用研究

时间:2022-06-30 12:32:46

Web数据挖掘在电子商务中的应用研究

摘要:电子商务的产生,改变了企业的经营理念,给社会的各个行业带来了巨大的变化,将成为引导经济发展的新潮流。web数据挖掘从Web文档和Web活动中抽取用户感兴趣的潜在的有用模式和隐藏信息,本文主要从Web挖掘技术出发,着眼于在电子商务中的应用研究,对这一应用的理论和具体实现技术进行了探讨。

关键词:Web数据挖掘;电子商务;挖掘技术

中图分类号:TP311文献标识码:A文献编码:1009-3044(2008)12-10000-00

Web Mining and Its Applications in Electronic Commerce

TAO Qing, LIU Feng

(1.College of Computer Science and Technology, Anhui University, Hefei 230039, China;2.Department of Computer Engineering, Wuhu Vocational College of Information and Technology, Wuhu 241000, China)

Abstract: The company's business philosophy has been changed and tremendous changes have been brought in the various sectors of society by Electronic Commerce. Electronic Commerce will guide the economic development of a new trend. Web data mining extracts the useful model and the hidden information of the interested and potential users from Web documents and the Web activities. This paper starts from the Web mining technology, focusing on the application of e-commerce research and discusses the application of the theory and concrete realization of technology.

Key words: web mining; electronic commerce; mining technology

1 引言

电子商务就是指交易者之间依托计算机网络,按照一定的规则或标准进行包括商务信息、商务管理和商品交易在内的全部商务活动。随着网络技术和数据库技术的飞速发展,电子商务正显示越来越强大的生命力,加速了社会经济电子化的进程。

2 Web数据挖掘简介

2.1 Web数据挖掘概念

Web数据挖掘从数据挖掘发展而来,都是在分析大量数据的基础上,做出归纳性的推理,预测客户的行为,帮助企业的决策者调整市场策略、减少风险并做出正确决策的过程。Web数据挖掘可以在很多方面发挥作用,如对搜索引擎的结构进行挖掘,确定权威页面,Web文档分类、Web log挖掘、智能查询、建立MetaWeb数据仓库等。

Web数据挖掘的基本原理的处理过程如图1所示。图1中,资源发现(Resource Finding)是指从Web获取并返回文本资源的过程。文本资源最常见的是HTM文档,其他的还有电子邮件、新闻组、BBS等。信息的选择和预处理(Information Selection and Pre processing)是对第一步返回的资源进行各种形式的处理过程,如去掉HT ML文档中的标签(tags)。模式提取是从各个站点或站点间获取通用模式,他常用机器学习和传统的数据挖掘技术。最后一步模式的分析验证(Analysis)是对获取模式的解释。从以上4步的处理过程可以看出:Web数据挖掘是从Web数据中发现获取潜在有用信息的整个过程,他包含了传统的知识发现(KDD)处理过程,可以将Web数据挖掘看成是KDD技术在Web数据上的应用与扩展。

2.2 Web数据挖掘的类型

根据Web上的数据类型,把Web数据挖掘分为三类:Web内容挖掘、Web结构挖掘和Web使用挖掘。所谓内容挖掘是指在人为组织的Web上,从文件内容及其描述中获取有用信息的过程;结构挖掘则是从人为的链接结构、文档的内部结构和文档URL中的路径结构中获取有用知识的过程;使用挖掘是通过挖掘相应站点的日志文件和相关数据来发现该站点上的浏览者和顾客的行为模式。

2.3 常用的Web数据挖掘技术

(1)路径分析技术

用路径分析技术进行Web数据挖掘时,最常用的是图。因为Web可用一个有向图来表示,G=(V,E),其中,V是页面的集合,E是页面之间的超链接集合,页面定义为图中的顶点,而页面间的超链接定义为图中的有向边。顶点v的入边表示对v的引用,出边表示v引用了其他的页面,这样形成网站结构图,从图中确定最频繁的访问路径。

(2)关联规则挖掘技术

关联规则挖掘技术主要用于从用户访问序列数据库的序列项中挖掘出相关的规则,就是要挖掘出用户在一个访问期间(Session),从服务器上访问的页面文件之间的联系,这些页面之间并不存在直接的参引(Reference)关系。

(3)序列模式挖掘技术

序列模式数据挖掘技术就是要挖掘出交易集之间的有时间序列关系的模式。他与关联挖掘技术都是从用户访问下的日志中寻找用户普遍访问的规律,关联挖掘技术注重事务内的关系,而序列模式技术则注重事务间的关系。

(4)聚类分类技术

分类规则可挖掘出某些共同的特性,而这一特性可对新添到数据库里的数据项进行分类。在Web数据挖掘中,分类技术可根据访问用户而得到个人信息、共同的访问模式以及访问某一服务器文件的用户特征。而聚类技术则是对符合某一访问规律特征的用户进行用户特征挖掘。

3 电子商务中的web数据挖掘技术

运用Web数据挖掘技术对站点上的各种数据源进行挖掘,找到相关的一些知识模式,以指导站点人员更好地运作站点和向客户提供更好的服务。W e b挖掘在电子商务中的应用主要表现在找到潜在客户、客户分类聚类、客户驻留三个方面。应用Web数据挖掘技术能够从Web服务器记录的日志数据中发现隐藏的模式信息,了解客户的访问模式和行为模式,从而做出预测性分析;对客户进行分类分析和聚类分析,将客户分组,并分析组中客户的共同特征,从而更好地了解客户,为客户提供更有针对性的服务。

3.1 找到潜在客户

在对Web的客户访问信息的挖掘中,利用分类技术可以在Internet上找到未来的潜在客户,获得这些潜在的客户市场。通常的策略是先对已经存在的访问者进行分类,一般分为三种:“no customer”、“visitor once”和“visitor regular”。对于一个新的访问者,通过在Web上的分类发现,识别出这个客户与己经分类的老客户的一些公共的描述,从而对这个新客户进行正确的分类。然后从它的分类判断这个新客户是属于有利可图的客户群,还是属于无利可图的客户群,决定是否要把这个新客户作为潜在的客户来对待。客户的类型确定后,就可以对客户动态地展示Web页面,页面的内容取决于客户与销售商提供的产品和服务之间的关联。

3.2 分类聚类客户

在电子商务中客户聚类是一个重要的方面。通过分组具有相似浏览行为的客户并分析组中客户的共同特征,可以帮助电子商务的组织者更好地了解自己的客户,向客户提供更适合、更面向客户的服务。如有一些客户都花了一段时间浏览“BabyToys”,“Baby Furniture”页面,经过分析这些客户被聚类成为一组。销售商根据分析出来的聚类信息,就可以知道这是一组“Expecting Parents”客户,对他们所进行的业务活动当然也就不可能等同于其他被聚类了的客户如“college Students”,“Officeladies”,应及时调整页面及页面内容使商务活动能够在一定程度上满足客户的要求,使商务活动对客户和销售商来说更具意义。

3.3 客户驻留

对于客户而言,传统客户与销售商之间的空间距离在电子商务中已经不复存在,在网上,每个销售商对于客户来说都是一样的。那么,销售商就要尽量使客户在自己的网站上驻留更长的时间。利用Web挖掘,就可以知道客户的行为模式,了解客户的兴趣及需要,从而根据客户的兴趣及需要动态调整Web页面,以更好地满足客户。因为站点上的页面内容的安排和连接如同传统商店中物品在货架上的摆设一样,可以利用Web挖掘,找出具有一定支持度和信任度的相关联的物品,并且针对客户的动态变化调整站点的结构,使客户访问关联信息的连接更直接。

4 结束语

电子商务是现代信息技术迅速发展的必然产物,也是未来企业模式的必然选择。将数据挖掘引入电子商务,增强企业的商务智能,使能向客户提供个性化的服务,将是使电子商务取得更多成就的必然方向。如何更有效地利用数据挖掘解决电子商务中的问题,是电子商务急需解决的重要方面。

参考文献:

[1] 万军,耿东辉.浅说电子商务中的数据挖掘技术[J].东北大学学报(自然科学版),2004,25(增刊2):194-196.

[2] Linoff G S,Berry M J A.Web数据挖掘:将客户数据转化为客户价值[M].沈钧毅,等译.北京:电子工业出版社,2004.

[3] 高岩胡静涛:Web数据挖掘的原理、方法及用途[J].现代图书情报技术,2002,(3):l5-20.

[4] 黄解军,万幼川.基于数据挖掘的电子商务策略[J].计算机应用与软件,2004,21(7):12-13.

收稿日期:2008-03-09

作者简介:陶庆(1980-),女,安徽芜湖人,教师,在读安徽大学计算机科学与技术学院硕士;刘峰(1962-),男,安徽宿县人,博士研究生,系主任,教授,硕士生导师。

上一篇:基于学习型蜜网的设计与实现 下一篇:基于WINSOCK的网络通信技术在煤矿中的应用