新形势下Web数据挖掘技术在电子商务中的应用探析

时间:2022-10-11 02:47:04

新形势下Web数据挖掘技术在电子商务中的应用探析

摘要:数据挖掘是一个利用各种分析工具在海量数据中发现模型和数据间的关系的过程,使用这些模型和关系可以进行预测,它帮助决策者寻找数据间潜在的关联,发现被忽略的因素,是解决当今时代所面临的数据爆炸而信息匮乏的问题的一种有效方法。这些技术在很多电子商务商品推荐系统中已经得到了应用,而且还取得了比较好的推荐效果。本文介绍了数据挖掘的相关知识,深入研究了Web数据挖掘及相关技术,并对Web挖掘技术在新形势下电子商务中的应用做了详细阐述。

关键词:数据挖掘;电子商务;应用;探析

中图分类号:TP274

文献标识号:A

数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取陷含在其中的、人们事先不知道但又有潜在作用的并最终可理解的信息和知识的非平凡过程。它是涉及面很广的交叉科学,包括机器学习、数据库、统计学、模式识别、数据分析等相关技术。

数据挖掘是一个利用各种分析工具在海量数据中发现模型和数据间的关系的过程,使用这些模型和关系可以进行预测,它帮助决策者寻找数据间潜在的关联,发现被忽略的因素,是解决当今时代所面临的数据爆炸而信息匮乏的问题的一种有效方法[1]。它是一种新的商业信息处理技术,其主要特点是对商业数据库中的大量业务数据进行抽取、转换、分析和其它模型化处理,从中提取辅助商业决策的关键性数据,是一种深层次的数据分析方法。鉴于数据、数据挖掘任务和数据挖掘方法的多样性,给数据挖掘提出了许多挑战性的课题。数据挖掘语言的设计,高效而有用的数据挖掘方法和系统的开发,交互和集成的数据挖掘环境的建立,以及应用数据挖掘技术解决大型实际应用问题,都是目前数据挖掘研究人员、系统和应用开发人员所面临的主要挑战。

1 新形势下的Web数据挖掘技术

目前,通过Web进行商务活动带来的便利和它所产生的交易速度已成为电子商务迅猛发展的关键推动力。另一方面,涉及客户端的电子商务活动也正在进行着巨大的革新。如果能够跟踪客户在Web上的浏览行为并进行模式分析,这样将会缩短销售商与客户之间的距离,让销售商更了解自己客户的需求,有针对性的开展电子商务活动。

Web数据挖掘技术可应用到很多领域,尤其是商业领域。从某种意义上来说,商务领域对Web挖掘的大量需求导致了该技术的研究热潮。其主要特点包括:

(1)面向电子商务挖掘的任务更多表现在客户关系管理方面。因此通过Web数据挖掘技术可以吸引新用户,防止旧用户的流失。

(2)由于电子商务是基于网络的系统,所以可以非常方便的获取到人们想要的各种数据。

(3)通过对电子商务进行挖掘,使用者可以通过电子商务推荐系统对客户进行适时的推荐,从而能吸引更多客户,使企业立于不败之地。

2 Web数据挖掘在电子商务中的应用

2.1寻找潜在客户

在对Web的客户访问信息的挖掘中,利用分类技术可以在Internet上找到未来的潜在客户,获得这些潜在的客户市场。

2.2改进站点设计

通过路径分析等技术可以判定出一类用户对一个Web站点频繁访问的路径,这些路径反映这类用户浏览页面的顺序和习惯,因此得到的导航模式可以指导网站设计人员改进站点的设计结构,吸引用户来访问。

2.3提供个性化服务

Internet使得客户与销售商之间的空间距离消失了,那么如何使客户能够在自己的销售站点上驻留更长的时间呢?首先必须了解客户,知道其兴趣所在,然后给其进行动态的Web页面调整以适合当前客户的需要。通过对客户访问信息的挖掘,就能知道客户的浏览行为,从而了解客户的兴趣及需求。通过提供个性化服务,延长客户驻留时间。

2.4聚类客户

在电子商务中客户聚类是一个重要的方面。通过分组具有相似浏览行为的客户,并分析组中客户的共同特征,可以帮助电子商务的组织者更好地了解自己的客户,向客户提供更适合、更面向客户的服务[2]。通过聚类可以对不同类别的客户进行不同的个性化服务,使商务活动能够在一定程序上满足客户的要求,这样对客户和销售商来说才更有意义。

2.5提供高效访问

通过访问信息的挖掘,利用基于Web访问信息挖掘的预推送技术可以更好的设计服务器以提高在大负载下的性能,通过改进站点的拓扑结构可以有效地缩短用户访问时间。

3 电子商务中应用的Web挖掘技术

随着电子商务的不断发展,许多人纷纷加入到电子商务推荐系统的研究中来。为了寻求更加准确而且有效的推荐,已经有许多技术被应用到这个领域中。这些技术在很多电子商务商品推荐系统中已经得到了应用,而且还取得了比较好的推荐效果。目前,电子商务商品推荐系统中使用的技术主要有如下几种。

3.1关联规则

电子商务商品推荐系统中的关联规则技术利用关联规则发现算法,根据用户当前的购习行为向该用户提供推荐。基于关联规则的推荐算法大都可以分为两步:关联规则形成和推荐形成。推荐形成阶段,推荐系统根据规则计算当前用户未浏览商品的推荐度,并根据推荐度的大小对当前用户未浏览商品进行推荐。在运用关联规则技术进行推荐的过程中,关联规则的发现是最耗时的,也是算法的瓶颈,因此可以考虑离线进行,一旦规则形成以后,推荐的实时性是比较好的。

3.2序列模式分析

在时间戳有序的事务集中,序列模式的发现就是指找到那些如“一些项跟随另一个项”这样的内部事务模式。使用序列模式分析挖掘Web日志,能够便于预测用户的访问模式,有助于开展针对这种模式的有针对性的广告服务或者向客户提供商品推荐。依赖于发现的关联规则和序列模式,能够在服务器方动态的创立特定的有针对性的页面,以满足访问者的特定需求[3]。

3.3分类分析

在电子商务中通过分类分析,得到客户分类模式后,就可以针对不同类客户的特点展开不同的商务活动,提供有针对性的个性化的信息服务;得到客户的分类模式后,还可以对新的客户进行分析,分析新的客户属于哪一个类别,从而有针对性的开展商务活动。

3.4聚类分析

通过聚类具有相似浏览行为的客户,使管理员更多的了解客户,提供客户更满意的服务。通过对Web用户日志的挖掘,对网络用户进行聚类,可以更好地了解用户的需求,重新调整网站的页面结构,从而为用户提供方便、优质的服务;通过聚类客户资料,将具有相似爱好的客户分配到相近的类中,根据类中其他客房对商品的评价就可以得到该客户对该商品的评价,向客户推荐他可能感兴趣的商品[3]。

3.5协作式过滤技术

协作式过滤技术是应用最早并且最为成功的推荐技术之一[3]。电子商务商品推荐系统中的协作式过滤技术一般采用最邻近原则,根据用户的历史喜好信息计算用户之间的距离,然后利用用户的最近邻居对商品评价的加权平均值来预测该用户对特定商品的喜好程度,最后推荐系统根据这一喜好程度来向用户进行推荐。

基于协作过滤的推荐算法大多可以分为形成近邻和形成推荐两个步骤。一般来说基于近邻所运用的技术决定了算法的主要性能,基于近邻可以分为两大类:基于内存和基于模型的算法[5]。

3.6分类分析的聚类分析的有机结合

分类分析和聚类分析是互逆的过程。开始用聚类分析将数据进行聚类,分成若干个簇,然后用分类分析该数据的集合,得到每个类别的描述,然后可以按照新数据的特点将其放到适合的类中去。也可以通过对类的描述作为新的分类规则重新对数据进行分类,从而获得更准确的结果。这样一直循环使用,直到获得满意的效果。

4Web挖掘的数据来源分类

电子商务是通过Internet进行各项活动的,由于Web的特殊性,因些对其进行的数据挖掘的数据源有着数据量大、类型多的特点,其数据源大体可以分为以下几类:

4.1服务器日志数据

个人浏览服务器时,服务器方将会产生三种类型的日志文件:Server logs、Error logs和Cookie logs,这些日志用户记录用户的基本情况,因些它们是进行Web访问信息挖掘的主要数据源。

4.1.1 Server logs

Web日志文件记录了用户访问网站时每个页面的请求信息,有服务器端的Server logs、Error logs和客户端的Cookie三种类型的文件,从Web服务器日志的格式有通用日志格式CLF(Common Log Format)和扩展通用日志格式ECLF(Externded Common Log Format)。通用日志格式如下表所示。

Service logs有两种格式存储,一种是普通日志文件格式,另一种是扩展日志文件格式[4]。普通日志文件存储了关于客户连接的物理信息,如果能够对这个文件中存储的一些项进行请语法上的分析,如DNS,就可以知道客户来源的区域。例如,域名被分析后就可以知道来自于教育行业。如果通过数据挖掘和这样的语法分析,就知道了一某一产品它的购买者有80%是来自于大学,那么接下来就可以根据此信息调整电子商务中的在线市场策略,调整对大学生客户的商务活动。扩展日志文件格式主要是支持关于日志文件信息的指令,如版本号、会话监控开始和结束的日期、被记录的域等。

4.1.2 Error logs

存取请求失败的数据,例如:丢失链接、授权失败、超时。

4.1.3 Cookie logs

Cookies是一种软件构件,它能够在客户端存储客户访问服务器的信息。服务器软件上存储关于Cookies的这部分,就叫做Cookie logs。Cookie logs的一般格式是:“name, expiry date, path, domain, Security level”。

4.2查询数据

它是电子商务站点在服务器上产生的一种典型数据。例如,对于在线存储的客户也许会搜索一些产品或某些广告信息,这些查询信息就通过Cookies或登记信息连接到服务器的访问日志上。目前还没有一个标准的查询数据格式[1]。

4.3市场数据

在线市场数据是指和市场活动相关的信息。不同目的的商务网站有不同的商务信息。但是,这类数据通常是用传统的关系型数据库结构来存储数据。在线市场数据是业务数据,是进行业务相关分析的主体。用户的挖掘目标只是结合在线市场数据分析才能达到。

4.4页面内容

这类数据主要是指HTML和XML页面的内容,包括文本、图片、语音、图像等。由于HTML页面包含文本和多媒体信息(图片、语音、图像),所以涉及到文本挖掘和多媒体挖掘。对Web页面数据的挖掘还包括对Web页面之间的超链接关系的挖掘。

4.5Web页面结构

Web页面结构包括WWW的组织结构和链接关系。组织结构是指页面内部各部分是如何组织的,表现为各HTML标记间的关系,通常可组成一棵树[6]。链接关系是指页面之间存在的超级链接关系,这也是一种重要的资源。

4.6服务器端数据

服务器日志记录用户对所有网站的访问。服务器相当于在客户浏览器和Web服务器之间提供了缓存功能的中介服务器,它的缓存功能减少了Web服务器的网络流量,加快了网页的运行速度,同时将大量的用户访问信息通过日志的形式保存起来[7]。

4.7客户登记信息

客户登记信息是指客户通过Web页在屏幕上输入的、要提交给服务器的相关信息。它在电子商务活动起着非常重要的作用,特别是在安全方面,或者在对客户可访问信息的限制方面。在Web的数据挖掘中,客户登记信息必须和访问日志集成,以提高数据挖掘的准确度,能更进一步的了解客户。

5 结束语

Internet上的客户都意识到,只要他们连接到一个在线市场的服务器上,就已经在这个服务器上留下了一个“脚印”,这就是服务器的日志文件。这样就可以对客户访问留下的这些日志文件进行Web的数据挖掘,提取相关客户的知识,对客户的访问行为、频度、内容等进行分析,从而可以得到关于群体客户行为和方式的普遍知识,以改进Web服务方的设计。通过Web数据挖掘,就可以根据客户的访问兴趣、访问频度、访问时间动态地调整页面结构,改进服务,给客户个性化的界面,开展有针对性的电子商务以更好的满足访问者的需求,因而Web数据挖掘不可避免地和电子商务走到了一起。

参考文献

[1]周世东. Web数据挖掘在电子商务中的应用研究[D]. 北京交通大学,2008(6).

[2]赵东东. 电子商务中的Web数据挖掘系统的设计[J]. 微计算机信息,2007(2).

[3]何波,王越. 基于数据挖掘的Web个性化信息推荐系统[J]. 计算机工程与设计,2006(2).

[4]Barry Smyth,Evelyn Balfe. Anonymous personalization in collaborative web search[J]. Information Retrieval, 2006(9).

[5]Alexander Pretschner, Susan Gauch. Personaliztion on the Web. Technical Report MC-FY, 2000-TR-13591-01,December,1999.

[6]李煊,汪晓岩,庄镇泉,基于关联规则挖掘的个性化智能推荐服务[J].计算机工程与应用,2002(3).

[7]鲁为. 协作过滤算法及其在个性化推荐系统中的应用[D]. 北京邮电大学,2007(3).

上一篇:平板显示的发展趋势 下一篇:浅析网络安全中的漏洞扫描技术