Web数据挖掘初探

时间:2022-03-24 01:06:22

Web数据挖掘初探

摘要:Web数据挖掘是数据挖掘领域中一个新兴方向。文章介绍了Web数据挖掘的概念、流程,融合前人的众多研究,重点分析了Web数据挖掘的分类及其功能,并对其未来的发展提出了自己的看法。

关键词:Web;数据挖掘;内容挖掘;结构挖掘;使用挖掘;应用

一、引言

相对于传统数据挖掘中结构化的数据,Web上的数据是半结构化或非结构化的。由于半结构化和非结构化的信息用数据模型不能清楚地表示,Web的用户群也表现出多样性的特点,因此,面向Web的数据挖掘比面向单个数据仓库的数据挖掘要复杂得多。同时,基于Internet的服务也如雨后春笋般产生并发展起来。如网上银行、搜索引擎等。企业急需由Internet这个巨大的信息源中分析客户行为,寻找商机。

在上面两个需求的推动下,产生了一个新的研究领域――Web数据挖掘。Web数据挖掘是从数据挖掘发展而来,是数据挖掘技术在Web中的应用。

二、Web数据挖掘概述

(一)Web数据挖掘的概念

Web数据挖掘就是利用数据挖掘技术从Web文档和服务中自动发现和抽取信息(Web mining is the use of data mining techniques to automatically discover and extract information from Web documents and services)。

Web数据挖掘是在分析大量数据的基础上,做出归纳性的推理,预测客户行为,帮助企业的决策者调整市场策略、减少风险并做出正确决策的过程。研究覆盖了多个领域,包括数据库技术、信息获取技术、统计学、人工智能中的机器学习和神经网络等。

(二)Web数据的特点

1、数据量大。Internet将分布于世界各地的数量巨大的电脑连接起来,每个电脑上都存有丰富的数据,这些数据涉及不同的行业和领域,这其中还有很多的用户行为数据,所以Web数据量非常巨大。

2、半结构化数据结构。半结构化是Web上数据的最大特点。传统数据库都有一定的数据模型,可以根据该模型具体描述特定的数据,比如关系型的数据库,有统一的格式:按一定序列编排的二维表格结构,其中存储的数据是完全结构化的数据。而Web上的数据非常复杂,没有特定的模型描述。每一站点的数据都各自独立设计,并且数据本身具有自述性和动态可变性,但因自述层次的存在,从而是一种非完全结构化的数据,即半结构化数据。

3、异构数据库环境。从数据库研究的角度来看,Web网站上的所有信息也可以看作是一个比普通数据库更大、更复杂的数据库。每一个Web站点都可以看作是一个数据源,由于各站点是相互独立的,之间除了可以互相访问之外并没有任何关系,所以每个站点之间的信息及信息组织方式都是不相同的,这就构成了一个巨大的异构数据库环境。要对这些数据进行分析,必须要解决各站点之间异构数据的集成问题,提供给用户一个统一的视图,才可能从巨大的数据资源中获取有用的信息。

4、动态性极强。相对于数据仓库的数据而言,Web的数据量似乎过于庞大,而且其中的信息还在不断的更新。这几乎不可能去构造一个数据仓库来复制、存储和集成Web上的所有数据。

三、Web数据挖掘的分类

Web包括三种类型的数据:Web页面数据、Web结构数据、Web日志文件。根据数据挖掘对象的不同可以将Web数据挖掘分为内容挖掘、结构挖掘和使用挖掘三类,其具体分类见图1。

(一)Web内容挖掘

1、文本挖掘。对非结构户文本进行的Web挖掘,称为文本数据挖掘或文本挖掘,是Web挖掘中比较重要的技术领域。对文本数据进行挖掘的文档分类和模型质量评价方法与传统的数据挖掘方法相类似,分类算法主要应用朴素贝叶斯。对模型的质量评价主要有分类的正确率、准确率和信息估值。

2、多媒体挖掘。多媒体数据挖掘是数据挖掘的一个重要领域,是从多媒体数据库中提取隐藏的知识、多媒体数据关联、或者是其他没有直接储存在多媒体数据库中的模式。多媒体挖掘首先进行特征提取,然后再应用传统的数据挖掘方法进行进一步的信息挖掘。广义的多媒体数据挖掘既包括对图像、视频和声音的挖掘,也包括对文本数据的挖掘。

(二)Web结构挖掘

整个Web空间里,有用的知识不仅包含在Web页面的内容之中,而且也包含在Web页面的结构之中。Web结构挖掘是指挖掘Web潜在链接结构模式,即通过分析页面链接和被链接数量以及对象来建立Web自身的链接结构模式,在此基础上对页面进行分类和聚类,从而找到权威页面。文档之间的超链接体现了文档之间的逻辑关系,与文档所处的位置无关,一个Web站点内的文档完全可以包含指向其他站点的链接,这是站间链接,与之对应,位于同一个站点的链接就是内部链接。Web结构挖掘是对Web页面超链接关系,文档内部结构,文档URL中的目录途径结构的挖掘,所以Web结构挖掘又可以分为超链接挖掘、内容挖掘和URL挖掘。

(三)Web使用挖掘

现代许多商务以及交易都是通过Internet或Web来实现的,从而每天在服务器方都会产生大量的数据,这些数据通常是由服务器自动产生并将其存放在服务器日志文件中,除此之外还有很多用户信息如用户的注册信息。尽管Internet作为一个信息资源是繁杂、异质和庞大的,然而从局部上来说,在每一个提供信息资源的服务器上都有一个结构化较好的记录集,即Web访问日志。Web使用挖掘就是运用数据挖掘技术在这些资源中发现使用模式的一个过程,它面对的是在用户和网络交互的过程中抽取出来的第二手数据。Web使用挖掘可以分为一般的访问模式跟踪和定制使用跟踪。一般的访问模式跟踪通过分析Web访问日志来理解访问模式,利用这些分析可以清楚地给出较好的Web结构及资源提供者的分组情况,把数据挖掘技术应用与Web访问日志可以获取有趣的访问模式,这些访问模式有助于网站的重构。定制使用跟踪可以分析个人的倾向,它的主要目的是为每个用户定制符合其个人特色的Web站点。根据个人喜好,可以在显示的信息,网站的结构及资源的格式等方面动态地进行定制。

(四)三种Web数据挖掘的比较(见表1)

四、Web数据挖掘的功能

(一)系统提升

系统提升又分两个方面,一是网站自身的提升,二是网络性能的提升。

网站自身的提升是指根据实际用户的浏览情况,调整网站的网页的连接结构和内容,更好的服务用户。比如当通过数据分析发现大多数的用户在访问本站时都是经过路径A=>B=>C=>D来访问的,则可以将页面A、D直接链接在一起,方便用户访问。

网络性能的提升是指应用缓存技术加快网络信息传输,从proxy的访问信息中可以分析用户的访问模式,从而可以预测用户的Page访问,提高Web Caching的性能。比如大多数用户的访问习惯为A=>B=>C,A=>B=>D,则当用户从A访问到B时就可以将C、D调入缓存,等待用户访问。

(二)个性化定制

个性化定制是指根据发现的用户喜好,动态地为用户定制观看的内容或提供浏览建议。例如网上的零售系统捕捉到大量采购过程的细节,提供了深入分析的可能。从用户的每次浏览的页面可以发现他的兴趣爱好,这样商家可以为该用户定制观看的内容或提供浏览建议,这样可以方便用户的浏览和查询,增强顾客的忠诚度。同时商家可以对广告的最佳摆放位置做出决策,从来提高广告的效用,促进网上销售。

五、发展方向

Web数据挖掘有众多应用,有两项是上文已经提及的Web数据挖掘的功能,已经投入应用,也就是提升系统和为顾客提供个性化定制服务。本文另外将提出两个Web数据挖掘应用未来的发展方向。第一种是改造和构造新的算法,把原有旧的数据源(例如Web Log)和新的数据(Business Data)结合起来,用以发现新的使用模式。旧的数据源是指日志能服务器自动记录下来的信息,而基于电子商务的迅速发展,新增了海量的商务数据,包括用户的购买记录,点击记录等等,如果将旧的数据源与新的数据源相结合,一定可以发现新的使用模式,从来发现新的电子商务模式。第二种是提供完整的应用功能。也就是集数据收集、清理和转换,数据存储,数据挖掘,个人定制,市场分析和决策于一体,将这么多功能整合以一种商业服务的方式提供,一定能受到众多商家的青睐。因为由商家自己去做数据挖掘,技术不过关,成本太高,如果由专业的第三方来提供这样的服务,由专业人士帮助商家进行数据挖掘,可以有效地节约资源。

六、结束语

本文讨论了Web数据挖掘的概念、流程,详细描述了Web数据挖掘的分类和功能,并对其未来的发展提出了一些想法。Web数据挖掘是随着Internet、数据挖掘兴起的一门新的综合性技术,是一个交叉的研究领域,国内外在这一研究领域还没有形成比较成熟的理论和同意的体系,因此Web数据挖掘具有极大的挑战和巨大的开发潜力,其研究有着很好的商业和实用价值,这也是一个新的挑战。

参考文献:

1、马保国,侯存军,王文丰,钱方正.Web数据挖掘技术及应用[J].计算机与数字工程,2005(34).

2、麦晓冬,余海冰.Web数据挖掘综述[J].科技咨询导报,2007(14).

3、高岩,胡静涛.Web数据挖掘的原理、方法及用途[J].现代图书情报技术,2002(51).

4、李健.Web的数据挖掘[J].数据库及信息管理,2006(20).

5、刘明刚,吴继娟.基于Web数据挖掘研究[J].信息科学,2006(63).

(作者单位:南京大学商学院电子商务系)

上一篇:自适应控制器概述 下一篇:混凝土质量通病防治措施浅析