浅谈Web数据挖掘技术

时间:2022-08-03 11:22:27

浅谈Web数据挖掘技术

摘要:随着网络的快速发展与普及,大量有用的网络信息给人们生活、工作和学习带来了便利。与此同时网络中还存在着许多无用的信息,如何从浩如烟海的数据海洋中,快速准确的查找数据,成为了当今社会不可忽视的问题。Web数据挖掘技术,正是解决这一问题的关键。该文从Web数据挖掘技术的角度,阐述Web数据挖掘的概念、分类、过程及常见的Web数据挖掘算法。

关键词: Web数据挖掘;PageRank算法;网络数据

中图分类号:TP311.12 文献标识码:A 文章编号:1009-3044(2013)22-4992-02

1 概述

当前,人们随时随地都在利用网络获取信息,不断利用网络进行着上传和下载的操作,这些信息数据在网络上传播和储存着。因此,网络就形成了一个庞大的数据存储集散地。如何从海量的网络数据中快速有效地对数据进行分析和检索,并在其中发觉潜在有用的信息,是当今社会需要解决的问题。Web数据挖掘技术正是很好的解决了这个问题,以下将探讨一下Web数据挖掘技术。

2 Web数据挖掘概念

2.1数据挖掘

Web数据挖掘是数据挖掘的一个分支,首先需要了解什么是数据挖掘。数据挖掘(Data Mining, DM),是指从大量数据中提取有效的、新颖的、潜在有用的、最终可被理解的知识的过程。在数据库系统中称其为知识发现(Knowledge Discovery in Database, KDD)。Web数据挖掘技术融合了数据库系统、统计学、信息科学、人工智能、机器学习等,是一个新兴的多学科交叉应用领域。

2.2 Web数据挖掘

Web数据挖掘是在数据挖掘技术的基础上,针对网络数据主要是Web文档和服务日志文件进行的数据分析、归纳和汇总并在其中发现和提取潜在有用的信息及知识的技术。

3 Web数据挖掘的分类

根据 Web 数据挖掘的对象,可将 Web 数据挖掘划分为三种类型。

3.1 Web 内容挖掘(Web Content Mining)

Web内容挖掘指从Web网站的内容中发现潜在的有价值的信息和抽取知识的过程。Web网站的内容分为:文本、图像、音频、视频和动画等。因此,Web 内容挖掘又可分为文本数据挖掘(包括文本和网页文件格式)和多媒体数据挖掘(图像、音频、视频等多媒体数据),Web内容挖掘主要应用于文献检索系统、垃圾邮件的处理、信息过滤、电子资源检索等。

3.2 Web 结构挖掘(Web Structure Mining)

Web 结构挖掘是对网站的超级链接进行分析和处理,从各个超级链接中发现权威网页和有价值的网页,并根据此标准对网页和网站进行评级、分类。Web结构挖掘主要任务是查找权威网页,并识别各网页之间的相互关系,从而发现网站的结构,获取不同网页相似度和网站的关联度。Web结构挖掘主要应用于搜素引擎,对同一主题的网页进行排序。

3.3 Web 使用挖掘(Web Usage Mining)

Web 使用挖掘是通过对计算机上的日志文件,如在服务器的 Log 文件和 cookies 文件等,涉及关联规则的挖掘,从中发现频繁使用的网页模式。如购买计算机的用户过一段时间购买打印机的概率,或者买计算机同时买电脑包的概率等.通过挖掘用户的访问模式,发现日志记录中的规则,如通过经常访问的路径,对网站的结构进行改进.通过聚类把不确定形式的用户和数据进行归类,发现潜在的客户和隐含群体,针对用户进行相关的营销等策略,提供针对性的活动,从而提高服务质量。Web使用挖掘主要应用于商业营销,并为商业决策提供依据。

4 Web数据挖掘的过程

5 常用Web数据挖掘算法

Web数据挖掘有很多算法,其中 Web 结构挖掘有 PageRank 、HITS和 CLEVER等很多经典算法。其中PageRank算法是1998 年斯坦福大学的博士研究生 Sergey Brin 和Lawrence Page最早提出利用超链接信息进行Web 结构挖掘的算法。PageRank是超链接结构分析中最成功的代表之一,是评价网页权威性的一种重要工具,搜索引擎 Google 公司就是利用 PageRank 算法和其他统计因素相结合的方法,对检索出来的大量结果进行相关度的排序。下面简单介绍一下PageRank算法。

5.1 算法思想

PageRank算法的基本思想是:如果网页M 被网页N 超级链接,则N 就认为M是重要的,也就相当于N 投了M一票,如果网页M被多个网页超级链接,则是多个网页投了网页 M 的票,它们都认为网页M 是重要的,那么网页M 一定是重要的;一个网页即使没有被其他网页多次超级链接到,但在一个重要的网页中使用了指向它的超级链接,则这个网页很可能也是重要的,因为PageRank 算法把每一个网页的重要性均分并被传递到它所链接的网页中,这样被重要网页链接的网页就可以分到更多的重要性值,它被列入推荐的能力值就越大。因此,网页之间的超级链接关系在一定程度上能表明 Web 文档的重要性。

6 小结

近年来网络的迅猛发展,使网络数据成几何级数增长,Web数据挖掘技术也得到了长足发展,为网络数据的检索提供了可靠地技术保证。但是随着多媒体和流媒体在网络上的大量使用,Web数据挖掘技术在这些领域还存在一定不足。因此,Web数据挖掘技术还有很大的提升空间,相信随着研究的不断深入Web数据挖掘会有更广阔的发展前景。

参考文献:

[1] 陈文伟,黄金才.数据仓库与数据挖掘[M].北京:人民邮电出版社,2004.

[2] 吴淑燕,许涛.PageRank算法的原理简介[J].图书情报工作,2003(2):55-60.

[3] 宋健康,张礼平.Web结构挖掘算法探讨[J].华东理工大学学报,2003(10):537-540.

[4] 刘兵.Web 数据挖掘[M].北京:清华大学出版社,2009.

[5] 刘正涛,王建东.Web 数据空间技术研究[J].计算机工程与应用,2012(7):12-17.

[6] 涂承胜,陆玉昌.Web使用挖掘[J].小型微型计算机,2004(7):1177-1183.

[7] 朱丽红,赵燕平.Web挖掘研究综述[J].情报技术,2004(7):2-5.

上一篇:GNSS/DR组合导航系统中粒子滤波算法研究 下一篇:基于SAP—ERP财务模块设计与实施研究