浅谈Web数据挖掘技术

时间：2022-08-03 11:22:27

浅谈Web数据挖掘技术

摘要：随着网络的快速发展与普及，大量有用的网络信息给人们生活、工作和学习带来了便利。与此同时网络中还存在着许多无用的信息，如何从浩如烟海的数据海洋中，快速准确的查找数据，成为了当今社会不可忽视的问题。Web数据挖掘技术，正是解决这一问题的关键。该文从Web数据挖掘技术的角度，阐述Web数据挖掘的概念、分类、过程及常见的Web数据挖掘算法。

关键词： Web数据挖掘；PageRank算法；网络数据

中图分类号：TP311.12 文献标识码：A 文章编号：1009-3044（2013）22-4992-02

1 概述

当前，人们随时随地都在利用网络获取信息，不断利用网络进行着上传和下载的操作，这些信息数据在网络上传播和储存着。因此，网络就形成了一个庞大的数据存储集散地。如何从海量的网络数据中快速有效地对数据进行分析和检索，并在其中发觉潜在有用的信息，是当今社会需要解决的问题。Web数据挖掘技术正是很好的解决了这个问题，以下将探讨一下Web数据挖掘技术。

2 Web数据挖掘概念

2.1数据挖掘

Web数据挖掘是数据挖掘的一个分支，首先需要了解什么是数据挖掘。数据挖掘（Data Mining， DM），是指从大量数据中提取有效的、新颖的、潜在有用的、最终可被理解的知识的过程。在数据库系统中称其为知识发现（Knowledge Discovery in Database， KDD）。Web数据挖掘技术融合了数据库系统、统计学、信息科学、人工智能、机器学习等，是一个新兴的多学科交叉应用领域。

2.2 Web数据挖掘

Web数据挖掘是在数据挖掘技术的基础上，针对网络数据主要是Web文档和服务日志文件进行的数据分析、归纳和汇总并在其中发现和提取潜在有用的信息及知识的技术。

3 Web数据挖掘的分类

根据 Web 数据挖掘的对象，可将 Web 数据挖掘划分为三种类型。

3.1 Web 内容挖掘（Web Content Mining）

Web内容挖掘指从Web网站的内容中发现潜在的有价值的信息和抽取知识的过程。Web网站的内容分为：文本、图像、音频、视频和动画等。因此，Web 内容挖掘又可分为文本数据挖掘（包括文本和网页文件格式）和多媒体数据挖掘（图像、音频、视频等多媒体数据），Web内容挖掘主要应用于文献检索系统、垃圾邮件的处理、信息过滤、电子资源检索等。

3.2 Web 结构挖掘（Web Structure Mining）

Web 结构挖掘是对网站的超级链接进行分析和处理，从各个超级链接中发现权威网页和有价值的网页，并根据此标准对网页和网站进行评级、分类。Web结构挖掘主要任务是查找权威网页，并识别各网页之间的相互关系，从而发现网站的结构，获取不同网页相似度和网站的关联度。Web结构挖掘主要应用于搜素引擎，对同一主题的网页进行排序。

3.3 Web 使用挖掘（Web Usage Mining）

Web 使用挖掘是通过对计算机上的日志文件，如在服务器的 Log 文件和 cookies 文件等，涉及关联规则的挖掘，从中发现频繁使用的网页模式。如购买计算机的用户过一段时间购买打印机的概率，或者买计算机同时买电脑包的概率等.通过挖掘用户的访问模式，发现日志记录中的规则，如通过经常访问的路径，对网站的结构进行改进.通过聚类把不确定形式的用户和数据进行归类，发现潜在的客户和隐含群体，针对用户进行相关的营销等策略，提供针对性的活动，从而提高服务质量。Web使用挖掘主要应用于商业营销，并为商业决策提供依据。

4 Web数据挖掘的过程

5 常用Web数据挖掘算法

Web数据挖掘有很多算法，其中 Web 结构挖掘有 PageRank 、HITS和 CLEVER等很多经典算法。其中PageRank算法是1998 年斯坦福大学的博士研究生 Sergey Brin 和Lawrence Page最早提出利用超链接信息进行Web 结构挖掘的算法。PageRank是超链接结构分析中最成功的代表之一，是评价网页权威性的一种重要工具，搜索引擎 Google 公司就是利用 PageRank 算法和其他统计因素相结合的方法，对检索出来的大量结果进行相关度的排序。下面简单介绍一下PageRank算法。

5.1 算法思想

PageRank算法的基本思想是：如果网页M 被网页N 超级链接，则N 就认为M是重要的，也就相当于N 投了M一票，如果网页M被多个网页超级链接，则是多个网页投了网页 M 的票，它们都认为网页M 是重要的，那么网页M 一定是重要的；一个网页即使没有被其他网页多次超级链接到，但在一个重要的网页中使用了指向它的超级链接，则这个网页很可能也是重要的，因为PageRank 算法把每一个网页的重要性均分并被传递到它所链接的网页中，这样被重要网页链接的网页就可以分到更多的重要性值，它被列入推荐的能力值就越大。因此，网页之间的超级链接关系在一定程度上能表明 Web 文档的重要性。

6 小结

近年来网络的迅猛发展，使网络数据成几何级数增长，Web数据挖掘技术也得到了长足发展，为网络数据的检索提供了可靠地技术保证。但是随着多媒体和流媒体在网络上的大量使用，Web数据挖掘技术在这些领域还存在一定不足。因此，Web数据挖掘技术还有很大的提升空间，相信随着研究的不断深入Web数据挖掘会有更广阔的发展前景。

参考文献：

[1] 陈文伟，黄金才.数据仓库与数据挖掘[M].北京：人民邮电出版社，2004.

[2] 吴淑燕，许涛.PageRank算法的原理简介[J].图书情报工作，2003（2）：55-60.

[3] 宋健康，张礼平.Web结构挖掘算法探讨[J].华东理工大学学报，2003（10）：537-540.

[4] 刘兵.Web 数据挖掘[M].北京：清华大学出版社，2009.

[5] 刘正涛，王建东.Web 数据空间技术研究[J].计算机工程与应用，2012（7）：12-17.

[6] 涂承胜，陆玉昌.Web使用挖掘[J].小型微型计算机，2004（7）：1177-1183.

[7] 朱丽红，赵燕平.Web挖掘研究综述[J].情报技术，2004（7）：2-5.

浅谈Web数据挖掘技术

文档上传者

热门标签更多>

热门推荐更多>

精品范文更多>

浅谈Web数据挖掘技术

文档上传者

热门标签 更多>

热门推荐 更多>

精品范文更多>

热门标签更多>

热门推荐更多>