Web数据挖掘技术

时间:2022-09-30 01:35:13

Web数据挖掘技术

摘要:该文对Web数据挖掘技术的基本思想进行了介绍,描述了对内容、结构、使用等进行挖掘的三种主要Web数据挖掘类型,并对典型Web数据挖掘的处理流程进行了说明。

关键词:Web数据挖掘;分类;流程

中图分类号:TP311文献标识码:A 文章编号:1009-3044(2009)26-7335-01

WebData Mining Technology

SONG Yu

(Wuhan Institute of Shipbuilding Technology, Wuhan 430050, China)

Abstract: In this paper, Webdata mining technology, the basic idea was introduced to describe the content, structure, excavation of the use of three main types of Webdata mining, and a typical Webdata mining process are described.

Key words: Webdata mining; classification; process

所谓数据挖掘Data Mining 就是从大量的、不完全的、有噪声的、模糊的、随机的原始数据中提取隐含在其中的、事先未知的、但又是潜在有用的信息和知识的过程 。

1 什么是Web的数据挖掘

Web挖掘是从Web资源上抽取信息或知识的过程,它是将传统的数据挖掘的思想和方法应用于Web,从Web文档和Web活动中抽取感兴趣的、潜在的、有用的模式和隐藏信息。Web挖掘可在多方面发挥作用,如搜索引擎结构的挖掘,搜索引擎的开发,改进和提高搜索引擎的质量和效率,确定权威页面。Web挖掘研究覆盖了多个研究领域,包括数据库技术、信息获取技术、统计学、人工智能中的机器学习和神经网络等。特别是电子商务领域,通过对用户特征的理解和分析,如对用户访问行为、频度、内容等的分析,提取出用户的特征,从而为用户定制个性化的界面,有助于开展有针对性的电子商务活动。

2 Web数据挖掘的分类

根据挖掘的对象不同我们可以把基于Web的数据挖掘分为三大类:

1) Web内容的挖掘(WebContent Mining)

所谓Web内容的挖掘实际上就是从Web文档及其描述中获取知识, Web文档文件挖掘以及基于概念索引或Agent 技术的资源搜索也应该归于此类。Web信息资源类型众多,目前WWW 信息资源已经成为网络信息资源的主体,然而除了大量的人们可以直接从网上抓取、建立索引、实现查询服务的资源之外,相当一部分信息是隐藏着的数据(如由用户的提问而动态生成的结果,存在于数据库系统中的数据,或是某些私人数据)无法被索引,从而无法提供对它们有效的检索方式,这就迫使我们把这些内容挖掘出来。若从信息资源的表现形式来看,Web信息内容是由文本、图像、音频、视频、元数据等种种形式的数据组成的,因而我们所说的Web内容的挖掘也是一种针对多媒体数据的挖掘。

2) Web结构的挖掘(WebStructure Mining)

这一类型的挖掘是从万维网的整体结构和网页上的相互链接中发现知识的过程,它主要挖掘Web潜在的链接结构模式。这种思想源于引文分析,即通过分析一个网页链接和被链接数量以及对象来建立Web自身的链接结构模式。这种模式可以用于网页归类并且可以由此获得有关不同网页间相似度及关联度的信息。Web结构挖掘有助于用户找到相关主题的权威站点,而且对网络资源检索结果的排序有很大意义。

3) Web使用的挖掘(WebUsage Mining)

Web使用的挖掘,也称为Web日志挖掘(WebLog Mining)。与前两种挖掘方式以网上的原始数据为挖掘对象不同,基于Web使用的挖掘面对的是在用户和网络交互的过程中抽取出来的第二手数据。这些数据包括:网络服务器访问记录、服务器日志记录、用户注册信息以及用户访问网站时的行为动作等等。Web使用挖掘将这些数据一一纪录到日志文件中,然后对积累起来的日志文件进行挖掘,从而了解用户的网络行为数据所具有的意义。我们前面所举的例子正属于这一种类型。

3 Web挖掘技术的流程

Web挖掘指使用数据挖掘技术在WWW数据中发现潜在的、有用的模式或信息。Web挖掘研究覆盖了多个研究领域,包括数据库技术、信息获取技术、统计学、人工智能中的机器学习 和神经网络等。Web挖掘可以在很多方面发挥作用,如对搜索引擎的结构进行挖掘,确定权威页面,Web文档分类,Weblog挖掘,智能查询,建立MetaWeb数据仓库等。

典型Web数据挖掘的处理流程如下:

3.1 查找资源

任务是从目标Web文档中得到数据,值得注意的是有时信息资源不仅限于在线Web文档,还包括电子邮件、电子文档、新闻组,或者网站的日志数据甚至是通过Web形成的交易数据库中的数据。

3.2 信息选择和预处理

任务是从取得的Web资源中剔除无用信息和将信息进行必要的整理。例如从Web文档中自动去除广告连接、去除多余格式标记、自动识别段落或者字段并将数据组织成规整的逻辑形式甚至是关系表。

1) 模式发现

自动进行模式发现。可以在同一个站点内部或在多个站点之间进行。

2) 模式分析

验证、解释上一步骤产生的模式。可以是机器自动完成,也可以是与分析人员进行交互来完成。

4 结束语

Web数据挖掘还有待进一步的研究,尤其是近来对Web内容挖掘方面集中在信息集成,如建立基于Web的知识库或基于Web的数据仓库的研究上。

参考文献:

[1] 范明,孟小峰.数据挖掘概念与技术[M].北京:机械工业出版社,2007.

[2] 将座东,黄发良.基于Web的数据挖掘研究综述[J].湖南工程学院学报,2007(3):61-64.

[3] 利.Web结构挖掘的XML实现策略[J].计算机工程与设计,2006(12):4447-4449.

上一篇:基于VHDL步进电机控制器研制 下一篇:基于JSP+JavaBeans+JDBC的计算机网上考试系统...