XML 在Web 数据挖掘中的应用探讨

时间:2022-10-25 12:24:18

XML 在Web 数据挖掘中的应用探讨

摘要:当今计算机领域,基于Web数据挖掘已成为广泛研究的课题。目前许多网站的构建都是应用HTML,这就会给Web数据挖掘带来了诸多困难,但XML的出现却为Web数据挖掘带来了较大便利。该文介绍了XML应用于Web数据挖掘的理论和方法,对Web数据挖掘的理论研究有一定的参考价值。

关键词: XML;WEB数据挖掘;半结构化

中图分类号:TP393.2 文献标识码:A 文章编号:1009-3044(2011)08-1723-02

Application Discussion of XML in Web Data Mining

LIU Yong1, XU Li-bo1, YU Wen-bo2, MA Li1

(puter Center, Shenyang Institute of Engineering, Shenyang 110136, China; 2.Department of Electrical of Engineering, Shenyang Institute of Engineering, Shenyang 110136, China)

Abstract: Today's computer field, Web data mining has become widespread of research. At present many website construction is applied HTML, which would give Web data mining brings difficulties, but the XML appear truly for Web data mining brings many convenient. This paper introduces the application of data mining in XML Web, the theory and methods of data mining to Web theory research has certain reference value.

Key words: XML; WEB data mining; semi-structured

数据挖掘(Data Mining) 是一项新兴技术,在诸多行业取得了成功应用,其目的是在大量的、有噪声干扰的、比较模糊的随机数据中提取到潜在的、新颖的、事先未发掘的有用信息的非平凡过程。起初,数据挖掘是研究从数据库中发现知识,但在Internet 技术迅猛发展的今天,Web 页面为人们提供了海量的数据信息,这样基于Web 的数据挖掘随之产生,并迅速成为数据挖掘的热点。如何从海量的Web 信息中快速和准确地获取有用信息已经成为当今数据挖掘领域研究的课题,Web 上的数据与其他的数据相比较存在着明显的特点,这些特点使得Web 挖掘在方法和技术方面与传统的数据挖掘有着明显的不同。

Web 数据挖掘(Web Mining)是由Oren Etzioni 于1996 年提出的,它是Internet 应用和数据挖掘技术相互结合的产物,是从文档结构和使用的集合中发现隐含的模式。如果我们将集合看作输入,隐藏模式看作输出,那么Web 挖掘的过程就是从输入到输出的一个映射过程。

1 Web 数据挖掘的过程

Web 数据挖掘过程是从数据库中发现知识的过程, 但是与传统的数据和数据仓库相比,Web 上的信息是半结构化的、动态的、并且是容易造成混淆的,所以很难直接以Web 网页上的数据进行数据挖掘,而需要经过必要的数据处理。一个典型Web 挖掘的处理流程包括如下四个主要过程:

1)资源的检索:根据挖掘数据的目的,从Web 资源中抽取相关数据,构成源数据集,Web 数据挖掘主要从这些数据中提取数据。其目的是从目标Web 数据(例如网站的日志文件、数据库中的信息等)中得到信息。

2)预处理数据:在进行Web 挖掘之前对杂乱无章的数据进行过滤,例如消除数据的不一致性;将多个数据源中的数据格式统一为一个数据存储等。预处理数据的效果直接影响到挖掘算法产生的规则和模式。数据预处理主要包括数据净化、数据选择、站点识别、会话识别和用户识别等。

3)模式的发现:用挖掘算法找出有用的及最终可以理解的信息和知识。常用的模式发现技术包括:时序模式发现、关联规则挖掘、路径分析、聚类和分类等。

4)分析模式:利用适当的技术与方法对挖掘出来的模式进行分析、解释、处理,把发现的规则模式转变成知识。

Web数据挖掘的基本过程如图1所示。

2 XML 在Web 数据挖掘中的应用

XML(Extensible Markup Language)即可扩展标记语言,特点是简单、开放、高效可扩充等。XML的数据模型是半结构化的,这样便于与RDB属性相对应,实现准确查找和模型的抽取,便于数据挖掘的最终实施。

对基于Web的 数据挖掘XML应用做如下分析:

1)在web 的客户端进行数据的处理,均衡了负载。通常,数据的处理阶段是数据挖掘的一个非常重要的阶段,繁杂的预处理数据工作都要在服务器一端进行。如果我们按照传统的C/S(Client/Server) 模式开发,首先是客户端给服务器端发出连接请求,然后服务器端分别对客户端做出回应,这种C/S模式服务器端是系统的瓶颈,往往网络工程师针对不同的客户需要设计不同的应用程序。假如用户的需求繁杂而多变,这种将一切的业务逻辑处理都集中在服务器端进行往往是不方便的。一旦用户的实际应用需求发生变化,服务器端往往也需要变化,这对软件设计师是一个严峻的考验。而XML的出现能够有效的解决这个问题。首先是XML 将业务逻辑的处理过程分布在客户端进行,服务器端的职责是保证把封装完成的XML文件向客户端发送。客户端则完全可以根据个自的的不同需求来采用相应的程序来处理收到的数据。利用XML 内嵌的解释程序可以对接收的数据进行解析,所以XML使得分布式计算(Distributed Computing)变成一种可能。

2)能够实现各种不同结构风格数据的的集中处理

XML的数据模型是半结构化的,这样便于与RDB属性相对应,实现准确查找和模型的抽取,便于数据挖掘的最终实施。因此,利用XML 协调完成不同客户端之间不同风格数据的问题这后,就可以使不同站点上的非同构数据较方便的地映射到一个指定数据库上。

3)按照客户需要调整内容。传统的HTML 主要用于数据的显示,而XML 则可以用来表述数据的类别。因为数据的内容与外观区别对待,所以利用XML可以完成数据的多样显示方式,使数据更直观、合理地展现出来。同时还可以利用X M L对有用的知识进行裁减、编辑来适应不同用户的各种需求,通过分离手段使不同用户查询不同的界面,将同样的信息以各种风格提供给不同需要的用户。

4)规范数据之间的交换。以Web为基础的数据挖掘进行过程中,不同风格之间的数据往往频繁的进行交换,由于基于XML 的数据具有自我描述的特点,所以数据不需要内部的描述就能够被处理和交换。在XML的数据传送给客户后,客户通过应用程序来解释数据,对其处理、编辑,用户能够用不同的方式来处理数据,XML 的文档对象模式允许用各种程序语言来处理Web的数据,数据计算在本地就能够顺利完成。显然,在这种类型应用中XML 能够有效的解决了数据接口的统一问题。但是,与其他数据传递标准有区别的是,XML没有定义数据文件中数据出现的规范,这是XML与其他其他数据传递标准的区别,XML采用在数据中增加标志位来表示数据的逻辑结构和含义,这使得XML语言变成软件能自动解释的一种标准。

因为以Web为基础的数据挖掘比单一的数据仓库的数据挖掘要复杂很多,所以以Web为基础的数据挖掘变得更加复杂、困难,而XML 能够使异构的数据方便的集成在一起,因此它使得检索各种不同的数据库变成可能,从而有效地解决了以Web为基础的数据挖掘问题。随着XML的广泛普及和发展,Web数据挖掘必将变得更加高效。

参考文献:

[1[ 赵红霞,赵玉梅.Web 数据挖掘在电子商务中的应用[J].华南金融电脑,2004(11).

[2] 卫金茂,王石,伊卫国.基于XML 的数据挖掘[J].计算机工程与设计,2003(10).

[3] 王泽彬,金飞,李夏,等.Web 数据挖掘技术及实现[J].哈尔滨工业大学学报,2005,37(10).

[4] 徐立波.基于STP的均衡负载网络设计与实现[J].沈阳工程学院学报:自然科学版,2009,5(4):367-368.

[5] 谭春辉.电子商务管理与Web 数据挖掘技术的契合探析[J].情报杂志,2006(12)

[6] Han Jiawei,Michelin.数据挖掘概念与技术[M].北京:机械工业出版社,2001:290-294.

上一篇:基于神经网络的中文垃圾邮件过滤系统研究 下一篇:基于遗传算法的高校排课系统