XML在Web数据挖掘中的应用

时间:2022-09-21 04:18:10

XML在Web数据挖掘中的应用

摘要:在Web数据挖掘中,基于XML半结构化的数据挖掘方法简单,有效并且低成本。本文首先给出数据挖掘的定义;然后介绍常用的数据挖掘技术;讨论Web数据挖掘和XML,指出Web数据挖掘的困难,以及XML在Web数据挖掘中的应用。本文对于研究Web数据挖掘的工程技术人员有一定的参考值。

关键词:数据挖掘;Web;XML

中图分类号:TP311.13 文献标识码:A 文章编号:1007-9599 (2011) 18-0000-02

XML Applications in Web Data Mining

Lu Ting

(School of Software Engineering,Tongji University,Shanghai 201804,China)

Abstract:In Web data mining,semi-structured XML-based data mining method is simple,effective and low cost.This paper first gives the definition of data mining;then commonly used in data mining techniques;discussion of Web data mining and XML,pointed out the difficulties of Web data mining,and XML in Web data mining applications.This Web data mining for the study of engineering and technical personnel have a certain reference value.

Keywords:Data mining;Web;XML

一、介绍

Web数据挖掘是一项复杂的技术,因为Web数据挖掘比单一数据仓库的数据挖掘要复杂。XML的出现给Web数据挖掘提供了解决问题的机会。由于XML可以方便地结合不同来源的结构化数据,能对尽可能多不相兼容的数据库进行搜索,从而为Web数据挖掘问题的解决带来了希望。

随着数据挖掘和数据库管理技术的快速发展,越来越多的数据产生。在数据激增的背后,人们希望能更高层次地分析大量重要的数据,以便更好地利用这些数据。经过对数据库长期的研究和发展,产生了数据挖掘技术,使数据库技术进入了一个更高的阶段。数据挖掘技术不仅可以进行数据查询和遍历,还能找出数据之间的潜在联系,以便提取信息。

(一)数据挖掘的环境和过程

1.数据挖掘能做什么

数据挖掘是从大型数据库中发现和提取潜在信息,对数据仓库进行自动分析,然后归纳推理,挖掘潜在的模式或关联,建立商业模型以便做出正确的决策。①从技术角度来看,数据挖掘是从一个大批量,不完整,有噪声,和模糊随机数据的实际应用中提取出隐含在工作中人们事先不知道,但也有可能有用的信息和知识的过程。②从商业的角度来看,数据挖掘实际上是一种深层次的根据业务目标制定的数据分析,探索揭示了大量企业数据下隐藏未知或已知的规律。

数据挖掘与传统的数据分析(如查询,报表,在线分析处理)的差异在于,数据挖掘的性质是在缺乏明确的假设的前提下继续挖掘信息。数据挖掘,能获得先前未知的信息,并且有效、实用。这些信息不可提前预知,不依赖于直觉或已知信息发现,甚至这是违反直觉或常识的。数据挖掘出的信息,更意想不到的,可能会更有价值的。

2.数据挖掘的定义

数据挖掘就是从存放在数据库,数据仓库或其他信息库中的大量的数据中,获取有效的、新颖的、潜在有用的、最终可理解的模式的非平凡过程中,这些信息的表现形式如:规则,概念,规则和模式。它可以帮助决策者分析历史数据和当前数据,并从发现隐藏的关系和模式,从而预测未来可能出现的行为。

3.常用的数据挖掘的技术

(1)人工神经网络。通过模拟大脑神经网络处理、记忆信息的方式进行信息处理,是由大量处理单元互联组成的非线性、自适应信息处理系统。

(2)决策树。决策树(decision tree)一般都是自上而下的来生成的。每个决策或事件(即自然状态)都可能引出两个或多个事件,导致不同的结果,把这种决策分支画成图形很像一棵树的枝干,故称决策树。在决策树中,有两种节点:决定结点和状态结点。决策结点开始引出很多分支,每个分支代表一个决策方案,每个方案连接到一个新的节点。新的节点可以是决策结点,也可以是状态结点。每个状态节点代表一个特定的结束状态。

(3)遗传算法。遗传算法(Genetic Algorithm)是模拟进化论的自然选择和遗传学机理的生物进化过程的计算模型,是一种通过模拟自然进化过程搜索最优解的方法。

(4)近邻取样。是一种比较简单的材质影像插补的处理方式。会使用包含像素最多部分的图素来贴图。

(5)覆盖正例排斥反例方法。它是利用覆盖所有正例、排斥所有反例的思想来寻找规则。首先在正例集合中任选一个种子,到反例集合中逐个比较。与字段取值构成的选择子相容则舍去,相反则保留。按此思想循环所有正例种子,将得到正例的规则(选择子的合取式)。

4.数据挖掘的过程

数据挖掘过程包括以下步骤:

(1)数据清理(消除噪声或不连贯的数据)

(2)数据集成(将多个数据源结合)

(3)数据选择(从数据库中搜索和分析任务相关的数据)

(4)数据转换(数据转换或统一成一个适合挖掘的形式,如通过总结,或聚合操作)

(5)数据挖掘(基本步骤,使用智能化方法提取数据模式)

(6)模式评估(对数据挖掘的结果进行解释和评价)

(7)知识表示(为用户提供能被理解的信息)

(二)WEB数据挖掘

Web,有大量的数据信息和复杂的应用程序数据信息,成为今天的数据库技术研究的重点。对于数据挖掘,充分利用有用的数据,丢弃虚假无用的非常重要。数据库中的数据是高度结构化的,而网络数据的最突出的特点就是半结构化。显然,面向Web的数据挖掘更比单一数据仓库的数据挖掘复杂得多。

1.异构数据库环境

从该数据库的角度来看,网站的研究信息也可以看作一个数据库,一个更大,更复杂的数据库。每一个网站是数据源,每个数据源的异构,组织每个站点之间不同的信息,这构成一个巨大的异构数据库环境。如果您要使用这些数据进行挖掘,首先,我们必须研究异构网站数据集成的问题,只有从这些网站的数据集成在一起,为用户提供一个统一的数据视图,才可能从庞大的资源获得所需的东西。其次,我们要解决的Web数据查询问题,因为要对所需数据进行有效的分析,整合,加工。

2.半结构化数据结构

Web数据和传统数据库中的数据是不同的。传统的数据库有一些数据模型可来描述具体的数据。数据在网络上是非常复杂的,并没有具体的模型描述。每个站点的数据都是自主设计的,本身具有动态变化的特点。因此,是一种非完全结构化的数据,被称为半结构化数据。半结构化是数据在网络上最重要的特点。

Web数据挖掘技术需要解决,一是半结构化数据源模型,二是半结构化数据模型,其次是查询和整合问题。解决网络上的异构数据集成和查询的问题,必须有一个模型来清晰地描述Web上的数据。为Web半结构化的数据寻找一个模型是解决问题的关键。另外一个半结构化数据模型,但也需要一个半结构化模型提取技术,它可以自动从现有的半结构化数据模型技术。Web数据挖掘模型必须以半结构化数据模型和半结构化数据模型提取技术为前提。

(三)XML在Web数据挖掘中的应用

1.XML(可扩展标记语言)

XML可以很容易地在XML文档或者关系型数据库中描述半结构化数据,用它的属性可以来实施精确的一一对应查询和模型提取。XML是一种标记语言,它提供了一个格式化描述数据的方法。XML解决了两个Web问题,即互联网的发展迅速,XML发展稳定,信息更可靠;从Web服务器下载了XML资料,也能显著减少网络流量,适合Web传输。XML作为一种标记语言,简单,开放,高效和具有可扩展,国际化等优点。

2.XML在Web数据挖掘中的应用

从广义上讲XML在Web数据挖掘应用可分为以下四类:

第一类,两个或两个以上的Web客户端异构应用之间的数据库能够通信,允许来源不同的结构,因为XML可以很容易地将结构化的数据聚合在一起。XML将客户的需求与各种数据源进行交互,数据可能来自不同的数据库,具有不同的复杂格式。然而,这些数据库和客户机之间只通过一个标准的语言,就是XML语言。自定义的XML因为其可扩展性,足以表达所有类型的数据。客户可以接收到的数据也可以处理不同的数据库之间传递。

第二类,从Web服务器到客户端应用程序,客户可以根据自己的需要选择不同的应用下载不同的数据,而服务器只需要发送一个XML文件。

第三类,通过简单的方法来描述应用程序结构化的数据可以扩展开放的XML,XML被广泛用来描述用户接口,并且XML本身就记录数据。因为XML能分离地显示数据,允许您可以指定不同的方式,使数据更合理呈现。用户可以配置本地数据,用户的选择或其他标准来动态确定地如何使用该XML。通过XML,数据可以粒状更新。每当数据更改后,不需要发送整个数据结构。

第四类,通过使用智能Web,根据用户个性化的需求减少应用程序的内容,一些客户对数据的访问是不打算直接使用,但为了根据需要组织自己的数据库。例如,教育部门建立一个大型题库,考试项目主体将删除一些组成文件,然后将所需信息转化为XML文件。让所有的学校,通过一个过滤器,过滤掉所有的答案,然后发送到所有候选人,未过滤内容可以直接传送到老师手中。

显然,这些应用程序和Web数据挖掘技术有着重要的联系,基于Web的数据挖掘依靠他们来实现。

二、结论

Web数据挖掘方兴未艾,它未来的研究的重点可能集中在以下几个方面:研究专门挖掘Web数据的软件,使挖掘过程变得简单;研究Web数据挖掘可视化的方法,使信息的发现过程可以为用户所了解,也有助于在挖掘过程的人机互动;建立一个数据挖掘信息的服务器,再配上数据库服务,实现Web信息的挖掘。

参考文献:

[1]于春香.数据挖掘技术简介[J].福建信息技术教育,2005,1

[2]韩家炜,孟小峰等.Web挖掘研究[J].计算机研究与发展

[3]Arasu,A.,and Garcia-Molina,H.Extracting structured data from web pages.In ACM SIGMOD International Conf.on Management of Data(SIGMOD 2003),San Diego,California,2003

上一篇:VLAN间访问控制技术的分析与实现 下一篇:基于SIFT算法的计算机图形匹配方法研究