基于xml的web数据挖掘技术研究与实现

时间:2022-10-20 11:52:55

基于xml的web数据挖掘技术研究与实现

[摘 要]随着信息技术的迅猛发展,计算机在各行业都得到广泛应用,如何对计算机中的数据进行利用,挖掘知识,提炼资源,最终创造效益,是决策支持系统的重要工作。在进行决策支持过程中运用最多的数据分析工具就是数据挖掘技术,解决Web页面信息不适合进行数据挖掘的问题已成为数据挖掘技术当务之急。

[关键词]数据挖掘,XML,异构数据库,SGML

中图分类号:TP393.092 文献标识码:A 文章编号:1009-914X(2015)45-0143-01

1 Web数据挖掘概述

数据挖掘就是一种透过数理模式来分析企业内储存的大量资料,以找出不同的客户或市场划分,分析出消费者喜好和行为的方法。如果将Web视为CRM的一个新的Channel,则Web Mining便可单纯看做Data Mining应用在网络数据的泛称。Web数据挖掘建立在对大量的网络数据进行分析的基础上,采用相应的数据挖掘算法,在具体的应用模型上进行数据的提取、数据筛选、数据转换、数据挖掘和模式分析,最后做出归纳性的推理、预测客户的个性化行为以及用户习惯,从而帮助进行决策和管理,减少决策的风险。Web的巨大、分布广泛和内容多样使得目前的Web挖掘面临着众多问题和挑战。首先,对有效的数据仓库和数据挖掘来说,Web上的数据过于庞大。而且,Web上的数据具有极强的动态性,不仅数量增长快而且更新十分迅速。但是面对如此大量的Web上的信息,有调查却表明:99%的Web信息对于99%的用户是无用的。这样看来,面对网络上形形各式各样的用户群体,许多由Web搜索引擎所检索的资料会被淹没。另外,由于Web页面缺乏同一的结构,其结构又比任何传统文本文档都要复杂,所以要实现基于Web的数据挖掘和信息检索在目前来说是非常具有挑战性,它所面临的问题有如下几个方面:

(一)异构数据库环境

Web上的每一个站点就是一个数据源,每个数据源都是异构的,因而每一站点之间的信息和组织都不一样,这就构成一个巨大的异构数据库环境。如果想要利用这些数据进行数据挖掘,首先,必须研究异构数据的集成问题。其次,要解决Web上的数据查询问题,因为如果所需数据不能有效得到,对这些数据进行分析、集成、处理就无从谈起。

(二)半结构化的数据结构

Web数据非常复杂, 没有特定模型描述, 每一站点的数据都各自独立设计, 并且数据本身具有自述性和动态可变性, 因而半结构化是Web上数据的最大特点。

(三)解决半结构化的数据源问题

解决Web上的异构数据的集成与查询问题,就必须用一个模型来清晰地描述Web上的数据,针对Web数据特点,寻找一个半结构化数据模型是解决问题的关键所在,除了要定义一个半结构化数据模型外, 还需要一种半结构化模型抽取技术, 即自动从现有数据中抽取半结构化模型的技术,面向Web的数据挖掘必须以半结构化模型和半结构化数据模型抽取技术为前提。

目前Web页面常用的HTML语言在解决上述问题方面显得无能为力, 这是因为HTML只描述了信息的显示方式而未对信息内容本身进行描述,其本质上只是一种格式显示语言,无法区分页面的数据和样式扩展。另外,HTML 语言不能描述矢量图形、数学公式、化学符号等特殊对象, 在数据显示方面的描述能力也不尽如人意。而标记语言XML针对Internet设计,为解决目前Web数据挖掘方面的问题提供了可能。

2 Web数据挖掘解决方法

XML是Extensible Markup Language(扩展标注语言)的简称, 它与HTML一样,都是SGML(标准通用标记语言)的一部分,是SGML在特殊形式下的特殊表现但XML将SGML的丰富功能与HTML易用性结合到Web应用中, 以一种开放的自我描述方式定义了数据结构,在描述数据内容的同时能突出对结构的描述,从而体现出数据之间的关系,便于计算机从Web文件中提取数据。与HTML相比主要具有以下几个方面的特点:

(一)创建标记和文法结构

该方法使用户可以根据自己特殊需要制定出适用于自身的一套标记和文法结构,便于结构化地描述自己领域的信息,从而提供一种处理数据的最佳方式。因为无论在数据表示和存储方面,还是在数据的传输和处理方面,XML都是强项。这使得XML必将在电子商务、政府文档、司法、出版、CAD/ CAM、保险机构、厂商和中介组织信息交换等领域中一展身手,针对不同的系统、厂商提供各具特色的独立解决方案。

(二)实现不同数据源之间数据交换

XML文件为纯文本文件,不受操作系统、软件平台的限制, 具有跨平台的特性,这一特性为不同的数据源之间进行数据交换提供了公共标准, 是一种公共的交互平台。一种数据源只要将它的数据表示成XML格式就能被另一种数据源有效地识别。

(三) 数据存储格式不受显示格式制约

一般来说,一篇文档包括三个要素: 数据、结构及显示方式。对于HTML来说,显示方式内嵌在数据中,缺乏对数据结构的描述,对于应用程序理解文档内容、抽取语义信息均不便。而XML将显示格式从数据内容中独立出来,若需要改变文档显示方式,只需修改样式单文件。

(四) 实现数据分布式处理

XML文档对象模型(Document Object Model)允许用脚本和其他编程语言处理XML格式的数据,使得数据处理可以在客户端完成, 从而节省了Internet上的数据带宽,降低了服务器负担, 优化了其性能。

3 XML在Web数据挖掘中的应用

根据处理对象的不同,Web数据挖掘可分三类:Web内容挖掘、Web结构挖掘和Web使用记录的挖掘。

(一)Web内容据挖掘是一个从网络信息内容中发现有用信息的过程。该方法的基本思想是将现有的Web页转换成XML格式,并使用工具处理XML结构的数据,以检索出适当的数据。其基本过程分为四步:(1)标志数据源并把它映射成XHTML;(2)查找数据内的引用点;(3)将数据映射为XML;(4)合并结果并处理数据。

(二)网络结构挖掘就是挖掘Web潜在的链接结构模式,通过分析网页链接和被链接数量以及对象来建立Web自身的链接结构模式。网络结构挖掘有助于用户找到相关主题的权威站点。XML的链接语言主要由三部分构成: Xpath、Xlink和Xpointer。其中Xpath 是如何很快找出XML文档中具有某种特征标记的一种语言; Xlink可以描述Internet网上任意两个页面之间的关系,而且还可以描述一个页面的某一部分同多个页面的多个部分之间的关系;Xpointer定义了文档的各部分是如何寻址的,借助于该寻址语言,可以直接从URL中对XML文档的不同部分进行寻址。

(三)网络使用记录挖掘面对的则是在用户和网络交互的过程中抽取出来的第二手数据。通过网络使用挖掘, Web 服务商可以根据实际用户的浏览情况,调整网站的网页链接结构和内容,也可以从proxy的访问信息中分析用户访问模式,从而预测用户的网页访问,提高Web Caching的性能。通过网络使用挖掘也可以捕获到大量用户的活动细节,从中发现用户喜好,动态地为用户定制观看内容或提供浏览建议,使网站具有个性化。

上一篇:油田成本管理水平的提高方法分析 下一篇:建筑结构设计优化方法在房屋建筑设计中的实际...