基于GT4的数据挖掘系统模块设计

时间:2022-03-13 11:45:48

基于GT4的数据挖掘系统模块设计

摘 要 本文首先简要介绍基于GT4网格平台的数据挖掘系统结构及系统模块的划分依据,详细介绍该系统的用户接口模块、资源注册模块、全局数据挖掘模块、局部数据挖掘模块的设计过程。

关键词 GT4;数据挖掘;Web Service;网格节点

中图分类号TP392 文献标识码A 文章编号 1674-6708(2012)72-0203-02

0 引言

计算机网络技术的普及给人们的生活带来了翻天覆地的变化,同时在网络上产生了大量杂乱无章的数据。而应用Globus Tookit 4.0(简称GT4)技术构建网格平台,建立一个实用的基于网格的数据挖掘系统,为人们从分布的网络资源中寻找有价值的信息提供了新的技术支持。网格技术可以使分散在不同地理位置闲散计算资源实现共享,应用GT4的核心开发工具包(Java Web Service Core)和数据挖掘技术来处理分散的数据信息,管理网格平台中的资源就像对一台计算机操作一样,操作网格资源就像使用浏览器浏览网页一样方便。

1 系统结构设计

系统的结构设计在整个软件工程中比较重要,是根据用户的需求而设计的,它是整个数据挖掘系统的基础。该平台的体系结构具有如下特点:第一,实现了网格平台下数据资源的整合和管理;第二,能够处理本地和远程计算机上的数据,实现串行/并行的数据挖掘;第三,系统节点间相互协作,增加和删除节点都比较容易,系统具有可维护性。

1.1 系统的实现目标

利用日趋成熟GT4网格管理技术和数据挖掘技术来建立一个实用的分布式数据挖掘应用系统。当代社会的主要特征:数字化、信息化、网络化。网络基础设施日趋完善,软件、硬件资源配置合理稳定。利用现成的网络资源来建立一个网格开发平台具有一定的可行性。

1.2 系统模块划分依据

基于GT4数据挖掘系统的数据源是分布式数据源,分布式数据源是指在物理上分布而逻辑上集中的数据源系统。分布式数据源存储特点具有:

1)物理分布性,数据分散存储在网络中的多个节点上;

2)逻辑全局性,物理上分散存储的在各个节点的数据逻辑上是一个全局数据源;

3)节点自治性,各个节点的数据由本地用户管理,具有自治处理能力;

在该系统中,处在这个网格中的每台计算机就是这个网格的一个节点,称之为网格节点。在众多的节点中,要有一个网格节点来控制和管理其他的节点,这个节点就叫做网格中心控制节点,决策支持都是由网格中心控制节点完成的。如果要完成某个数据挖掘任务,则可以由空闲的网格节点先按挖掘需求来完成本节点的挖掘任务,再由网格中心控制节点来汇总每个节点的数据挖掘情况。局部网格节点管理的信息具有局限性,涉及的范围较小,主要完成单个节点数据的管理,对局部的数据挖掘结果进行汇总分析,但是这些局部节点的数据与全局节点的数据又是有一定关联的。

根据以上的分析可知,网格平台下的数据挖掘任务由全局数据挖掘与局部数据挖掘共同完成,基于GT4的数据挖掘系统主要包括以下几个模块:用户接口、资源注册、全局数据挖掘、局部数据挖掘。

1.3 系统模块的功能及接口设计

本系统是建立在Java_WS_Core分布式计算体系之上的,网格中的每台计算机都是一个独立的网格节点,并且它是作为独立的Web Service注册和的。每个节点都具有良好的独立性、可操作性和可移植性。为更好的完成系统的功能,将系统划分为四个模块,具体模块功能及接口设计如下:

1)用户接口模块:该模块实现用户和网格系统资源间的交互,是系统的窗口,它是一个管理注册资源、全局数据挖掘资源和局部数据挖掘资源的图形界面,是其他三个模块之间的纽带,为了用户操作方便,用户界面采用图形界面的Web方式,这样就可以用浏览器来和查找己有的服务,并且为用户和查找服务提供统一的接口。

2)资源注册中心模块:网格系统中的空闲的局部Web Service资源在这里进行注册,由全局控制节点在资源注册中心及时的增加和删除局部Web Service资源。

局部Web Service资源使用WSDL规范定义,主要完成对数据挖掘服务的提供者、数据挖掘的特定信息进行描述。数据挖掘服务的提供者的主要描述信息包括作为网格节点计算机的主机型号、硬盘大小、内存容量、所安装的操作系统、CPU和内存利用率等信息,并将其到资源注册库中。数据挖掘的特定信息描述主要包括数据挖掘算法实例地址、数据分配实例地址、数据挖掘状态、挖掘本地文件目录等信息。

3)全局数据挖掘模块:是网格数据挖掘系统的综合服务控制节点。全局数据挖掘模块用来对各种基于Web的数据挖掘服务进行统一管理,以便达到对动态、异构的Web资源的整合。当有用户有数据挖掘服务请求时,全局控制节点向资源注册中心提出查询申请,向注册中心提供包括挖掘服务的局部节点基本信息、数据挖掘服务的数据挖掘类型、数据集、数据挖掘算法等,从多个已经注册的Web服务中,检索到满足要求的服务,并利用网格FTP服务将检索的Web服务传给局部网格节点。全局控制节点与局部节点是动态绑定的,当局部节点完成挖掘任务时,由网格FTP服务传回挖掘结果,再由全局控制节点汇总分析各个局部节点的挖掘结果,并把最终结果提交给用户接口。

全局数据挖掘模块的Web Service资源的组成部分包括全局Web Service接口、全局挖掘资源及其属性文档。主要使用XML语言来描述数据挖掘算法Web Service实例地址、局部Web Service实例地址、全局数据挖掘状态、数据挖掘结果等资源属性文档信息。全局Web Service 资源接口的主要操作包括创建和销毁实例、执行全局挖掘算法、协调局部Web Service资源。

全局Web Service资源的运行过程:局部节点有数据挖掘请求时,首先创建全局Web Service资源实例,建立全局计算容器,提交任务(查找空闲资源、分配数据)。执行数据分配算法、监测局部挖掘状态,任务结束,汇总挖掘结果。

上一篇:大型设备基础地脚螺栓精确预埋方法 下一篇:水泥设备管理中的点点滴滴