基于数据联合模式的分布式数据处理方案

时间:2022-07-05 10:06:12

基于数据联合模式的分布式数据处理方案

摘要:在目前大数据环境下,我们积累了海量的数据,如何充分的利用和整合这些信息,是在大数据环境下我们所面临的重要问题。数据联合可以在实际数据存储在原数据系统汇总,不进行数据迁移和复制,不造成数据冗余的情况下,有效地联接来自多个异类源的数据,并加以利用。本文初步提出了基于数据联合模式的解决方案,并探讨了其使用范围和约束。

关键词:数据联合;整合

中图分类号:P413 文献标识码:A 文章编号:1001-828X(2013)11-0-01

随着计算机科技的广泛应用,在计算机应用业务系统积累了海量异质数据,在这些数据中蕴含了大量信息,如何充分的利用和整合这些信息,解决数据孤岛问题,是企业或组织优化管理和决策所面临的重要问题。目前,解决问题主要有两种方式,一是建立集中式数据仓库,然后为利益相关的数据构建全局模式,采用某种形式的ETL过程把数据实例转换成全局模式,然后再把他们加载到集中式数据仓库中,然后进行分析和利用。二是把数据保留在它原来的存储位置,采用类似MetaMatrix或Aqualogics这样的数据联合服务器,把查询(包括更新)可以提交给数据联合服务器进行处理;数据联合服务器会计算出哪些查询或更新操作进行分解,并发送到各个业务系统,汇总并反馈正确的结果。

一、数据联合模式概述

数据联合的目标是在不造成数据冗余的情况下,有效地联接来自XML文件,数据库等多个异类源的数据,并加以利用。一般来说,数据联合模式在集成的临时(虚拟)视图上进行数据操作;而实际数据存储在多个不同的源上,根据需要进行提取,以进行联合访问。

可以这样理解讲,数据联合服务器是一个虚拟数据库,具有关系数据库的所有功能。使用数据联合服务的应用程序或用户可以在其访问权限内执行任何查询请求。查询完成后,将返回一个结果集,其中包含满足选择条件的所有记录。在数据联合实现中,使用数据联合信息服务的应用程序通常使用标准关系接口和协议来与数据联合服务器(如SQL和JDBS/ODBC)交互。数据联合服务器则通过各种渠道连接到各种数据源,如关系数据库、XML文档、已打包的应用程序和内容管理及协作系统。

随着SOA技术的发展,数据联合服务器还充当了SOA接口的服务提供者或使用者。数据联合服务器使用者访问集成的服务接口(如WSDL和HTTP/SOAP或其他事前确定的绑定),可以由联合服务通过一系列查询和其他服务完成对业务实体的请求;而数据联合服务器可以使用多个信息源提供的服务。

使用数据联合模式,我们可以完全脱离源数据库所支持的语言或编程接口、物理存储方式、使用的是什么网络协议等问题,大幅度减少开发时间。其次,与内部开发的信息聚合方法相比,数据联合服务器可以在联合服务器本身和各个源之间最优地分布工作负载,以实现响应时间最优化。第三,将数据联合模式应用到特定集成场景后,此特定联合访问的结果可作为服务向多个服务使用者提供;同时,很多使用者可能会使用相同(或非常相似)的集成信息,可以一次性开发集成视图,对其重复利用和维护,减少开发和维护成本。

二、基于数据联合模式的分布式数据处理方案

在数据联合方案中,数据联合主要是使用的同步实时集成方法实现分布式数据的处理。其主要思路是:数据联合服务器负责接收定向到各种数据源的集成视图的查询,使用复杂的优化算法对其进行转换,从而将查询拆分为一系列子操作,然后对相应的数据源应用子操作,并收集结果,组装集成结果,并最后将集成结果返回到原始查询。

因此,在数据联合服务器上,我们必须保存各个数据源的基本信息等统计数据。数据联合服务器确定了所有子操作的最佳执行策略后,将根据保存的信息连接到数据库、XML、文本甚至SOA服务等数据源以检索相关数据,将接收到的处理结果进行聚合,形成集成视图。然后将最终结果返回给使用者。在SOA环境中,数据联合服务器会将传统数据联合方法的结果转换为服务响应,并随后通过预定义的服务接口将其返回给服务使用者。

三、数据联合模式使用范围和约束

数据联合模式是一种处理对集成临时(虚拟)视图的数据操作的方法。在进行处理的同时,实际数据都存储在多个不同源系统中,数据转换和处理则是发生在查询过程中。。相反,如果使用ETL过程进行数据集成,则要把数据元素被提取处理后,才能利用分析。所以数据联合具有以下优点:一是可快速提供对数据源的访问,而不需要进行长时间的数据源管理基础设施变更,可以缩短实施时间;二是可以按照数据驻留在数据源上的方式访问数据,遵守源数据系统的访问控制规则,可以更好的支持数据访问控制和安全规则;三是由于没有数据冗余,联合模式中的变更对所集成系统的影响会更小。

因此,在接收到的请求数量适中,异构数据源个数众多,返回结果大小有限的情况下,才能最佳地利用数据联合的优势。而在数据转换规则复杂,数据查询过程复杂且包含大量计算,各个系统数据冲突多的情况下,就更倾向与采用数据ETL处理建立数据仓库的方法来解决。此外,在实施数据联合方案时,一定要注意其技术特点和适用范围。在安全方面,首先要注意用户权限的分配和控制,并且单可以把数据联合模式与其他安全相关的模式结合使用,完成单点登录和全局访问控制。其次,数据联合服务器会将其接收到的每个请求的子操作转发到数据源系统。因为这些系统需要对来自联合服务器的子操作做出响应,这会对其资源使用率造成负面影响,在系统设计和实施中要充分考虑这一点。

上一篇:网络视频广告现状、问题与对策 下一篇:实施复合经营造林和林参间作造林方式的探讨