基于SOA的数据集成研究

时间:2022-05-20 04:59:44

基于SOA的数据集成研究

摘要:基于SOA的数据集成是一种非常有效的信息处理技术。其目的是为了解决在信息化的深层次发展过程中,企业出现大量的新建软件系统,数据源的分散,异构数据库访问困难,数据接口变得复杂起来的问题。通过采用SOA的架构风格对企业数据集成做一些探讨和研究,并提出了基于SOA架构风格的数据集成模型框架。

关键词:数据集成;信息系统集成;SOA

中图分类号:TP311.13 文献标识码:A 文章编号:1009-3044(2009)05-1044-03

Research into Data Integration Based on SOA

YANG Zheng-he

(School ofComputer Science,LeShan Normal University ,Sichuan 61400,China)

Abstract: Data integration based on SOA technology is an effective kind of technology in information processing.With the aim of solving problems when many enterprises have been builded their new systems with the deep-seated development of informationization that lead to the data source dispersed,isomerous database accessed more difficultly and the data interface also become more complexly.This article will discuss and study how to integrat the enterprise data by using SOA architecture style,meanwhile,a data integration model based SOA architecture style is proposed.

Key words:Data Integration; Informatin System Integration; SOA

1 引言

在日新月异的商业环境中,企业为了能更好地生存下去,就会加紧发展自身的业务,产品的生命周期变得越来越短,客户的需求也在随时变化,企业原有的信息系统已经不能满足现有的业务,如果只是对原有的系统进行升级常常达不到预期的效果,企业更多的是采用新建系统的办法来解决新增业务的需求 。企业为了提高整体效益,需要开展更多的合作,而这种合作不仅仅是在同一个垂直的部门内部,还有对跨部门或其它企业间的合作。同时,企业也希望对自己的客户有一个全面的了解,以便能识别出新的市场机遇,从而为企业在产品的多元化发展提供依据,吸引更多新的客户群体以及维系原有的老客户。企业在新建的软件系统时,会根据业务及项目选型的需要,选择最适合项目的数据库产品,这往往不可避免地导致了数据库之间的异构性 。在项目执行的过程中由手工生成的统计报表及分析报告等大量有价值的信息仍然以像Office文档、Excel文档、PDF文档、E-Mail等非结构化方式保存着。数据库之间的异构性及信息格式的多样,使得数据不能方便地在用户面前统一展现出来。企业要解决这些问题就必须对原有的信息资产进行数据集成以便能访问所有分散的数据。以下该文将用SOA中的SDO进行数据整合,并提出数据集成模型框架。

2 数据集成系统结构

各个“数据孤岛”中的数据往往遵守的不是同一套规则,在集成时须要分析各自的差异,研究一套完整的数据转换方法,设计一致的、全面的数据视图,构建集成数据源监视、数据提取与转换、数据质量分析、集成与综合为一体的数据集成系统。

2.1 数据集成原型系统

数据集成原型系统体系结构中有数据源层、集成层、表现层(如图1)。

其中数据集成是系统的核心,主要功能有异构数据源集成、模式集成、元数据集成、面向主题的数据组织和面向分析的多维模型整合等。具体功能为:

1)异构数据源集成

利用面向对象的思想设计一种对异构数据源的通用数据模型――半结构化描述的数据模型,表示所有异构数据源的数据,通过在数据源上捆绑式数据抽取器抽取出格式统一的多源数据,放入数据集成缓存区,并向集成器报告;抽取器执行集成器的抽取命令,完成实体化视图的初始化和增量式维护。集成器是数据仓库中的一个管理模块,本质上是一个扩充的ETL工具,它根据元数据获取数据仓库中实体化视图的定义和结构,并对所有集成缓存区传来的数据进行过滤和筛选,提取出与数据仓库相关的数据向上传送给数据仓库。当数据源是异质结构时,集成器的实现是一个相当复杂的困难的过程。它不仅要依照数据仓库中的数据模式对数据源传来的各种数据进行模式或格式的转换,还要消除这些数据之间存在的各种不一致性。这些数据的进入,将引起数据仓库中实体化视图的重新计算。在这个过程中,数据仓库可能需要发送大量维护查询请求信息到集成缓存区,由集成缓存区经过计算后再将结果返回给数据仓库,从而完成实体化视图的联机维护。

2)模式提取与集成

采用逆向工程从结构化的业务数据库中提取模式。文档等半结构化虽然没有事先固定的数据模式,但可以从数据中归纳出反映当前状态的结构模式,从定义对象属性的等价着手,研究不同数据源成员对象虚拟模式特性部的相互关系,并提出相应的集成方式,将从各异构数据源获取的模式信息进行了集成,屏蔽了模式之间的差异。

3)元数据知识库

根据元数据的全局方案和概念视图,构建元数据知识库系统,对各种元数据及其关系进行系统的、有效的管理,确保元数据具有一致性和协同工作的能力。抽取、收集的元数据存储在知识库中,这是一个结构化的存储和检索系统,通常在数据库系统的基础上实现的。

4)元数据的交换与集成

在整个系统中,涉及到多个工具和元数据知识库,为了在这些工具和知识库中有效地进行了元数据的共享、交换和集成,系统提供了动态与静态交换集成方式。其中动态交换与集成为应用提供全面的基于组件的接口,作为数据集成的系统的一个组件,便于将元数据无缝地嵌入到各种数据管理进程中去,部分地实现数据管理的自动化。而在静态交换与集成中,元数据在局部工具和知识库之间以XML格式进行传输。交换的数据源和目的地及传输格式都使用相同的元数据元素描述,不同的元数据模型之间不需要进行语义转换。

5)面向主题的数据组织

数据仓库中的数据是面向主题进行组织的。主题是一个抽象的概念,是较高层次上将业务信息系统中的数据综合、归类并进行分析利用的抽象。在逻辑意义上,它是对应业务中某一宏观分析领域所涉及的分析对象。面向主题的数据组歌方式,就是在较高层次上对分析对象的数据的一个一致性、完整性的描述,能统一地刻画各个分析对象所涉及的各项数据,以及数据之间的联系。

6)面向分析的多维数据模型整合

多维数据模型整合采用软件利用的思想,运用逆向工程的方法,从已经在运行的局部数据集市中抽取出局部多维数据模型,再使用多维数据模型整合工具,对这些局部多维数据模型进行整合,充分发挥这些局部数据模型的优点,得出准确高效的全局多维数据模型。

上一篇:适应计算机等级考试的高职教材――《Visual Ba... 下一篇:NS中一种新的随机数提取