信息集成综述

时间:2022-08-22 04:25:57

信息集成综述

摘要: 随着因特网和电子商务所造成的数据量和多样性的爆炸,信息集成得到广泛应用。信息集成涉及分布式系统等多个方面,其技术在IT行业和科学研究领域都得到广泛应用,同时实现过程中也面临多种困难和挑战,如信息异构、保证系统的互操作性等关键问题。

关键词:集成;分布式;异构

中图分类号:TP391 文献标识码:A 文章编号:1009-3044(2013)17-3914-04

网络技术的飞速发展,硬件、软件技术的逐渐成熟,为资源共享提供了条件。在这样的背景下,大数据时代迅速形成。由于大量信息存储于各种独立的设备和应用中,为了跨学科和不同领域的知识共享,建立集成系统是计算机科学必须完成的任务。相关领域的知识如图1所示,包括:分布式系统、集成系统、分布式查询处理、元模型、模式映射、本体和描述逻辑。本体和逻辑描述语言为传统的以数据库为中心的系统提供了一个可供选择的通用元模型。

1 信息集成定义

信息集成提供了透明访问多异构、分布式信息系统的方法。由于最重要的应用领域是在商业信息范围内,几乎所有文献中的定义都直接与企业信息集成(EII ,Enterprise Information Integration)相关。Alon Halevy给出这样的定义:EII的应用前景是提供一种可以不用下载所有的数据到数据仓库中也可以进行数据集成的工具[1]。此后,数据仓库和信息集成被认为是不同的方法。然而,如今清晰的区分这两种方法已经比较困难了。现在数据仓库支持虚拟数据集成(VDWs ,Virtual Data Warehouses),而EII方法支持实体化并具集成了数据仓库的特点。成功的信息集成系统在九十年代末到达市场,而数据仓库已经被企业普遍利用[1]。很明显,如果没有网络的发展,EII是没办法和数据仓库方法相抗衡的。

数据和信息集成之间没有明显的区别。它们关系紧密,被频繁的用作同义词,但是信息建立在数据之上。信息的经典定义是:信息是又一定含义的、经过加工处理的、对决策有价值的数据。并且,在过去的几年里信息集成使用频率较高,术语企业信息集成采用了信息而不是数据。三十年前起始于数据库社区对传统数据集成的关注力,已经转移到更好的理解真实数据。

2 信息集成技术的应用

信息系统的集成越来越重要有很多原因。过去十年间,基于特殊应用需求,商业和研究机构已经开发了相当自动化的IT系统。随着IT基础设备合作的重要性的增长,公司开始将独立的系统迁入或者集成入通用的企业IT系统。万维网的传播提供了新的商业机会和出口,同时还有新的商业模式。需求的增加需要开发新的软件系统,由于软件开发代价相当高昂,那些新系统必须和遗留的系统协同工作。此外,兼并和并购需要将外部IT系统迁入到共同的IT架构中来。因此,在当今企业IT中,信息集成已经成为最重要因素之一。事实上,EII只是使异构系统可以协作工作所采取措施中的一部分。特别在商业IT内部,那些措施被称为企业应用集成(EAI,Enterprise Application Integration )。

然而,信息集成不仅是商业和企业IT的重要任务,也是全球科学合作的重要需求。和商业IT相比,研究领域的数据模型和支持力度更复杂、要求更高,尤其是在生命科学领域。例如,管理生物医学研究领域信息就需要极高的语义表示。开发这种基于知识的特殊系统是个非常复杂的过程,并且花费时间长、需求资金多。科学信息系统通常异构,也致使集成更加困难。因此,他们通常自主开发、使用独立的系统。

当存在很多高度特殊化并且复杂的科学系统,也存在很多研究者为达到研究目的而开发的系统。例如MySQL数据库或存储搜索历史的本地文件路径。这些专门的设置和不一致的原型,已经渐渐成为重要的大型数据仓库和必不可少的应用。使用这样现代化应用系统中的信息需要大量的工作来转换数据和迁移应用。由于完整的迁移和再实现代价太高,往往采用集成遗留系统。相似的,在企业内部完全从写一个应用也是不可能的,因为用户和合作者仍然需要使用遗留的系统。所以使用这种异构、独立的系统的唯一方法就是信息集成。

如今,个人信息集成也变为一个越来越重要的课题[2]。目前的研究成果向语义桌面方向发展[3]。语义桌面技术某种程度上得益于信息集成的方法。

3 面临的挑战

信息集成的主要挑战是分布性、异构和自治。虽然说这三方面基本上是独立的,但是仍然有相关之处。例如,两个信息源的自治性越高,通常它们的分布和异构水平就越高。

3.1 分布式

信息集成的处理对象信息是分布式的。可能是逻辑上分布,也可能是物理上分布。物理分布占据了较大比例。为了传递信息,数据首先需要被下载并从远程信息源传输给用户。数据源的地址可以由DNS或者URL获得。需要某种注册表目录来完成虚拟方法提供透明性。

由于广域网带宽比局域网甚至比内部数据总线带宽小很多(大约比例为1:100:1000),所以传输数据代价高。中等存储设备的I/O 吞吐量比广域网带宽也高很多,这是整体数据库系统中的重要影响因素。尤其是分布式信息需要联合时,传输代价更高。连接和结合数据需要传输所有相关的数据以便于相互比较。因此,对于查询处理器的实现和优化程序的代价模型有所不同的问题,启发式方法和指标必须和本地查询处理器相比较。

重复存储和模糊不清的信息会给自治的分布式信息系统带来状态不一致的问题。一些系统允许对集成数据添加一致性约束。以便对提交的数据进行有效性检测。

实现集成系统时还有很多其他问题需要解决。如可用性、并发性、安全等。Coulouris 在文章中有提到分布式系统的一些其他挑战及其解决方法[4]。

3.2 异构

异构也许是最难处理的部分。捕获现实世界信息并在IT设备中系统的存储信息需要数据模型。系统的存储意味着信息的存储结构以数字数据的表现形式存在,并可以被查询语言访问。

根据需要,不同的信息系统采用不同的元模型、不同的模型描述真实世界相似的领域。每个不同的模型就是元模型的一个实例。Leser和Naumann对信息系统中的异构做了以下分类[5]:

1)技术异构:信息系统的接口技术异构。

2)语法异构:一般指源数据和目的数据之间命名规则及数据类型存在不同。

3)元模型异构:用来表示具体的数据模型或模式的元模型不同,例如XML、RDF等。

4)结构异构:一个数据模型具体事例的多样性,例如相同应用领域的不同数据库模式。

5)模式异构:不同的模式元素用于相同概念的模型带来模式异构。

6)语义异构:是指对同一现实世界事物进行描述时,数据在表达方式或内容上的不同,主要包括概念级语义异构和值级语义异构。

目前,1-5的主要方面已经被解决。这方面的研究主要是模式管理,其中包括模式匹配和模式映射。

为了解决语义异构,从九十年代开始,在信息集成中引入了本体的概念。较新的研究方法都是基于语义网,这促进了基于语义网的分布式本体框架研究。而且,语义网中使用的描述逻辑(OWL DL和规则提供了推理能力、更好的理解。

同样第三个方面的元模型异构性仍然是一个重要的研究课题。这个领域的研究开始于九十年代的中间件系统[6]。总之,一个应用中的用到的异构方面越多,所需要的复杂方法也就越多。

3.3 其他

除了分布性、异构性和自治性之外,信息集成还包括一些其他方面,概括如下:

1)可表达性和精确性。这通常由应用场景所决定,和企业信息集成相比,科学应用的语义表达准确性要求较高。提高语义表达能力方法有:引入特定关系和属性类型、对值和关系添加约束和规则。

2)透明度的要求。另一个方面涉及到集成系统对信息源的详细情况的隐藏程度。一些系统在查询时隐藏所有具体数据的详细信息,还有一些就和多数据库系统类似,需要显示集成数据源的地址。所有方法的共同点是需要考虑技术接口和位置的透明度。

3)只读和集成数据源的持续更新。对一个信息集成系统来说,信息的集成只是为了透明查询过程和需要操作信息的区别很大。如果需要更新,那就意味着系统必须支持某种事物管理。更重要的是,存储和复制管理判断什么时候新信息需要存储。

4)具体化和虚拟存储。最后,集成系统可以像数据仓库一样下载至存储中心,也可以在执行查询时拷贝集成。

数据仓库是一个集成各种数据源的典型方法。通过中心节点访问所有信息,在任意用户查询信息时反应迅速。更重要的是促进了商业智能和联机分析处理的应用,这些在大企业内都是基本的需求。但是数据仓库中的数据集合是不可更新的。一个数据仓库也需要大量的存储空间和强大的计算能力。在很多情况下,虽然虚拟集成涉及到联合查询和通过网络传输的代价,但仍是个不错的选择。

基于以上所有方面和特殊需求,Leser和Naumann展示了一系列架构[5]。主要有整体数据库系统、分布式数据库、多数据库系统、联邦数据库系统、中间件系统和对等数据管理系

4 典型的信息集成结构

一个通用信息集成系统如图2所示。一些概念是所有的系统中都很常见的。

中央访问接口,通过一个可互操作的中间件或API用于应用程序的集成系统。

中央元数据目录,存储全局数据模型,该模型可以显式的定义和维护,也可以隐含的作为本地数据模型的集合。元数据目录还存储统计数字,如选择度或直方图

查询处理器,负责处理向系统发出的查询的联合、优化、和执行。

注册组件,为数据源提供注册和注销服务。

包装器,在中间件系统中,包装器直接连接到数据源。他们用于解决技术和元模型异构。由于映射方法的不同,包装器可能带来其他级别的异构。

异构信息集成系统可以随意的集成一个模式映射工厂,通过GUI来支持模式映射工作,也支持模式匹配、数据检查和数据清理。一些系统还提供图形数据浏览、查询结果浏览和其他功能的图像化界面工具。

最后,除了这些组件,解决元模型异构的中间件信息系统所特有的组件有:

全局元模型,全局元模式的表达性和本地具有最高可表达性元模式一样强大,但是也有预定应用目标和用例等其他因素。例如,如果集成系统只需要关键词查询,则全局元模型比本地模型还要简单。

全局查询语言,组织全局查询。查询语言和全局元模型是紧密相连的。例如,如果全局元模型是关系模型,全局查询语言将可能是SQL,如果是RDF,更好的选择是SPARQL。

包装器和中介之间的协议和接口,根据查询执行方法,集成系统采用不同的子查询策略。

5 互操作性和标准化

标准化是保证互操作性的重要方法。标准化可以使系统相互兼容。信息量的增加带来IT系统的无序,保持互操作性是电子信息产业的重要任务。

在IT系统中异构有三个主要的方面,其中互操作性至关重要。影响互操作性的主要因素包括:软件和处理过程(如企业管理语言COBOL Common Business Oriented Langauge、J2EE);通信和协议(如CORBA、Web服务);数据展示。对于第三个方面,基本的方法有运行时标准和数据交换标准(XML),这和第二方面的内容有密切的关系。至于可操作的运行时表示,关系数据库的广泛应用及突破和标准化的查询语言保持系统的兼容性。XML在很多应用程序中也得到应用。在语义网中,资源描述框架(RDF ,Resource Description Framework)是信息和知识表示的标准。不仅运行系统在使用,语义网数据交换也在使用。

在元对象机制(Meta Object Facility MOF)中,标准被划分为四个层次:M3(元元模型层)、 M2(元模型)、M1(模型)、M0(数据层)。M2模型最明显的例子是UML元模型,该模型描述UML;本体定义元模型,如柏林核心元素集(ISO 标准15836-2003)或者FOAF词汇表[7]。

6 结束语

信息集成、资源共享成为各类网络应用中急需解决的关键问题。信息的表现形式多样、开放和动态变引发了信息集成中的各类问题。构建健壮的信息集成平台的挑战是严峻的。关键的问题就是信息异构性问题,它是信息互通、集成和共享协同的主要瓶颈。当前的主要目标是实现语义互通、解决互操作等难题,达到异构信息共享,提供更好的信息服务。

参考文献:

[1] Alon Y Halevy.Enterprise information integration: successes,challenges and controver-sies[C]//SIG-MOD’05:Proceedings of the ACM SIGMOD international conference on Management of data.ACM,New York,NY,USA,2005:778-787.

[2] Franklin M.,Halevy A,Maier D.From databases to dataspaces:a new abstraction f-or information management[J].SIGMOD Record,2007,34(4):27-33.

[3] Groza T,Handschuh S,Moeller K,et,al.The NEPOMUK Project-On the way to the Soci-al Semantic Desktop[C]//Pellegrini T, Schaffert S.Proceedings of ISemantics’07,2007:201-211.

[4] Coulouris G,Dollimore J,Kindberg T.Distributed Systems-Concepts and Design[M].4edn. Pearson Education Ltd,2005.

[5] Leser U,Naumann F.Informations integration-Architekturen und Methoden zur Integ-ration verteilter und heterogener Datenquellen[M].1edn,dpunkt.verlag.2007.

[6] Wiederhold G.Mediators in the Architecture of Future Information Systems[J].IEEE Computer,1992,25(3):38-49.

[7] Brickley D,Miller L.FOAF Vocabulary Specification[EB/OL].http:///fo-af/spec/.2007.

上一篇:有自杀意念大学生的人格特征、心理健康与生活... 下一篇:关于移动网络3G鉴权问题的分析研究