Web信息集成技术研究

时间:2022-04-01 07:18:23

Web信息集成技术研究

【摘要】在当前网络上存在着大量的异构数据,如何集成这些异构的Web数据是一个很重要的研究工作。目前,它已经成为数据库领域的研究热点。文中对Web信息的集成技术进行了探讨与研究,最后进行了总结与展望。

【关键词】信息集成,异构,半结构化数据

【中图分类号】TP311 【文献标识码】A 【文章编号】1672-5158(2012)11-0124-01

1、引言

随着网络技术和计算机技术的飞速发展,大量的异构的Web数据信息被分散在网路上的各个节点中,在这些数据之间往往又是相互独立的。为了提高数据的利用率,使这些相互独立的数据更好的集成起来,从而满足更好实现信息的资源与共享,迫切需要为这些数据信息建立一个公共的集成系统,用户通过这个系统能够透明地访问这些数据源。在信息集成研究范畴中,所解决的问题是:要把分布在不同位置上的各种异构信息源的数据信息进行合并起来,形成统一数据视图。在集成过程中,要求屏蔽各种不同数据源信息的差异性。用户通过建立的异构数据集成系统端口,可以透明的访问这些分散的异构数据。

2、信息集成的方法

从目前研究的现状和发展趋势看来,对于信息集成系统的开发采用的方法用很对种,这些方法之间虽然不尽相同,但统一来看,信息集成的方法主要有两类构成,分别是:采用物化方法(又称数据仓库法)和虚拟方法(又称中间件法)。

(1)物化方法:这种系统开发方法,具体的做法是:在数据源端和客户端中间建立一个数据仓库层,该层用于存放待集成的各种数据源。集成系统可以实现对这个数据层的查询操作。采用这种方法建立的系统集成系统的优点在于:不仅可以用于信息集成,而且还可以对用户提供决策支持查询的功能。这是一种通过中间件的数据访问方式,因此这种方法,由于在数据源和用户之间增加了数据仓库层,因此容易导致数据更新不及时和容易导致数据的重复存储,这是物化方法的缺点。

(2)虚拟方法:这种方法的处理思路与物化方法是完全不同的。在该方法操作中,允许各种异构的数据源仍然存放在本地,系统通过建立一个虚拟的集成视图来实现对数据查询的操作机制。该方法开发的信息集成系统会自动将用户查询的请求申请转入到对各个数据源的访问查询。对于用户来说,在查询过程中,并不会感觉到查询的转换过程。在这个对数据源的查询过程中,主要有两类软件组件:包装器(wrappers)和中间件(mediators),提供帮助和实现功能。包装器实现对数据源的包装,负责把各个不同数据源进行封装转换成统一的数据模型。在该方法中,由于不需要存储大量重复的数据信息,在数据更新操作上也很及时,因此这种集成方式比较适合数量多的数据源的集成操作。

通过对上述两种方法的比较,我们可以看出:物化方法中,需要建立一个中间层用来备份全局模式中的数据,系因此统需要多维护一个与信息源中数据一致的视图副本,这样系统在访问过程中更新操作所需要的代价比较高。总的来说物化方法是比较适合于数据仓库这类实时胜要求不高的应用。在虚拟方法中,中间层不需要备份任何数据实例,这个中间层只是作为一个访问接口之用。但由于在处理用户查询需求时,由于需要访问分散在不同位置的不同的信息源,这样会导致响应查询不及时,使得查询代价比较高。

3、信息集成中的查询处理

在信息集成系统中一个重要的工作就是完成数据的查询功能。查询操作时连接用户和信息集成系统的一个重要的桥梁纽带。用户在集成系统上建立的查询时基于视图的查询,从而获取所需要的信息。然后在进行这一系列查询的操作过程中,需要经过以下几个过程的操作0]:

(1)查询分析:在这一过程,首先由中间件对全局的查询进行语法和语义的检测和验证,从而确保查询语法和语义的正确性;

(2)查询规划:经过上一过程的验证以后,由中间件对合法的查询选择信息源,然后对该信息源进行分解操作;

(3)局部子查询:中间件分解处理,将数据源分成若干个子查询后,进行统一分派到指定的包装器中;

(4)返回结果:中间件将汇集各个子查询的结果的同时,还要处理剩余的工作,将得到的查询结果反馈给查询信息的用户。

其实,在信息集成中的查询处理过程涉及的理论和方法众多。这些理论和方法问题(如查询规划、查询优化、查询应答和查询重写等等)值得深入的探讨和研究,目前有很多的许多有关文献对此进行了研究和分析。由于篇幅的限制,在此不作介绍,读者可以参考相关的文献或资料。

4、半结构化数据与Web信息集成

近年来随着网络技术飞速发展,在网络上产生了大量和海量的Web信息,这些信息大部分是以半结构化或非结构化的形式存在。以此有关半结构化或非结构化数据的集成研究就成了当前一个研究的重点和热点之一。目前在与半结构化和非结构化数据的集成系统中,都是采用XML作为数据交换的中间模式。XML已经成为互联网上数据交换的标准。它不仅可以表示关系型数据,而且还可以很好的表示树型结构和图型结构的其它数据。目前大量的异构集成系统集成过程中都采用了XML作为数据交换的标准和桥梁。

在对于半结构化数据模式的描述中,目前主要有两种常见的模型:第一种是XML标签有向图模型,即XML文档可表示成一个带标签的有向图,OEM模型为其中最具典型代表;第二种是XML标签有向树模型来表示。在集成系统中的数据抽取较常使用的是Wrapper技术。当前,网络上的数据信息一般是用HTML表示的,因此数据抽取的前提是基于HTML文档格式的。这里有两种表示方式来对数据的描述:(1)把半结构化文档看作字符流,利用分界符作为界限进行划分和信息抽取。(2)把半结构化文档看成树型结构,按照树的特点抽取树的路径,利用HTML标签的特点把文档分析成树型结构,通过树的路径搜索相应的结点,最终查询所需要的数据。

5、总结与展望

伴随着计算机技术和网络技术的发展,异构Web信息集成技术成为下一代互联网中的信息融合和信息处理等的关键技术。然而Web服务的不断研究和发展,同时也给信息集成技术提供了更广阔的发展空间。借助于本体描述服务的结构、类型和语义,可以使Web services语义表示模型化和统一化。这样可以从语义层面解决异构数据问题。总之,异构信息集成技术的研究是一个具有远大前景的研究领域,同时又是一个充满着巨大的挑战的课题。

上一篇:基于嵌入式提花袜机选针器控制系统设计 下一篇:基于MATLAB的CDMA信号发生器的设计与仿真