数字图书馆联盟中基于概率映射的集成模型研究

时间:2022-09-27 11:04:20

数字图书馆联盟中基于概率映射的集成模型研究

中图分类号:G250.76 文献标识码:A 文章编号:1003-9082 (2013) 11-0027-03

一、前言

数字图书馆(Digital Library,以下简称DL)是虚拟的图书馆,其目的是在网络环境下构建共享的可扩展的知识网络系统,提供超大规模的,分布式异构数字化信息的智能检索和服务的知识中心[Bor99], 从上世纪90年代,不同的研究者从不同的角度对数字图书馆进行了研究[Fox93][Bak96],但是由于没有一个单独的数字图书馆能够拥有满足用户需求的所有资料和信息,因而完全自足的图书馆是不可能的[Pede00], 所以当人们寻找所需资源时,需要访问多个数字图书馆(DL),同时由于每个DL是自治的,异构的,这样查询请求不得不按照每个DL提供的方式进行提交。为了解决该问题,人们提出联盟数字图书馆。所谓联盟数字图书馆(Digital Library Federation,以下简称DLF)是指正式或非正式合作的操纵DLs的一些组织,它们同意支持一组共同的服务和标准,以便在成员间共享DLs的资源和服务,其目标是向用户提供一个将异构,分布式DLs无缝集成的视图,实现对DLs资源的透明访问[Bir2001] [AnVi99]。

在数字图书馆联盟中,为了实现互操作,一个挑战就是实现数据的共享,信息集成技术被采用来解决该问题[Nik1998]。该技术[Lenz2002] [Halevy2006] 可以聚集分布的不同数据源,为用户提供统一的视图进行访问。在中介模式下,所有数据源映射到一个单一的领域概念,实现集成,因而集成系统依赖于数据源与中介模式的语义映射关系[Renee 2000]。

在数字图书馆联盟中,由于每个DL具有自治性和动态性,联盟中的DL不断改变其状态(加入,激活,休眠,或退出),每个DL的数据也在不断变化和增长(包括可用数据库种类的变化和数据量的增加),如果实现手工的模式匹配和映射是耗时费力低效的[Alon 2005], [Shvaiko 2005]。因而为了满足高速增长的web数据和电子商务集成的需求,出现了支持自动化匹配的研究的方法和工具[E. Rahn 2001]。然而在现实应用中,由于信息的异构性和自动匹配工具的局限性,使得创建和维持精确的映射关系几乎是不可能的事情,从而导致映射经常是不准确的[Dong2007]。

数据的不确定性问题在今天变得日益突出,在诸如数据集成,科学数据,IR,的各个领域里面,出现了快速增长的大量不确定数据,这会在数据本身,数据实例间的映射上(如上文所说),或者是查询处理当中产生不确定性。对于这些不确定性,给越来越多的组织和用户带来管理的问题:清理的成本过高(如web 数据的集成),甚至是不可能清理的;在[Dalv 2007]中提出了数据不确定性所面临的挑战和要解决的问题。

本文的主要工作如下:

1 提出基于构建数字图书联盟的模型。

2 把不确定性引入传统的数据集成理论模型,建立了一个具有概率性的数据集成模型。

3 对于模式匹配的不确定性,重点讨论了BY-TABLE下的数据概率表示和查询回答。

二、数字图书馆联盟(DLF)的信息集成模型

下面通过对利用数据集成技术构建的数字图书馆联盟的查询过程描述来说明集成中的不确定性。

图1描述了一个数字图书馆联盟DLF的信息集成模型,DLF中的全局模式Global Schema提供联盟中共有的概念标准,每个DL可把自己的数据源(DL source)通过局部模式(Local Schema)与全局模式进行映射;用户可通过DLF portal在全局模式上提交查询;Metadata Repository提供了共有的元数据标准,查询引擎(Query Engine)负责接收用户查询请求,并对查询计划进行优化和执行;当查询到达每个DL时,由wrapper负责对查询进行解释并完成本地查询。

图1 数字图书馆联盟DLF的信息集成模型

在该集成系统中,如果映射通过自动或半自动方式建立,会不可避免地考虑映射的概率。当一个查询提交到集成模式上时,查询的结果会出现不止一种带有概率的查询重写形式。

三、 概率的数据集成模型

基于[Lenz2002]提出的数据集成的参考模型,本文定义了概率性的数据集成模型(如图2),其形式化描述如下:

图2 概率性的数据集成模型

一个数据集成系统Δ 是一个四元组 ,其中:

G是全局模式,用使用了一组相关字母表Ag的逻辑理论来表达;S是源数据的模式,用使用了一组相关字母表As的逻辑理论来表达;

四、模式映射的概率

在进行模式的自动映射时,可能会产生几种候选的模式对应关系,每一种都有其出现的概率,其元组的概率分布情况分为两类[Dong2007]:1) 在所有的数据上会采用一种相同的映射关系,称为by-table 映射,这是本文所关注的。2) 在源数据的关系中,会出现多个元组的子集采用不同的映射关系 称为by-tuple映射。

本文中,我们讨论的是关系型数据模型,一个模式是一个关系集,每个关系是一个属性集。我们选取SQL中select-project-join(SPJ) queries 来进行讨论;同时,我们把LAV的形式限定在S中每个关系由G中一个模式采用project来表示。

假若在DLF上的全局模式G中,有一个关系DLF_DIRECTORY(题目, 出版者,时间,创作者,科目,格式,类别);一个电子图书馆DL_1,其局部模式中存在一个关系DL_DIRECTORY(名称,发行者,日期,作者,主题,规格,类型),其数据实例如图3;在DL_1上,进行模式自动匹配产生的可能的匹配及其概率如图4,用逻辑表达式可表达为:

DL_DIRECTORY(名称,发行者,日期,作者,主题,规格,类型)

?DLF_DIRECTORY (题目, 出版者,时间,创作者,科目,格式,类别)

DL_DIRECTORY (名称,发行者,日期,作者,主题,规格,类型)

?DLF_DIRECTORY (科目, 出版者, 时间, 创作者, 题目, 格式, 类别)

DL_DIRECTORY (名称,发行者,日期,作者,主题,规格,类型)

?DLF_DIRECTORY (题目, 创作者, 时间, 出版者, 类别, 格式, 科目)

六、相关工作

在数据集成领域,[Levy 2000]提供了几种语言来描述数据源的内容,以及数据源之间的交换和相关的重新算法。[Lenz2002]从讨论了一系列理论问题,包括对集成系统的建模,查询处理机如何处理不一致的数据源和查询的推理。[Cal 2005]对数据集成系统进行了抽象,并且把全局模式表达为本体形式。

目前概率数据的研究集中在概率数据库和概率数据管理上。关于概率映射的话题近些年才开始[Dalv 2007] [Das 2006][Suciu2005],[Gal 2006]通过使用半自动的映射工具提高排在前面的映射的准确度来得到top-k个模式映射。[Nott 2007]综合了IR和机器学习技术来发现适宜的若干映射。然而以上理论均没有把映射和不确定性作为一个整体来讨论。[Dong2007]为概率映射提供了两种可能的语义:BY-TABLE和 BY-TUPLE,并且在近似的模式映射上使用了复杂的查询算法。

七、结论

本文讨论了概率数据集成系统中包括理论模型,概率映射,概率查询。基于给定的一个虚拟数字图书馆联盟,本文阐述了一个带有概率的数据集成理论模型,讨论模式映射的概率,并描述了其上的查询算法。

由于本文仅讨论了在BY-TALBE映射上的概率情况,在未来将对BY-TUPLE映射上的概率情况进行研究。

上一篇:高校图书馆数字化资源整合项目分析 下一篇:加拿大高校图书馆的人性化管理及思考