数据空间关键问题探究

时间:2022-10-08 03:00:59

数据空间关键问题探究

摘要:数据空间及其管理技术,将成为新一代数据管理技术的核心,成为人们享受信息技术发展带来巨大效益的基础平台。在分析数据空间提出背景的基础上,阐述了对其概念、特点及相关技术的理解和思考,总结了目前的研究现状,提出了未来的研究方向。

关键词:数据管理;数据空间;面向实体

中图分类号:TP391文献标识码:A文章编号:16727800(2012)007009303

基金项目:宁夏高等学校科学技术研究项目(NGY2011263081)

作者简介:郭莹(1979-),女,山东泰安人,东北大学博士研究生,宁夏理工学院讲师,研究方向为计算机软件、数据库、数据空间。

1数据空间的提出

随着信息技术,特别是互联网技术和数据库技术的飞速发展,数据管理面临着新的挑战:

(1)如何处理海量增长、形态异构、联系松散的当代数据。全球进入数据存储的“泽它时代”(1Zeta Bytes=1021 Bytes)后,数字信息总量在以每年50.6%的复合增长率迅速膨胀,到2020年将达到35ZB。这些海量的数据分布在全球无数计算机、手机、数字电视、PDA等载体上,其存在形式不仅仅是关系模型下结构化的文本数据,有的是半结构化的,有的是非结构化的,格式多样,内容丰富,并且还会有更多的结构和种类出现。数据源之间联系松散,没有统一的模式。

(2)如何为用户提供扩展的服务。目前数据管理面临强大的挑战,面对大量形式多样、相互关联的数据源,缺少一个便捷、完整、规范的管理方式,包括对数据源定位、搜索和查询、世系追踪以及保证准确性等等。传统的数据管理方案可以很好地适应一个DBMS系统或其它任何单一的数据模型或系统,却无法解决上述问题。

(3)需要提供新的数据管理机制。当前迫切需要对数据源创建一系列新的管理机制,包括执行规则、完整性约束、命名约定、提供可用性、恢复和访问控制、数据和元数据的演化管理等等。

传统的数据库技术和数据集成系统已经不能适应上述挑战,数据空间应运而生。2005年,Michael Franklin等国际数据库著名专家针对数据管理的新特点,提出了一个新的数据管理概念——数据空间。它的主要思想是提供一套统一的服务与机制来对复杂的数据环境进行高效的管理,就像使用关系数据库管理结构化数据一样,应用开发者只需关心特定的应用问题,而不用疲于对大量反复出现、相关却不同的底层数据的管理和访问。

2数据空间的概念

数据空间是对传统数据库概念的扩展,是一种新的数据管理的抽象概念,可以理解为异构数据的一种共存形态,还可理解为新型的数据环境。在此笔者给出数据空间如下定义:一个数据空间是指一系列与主体相关且不断演化的异构数据源及数据源之间关系的集合。

所谓主体,是一个抽象概念,它可以是数据空间的所有者,如一个人或机构;也可以是数据空间的主题,如一个领域或事物。一个数据空间中的所有数据均与主体不同程度上相关。

所谓演化,是指数据空间内的数据和其相互之间的关系随着主体的需要而不断变化。

所谓异构,是指数据空间不依赖严格的数据模式,面向的是大量不同结构的数据资源。这些资源之间或直接或间接地存在着相互关系,使得彼此共同构成一个数据空间。

数据空间的目标是:无论数据源如何整合,数据空间管理能够帮助用户共享和协作管理数据,不仅使用户能够找到确切希望的数据,也保障用户放心地共享数据。因此,数据空间要提供面向数据源的所有基本功能,包括数据源发现集成、目录和浏览、搜索和查询、本地存储和索引、数据更新和演化、存储和仓库、运行管理以及一些扩展服务等等。

图1展示了一个数据空间的基本框架。

3数据空间的特点

与传统的数据库和数据集成技术不同,数据空间有着模式松散滞后、数据源复杂、面向实体等鲜明的特点。

数据空间并不依赖严格的数据模式(如关系/面向对象等),采用从数据到模式的模型结构,数据模式是松散的、滞后的,是在数据的基础上,根据主体需求以payasyougo方式逐步演化出来的,因此数据空间的数据操作具有besteffort的特性,只能是提供近优的、次优的查询或搜索结果。

数据空间的数据对象来自多个不同的数据源,位置、载体、模式、语义、格式等等各不相同,并且这些数据随着实体的发展而不断演化,有用的数据项会不断加入,不具有应用价值的数据项将逐渐消失。此外,只要对数据空间主体有用,任何资源都可以加入到数据空间,并与其它资源动态地建立某种关联。

与传统技术面向应用主题不同,数据空间是面向主体需要的。一个数据空间与一个实体一一对应,其中的每个数据对象都是与该实体相关的。值得注意的是,数据空间内的数据项与实体不存在一一对应的关系,即某个数据项可能同时属于多个实体对应的数据空间。

4数据空间的相关技术

面对复杂的数据源带来的种种挑战,包括:数据模型;数据源集成、更新和演化;本地存储和索引;搜索和查询;追踪世系等等,数据空间面临着一系列急待解决的技术问题。

(1)数据模型。一个数据空间应该包括所有与主体相关的所有数据,数据模型是根据主体的需要,在不断对数据及其关系进行加工提炼的基础上形成的,具有模式滞后的特点。建立统一的数据模型是进行数据管理的基础和核心。目前数据库研究者提出了一些代表性的数据空间模型,如基于关系模型的SEMEX、基于图的iMeMex等,但均存在不同的缺陷。

(2)数据源集成、更新和演化。数据空间集成需要一个监控机制自动高效地发现其内部和外部数据的变化,然后判断这一变化与主体的相关性程度以及是否需要进行集成。集成工作首先通过包装器实现数据抽取,每个包装器对应不同的数据源,对特定格式的数据对象进行信息抽取和标识,然后通过模式匹配确定数据对象在数据空间是否已经存在,最终完成数据集成操作。

上一篇:桌面推演式情景模拟教学系统的开发与应用 下一篇:服务业营销创新中消费者自述偏好与实际选择的...