基于数据元的数据交换规范研究

时间:2022-10-03 02:56:01

基于数据元的数据交换规范研究

摘要:针对信息系统之间的数据异构导致数据交换困难的问题,研究利用数据元理论制定一套基于数据元的、统一的、可复用的数据交换规范,以实现异构信息系统之间高效的数据交换。

关键词:数据元;数据异构;数据交换;可复用

中图分类号:TP391文献标识码:A 文章编号:1009-3044(2010)10-2309-02

Research on the Specification of Data Interchange Base on Data Element

LIU Qing-he, HAO Wen-ning, HAN Xian-yong, CHEN Xing-jian, WU Ke-jia

(Engineering Institute of Corps of Engineers, PAL University of Science and Technology, Nanjing 210007,China)

Abstract: According to the difficulties of data interchange between information systems with heterogeneous data, using the data element theory to constitute a specification which is based on data element, unified and reusable, and make the data interchange between heterogeneous information systems more effective with the specification.

Key words: data element; data heterogeneous; data interchange; reusable

信息系统之间经常需要进行数据交换,实现数据交换首先必须保证双方对交换的数据具有共同的理解和彼此的兼容。然而不同的信息系统之间的数据经常是异构的,这严重阻碍了数据交换的正常进行。目前流行的解决此类问题的方法,一般都是通过在两个系统的数据之间建立映射关系来实现的。此类方法所建立的映射关系都是不可复用的,在多方互联的情况下需要重复劳动。本文充分分析数据异构现象的基础上,研究利用数据元理论,制定一个可以复用映射关系的数据交换规范,以解决数据交换困难的问题。

1 数据层面上的数据异构

信息系统一般可以分为三个层面:数据层面、业务处理逻辑层面和表示层面。其中数据层面是整个系统的基础和核心,数据层面上的数据异构是导致系统之间难以进行数据交换的主要原因。典型的数据层面上的数据异构现象主要有以下几个方面:

1) 名称不一致:即对同一个概念采用不同的名称命名。名称不一致造成人和计算机都难以寻找数据之间的对应关系。

2) 定义不一致:即同一个名称所描述的概念不一定相同。定义不一致会造成人们对数据含义理解的歧义。

3) 数据类型不一致:即存储数据时采用的数据类型不一致。数据类型不一致在数据交换时会导致数据溢出或者数据不兼容等问题。

4) 数值表示不一致:即数据表达格式的不一致,包括计量单位、有效数字位数等。数值表达格式不一致会造成数值理解错误。

3 数据元的基本概念

数据元是用一组属性描述其定义、标识、表示和允许值的数据单元[1]。数据元可以理解为不可再分的数据的基本单元,是组成数据结构的基本元素。

数据元的基本模型如图2所示。

数据元由对象类、特性和表示三部分组成。对象类是我们所要研究的现实世界或抽象概念中事物的集合,例如人、汽车、房子等。特性是某个对象或实体的特征,是对象有别于其他成员的依据,例如人的姓名、性别等。表示描述数据元被表达的方式,包括数据类型、值域等,必要时也包括度量单位、字符集等。数据模型中的实体对应于对象类,属性对应于特性和表示。

数据元也可以看成是由数据元概念和表示组成。数据元概念是能以数据元的形式表示的一种概念[3]。一个数据元概念由一个对象类和一个特性组成。一个数据元概念可以与多种不同的表示方式结合,组成多个数据元。特性与表示可以组成与对象类无关的通用数据元。通用数据元可以作为制定数据元的模板使用。

4 领域数据元目录

数据元理论主要以数据元目录的形式发挥作用。数据元目录是列出并定义了全部相关数据元的一种信息资源[4]。数据元目录中的数据元一般包括标识符、名称、定义、数据类型、计量单位、允许值、等基本属性信息。

数据元目录一般是在一定的领域范围内使用的,它为领域内所涉及概念的名称、定义、数据类型、表示格式等以数据元的形式作了规范、统一的定义,并为每个数据元分配一个全局唯一的标识符。标准化的数据元目录是领域内唯一的、共同遵守的数据字典,可以为消除数据异构、实现数据的标准化提供统一的参照标准。

5 基于数据元的数据交换规范

基于数据元的数据交换以标准化的领域数据元目录为继基础,通过建立数据项与数据元之间的关联以及数据转换关系,以标准化的XML文件为载体发送和接收数据,实现数据交换。

具体操作流程为:

1) 在所有需要进行数据交换的系统中建立映射关系表,记录每个数据项与数据元的映射关系(RelationMapping),其中包含数据元标识符(DataElement_ID)、数据项标识符(DataItem_ID)和转换规则(TransformFormula)三项内容。转换规则包括数据类型转换、计量单位换算等。若系统中数据项的数据类型与数据元的数据类型不能实现转换,则需要根据实际情况对系统的数据类型作必要的修改。

2) 系统发送数据时,根据映射关系将每个数据项编写成一个XML数据节点(DataNode),然后把所有的数据节点组织成一个XML文件(磁盘文件或内存文件)发送给接收方。数据节点中包含数据元标识符和数据(Data),编写数据节点时需要根据映射关系中的转换规则将数据转换成与数据元的数据类型、表示等一致的标准的数据。

3) 接收方收到XML文件后,根据本系统的映射关系表将每个数据节点中的数据转换成符合本系统的数据。

因为所有的映射关系表都是以同一个数据元目录为参考标准的,网络中传输的数据又都是根据该目录进行标准化的数据,任何遵守这一套交换规范的系统只需要建设一个映射关系表就可以很方便的与其他所有遵守这一规范的系统进行数据交换。

6 结束语

数据元的标准化是数据标准化的核心内容,但数据元理论的作用却不仅仅是数据标准化,制定数据交换规范也只是其很小的一部分功能。本文在分析了数据异构的各种现象和介绍了数据元理论的基本概念的基础上,制定了一套可复用的数据交换规范,有效避免了建立数据映射关系的重复劳动,使异构系统之间的多方互联变得简单易行。

参考文献:

[1] GB/T 18391―信息技术 数据元的规范与标准化[S].

[2] SDS/T 2132―2004 数据元标准化的基本原则与方法[S].

[3] ISO/IEC 11179―2004. Information technology - Metadata registries (MDR)[S].

[4] SDS/T 2131―2004 公用数据元目录[S].

上一篇:基于优化目标可调控的免疫网络算法的分析与应... 下一篇:基于栅矢结合的WebGIS脚本库设计与实现