元数据的构成方式

时间:2022-05-08 07:16:11

元数据的构成方式

(徐枫宦茂盛)通过元数据的描述,能够使信息资源的使用者了解数据的内容、特征、作用、获取方式等信息。

元数据是关于数据的数据,在建立信息资源目录体系的过程中,元数据主要是对信息资源从外部特征进行而非从内部结构进行描述。通俗地讲,元数据就是信息资源的标签或卡片,通过元数据的描述,可以使信息资源的使用者能够了解数据的内容、特征、作用、获取方式等信息,能够对信息资源是否满足特定的应用需求做出适当的评价,并根据评价的结果决定是否采取进一步的措施来获取该信息资源。

元数据是信息资源目录体系建立的基础,构建一个信息资源目录体系首要和基础性的工作就是建立描述各个信息资源的元数据库,元数据库中存储的是描述各种来源、各种类型的信息资源的描述信息。无论用户以何种方式查询信息资源目录,包括以分类目录的形式进行查询、或者以多关键词的形式进行查询,其本质都是对后台元数据库的检索,只是从表现层提供了不同形式的人机查询接口。根据所描述的信息资源对象的不同,可以建立不同的元数据库,分别对各类信息资源进行描述。

元数据的组成

为能够对信息资源进行准确和高效的描述,元数据本身具有自身的逻辑结构。一般来说,元数据本身是层次化、树状结构的。处于树状结构最底端的叶子节点称之为元数据元素,包含了元数据元素的节点称之为元数据实体,当然元数据实体也可以只包含元数据实体。根据实际需求,元数据实体或者元数据元素可以多次出现。例如,信息资源可以有不同的分类,可以按照信息资源的来源进行分类,也可以按照信息资源的不同应用主题进行分类,因此,“信息资源分类”元数据实体就可以出现多次。

元数据一般分三个方面对信息资源进行描述。

一是对信息资源基本内容的描述。包括信息资源的标题、摘要、关键词等基本信息。标题是信息资源的名称,通过标题使用者能够初步掌握信息资源的基本范围。其次,使用者可以通过摘要,了解信息资源的主要内容、用途等各种信息。一般情况下,用户主要通过摘要作为信息资源适用性评价的主要依据。所以,在信息资源元数据的著录过程中,摘要的填写一般都由专业人员完成,只有专业人员才能够对信息资源的内容有准确的把握和深入的理解,能够提供有关信息资源内容的更加权威的解释。根据信息资源对象的不同,描述信息资源基本内容的元数据实体和元数据元素还可以进行有选择的增加。例如,描述空间信息资源时,可以增加空间参照系、图示表达等元数据实体,描述科学数据资源时需要增加数据质量等元数据实体。

二是对信息资源的获取方式进行描述。包括信息资源的分发者信息、信息资源的在线获取地址信息等。通过提供分发者联系信息,使用者可以直接联系信息资源的分发部门,这对于不能直接在网络上进行数据交换的信息资源获取非常有效。其次,使用者还可以通过信息资源的在线地址来下载、查询、浏览信息资源。使用者甚至可以提供专门的电子订单处理系统,并将入口信息加入到元数据内容中,方便使用者进行在线的信息资源订购。

三是对元数据自身的维护信息进行描述。包括元数据的标识、元数据的维护方、元数据的更新日期、更新频率等。该类信息主要服务于对元数据内容的自身管理,提高元数据的管理和维护效率。在某些特定的条件下,使用者也可以通过元数据的更新日期、更新频率等信息判断元数据与信息资源的一致性程度,进而间接判断信息资源的适用性。

国内对元数据标准的研究

在信息化时代,信息资源的共享和交换需求是普遍存在的。不同的领域,无论这个领域的范围是一个部门,或者是由若干不同的业务部门组成的整体,在建立元数据过程中,从实施的角度,必须确定相应的元数据内容规范。由于共享的程度不同、信息资源内容的不同等因素,各领域制定的元数据标准也有很大的不同。迄今为止,国内外已有若干元数据标准的研究项目和成果。

在国内,许多领域都已开展了元数据标准化工作,其中处于较为领先地位的是地理空间信息领域。从上世纪90年代开始,国家和各相关职能部门就开展了一系列地理空间信息相关的政策、标准和实验系统的研究工作。进入21世纪以来,随着国家电子政务等一批关键信息化项目的启动,地理元数据标准化工作已逐步实现从研究试验向实际应用的转变。

为了促进可持续发展方面的信息共享和交换,科技部“九五”国家重点科技攻关计划项目“中国可持续发展信息共享示范”(97-925)制定了《中国可持续发展信息元数据》。目前,该标准已经应用于中国可持续发展网运行系统中。

科技部“九五”97-759科技攻关项目“国土资源环境和区域经济信息系统及国家空间信息基础设施关键技术研究”,经过研究分析美国FGDC元数据标准、ISO元数据标准等,结合我国实际情况,特别是NREDIS重点数据库群的具体情况,制定出了《NREDIS空间元数据内容标准》。该标准所定义的描述元素覆盖了空间数据集的各个方面,专门针对空间数据集的归档、编目和,适合于空间元数据技术平台对规范空间元数据内容的实际需要。

国家地理空间信息协调委员会组织国家信息中心等单位在《NREDIS空间元数据内容标准》基础上,参考国际标准化组织元数据标准(ISO19115)及美国联邦地理数据委员会元数据标准(FGDC),起草了《国家空间信息基础设施元数据内容标准》。该标准已经应用于国家空间信息交换中心示范网络系统,该系统是一个包括是一个分布式的网络地理空间信息交换系统,所的元数据内容涉及基础测绘、林业、矿产、土地、地质、海洋、遥感、海南省、地区经济等多个方面。

国土资源部与科技司安排了国土资源部“九五”科技项目“GIS支持下的国土资源信息研究――国土资源信息元数据研究项目”。该项目由国土资源部信息中心牵头,组织了国家基础地理信息中心等单位参加,经过详细的调研,参考国际标准化组织元数据标准(ISO19115),制定了《国土资源信息核心元数据标准》,该标准的制定符合中国国土资源管理和信息服务实际需要。

国家地质调查局参考FGDC元数据标准、加拿大地质调查元数据标准、《NREDIS空间元数据内容标准》等多个元数据标准,起草了《地质调查元数据内容与格式标准》,该标准适合对各类地质调查数据化信息资源进行简要描述、数据集与资料编目及信息交换。

为了加强气象资料共享,进一步促进气象资料更好地为经济建设、国防建设、社会发展和人民生活服务,国家气象局在气象信息共享标准化方面也做了大量的工作,气象数据元数据标准就是气象数据共享工作中的重点工作内容之一。国家气象局WDC-D暨“中国地球科学数据中心完善与服务-气象学科部分” 项目参照国际气象组织的统一元数据标准制定了《气象元数据格式标准》,该标准已实际应用与国家气象局的元数据建库和元数据服务系统的建设中。

为促进中国的科学数据共享,科技部非常重视科学数据共享的元数据标准化工作。根据科学数据共享标准化工作的规划,科学数据共享工程开展了元数据相关标准(包括元数据标准化基本原则和方法、元数据内容)的研究。

国外元数据的标准化

各国政府都开始把利用信息技术改进传统管理方式看做是新世纪政府变革的重大机遇和挑战。由于西方发达国家的信息化基础比较好,再加上其政治体制的特点,因此美、欧等国和地区的电子政务起步较早、发展较快。其中较为成熟的是美国政府资源索引服务和英国电子政务元数据标准。

美国政府资源索引服务(GILS,Government Information Locater Service) 是一个辨识描述政府信息资源,提供获得该资源方式的系统。GILS代表“系统”、“元数据”及“服务”等概念。它依据Z39.50建立系统规格书,并设计专属政府信息的元数据栏位,建立一套指引记录(类似编目款目),可在网络环境中检索并取用,且记录中可能包含超链接,指向实际文件,提供公众便利获取政府信息的服务。依照GILS发展指引服务的国家较多,包括美国、加拿大、日本、俄罗斯等国家都相继采用它作为政府相关资讯的元数据格式。这不仅提高了政府资讯传播的效率,人民对于政府也增强了了解,而且对于未来各国政府政务信息的交换与共享也提供了方便。

英国电子政务元数据标准(E-GMS ,e-Government Metadata Standard)标准制定了元素、元素精炼、编码规则,以供政府人员为他们的信息资源创建元数据或设计检索系统时使用。E-GMS的第一个版本是由简单的都柏林核心(DC)元素构成。E-GMS在修订时已近可能吸纳DC的元素、元素精炼和编码规则。它定义了政府公共部门电子政务元数据的结构和规则,政府部门在创建其信息资源的元数据或设计信息系统的检索系统时都要遵循该标准。E-GMS用于实现数据的互操作,便于公众找到所需要的政府信息和服务,而无须了解政府部门的组织结构和职能配置。

元数据的互操作与交换

按照不同元数据标准而采集和建立的元数据库,在更大范围内的信息资源开发和利用过程中遇到了元数据内容的互操作问题。互操作的本质问题实际是语义问题,不同领域的元数据标准的制定都带有本领域对特定概念的理解和认识,表现在元数据标准上的是元数据实体和元数据元素的“同名异意”以及“异名同意”问题。要解决元数据标准互操作问题,首先,需要明确各标准中元数据实体以及元数据元素的含义; 其次,根据确定的含义建立不同元数据标准的元数据实体和元数据元素映射关系; 最后,在信息系统实现层面,由软件实现对不同元数据标准的翻译,对于某些需要整合已有不同标准元数据库到统一元数据库的情形,可以由软件系统进行统一的数据转换处理。

元数据库建立后,不可避免要产生元数据导入、导出、元数据交换等需求,在该项活动中,首先需要确定是元数据的格式和编码。不同的系统可能产生不同的元数据记录的转换格式。目前,采用XML作为元数据转换格式逐渐成为异构元数据库(系统)间元数据交换的主要形式。

背景资料

为什么要提出信息资源目录?

人类经济社会发展历经农业社会和工业社会,目前,正加速向信息化社会发展。信息化社会是人类经济社会发展所必经的一个崭新阶段。在此阶段,以信息技术为支撑,以信息资源的开发和利用为核心,全面整合人类的各项生活和生产活动,推进人类文明向前迈出一大步。

信息资源是信息化社会的基础和核心,是重要的生产要素和无形资产。信息资源的内容涉及到人类活动的各个领域和各个层次。在领域上,信息资源的内容包括了科学、教育、文化、卫生、军事、经济等各个方面; 在层次上,信息资源的内容包括了反映国家和地区整体活动特征的宏观社会经济活动信息,以及表征微观世界的物质组成信息等。从信息资源的表达形式上,包括了文本、数字、图像、音频、视频等。

目前,随着信息采集手段的增强以及信息利用层次的提高,整个社会的信息资源的数量正处于加速度的状态。例如: 围绕人自身的各种活动,需要各种类型的信息进行支撑,包括人员的基本信息、教育信息、就业信息、医疗信息等,这些散落在各行业、各部门的信息以每个人1MB的数据量进行计算(不计算涉及到个人的多媒体信息),仅中国13亿人口的信息将达到1300TB。再以对人类居住的地球的自然环境特征的了解为例,通过向太空发射卫星,在地面设置各种监测站(点),已经形成了超海量数据的获取能力。在太空,各种类型的卫星,包括气象卫星、军事卫星等已经形成了PB级信息,并且随着新的卫星的发展和卫星影像分辨率的提高,积累的数据量将形成滚雪球的效应。在地面,人类设置了监测水文、地震等各种类型的,数以万计的不同类型的监测点,近乎实时的进行各种信息的采集。

不断增长的信息资源数量向信息资源的深度开发和利用提出了新的课题。人类社会区别与其他动物的显著特点是社会化的分工合作,通过社会分工和专业化的发展,极大地提高了生产效率,同时社会化分工也需要各层次、各行业、各部门进行紧密沟通和协作。社会化分工越细、层次越多,用于沟通和连接的信息量越大,信息沟通的频率也将加快。尤其在信息化社会,当信息资源作为生产要素参与整个人类的经济社会活动时,信息资源的共享和交换越来越成为迫切需要解决的问题,通过信息资源的跨行业、跨部门的共享以及信息资源的有序交换,可以增强社会生活各环节之间的联系。同时,由于信息资源的可重复可拷贝特性,当信息资源实现共享和交换后,信息资源的价值将出现倍增效应。因此,信息资源的共享和交换必将极大地推动社会经济的发展。

信息资源的存在问题是信息资源共享与交换首先要解决的问题。信息资源的存在问题分为两个方面,一是有没有能够满足具体某项人类活动所需要的信息资源,即需要找到和发现满足特定需求的信息; 二是这样的信息资源存在于何地、如何获得。信息资源目录的建立主要是为了解决信息资源的存在问题。信息资源目录是以元数据内容采集、检索、展现技术为基础,结合信息资源的分类技术,向使用者提供信息资源发现和定位服务的基础设施。

在查找信息资源的过程中,首先需要对信息资源的内容、提供方式等特征进行描述,这种对信息资源的描述信息就是元数据。不同类型的信息资源其元数据描述方式也不尽相同,例如空间数据的元数据和人口数据的元数据差别将非常大。在元数据采集工作完成后,从技术角度,对元数据进行检索,尤其是兼容不同标准的元数据内容的检索成为信息资源目录检索技术需要解决的难点。目前在这方面,标准的信息资源目录检索技术主要通过映射和数字对象标识技术解决这一问题。信息资源目录的展现和信息资源的分类联系相对紧密,一般按照信息资源管理与信息资源使用的不同维度,在表现层(例如浏览器)提供符合用户习惯的信息资源查找方式,方便用户进行信息资源的发现和定位。

上一篇:改变未来生活的13项移动技术 下一篇:视频监控从蜕变到新生