基于关联数据的政府数据

时间:2022-04-17 09:59:00

基于关联数据的政府数据

[摘要]采用关联数据标准来政府数据,可以提高政府数据的透明度,提升政府数据的利用率。对政府数据利用关联数据标准进行的优势、途径和应用进行梳理,强调利用本体技术,将各类术语体系,包括与政府运作有关的各类数据模型,开发规范成一个政府数据本体,可以使得数据更规范、更有关联,容易查找和利用。

[关键词]关联数据 政府数据 语义网 本体 电子政务

[分类号]G250

政府数据是指一切产生于政府内部或虽然产生于政府外部,但对政府活动、公共事务和普通民众有影响、有意义的数据资源的统称…。随着互联网和语义网技术的发展,各国政府日益意识到基于开放标准在互联网上政府数据的重要性,然而语义网并非将数据上网这么简单,更多地需要考虑数据之间的关联和复用,从而使得机器能够理解并发现更多的相关数据。2008年6月,W3C组织的e-Government兴趣小组指出Open Government Data是其最主要的研究领域。2009年6月,李爵士(Tim Berners-Lee)了名为“将政府数据上网”的文章,邀请世界各国政府以关联数据为标准在网络上政府数据。2009年,英国和美国政府开始了关联数据的尝试,分别建立了data.gov.uk和Data.gov两个采用关联数据标准的政府数据网站。与此同时,在美国、欧洲和澳大利亚,一些相关的研究机构和网站也纷纷成立。

1关联数据和政府数据

政府数据上网主要是基于三个因素的考量:民众对政府职能和义务的需求增加;通过网络向世界提供有价值的信息;使得政府、组织更加高效地运作。这就使得政府数据在上必须能够在一定范围内最大限度地利用这些数据,从而优化政务流程,规范政府行为,优化政府结构,提升服务质量。传统的政府数据存在形式既有格式化的数据如CSV、XLS,也有非格式化的数据如PDF、HTML等。大量不具备语义的非格式化数据的存在,使要实现对分布、异构的政府数据进行共享和操作变得很困难。改变政府数据的组织和标准显得尤为重要。

关联数据作为语义万维网第一种可行的表达方式,由李爵士在2006年提出。基于这一概念,通过规定4个简单的规则,所有的网络用户都可以进行自定义语义信息的。这4个原则是:①使用URI(统一资源标识符)作为任何事物的标识名称;②使用HTTP URI使任何人都可以访问这些标识名称;③当有人访问某个标识名称时,以标准的形式(如RDF、SPARQL)提供有用的信息;④尽可能提供相关的URI,以使人们可以发现更多的事物。

简而言之,将现实世界的事物以URIS来进行标识,并以机读方式进行,其他数据集就可以以URIS的方式来互相指向。这样,人们不需要将信息拷贝到原始的数据集里面,就可以发现相关信息,实用且可操作,适用于各种形式的数据,能够满足政府数据的需求。从定义上来看,关联数据是一组语义网最佳实践的集合,它采用RDF数据模型,利用URI命名数据实体,来和部署实例数据和类数据,从而可以通过HTTP协议揭示并获取这些数据,同时强调这些数据的相互关联以及有利于人机理解的语境信息。使用关联数据标准来政府数据将有助于信息的公开、复用和传播。

在关于关联数据的问答中,李爵士指出了关联数据为企业带来的种种关键性的益处,同时这些益处也成为企业采用关联数据的绝好理由,概述如下:①RDF模型可以同样地应用于非结构化、半结构化和结构化的数据与内容。②消除内部数据相互分隔的“仓储”(silos)。③整合内部和外部数据。④易于在企业、行业、开放订阅和开放数据之间进行连接。⑤对遗留模式的数据实现完全的模型化。⑥可以很容易地对现有模式进行灵活更新和变更。⑦不再需要因为商业模式的改变或者并购而重构遗留的数据模式。⑧基于模板和查询的报表创建和数据呈现,不再需要人工操作。⑨数据访问、分析和操作并推送到用户层。⑩采用现有的数据库管理程序和设施进行内部关联数据存储的能力。这些针对企业数据的优点,同样也适用于政府数据的。

关联数据还具有如下优点:①开放:关联数据能够被各种各样的应用获取并使用,因为数据是以开放和非私有的格式的。②模块化:关联数据之间可以随意混搭,甚至可以和其他关联数据的不同片段进行混搭。比如,特定区域的关于医疗健康方面的政府数据,可以和该地区的人口、环境等数据联合起来,从而对政府医疗投入的效率进行评估。而且数据使用无需长期规划,只需要在本体方面进行规范即可。③可拓展性强:对关联数据进行增删比较容易,术语和定义所发生的变化,不会影响到数据本身。

此外,关联数据所采用的RDF模型比其他数据模型具有更好的互联互通性能:①它使用URI作为唯一资源标识,可以用来链接任何事物和概念。②它允许不同的系统独立设计并在最终的边界联合起来。③它具备良好的低成本的互操作性。④它允许所有数据以混合词表的方式进行表达。这就意味着无论人们想要的政府数据是以什么格式的,或以什么数据格式保存并获取,人们都可以使用关联数据标准来进行,通过使用RDF模型作为中介,使这些数据互联互通起来。2政府数据的关联数据实现

关联数据建立在现有本体论(ontologies,如Word―Net、FOAF、SKOS等)之上,并和本体论相互关联。数据集授权访问自己的知识库,并且连接到其他数据集的内容。这些数据集内的知识库都可以被访问,并和其他数据集的内容连接在一起。以关联数据政府数据(原生政府数据以及与公共管理相关的信息),其核心在于标识和发展一套本体模型和实践指南,从而帮助政府实现关联数据。而这一问题的关键点就在于通过将各类术语体系,包括与政府运作有关的各类数据模型整合,将其开发规范成一个政府数据本体,从而使得政府数据更规范,更有关联,容易查找。

政府数据覆盖众多部门、机构、团体,各自行使着不同的行政职能。这些部门之间相对独立(例如农业、卫生、税务、教育等部门),各自使用的系统和数据格式也各有不同,各自构建的数据资源具有很高的自治性。这些部门出于各种关系和目的,经常需要进行不同数据源之间的数据交换操作,即使在部门内部,业务系统升级或数据结构需求等变化,也需要进行数据转换的操作。要实现这些数据转换,仅仅对数据源进行物理层面上的连接是不够的,还需要建立逻辑上的连接,以完成系统中数据结构与数据语义的完整交换。要实现这些分布、异构数据资源的共享和互操作,就需要建立一个基于多本体的核心政府元数据集。

本体是对某一领域中概念及其关系的显式描述,在知识表现、语义描述与提取中能够发挥重要作用。核心政府元数据集由一个具有全局共享本体和多个自治的本地本体组成。XML Schema的Namespace将这些全局共享本体的元数据提取出来,作为通用的元数

据集,并用命名空间标志,以供复用。XML Schema的Namespace将定义并标志这些全局共享本体,提供其概念声明,指明这些概念间的语义关系,给定这些概念的唯一Label。XML Schema的Namespace由一个注册机构来进行统一管理和维护。随着本体及关联数据理论的发展,利用本体标注技术来完成不同模式数据转换,从而实现数据的统一标准已经成为可能…。

政府数据的本体应该是由政府数据领域的专家和知识工程师构建的高质量的领域本体,采用从上向下的方法,在统一政府数据本体的指导下,得到RDF本体实例文档。隶属于同一领域本体的本体实例RDF文档,可以在承认同一领域本体的不同计算机之间进行数据交换。这一本体系统的建立,就使得政府数据有了系统的资源描述体系和推导线路图。

以data.gov.uk为例,从本体发展和政府数据的应用需求来看,建立一个核心政府领域本体以供所有数据转换操作所用,同时在各个具体的应用领域,又有一个子应用本体。当需要进行本体间概念交换时,可采用本体映射相关技术予以解决。如在关于学校的RDF文件中,指明了所使用的本体是core schools ontology,如图1所示:

以Data.gov提供的2009 VHA Facility Quality andSafety Report-Infrastructure数据集为例,在RDF文件中,指明了所使用的本体http://data-gov。tW.rpi.edu/2009/data-gov-twc.rdf。而这一本体的定义为:

The ontologyfor RDF data published at http:t/data-gov.tw.rpj.edu.

dgtwc ontology

version 0.3.3

该本体由第三方机构维护,不仅适用于Data.gov,还可以被其他国家和地区的政府机构所用。

领域本体如果没有一定的机构进行支持与维护,必将影响共享的持久性和有效性;一些已有的复杂模型,如果使用多种本体进行描述,而这些不同的描述没有明确的匹配关系,必然会限制数据集的语义互操作。因此在创建新的领域本体时,政府数据的构建管理者应该在重用和扩展已存在的元素集方面进行合作。当元数据关系交叉时,匹配关系同样存在于领域本体之中,通常使用RDF词汇描述语言(RDF Vocabulary Description Language(RDF Schema))和OWL本体语言(OWL Web Ontology Language)描述语义关系。资源的创建者及维护者应当保持良好沟通,从而使得领域本体之间的概念联系更加清晰明确。

基于不同的本体而构建的关联数据,是建立在不同政府部门资源及其他领域资源之间的,如气象机构的天气数据、农业部门的生产数据,通过整合规范,标识所涉及到的主要实体,抽取其中的关联数据,并进行语义匹配,从而使得政府数据不再单一不可复用,这就是利用关联数据技术的优势所在。通过这种方式,政府数据可以通过重用其他领域数据而获利,政府数据也可以促成其他领域没有的活动,并产生新的关联数据,使得数据成为一个生长着的有机体。

3政府关联数据的应用

关联数据的功能体现在两个方面:①数据整合,即通过关联数据将各种数据源无缝地关联起来,成为一个广域分布的数据库;②数据发现或挖掘,关联数据对关系形式化描述,形成一张关系地图,使得机器可以通过理解和处理数据之间的各种关系,发现新的数据。政府数据在使用关联数据之后的另一核心问题是开发基于关联政府数据的Web应用。

3.1关联数据的SPARQL查询

英国政府正在运作data.gov.uk网站,通过这个网站,英国政府不仅仅用多种形式(比如CSV)开放数据,而且数据的主要采用关联数据来进行。美国政府的data.gov网站最初只是提供开放的数据,并且对PDF格式很依赖,后期整个网站进行了重构,在RPl(Rensselaer Polytechnic Institute)组织的帮助下将其中一部分数据转换成RDF格式来。这两个网站都支持SPARQL(关联数据网络检索语言)查询方式。

如需要检索伦敦地区的学校名,可以使用如图2所示的检索式来进行:

得到的结果是机器可读的检索结果,同时data.gov.uk还可以输出支持jason的元数据信息。

3.2关联数据的分面组配查询

基于Data.gov和data.gov.uk,目前已经派生出了很多实验性的应用。如The DATA.gov Catalog,提供了基于Data.gov的分面组配查询,分配组配查询是指以某一或某些属性特征作为信息分组依据。主要目的是在大数量检索结果的组织方面,通过属性或特征划分,将大数量检索结果分为较小的结果单元,以提高用户的信息吸收水平。在The DATA.gov Catalog,用户可以根据类别、机构、数据格式以及相关州来进行组配,直观获得相关的数据集,如图3所示:

3.3关联数据的可视化

政府数据在通过关联数据之后,还可以通过可视化工具,显性地直观展示各不同对象之间的连接关系。Data.gov.uk推出了一个实验性项目,将政府架构方面的关联数据以可视化的方式做了直观的显示,如图4所示:

visualizefree.con允许用户通过上传数据集来建立起可视化的数据展示,图5是美国各州统计数据的可视化演示。

在政府日常运作中,除了和人民生活息息相关的物价数据、天气数据、经济运行数据之外,还包括繁多的统计数据、地理空间数据等,这些数据都可以通过使用关联数据标准来进行。这样,就能够打通不同系统之间的壁垒,使得数据易于被理解、被重用和被获取,为政府数据的Web集成提供基础,也为政府数据的应用创新打下基础。本文中所提到的政府数据关联化之后的应用,只是开始。一旦世界各国、各个领域的数据都能通过关联数据或者其他开放、可复用的标准来进行,数据将不再是单薄的数据,而会是喷薄欲出的创新源泉。

4结语

关联数据提供了关联结构化数据的新媒介,可以让机器更好地理解和读取这些数据。但关联数据本身不会给信息增加任何语义含义,只是更好地携带和展示语义数据供用户访问。所以,关联数据虽然本身并不具备语义特征,但它可以在数据层面建立关联,为真正的语义网铺平道路。政府数据作为网络的权威数据源,通过关联数据,将有助于相关信息更好地服务于社会和大众。

上一篇:移动电子政务公众采纳影响因素的实证研究周沛 下一篇:国外日常生活信息查询行为研究进展(2001-2010)