数据元同义词在公安数据资源整合中的应用研究

时间:2022-10-27 01:49:46

数据元同义词在公安数据资源整合中的应用研究

摘 要

论文分析了公安信息化在数据采集、数据汇集、数据整合、数据应用方面遇到的问题,从数据元同义词的角度,提出了一种数据元、同义词、字段关联方法,应用于公安数据标准管理中,为公安数据资源整合和应用提供了借鉴和指导。

【关键词】标准化 数据元 同义词

公安科技信息化经过多年的发展,已经建立的众多信息系统,覆盖了公安各业务条线的工作,信息系统建设已经进入了“大整合、高共享、深应用”的高速发展期,信息资源成为动态化信息化条件下的第一资源,信息化优势已成为核心战斗力的主要优势。但是,要打破部门间信息壁垒,提供更广泛的信息共享渠道,有效提高各警种综合应用信息资源的效能,需要着力解决信息资源“不够用、不好用、不能用、不敢用”的问题,为此,本文从数据元同义词技术的角度,分析和研究数据资源整合中数据元同义词的应用方式和途径,为公安信息化建设提供借鉴和指导。

1 数据元及其同义词的研究基础

1.1 数据元

数据元(Data element)又称数据类型,通过定义、标识、表示以及允许值等一系列属性描述的数据单元,在特定的语义环境中被认为是不可再分的最小数据单元。数据元是称之为数据的一个广义概念的特殊成员。总而言之,数据是事实、想法或命令的一种表示数据被收集、组织、记录、处理和存放在一个可检索的表中。数据还必须适用于以人工或自动方式进行交换、解释及加工处理。

在数据建模出现之前,“数据元”这个术语已被普遍使用,用于表示指导企业商务信息的数据单元传统上被称之为数据元。数据建模的演进就是为捕捉这些数据表示的语义提供一种有效的方法。

数据元是建立建模对象与该对象属性的桥梁。在一个数据模型中,一个实体类型、对象类等的某个特性的属性会被企业选择记录为数据,我们通常通过属性来表示这些实体和对象使用所需的信息。对每个实体,通常有许多属性会引起业务分析人员的兴趣。

1.2 数据元同义词

在标准的定义中,数据元的同义词被定义为“同义名称,即一个数据元在不同应用环境下的不同称谓,一个数据元可以有多个同义名称”。该同义词还需要和语境结合,语境是对产生或使用数据元的应用环境或应用规程的说明或描述,一个语境可以是一个业务领域、一个信息系统、数据库、文件或数据模型等,也可以是他们的组合。

因此在应用中,目前数据元的同义词仅仅是作为数据元的一个基本属性,其实际价值并没有得到更深入的体现。

1.3 数据元在政府信息化中的应用情况

早在2004年,国家标准化委员会就已了《电子政务数据元标准》,包括设计与管理规范,详细约定了数据元的表示规范、数据元的属性提取和分析过程、命名规则、分配规则、使用规则,以及数据元的提交注册。随后各个政府主管部门的各自领域的数据元目录,包括工商、船舶、税务等。2011年,公安部了公安数据元编写规则(GAT 542-2011),分两批次了约500个数据元。这些数据元目录的,为公安科技信息化带来了明确的数据项格式要求,为公安各业务警种的数据建模和分析应用提供了良好的数据基础。

2 公安信息化面临的问题

数据元目录的为公安各业务警种的标准化、规范化提供了很好的指导,但是在数据采集、汇集、整合、应用等实际应用方面,仍然存在众多问题,需要在数据元的应用上要有所突破。

2.1 数据采集方面

各警种对业务的描述方式不一致,无法做到用统一的数据元名称来表述,导致实际应用中,难以做到“归口采集、分类管理”,如何提高数据的权威性、时效性、一致性,有待从从数据建模等底层设计层面进行解决。

2.2 数据汇集方面

公安数据的汇集工作,主要是对已获取的业务、社会、互联网、多媒体等各类数据资源,进行清洗转换,保证数据的同步和一致性,形成数据资源综合库,但是汇集后的数据资源存在着数据资源字段采集不统一,后期整合不方便的问题。在数据字段的规范管理方面,必须要以数据元为标准开展数据清洗转换,建设“标准资源库”。由于数据项受业务描述的影响,同样的数据项含义有无数种不同的表述方式,需要建立标准数据元与实际应用的数据项之间的关联关系,只有建了具有对应关系的“标准资源库”,才能为数据资源的清洗、转换服务。

2.3 数据整合方面

公安机关采集录入资源库的信息数据普遍数量可观,但是很大程度上存在着数据不好用的问题需要依托综合资源库,厘清数据目录,执行好数据标准,管好数据质量,建立“一体化、规范化、标准化”的公安信息资源目录体系,推进数据的规模应用、深度应用。

2.4 数据应用方面

数据应用的关键,在于如何有效组织数据,建立与业务单位的对接,有效提供数据内容,形成数据服务工作流程,但是目前的数据资源服务,受数据模型的制约,主要的工作方向是扩充数据服务接口,对外提供接口调用,优化接口性能等工作内容,无法随着业务的变化,及时重组、调整数据资源。

3 基于数据元同义词在公安中的应用

在公安数据资源整合过程中,数据元的同义词作为一个重要的属性,我们可以通过构建数据元同义词的关联模型,建立起数据项、数据元、数据建模直接的桥梁, 解决数据资源的采集、汇集、整合、应用的问题。

3.1 构建数据元同义词模型

构建同义词库方法主要是通过对大规模语料的学习来构造出词语的向量空间。同义词库内部词语之间的关系可以是由语言专家人工定义的,其优点是简单有效,但这种方法得到的结果受人的主观意识影响较大,并且其随语言变化发展而变动的动态变更性较差;也可以是基于大规模语料的,最终结果比较客观,并且易于随语料的变化而改变,但其局限性在于计算过程的时间和空间复杂度都很高。本文采用人工定义与语料自学习相结合的方式,通过计算机程序来构造能反映词语相关关系的语义库,该方法以对大规模语料学习为基础,考虑了多种对词语间语义产生影响的因素,并采用一种迭代式的学习过程,用这种方法构造的语义库能够在不占用大量存储空间的条件下,较好地反映词语间的语义相关程度。

3.2 建立数据项与数据元的关联关系

在建立数据元同义词库的基础上,将公安汇集库中的数据项进行导入,采用机器预判断与人工确认相结合的方法,建立数据元、数据元同义词、数据项字段之间关系。结果如表1所示。

3.3 数据标准化转化

在数据元同义词标准应用模型的基础上,采用公安部的数据元标准作为比对和审核的统一标准,设计了数据元和实际数据项的关联关系建立模型,对已建数据项提供数据元比对、检测,对新建数据项,提供设计支持,将数据元真正落地到实际应用中,同时建立和完善了本地数据元的管理机制,通过系统的应用,不断丰富和扩充部数据元标准,助推数据元标准的建设和管理工作。

3.4 构建数据地图

利用数据元的同义词管理,深化拓展数据标准在实际资源管理上的应用,实现数据项和数据元的自动关联,建立以数据项为管理粒度,跨系统、跨表格、跨数据项的、完全打散重组的、规范的数据黄页。

4 技术创新点及意义

4.1 数据元同义词的首次应用

本文创新地提出了数据元同义词的全新应用理念,实现了数据元应用的有效落地。本文对某市公安汇集库中的80000多个字段做了分析,实现了绝大部分字段归类到具体某个数据元,如“报案人、登记人、受害人、嫌疑人姓名”等都是指“姓名”。通过200余个数据元,建立起了100多个系统、2000张数据表、80000个数据项的关联关系,实现了数据项管理粒度的整合。

4.2 数据标准化

本文依托公安部数据元标准,以数据元同义词模型为基础,构建了从数据采集、编目和应用的数据资源管理体系,以数据元标准管理数据采集,规范了数据采集源头;做精了数据编目,形成精细化、动态化的资源目录;做优了数据应用,形成了灵活、便捷的数据服务新模式。数据标准是推进数据整合、开展清洗转换的重要基础。实现了管理数据项、数据代码,制定了相应的服务标准接口。

5 总结和展望

本文以数据元的同义词为切入点,构建了数据元标准化模型,很好的解决了数据资源的采集、汇集、整合、应用的标准统一问题,大大提高了公安部门信息资源的利用率,为大数据条件下的“规模应用、深度应用”奠定了良好的基础。

同时,数据元同义词也可以广泛应用于其他行业的政府信息化,为数据目录、数据主题库提供工具方法,也可为人员信息的标准数据项归集、主题库、专题建档提供支持,应用领域广阔。

参考文献

[1]刘丽华.数据元标准化基本方法[J].计算机世界,2006(10).

[2],王文生.元数据与数据元的内涵及其应用[J].农业网络信息,2005(11).

[3]袁满.数据元技术是解决IT行业信息标准化不可忽略的重要技术[D].大庆石油学院,2010(1).

[4]丁波涛.电子政务中的信息共享研究[J]. 电子政务,2006(10).

作者单位

上海市公安局 上海市 200025

上一篇:“会诊”《急诊室故事》,传递社会关怀 下一篇:电力电缆局部放电模式识别技术分析