基于数据资产的数据质量评估模型研究及应用

时间:2022-09-29 12:13:35

基于数据资产的数据质量评估模型研究及应用

摘要:针对信息化产业的迅猛崛起,提高国网数据剩余价值最大化。根据数据质量的特性提出数据资产理念,使用数据资产的数据质量监测技术和数据资产评估技术,进行量化数据质量指标。分析量化指标,构建模型。实现集约、有序的数据共享,提升企业数据共享能力,优化企业数据质量,保障数据安全。

关键词:数据质量; 数据资产; 数据质量监测;量化指标;数据安全

中图分类号:TP181 文献标识码:A 文章编号:1009-3044(2016)30-0241-02

1 概述

电力行业作为国家基础产业也紧跟时代步伐,国网大力推广智能电网等相关科技项目。智能电网利用电力系统辅助人工管理,就会产生海量数据。海量数据的管理一直都是困扰企业化运作的一个很大问题。从海量数据中提取有效信息,跟数据质量息息相关,数据质量状况很大程度上会影响到大数据分析的结果,可以使其产生偏离,误导企业决策。

目前,国内外虽然提出了数据资产的理念,但没有具体的数据资产管理体系,所以未在实际中应用。近年,国网企业间通力合作开展各种方式完善的数据资产管理体系为基础,实现集约、有序的数据共享,规范数据从产生到共享应用的各个环节,有效度量企业数据质量,为大数据在企业中的应用提供有力保障。

2 数据质量现状

国内数据质量管理研究大多才刚刚起步,大多数企业数据质量管理还停留在具体操作层面,尚未形成完备的体系,未形成可操作的质量标准。通过对电网企业数据质量相关问题进行研究,其数据质量具有以下几个特点:

1)数据质量对象可以用若干个质量特性进行描述。质量属性是数据属性的扩展,与数据属性不同的是,质量属性描述了对象在数据质量方面的约束。

2)数据质量的元素是相对稳定的。但许多系统,包括一些专业领域都在试图定义局部的数据质量元素规范,以形成对数据质量的定量或非定量的衡量标准。

3)数据质量指标计算是复杂的。简单的算法可以使一个约束表达式来描述,如关系数据库中的约束定义已经非常完善,但其他方面的算法则需要进行更深入的研究。

3 关键技术

基于数据资产的数据质量监测跟传统数据质量模型息息相关,数据管理体系的建立是一个不断推进的过程,需要进行大量的方法研究和实践工作。涉及以下几个方面的技术:

1)数据资产全景展示技术:全景视图是以企业数据标准为基础、以各应用系统数据为来源,依据企业业务规划,梳理产生的企业数据资源的管理、业务、技术属性信息,以及相应的信息化描述和展现。

2)数据溯源建模技术:利用IPO模型,对指标的形成过程进行逐步回溯,形成指标的全局视图,对每一个指标的产生进行溯源,掌握所有与之相关的最初始的人工输入数据和自动采集数据。

3)数据资产质量监测技术:利用业务监测、技术监测两周方式对数据资产溯源全过程节点进行及时性、完整性、准确性、实效性、一致性和关联核查内容等几个方面进行监测。

4 数据质量监测指标体系构建

4.1指标构建理论依据

从整体角度对企业数据资源进行的全方位、多层次、动静结合的描述,即构建全景视图,包括数据资源的产生、加工、流转与使用关系,其核心是存储数据属性(S)和处理节点(P)。以回溯为手段,形成树状的数据溯源视图,实现数据的形成过程可控。根据数据资产溯源图从数据资产产生、加工、应用全过程节点发现业务系统运维管理中的薄弱环节,推动业务系统运维管理水平的提升。

4.2数据质量分析量化指标

首先建立企业数据资产台帐,其中包含数据资产台帐登记管理、数据资产台帐变更管理和数据资产台帐停用管理。通过对数据资产完成率、数据资产价值、数据资产可信度等维度对数据质量评估方法进行分析,建立基于数据资产的数据质量评估模型。

4.2.1 数据资产化完成率评估

数据资产化完成率是用于衡量数据资产台账属性和溯源图的完备程度,通过数据资产台账属性和溯源节点的完成率加权综合计算获到。数据资产台账属性的完成率是对各属性通过分类、加权之后获得;溯源完成率的计算通过对输入节点、处理节点、传输节点和存储节点四类节点完成率经过节点完成率评估模型加权之后获得。以下是各项指标计算方式如表1。

4.2.2 确定应用评估系数

数据资产应用评估系数是采用AHP法构建应用指标评价体系。层次分析模型是把复杂的问题分成若干个组成因素,并按支配关系分组形成层次结构。分析各因素的关系,建立递阶层次结构。计算合成权重,即全局权重。根据对数据资产价值应用及评估因素的分析,采用AHP方法,得到如表2所示的指标体系。

计算出各项应用评估指标权重之后,可以确定应用评估系数的计算模型,如下:

应用评估系数=∑(每一个应用评估指标权重*该指标评估因素的评分值)

4.2.3 数据资产可信度评估

分析影响数据资产可信度的因素,通过数学模型确定各影响因素所占比重,再综合各因素评估所得定量数据,得到数据资产可信度的最终度量数据。

首先利用层次分析模型,可信度量化模型的重点是确定各层次、各影响要素在模型中所占的比重,可以通过层次分析法来完成。建立可信度量化模型,可信度量化以层次分析模型中确定的各评估项目所占比重以及各评估项目实际得分为基础,通过加权计算得到最终的可信度得分。

1)汇总对数据资产生可信度的所有初始数据录入/采集点,每一个输入点根据输入方式不同,归类到三个大类中。各输入点的来源可信度根据所属类别运用层次分析法得出。形成该数据资产的所有输入点的来源可信度计算得出的平均值,即为该数据资产的来源可信度。

2)数据资产质量受到技术、业务、管理三方面的影响,这三方面的影响因素全部纳入到评估项目中。假设影响数据资产质量的因素共有m条,评估项目以i(i=0…m)编号,各评估项目所得分为,通过层次分析模型得到的各评估项目应占比重为,则该数据资产在完成率部分的可信度得分为的总和。

5 研究成果

根据数据资产的数据质量监测研究,结合当前较流行的数据与信息质量管理理论,提出面向企业的数据质量评估模型。定义企业级数据质量溯源图,完成数据质量溯源节点的信息定义,基于公司信息系统数据质量现状,提出适用的企业级数据质量评估分析方法,包含定义遵从、完整、准确、有效、精度、无重复、冗余、可访问、及时、明确、可用、适用等多种尺度。

6 总结

基于数据资产的数据质量研究所形成基于数据资产的数据质量评估分析方法、基于数据资产的数据质量监测方法、基于数据资产的数据质量监测工具,实现集约、有序的数据共享,规范数据从产生到共享应用的各个环节,提升企业数据质量,保障数据安全,支未笫据应用建设。

参考文献:

[1]Pipino L,Lee Y,Wang R.Data quality assessment [J].Communications of the ACM,2002,45(4):211-2182.

[2]李谦,白晓明.供电企业数据资产管理与数据化运营[J].华东电力,2014(3):487-490.

[3]卢二坡,黄炳艺.基于稳健MM估计的统计数据质量评估方法[J].统计研究,2010,27(12):16-22.

[4]黄心宇.数据质量评价模型的建立与实现[J].商场现代化,2008(8):396-397.

[5]袁满,张雪.一中基于规则的数据质量评价模型[J].计算机技术与发展,2013,23(3):81-89.

[6]MCAFEE A,BRYNJOLFSSON E.Big data:the management revolution[J].Harvard Business Review,2012,90(10):60-68.

[7]刘军,吕俊峰.大数据时代及数据挖掘的应用[N].国家电网报2012-05-15(10).

[8]孟小峰,慈祥.大数据管理:概念、技术与挑战[J].计算机研究与发展,2013,50(1):146-149.

上一篇:基于.Net的学生宿舍管理系统的实现 下一篇:吉林市农业委员会发言提纲