基于聚类分析的离群检测方法在电网数据质量管理中的应用研究

时间:2022-07-06 09:18:03

基于聚类分析的离群检测方法在电网数据质量管理中的应用研究

摘 要: 随着各种技术在电力企业信息系统数据质量检测中的应用,企业数据质量得到大幅度提升。然而,当前的数据质量检测方法一般只是针对数据缺失、乱码、特殊字符等浅表的显性数据质量问题提出了解决方案,对于没有明显业务规则、隐性的数据质量问题仍然缺少有效的技术检测手段。以广东电网公司生产设备台帐数据质量检测为例,提出了基于聚类分析的数据异常值样本离群检测技术,探索该技术在数据质量提升中的典型应用方法,为不断完善数据质量检测规则提供了技术支撑。

关键词: 数据质量; 聚类分析; 离群检测; 设备台帐; 异常值

中图分类号: TN915?34 文献标识码: A 文章编号: 1004?373X(2016)15?0137?03

Abstract: With the application of various techniques in information system data quality detection of power enterprise, the enterprise data quality is improved shapely. The current data quality detection methods only can provide the solutions for the obvious data quality problems, such as data missing, messy code, special character, and lack the effective technical detection means for the unobvious business rules and recessive data quality problems. In this paper, the production equipment account data quality detection of Guangdong Power Grid Corporation is taken as an example, and the sample outlier detection technology of data abnormal value based on cluster analysis is proposed. The typical application method of this technology in data quality promotion is explored to provide the technical support for the constant improvement of data quality detection rules.

Keywords: data quality; cluster analysis; outlier detection; equipment account; abnormal value

0 引 言

近年来,随着信息化建设进程的加快和信息系统的长期运行,广东电网公司积累了大量在线数据,为业务指导和经营决策奠定了基础。为了提升信息系统数据质量,加速信息系统的实用化,广东电网公司建立了数据质量检测平台,平台运行后,数据质量的检测效率、检测覆盖面和准确率都得到大幅提升[1]。然而,当前的数据质量检测方法一般只是针对数据缺失、乱码、特殊字符等浅表的显性数据质量问题提出了解决方案,对于没有明显业务规则、隐性的数据质量问题仍然缺少有效的技术检测手段。如对于涉及复杂场景的潜在数据质量问题,如线路长度、设备电流值、缺陷类别等,校验规则比较宽泛,大多数情况只考虑单个字段,缺少对指标间关联规则的考虑,造成数据质量问题挖掘不全面、不到位。

基于聚类分析的离群检测数据挖掘方法能够根据数据支撑的业务目标,对海量数据进行快速、高效、准确的提取,有效挖掘出隐藏的离群数据点,分析其背后的原因,结合实际业务规则判定是否为坏数据,有针对性的进行处理,进而提高数据质量水平。本文将基于该方法在数据质量检测中的应用展开研究。

1 基于聚类分析的离群检测关键技术研究

离群点检测是数据挖掘技术的重要研究领域之一,用来发现数据明显偏离于其他数据,不满足数据的一般行为或模式的数据。离群点的挖掘方法很多,可分为基于统计的、基于深度的、基于聚类的、基于距离的和基于密度的分析方法[2?3]。本文主要研究基于聚类分析的离群检测方法。

聚类的思想主要是利用数据点和聚簇间的相互关系,通过把数据集分为多个不同的簇,使得聚簇内的数据点相似度最高,而不同聚簇间的差异度最大。主要算法[4?5]包括CLIQUE,CLARAN,K?means,FindCBLOF等。

根据数据点和聚簇的关系,可分为是否属于聚簇、远离聚簇、属于稀疏或较小的聚簇,基于聚类的离群检测包括以下三种思路[4]:

(1) 正常数据属于某个类簇,而离群数据不属于任何一个类簇。这类聚类方法不同之处在于,其不强制每个数据对象归为一个类簇。典型算法是CLARANS。

(2) 正常数据与离其较近的类簇中心距离较近,而离群数据远离与其最近的类簇中心。基于这种假设的离群检测方法通常包括两个阶段:第一阶段采用聚类算法对数据进行聚类;第二阶段针对每个数据对象,计算每个对象到其最近的类簇中心的距离,并将这个距离作为离群度量。典型算法为K?means。

(3) 正常数据属于较大且较密的类簇,而离群数据位于较小和较为稀疏的类簇。该方法首先给出一个关于类簇大小和密度的阈值,小于此阈值的类簇整体都被认为是离群数据。典型算法是FindCBLOF。

针对广东电网公司的数据现状,选取K?means聚类算法作为离群点检测的主要算法。

1.1 K?means聚类算法原理

K?means算法是很典型的基于距离的聚类算法,采用距离作为相似性的评价指标,即认为两个对象的距离越近,其相似度就越大。该算法认为簇是由距离相近的对象组成,因此把得到紧凑且独立的簇作为最终目标。

1.2 K?means聚类算法特点

K?means聚类算法快速、简单;对大数据集有较高的效率并且是可伸缩的;时间复杂度近似于线性,而且适合挖掘大规模数据集。

1.3 K?means聚类算法规则

2 基于聚类分析的离群点检测方法在数据质量

检测中的典型应用

通过对数据的初步探索可知,断路器重量的数值在数据录入过程中容易被忽视,部分数据存在录入不准确的问题,由于断路器的重量没有明确的技术规范来确定数值范围,基本的统计分析方法难以较好地定位异常值。同时绝大部分重量的录入值是正确的,异常数据属于少数,符合利用基于聚类分析的离群点检测方法进行数据质量问题的检测。利用聚类的方法可自动识别相似性较高的数据,自动按相似性分割为不同的簇,样本数较少的簇往往存在数据质量问题。因此,选取断路器相关数据质量检测作为基于聚类分析的离群点检测方法的典型应用场景。主要应用步骤包含:确定数据源、进行数据探索、确定建模数据、进行聚类分析、识别异常数据。

算法执行过程中,初步设定聚类数为20,通过聚类指标和观测实际评估聚类效果,重复设定合理的聚类数,不断优化聚类模型。根据聚类的相关指标评估原理,若伪[F]统计量较大而分类数较少,且[R]方不再大幅度增加,则可表明聚类效果良好,并且通过进一步查看原观测分群情况,把数据集分为15类较为合理,加上剔除的缺失值,共16类。分析相关指标如表1所示。

建模结束后,尚需对断路器重量数据进行业务特征刻画,从而反映不同电压等级的断路器重量的特征差别。目前广东电网数据质量管理系统未设定规则对主网断路器重量字段进行数据质量检测,由聚类结果可知,主网断路器重量的聚类结果与电压等级具有较强相关性。进一步分析正常数据各电压等级的重量范围,500 kV及以上断路器重量可考虑设定为2 000~13 000 kg;220~252 kV断路器重量可考虑设定为500~8 000 kg;35~145 kV断路器重量可考虑设定为200~6 000 kg。针对各电压等级下断路器的重量,建议进行数据质量问题检测的规则如表3所示。

选取主网断路器的重量字段9 190条非缺失且电压等级在合理范围内的数据作为模型验证集,应用上述案例聚类模型形成的规则进行数据质量检测,可以发现1 032条存在潜在问题的记录,模型实际检测效果良好,能够有效地发现主网断路器重量字段的数据质量问题。为了进一步提升检测有效性,需进行实地调研和专家访谈,对检测规则进行评估,进一步细化和补充模型检测规则。

3 结 语

本文针对广东电网公司数据质量检测中存在的问题,通过对基于聚类分析的离群检测方法关键技术进行研究,以断路器重量等相关数据质量检测为典型应用场景,建立了该方法的应用解决方案,并提出了数据检测规则固化的建议。对于那些没有明确技术规范来确定数据取值范围的连续数值类字段,可结合实际业务场景,采用聚类方法发现潜在数据质量问题,如设备的重量、线路长度、杆塔数量等。经应用校验表明基于聚类分析离群检测数据挖掘方法在数据质量检测方面的应用效果显著。有效提升了广东电网公司数据质量和信息系统实用化水平。

参考文献

[1] 杨浩,徐晖,萧展辉,等.广东电网公司生产管理信息系统实用化评价研究[J].广东电力,2010,23(4):29?34.

[2] 薛安荣,姚林,鞠时光,等.离群点挖掘算法综述[J].计算机科学,2008,35(11):13?18.

[3] RAMASWAMY S, RASTOGI R, SHIM K. Efficient algorithms for mining outliers from large data sets [J]. ACM SIGMOD record, 2000, 29(2): 427?438.

[4] 雷大江.离群检测与离群释义算法研究[D].重庆:重庆大学,2012.

[5] SMITH R, BIVENS A, EMBRECHTS M, et al. Clustering approaches for anomaly based intrusion detection [J]. Proceedings of intelligent engineering systems through artificial neural networks, 2002, 12: 579?584.

[6] 范明,范宏建.数据挖掘导论[M].北京:人民邮电出版社,2012.

[7] HAN J, KAMBER M, PEI J. Data mining: concepts and techniques [M]. San Francisco: Morgan Kaufmann, 2006.

上一篇:探究“意境”在中国油画风景写生中的运用 下一篇:老年大学计算机课程创新的成就与经验