两种剔除异常数据的方法比较

时间:2022-08-16 06:14:24

两种剔除异常数据的方法比较

摘 要:介绍测量系统中剔除异常数据的两种方法,其中包括一种新的判据。根据应用数理统计参数估计理论,详细分析两种方法的工作原理、剔除步骤。对某次实验测量数据,分别利用两种方法进行异常数据的判别和剔除,并用C语言实现,然后进行分析比较。实验证明,在采样次数较少(n≤10)的情况下,新方法剔除异常数据较多,可能容易丢掉重要信息,考虑可靠性和准确性,宜采用罗曼诺夫斯基准则。

关键词:测量系统;异常数据;数理统计;剔除方法

中图分类号:TP274文献标识码:B

文章编号:1004-373X(2008)24-148-03

Comparison of Two Methods in Eliminating the Excrescent Data

SHAO Tingting1,2,ZHANG Shuili1,ZHANG Yongbo1

((1.College of Physics and Electronic Information,Yan′an University,Yan′an,716000,China;

2.College of Electronic and Information,Northwestern Polytechnical University,Xi′an,710072,China)

Abstract:Two methods of eliminating the excrescent data in measuring system are introduced,which include a new method.Using statistical estimation theory,the principle and the eliminated process of the two methods are expatiated.For certain experimental data,the two methods are used to distinguish and eliminate the excrescent data,which is based on the C language,and the result is compared and analyzed.The experiment shows that when sampling time is fewer (n≤10),more excrescent data are eliminated if the new method is used,and some essential information may lose,so Rule RomanNoff is better to be used.

Keywords:measuring system;excrescent data;mathematical statistics;eliminated method

1 引 言

随着计算机技术的迅速发展,测控系统也趋于微机化。微机直接接收数字电信号,而被测对象常是一些模拟信号,故信号送入微机处理之前必须要将模拟信号转化成数字信号,然后进行数据采集[1]。在数据采集过程中由于操作者的失误、外界条件等原因可能会产生粗大误差。含有粗大误差的测量数据是不可信赖的,是对测量数据的一种严重扭曲,必须予以剔除[2]。在剔除时,首先应尽可能地提高测试人员高度的工作责任心和严谨的科学态度,其次是正确判断粗大误差。应该注意不能轻易剔除一个数据,否则可

能会因为丢掉重要信息而得到错误的结果。

2 两种剔除异常数据的方法

2.1 剔除异常数据的新方法

对同一信号进行重复测量,测量数据一般符合正态分布[3]。如n个采样值为x1,x2,…,xn,并且它们独立同分布,即X~N(μ,σ2),则样本的平均值[4]:

=1n∑ni=1xi~N(μ,σ2n)(1)

样本方差:

S2=1n-1∑ni=1(xi-)2(2)

根据期望与方差的点估计理论,是μ的无偏估计值;S2是σ2的无偏估计值,构造统计量:

T=-μS2/n~t(n-1)(3)

对于给定的α(0

P-μS2/n≤tα/2(n-1)=1-α,查t分布表,得tα/2(n-1)的值,可得μ的置信度是1-α的置信区间,即:

-tα/2(n-1)S/n,+tα/2(n-1)S/n(4)

对于给定置信度1-α(0

P[-tα/2(n-1)

=∫tα/2-tα/2f(t)dt=1-α(5)

式(5)中:tα/2(n-1)是t(n-1)分布上的上α/2分位点,可查表得出,由式(5)得:

-tα/2(n-1)S/n

而μ落在该区间之外的概率很小,属于小概率事件,在正常的测量过程中不会发生[5]。因此取δ=tα/2(n-1)S/n为临界值,若xi(i=1,2,…,n)满足:|xi-|>δ,则xi可判为含有粗大误差的数据,应予以剔除,所以,把|xi-|>δ作为新的判别异常数据的判据。

基于该方法的剔除步骤如下[6]:

(1) 将n个测量数据按从小到大的顺序排列,最小值为xL,最大值xH;

(2) 计算出所有测量数据的算术平均值=1n∑ni=1xi,和测量数据的方差S2=1n-1∑ni=1(xi-)2,则S=1n-1∑ni=1(xi-)2;

(3) 查t分布表得到tα/2(n-1);

(4) 计算δ=tα/2(n-1)S/n,若|xi-|>δ,则可判定xi为异常数据,应予以剔除,若|xi-|

2.2 罗曼诺夫斯基准则

一般处理数据前,认为测量数据服从正态分布,但是数理统计学可以证明,在测量次数较少的情况下,t分布更符合实际分布,该准则就是以t分布为依据建立的[7]。在一定测量次数n下,设等精度独立测得的一组数据为x1,x2,…,xn,若对某一数据xk有怀疑,可以按照如下步骤判别[8]:

(1) 先将怀疑数据xk去掉,计算出不包含xk的测量数据的算术平均值′:

′=1n-1∑ni=1,i≠kxi

(2) 计算出不包含xk的残差在内的标准偏差s′:

s′ = (∑nn = 1,i≠kv2i )/n-2

(3) 根据选定的显著水平α和测量次数n,在t分布表中查出检验系数K(α,n),δ=K(α,n)s′;

(4) 若|xk-′|>K(α,n)s′,则可判定xk为异常数据,应予以剔除,若|xk-′|

3 程序实现框图及结果分析

在某次测量[9]中实验采样数据依次为:

205.30,204.94, 205.63, 205.24, 206.65, 204.97,205.36,

205.16,204.85,204.90,取显著性水平α=0.01。分别用上述2种方法对采样数据中的异常数据进行剔除。其程序[10]实现框图如图1,2所示。

3.1 新方法的实现框图

新方法的实现框如图1所示。

图1 新方法的实现框

3.2 罗曼诺夫斯基准则实现框图

罗曼诺夫斯基准则实现框如图2所示。

图2 罗曼诺夫斯基准则实现框

仿真结果表明:在该组测量数据中,采用新方法时,数据204.85,205.63和206.65为异常数据,应予以剔除;而采用罗曼诺夫斯基准则,仅数据206.65为异常数据,应予以剔除。可见,对同一组测量数据(测量次数较少即n≤10时),使用新方法剔除的异常数据比使用罗曼诺夫斯基准则要多,这样可能容易丢掉重要信息而得到错误的结果。

4 结 语

测量系统中尽量减少粗大误差、剔除异常数据,是保证正确数据采集的前提。文中涉及的2种方法均能剔除异常数据,但它们建立的理论基础有所不同。由实验结果可得在采样次数n≤10的情况下,罗曼诺夫斯基准则是种比较成熟的判断准则,建立的基础符合数理统计理论的有关已证明的结论,剔除异常数据时比较谨慎;然而新方法,虽然也可以剔除异常数据,但它是建立在测量数据服从正态分布的条件下的,与数理统计的有关证明结论有些偏差,即它的理论存在一定的缺陷,剔除的异常数据较多。所以在测量次数较少(n≤10)时,为准确起见用罗曼诺夫斯基准则,其效果更可靠。

参考文献

[1]孙传友,孙晓斌,汉泽西,等.测控系统原理与设计[M].北京:北京航空航天大学出版社,2002.

[2]马建仓.电子测量技术[M].西安:西北工业大学出版社,2004.

[3]盛骤,谢式千,潘承毅.概率论与数理统计[M].北京:高等教育出版社,1989.

[4]陈魁.应用概率统计[M].北京: 清华大学出版社,2000.

[5]耿素军,余剑.智能测量系统中粗大误差的处理[J].电气电子教学学报,2005,27(3):37-39.

[6]余剑.高精度智能测量系统中粗大误差的处理技术[J].测试技术学报,2003,17(3):258-261.

[7]吴天鹏.对粗大误差判别的理论探讨[J].黄石高等专科学校学报,1995(2):62-66.

[8]叶川,伍川辉,张嘉怡.计量测试中异常数据剔除方法比较[J].计量与测试技术,2007,34(7):26-27.

[9]邵婷婷,马建仓,胡士峰,等.电子罗盘的倾斜及罗差补偿算法研究[J].传感技术学报,2007,20(6):1 335-1 337.

[10]谭浩强.C程序设计[M].2版.北京:清华大学出版社,2000.

作者简介 邵婷婷 女,1982年出生,山东淄博人,助教,硕士研究生。研究方向为智能信息检测与处理。

张水利 女,1974年出生,山西运城人,硕士研究生。主要研究方向为智能信息处理、图像信号处理等。

张永波 男,1980年出生,山西繁峙人,硕士研究生。主要研究方向为智能信息处理、移动通信中的信号处理等。

注:本文中所涉及到的图表、注解、公式等内容请以PDF格式阅读原文

上一篇:基于帕累托法则的软件测试策略优化 下一篇:基于双PowerPC 7447A处理器的嵌入式系统硬件设...