计量测试中异常数据剔除方法的探讨

时间:2022-10-27 10:42:04

计量测试中异常数据剔除方法的探讨

摘 要:文章基于计量测试中异常数据的产生和剔除方法,进行了分析和研究,从而尽可能准确、高效地剔除异常数据,结合实例分析了剔除方法在应用中应该注意的事项。

关键词:计量测试;异常数据剔除;精确性

计量测量工作是一项对数据精确性要求很高的工作,而在通过计量测量得到大量数据后,还应对数据进行科学的整理,对其中可能出现的异常进行有效的剔除,从而保证测得数据的有效性,供相关实践使用。

1 计量测试工作的作用

计量测试工作主要是在日常的各类生产实践中,出于对各种数据的使用需要而对检测仪器的测量结果进行评估,通过评估结果来判定检测仪器的状态是否能够满足正常使用要求。检测数据的重要性是不言而喻的,只有依靠数据,才能对生产工艺的稳定性、各环节产成品以及最终成品的各项参数是否能符合使用需要等作出科学的评判。它也是用以指导工艺改进和变革、不断提高产品质量的最有效工具。没有准确的计量,就不可能得到令人信服的数据,那么试图依靠数据进行工艺过程控制、产品质量评定、产品质量的持续改善等就不可能实现。

2 计量仪器产生误差的原因

统计学上,将在一组重复测量数据中,有个别数据与其他同组数据存在明显差异的数据判定为可疑数据,这种数据的明显特点是与组内其他数据存在明显的差异,也即数据发生了变异,那么这种变异究竟属不属于合理的范畴,则有待于通过进一步的判断才能确定。

计量仪器属于一种高精密的仪器,对外界环境的要求相对较高,外界环境发生剧烈的变化也可能导致计量仪器的测试出现偏差,从而导致检测仪器的结果出现较大的误差。一般导致计量仪器产生误差的原因可能有:(1)检测仪器遭受冲击,主要是机械冲击和外界的震动等;(2)电网供电电压的变化、电磁干扰的影响导致检测仪器无法正常工作;(3)检测人员自身工作疏忽、主观测量失误、工作经验不足熟练程度不够导致的操作不当;(4)仪器本身出故障,比如零件松动、内部电子元件损坏等。

异常值由于与正常的合理值存在较大的偏差,如果参与到计算中或是判定过程中,往往会对结果造成极大的干扰,从而影响人们作出正确的决策。因此必须要剔除异常值,但是如果采用了不正确的剔除方法,不仅难以消除异常值带来的影响,反而会造成测量重复性较好的假象,会对数据真实性的判断造成障碍,从而误导人们提高了检测仪器的等级。而如果不剔除,又会降低测量数据的重复性,从而给检测仪器的等级带来不利影响。以上表明,只有对异常值采用正确的剔除方法,才能确保最终的测量复合人们的使用要求。

3 异常值判断准则

在计量实践活动中常用的异常值判断准则有以下几种:(1)3Σ准则(三西格码准则又名拉依达准则);(2)格拉布斯准则;(3)肖维勒准则;(4)t检验法。需要注意的是,尽管以上准则内容有所不同,但进行判断时都不外乎地使用到了置信概率。所谓置信概率是指随机变量落于“置信区间”的概率,将置信区间所代表的测量数据取值范围命为X,则有以下表达式:

(1)3 Σ准则:

|Xd-X|>3?滓

将测得数据代入上式,如果符合则判定该值为异常值,应予剔除。其所代表的含义为:可疑数据与整组数据的算数平均数的差的绝对值大于3倍的标准偏差,则此数值应舍弃。

(2)肖维勒准则:|Xd-X|>wn・?滓

应用本公式时,根据相互独立测量的数据,如果测量值满足以上公式:|Xd-X|>wn・?滓时,则判定该数值xd为异常值,应予以剔除。

(3)格布拉斯准则表达式:|Xd-X|≥G(α,n)s

式中:xd-测量数据;x-测量数据平均值;s-贝塞尔公式计算的标准差;G(α,n)-为查表得。

(4)t检验法

t检验法主要是以可疑数值xi之外的数值当做一个数据集合总体,同时假定该数据集总体呈正态分布,(尽管这只是一个数据分布的假定,究竟是不是正态分布,尚需要进一步的判断,但在实际应用中,人们往往倾向于不考虑样本是否符合正态分布,而将其近似假定为样本符合正态分布),同时将可疑数值xi当作一个样本容量为1的特殊总体,在进行两个总体比较时,如果两者同属一个总体,那么他们之间不应该存在显著的差异,由此即可计算出统计量k:

k=■

式中:X-可疑值以外的样本数据算术平均值;s-可疑值以外的样本数据标准差。将k值与查t分布表所得值进行比较,大于显著性水平a(a常取0.05)下的t检验值,则表明xi的出现是一个小概率事件,可以考虑为异常值,将其舍去。

4 实例判定

现结合实例对以上异常值判断准则进行判定:

例:对某测量量进行等精度测量得到一组测量数据:10.002,10.2

04,0.218,10.220,10.228,10.230,10.312,10.320,10.342,10.346分别用以上方法判断并剔除异常值,取置信概率95%(即是α=0.05),

首先怀疑10.346为异常值

计算得到:

X=10.2317(10个数据的平均值),X1=10.2231,σ=0.0912,s=0.0888

结论:10.346为异常值,应剔除。

结论:在以上判定案例中,应用的四种方法判定结果相对一致:10.346为异常值。其中:G(α,n)s与10.002-10.2317最接近,这也表明此种情况下应用格拉布斯准则效果相对更好。从以上判定过程中,我们不难总结出判定异常数值的基本思想:即先做出某一统计量,若该统计量在规定的一个范围内,那么认为其服从正态分布,否则就认为数据不服从正态分布,这就表明其中数据存在着明显的误差。为了方便判断,通常先将数据按照大小进行排序,最先怀疑极值。如果极值未被判定为异常值则其他也就不会发生异常。而在以上的几种判断准则中,除了准则(1)之外,都需要通过查表,来得出参考值并与统计得到的计算值进行比较。准则(1)|Xd-X|>3?滓,从公式分析来看,如果测量次数N足够大,则相应的标准差σ将很小,此时准则(1)就变得非常的精确。标准差σ是通过贝塞尔公式计算出的,该公式要求测量次数N不得少于10,所以一般如果测量次数足够大,比如大于50次以上,则应用准则(1)就相对方便许多。而由狄克逊准则计算公式不难看出,该准则可以一次剔除多个异常数值,因此如果在进行目测判断有多个异常值出现时,则建议使用该准则进行判定。除此之外,其他方法在剔除一个异常值之后,必须进行重新计算不含异常数值后的其他数据的平均值和标准差,再重新判断直到没有发现异常值,t检验法多用于两样本方差显著性判断。

5 结束语

在实际应用中为了保证有足够的精度,避免误判,可以综合以上判定准则的两种或三种以上进行同时判断,若结论一致认为应当剔除,那么可靠性将大大提高。而当判定结果出现不一致时,则应慎重考虑,进行再次验证,此种情况下一般建议做数据保留处理。

参考文献

[1]费业泰.误差理论与数据处理[M].机械工业出版社,2005.

[2]秦树人.机械工程测试原理及技术[M].重庆大学出版社,2002.

上一篇:食品检验准确性提高的控制因素 下一篇:浅析医院智能化楼宇控制技术的应用