高速公路补充预算定额原始数据异常值的改进格拉布斯法应用研究

时间:2022-07-04 01:29:33

高速公路补充预算定额原始数据异常值的改进格拉布斯法应用研究

摘要: 编制高速公路补充预算定额需要大量的观察测量,这些观测数据是预算定额定量及定性的记录,是科学研究预算定额的重要基础,因此其质量的好坏直接关系到定额最终成果的正确性和科学性。国际上常推荐采用格拉布斯(Grubbs)准则法,本文在高速公路补充预算定额的研究中采用改进型格拉布斯准则法,主要探讨改进型格拉布斯准则法以及如何借助于excel工具简化计算该法。

Abstract: Compiling highway supplementary budget quota requires a lot of observation. Those observation data are the quantitative and qualitative record of budget quota and the important foundation of scientific research of budget quota, so its quality relates directly to the correctness and scientificity of the final results of the quota. Grubbs law is internationally recommended. This paper adopts modified Grubbs law in highway supplementary budget quota research, and mainly discusses the modified Grubbs law method and how to simplify this calculation method with the help of excel.

关键词: 格拉布斯;高速公路;补充预算定额;原始数据;异常值

Key words: Grubbs;highway;supplementary budget quota;raw data;outliers

中图分类号:U412.36+6.1 文献标识码:A 文章编号:1006-4311(2013)12-0082-02

0 引言

在高速公路补充预算定额观测的原始数据中出现一些异常数据是不可避免的,其产生的原因有很多种,可能是数据产生机制内在特性决定的,也可能是数据录入及传输错误;观测人员混乱、虚报、瞒报使统计数据失真;丢失数据等因素造成的。这些异常数据的出现势必会导致对数据的统计分析结果发生变异,最终导致定额成果和现实存在较大偏差,因此如何识别异常数据,对所测得的数据去伪存真,使结果更加接近实际情况就成了编制定额的一个现实问题。

目前异常数据的剔除方法主要有以下5种:莱茵达准则(3σ准则)、格拉布斯准则(Grubbs)、狄克逊准则(Dixon)、肖维勒准则(Chauvenet)、罗马诺夫斯基准则(t检验)。莱茵达准则简单且查表,用起来方便,用于观测次数较多或要求不高时,当观测次数小于或等于10时,该准则失效。肖维勒准则改善了莱茵达准则,早期运用较多,没有固定的概率意义,当观测数据n∞时,该准则失效。狄克逊准则法对数据中只存在一个异常数据时,效果良好,但当数据中异常数据的个数不止一个且出现在同侧时,该方法的检验效果不好,尤其同侧的异常数据很接近时效果更差,易遭受到屏蔽效应。罗马诺夫斯基准则法计算较为复杂。格拉布斯准则和狄克逊准则给出了严格的结果,但同样存狄克逊准则法的缺陷,朱宏等人采用数据的中位数取代平均数,改进得到了更为稳健的处理方法,有效地消除了同侧异常数据的屏蔽效应。国际上常推荐采用格拉布斯(Grubbs)准则法,在对内蒙古高速公路养护预算定额的研究中采用改进型格拉布斯准则法。下面主要介绍改进型格拉布斯准则法以及如何借助于excel工具简化计算该法。

1 改进型格拉布斯准则判别异常值

该方法的基本原理比较复杂,在这里只介绍它的基本步骤:

改进型格拉布斯准则判别异常数据的步骤如下:

①计算拟似异常值。假设重复观测数据为(X1,X2,…,Xn),其数据个数为n、最大值为Xmax、最小值为Xmin、中位数为Me、标准差为s,则拟似最大异常值Gmax和拟似最小异常值Gmin为:

G■=■(1)

G■=■(2)

其中S=■(3)

②查出格拉布斯临界值G(α,n)。设显著性水平为α(常设α为0.05或0.01,相当于置信度为95%或99%)时,则通过表1查出数据个数为n时的格拉布斯临界值G(α, n)。

③异常数据的识别和剔除。比较Gmax和Gmin与G(α,n),如果Gmax>G(α,n)或Gmin>G(α,n),则对应的Xmax或Xmin为异常数据,应剔除。

④重复识别与剔除异常数据。对剔除异常数据后的数据重复以上步骤,直到余下数据的最大值或最小值小于格拉布斯临界值为止。

运用格拉布斯准则剔除可疑数据时应注意的事项:

①数据按正态分布是格拉布斯准则的前提,当数据偏离正态分布时,或观测次数特别少时,格拉布斯准则将不一定可靠。

②运用格拉布斯准则剔除异常数据时一次只能剔除一个数据,之后的(n-1)个数据再按照步骤重新计算再次剔除,直到全部数据符合要求为止。

2 改进型格拉布斯准则剔除可疑数据excel应用举例

由于补充预算定额的观测数据按照不同的工程细目进行小数位数的确定,大多数数据精确到小数点后2~3位,因此在进行剔除运算时运算量较大,小数点后位数多,有可能会出现错误,为了消除这样的人为错误、减少人为运算量,可以借助计算机excel工具进行运算,下面举例叙述。

上一篇:FLAC在隧道开挖建造过程数值仿真模拟 下一篇:中学体育教学中如何培养学生的创造力