基于格拉布斯法与马氏平方距离法对异常数据的检验

时间:2022-05-31 06:00:21

基于格拉布斯法与马氏平方距离法对异常数据的检验

摘 要:本文首先用格拉布斯法对单个变量进行异常值检验,接着运用马氏平方距离法对多变量统计数据的异常值进行检验,最后结合这两种方法筛选出数据中可能的偏差测试结果,得到了很好的检验结果。

关键词:格拉布斯法 马氏平方距离法 异常值 检验

评估统计数据的准确性是统计学研究的一个重要课题, 也是当前统计工作中普遍关心的一个问题.这里我们选用格拉布斯法首先对单个变量进行异常值检验,检验结束后,仍可能存在明显扰乱变量间相关关系的不协调样品, 针对这种情况,引入了马氏平方距离法,对多变量统计数据的异常值再次进行检验。

1 基于格拉布斯法对单个变量的异常值检验

格拉布斯法简介:为了检验中是否有可疑数据,可将按其值由小到大顺序重新排列得 ,根据顺序统计原则,给出标准化顺序统计量g:当最小值可疑x (1 )时,则 ,当最大值可疑 时,则

在指定的显著水平?茁 (一般?茁=0.05)下,求得判别可疑值的临界值 ,格拉布斯的判别标准为 则可疑值 是异常的,应予舍去。 称为格拉布斯系数。

2 基于马氏平方距离法对多变量统计数据的异常值检验

马氏平方距离法:假设两个变量Xi,Xj具有较高的正相关关系,某样品 X(k)在这两个变量上的取值为 ,若 远远大于Xi的平均值,而Xkj却远小于Xj的平均值,则这个样品就很可能是异常的。

设 (其中 )为来自 的n个样品,其中 , 是第k个变量 的均值。则样品 到重心

的马氏平方距离定义为

。其中 可由样本协方差阵来估计。

易证,当n较大时, 近似服从 ,其临界值 可由 分布表来查出。当 时,将第i个样品判为异常。

3. 实例分析

以某班11名学生的为例,共有6个测试项目, 各指标实测数据见表1。

表1 某班19名学生六项测试项目

3.1 对单个变量统计数据的异常值检验

我们以男生的台阶测试为例,对其进行去可疑数据:

1)将数据按从小到大排列为

2)计算特征数据量

3)计算顺序统计量

按常规首先怀疑其中的最大值88 和最小值40 可疑,其顺序统计量分别为:

由于 ,首先判断

4)选定显著水平 ,并根据 和 ,查表可得

5)判别

由于 ,所以 为异常值,应予舍弃。

仿照上述方法继续对余下的10 个数据进行判别,经计算没有异常值。

下面分别对男生的身高、体重、肺活量、握力体重指数、立定跳远的单个变量的异常值进行检验,这里不再赘述。经检验,其余变量均无异常值。

3.2 对多变量统计数据的异常值检验

下面我们运用公式 ,对计算该班19名学生的测试项目的马氏平方距离,见表2。

表2 某班19名男生各测试项目的马氏平方距离

查 分布表可知,当 时, ,当 时,将第i个样品判为异常。

异常学生的学号为:120001,120011

综上所述,结合单个变量的异常值检验和多变量统计数据的异常值检验,我们最后得到成绩可能有所偏差的同学学号为:120001,120011。

参考文献

[1] 雷晓平,浅谈可疑数据的取舍方法—格拉布斯法[J].河南建材,2011年第二期

[2] 赵慧,甘仲惟,肖明.多变量统计数据中异常值检验方法的探讨[J] . 华中师范大学学报( 自然科学版) 第37卷第2期

上一篇:Authware软件在计算机基础教学活动中的应用 下一篇:加工中心刀库程序的研究