两独立样本的Wilcoxon符号秩检验和BrownMood中位数检验的功效比较

时间:2022-10-06 10:53:35

两独立样本的Wilcoxon符号秩检验和BrownMood中位数检验的功效比较

(中南财经政法大学统计与数学学院,湖北 武汉 430073)

【摘要】

本文针对两独立样本数据的Wilcoxon符号秩检验和BrownMood中位数检验的相对效率进行测度进而比较两种检验的功效。本文先通过类比的方法,基于渐进相对效率理论对二者的功效做出一个初步的判断得出Wilcoxon符号秩检验功效较高的结论;再通过蒙特卡洛模拟,运用R软件计算对于正态分布下不同参数的两总体两检验的功效。从模拟的结果也可以看出,Wilcoxon符号秩检验的检验效果较BrownMood检验而言要好。

【关键词】

Wilcoxon检验;BrownMood检验;渐进相对效率

0 引言

对于一个问题的检验,常常会涉及到多种方法。而不同的检验方法,在某些时候又会得到不同的结论。因而,就需要制定出一个标准来对检验进行评价。根据非参数统计学的基本原理可以得到一个角度的衡量标准――一个好的检验,势应该越大越好。而根据经验可以知道,对于一个明知是黑的事物,通过某种检验方法得出了白的结果,那么这种方法显然是存在问题的,在这里将这样的情况极为“检验失误”。因而,就产生了另一种衡量方法――通过模拟产生多组不同的两独立样本,同时运用两种检验方法进行检验。显然,检验失误情况多的检验其检验功效显然要差些。

对于两独立样本的检验方法有很多。其中,有参数方法的t检验,非参数BrownMood检验(以下简称BM检验)、Wilcoxon检验(以下简称W检验)、MannWhitney检验、KruskalWallis检验等。其中,W检验和MannWhitney检验并没有本质上的区别。并且考虑到相关资料的收集和相关的分析,文章选取了BM和W检验进行功效的比较。

1 BrownMood检验和Wilcoxon检验的基本内容

对于两独立分布的总体X和Y,设其分布为X~F1(x-μ1 σ1),Y~F2(x-μ2 σ2),在此,仅考虑简单的情况,X、Y的简单随机样本满足:

X1,X2…,Xm~i.i.d F(x),Y1,Y2…,Yn~i.i.dF2(x-μ)

即两样本具有相似的分布,从而,假设检验问题为

H0∶μ=0,H1∶μ>0

当μ>0时,则X的分布平均来讲比Y大,即可得到两总体分布不同的结论。

为简化说明,基于右侧检验下BM检验和W检验的基本内容可表示为如下表1所示形式。

表1 BM检验和W检验的基本内容

零假设: H0 备择假设: H1 检验统计量 p值

BM检验H0:Mx=MY H1:Mx>MY A P(A≥α)

wil检验H0:Mx=MY H1:Mx>MY WY P(K≤k)

对水平α,如果p值

其中,Mx、MY分别为总体X、Y的中位数,A为大于混合样本中位数MXY的样本点数。WY为样本(X1,X2…,Xm)在混合样本中的秩和。

2 渐进相对效率

2.1 理论背景

对同一个假设检验问题而言,选择不同的统计量,得到的势函数也不同。一般一个好的检验应有较大的势,因而可以通过比较势大小来选择较优的检验。然而直接比较势是困难的,并且由于在显著性水平固定的情况下,势的大小依赖于样本量,样本量越大势越大。因而将问题转化为对样本量的比较:在相同的势条件下,比较不同检验所需要的样本量大小,样本量越小的检验认为是更优的统计量,于是依赖于该统计量所作出的检验也认为是较优的或是更有效率的。渐进相对效率(Asymptotic Relative Efficiency, ARE)给出了该问题的一个可行的答案。

2.2 渐进相对效率

这里,先进行比较符号检验、W符号秩检验和t检验的ARE效率比较。在不同分布下,三种检验的ARE效率如下表1。其中,符号检验、W符号秩检验和t检验的统计量分别定义为S、W+、t,F为分布。

表2 三种检验的ARE效率比较

分布 U(1,1) N(0,1) Logistic 重指数

密度1 2I(-1,1)

exp(-x2/2) 2π

e-x(1+e-x)-2

e-|x| 2

ARE(W+n,tn:F) 1 3/π π2/9 3/2

ARE(Sn,tn;F) 1/3 2/π π2/12 2

从表1可以看出,当总体分布F为U(1,1)、N(0,1)或Logistic分布时, W检验相对于t检验的效率均比符号检验相对于t检验的效率要大,从而进行粗糙的说明W检验相对于符号检验的效率要很好。其中的原因可以解释为:由于在检验过程中,符号检验仅使用各个观察值和中位数差值,而没有考虑差值的大小。当遇到位置对称的分布是,由于符号提供信息的对称,导致结论的对称性,将无法得出更为科学的结论。而W检验不但利用了符号,还考虑了他们的差。因而,可以得到更为科学的结论。

2.3 结论

基于上述模糊的推断,可以做出在一定条件下,两独立样本的检验方法中W检验要比BM检验的推断效果好。但这个结论的得到显然是不具有太多的理论依据。由于自身知识的缺乏,以及未能找到相关资料的帮助,无法准确计算出两种检验的ARE效率。因而,只能建立在经验的基础上,勉强地得出这样的初步结论。为了进一步对两检验的效果进行比较,接下来将运用蒙特卡罗模拟的方法来进行W检验与BM检验的功效比较。

3 蒙特卡罗模拟的经验推断

3.1 理论背景

根据经验理论我们知道,对一个已知为黑色的东西,当通过检验得到了白色的结果,那么这种检验是存在问题的。不妨将这种现象定义为“检验失误”。通过模拟的方法生成n组待检验数据,分别用两种检验方法进行检验。计算检验失误的次数q,定义为检验的功效估计值。显然,m值越大,检验的功效越好。于是通过比较两检验的m值来进行两检验的功效比较。

3.2 模拟研究方法

利用R软件随机数函数从不同总体中独立地抽取两组样本,分别对这两组样本进行W检验与BM检验,记录每次检验的P值,若P>α,则认为该次检验发现了差异,检验是成功的。重复实验10000次,用10000次中检验成功的次数/10000作为检验功效的估计值。本文参照了一些文献资料,综合考虑了6个可能影响检验结果的因素,依次为两样本量比率、样本量大小、方差比率、效应量(effect size,ES)。数据分布类型设置为正态分布。组间样本量比率设置为11、13、14、19、91、41、31。当样本量比率为11时,样本量n分别取10、50、100、500。方差比率为11、13、19。组间效应量取0.2、0.5、0.8,分别表示效应量的小、中、大,且效应量计算为:

ES=μ1-μ2 σpool。其中,

σ2pool=

n1-1 n1+n2-2σ21+n2-1 n1+n2-2σ22

在这里,为了计算的方便,设第一组样本服从N(0,1)。第二组样本的均值和方差则依据参数之间的比例进行推导。整个检验用R软件编程实现,所有假设检验为右侧检验,且显著性水平均取α=0.05。

3.3 模拟结果与分析

(1)样本量相等

样本量相等时,得到模拟结果如下表3所示。表3列出了不同效应量、方差比率以及样本量条件下,两种检验方法功效的模拟结果。

表3 正态分布下样本量相等时两种检验方法的功效

(α=0.05,右侧检验)

ES n

方差比11 方差比13 方差比19

W BM W BM W BM

0.2 10 0.061 0.026 0.065 0.052 0.076 0.057

50 0.161 0.156 0.165 0.131 0.176 0.118

100 0.280 0.240 0.284 0.149 0.299 0.113

500 0.876 0.788 0.863 0.331 0.854 0.171

ES n

方差比11 方差比13 方差比19

W BM W BM W BM

0.5 10 0.165 0.082 0.166 0.071 0.181 0.065

50 0.672 0.574 0.671 0.238 0.665 0.141

100 0.932 0.836 0.925 0.318 0.914 0.159

500 1.000 1.000 1.000 0.810 1.000 0.304

0.8 10 0.356 0.194 0.358 0.101 0.369 0.070

50 0.974 0.912 0.971 0.392 0.964 0.170

100 0.999 0.996 1.000 0.552 1.000 0.209

500 1.000 1.000 1.000 0.987 1.000 0.458

从表3中可以看出,①在其他条件不变的前提下,随着样本量的的增加,两种检验的功效都不断增大。②在样本量和方差比率一定的条件下,两种方法的检验功效效应量的增大而增大并最终趋于1。③当其他条件不变时,BM检验的功效随着方差比率的增大而减小,方差越接近检验功效越高;而W检验的功效受两个总体方差比率的影响不大。④比较W检验与BM检验的功效发现,当方差比率较大时,W检验的功效明显高于BM检验功效;而当方差相等时,两种检验的功效近似相等。

(2)样本量不等

样本量不相等时,得到模拟结果如下表4所示。表4列出了效应量为0.8、方差比率为13和19以及样本比为13、14、19、91、41、31条件下,两种检验方法功效的模拟结果。其中,设置两组样本量之和n1+n2=100。

表4 态分布下不同样本量比率时两种检验方法的功效

(α=0.05,右侧检验,ES=0.8)

n1n2

方差比11 方差比13 方差比19

13 0.916 0.724 0.975 0.629 0.990 0.333

14 0.871 0.778 0.968 0.722 0.989 0.390

19 0.622 0.574 0.827 0.792 0.935 0.514

从表4可以看出,①对于W检验,无论方差是否相等,其功效都随两样本量差异的增大而减小,从而有样本量越接近则其检验功效越高;而对于BrownMood检验,当方差相等时,其功效也有这种随两样本量差异的增大而减小的趋势,但当方差不相等时,其功效随样本比率的减小而增大。②从总体上看,当样本量不相同时,在同种条件下的检验W检验的功效都要大于BM检验。

3.4 结论

基于模拟方法的结果分析可以看出,当总体为正态分布,同等条件W检验的功效大于或与BM检验的功效近似相等,尚未出现BM检验的功效大于W检验的情况。基于经验,可以做出进一步的推断,认为W检验的效率较BM检验要好。当然,由于此次模拟过程中仅针对总体为正态分布的情况,尚未对其他分布形式下的总体进行模拟研究,因而或许得出的结论应该是:在总体为正态分布的条件下,W检验的功效较BM检验要好。

参考文献:

[1]Fleishman A.A Method for Simulating NonNormal Distributions.Psychometrika,1978,43( 4):521532

[2]王星.非参数统计[M].北京:清华大学出版社,2009,3

[3]徐明.两种非参数统计方法的应用[J].体育科学,1997,(6):8386

[4]张超,胡军,陈平雁.完全随机设计两样本比较的非参数方法的检验功效比较[J].中国卫生统计,2008(3):230234

上一篇:宣城职业技术学院校园景观改造建议 下一篇:创新体制背景下的城乡规划一体化探析