运用EXCEL进行样本容量的估计

时间:2022-09-13 04:40:16

摘要:样本容量的估计是试验设计的重要一环,然而样本容量的估计往往需要循环计算,从而花费较长的计算时间。该文对运用excel进行样本容量估计方法进行了介绍。结果认为运用EXCEL可以快速的进行试验设计样本容量的估计。

关键词:试验设计;EXCEL函数;样本容量

中图分类号:TP391文献标识码:A文章编号:1009-3044(2008)31-0987-03

Estimating the Sample Size by EXCEL Function

LI Xue-bin1, YU Xiao-ling2

(1. College of Animal Science, Henan Institute of Science and Technology, Xinxiang 453003, China; 2. College of Food Science, Henan Institute of Science and Technology, Xinxiang 453003, China)

Abstract: The calculation of sample is an important programming in the experimental design. However, it is always need to calculate the sample size circularly, which always takes longer computing time. In this paper, the estimating of sample size by EXCEL was introduced. Finally, we thinks that the sample size can be calculated by EXCEL function rapidly.

Key words: experimental design; EXCEL function; sample size

科学研究要求试验结果要有高的准确性和精确性,这就要求有较大的样本容量,并且越大越好。但若样本太大,就会花费过多的人力、物力和时间。所以,在实际试验研究中,却要求样本越小越好。但样本太小必然影响试验结果的准确性和精确性。因此,在研究试验中需要确定适宜的样本容量,使样本容量在保证一定准确性和精确性的前提下尽量小,从而节约科研资金。然而样本容量的估计需要运用统计学公式多次重复运算才能得到[1-3],有时甚至出现多次迭代计算不稳定的情况。虽然在有关资料中已有利用EXCEL进行试验结果的统计分析方法,然而在生物统计学教材和专业的EXCEL书籍[4]中均没有见到关于运用EXCEL进行样本容量的估计的介绍, 本文将对几种常见的试验设计如何运用EXCEL进行样本容量的估计加以介绍。

1 完全随机设计样本容量的估计

1.1 完全随机设计样本容量估计的基本原理

两个处理的完全随机设计在确定样本容量时,常采用两样本容量相等的设计。

假设两样本容量均等于n,事先确定达到显著的差值为d(即两个总体均值的差值大于或等于d时能得到显著结果),样本容量估计公式在不要求检验功效和要求检验功效的估计公式分别为:

■(1)

■(2)

希望达到的检验功效p=1-β(通常取p=0.8或0.9),检验所用的显著水平为α(在一般情况下,取α=0.05)。公式中:n――需估计的样本容量;s――两总体标准差估计值,可由预试验、参考文献或经验获得;d――达到显著时的两总体均数的最小差值,可根据参考文献人为确定;tα――在自由度为2(n-1)时双尾概率为α的t分布临界值;t2β――在自由度为2(n-1)时双尾概率为2β的t分布临界值;

在样本容量估计时,由于公式中的tα、t2β均与样本容量有关,因此需首先以自由度df=∞的tα和t2β代入公式进行计算,算出n后,根据df=2(n-1)查得相应的tα和t2β,再代入公式计算n,如此迭代计算,直至连续两次计算所得n相等为止[1,2]。

1.2 完全随机设计样本容量的估计的EXCEL实现

下面以实例加以说明。

例如,欲检验某药物对肾功能的损害作用,以家兔为试验对象。设立对照组和以耳静脉注射次药物的模型组,测定35 h后家兔的排尿量。预试验已知正常家兔的平均排尿量为2.5ml,标准差为1.1ml。希望平均差值为d=1.8 ml内即测出差异显著性,问每组需要多少只家兔才能满足试验要求?

根据已知条件,样本标准差为s=1.1,d=1.8,α=0.05,选择检验功效p=0.9。运用EXCEL可采用如下的操作步骤实现样本容量的估计:

1)如图1所示新建一个Excel表格,在A1 单元格输入“循环次数”,在B2单元格输入“样本容量”。

2)选择A2和 A3 单元格,分别输入0和1。

3)按下shift键,选择A2和 A3 单元格,拖动A3 单元格右下角的填充柄至A12 单元格,填好循环次数。

4)选择B2 单元格,输入初始假定样本容量100。在B3单元格输入“=ROUNDUP(2*(TINV(0.05,2*(B2-1))) ^2*1.1^2/1.8^2,0)”,回车。

5)选择B3 单元格,拖动B3 单元格右下角的填充柄至B12 单元格。观察样本容量稳定性,如果稳定,即得到结果;如果稳定与两个数据,则也得到结果。否则继续下拖,直到样本容量稳定见图1。

6)本例样本容量到4和5时已经稳定,说明样本容量应为5,采用完全随机试验设计至少每组需要5只家兔才能满足试验要求。与手算结果一致。

如果要求检验效能选择检验功效p=0.9。选择B3 单元格,在B3 单元格输入“=ROUNDUP(2*(TINV(0.05,2*(B2-1))+TINV(0.2,2*(B2-1)))^2*1.1^2/1.8^2,0)”。说明样本容量应为9,采用完全随机试验设计至少每组需要9只家兔才能满足试验检验功效p=0.9的要求。如图2。

2 配对设计与交叉设计的样本容量的估计

2.1 配对设计与交叉设计样本容量估计的基本原理

配对试验设计与交叉设计是单位组设计中最简单的一种试验设计。类似于两处理完全随机设计试验样本容量的估计,配对试验设计与交叉设计的样本容量估计公式在不要求检验功效和要求检验功效的估计公式分别为:

■ (3)

■ (4)

希望达到的检验功效p=1-β(通常取p=0.8或0.9),检验所用的显著水平为α(在一般情况下,取α=0.05)。公式中:n――需估计的样本容量;s――两总体标准差估计值,可由预试验、参考文献或经验获得;d――达到显著时的两总体均数的最小差值,可根据参考文献人为确定;tα――在自由度为2(n-1)时双尾概率为α的t分布临界值;t2β――在自由度为2(n-1)时双尾概率为2β的t分布临界值[1,2]。

2.2 配对设计与交叉设计样本容量的估计的EXCEL实现

配对试验设计与交叉设计的样本容量估计需要用循环的方法进行估计,直到样本容量稳定为止。下面以实例加以说明。

例如,预试验已知sd=1.1ml,希望平均差值为1.8ml内测出差异显著性,采用配对设计方法进行试验,至少需要的试验家兔为多少对?运用EXCEL可采用如下的操作步骤实现:

1)新建一个Excel表格,在A1单元格输入“循环次数”,在B2 单元格输入“样本容量”。

2)选择A2和A3单元格,分别输入0和1。

3)按下shift键,选择A2和A3单元格,拖动A3 单元格右下角的填充柄至A12单元格,填好循环次数。

4)选择B2 单元格,输入初始假定样本容量100。

5)在B3 单元格输入“=ROUNDUP(POWER(TINV(0.05,B2-1))*1.1/1.8,2), 0)”,回车。

6)选择B3 单元格,拖动B3单元格右下角的填充柄至B12单元格。观察样本容量稳定性,如果稳定,即得到结果;如果稳定与两个数据,则也得到结果。

7)有时会出现不稳定的摇摆情况,这时可以改变出事值,用填充柄从摇摆的最小数开始向后填充观察样本容量稳定情况,见图3。

本例样本容量在初时值为4时样本容量稳定在4,说明样本容量应为4,采用配对试验设计至少需要4对家兔才能满足试验要求。如果是自身配对,则至少需要4只家兔。

如果要求检验效能选择检验功效p=0.9。选择B3单元格,在B3单元格输入“=ROUNDUP(POWER((TINV(0.05,B2-1)+TINV(0.2,B2-1))*1.1/1.8,2), 0)”,操作结果见图4。说明样本容量应为7,采用完全随机试验设计至少每组需要7只家兔才能满足试验检验功效的要求。

3 百分数比较试验中样本容量估计

3.1 百分数比较试验中样本容量估计的基本原理

设两样本容量相等:n1=n2=n,n的计算公式可由两个样本百分数差异显著性检验u检验公式推得。样本容量估计公式在不要求检验功效和要求检验功效的估计公式分别为:

■(5)

■(6)

希望达到的检验功效p=1-β(通常取p=0.8或0.9),检验所用的显著水平为α(在一般情况下,取α=0.05)。公式中:n为每组试验的动物头数;p为合并百分数,由样本百分数计算,q=1-p;δ为预期达到差异显著的百分数差值;uα为自由度等于∞、两尾概率为α的临界u值:u0.05=1.96, u0.01=2.58;1-α为置信度[2,3,5]。

3.2 百分数比较试验中样本容量估计的EXCEL实现

百分数比较的样本容量估计同样需要用循环的方法进行估计,直到样本容量稳定为止,下面以实例加以说明。

例如,两种痢疾菌苗对鸡白痢病的免疫效果,初步试验表明,甲菌苗有效率为0.50,乙菌苗有效率为0.85,今欲以95%的置信度在样本的百分数差值达到30%时检验出两种菌苗免疫效果有显著差异,问试验时每组至少需接种多少只鸡?

1)新建一个Excel表格,在A1 单元格输入“循环次数”,在B2 单元格输入“样本容量”。

2)选择A2和 A3 单元格,分别输入0和1。

3)按下shift键,选择A2和 A3 单元格,拖动A3 单元格右下角的填充柄至A12 单元格,填好循环次数。

4)输入初始假定样本容量1000。在B3 单元格输入“=ROUNDUP(2*((0.5+0.85)/2 *(1-(0.5+0.85)/2))*(TINV(0.05,2*(B2-1)))^2/0.25^2, 0)”,回车。

5)选择B3 单元格,拖动B3 单元格右下角的填充柄至B12 单元格。观察样本容量稳定性,如果稳定,即得到结果;如果稳定与两个数据,则也得到结果。否则继续下拖,直到样本容量稳定,见图5。

6)本例样本容量到29时已经稳定,说明每组样本容量应为29,试验时每组至少需接种29只鸡。

如果要求检验效能选择检验功效p=0.9。选择B3 单元格,在B3 单元格输入“=ROUNDUP(2*((0.5+0.7)/2*(1-(0.5+0.7)/2))*((TINV(0.05,2*(D2-1)))+(TINV(0.2,2*(D2-1))))^2/0.2^2,0)”,操作结果见图6。说明每组样本容量应为128只鸡。

4 其他试验设计样本容量的估计

4.1 多个处理比较试验中完全随机设计样本容量的估计

当试验处理数k≥3时,各处理重复数可按误差自由度过dfe≥12的原则来估计。因为当dfe超过12时,F表中的F值减少的幅度已很小了。由dfe =k(n-1)≥12,得样本容量的估算公式为:

n≥12/k+1(7)

由公式可知,若k=3,则n≥5;k=4,则n≥4;……。但当处理数k>6时,重复数仍应不少于3。

4.2 随机单位组设计样本容量的估计

随机单位组设计以dfe =(k-1) (n-1)≥12,得重复数的估算公式为:

n≥12/(k-1)+1(8)

由公式(7)可知,若k=3,则n≥7;k=4,则n≥5;……。但当处理数k>7时,重复数仍应不少于3。

在拉丁方设计若要求dfe=(k-1) (k-2)≥12,则重复数(此时等于处理数)≥5。所以,为了使误差自由度不小于12,则应进行处理数(即重复数)≥5的拉丁方试验,即进行5×5以上的拉丁方试验。当进行处理数为3、4的拉丁方试验时可将3×3拉丁方试验重复6次,4×4拉丁方试验重复2次,以保证dfe=12。

这些样本容量的估计实例请参阅有关统计学教材[1-3]。由于这些设计在实际应用时往往不进行复杂的循环计算,因此本文不再用EXCEL进行处理。

5 小结

1)样本容量的估计是科学研究的重要组成部分,样本容量可以在一定的检验概率和检验功效保证下进行估计。

2)运用EXCEL中快速的循环计算功能,可以快速的实现试验设计中样本容量的估计。

3)样本容量的估计过程中出现的不收敛或不稳定性,可以通过改变样本容量的初始值加以解决。

参考文献:

[1] 明道绪.生物统计附试验设计[M].3版.北京:中国农业出版社,2002:227-228.

[2] 谢庄,贾青.兽医统计学[M].北京:高等教育出版社,2005:193-195.

[3] 宋素芳.生物统计学[M].北京:中国农业大学出版社,1999:228-231.

[4] 吴权威,吕琳琳.Excel2003函数与统计应用实务[M].北京:中国铁道出版社,2005:109-253.

[5] 倪宗赞.医学统计学[M].北京:高等教育出版社,2003:114-115.

上一篇:基于ASP.NET的两种权限管理方法的比较 下一篇:解析C语言的运算符和表达式