基于Excel的样本均值统计特征模拟

时间:2022-06-23 05:26:58

基于Excel的样本均值统计特征模拟

摘要:样本均值统计规律是统计推断的核心概念,但是因为它比较抽象,所以传统教学上强调应用有余,而理解深度不足。该文介绍了统计推断的基础知识,结合Galton钉板实验,运用计算机辅助手段,详细探讨并给出了样本均值统计特征直观形象的诠释。

关键词:样本均值;中心极限定理;随机数;excel;正态分布

中图分类号:O212文献标识码:A 文章编号:1009-3044(2010)18-5055-02

Statistical Characteristics of the Sample Mean Based on Excel

ZHOU Jun-xiang

(Computer Science Department, ShangQiu Normal University, Shangqiu 47600, China)

Abstract: The statistical law of the sample mean is a core concept of the statistical inference, However, because it is abstract, therefore, in traditional teaching, emphasizing its application more, but not enough to understand the depth of the law.This article describes the basics of the statistical inference, combined with Galton nail plate experiments, use of computer-aided tools, discussed in detail and gives the statistical characteristics of the sample mean visual image interpretation.

Key words: sample mean; central limit theorem; random number; excel; normal distribution

快速信息化是我国社会当前的明显特征,每时每刻、每处每地都能感受到大量的信息扑面而来。作为一个21世纪的社会人,如果不能从这些海量信息中提取出有用的信息,那他不久就会被淘汰。

统计学作为一门专门研究收集、整理、加工处理信息的学科,其地位不言而喻。如何快速掌握数理统计知识,已经是很多人都在关心的问题。但是,与社会需求相比,我们的教学模式却有些滞后。传统的教学模式不够生动直观,已经严重影响了学生的学习效果和学习积极性。为此,有必要借助计算机软件辅助教学。

本文依靠excel办公软件生成了大量相关图像,深入展示了样本均值统计特征。文中针对4个方面进行了探讨:1) 统计推断基本知识;2) 样本均值的统计规律;3) 样本均值统计规律的模拟效果;4) 总结。

1 统计推断基本知识

统计推断,研究如何有效地收集和使用被研究客观事物的不完整并且带有随机干扰的数据资料,以对其群体特征和数量规律性给出尽可能精确、可靠的推断性结论[1],即从样本中所包含的信息获取有关总体的信息。要推断总体,就需要抽样。但是,样本虽然提供了总体的信息,这些信息却是分散的、不便于进行有效推断总体的。因此,我们需要对样本进行“加工”,把样本中所包含的有关总体某一特征的信息“提取”“聚集”在一起。我们可以根据推断问题的需要构造样本的适当函数,即样本统计量。不同的样本函数反映总体的不同特征,一旦有了样本观察值就可以由此给出总体特征的推断值。

统计推断有两种。一种是参数估计,由样本信息推断出某个总体参数的值或给出在一定置信度下总体参数所在的最小区间[2-3]。另一种是假设检验,首先,假设总体具有某种特征。然后,由样本信息判断假设是否正确[4-5]。无论是哪一种推断,都需要首先构造样本函数[6],即样本统计量。样本均值就是一个很重要的样本统计量。

2 样本均值的统计规律

2.1 样本均值有自己的统计规律

设(X1,X2,…,Xn)是总体X容量为n的样本,样本函数。

从容量N的总体中抽取样本容量为n的随机样本,在重复抽样的条件下共有Nn个可能的样本,在不重复抽样条件下,共有CnN个可能样本。而对于每一个样本,都可以计算出样本的均值x。因此,样本均值是一个随机变量,该变量有着自己的统计规律性。所有的样本均值的概率分布就是样本均值的抽样分布。

若要构造总体均值μ的置信区间,就必须要知道样本均值x的概率分布。这是我们研究样本均值统计规律性的价值所在。

2.2 Galton钉板实验

历史上曾有人验证了随机变量之和的分布情况,这就是著名的Galton钉板实验。

实验过程如下:在有15层等距钉子的板上方让小球自由下落。在下落过程当中当小球碰到钉子时,从左边落下和从右边落下的机会相等。碰到下一排钉子时也是如此。最后落入底板中的某一个格子。因此,任意放入一球,它落进哪一个格子,预先难以确定。但是实验证明,若用大量的小球来做,则最后格子中小球顶端的曲线形状总是近似于正态曲线,如图1所示。

高尔顿钉板实验得到的图形说明Xi近似于正态分布N(0,152) [7-8] , 也就是中心极限定理,其中Xi指第i个随机变量。

对此定理变形可得:。

这就是推断统计学上核心的基础理论之一,即样本均值统计规律:在大样本抽样(样本容量)时,样本均值的概率分布近似服从正态分布[9],如图2所示。

3 样本均值统计规律的模拟效果

图3是对由excel的rand()函数生成的随机数的256个样本平均值进行的模拟效果。从中可以看出样本容量n=2时,均值的分布没有规律;n=10时,均值的分布已经有了钟形分布的样子;当n=30时,均值概率分布已经很接近于正态分布的钟形;当n=50时,均值的分布进一步近似于对称钟形分布。

也就是说,在大样本抽样时,随着样本容量的增加,样本的均值总是趋近于正态分布。

因为上述实验结果是在随机数的基础上完成的,也就是说是在总体分布未知的情况下得出的,所以我们有足够的理由得出结论:样本均值统计规律近似满足正态分布。

事实上,我们可以进一步对这个结论进行验证。通过调用excel“数据分析”功能生成满足均匀分布的随机数、满足泊松分布的随机数和满足二项分布的随机数各256列,求出每一列的平均值,绘制直方图。

图4是在样本容量n=30和50的情况下、满足均匀分布的256个样本均值图形;图5是在样本容量n=30和50、λ=0.2的情况下满足泊松分布的256个样本均值图形;图6是在样本容量n=30和50、p=0.2的情况下总体满足二项分布的256个样本均值图形。从这三个属于不同分布类型变量均值的模拟结果中我们发现,无论是离散型随机变量还是连续型随机变量,只要进行抽样时的样本容量等于或大于30,其样本均值都近似服从正态分布。

4 总结

文中使用随机数验证了样本均值的统计规律性,并用满足均匀分布的总体、满足泊松分布的总体与满足二项分布的总体给予了进一步佐证。

数字时代下,统计素质是每一个国民的必备素质,而计算机操作能力也是这个信息社会下每个人必需的生存技巧。如何以计算机技术来促进统计学的学习和发展,以统计知识来帮助设计计算机软件使其更加智能化人性化,是一个值得深入探讨的领域。

参考文献:

[1] 乔晓春.关于出生性别比的统计推断问题[J].中国人口科学,2006(6):30-35.

[2] 杨志忠,刘新平.一种软件可靠性新模型的参数估计和统计推断[J].统计与决策,2009(15):152-153.

[3] 张慧卉,石宝峰,廉晓红,译.现代商务统计excel版[M].北京:清华大学出版社,2007.

[4] 魏传华,李静,吴喜之.部分线性模型基于参数信息的统计推断[J].数学的实践与认识,2009,39(19):162-167.

[5] 步金芳.数理统计中随机抽样的理论探索[J].统计与决策,2007(5):140-141.

[6] 温美琴.统计分析方法在我国政府绩效审计中的应用[J].统计与决策,2006(12):64-66.

[7] Z.Jelinski and Moranda P B.Software Reliability Research in Statistical Computer Performance Evaluation[M].NewYork:Academic Press,2002.

[8] 陈家鼎,孙山泽,李东风.数学统计学讲义[M].北京:高等教育出版社,2003.

[9] 林小苹,吴文杰.用MATLAB模拟大数定律和中心极限定理[J].汕头大学学报:自然科学版,2005,20(2):12-17.

上一篇:中庸思想在《数据结构》课程中的运用 下一篇:中职学校计算机专业课程设置的几点思考