社会科学研究中统计学方法应用的问题研究

时间:2022-07-25 12:38:21

社会科学研究中统计学方法应用的问题研究

[摘要]本文总结了有关社会科学研究论文中统计学方法的应用问题,并从描述性分析、定量资料的统计分析、定性资料的统计分析、相关与回归分析等方面,阐述了在统计学方法的应用中,经常出现的错误、正确应用的关键、通常采用的方法以及注意的问题等,以便读者应用时予以参考借鉴。

[关键词]社会科学 统计方法 应用问题

社会科学的实证研究在应用统计学时,统计分析是其关键环节,资料性质分析、资料类型的判断、统计方法的选择等各个环节都应把握好,否则,其分析结果将是没有意义的。本文拟通过对社会科学实证研究论文中应用统计分析方法出现的问题,从描述性分析、定量资料的统计分析、定性资料的统计分析、相关与回归分析等方面进行解析。

一、描述性分析问题

在社会科学实证研究中,一般首先要对社会调查数据进行描述性统计分析,以发现其内在的规律性,再选择进一步的分析方法。描述性统计分析要对调查总体所有变量的有关数据做统计性描述,主要包括数据的频数分析、集中趋势分析、离散程度分析、分布形态以及一些基本的统计图形。

描述性统计分析虽然较为简单,但如果对某个事件或某种现象的描述不清楚或存在偏差,那么其后的所有分析都将值得怀疑,而描述的偏差可能会引起公众或学术界对某些社会现象的误解,甚至误导政府决策。

1.均值的误用

均值是用于描述样本集中趋势的最常用指标,但应注意,对于正态或近似正态的对称分布样本,它是较好的指标,一般与离散趋势指标中的标准差一起描述数据资料(即形式);而对于偏态分布的样本,则常用中位数来描述集中趋势,一般与离散趋势指标中的四分位数间距一起描述数据资料(即形式),究其原因是均值容易受到极端值的影响。

对于两个分布完全不同的样本,可能会得到相同的均值,因此均值在某种程度上抹杀了样本内部的差异,而往往这种内部差异正是需要进行深入研究或应当引起人们注意的。为了弥补均值的这种缺陷,一般在报告均值的同时,也应该报告标准差,或用直方图或散点图的形式描述分布,以展示群体内部的差异。

2.绝对数的误用

因为社会调查研究比较容易得到大容量的样本,所以对任何小概率事件,用绝对数报告都会出现较大的数字,单纯对绝对数的强调往往会产生误解。比较合理的方式一般是在报告某事件绝对数的同时,给出该事件的发生率或占研究样本的比例。

3.相对数的误用

相对数常用于描述定性资料的内部构成情况或相对比值或某现象的发生强度,一般有比与率两种形式。虽然比与率的计算形式是相同的,即两个绝对数之商乘以100%,但它们的含义是不同的。率用于反映某种事物或现象发生的强度,而比则用于反映部分与整体或某一部分与另一部分之间的关系。当数据的比较基础相差悬殊,用绝对数表述没有可比性时,就要借助于相对数。

应用相对数也容易出现一些问题,如:百分比与百分率的混用;当分母很小时,只计算百分比或百分率,而没有报告样本量;当比较两个或多个总体率时,没有考虑到各总体对应的内部构成情况是否一致,而直接比较等。

例如在报告流动人口犯罪问题时,给人的印象往往是流动人口犯罪率高于常住人口,其实是忽视了流动人口的年龄和性别构成与常住人口完全不同,且青年男性是犯罪率较高的人群,这样对两个不同群体的比较往往会导致错误的结论。

二、定量资料的统计分析问题

定量资料的统计分析是指所观测的结果变量是定量的,而且希望考察定性的影响因素取不同水平时,定量观测结果的均值之间的差别是否有统计学意义。定量资料的统计分析在统计学应用中占有很大的比重,出现的误用也比较多。

正确选择定量资料统计分析方法的关键有两点:一是正确判断统计研究设计的类型;再是检验定量资料是否满足“独立性、正态性及方差齐性”的前提条件[1]。前者要求使用者对统计研究设计的类型较为熟悉,后者则需要进行预分析,可适当借助于统计分析软件。根据前提条件是否满足来决定用参数假设检验或方差分析,还是用非参数检验方法,进而根据对统计研究设计类型的判断,确定采用具体的统计分析方法。

对定量资料作统计分析时,常犯的错误有:

1.不管统计研究设计类型,盲目套用t检验或单因素方差分析;

2.不验证“独立性、正态性及方差齐性”前提条件,而直接应用参数检验法;

3.将多因素设计定量资料人为拆成多个成组设计定量资料,采用t检验法;

4.将多因素设计定量资料用单因素多水平方差分析解决,或用一元分析替代多元分析等。

三、定性资料的统计分析问题

定性资料的统计分析是指观测结果为定性变量的统计处理问题。定性资料的统计分析在社会科学研究中的应用也是很广泛的,通常根据影响观测结果的原因变量性质分为三种情况:

1.原因变量都为定性变量,此类资料就是通常理解的定性资料。常用的统计分析方法有:检验、秩和检验或Ridit分析、Spearman秩相关分析、线性趋势检验、一致性检验(也称Kappa检验)、加权检验、对数线性模型等。

2.原因变量中既有定性变量,又有定量变量。这类资料的统计分析通常有两种处理方法:一是结合专业知识先将定量的原因变量离散化,使其转化为定性变量,然后采用上面3.1的统计方法处理;二是先对定性的原因变量,采用哑变量技术进行处理,转化为多个二值变量,赋予0或1值,然后采用Logistic回归分析方法或多值有序变量Logistic回归分析处理。

3.原因变量全部为定量变量。这类资料的分析可以直接采用Logistic回归分析方法或多值有序变量Logistic回归分析处理。

定性资料的最常用表达形式是列联表,列联表有多种类型,如横断面设计的四格(或称2x2)列联表、队列研究设计的四格列联表、配对研究设计的四格列联表、双向无序的R×C列联表、单向有序的R×C列联表、高维列联表等,不同类型所用统计方法也不同,所以处理这类资料的关键是分辨出列联表的类型,从而选择相应统计分析方法。

在社会科学研究中,定性资料的统计分析常犯的错误主要就是列联表的误判,从而错误的选用统计方法。

四、相关与回归分析问题

相关分析是研究变量之间的相互关系,常局限于统计描述,较难从数量角度对变量之间的联系进行深入研究;回归分析则是研究变量之间的依赖关系,可实现对自变量进行控制,对因变量进行预测,及对随机变化趋势进行适当修匀。

相关分析可用于对定类、定序、定距及定比等尺度的各类资料进行定量描述,但各类资料的计算公式是不同的,所以应用时,需要判明资料的类型;而回归分析则要根据因变量性质的不同,选用不同的回归分析方法,一般可分为两类:一是因变量为连续型变量,具体的,当为非时间性的连续型变量时,可用线性回归分析、多项式回归分析、非线性回归分析等;当为时间变量时,可用COX半参数回归分析、指数分布回归分析及威布尔回归分析等;当为随时间变化的连续型变量时,则需要利用时间序列分析。二是因变量为离散型变量,需要利用Logistic回归分析、对数线性模型分析及多项Logit模型分析等。

在社会科学研究中,相关与回归分析的应用非常广泛。但应用时也经常出现一些错误:

1.没有结合问题的专业背景和实际意义,就进行相关与回归分析。其结果有时可能是莫名奇妙的,可能出现所谓的虚假相关。

2.对于较简单的线性相关与回归分析,不注意应用条件,盲目套用。一般地,Pearson相关分析要求两变量都是随机变量,且都服从或近似服从正态分布,若不满足条件,应采用其它相关分析法,如Spearman相关分析等。而线性回归分析则要求因变量必须是随机变量,且服从或近似服从正态分布,在回归分析前,先要进行统计检验,证实两变量的显著相关性,再进一步进行回归分析才有意义。

3.只求得相关系数或回归方程,而不进行参数假设检验就下统计分析结论。因为相关系数或回归方程都是由样本数据求得的,是否具有统计学意义,必须通过其相关参数的假设检验来判定。

4.多元回归分析策略的错误。在社会科学实证研究中,对多元回归分析的应用,不少人采取的策略是先用单变量分析,得到有统计学意义的多个变量,再将它们引入回归方程进行多变量分析,用逐步回归法进行筛选,从中选出有统计学意义的变量,这种分析策略是不正确的。因为自变量之间可能存在不同程度的交互作用,在单变量分析中无统计学意义的变量并非在多元回归分析中也没有意义。正确的处理方法应该是先综合分析各种变量之间的作用、实际意义及关系,有些可作为控制变量(如性别、年龄等),将经过初步筛选的所有变量代入回归方程进行分析,再采用逐步回归方法,必要时可多用几种筛选变量的方法,同时要注意自变量间的交互作用,进行综合分析,这样才能得到较为可靠的结果。

参考文献:

[1]王在翔:社会统计理论与实践[M].青岛:中国海洋大学出版社,2008

[2]胡良平等.医学统计学基础与典型错误辨析[M].北京:军事医学科学出版社,2003.148-239

[3]柯文泉:统计方法应用中应注意的几个问题[J].时代经贸,2008,6(96):83-86

[4]徐国祥:统计学[M].上海:上海人民出版社,2007.259-292

[5]张建军:科技论文中的统计问题[J].中国比较医学杂志,2008,18(11):77-79

上一篇:如何提高高速公路收费效率和准确性的研究探讨 下一篇:中等动态度车辆路径问题的杂交蚂蚁算法