主成分分析和因子分析方法在省域区域社会发展状况排序中的应用

时间:2022-10-23 08:55:54

主成分分析和因子分析方法在省域区域社会发展状况排序中的应用

摘要: 本文通过分析2012年全国31个地区的社会发展状况的截面数据,针对我国各省域社会发展的现状特点,利用主成份分析和因子分析方法,简化多维数据,把复杂的数据用较少9项综合指标来表达,达到降维和分类的优越效果。对我国各省域社会发展的现状特点进行了统计分析,得到客观的评价结果。

Abstract: Through analyzing the cross section data of social development of China's 31 regions in 2012, aimed at the characteristics of social development of all the provinces in China, this paper uses principal component analysis and factor analysis to simplify the multidimensional data, express the complex data by 9 comprehensive indexes to achieve the superior effect of dimensionality reduction and classification. This paper carries out the statistical analysis for the characteristics of the current situation of the provincial social development in China and gets objective evaluation results.

关键词: 主成分分析;因子分析;社会发展;因子旋转

Key words: principal component analysis;factor analysis;social development;factor rotation

中图分类号:F812.42 文献标识码:A 文章编号:1006-4311(2015)36-0020-04

0 引言

当今社会经济增长的状况和社会发展的状况是密切相关的,2012年我国采用层次多、覆盖面涉及广的指标体系对全国31个地区省域区域的社会发展状况进行分析,因为纳入的指标繁多,使得分析过程十分繁杂。如果能降低指标的维数,会大大减小分析的难度。主成分分析和因子分析是多元统计分析中常用的两种处理降维的统计方法,在力保数据信息损失最少的原则下,把多个指标转化为少数几个综合指标的一种对多变量数据进行最佳综合简化的多元统计方法。主成分是原始变量的线性组合,保留主要信息量的原则充分反映原指标的信息。本文力图针对我国各省域社会发展的现状特点,突破以往的传统分析方法,利用主成份分析和因子分析方法,简化多维数据,把复杂的数据用较少9项综合指标来表达,达到降维和分类的目标。同时对我国各省域社会发展的现状进行了统计分析,并得到客观的评价结果,从而使评价方法更具有优越性。

1 统计方法及模型

②因子分析是主成分分析的推广和发展[2],是将具有错综复杂关系的变量综合为数量较少的几个因子,以再现原始变量与因子之间的关系,主要是通过变量的相关系数矩阵内部结构的研究,找出能控制所有变量的少数几个随机变量去描述多个变量之间的相关关系,但是,这少数几个随机变量是不可观测的,通常称之为因子。然后根据相关性的大小把变量分组,使得同组内的变量之间相关性较高,不同组的变量相关性较低。

③因子旋转。建立因子分析数学模型的目的不仅要找出公共因子以及对变量进行分组,更重要的是要知道每个公共因子的意义,以便对实际问题作出科学的分析和解释,这时根据因子载荷阵的不唯一性,可对因子载荷阵实行旋转,使旋转后的因子载荷阵结构简化。

2 数据处理及结论

利用主成分分析和因子分析对我国31个省市社会发展状况进行分析,本题选取了9个指标作为反映我国31个省市社会发展状况的因素,分别是:X1:国内生产总值(GDP)(亿元);X2:人均地区生产总值(元/人);X3:农村居民家庭人均纯收入(元/人);X4:城镇居民人均可支配收入(元/人);X5:城镇单位就业人员平均工资);X6:新增固定资产(亿元);X7:固定资产投资额(亿元);X8:高等学校数(所);X9:卫生机构数(所)。

表1是我国31个省市9项指标的原始数据[3]。

数据处理[1]:①对原始数据进行标准化。(表2)

②建立变量的相关系数矩阵。(表3)

③KMO检验。(表4)

④求R的特征值和特征向量。(表5)

⑤从表5看出前2个特征值的累积贡献率已经达到90.268%,说明前2个主成分基本包含了全部指标具有的信息,因此取前2个特征值,并计算相应的特征向量。(表6)

得到的前二个主成分为:

第一主成分:F1=0.941X1+0.580X2+0.634X3+0.639X4+0.251X5+0.847X6+0.875X7+0.885X8+0.526X9

第二主成份:F2=-0.162X1+0.749X2+0.736X3+0.726X4+0.902X5-0.463X6-0.441X7-0.325X8-0.708X9

由上式可以看出:在第一主成分中各项指标的系数都较大,且都比较接近,第一主成分反映的原始指标信息比较多,比较平均。在第二主成分中,第二、三、四、五、九项的系数比较大,而且也比较平均。这样不利于我们对原始指标进行分组,不利于我们定义因子。为了能更好地让主成分全面突出的反映原始信息,需要进行因子旋转。

⑥建立因子载荷阵。

⑦对因子载荷阵实行方差最大旋转,旋转后的矩阵如表7。

因而得到旋转后的主因子表达式为:

第一主因子:F1=0.892X1+0.117X2+0.170X3+0.179X4-0.224X5+0.965X6+0.978X7+0.927X8+0.813X9

第二主因子:F2=0.341X1+0.940X2+0.957X3+0.950X4+0.903X5+0.0340X6+0.067X7+0.172X8-0.341X9

由上式可以看出,经旋转后得到的主成分能更突出、更全面地反映相应的各个指标的信息。

⑧将八指标按高载荷分成二类,并结合转业知识给出各因子的命名如表8。

在第一因子中,X1、X6、X7、X8、X9五项指标有较大的载荷,这些是从GDP、新增固定资产、固定资产投资额、高等学校数、卫生机构数五个方面反映社会发展状况的,因此命名为规模因子。

在第二因子中,X2、X3、X4、X5四项有较大的载荷,这些是从人均GDP、人均地区生产总值、农村居民家庭人均纯收入、城镇居民人均可支配收入、城镇单位就业人员平均工资四个方面反映社会发展状况的,因此命名为人均因子。

⑨根据各省市的因子得分计算相应综合得分,综合得分的计算公式为(加权系数):

由表9可知,第一因子得分较高的是江苏、广东、山东,说明这三个地区的总量因子比较强,第二因子得分较高的是上海、北京、天津、浙江、江苏、广东,说明这些省份的人均因子比较强大。排名也比较靠前,综合得分较高的是江苏、山东、广东、浙江、上海、北京;综合得分较低的是贵州、甘肃、海南、宁夏、青海、。

根据《“十二五”中期中国省域经济综合竞争力发展报告》蓝皮书的实际结果为:

2012年全国各省市经济竞争力排名:江苏省、广东省、北京市、上海市、浙江省、山东省、天津市、辽宁省、福建省、四川省;排在中游区(11~20位)的依次为河南省、湖北省、安徽省、湖南省、吉林省、河北省、内蒙古自治区、重庆市、陕西省、黑龙江省;处于下游区(21~31位)的依次为江西省、海南省、山西省、新疆维吾尔自治区、广西壮族自治区、贵州省、宁夏回族自治区、青海省、云南省、甘肃省、自治区。

从中可以看出笔者所得到的省域区域社会发展状况和《“十二五”中期中国省域经济综合竞争力发展报告》蓝皮书的实际结果基本一致,但并不完全一致,主要原因在于国家统计局纳入了影响排名的各种要素,指标体系涉及层次多、覆盖面广,能够真实的体现省域经济综合竞争力的真实排序。而本文仅用来9项指标,就得到省域区域社会发展状况的结果。说明本文采用方法的优越性。

参考文献:

[1]汪东华.多元统计分析与SPSS[M].华东理工大学出版社出版社,2010,9:187-226.

[2]余锦华,杨维权.多元统计分析与应用[M].中山大学出版社 2006,2:210-224.

[3]中华人民共和国国家统计局.中国统计年鉴-2012[M].中国统计出版社,2013.

上一篇:推动企业统计信息化建设 促进统计“四项工程”... 下一篇:在普拉湾与山海做伴遁隐静谧天堂中