多元统计分析之因子分析浅析

时间:2022-10-01 01:19:32

多元统计分析之因子分析浅析

摘要:多元统计分析是统计学中内容十分丰富、应用范围极为广泛的一个分支。在自然科学和社会科学的许多学科中,研究者都有可能需要分析处理有多个变量的数据的问题。本文对其中的因子分析的概念、模型及分析步骤作了讨论。

Abstract: Multivariate statistical analysis is a branch of statistics,which is rich and have a very wide range of applications. In many disciplines of natural and social sciences,researchers are likely to deal with data that has multiple variables. In this paper,we will discuss the concept,models and analytical steps of the factor analysis.

关键词:多元统计分析;因子分析;模型

Key words: multivariate statistical analysis;factor analysis;model

中图分类号:C93文献标识码:A文章编号:1006-4311(2010)15-0128-02

多元统计分析是运用数理统计方法来研究解决多指标问题的理论和方法。随着计算机应用技术的发展和科研生产的迫切需要,多元统计分析技术被广泛地应用于地质、气象、水文、医学、工业、农业和经济等许多领域,成为解决实际问题的有效方法。多元统计分析中的因子分析(Factor Analysis)是寻找公共因子的模型分析方法,它是在主成分的基础上构筑若干意义较为明确的公因子,以它们为框架分解原变量,以此考察原变量间的联系与区别。其基本目的就是用少数几个因子去描述许多指标或因素之间的联系,即将相关比较密切的几个变量归在同一类中,每一类变量就成为一个因子,以较少的几个因子反映原资料的大部分信息,就是从大量的数据中“由表及里”、“去粗取精”,寻找影响或支配变量的多变量统计方法。

对因子分析模型可以做如下描述:①X=(x1,x2,…,xp)是可观测随机向量,均值向量E(X)=0,协方差阵Cov(X)=∑,且协方差阵∑与相关矩阵R相等。②F=(F1,F2,…,Fm)(m

称为因子分析模型,由于该模型是针对变量进行的,各因子又是正交的,所以也称为R型正交因子模型。

其矩阵形式为:x=AF+ep

我们把F称为X的公共因子或潜因子,矩阵A称为因子载荷矩阵,e称为X的特殊因子。A=a(ij),aij为因子载荷。数学上可以证明,因子载荷aij就是第i变量与第j因子的相关系数,反映了第i变量在第j因子上的重要性。

建立因子分析模型的目的不仅是找出主因子,更重要的是知道每个主因子的意义,以便对实际问题进行分析。还有一个重要的作用是应用因子分析模型去评价每个样品在整个模型中的地位,即进行综合评价。

在上面的分析告一段落后,就可以确定因子分析的步骤。因子分析的核心问题有两个:一是如何构造因子变量;二是如何对因子变量进行命名解释。因此,因子分析的基本步骤和解决思路就是围绕这两个核心问题展开的。

我们来看一个实际的例子,即考察我国各省市社会发展综合状况。

以下是对我国各省市综合发展情况做因子分析。数据表中选取了六个指标分别是:人均GDP(元)X1,新增固定资产(亿元)X2,城镇居民人均年可支配收入(元)X3,农村居民机家庭纯收入(元)X4,高等学校数量(所)X5,卫生机构数量(所)X6。原始数据见表1:

分析过程如下:①将原始数据标准化;②建立六个指标的相关系数阵R;③公因子方差;④总方差解建立因子载荷阵;⑤建立因子载荷阵;⑥对因子载荷阵施行方差最大旋转,旋转后得正交因子表矩阵,由此有:X1=0.947F1+0.178F2-0.115F3,X2=0.940F1+0.105F2+0.261F3,X3=0.893F1-0.0747F2+0.404F3,X4=0.0364F1+0.967F2+0.09455F3,X5=0.212F1+0.830F2+0.345F3,X6=0.222F1+0.493F2+0.806F3;⑦输出因子成份得分系数矩阵。最后,由上述表可见,每个因子只有少数几个指标的因子载荷较大,因此可根据上表分类,将6个指标按高载荷分成3类,列于表2:

由此,运用因子分析的方法我们对国内各省市综合发展情况有了一个了解。

由前面的分析可以得出,因子分析法是从研究变量内部相关的依赖关系出发,把一些具有错综复杂关系的变量归结为少数几个综合因子的一种多变量统计分析方法。它的基本思想是将观测变量进行分类,将相关性较高,即联系比较紧密的分在同一类中,不同类变量之间的相关性则较低,那么每一类变量实际上就代表了一个基本结构,即公共因子。对于所研究的问题就是试图用最少个数的不可测的所谓公共因子的线性函数与特殊因子之和来描述原来观测的每一分量。

在实际问题中要选择适当的方法来解决问题,需要对问题进行综合考虑。应该根据实际情况对问题进行合理的分析与判断,收集相关资料,选择合适的分析方法,建立模型,最后对模型进行诊断和优化处理,并应用于生产实际。

参考文献:

[1]杨维权,刘兰亭,林鸿洲.多元统计分析[M].北京:高等教育出版社,1989.

[2]张尧庭,方开泰.多元统计分析引论[M].北京:科学出版社,1982.

上一篇:浅议建筑物结构的加固与改造 下一篇:电网调度安全管理与工作模式研究