主成分分析与因子分析在新指标解释方面的比较

时间:2022-09-03 04:27:42

主成分分析与因子分析在新指标解释方面的比较

【摘要】多元统计分析中的主成分分析与因子分析是两种很重要的分析方法。它们作为一种数据降维的手段在很多领域,如金融、工业生产、企业财务管理等都有着越来越多的实际运用。但是两者不论是在具体算法中,还是在变量解释方面都有一定的相似性,以至于很多人搞混,甚至在具体应用中搞不清自己用的到底是哪种方法。本文舍去了复杂的数学分析方法与公式的推导过程,在同一个例子上运用两种方法,这样可以更加清晰地看出两种方法在变量解释上的区别和联系,从而可以更好地理解何时应使用主成分分析,而何时使用因子分析。

【关键词】主成分分析;因子分析;新指标解释

一、引言

随着数理统计理论的发展,作为它的分支的“多元统计分析方法”在近20年越来越受到人们的重视。这不仅是因为很多事情都是带有随机因素,而且在具体分析问题的时候,人们需要考虑的因素不止有一个。比如在购物的时候,我们评价商品并不是仅仅看其价格,还要关注质量、保修期等多方面的因素。在学校里,评价一个学生也是至少需要“德、智、体”三方面的指标。多元统计分析就是用统计的方法分析这种带有多指标的随机性问题。上述的例子所涉及的指标其实并不多,但更多的时候会遇到很多指标,如考察一个企业,需要了解其规模、产量、产值、税收、员工数、利润等,如果我们关注所有的指标就会大大增加分析的复杂性,而且也不宜抓住主要的因素。因此有必要对这些原始的指标数据进行降维,亦即用较少的新指标来代替原始指标,这就是主成分分析与因子分析在解决问题时所要体现的思想。可以说,出于数据降维的目的它们是没有区别。

二、具体实例分析

但是在新生成的指标的解释方面,它们还是有较大不同的。首先看一下两种方法的数学模型。主成分分析是考虑原来的指标的线性组合,把原始指标的线性组合叫做主成分。从这一点可以看出,主成分其实就是原来指标的压缩综合。而因子分析模型则是把原始指标表示成因子的线性组合(如果姑且不去考虑随机扰动的因素),也就是说因子分析的目的是要找出影响所有原始指标的内在因素。因此尽管两种方法都是对原始数据进行降维,得到新的指标,但是在对新指标的解释是有不同的。下面分析一个具体例子。该例通常出现在统计教科书中因子分析一章,但本文从主成分分析和因子分析两方面同时对其进行剖析。

考察某校学生的学习成绩状况。随机抽取了30个学生,关注起数学、物理、化学、语文、历史、英语六门课程的成绩。故形成了如下的30行、6列的原始数组。我们需要从中提炼出1,2个新指标。

通过MATLAB软件中的主成分分析与因子分析程序,可以看到通过两种方法的数据降维处理后按照累计贡献率均提炼出了两个新的指标,它们都是从上述的原始二维数组出发,计算其协方差距阵的特征值与特征向量,因此很容易搞不清楚所得到的两个新变量到底是主成分变量,还是因子变量。其实,我们此时回顾一下前文中提到的数学模型就清楚了。主成分分析是原始变量的线性组合,结合此例,即为所获得的两个新指标是原始指标的综合。又注意到原始变量前的组合系数(也叫作载荷)大小,不难发现,在其中的一个新指标中数学、物理、化学、三科占的比重比较大,因此可以把该综合指标形象地称为“理科”主成分;而在另一个新指标中语文、历史、英语三科占的比重比较大,因此可以把该综合指标形象地称为“文科”主成分。此时再考虑因子分析的模型。如前文所讲,原始变量表示成了因子的线性组合。结合此例,即数学、物理、化学、语文、历史、英语这原六个指标表示成了两个新的指标的线性组合。考虑到因子的组合系数,发现在数学、物理、化学这三科的线性表示中一个因子的组合系数比较大,而另一个比较小,因此可以把所占分量较大的那个因子形象地理解成“理性思维”因子,同样的道理可以把另一个新指标理解为“文性思维”因子。

三、总结

从此例可以看出,虽然主成分分析与因子分析都是从原始数据的协方差矩阵(有时是相关系数阵)出发,计算特征值与特征向量,按照累计贡献率大于85%的原则确定新的指标个数。但是为了避免搞混两种方法,在解释新的指标时应回馈到各自的模型上面来。即:按照主成分分析理论,新指标仅仅是原始指标的简单汇总,如果想用较少的几个变量替代原来的变量则用主成分分析;而对于因子分析,新指标则是对所有原始指标皆有影响的那些公共因子,所以当需要寻找潜在的影响要因时,倾向于用因子分析。明白了这一点,对新指标的解释也就变得顺理成章了。

【参考文献】

[1]高惠璇 应用多元统计分析 2005

[2]李静萍 谢邦昌 多元统计分析方法与应用 2008

[3]李卫东 应用多元统计分析 2008

[4]陆恒芹 苏勤 陈丽荣 女性旅游者行为特征分析及其动机研究―以西递、宏村为例 2006

[5]陆虹 用因子分析测量“护士工作满意度量表”的结构效度[期刊论文] 2007

[6]赵磊 李继海 朱大洲 籍保平 5种鹿茸营养成分的主成分分析[期刊论文] 2010

[7]易跃明 梁戈夫 主成分分析和因子分析在财务诊断中的比较[期刊论文] 2010

上一篇:让课堂在冲突和调适中达到和谐 下一篇:提高小学生数学体验效度之我见