多元统计分析范文

时间:2023-11-21 01:31:25

多元统计分析

多元统计分析篇1

关键词 医用多元统计分析;实践能力;统计软件

中图分类号:G642.4 文献标识码:B

文章编号:1671-489X(2015)08-0084-02

随着现代计算机技术和网络技术的发展,医疗卫生领域逐步完善生命健康相关信息登记的数据库,各类数据库之间相互链接形成医药卫生行业的海量信息。面对海量信息,如何透过数据的表面现象抓住其本质?如何通过众多的数据挖掘出有关生命健康的科学规律?迫于此形势的需求,各医学院校纷纷开设医用多元统计分析课程,培养医学研究工作者将各种多元统计分析方法应用到医药卫生领域数据中的能力。

医用多元统计和基本卫生统计构成医药卫生领域内处理数据的有力工具,两者都用到数理统计和概率论的知识,故在教学方法上医用多元统计有许多可以借鉴基本卫生统计的教学经验。医用多元统计分析处理多变量数据,相对于处理单变量数据基本卫生统计方法而言,医用多元统计又呈现出众多自己的特点,比如繁琐的矩阵、复杂的建模、庞大的运算、抽象的概念[1]等。因此,在借鉴基本卫生统计教学方法的同时,还必须依据本课程的特点认真考虑如何增强该课程教学效果的问题。笔者在几年的医用多元统计分析教学中有四点体会与大家分享。

1 通过教学环节培养实践能力

医用多元统计分析属于应用性的方法学科,课程性质要求学生在学习多元统计方法之后,要具备将各种多元统计分析方法应用到医疗卫生领域数据中的能力。培养学生的实践能力,仅从理论授课上下功夫提高学生实践能力是远远不够的,必须在理论授课、实验教学和课程考核等各个教学环节中都不脱离实践能力培养的主线。在理论课上讲授的内容一般包括原理方面的知识和如何分析实际数据两个方面。提高学生实践能力要求教学过程中淡化数学原理方面的知识,而将重点放置在如何分析实际数据上,即该多元统计分析方法使用的前提条件是什么,如何使用该方法以及分析结果如何解读,在具体研究的医学问题中此结果具有什么样的意义。

尽管在现代教学方法中有体验式教学的渗入[2],但相对于实验课的实际体验来讲,学生对于数据何时采用、如何采用某种多元统计分析方法,还是保持在似乎知道,但又不完全明确的模糊阶段。很多原理方面的知识,尽管不是重点,但也需要学生了解一下,才能有助于把握整体脉络、合理应用,通过实验课的亲身体验,能直观观察到相对模糊的原理知识得到验证的过程,从而心服口服地从心底接受没有经过手工计算而呈现的分析结果。并且多元统计分析的实验课本身就是让学生去体验各多元统计分析方法怎样应用于实际数据的过程,从而使学生实践能力大大提高。

一般课程考试比较侧重理论原理的考核,而医用多元统计分析授课的目的就是给学生讲授多元统计方法应用于医药卫生领域数据的实践过程,学习课程之后学生必须具备这种实践能力,否则就根本没有实现开设这门课程的初衷,没有达到教学目的。因此,课程考试也应侧重在学生实践能力的考核上。课程考核一般有试卷考核、平时实验成绩和上机考核三种形式,而以试卷考核的形式居多。对于医用多元统计分析课程,平时实验成绩考核和上机考核也应该是必须选择的考核形式,除此以外,在试卷考核中也可通过适当的题型体现对学生实践能力的考查。比如,将多元数据分析的结果展示在试卷上,让学生回答此分析结果对于研究目的反映出什么;或者指出研究目的,让学生回答选用何种多元统计分析方法,为何选用这种方法;或者从展现的结果让学生判断是否适用某种多元统计分析方法等多种题型来考查学生的实践能力。通过考核反馈出实践能力欠缺的部分,从而给予相应的应对措施。

2 通过教学软件提高教学效率

多元统计分析建模一般都要经过逆矩阵、相关系数矩阵的计算,求解特征根与特征向量等过程,这些过程没有扎实的数学功底是根本不可能完成的。即便能完成这些运算,但也是相当耗时的过程。就运算相对简单的多元统计分析方法而言,如果采用人工计算器计算的话,也需要大约五个学时的时间才能完成,复杂的多元统计方法需要学时数就更多了。假定学校能够安排充分的学时数,学生也必须有足够的能力和耐心去完成这些运算。可见,统计软件和多元统计分析方法教学的结合是非常必要的。

目前,常用的统计分析软件有SAS、SPSS和STATA。对于医学专业本科生和研究生的统计分析要求来讲,简单掌握每个软件基本功能就可以满足数据分析的需求,但对统计学专业的研究生而言,一般需要用到可编写程序的SAS软件,并且要深入学习,进行数据的模型拟合分析。各医学院校可根据自己的办学条件、师资力量、教材的情况、授课对象等因素综合考虑本院校采用医用多元统计分析的软件。借助软件在很短的时间能完成模型的建立、模型拟合检验等分析过程,通过分析结果中呈现的模型建立中间步骤,了解矩阵运算,求解特征根与特征向量的信息,把握前因后果、各步骤间的相互关系,大量时间的节余可用在多元统计分析方法的专业应用上。

3 通过适宜教材激发学习兴趣

多元统计分析原理部分的繁琐复杂性对该课程的学习形成很大阻碍,且原理部分又不是医学专业学生学习的重点,这提示了教材选择的重要性。合适的教材不应该花费很大的篇幅在理论推导和模型建立的过程上,否则只会增加学生对该课程的畏惧心理。教材应当侧重于多元统计方法的应用部分,应用部分和学生专业的相关性越强,就越容易激发学生学习兴趣。

上文中提到学习医用多元统计分析教学要结合统计分析软件,因此,教材中最好在每个多元统计方法的介绍之后都安排一个章节,说明这种多元统计方法通过统计分析软件如何实现,以及软件运行结果如何解读。医学各专业学生一般都未经过系统的统计软件的学习,因此,教材中软件相关内容的安排就尤其重要,不仅要有这样的章节,而且要通俗易懂,适合医学专业学生的初次统计软件学习,在每一种多元分析方法数据集的录入、软件实现的步骤、一些常用选择项的介绍、软件运行结果的每个部分的解读以及结合专业知识后的结论等各个方面都要有详尽的解释。

医学可以划分成很多不同的专业,如公共卫生、医药和临床专业等,就公共卫生专业又可以进一步详细划分成劳动卫生、儿少卫生和营养等专业。目前的医用多元统计分析教材没有具体针对各个专业的多元统计分析教材,能选择到和医学专业接近的教材充其量也就是医用多元分析的教材了,因此,通过教材提高学习的积极性还是存在一定的局限性,但这种局限可以通过案例教学来弥补。在授课过程中,授课教师可能通过案例式教学[3],选择和授课学生专业休戚相关的例子来进行讲解,就格外能吸引学生的注意力。

4 通过教学设计引导学生主动学习

多媒体技术在教学中的应用极大优化了教学过程[4]。随着多媒体技术的发展,教学过程中“传统的PPT教学”逐渐形成新的多媒体教学形式――微课件。微课件是指使用多媒体技术在五分钟内就一个知识点进行针对性讲解的一段视频或音频[5]。基于教学设计,微课件可用于难点讲解、内容小结等各个环节。如在教学导入阶段,教师根据新课知识点设计新颖的问题,通过简短的视频的形式展现。微课件以视频的形式吸引学生的注意力的同时,将教学问题引入,让学生带着问题去听完一堂课,从而起到引导学生主动学习、增强听课效果的作用。

布置课后作业也是一种很好的引导学生主动学习的途径。以往教学中教师一般也布置作业,但布置的作业大多是多元分析方法基本思想和原则之类的思考题。笔者在教学实践中,将课后布置作业题目设定为“收集适用本次理论课医用多元分析方法的自己专业相关数据,并预计数据分析后可能的结果”。学生在收集数据的过程中,就必须去主动思考这种多元统计分析方法的基本思想、适用原则等问题,并且会进一步产生通过软件分析此数据的欲望。在实习课上,除了教师规定的实习题目之外,学生一般都会主动完成自己专业数据的分析,和教师探讨此数据分析的结果和对专业的指导意义。

以上是笔者在多年医用多元统计分析课程教学中的几点体会,通过培养实践能力、激发学习兴趣、提高教学效率和引导学生主动学习等多种方法增强教学效果,培养学生独立分析问题、利用科学方法解决问题的能力,使其在未来的科研岗位上能很好地利用和分析医疗卫生领域的海量信息为人们的健康服务。另一方面,通过各种方式增强医用多元统计分析的教学效果,也促使授课教师自身能力素质得以全面提升,真正落实“教师为主导,学生为主体”的教育理念。

参考文献

[1]朱春华.多元统计分析教学体会和创新[J].四川教育学院学报,2011,27(5):108-110.

[2]程兰芳.体验性教学在多元统计分析课程教学中的实践[J].统计教育,2007(5):21-22.

[3]刘琳,丁琨.案例教学在多元统计分析课程中的应用研究[J].农业与技术,2009,29(3):129-131.

[4]王静敏.多元统计课程的创新改革研究[J].统计教育,

2007(10):24-25.

多元统计分析篇2

关键词:农业生产条件;农业经济发展;多元统计分析

农业在我国经济发展中起到非常重要的作用,受到自然条件的影响,全国各个地区的经济发展水平存在很大的差异性,当地政府对农业的重视程度和政策帮助力度不同,也影响到了各个地区农业的发展。基于多元统计分析,可以分析出各个地区农业生产条件的优势和不足,制定出相应的农业发展策略,进而提高农业经济发展水平。

1多元统计分析

多元统计分析属于数理统计中非常重要的一部分,在进行多个分析指标的统计时,往往需要用到数理统计分析来进行多个统计指标之间的理论和实践研究。多元统计分析有多种分析方法,比如说主成分分析、聚类分析等。在进行多元统计分析时,往往需要结合多个统计指标来进行,将多元统计分析应用到农业生产条件中,可以充分掌握气候、农药、化肥等多个方面的因素,寻找各个指标之间的联系性,再进行数学模型的建立,结合当地实际情况,对农业经济发展有清晰的了解,再制定出相应的政策制度,合理地对现有农业资源进行分配,最终实现促进农业经济发展的目的。

2多元统计分析的应用和实践

在探究农业生产条件对农业经济发展的影响时,选择多元统计分析的方式,可以最大化运用农业生产条件,科学的分配农业资源,提高农业经济效益。在实际的分析时,可以先对当地的农业生产条件进行统计,比如说劳动力情况、机械化水平、气候条件、耕地面积等。因为每个地区的实际农业生产条件都不相同,比如说西南地区,影响农业经济发展最主要的因素是农村劳动力,耕地面积、机械化水平等远没有劳动力重要。其主要的原因是因为西南地区的地形情况比较复杂,没有大面积的耕地,严重限制了农业机械的应用,往往需要采取人工的方式来完成耕种,因此需要大量的劳动力。运用关联分析在进行农业生产条件的分析时,绝大多数地区的耕地面积与农村劳动力关联不是很紧密,与物质生产条件的关联程度在逐年加大。造成这种现象的原因是,受到科学技术的发展影响,对传统的种植方式带来了很大的改变,提高了农作物的产量,农业生产机械化程度越来越高,进而耕地面积以及农村劳动力的重要性已经没有之前那么重要。对于农业生产工具、化肥农药等的使用不断加大,再加上各个地区的实际生产条件有所不同,导致了农业生产条件重要性的改变,需要结合实际情况对农业生产条件进行调整,最终促进农业经济的发展。

3改善农业生产条件,促进农业经济发展

农业生产条件直接影响到农业经济的发展,一定要做好农业生产条件的利用工作,促进农业经济的发展。在实际的生产过程中,随着耕地面积以及劳动力在生产条件中的地位逐渐降低,但是耕地面积以及劳动力又是农业生产中的必要条件。因此,在进行农业生产条件的改善时,要加大对种植技术的研究力度,提高单位耕地面积的产量;要增强农村劳动力对科技的运用能力,提高农村劳动力的文化水平,结合先进的科学技术来开展农业生产,提高农业生产的产值,促进经济发展。在对农业生产条件进行改善时,不仅要从传统生产方式上进行改善,还需要从本质上进行变革,比如说病虫害的防治、栽培技术、育种方式等。在病虫害的防治方面,科学合理地选择防治农药,可以减少病虫害对农作物的损失,提高农业生产产量,在使用农药时,要注意农药的更换使用,避免长期使用1种农药,进而使得病虫害产生抗药性失去防治作用。在进行化肥的使用时,一定要注意化肥的选择和化肥的搭配,农作物不同的生长时期要选择不同类型的化肥,化肥的搭配一定要合理,这样才能促进农作物的全面生长,化肥之间不要存在一些酸碱性的冲突,要牢牢把握好化肥的用量,过多造成浪费,过少达不到增长目的。育种方式以及栽培方式在农作物的生产中也非常重要,好的育种方式和栽培方式可以增强农作物的成活率,提高产量。结合先进的科学技术改善农业生产条件,能够发挥出现代科学技术的价值和作业,促进农业经济的发展。

4结束语

多元统计分析篇3

关键词:CPI指数;多元回归;主成分分析

中图分类号:F127文献标识码:A

物价与日常生活息息相关,居民消费物价指数(CPI)主要包括食品、工业消费品、服务类(教育、医疗、交通等)的价格,是根据与居民生活有关的产品及劳务价格统计出来的物价变动指标。在广西,居民消费支出是消费的主体且相对薄弱,价格总水平低位运行,但2007年以来居民消费物价指数增长速度产生了显著的波动。针对目前大众所最关心的物价问题,分析消费品零售价格和服务项目价格变动的相关数据,了解CPI变化规律和价格波动对居民消费的影响程度,为采取相应的措施提供依据,具有十分重要的意义。

一、建立居民消费价格指数回归分析模型

在实际问题的研究和分析中,往往涉及多个变量,国家统计局将构成中国CPI指标的200多种商品和服务分为8个主要的类别。其中,中国CPI中食品的权重占到34%,食品价格的变动对于CPI的变动有很大的影响。下面根据收集的数据建立数学模型做具体的分析。

由中国统计年鉴和广西统计年鉴,收集广西1999~2009年来居民消费价格指数的有关数据。设Y为居民消费价格总指数,考虑的主要因素有:食品x1,烟酒及其用品x2,衣着x3,家庭设备用品和维修服务x4,医疗保健和个人用品x5,交通和通讯x6,娱乐教育文化用品和服务x7,居住x8。建立多元线性回归模型。其表达式为:Y=b0+ bixi,式中b0,…,b8为回归系数。建模数据,见表1。(表1)

二、用SPSS求回归系数及分析

使用SPSS软件对表1的因变量与所有自变量做相关分析,可得回归方程:

Y=-8.399+0.282x1+0.191x2+0.111x3+0.071x4+0.015x5+0.089x6+0.118x7+0.21x8(1)

由此可知,所定义的各自变量对居民消费价格指数Y的影响都比较显著,且能通过检验(F=612.780)。

表2是关于模型是否成立的方差分析结果,可以看出,自变量对因变量有解释作用,所建立的线性回归模型具有合理性。(表2)

三、模型的检验与分析

建立多元线性回归数学模型后,还需要进行检验处理,使得到的数学模型更加完善。

1、拟合优度检验。表3中判定系数R2=0.998,测度了回归直线对数据的拟合程度,即回归方程中的8个自变量可以对价格指数Y进行99.8%的解释。说明回归方程的拟合度不错,模型较好地反映了8个自变量对CPI变动的共同影响。回归估计的标准误差S=0.1478,它是衡量回归直线代表性大小的统计分析指标,说明样本回归效果较好。(表3)

2、共线性检验与分析。在实际问题的分析中,往往涉及的自变量个数较多,这样在建立模型时就可能会出现严重的共线性,也给合理分析问题和解决问题带来困难。因此,需要对回归方程中的变量进行共线性诊断,并且确定它们对参数估计的影响。当变量的方差膨胀因子(VIF)值大于2被认为有共线性问题。由用SPSS软件分析的共线性诊断表得知,各指标的VIF值都较大,条件指数大于30,特征根为0或接近于0,表示这些自变量存在多重共线性;常量与烟酒用品、家庭设备及维修这三项的方差比例值均很高,分别为0.94、0.91、0.81,表示三者高度相关。

3、主成分分析。下面用主成分分析法对模型的原变量进行处理。(表4)表4中前4个主成分特征值的累积贡献率为90.158%,反映了原指标90.158%的信息,后面的特征值贡献越来越少,因此,也可用前4个主成分来代替原来的8个指标变量。Z1、Z2、Z3、Z4表示主成分。

成分得分系数表示某个主成分中,各变量所起作用的大小,其绝对值越大表示主成分对该变量的代表性也越大。其中,第一主成分主要与食品、家庭设备用品及维修服务相关;第二主成分主要与衣着、交通和通讯、娱乐教育文化用品及服务相关;第三主成分主要与烟酒及用品、医疗保健和个人用品相关;第四主成分与居住呈现高度相关。每个主成分都可由它的特征向量给出主成分方程。用SPSS将得到的4个主成分因子作为自变量建立多元线性回归方程:Y=101.648+2.878Z1+1.103Z2+0.673Z3+0.619Z4,带入4个主成分方程可得:Y=101.648+0.9371X1+0.6391X2+0.42X3+0.7054X4+0.0153X5+0.7445X6+0.5489X7+1.0236X8,这里的Xi(i=1,…,8)为标准指标变量。

分析主成分回归结果,R2=0.964,方差分析p=0.000,模型拟合较好。

将标准自变量还原为原自变量,得到消除共线影响后的Y与原自变量之间的线性回归方程:

Y=-78.5485+0.11805x1+0.52518x2+0.22392x3+0.35219x4+0.00609x5+0.20905x6+0.12291x7+0.24395x8(2)

经过上述分析可知所得方程(2)比方程(1)更加合理。

四、结论及建议

通过对模型的分析可知,各自变量均对广西居民消费价格指数有正向推动作用。

首先,中国CPI中食品的权重占到34%,食品价格的上涨对于CPI上涨有很大的推动作用。食品价格指数每提高1%会导致居民消费指数增长0.282%,标准化回归系数Beta=0.685,说明具有非常强的影响效果。广西第一产业的发展较落后,农业生产效率较低,造成农产品供求失衡。2009年广西农业增加值占生产总值比重首次降到20%以下,2010年的西南大旱使得粮食总产量同比下降3.9%,而游资炒作更加推高了广西部分农产品价格。因此,应大力推动现代农业发展,推广节本高效农业技术,保障农产品有效供给。政府部门可制定相关的措施抑制主要农资价格的上扬,加强农业生产资料和主要农产品的市场调控,稳定食品价格。

其次,CPI持续上涨的主要驱动因素中居住的上涨趋势也非常明显。近年来,广西北部湾经济区开发建设和城镇化建设快速推进,环境的改善吸引了外来购买力,从而扩大了对房地产市场的需求。房地产价格的一路攀升,对整体物价的上涨具有很大的刺激作用,成为居民消费的主要支出和生活负担。建议继续加强和改善房地产调控,采取长效措施遏制房价过快上涨,同时在引导商品房产业健康发展的同时,结合旧城改造大力建设保障性住房,增加住房有效供应,打击投资投机。

(作者单位:广西大学数学与信息科学学院)

主要参考文献:

[1]宋志刚,谢蕾蕾,何旭洪.SPSS16实用[M].北京:科技出版社,2004.

[2]杨凌云,王凡彬,潘瑞,梁杰.CPI指数预测的统计回归模型.重庆文理学院学报(自然科学版),2010.2.

[3]李毛侠.安徽省消费需求影响因素的主成分回归分析.现代物业,2010.2.

多元统计分析篇4

关键词:国际贸易;多元统计分析方法;比较

中图分类号:F74 文献标志码:A 文章编号:1673-291X(2016)01-0184-02

一、贸易类别划分

研究对象:中国以及2005年与中国贸易往来量高的国家,所有这些国家的贸易总额占全球总额的60%。

(一)基本方法

聚类指标:人均GDP,人均贸易总量,每万平方公里总产值,每万平方公里贸易总量,贸易总额与GDP比值,人均国土面积。上述变量有一定的重复成分,因此要对数据降维。采用因子分析的方法,筛选因子的规则是特征根大于1。

(二)2005年和2000年贸易类别划分

2005年:按照特征根大于1的规则,选取了两个因子,能解释原有变量的85.46%的信息,解释效果比较好。

16个国家的因子得分(见表1)。

再用这两个因子将16个国家聚类。聚类结果分成三类:

第一类:印尼,中国,印度,马来西亚,泰国,俄罗斯,韩国;第二类:澳大利亚,加拿大,法国,日本,英国,德国,意大利,美国;第三类:新加坡。

2000年:用同样的方法,利用2000年的数据将16个国家聚类,分类结果与2005年完全相同,这表明了上述分类的稳定性。

(三)聚类说明

根据各项指标的汇总数据来看,第一类属于贸易发展有待完善的国家,第二类属于贸易发展比较完善的国家,它的所有指标都要高于前者(除贸易总额与GDP比值之外),第三类是贸易发展相当完善的国家,它只有一个国家―新加坡。

二、贸易完善程度与全球经济组织参与程度的关联研究

(一)问题的提出

从以上分类的结果来看,不考虑新加坡,其他两类有一定的规律性,第一类以亚洲国家居多,而第二类以欧美国家居多。在全球以及区域贸易经济组织中,欧美国家的活跃程度要高于亚洲国家,那么这是否表明:一个国家参加的贸易经济组织越多,贸易就越发达呢?为了验证这个设想,首先列出全球几个主要的贸易经济组织以及研究的15个国家的参与情况。

全球性的世界贸易组织(14个):澳大利亚,加拿大,法国,英国,意大利,日本,德国,马来西亚,泰国,印尼,韩国,美国,印度,中国。

世界四大区域性多边经济组织(北美自由贸易区,欧盟,亚太经合组织,东盟)。北美自由贸易区(两个):美国,加拿大;欧盟(4个):法国,英国,意大利,德国;亚太经合组织(10个):中国,澳大利亚,加拿大,马来西亚,日本,泰国,印尼,俄罗斯,美国,韩国;东盟(3个):马来西亚,泰国,印尼。

(二)数据整理

利用如上的参与情况,可以将研究的15个国家进行划分(见表4)。

再将这里得到的分值与前面分析得到的类别进行交叉,结果(见表5)。

(三)利用对应分析验证设想

设想:参加成熟的贸易组织越多,贸易越发达。若用上面的表格来解释,也就是一个国家的贸易分值越高,其趋向于归入第一类的程度越高,这也就证实了贸易组织对贸易的促进作用。

对应分析结果:由于行列最小值为2,故最大维度是2-1=1,该维度解释了全部的信息。下面两张表分别是行和列在这个维度上的得分(见表6)。

从表6可知,行的第一类得分接近于列的“分值≤4.5”,而行的第二类得分接近于列的“分值≥5”,同时行和列的不同类别分值差距较大(说明行和列的划分是有效的),因此验证了设想。

参考文献:

多元统计分析篇5

【中图分类号】R2-0【文献标识码】A【文章编号】1007-8517(2010)08-021-1

多元统计分析是数理统计学多年来迅速发展起来的一个分支,已广泛应用到各个领域。该方法能够在不损失信息的情况下,通过变换和构造模型,剔除指标间相互制约的成分,使复杂数据简单化[1-4]。在中药研究中,过去传统的鉴定技术有一定的局限性[5]。因此,为了更准确全面地反应出它的特征,就应考虑到与其有关的多方面的因素,进行综合分析和评价。

多元统计分析包括多元回归、主成分分析、因子分析和聚类分析等方法。利用这些方法可以进行中药材质量与生态环境的相关性分析、筛选影响中药材质量的生态主导因子和限制因子、研究影响中药材质量的综合作用及动态变化规律等方面的问题[4]。

多元回归分析已经被广泛地应用于研究环境因素对中药生长的影响及研究作物稳定性,对不同生境与银杏叶黄酮积累的关系的分析[6]以及对盾叶薯蓣皂素含量与气候生态因子的关系分析[7]就应用了这种分析方法。

主成分分析应用于南苍术挥发油[8]分析、山药的道地性分析[9]、不同种类石斛的相关性研究[10]等,为建立一种客观的中药质量评价手段提供参考。

应用因子分析对105味植物类中药所含有的15种稀土元素[11]进行研究,为正确收购及选拔优质药材提供资料,道地性鉴别提供新的思路和方法。

采用聚类分析方法进行枸杞[12]、关黄柏[13]、延胡索[14]、黄芪[15]等中药的研究,微量元素或特征性成分含量与中药药性的相关性研究[16],正品和非正品黄芩[17]、不同产地枸杞[18]、黄精属17种药用植物[19]等的对比研究,均表明聚类分析可用于辅助鉴别中药的正品和伪品,探讨中药各类群间的系统亲缘关系,评价中药材的来源等。

综上所述,多元回归、主成分分析、因子分析和聚类分析已经被广泛地应用于中药研究中。但中药资源种类多、基源复杂、分布广、成分变化,药材质量良莠不齐,导致中药研究受很多因素的影响,使用单一的某种数理统计方法难以对中药材做出合理的评价,必须根据需要,合理配合上述几种统计方法一起使用,对赤芍[20]、武汉市水生态系统[21]分析均是几种方法综合应用的结果。

多变量统计分析方法在鉴定中药的真伪和质量优劣、影响中药材生长发育和品质形成的生态主导因子、限制因子以及这些生态因子的动态变化规律等方面已经取得了可喜的进展。将多变量统计分析结合中药的特殊性和中药的特色[22],运用现代的spss等分析软件研究影响中药材的生态环境因素、对中药材复杂成分进行分析,将成为中药分析研究的发展趋势。

参考文献

[1] 左瑞琼.多元统计分析方法介绍及在经济中的应用[J].时代经贸,2007,

5(78):23.

[2] RichardA.Johnson,DeanW.Wichem.实用多元统计分析[M].北京:清华大学出版社,2003:347.

[3] 林和平,杨晨.模糊主成分分析方法的研究与分析[J].航空计算技术,2006,36(6):16.

[4] 何晓群.多元统计分析[M].北京:中国人民大学出版社,2004:135.

[5] 陈月娥,姚小华.中药鉴定新技术的发展概况[J].广州中医药大学学报,

2007,24(4):346.

[6] 孙视,刘晚苟.生态条件对银杏叶黄酮积累的影响[J].植物资源与环境,1998,7(3):1.

[7] 怀志萍,丁志遵,贺善安,等.盾叶薯蓣皂苷元含量与气候因素的相关性研究[J].药学学报,1989,24(9):702.

[8] 郭兰萍,刘俊英,吉力,等.茅苍术道地药材的挥发油组成特征分析[J].中国中药杂志,2002,27(11):814.

[9] 徐永群,孙素琴,袁子民,等.红外光谱结合主成分分析鉴别道地山药[J].分析化学,2002,30(10):1231.

[10] 吕献康,程存归,杨国平,等.11种石斛植物的FTIR直接测定和主成分分析[J].中国中药杂志,2005,30(10):768.

[11] 祁俊生,徐辉碧.稀土元素与中药药性关系研究[J].计算与应用化学,2000,17(1):181.

[12] 常璇,胡奇林.用聚类分析方法对宁夏中宁县和平罗县枸杞中6种元素综合指标的比较研究[J].宁夏大学学报(自然科学版),2006,27(3):248.

[13] 张水寒,郭伟伟,蔡光先.I-IPLC指纹图谱结合系统聚类法对不同产地关黄柏药材的分析研究[J].科技导报,2006,24(9):53.

[14] 成则丰,李丹婷,李花琼,等.FIIR聚类分析结合差热分析法应用于中药延胡索表征的研究[J].理化检验化学分册,2006,42(8):601.

[15] 沈文英,陈铭华.不同产地黄芪的聚类分析[J].广东微量元素科学,1999,6(10):49.

[16] 祁俊生,徐辉碧.植物类中药中微量元素的因子分析和聚类分析[J].分析化学,1998,26(11):1309.

[17] 苏薇薇.聚类分析法在黄芩鉴别分类中的应用[J].中国中药杂志,1991,

16(10):579.

[18] 周群,孙素琴,梁曦云,等.枸杞产地的红外指纹图谱与聚类分析法研究[J].光谱学与光谱分析,2003,23(3):509.

[19] 林琳,林寿全.黄精属药用植物聚类分析[J].中药材,1994,17(6):12.

[20] 徐永群,黄吴,周群,等.红外指纹图谱和聚类分析法在赤芍产域分类鉴别中的应用[J].分析化学,2003,31(1):5.

[21] 吕晋,林济东.主成分及聚类分析在水生态系统区划中的应用[J].武汉大学学报(理学版),2005,51(4):461.

多元统计分析篇6

Abstract: According to the university scientific research data in nearly ten years, the factor analysis and cluster analysis statistical methods in the multivariate statistical analysis are used to carry out the comprehensive evaluation analysis of the college scientific research status and put forward a method for evaluating the state of the research. Research shows that, in some colleges, the first factor is very high, indicating that these colleges in cutting-edge academic research achievements. But at the same time, the third factor is low, indicating that these colleges and enterprises to contact the lack of scientific research. In other colleges, the second factor is very high, indicating that these colleges in the per capita contribution rate, C class paper per capita contribution rate and other aspects to do better. In addition, some of the college's third factor is very high, indicating that these colleges are closely related to the enterprise's scientific research and cooperation. The results of the subsequent cluster analysis also confirmed the rationality of the conclusion of the comprehensive evaluation analysis. Through the study of this paper, it provides a theoretical basis for the scientific management system and evaluation system of scientific research achievements.

关键词: 高校;科研状况;因子分析;聚类分析;评价

Key words: colleges and universities;research status;factor analysis;cluster analysis;evaluate

中图分类号:G463 文献标识码:A 文章编号:1006-4311(2016)31-0015-04

0 引言

科研能力是衡量一所高校科教水平的重要标志。某高校作为省重点高校有着悠久的办学历史,科研水平在省内也是名列前茅,本文针对该高校20个学院的各项科研指标进行多元统计分析,建立了描述科研水平的各类变量,包括各类科研项目的经费总额、各类论文的发表数量、论著发表数量,投入科研人员数量等。但由于各学院规模不一,各学院科研性质也不尽相同,为了保证研究结果的平衡性,本文采用对科研成果人均贡献率的方式进行研究。然而进行统计分析时,并非变量收集的越多越有利,变量间信息的高度相关、高度重叠会给统计方法的应用带来许多困难,因此本文借助SPSS统计分析软件,采用因子分析方法,在众多变量中提取影响各学院科研状况的主要因子对问题进行分析,最后通过因子变量的聚类分析对评价结果进行验证。国内学者目前主要集中对我国体育事业进行科研状况分析,如贾志强、郑岩平对我国1995-2000年篮球科研状况作了分析。张金、夏秀荣对我国1994-2003年排球科研状况作了分析。在高校科研状况分析方面,孟学英、陈春华利用调查问卷方式对我国部分高职院校教师科研状况做了调查分析。同时国内对多元统计方法的应用也主要集中在医疗、经济方面,如孟莹、谢守祥等利用多元统计分析方法对江苏省经济差异化做了分析。王曦、宋剑南利用多元统计分析方法对影响中医症候的主要因素做了研究。利用多元统计分析方法结合高效科研状况评价分析还鲜有研究。本文结合多元统计分析分析方法对某高校科学地建立高校科研业绩的管理体系及评价体系提供了理论依据。

1 因子分析方法简介

因子分析是利用降维的思想,由研究原始变量相关矩阵内部的依赖关系出发,把一些具有错综复杂关系的变量归结为少数几个综合因子的一种多变量统计分析方法。因子分析的基本思想是根据相关性大小把原始变量分组,使得同组内的变量之间相关性较高,而不同组的变量之间的相关性则较低。每组变量代表一个基本结构,并用一个不可观测的综合变量表示,这个基本结构就称为公共因子。对于所研究问题的某一具体问题,原始变量可以分解成两部分之和的形式,一部分是少数几个不可测的所谓公共因子的线性函数,另一部分是与公共因子无关的特殊因子。进行因子分析的步骤如下:①根据研究问题选取原始变量。②对原始变量进行标准化并求其相关阵,分析变量之间的相关性。③求解初始公共因子及因子载荷矩阵。④因子旋转。⑤因子得分。⑥根据因子得分值进行进一步分析。

2 各学院科研状况的因子分析

2.1 数据分析和指标选取

本文选用的数据来源于某高校2006年至2015年的统计数据。设定数据中8个指标变量分别是X1:2006-2015年横向项目金额人均贡献率(万元/人);X2:2006-2015年市校级项目金额人均贡献率(万元/人);X3:2006-2015年省部级项目金额人均贡献率(万元/人);X4:2006-2015年部级项目金额人均贡献率(万元/人);X5:A类论文人均贡献率(篇/人);X6:B类论文人均贡献率(篇/人);X7:C类论文人均贡献率(篇/人);X8:论著数量人均贡献率(项/人)。数据详情见表1。

在进行数据分析前,进行KMO检验,P值为0.000,检验结果是显著的,同时KMO值达到0.577,结果见表2,表明数据之间具有一定的相关性,可进行因子分析。

从表3变量共同度表中可以看出因子分析的变量共同度均较高,表明变量中的大部分信息均被因子所提取,说明因子分析的结果是有效的。

2.2 因子提取和因子解释

现应用主成分分析法来进行因子提取和因子个数的确定,从表4中可以看出只有前三个因子特征根大于1,并且前三个因子特征值之和接近80%,故提取前三个因子基本包含了全部测评指标的绝大部分信息,因子分析效果较理想。

由于初始载荷阵结构不够清晰,不便于对因子进行解释,因此对因子载荷矩阵实行旋转,达到简化结构的目的,使各变量在某些因子上有较高载荷,而在其余因子上只有小到中等的载荷。这里采用方差最大正交旋转法进行因子旋转。结果见表5。

从旋转后的因子载荷矩阵来看,第一个主因子在省部级项目金额人均贡献率、部级项目金额人均贡献率、A类论文人均贡献率、B类论文人均贡献率上具有较高载荷,第二个主因子在C类论文人均贡献率、论著数量人均贡献率上具有较高载荷,第三个主因子在横向项目金额人均贡献率、市校级项目金额人均贡献率上具有较高载荷。

2.3 因子得分和因子变量

本文采用回归法估计因子得分系数,并输出因子得分系数矩阵见表6。

根据表6可写出以下因子得分函数:F1=-0.014横向项目金额人均贡献率-0.078市校级项目金额人均贡献率+0.263省部级项目金额人均贡献率+0.293部级项目金额人均贡献率+0.178A类论文人均贡献率+0.508B类论文人均贡献率+0.021C类论文人均贡献率+0.174论著人均贡献率(1);F2=-0.159横向项目金额人均贡献率+0.065市校级项目金额人均贡献率+0.00省部级项目金额人均贡献率-0.057部级项目金额人均贡献率-0.235A类论文人均贡献率+0.393B类论文人均贡献率+0.328C类论文人均贡献率+0.570论著人均贡献率(2);F3=0.442横向项目金额人均贡献率+0.582市校级项目金额人均贡献率+0.123省部级项目金额人均贡献率+0.010部级项目金额人均贡献率-0.076A类论文人均贡献率-0.219B类论文人均贡献率+0.384C类论文人均贡献率-0.010论著人均贡献率(3)

通过上述公式(1)、公式(2)和公式(3)可得到各个学院的因子得分。从而获得三个因子变量,由于这三个因子变量是线性无关的。因此,可以利用它们对各个学院的科研状况做统计分析。

3 各学院科研状况的综合评价分析

下面利用三个因子变量对2006年-2015年该高校各学院科研状况做多元统计分析,并对各学院近10年来科研状况进行综合评价。

首先画出三因子变量的散点图,对各学院近10年来科研状况做对比分析。以第一因子变量为横坐标,第二因子变量为纵坐标,第三因子变量为竖坐标的三维散点图如图1所示。

从图1中可以看出P学院、O学院、M学院等的第一因子很高。说明这些学院在部级项目人均贡献率、省部级项目人均贡献率、A类论文人均贡献率、B类论文人均贡献率上成绩突出,但在横向项目人均贡献率上稍显不足,这些学院应该在保持尖端学术科研的前提下,多加强与企业的合作,创造更多产业应用成果。L学院、R学院、N学院等的第二因子很高,说明这些学院在论著人均贡献率、C类论文人均贡献率上成绩突出,这与这些学院的科研性质是密不可分的,第二因子很高的学院可以在保持自己科研特色的前提下,多关注学术前沿的相关信息,争取在尖端科研中有更大的突破。如B学院、I学院等的第三因子很高,说明这些学院在横向项目人均贡献率上成绩突出,这些学院可以在紧密保持与企业的科研联系的基础上,加强自己在学科特色科研中的研究,多出一些基础研究方面的尖端科研学术成果,增强学院在科研创新中的能力。

最后利用系统聚类分析法对各学院科研状况进行聚类分析,即利用三因子变量对20个学院进行聚类,结果如表7所示,M学院、P学院、O学院和J学院为一类,B学院、I学院为一类,其它学院为一类。这个结果与散点图分析的情况基本类似。

4 结束语

本文针对某高校各学院科研状况进行综合评价分析,通过对高校近十年科研指标数据进行因子分析,将八个指标变量分为三个科研因子,分别是高端科研因子、校企合作科研因子、基础科研因子,并给出了因子得分模型,对各学院近十年的科研状况给出了分析,最终的聚类分析结果也对各学院科研状况做了验证说明。论文的研究成果为科学地建立高校科研业绩的管理体系及评价体系提供了理论依据。

从分析结果来看,因学院科研特色不同,导致各个学院在学术科研这个万花筒中所扮演的角色也各不相同,但各学院之间还是应当加强科研合作,取他人之长补己之短,这样才能为该高校向科研大校、科研强校的进军道路上打下坚实的基础。

参考文献:

[1]薛薇.SPSS 统计分析方法及应用[M].二版.北京:电子工业出版社,2006:303-349.

[2]张文彤.SPSS11统计分析教程―高级篇[M].北京:北京希望电子出版社,2002:166-210.

[3]李卫东.应用多元统计分析[M].北京:北京大学出版社,2008:226-240.

[4]阎慈琳.关于主成分分析做综合评价的若干问题[J].数理统计与管理,1998(2):22-24.

[5]胡永宏,贺思辉.综合评价方法[M].北京:经济科学出版社, 2000.

[6]何晓群.现代统计分析方法与应用[M].北京:中国人民大学出版社,2003,8:15-18.

[7]孙静水.计量经济学[M].北京:清华大学出版社,2004.

多元统计分析篇7

【关键词】主成分分析,聚类分析,区域经济发展

一、新疆主要地州市区域经济发展水平研究的背景及指标的选取

新疆地处欧亚大陆的中心地带,占中国疆土面积的1/6,自古以来就是中国向西开放的重要门户.考虑到地缘因素,新疆已被确定为中国战略资源重要储备区和21世纪经济社会发展的重要支点.

衡量一个地区的发展状况应该从社会生产的各个方面去考虑.本文运用数理统计中的主成分分析方法对新疆各地州区域经济情况进行分析.根据数据的适当性和可得性选出了如下主要指标:X1人均地区生产总值;X2社会消费品零售总额;X3出口总额;X4人均第三产业增加值;X5人均农林牧渔业总产值;X6人均工业增加值;X7财政收入;X8产值利税率,X9工业总产值.

二、主成分分析

主成分分析法是多元统计分析技术中应用广泛的一种方法.其基本原理是通过一定的多元统计分析方法测算出各个指标在样本之间的相对差距,用相关阵或协差阵的结构来对原始变量数据矩阵进行降维处理.即在一定的约束条件下,对原始变量作了一次特殊的正交变换.而得到一组具有某种良好的方差性质的新变量,这组新变量彼此互不相关且在各自的特征方向上有最大方差,从中选取前几个变量来代替原变量,计算出这几个主分量的权重,然后进行综合评价结果的加权合成,并根据综合评价值的大小进行排序.

利用Sas软件对新疆十个地州区域的经济发展水平进行主成分分析,从上述中的九个变量X1,X2,X3,X4,X5,X6,X7,X8,X9当中提取主成分.

主分量一中各个变量的系数基本为正值,表示各项指标都在增加,新疆经济水平正在提高,x9正值最大,代表了工业总产值水平提高最多.主分量二中x2,x3,x4为正值,其余为副,表示社会消费品零售总额,出口总额,人均第三产业增加与其他指标变化呈反位相,也就是说当消费,出口,第三产业总额增加时,其他总值有所减小,但因副值较小,减少不明显.乌鲁木齐和克拉玛依的经济发展水平位于全省其他地区以上.

四、新疆十个地州市区域经济发展水平结果分析

比较主成分分析结果,我们可以得到各地州的粗略排名情况.下面我们分析一下这些地区排名的合理性极可能情况.

乌鲁木齐市和克拉玛依市的经济发展水平高,经济综合实力排名居前列.乌鲁木齐作为新疆的首府,是新疆的经济中心和交通枢纽.近年来,乌鲁木齐加快了经济开发区的建设和发展,积极吸引外资,加快城市化建设进程,促使外向型经济和民营经济快速发展,从而有力地推动了当地的经济发展.

克拉玛依市土地面积86.54万平方公里,占全疆的0.52%;耕地面积1.55万平方公里,占全疆的0.65%;2008年人均GDP为96006元,人均工业增加值为168183.30元,人均第三产业增加值17806.90元.

排名最后的塔城地区人口压力大,而且人口素质很低,农业生产水平低下,工业结构单一,仅煤炭和石油加工等.排名倒是第二的昌吉地区也是地广人稀,人口压力小,虽然第三产业有所发展,但是地处偏远区,经济发展滞后.

由综合分析我们可以看出,克拉玛依市和乌鲁木齐市远远地高于其他地州.

多元统计分析篇8

关键词:多元统计分析 高等教育 SPSS

一、 引言

近年来,我国普通高等教育水平普遍取得了进步,但不同地区的普通高等教育水平也存在明显的不同。为了进一步明晰不同区域普通高等教育发展的差异性,本文运用多元统计方法明确地分析了各省市高教水平的差异性,让管理决策部门从宏观上把握各地区的普通高等教育水平现状,为开展规划高教事业的和谐发展提供了理论依据。

二、 数据收集与综合评价体系的建立

本文依据李福华的评价体系,从人力、财力、物力和人才培养质量方面选取各地区的高校数据x1-x10。

原始指标数据取自《中国教育统计年鉴,1995》除以各地区相应的人口数得到十项指标值。其中:x1为每千人口高等院校数;x2为每万人口高等院校毕业生数;x3为每万人口高等院校招生数;x4为每万人口高等院校在校生数;x5为每万人口高等院校教职工数;x6为每万人口高等院校专职教师数;x7为高级职称在专职教师的比例;x8为平均每所高等院校的在校生数;x9为国家财政预算内普通高教经费占国内生产总值的比重;x10为生均教育经费。

三、 分析方法

(一)主成分分析

从上表看出,前四个特征值累计贡献率达98.217%,说明前四个主成分基本包含全部指标信息,我们提取前四个指标。对于SPSS输出的因子载荷矩阵的第i列的每个元素分别除以第i个特征根的平方根,就得到主成分分析的第i个主成分的系数。

得到如下主成分:

从主成分的系数可以看出,第一主成分主要反映前六个指标的信息,第二主成分主要反映高校规模和教师高级职称的比例,第三主成分主要反映人均教育经费,第四主成分主要反映国家财政预算内普通高教经费占国内生产总值的比重。把各地区原始十个指标的标准化数据代入四个主成分表达式,就可以得到各地区的四个主成分值。

(二)利用主成分进行综合评价:

分别以四个主成分的贡献率为权重,构建主成分综合评价模型:

把30个地区的相应数值代入上式,可以得到各地区高等教育水平的综合评价值及排序结果。

(三)聚类分析

将30个省市分为四类,得到各地区的分类结果如下:

第一类:北京、上海

第二类:天津、陕西、辽宁、吉林、黑龙江、湖北、江苏、广东、四川、山东、甘肃、湖南、浙江、福建、云南、海南、青海

第三类:新疆、山西、河北、安徽、江西、内蒙古、河南、广西、宁夏、贵州

第四类:

30个地区被分为四类,从第一类到第四类,地区经济逐渐衰弱,教育水平也逐渐下降。

四、结合主成分分析和聚类分析对各地区高等教育进行评价

将排名与各地区分类情况对比,可得如下结论:

两表中内容大致相符,说明两种方法都有一定可信度。在聚类中,排在第一类的地区在综合排名中占据前两位;排在第二类的地区在综合排名中基本占据在3――19名;排在第三类的地区基本占据20――30名;而第四类则占据第25名。

仔细对比两表中的异常,我们发现争议较大之处在于青海。青海排名30位,却分在了第二类。结合社会现实我们知道,青海是教育弱省,出现这种误差的原因可能与国家对少数名族的照顾政策及其人口有关。

五、结果分析

由上述统计分析可以看出,高等教育水平受地域的影响很大:排名靠后的两类地区大多数为边缘省市;北京、上海教育水平好,高教质量比其他省市明显高出很多;东北三省高教质量较高。这有更进一步的经济原因素。我国存在资源分布不均,生产力发展不平衡的问题:东部地区经济发展快;而西部边沿地区经济发展缓慢。经济上的不平衡特征导致在高等教育上同样出现存在很大地域差异的问题。相关部门有必要采取措施逐步缩小这种差距。

参考文献:

[1]刘贤龙.我国高等教育发展水平的统计分析,数理统计与管理

上一篇:统计分析范文 下一篇:数据统计范文