R 与SAS 的集成在统计学教学中的应用研究

时间:2022-05-10 12:43:37

R 与SAS 的集成在统计学教学中的应用研究

摘 要 当前能用来进行统计分析的软件越来越多,而其中应用最广泛的两种就是R与SAS。本文从使用者的角度出发,结合大学中这两种软件的使用情况,分别从学生、老师和学校三个方面对这两种软件使用问题的反馈进行了分析,并提出了解决这些问题的对策——集成。根据SAS与R两者各自的特点,对两者软件进行集成,便可很大程度解决这两种统计分析软件使用中的问题。本文列举了4种可行的集成方案,并说明了优缺点,为以后的统计分析软件的集成研究提供了一些理论参考依据。

关键词 R SAS 集成 统计分析

中图分类号:G424 文献标识码:A

Integration of R and SAS Statistical Teaching in Applied Research

JIN Zhezhi, LIU Guanghua

(Department of Mathematics, College of Science, Yanbian University, Yanji, Jilin 133002)

Abstract Current can be used for statistical analysis software, more and more, and one of the most widely used of the two is R and SAS. From the user point of view, this paper combined with the usage of these two kinds of software in the university, respectively from students, teachers, and school three aspects of the two kinds of software use question feedback are analyzed, and put forward the countermeasures to solve these problems, the integration. According to the characteristics of both SAS and R software for integration between the two, can greatly solve the two problems in using statistical analysis software. This article lists the four feasible integration solutions, and illustrates the advantages and disadvantages, and for further statistical analysis software integration research provides some theory reference.

Key words R; SAS; Integration; Statistical analysis

0 引言

随着电子计算机技术的发展,统计分析理论与实践已离不开计算机,使统计分析在精度和效率上得到了惊人的提高。因此专门用来进行数据统计分析分析的统计分析软件也越来越多,比如SAS,R,SPSS,EXCEL等,而SAS与R是其中最为主流的两种。大学校园里普遍使用的统计分析软件便是SAS与R,这两种软件给学生、老师和学校带来极大方便的同时,也暴露了各自的不足。针对于SAS软件,学校认为,购买正版SAS软件的价格太高了,给学校经费造成巨大压力,再者软件更新很快,意味着这种巨大的经费投入是长期的。因此,很多学校迫于经费的压力,根本没有使用正版软件,而是使用所谓破解版等盗版软件。同时学生和老师认为,因为盗版软件会缺失正版软件中一些重要的应用模块,这就会影响学生以及老师们的学习和研究,同时盗版软件大多数含有病毒,这也将给学校硬件和软件设备均带来很大的威胁,导致学校中的设备总是会出现不能正常使用的情况,这也间接地影响着老师和学生的研究学习。针对R软件,它并非专门的统计分析软件,因此在运用于统计分析时,并没有SAS那么详细的结果,以及准确的验证工具。面对学生、老师和学校反馈的这些问题的影响愈来愈深,不得不让我们去思考这些问题产生的原因及采取的对策。本文从使用者的角度出发,结合大学中这两种软件的使用情况,分别从学生、老师和学校三个方面对这两种软件使用问题的一些反馈进行了分析,并提出了解决这些问题的对策——集成。根据SAS与R两者各自的优缺点,对两者软件进行集成,便可很大程度解决这两种统计分析软件使用中的问题。本文列举了4种可行的集成方案,并说明了优缺点,为以后的统计分析软件的集成研究提供了一些理论依据。

1 软件特点分析

SAS与R都是应用很广泛的统计分析软件,因此这两种软件的种种弊端很早就已经暴露出来了,但是为什么仍迟迟得不到解决呢?因为它们的那些问题均是源自软件本身的特点,只要软件本身不改变,那些问题也就无法消除。本文从学生、教师、学校等三个方面对这两种统计分析软件使用问题的反馈出发对这两种统计分析软件的特点进行研究与分析。

1.1 SAS软件的特点

(1)需要购买正版软件,成本高。SAS是非开源软件,是商业软件,所以是需要付费的,并且价格十分昂贵。同时作为一种软件,它的更新速度是很快的,因此版本换的很快,每一次版本的更换又需要支付费用,这就造成使用正版SAS的成本是很高的。

(2)灵活方便、功能齐全。SAS的宗旨是为所有需要进行数据处理、数据分析的非计算机人员提供一种易学易用,完整可靠的软件系统。①操用方便:用户把要解决的问题用SAS语言表达出来,组成SAS程序,提交SAS系统即可。执行的情况和输出结果都在屏幕上显示出来。②灵活:SAS系统提供很多语句及选项供用户灵活地使用某种统计方法。③功能齐全:SAS系统提供的二十多个模块可供用户根据实际需要灵活地选择使用。

(3)编程能力强、简洁易学。SAS语言是SAS系统的基础,是用户与系统对话的工具。该语言的特点是用户不必告诉SAS“怎样做”,只需告诉它你要“做什么”就行了。

(4)处理与分析任意组合。SAS程序的结构由两个基本步骤任意组合而成。DATA步用于对数据的加工处理;PROC步用于分析数据和编写报告。

(5)适用性强、应用面广。SAS系统适用于初学者或有经验的用户;能满足从事行政、管理、分析、编辑等部门人员对信息需求的用户。SAS系统可用来解决自然科学和社会科学各个领域的各种问题。

1.2 R软件的特点

(1)R 是自由软件。也就是说,它不会向你收取任何费用,但是它的能力不会比任何同类型投入成千上万美元价值不菲的商业软件差。从功能相似的角度来说,R 和MATLAB 最像的。

(2)R是一个全面的统计研究平台,提供了各式各样的数据分析技术。几乎任何类型的数据分析工作皆可在R中完成。并且通过R 你可以和全球一流的统计计算方面的专家合作讨论,它是全世界统计学家思维的最大集中。当你加入了R 的邮件列表,每天都会收到五六十份关于R 的资讯邮件。

(3)R是一个可进行交互数据分析和探索的强大平台。因为R是可进行交互数据的强大平台,因此在R软件中任意的一个分析步骤的结果均可以被轻松保存、操作,并作为进一步分析的输入,这使得R语言的操作性极强。

(4)R 和其他编程语言/数据库之间有很好的接口。R可以轻松地从各种类型的数据源导入数据,包括本文文件、数据库管理系统、统计软件,乃至专门的数据仓库。它同时可以输出并写入到这些系统中。代码整合的时候感觉R 为你提供了一系列对象,你用其他语言只要调用这些对象就可以了。这对数据整合工作非常有用。

(5)R拥有顶尖水准的制图功能。无论多么复杂的数据,R都可以将它们可视化,R拥有最全面且最强大的可视化这一系列可用功能。

(6)R可运行与多种平台上,包括Windows、Unix、Linux等。因为自由开源软件具有零成本或低廉的成本的特点,十分有利于优质资源的开发与共享,因此自由开源软件在各个领域的应用已成为主流趋势。因此在操作系统上也将会是百花齐放,像Linux这种开源操作系统普及率将会越来越高,这时候具备多平台运行能力的R将具备极大的优势。

1.3 为什么R与SAS要集成

很多人在比较 R、SAS、SPSS 等统计软件时,总是偏向某一种软件而对其他软件一味地指责。笔者认为,竞争可以带来技术的创新与进步,但是任何一款软件都不可能集所有优点于一身,能够包治百病,满足所有用户各种各样的需求,所以软件之间的合作对使用者而言更有意义,也是势在必行。

对于R与SAS这两种统计分析软件来说,它们有各自的优势,也有各自的问题,竞争促进创新,合作才能带来双赢,因此两者的集成能融合各自的优势解决各自的问题,从而更能满足使用者的各种需求。

1.4 可行的R与SAS集成方案及其优缺点

(1)通过 SAS/IML 在SAS里面提交R代码。SAS/IML 9.22 推出了一个新功能:用户可以在 IML 里面执行 R 代码,R 和 SAS 的数据也可以相互交换。该种集成方案的优点有:①因为R代码本质上是在R里运行,所以全面支持R的各种模型和函数;②这种集成方案支持32位或64位的Windows、Linux操作系统;③这种集成方案在数据交换、错误捕获等方面表现不错,并且支持SAS Format。同时该种集成方案的缺点有:需要购买 SAS/IML(9.22版本或更高版本),成本高。

(2)通过 SAS Model Manager 将R模型导出生成的PMML文件翻译成SAS代码。Predictive Model Markup Language(PMML)是由数据挖掘小组(Data Mining Group,DMG)牵头,众软件厂商共同研究制定的一套用于表示模型的标记语言,目的是为了在不同软件产品之间实现模型的共享。这种集成方案的优点有:①可以将生成的SAS代码快速集成到各种基于SAS开发的应用系统中;②可以将R模型和SAS模型进行预测性能方面的比较;③可以对R模型和SAS模型进行性能监测。同时这种集成方案的缺点有:①需要购买 SAS Model Manager(12.1版本),成本高;②SAS Model Manager目前也仅支持几种常用的PMML模型。

(3)通过宏 Proc_R 实现在SAS里面提交R代码。PROC_R 于2012年发表在 Journal of Statistical Software 上,是一位华人 Wei Xin 在美国罗氏制药公司工作期间发表的,是使用了管道技术以批处理的方式执行R代码。这种集成方案的优点有:①因为R代码本质上是在R里运行,所以全面支持R的各种模型和函数;②不需要购买 SAS/IML,成本低。这种集成方案的缺点有:①只支持 Windows 系统,但是使用者如果有一定编程功底,可以将源代码改造成Linux可用的版本;②数据交换通过 csv 文件实现,可能不支持 SAS FORMAT;③这种集成方案在错误捕获等方面略弱。

(4)将R生成的神经网络和决策树模型翻译成SAS代码。用 R 建神经网络模型,然后将模型翻译成 SAS 语言格式的评分代码,并在SAS 里对新数据进行预测。这种集成方案的优点有:①可以将生成的SAS代码快速集成到各种基于SAS开发的应用系统中;②这种集成方案在Windows和Linux操作系统上都是可行的;③不需要购买SAS/IML或者SAS/EM,成本低。这种集成方案的缺点有:①这种集成方案目前只支持神经网络和决策树模型,应用范围相对较窄;②这种集成方案是无法处理自变量取值缺失的情况。

2 结论

本文从学生、老师和学校三个方面对SAS与R两种统计分析软件的问题以及特点进行了分析,并提出了有效解决两种软件各自问题的对策——集成。软件各自出现的问题来自各自软件的特点,集成综合两种统计分析软件的优点,可解决两种软件各自在使用中出现的问题,研究结果给以后统计分析软件的集成研究提供了理论参考依据。针对学生,老师以及学校需求的多样性特点,列举出了4种可行的集成方案,各高校可根据学校的实际情况,选择合适的集成方案以达到学校的实际需求。

参考文献

[1] 冯雪楠,崔玉杰.实用统计软件比较分析[J].北京工业大学学报,2008.20(1):62-65.

[2] 尹永学.自由开源软件在高等教学中的应用[J].高教视窗,2009:156-157.

[3] 郭貌,李克.联合SAS和R分析医学数据举例[J].2012.29(2):288-290.

[4] 薛毅,陈立萍.统计建模与R软件[M].北京:清华大学出版社,2007.

上一篇:舞张謇人生,追艺术之梦 下一篇:浅谈共青团文化建设在高职大学生育人工作中的...