Excel、Spss、R在数据分析中的比较研究

时间:2022-08-21 12:16:22

Excel、Spss、R在数据分析中的比较研究

摘要:随着大数据时代的到来,数据分析成了一个热门的话题。市场上有各种各样的数据分析工具,如何选择数据分析工具就成了很多数据分析工作者的一个难题。而数据分析工具的选择应主要依据具体的业务逻辑,并没有最好的数据分析工具,而只有最适合的分析工具。全文选择Excel,Spss和R语言这三个数据分析工具进行比较分析。观察他们在平时的学习和工作中,特别是在数据分析过程中的表现,以得出他们最适合的工作环境。

关键词: 大数据;分析工具;业务逻辑;比较分析;工作环境

中图分类号:TP317.3 文献标识码:A 文章编号:1009-3044(2017)04-0235-02

统计分析软件是数据分析的主要工具。无论在工作还是学习中,我们都需要使用这些软件来进行数据分析,而分析的过程主要分为数据的整理,数据的分析,数据的报告 。而市场上有很多的软件来供我们选择,如何选择一款合适的软件就成了我们需要考虑的问题。

1 工具简介

Excel是微软的office系列办公软件中比较常用的一款数据处理软件。我们可以通过Excel进行数据录入,储存和分析的相P操作。Excel提供了大量的函数功能,为我们的数据分析工作提供了便捷。而且强大的VBA编程能力,也让我们处理起数据更加个性化和多样化。

Spss(Statistical Product and Service Solutions),相比Excel这样的办公软件,人们更加倾向于称Spss为统计软件。因为它的数据处理能力更加强大,Excel只能做一些最基本的数据操作,而Spss则可以做一些比较高级的数理统计工作。

R语言(R Language)相比前两者最大的不同之处在于他是非窗口操作软件,更确切地说他是一款脚本语言。用户需要输入相应的指令才可以操作数据。R语言的强大之处在于他的包。R语言平台上提供了各种各样的数理统计包,这些包可以直接由用户使用,而并不用关心它的底层实现机制。

2 三种软件在数据储存阶段的比较分析

数据存储是指分析员在搜集数据之后,把相应的数据有条理的储存起来,以便在以后的分析工作中使用。数据存储是数据处理过程的第一个阶段,也是最重要的阶段,因为他直接影响着以后的操作。如果在数据的存储阶段出了问题,那么整个数据分析的过程也就是有问题的。可见数据存储过程是需要分析员特别重视的阶段。

在此阶段Excel和Spss提供了可视化的操作界面,所以分析员可以很容易的对数据进行录入处理。而R语言则没有提供相应的图形操作界面,分析员只能通过在控制台建立数据框这样的方式,把数据储存起来。可视化操作界面的优点是直观,分析员可以像在实体的纸质表格上写字一样在虚拟的表里填入数据,这样可以减少分析员在抽象脚本语言可能出现的失误。

虽然R没有提供简单的图形操作界面,使得数据的输入没有Excel与Spss软件这么直观,但是R语言这种输入方式却有一个比较强势的功能,就是编程。虽然Excel和Spss也有编程功能,但是语法过于复杂。在R语言中分析员可以编写自己的脚本文件,实现数据的重复录入,从而可以节省出大量的时间,减少不必要的时间浪费。

他们三者最后都可以把数据保存为CSV格式或者TXT格式,这样就为数据的传输带来了方便。保存为这两种格式后三个软件可以实现数据的共享操作。

综上所述,Excel和Spss强在可视化的操作界面,而R语言则强在编程语言。至于最后数据的保存,三者则表现出了一致性,实现了数据在软件之间的传输。

3 三种软件在数据分析阶段的比较分析

数据分析传统上都认为是统计分析,而广义的数据分析则包含了更高级的算法比如机器学习、数据挖掘等。数据挖掘(Data Minning)是指从大量的数据中通过一些特定的算法,计算出隐藏在其中的有意义的信息的过程。主要的数据挖掘算法包括:人工神经网络,支持向量机,KNN算法,随机深林、决策树、回归分析等。

Excel在数据分析阶段的强大之处在于它有很强大的函数库,利用这些函数库里的函数,可以帮助我们方便地进行简单的数据分析,比如求平均数,求和等。当然也可以对数据进行优化和筛选。函数功能是Excel的灵魂,有了函数,Excel就可以组合变化出多种统计方式,来分析数据。

但是,Excel只能进行简单的数理统计分析,而不能进行比较高级的算法分析。 Spss相比Excel则可进行比较高级的数据分析,比如生存分析、Logistic回归、BP神经网络等。虽然Spss能进行这些算法分析,但是它本身也有局限性。由于Spss是一款可视化软件,它的载体在软件开发的阶段就已经被设计好了,分析员很难再根据自己的需要对里面的算法进行更改。这也就意味着,分析员只能使用设计者提供的方法,而设计者没有提供的方法,分析员就不能使用了。因为现在算法更新比较快,而且对具体的业务对算法的要求也是不尽相同的,这样就要求算法的个性化,而Spss则很难满足这一点。

R语言相比前两者在数据分析阶段则有很强大的优势,因为R语言是一个开源软件。有很多R语言的爱好者,在R语言的社区贡献自己利用R语言的语法写成的包,免费的供所有人使用。这样分析员就可以直接从R的官方网站上下载相对应的包。R语言的包基本包含了所有数据分析的算法。

R语言的另一个强大之处,在于分析者不仅能下载相应的包,更能查看包的内部信息。通过查看包的内部信息来确定自己是否需要这个包。而且如果遇到自己所处理的问题不合适的包,分析员可以在自己所找到的包的基础上自己再设计新的算法,来满足自己的业务需要。

综上所述,在数据处理阶段,Excel只能满足最基本的数据处理,而Spss和R语言则可以满足更高层次的数据处理。而且R语言在算法的选择和使用上相对Spss则更具有个性化。

4 三种软件在数据报告方面的比较分析

数据报告是指在经过数据搜集,数据存储,数据分析之后,对得到的结果进行归纳总结,形成报告的方式呈现出来的过程。数据报告可以分为文字报告和图形报告。

而近些年来数据可视化越来越受到人们的关注,数据可视化将复杂的数据表展示为直观的图形,可以让听众更加准确的抓住数据的要害,进而分析数据。而随着科学技术的不断发展,数据可视化的手段越来越丰富,除了传统的柱状图,饼图等等之外,现在的可视化工具,更为我们提供了其他丰富的图形。比如,词云,雷达图等。

在文字报告方面三者都可以根据自己的所能处理的报告生成相应的图表。Excel只能生成饼图,柱状图等简单的数理统计图,当然这和它所能处理的对象是一致的。Spss则能生成更高级的图形,比如线性回归图等。R语言也提供了相应的作图函数,这样的作图函数和Excel与Spss的作图原理是相通的。

而R语言不仅提供了传统的绘图功能,而且更提供了高级的绘图功能。传统的绘图软件的原理类似与我们直接在纸面上画画,一旦画上去就无法更改。这就给作图带来了很大的麻烦,不能随意更改视图,更不能在图形生成后在后期对图形做出整改。R语言提供了一款名叫“ggplot”的包,@个作图包的原理是基于图层,也就是说每一次画图动作都新建了一个图层。在最后绘图完成之后,将一个个图层相互覆盖。这样作图的好处就是我们可以直接更改一个图层,来修改我们某一步的作图操作。这样我们控制最后的输出图就更加的灵活了。

综上所述,R语言在数据报告,特别是可视化这个过程中,相比Excel和Spss更加具有优势。但是R语言并不是完美的,我们在使用包的时候,并不能完全的随心所欲。因为包的设计者也对一些功能进行的限制。但是如果我们确实需要某项功能,我们可以通过改写代码来实现。从这一点来说,R语言数据可视化功能还是很完整的。

5 结论

通过以上的比较分析,我们不难发现他们之间的区别和联系,也让我们在平时的学习和生活中有了选择的参考。但是我们仍然要记住,没有最好的软件,只有最合适的软件。我们在选择软件的时候要根据自己的实际需要来选择,而不能认为某种软件是最强的,就把所有的数据处理工作都交给一种工具来处理。通常结合多种工具来处理数据,我们会得到最好的效果。

参考文献:

[1] 张文霖.数据分析初体验[J].数据,2013(5):46-47.

[2] 段昕宏.巧用Excel编制银行存款余额调节表[J].财会通讯,2005(8):74.

[3] 邓振伟.SPSS软件在正交试验设计、结果分析中的应用[J].电脑学习,2009(5):15-17.

[4] 关彦辉.R软件在《概率统计》教学中的应用[J].现代计算机(专业版),2009(12):87-90.

[5] 姜忠尉.统计分析软件SPSS的特点和应用分析[J].中国证券期货,2012(4):291.

[6] 尚新利.利用EXCEL软件进行线性回归分析[J].气象与环境科学,2007(S1):188-189.

[7] 罗凤明.如何使用统计软件SPSS进行回归分析[J].电脑知识与技术,2008(2):293-294+304.

[8] 杨霞.R语言在大数据处理中的应用[J].科技资讯,2013(23):19-20.

上一篇:大容量气枪阵列子波时频特性及其影响因素* 下一篇:地震作用下防波堤结构地基液化及变形分析