大数据分析论文范文

时间:2023-03-20 08:44:53

大数据分析论文

大数据分析论文范文第1篇

基本的大数据的处理流程可以分成数据采集、数据处理与集成、数据分析和数据解释4个阶段。首先获取数据源的数据,因为在数据源端的数据包含各种各样的结构,需要使用某种方法将其进行预处理,使数据成为某种可以用一种算法分析的统一数据格式,接着需要找到这种数据分析的算法,将预处理过的数据进行算法特定的分析,并将分析的结果用可视化等手段呈现至用户端。

1.1数据采集

大数据的采集是整个流程的基础,随着互联网技术和应用的发展以及各种终端设备的普及,使得数据的生产者范围越来越大,数据的产量也越来越多,数据之间的关联也越来越复杂,这也是大数据中“大”的体现,所以需要提高数据采集速度和精度要求。

1.2数据处理与集成

数据的处理与集成主要是对前一步采集到的大量数据进行适当的预处理,包括格式化、去噪以及进一步集成存储。因为数据采集步骤采集到的数据各种各样,其数据结构也并不统一,不利于之后的数据分析,而且,一些数据属于无效数据,需要去除,否则会影响数据分析的精度和可靠性,所以,需要将数据统一格式并且去除无效数据。通常会设计一些过滤器来完成这一任务。

1.3数据分析

在完成了数据的采集和处理后,需要对数据进行分析,因为在进行数据分析后才能体现所有大数据的重要价值。数据分析的对象是上一步数据的处理与集成后的统一格式数据,需要根据所需数据的应用需求和价值体现方向对这些原始样本数据进一步地处理和分析。现有的数据分析通常指采用数据仓库和数据挖掘工具对集中存储的数据进行分析,数据分析服务与传统数据分析的差别在于其面向的对象不是数据,而是数据服务。

1.4数据解释

数据解释是对大数据分析结果的解释与展现,在数据处理流程中,数据结果的解释步骤是大数据分析的用户直接面对成果的步骤,传统的数据显示方式是用文本形式体现的,但是,随着数据量的加大,其分析结果也更复杂,传统的数据显示方法已经不足以满足数据分析结果输出的需求,因此,数据分析企业会引入“数据可视化技术”作为数据解释方式。通过可视化结果分析,可以形象地向用户展示数据分析结果。

2云计算与大数据分析的关系

云计算是基于互联网的相关服务的增加、使用和交付模式,通常涉及通过互联网来提供动态易扩展且经常是虚拟化的资源,是一种按使用量付费的模式。这种模式提供可用的、便捷的、按需的网络访问,进入可配置的计算资源共享池(资源包括网络、服务器、存储、应用软件、服务),这些资源能够被快速提供,只需投入很少的管理工作,或与服务供应商进行很少的交互。目前,国内外已经有不少成熟的云计算的应用服务。数据分析是整个大数据处理流程里最核心的部分。数据分析是以数据的价值分析为目的的活动,而基于大数据的数据分析通常表现为对已获取的海量数据的分析,其数据来源可能是企业数据也可能是企业数据与互联网数据的融合。从目前的趋势来看,云计算是大数据的IT基础,是大数据分析的支撑平台,不断增长的数据量需要性能更高的数据分析平台承载。所以,云计算技术的不断发展可以为大数据分析提供更为灵活、迅速的部署方案,使得大数据分析的结果更加精确。另一方面,云计算的出现为大数据分析提供了扩展性更强,使用成本更低的存储资源和计算资源,使得中小企业也可以通过云计算来实现属于自己的大数据分析产品。大数据技术本身也是云计算技术的一种延伸。大数据技术涵盖了从数据的海量存储、处理到应用多方面的技术,包括海量分布式文件系统、并行计算框架、数据库、实时流数据处理以及智能分析技术,如模式识别、自然语言理解、应用知识库等等。但是,大数据分析要走向云计算还要赖于数据通信带宽的提高和云资源的建设,需要确保原始数据能迁移到云环境以及资源池可以随需弹性扩展。

3基于云计算环境的Hadoop

为了给大数据处理分析提供一个性能更高、可靠性更好的平台,研究者基于MapReduce开发了一个基于云计算环境的开源平台Hadoop。Hadoop是一个以MapReduce算法为分布式计算框架,包括分布式文件系统(HDFS)、分布式数据库(Hbase、Cassandra)等功能模块在内的完整生态系统,已经成为当前最流行的大数据处理平台,并被广泛认可和开发应用。基于Hadoop,用户可编写处理海量数据的分布式并行程序,并将其运行于由成百上千个节点组成的大规模计算机集群上。

4实例分析

本节以电信运营商为例,说明在云计算环境中基于Hadoop的大数据分析给大数据用户带来的价值。当前传统语音和短信业务量下滑,智能终端快速增长,移动互联网业务发展迅速,大数据分析可以为运营商带来新的机会,帮助运营商更好地转型。本文数据分析样本来自于某运营商的个人语音和数据业务清单,通过Hadoop2.6.0在Ubuntu12.04系统中模拟了一个大数据分析平台来处理获得的样本。希望通过对样本数据的分析与挖掘,掌握样本本身的一些信息。以上分析只是一些很基本的简单分析,实际上样本数据中所蕴含的价值要远远大于本文体现的。以上举例意在说明基于云计算的大数据分析可以在数据分析上体现出良好的性能,为企业带来更丰富更有效率的信息提取、分类,并从中获益。

5结束语

基于云计算的大数据分析已经成为解决大数据问题的主要手段,云计算环境中的大数据分析平台部署需要综合考虑硬件、网络、软件等各方面的集成,使大数据的海量信息积累体现价值,显示云计算的性能优势,而没有云计算技术的支撑也不能进行高效和准确的大数据处理分析。最后本文通过一个例子来分析了基于云计算的大数据分析给企业带来的价值,由此可见,大数据需要云计算技术的深入挖掘,同时也促进了云计算技术的不断发展。

大数据分析论文范文第2篇

关键词:开源软件 大数据 数据分析

中图分类号:TP311 文献标识码:A 文章编号:1007-9416(2015)03-0100-01

1 引言

在移动互联网、云计算、大数据[1-2]等新兴领域中,开源软件[3]都扮演着极其重要的角色。尤其在大数据分析平台的构建中,开源软件成为大数据整体解决方案的最重要一部分。大数据是一个含义广泛的术语,是指海量的、多样化的数据集。如此庞大而复杂的结构和非结构数据集合,他们需要专门设计的硬件和软件工具进行处理,从中挖掘有用信息。针对大数据的开源源代码平台的优势是高灵活性,低成本,高质量。有专家预测:开源很快将会主宰大数据市场。大数据平台未来将加大专业服务及系统整合,以走向开源的、基于云的分析。本论文介绍了大数据分析的结构特点、开源社区软件的大数据分析软件发展,提出了基于开源软件的大数据分析平台面临的问题。

2 基于开源软件的大数据分析平台

大数据通常被认为是一种数据量很大、数据形式多样化的非结构化数据,这些数据集收集自各种各样的来源:传感器,气候信息,公开的信息,如杂志,报纸,文章。大数据产生的其他例子包括购买交易记录,网络日志,病历,军事监控,视频和图像档案,及大型电子商务。目前大数据分析应用于科学、医药、就业等各个领域。大数据的目标是:通过大量分析获得知识,通过长期分析掌握个体规律,通过分析辨别真相。大数据的处理主要涉及数据的采集、管理、分析与展示,包括数据采集与预处理、数据分析、数据解释和其它支撑技术(如数据传输)等四个阶段。而大数据分析根据其应用不同,又分为离线分析和实时分析。

大数据需要大量的计算解决资源,配置大数据环境也是一项复杂的任务。要以低成本和可扩展的方式处理大数据,这就需要对整个IT架构进行重构,开发先进的软件平台和算法,而开源软件能提供一个能很好地支持大数据部署平台。

目前在“中国开源社区”[4]有35种大数据开源软件平台,例如,Hadoop 图形化用户界面 Hue,用来收集,聚合和调度大数据应用事件的数据管道服务Suro,能够实时的检测网络异常情况的安全大数据分析框架 OpenSOC等。其中Hadoop 图形化用户界面 Hue,用来收集,聚合和调度大数据应用事件的数据管道服务Suro。其中Hadoop被称为目前市场上最流行的大数据处理平台,它与Linux 同属于开源项目Apahe 旗下,Hadoop以一种可靠、高效、可伸缩的方式进行大数据处理的,Hadoop 依赖于社区服务器,它的成本低,任何人都可以使用。

开源软件可以任意获取的计算机软件,对普通用户来说可以免费下载大数据处理平台,对于商业用户来说,其可以帮助企业减少开发周期;开源软件由于开放源代码,用户能够获得大数据处理系统的源代码.并且可以通过社区、讨论组等多种形式,与开发人员和其他用户深入探讨各种技术问题,相比闭源软件,其漏洞可能更少,可靠性更高。基于开源软件的大数据平台构建是一种发展趋势。

同时,我们也要看到基于开源软件的大数据平台构建目前存在的问题,并积极展开研究,以提高我国在大数据领域的应用开发水平。

首先,目前我国的开源软件全部基于国外的软件协议,从长远看,我国开源软件若想持续、健康发展,就必须妥善解决这个问题,发展具有我国自主创新的开源软件协议平台。

其次,基于开源软件的大数据平台在数据离线分析方面显示了很好的性能,目前的平台可以满足每秒数百兆的日志数据采集、传输和离线分析需求。离线分析多用于对结果反馈时间要求不高场合,比如统计分析、推荐算法等,但是.电子商务、金融等领域对大数据分析的实时性要求高。未来研究并行集群的高效开源大数据平台是值得关注的方向。

再次,随着大数据时代的到来,云计算为这些海量的、多样化的数据提供存储和运算平台,大数据和云计算、虚拟化等诸多技术之间的整合作用是十分重要的。

最后,大数据的发展将进一步扩大信息的开放程度,随之而来的隐私数据或敏感信息的泄露事件时有发生[5]。虽然开源软件产品时时在进行“检错、纠错,打补丁、修正”,相比闭源软件,其漏洞可能更少,所以遭受黑客攻击的概率较小。但是开源软件代码的开放性给了更多人在修改和增删代码的权利,而这些因素又会极大的给代码带来不安全,面对开源软件构建的大数据平台发展的新特点、新挑战,如何保障数据安全是我们需要研究的课题。

3 结语

本论文介绍了大数据分析的结构特点、开源社区软件的大数据分析软件发展,提出了基于开源软件的大数据分析平台面临的自主软件协议平台、实时性和安全等问题,提出了未来需要积极展研究的方向,以提高我国在大数据领域的应用开发水平。

参考文献

[1]孟小峰,慈祥.大数据管理:概念、技术与挑战.计算机研究与发展,2013,vol.50,no.1,pp.146-169.

[2]S. Lohr, The age of big data. New York times, Nov. 2012.

[3]Verts,T.William,Open source software. World Book Online Reference Center.2008,01.

[4]http:///project/tag/411/big-data. Accessed March 2015.

大数据分析论文范文第3篇

摘 要:为深入揭示大数据背景下我国高校图书馆研究热点,该文以大数据、高校图书馆作为检索词进行可视化分析。结果发现,大数据背景下高校图书馆研究的热点呈现逐年增长趋势,主要包括信息服务、知识服务、学科服务等,个性化信息服务和数据分析领域成为新近发文量较多的热点领域。总体上来讲,利用大数据理念、大数据相关技术提升高校图书馆服务已经成为研究热点。

关键词:高校 图书馆 大数据研究 热点可视化

中图分类号:G250 文献标识码:A 文章编号:1672-3791(2016)07(a)-0019-02

大数据是继Web2.0和云计算之后的又一个热门词汇,作为高校的文献信息资源服务机构,高校图书馆拥有大量数据,而大数据在高校图书馆服务的各个方面都有广泛应用[1]。维克托・迈尔・舍恩伯格和肯尼斯・克耶在其编写的《大数据时代》中提出:“大数据”具有4V特点:Volume(数据量大)、Velocity(输入和处理速度快)、Variety(数据多样性)、Value(价值密度低),大数据的这4个特点得到了学者们的普遍认可。大数据背景下,数据量的急剧增长、信息技术的飞速变革都为高校图书馆的发展带来了新的契机,推动了信息服务的升级,也为高校图书馆的研究带来新的视角。数字时代,高校图书馆对数据的处理主要是将纸质文献资料数字化、网络化,信息服务的目的是实现师生对学术数据的充分利用,进入大数据时代,对海量文献数据的分析、处理将成为高校图书馆发展的新趋势,高校图书馆的信息服务重心也会逐步由传统的业务向深层次的数据挖掘服务转移[2]。在这一大趋势下,对大数据背景下高校图书馆研究热点的可视化分析,有助于学者们把握高校图书馆当前的研究热点和发展趋势。

1 数据来源

以中知网及万方数据平台为主要数据库检索对象,检索时间截至2016年7月15日。检索方法一:以“高校图书馆”和“大数据”作为并列主题检索词进行精确检索,不限发表时间及文献类型,共得到488篇相关文献。其中,期刊402篇、会议论文17篇、学位论文9篇,以“高校图书馆”作为检索关键词的文献有303篇。检索方法二:以“高校图书馆”和“大数据”作为并列题名检索词进行精确检索,不限发表时间及文献类型,共得到263篇相关文献,其中,期刊224篇,以“高校图书馆”作为检索关键词的文献189篇。综合以上两种方法对检索结果进行可视化分析,提高查全率和查准率。

2 研究热点及趋势分析

大数据时代,数据将成为图书馆最重要的资产之一[3],高校图书馆的服务不再局限于提供简单的文献和信息服务,而是更加注重运用大数据技术挖掘文献和信息中所包含的数据和知识内容,挖掘隐形知识,为教学和科学研究创新服务。对于大数据背景下高校图书馆研究热点的分析,可以从研究热点领域、研究热点期刊分布和研究基金分布三大方面进行。

2.1 研究热点领域分析

统计结果表明:学者们对于大数据背景下高校图书馆的相关研究在2013年开始呈现逐年增长的趋势,相关知识点如图1所示,圆形大小表示相关研究领域的研究热度高低。

自2013年至今,学者们对于大数据背景下高校图书馆的研究热点领域主要集中在信息服务、知识服务、服务创新、学科服务、数据挖掘方面,对于云计算、信息资源、数字图书馆、数据分析等方面也有涉及。在近两年的研究中,除了一直热度不减的信息服务、知识服务、学科服务问题之外,更加侧重对个性化服务、数据分析的研究。在系统构建方面的研究在近两年兴起,高校图书馆更加关注其自身生态系统的运行问题,学者们也在尝试运用生态学、系统学等多学科方法来进行大数据背景下的高校图书馆研究。研究领域的变化说明了学者们对这一研究主题从理论研究向更加深入的技术性研究靠近。

2.2 研究热点期刊分布

2.2.1 刊种统计

对于大数据背景下高校图书馆的研究,发文最多的期刊前六名依次是农业图书情报学刊、图书馆学刊、科技情报开发与经济、河南图书馆学刊、内蒙古科技与经济、现代情报,其总计刊文量占全部刊种的53.52%。各个期刊对此主题的刊文,反应出大数据背景下高校图书馆问题研究受到学者们的普遍重视。

2.2.2 核心期刊统计

刊文在核心期刊的数量统计分别为:(1)中文核心期刊55篇(59.1%)。(2)CSSCI中文社科引文索引(南大)32篇(34.41%)。(3)统计源期刊(中信所)4篇(4.3%)。(4)CSCD中国科学引文库(中科院)2篇(2.15%)。核心期刊的刊文反应出该主题成为学者们的重点关注领域,在大数据背景下高校图书馆方面的研究成果较深入。

2.3 研究基金统计

近年来大数据背景下的高校图书馆的相关研究基金项目共计38项,其中32项是2015年至今的基金项目。包含省市基金项目21项,占总基金项目的55.2%,国家社科基金项目8项,国家教育基金项目5项,国家自然科学基金项目1项,其他基金项目3项。基金项目立项的数量反映了该主题的研究热度和深度都在不断增加。

3 结语

目前,学者们对于大数据背景下高校图书馆的相关研究正处于高速发展的探索阶段,对于如何利用大数据技术来提升高校图书馆信息服务的研究越来越深入。研究热点不仅局限于信息服务、知识服务和学科服务方面,还涉及数字图书馆、学科馆员、系统构建等多领域,研究更加侧重对个性化服务、数据分析的研究,高校图书馆作为服务教学、服务科研的文献信息资源服务机构,深化基于大数据的相关服务是其未来发展的方向。

由于该文对大数据背景下高校图书馆的热点分析主要是基于“大数据”和“高校图书馆”两个关键词构成的检索式,在文献的查全率方面,漏查了只是应用具体的方法进行高校图书馆数据分析的个别文献,在相关文献检索中,有个别文献是应用具体的数据分析工具进行高校图书馆数据分析挖掘。这类数据分析工具的应用,更加印证了数据分析方面的研究呈现增长的趋势。

参考文献

[1] 康春鹏,杜蕊.大数据给图书馆带来的机遇与挑战[J].现代情报,2014(5):47-55.

[2] 李静丽,谢雨,甄天民,等.图书馆信息服务模式研究可视化分析[J].中华医学图书情报杂志,2015(4):27-31.

大数据分析论文范文第4篇

关键词:大数据;数据分析;数理统计

基金项目:华北理工大学研究生教育教学改革项目资助(项目编号:K1503)

基金项目:华北理工大学教育教学改革研究与实践重点项目资助(项目编号:Z1514-05;J 1509-09)

G643;O21-4

谷歌公司的经济学家兼加州大学的教授哈尔・范里安先生过去说过统计学家将会成为像电脑工程师一样受欢迎的工作。在未来10年里,人们获得数据、处理数据、分析数据、判断数据、提取信息的能力将变得非常重要,不仅仅在教育领域,各行各业都需要数据专家,“大数据”时代的到来使得数据处理与分析技术日新月异,深刻的影响着各个行业、领域及学科的发展,尤其是与数据关系密切的行业及学科,而作为工科各专业硕士研究生重要的公共基础课数理统计学是天生与数据打交道的学科。

怎样在“大数据”时代背景下培养出适应面向企业自主创新需求的数据分析人员或掌握现代数据处理技术的工程师,如何把当下流行的“大数据”处理技术与相关数理统计学课程教学有机的结合,以激发学生对数据处理与分析技术发展的兴趣,这些都是我们在与数理统计学相关的课程教学中不得不思考的问题。然而,当前高校工科各专业硕士研究生数理统计教学的现状却与其重要程度相去甚远,整个教学过程的诸多环节都存在较大的不足,主要表现为:1.教学内容偏重理论,学生学习兴趣不高;2. 轻统计实验;忽略对统计相关软件的教学;3.没有注重数理统计的学习与研究生专业相结合,实用性强调不够。4. 轻能力培养;轻案例分析等。

这些现象导致的直接后果就是学生动手能力上的缺陷和创新能力的缺乏, 不能够自觉利用数理统计知识解决实际问题, 尤其缺乏对统计数据的分析能力。因此,需要数理统计学随着环境的变化不断创新新的数理统计思维和教学内容。避免教学内容与大数据时代脱节。为此笔者在该课程的教学过程中,有意识地进行了一些教学改革尝试。提出了几点工科研究生数理统计教学的改革措施。

(1)调整教学内容,将与数理统计相关的大数据处理案例引进课堂。有很多有普遍性的应用统计实际案例,可以在本课程的教学过程中有选择的引入介绍给学生,让学生们了解利用所学统计方法进行实际数据分析的操作过程和得出结论的思维方法。以期解决工科研究生对确定性思维到随机性思维方式的转变的不适应性。

(2)适应大数据时代数理统计学课程的教学环境。实现教学方式的多样性。大数据时代背景下,互联网十分发达,学生根据自己的兴趣去收集、整理和分析数据,既可以改变他们对统计方法的进一步认识,也可以增加他们的学习兴趣。甚至可以以专业QQ群,邮件的方式和同学、老师之间相互交流,交流者处于相互平等的地位,可以畅所欲言,随时随地都可以交流,起到事半功倍的效果。这种交流使得教师不再是知识的权威,而是把教师上课作为一种更好自主学习的引导,这种交流使得他们的思想变得更加成熟。同时参与各种网络论坛,贴吧回答问题等使得他们更能体现自己的价值,这种交流也使得学生的学习热情和学习精神得到更好的激发。

(3)引导工科研究生开展与本专业相结合的课题研究,强调实用性,注重统计思维能力培养。适应大数据时代数理统计学课程教学环境,实现教学方式的多样性。以期弥补学生缺少数据分析实例的训练,解决学以致用的不足。在目前的数理统计教学安排下,受学时所限,如果相当一部分时间用来学习公式、定理的推导及证明,势必没有时间进行实际的数据分析练习。在大数据时代背景下,随着海量数据、复杂形式数据的出现,使得统计方法的发展和以前有了很大的不同,没有实际的数据分析训练,学生们就无法对统计的广泛应用性及重要性有深刻的体会,也不利于保持和提高他们的学习兴趣。这要求具体工作者提出新的统计思想和方法,加深对已有统计思想的理解,以解决实际问题。

(4)改革成绩评定方式。现有的考试模式为通过有限的一到两个小时的期末考试,进行概念的辨析和理论及方法的推导计算,由此来判断研究生关于数理统计课程的学习情况有很大的不足,特别是对可以利用软件进行的某些实际数据分析的考察没有办法实现。因此,有必要通过日常课堂“论文选题―提交―讨论”与期末理论考试相结合的形式对学生数理统计学习进行考核。加大对学生平时考察的力度,相应地减少期末考试成绩的比重。让学生选择一些与自己专业有关的数据进行尝试性的数据分析、一些统计科普著作的读书报告等并写成论文的形式提交,做为对学生成绩的评定方式,更能综合、客观地评价学生的学习情况。

数据分析在现代生活中发挥的作用越来越大,而道硗臣品椒可以与数据分析有机的结合,从而在提高数据分析效率的同时,保持分析结果的有效性,为生产和实践活动提供准确的参考。以上的思考和建议仅是我们在教学研究和教学过程中的一点体会,还有许多工作亟待深入,比如适合工科研究生数理统计课程的大数据案例选取,与课程内容的有效衔接;案例教学法如何实施;教学方式多样化问题;课堂教学与网络交流结合;理论介绍与软件应用训练结合问题等。教学改革与实践是一项艰巨的任务,以培养学生的实际运用能力和正确解释数据分析结果的能力为目的,强调统计思想和方法应用的培养,让学生们了解利用所学统计方法进行实际数据分析的操作过程和得出结论的思维方法将是一项长期的工作。

参考文献

[1].游士兵,张 佩,姚雪梅.大数据对统计学的挑战和机遇[J].珞珈管理评论, 2013, ( 02): 165-171.

[2].Stephen Fox. Getting real about Big Data: applying critical realism to analyse Big Data hype[J].International Journal of Managing Projects in Business , 2013, Vol.6 (4),pp.739-760

大数据分析论文范文第5篇

关键词: BI&A3.0 管理科学与工程专业 研究生培养

在过去的二十年里,商务智能与分析(Business intelligence and analytics,BI&A)与大数据相关的分析随着大数据的发展在工业界及学术界变得越来越重要。来自于Bloomberg商业周刊的报道(2011)显示,97%的超过1亿市值的公司使用了商务分析技术。据麦肯锡全球机构预测,到2018年,仅美国一年就会面临14到1万人的深度分析技术人才的需求,同时约有150万数据分析经理的缺口[1]。

“智能”一词自20世纪50年代被人工智能方面的研究人员提出并沿用至今。而商务智能(Business intelligence)则随着信息技术的发展在20世纪90年代被企业界和学术界熟知。自2008年大数据的一系列论文在NATURE上发表,大数据分析技术已被应用到从文本、计算机日志、传感器、社交媒体等产生的大量非结构化、体量巨大、类型繁多、价值低密度、要求快速处理的大数据。BI&A经历了BI&A1.0,BI&A2.0和BI&A3.0的演进。他们分别对应面向基于关系数据库的结构化数据、基于web的非结构化数据、基于移动及传感器的非结构化大数据。因此,BI&A3.0是面向大数据分析的新兴领域。

BI&A3.0面向大数据可能产生的巨大影响,它涵盖了电子商务及营销智能、电子政务及政治2.0、科学与技术、智慧健康、安全及公共安保等方面。涉及的技术领域包括大数据分析,例如统计学习、序列及暂时挖局、空间挖掘、过程挖掘、网络挖掘、web挖掘、基于列的数据库挖掘、内存数据库、并行数据库、云计算、Hadoop、Mapreduce,文本分析,例如静态NLP信息抽取、主题模型、问答系统、选项挖掘、情绪及影响分析等。除此之外,还包括web分析、网络分析、移动分析等大的技术分析方面。因此,BI&A3.0是未来管理科学与工程专业研究生培养的重要基础和研究热点。

BI&A3.0的发展和应用对管理科学与工程硕士研究生的培养提出了挑战。主要表现在以下几个方面,BI&A聚焦于理解、解释、战略并服务于组织。一些学科对BI&A的发展作出了贡献,例如信息管理、计算机科学、统计学、管理学和市场营销学。

然而,目前的课程体系设置相对于商务分析技术及大数据的发展来说较滞后。虽然大部分学校针对学生的研究方法及研究能力的培养开设了一些BI&A课程,例如复杂系统分析与决策、随机过程、应用统计学、矩阵分析、Matlab、现代管理分析技术等。这些课程的设置对于面向大数据的BI&A3.0的研究及应用来说尚有差距,缺乏系统性和前沿性。因此,面向BI&A3.0的研究生课程体系改革具有一定的现实意义及急迫性。

1.教学研究的内容及实践内容

围绕如何培养面向大数据及BI&A3.0数据分析及研究能力进行课程体系改革研究。借鉴国际国内针对从BI&A1.0到BI&A3.0的知识体系及技能相关的教学改革,注重管理科学与工程的专业内涵。

(1)教学研究的内容

①对国内和国际当前的面向BI&A3.0大数据分析能力培养的知识体系及技能进行梳理。

②对本校管理科学与工程专业主要的研究方向进行梳理,调研面向BI&A3.0大数据分析的具体能力和层次要求。

③结合国际国内面向BI&A3.0的知识及技能体系与本校管理科学与工程主要的研究方向,提出面向BI&A3.0的管理类研究生课程体系改革的具体方案,包括课程设置、教学方式、考核方式、教学目的与要求。

(2)实践内容

通过设计与理论相配套的课程实验、研讨与课程内容密切相关的科学问题、及时追踪研究热点,使得实践环节成为提高研究生BI&A3.0创新和研究的推动器,同时也提高学生在实践方面的兴趣和动手能力。

2.教学及实践改革的目标

(1)教学目标。通过建立面向BI&A3.0的管理类研究生课程教学体系,使得研究生掌握BI&A3.0的基本知识体系、知识网络、基本研究能力,并最终培养研究生掌握面向BI&A3.0的创新能力。

(2)实践目标。通过培养学生面向BI&A3.0的实践技能,培养研究生面向BI&A3.0的实践能力,包括文献检索能力、借助计算机的分析能力、数学建模能力、数据收集能力。

3.课题研究要解决的问题

围绕面向BI&A3.0的管理类研究生课程体系的建设,本课题将要解决如下问题:

(1)如何划定面向BI&A3.0的分析及计算机技能。面向BI&A3.0的分析及计算机技能涵盖的面十分广泛,本校管理类研究生所依附的学科方向及研究重点决定了这些技能需有选择地纳入。因此,需要解决具体纳入哪些分析及计算机技能的培养。

(2)如何结合研究方向与BI&A3.0的应用。培养面向BI&A3.0大数据分析能力的目的是将BI&A3.0大数据分析应用到具体的研究方向。物流、市场营销、工程管理、运营管理等方向的研究需要将这些领域的知识和BI&A3.0的应用结合起来才能达到培养的目的。

4.拟采取的方法

(1)借鉴国内外先进的BI&A3.0教学教改经验。对国际和国内BI&A3.0相关的教学教改文献进行分析,并参加相关的国际国内会议,与国内外同行进行交流学习。

(2)对本校管理类研究生现状及改革反馈进行调研。通过以往教学实践的总结、专家学者的讨论、课题组集体研究的方式,调研适合本课程体系服务学科专业的研究生课程教学内容、目标、方法与手段。

(3)对企业界进行调研发掘BI&A3.0实际应用能力的需求。通过对企业界进行调研,发现潜在的BI&A3.0应用方向。通过这些方向的发掘弥补课程体系设置的不足。

自2008年NATURE发表的一系列大数据相关论文,到2012年,美国《大数据研究和发展计划》,成立“大数据高级指导小组”,再到2015年,我国提出国家大数据战略,针对大数据分析的BI&A3.0是十分前沿的。本项目将本校管理类研究生数据分析能力培养和BI&A3.0发展的大趋势结合起来,具有前沿性、现实性和急迫性。

参考文献:

大数据分析论文范文第6篇

关键词:大数据背景;专业技术;技能探究

中图分类号:G64 文献标识码:A 文章编号:1009-3044(2016)33-0123-01

Abstract : With the theme of declare big data and applied technology major, this thesis was written by author from telecommunications engineering academy. It has researched and analysed the composition of big data, related technologies, application requirement about the data mining and the problems has been solved by big data technology; Also it described what kind of related knowledge and skills need to be master by higher vocation education students in school, analysed the teaching qualities contrast with the needs of modern enterprises in details, by all means this thesis will focus on practically personnel training and explore the thinking of vocational colleges’ big data application technology major.

Key words : big data background, professional technology, skills exploration

随着网络和数据信息科学的发展,数据在量和复杂度上的爆炸式增长让人类进入了大数据时代。根据IDC监测,人类产生的数据量正在成指数及增长,大约每两年翻一番,以此速度在2020年之前会持续保持下去。大量数据源的出现则导致了非结构化、半结构化数据爆发式的增长即数据结构日趋复杂。大数据分析意味着企业能够从这些新的数据中获取新的洞察力,并将其与已知I务细节相融合。大数据对各种行业似乎产生了前所未有的巨大影响,从制造商到旅游业,从产品设计到消费者行为分析,大数据能提供前所未有的信息,帮助公商行业做出最好的决策。公商行业对合格的数据分析师或者数据工程师的需求很大。

人才市场需要会分数据并以有用的方式呈现信息的雇员。根据市场需求,高职院校需要培养学生成为具有数据应用技能的人才以满足市场需求。我们研究方向是调查公司企业所需要的技能和大学教的数据分析技能,对比两方面的技能的差别。人才需求调研裼昧宋示矸绞讲杉专家的意,专家分为相关专业学科教授和企业内本行业专家。

大数据应用技术专业的课程设置应跟随新技术的应用,跟随社会及企业需求,在新专业中重视培养专业技能和项目经验人才,课程设置应贴合社会需求培养相应的就业技能。需要研究关于合格的数据分析师或者数据工程师应该具有什么资格及知识技能。调研的结果可以帮助学院开设有关大数据学科的学校及大数据有关的课程教材。

调研内容如下表格:

综上所述,十报告传达的是要重视高等职业教育,强调“要全面实施素质教育,深化教育领域综合改革,着力提高教育质量,培养学生创新精神。”中国的职教体系也在深入发展改革的过程中。本调研是针对高等职业院校的大数据应用技术专业的课程设置的进行探究,通过对大数据应用技术专业在市场人才需求的研究,对全面实施素质教育,重视学生的创新能力的培养具有重要意义。

参考文献:

[1] 王星.大数据分析:方法与应用[M].清华大学出版社,2013.9.

[2] 曹正凤.数据分析统计基础[M].电子工业出版社,2015.2.

[3] 屈泽中.大数据时代数据分析[M].复旦大学出版社,电子工业出版社,2015.7.

[4] Hames R.Evans.Business Analytics:Methods,Models,and Decisions[M].电子工业出版社,2015.7

[5] 梁循.面向社会化媒体大数据的社会计算[M].清华大学出版社,2014.12

大数据分析论文范文第7篇

关键词:技术创新;大数据;双螺旋模型

一、引言

自2013年被确定为“大数据元年”以来,大数据应用已广泛渗透到各行各业。伴随着数据规模和类型的剧变、数据存储成本的迅速下降、数据采集更加密集和广泛,学术界和企业界开始站在战略的高度重新审视大数据的价值。2008年9月,《自然》杂志推出了名为“大数据”的封面专刊,随后IDC(2011)描述了大数据的“3V”:规模性(Volume)、多样性(Variety)、实时性(Velocity),之后又加入价值性(Value)来描述大数据特征,称之为“4V”[1]。麦肯锡(2011)将大数据定义为无法用常规软件收集、储存、处理、分析的庞大数据集。Forrester突破了以往单一对数据本身描述的局限,通过数据价值实现的角度将大数据定义为数据存储、处理和访问的流程与业务目标的集成。国内学者涂子沛在其专著《大数据》(2012)、《数据之巅》(2014)中反复表达“尊重事实,用数据说话”[2]以及“推崇知识和理性,用数据创新”的观点,并描述了未来对于建设“SmartCity”的构想[3]。孟小峰(2013)指出大数据研究的火热,并不能代表研究的深入,相反大数据的研究还处于一个非常起步的阶段,还有诸如关键技术、利用方式等很多基础性的问题需要解决[4]。大数据的发展和进步是以数字信息技术的发展和应用为主线的。数据分析、数据挖掘、数据存储是拉动大数据发展的“三驾马车”,这三项数据技术需要不断进行创新才能进一步发掘大数据的价值潜力。由于大数据具备准确预测趋势的能力、从海量数据中萃取有应用价值信息与知识的能力以及对市场技术需求方向突出的把控等能力,使得技术创新的效率有较大幅度的提升。同时,数据分析、挖掘和存储本身作为技术手段也需要进行创新。因此,大数据与技术创新之间存在着密切的联系。朱东华等(2013)提出了大数据环境下面向技术创新管理的双向决策模型,以期提升我国技术创新管理研究在大数据环境下提取知识与观点的能力[5]。赵亮等(2015)通过大数据的收集和预处理、大数据存储、创新源数据可视化以及创新应用子项目的实施,实现对技术创新评估预测、风险把控能力的提升[6]。针对大数据与技术创新有关文献的梳理,不难看出,在大数据时代下,大数据对于各类技术创新具有较大的提升作用,而“大数据”概念下作为技术支撑的数据技术同样需要创新,同时也需要对数据技术的创新进行管理。对于大数据和技术创新这种“你中有我,我中有你”的相互作用关系,论文尝试以双螺旋结构模型为研究工具,提出大数据———技术创新双螺旋模型,从而厘清在大数据与技术创新作用关系中的动力因素,以达到大数据与技术创新共同发展进步的目的。

二、双螺旋结构理论

双螺旋结构模型起源于生物学中的DNA双螺旋结构,生物学家为了研究人类的遗产规律,从人类遗传密码———“基因”的角度出发,提出并绘制了DNA双螺旋结构模型。1953年,沃森和克里克首次提出了DNA双螺旋结构模型,该模型开启了分子生物学时代。利用该模型,人类直观地认识到遗传信息的构成和传递路径,并对人类遗传信息复制上升的互融联动关系有了初步的了解。在生物分子学领域,DNA双螺旋结构模型是由两条主链和碱基对组成,两条主链相互盘旋形成类似于“麻花”状的螺旋结构,而碱基对位于螺旋内部,两两对应。碱基对的排列顺序就决定了生物体的不同性状,而在DNA双螺旋进行发展进化之时,碱基对的不同组合以及排列顺序就确定了未来生物的发展走向。随着管理科学的发展,在管理科学领域中有许多互相影响、互相促进、互相融合的二元关系,为了清晰地描述这种关系,管理学中引入分子生物学的DNA双螺旋结构模型进行描述,从而形成了管理科学中的双螺旋结构模型。质量管理学家戴明通过对计划———执行———检查的研究,提出这三个步骤不是原地循环往复的,而是一种螺旋式上升。于渤(2008)将知识创新双螺旋作为企业知识创新过程,指出创新的过程需要经历一套复杂的过程,最终实现自我超越的知识螺旋转化[7]。管理科学与分子生物学的结合提炼出螺旋式系统方法论,又称作螺旋式方法论。该方法论指导双螺旋结构模型在管理领域的应用,而其基本的解决问题的精神是,按照事物发展的规律和演变的过程,通过螺旋内部重大影响因素的互相作用,循环使用不同的方法,推进事物有序的发展,最终达到事物发展的某种目标。

三、大数据与技术创新双螺旋模型及分析

1.大数据与技术创新双螺旋模型对于各类技术创新,大数据提供了庞大的样本数据分析预测、精细的市场技术需求定位、详尽的技术创新需求对象画像刻画等服务,使得技术创新的效率大幅度提升。而数据分析、挖掘和存储是推动大数据自身发展的核心技术,这些技术的创新也将直接影响到大数据对其他技术创新的拉动作用。利用双螺旋结构模型研究大数据与技术创新相互作用关系具有积极的现实意义,论文提出大数据———技术创新双螺旋结构模型(BigData--Tech-nologyInnovation双螺旋结构模型;BT双螺旋结构模型)。依据BT双螺旋结构模型,本文将大数据与技术创新视为两条主链,即“大数据链”和“技术创新链”。这两条主链的相互作用是依靠碱基对进行链接的,为了推动“大数据链”与“技术创新链”的发展增长,碱基对的不同搭配,相互作用,促进BT双螺旋模型的不断发展。数据挖掘、数据分析、数据存储是推动大数据发展的技术核心,技术创新的发展需要技术创新管理理论的指导,以技术创新管理理论指导数据技术的创新,从而实现BT双螺旋模型的发展。故将数据挖掘、数据分析、数据存储和技术创新管理理论作为碱基,进行两两配对。图1BT2.大数据———技术创新双螺旋模型分析BT双螺旋结构模型中将大数据与技术创新作为研究的主要对象,将其作为两条主链进行分析。各类技术的创新需要在大数据以及大数据相关技术的支持下进行。同样的,大数据自身数据技术的创新又归属于技术创新范畴,需要相关技术创新管理理论来给予指导和管理。BT双螺旋结构模型需要向纵深发展,就必须要经历双螺旋结构的破裂———复制———重组———再破裂这样的一个循环过程,从而循环往复,推动BT双螺旋模型不断发展。碱基一:数据挖掘技术,大数据需要通过从海量的数据中提取有效信息和知识,因此,数据挖掘技术是大数据未来发展的一项核心技术。凭借数据挖掘技术提炼出有价值的信息与知识,可以为技术现状进行评估、技术创新未来趋势进行预测、技术创新源进行汇总提供强大的信息支撑。碱基二:数据分析技术,数据分析技术是通过对现有数据进行分析,归纳、整理、总结并对所分析对象提供相应的预测。该技术是连接数据与结论的重要桥梁,通过分析技术可以顺利地将“冷冰冰”的数据转化成为有价值的结论成果,碱基三:数据存储技术,存储技术是数据挖掘技术与数据分析技术的基础。信息时代的数据不仅仅是结构化的数据,更多的则是非结构化或是半结构化的数据,大量的数据需要有存储空间,并且要做到随用随取,这样才能使得数据的挖掘和分析更具时效性和针对性。碱基四:技术创新管理理论,数据技术的不断革新需要从管理学的角度给出指导性的建议。大数据的三项核心数据技术本身作为一种技术手段,需要进行科学的发展,在数据技术的创新过程中,离不开技术创新管理理论的协助。大数据链与技术创新链作为BT双螺旋模型的两条主链担负着不断进步发展的使命,以数据挖掘技术、数据分析技术、数据存储技术和技术创新管理理论为碱基对负责对两条主链的发展进行指导。在DNA双螺旋结构模型中,碱基对必须是A-T,G-C进行定位搭配互补,而在BT双螺旋模型中,通过借鉴DNA双螺旋结构模型的碱基对互补理论,从而进行多元轮回式的互补结合。BT双螺旋模型中的碱基对不再像DNA双螺旋模型那样必须定位对象式的配对,当进入破裂阶段,大数据链与技术创新链进行分离,两主链破裂时连带自己链条上所携带的碱基一并分离。进入到复制阶段,各碱基进行复制,也即各项数据技术以及技术创新管理理论的推广应用。而后,进入重组阶段,碱基随机两两结合,重新配对,在不同的空间、时间进行不断的随机结合,就会产生奇妙的化学反映。从而在不同随机两两碱基结合的过程中,产生创新,发挥动力作用,就如同图2所示地推动BT双螺旋模型向纵深方向进行发展进步。

四、结论与展望

大数据与技术创新是一种“你中有我,我中有你”的相互作用关系,通过建立BT双螺旋结构模型,更加清晰地描述了在大数据与技术创新互融式螺旋上升发展中数据挖掘、分析、存储技术和技术创新管理理论所起到的关键作用。大数据的进步发展离不开数据技术的不断创新,同时,不仅仅是数据技术需要创新,其他的各项技术同样需要在大数据的促进下更好地进行革新进步。BT双螺旋模型借鉴了DNA双螺旋模型,贴切并直观地展示出大数据与技术创新之间相互学习、相互关联的作用关系。在BT双螺旋上升发展时经历破裂———复制———重组———再破裂的过程中,各数据技术与技术创新管理理论相互作用、在数据技术两两结合之际完成数据技术之间的相互配合、在数据技术与技术创新管理理论结合之际完成大数据与理论的不断完善以及理论指导数据技术发展。在未来各项技术创新的发展进程中,大数据将会成为一种必要的手段,大数据与技术创新的结合为技术的创新提供了无限的可能。论文中提出的BT双螺旋结构模型借以生物学的视角分析了大数据与技术创新的交互关系,在未来的大数据与技术创新发展中,两者相互影响、相互作用的交互关系将会更加深入。在本文的基础上,需要在广度和深度上进一步完善BT双螺旋结构模型,同时也应以更多的现实技术创新发展过程为研究对象,广泛地开展实证研究,不断地补充BT双螺旋结构模型,这将是未来需要解决的问题。

大数据分析论文范文第8篇

在大数据的时代环境下,计算机是可以智能到发现数据背后蕴藏的规律的,它能够发现新的知识,创造新的价值,借助计算机让数据自己说话。事实上,大数据挖掘已经上升到国家新型信息化产业的战略高度。

在中国科学院计算技术研究所智能信息处理重点实验室,有一支机器学习与数据挖掘团队,它是国内开展机器学习与数据挖掘最早的团队之一。自2000年,何清博士接过团队接力棒以来,一直致力于这个方向的科研和开发工作。

何清,2000年进入中科院计算所智能信息处理重点实验室从事博士后研究工作。一开始主要从事机器学习和数据挖掘算法的研究,研究提出了基于超曲面的一系列机器学习与数据挖掘算法。随着研究的深入,他逐渐意识到数据挖掘作为一种基于人工智能的决策支持过程,必将随着人类社会信息量的爆炸式增长而发挥越来越重要的作用,而我国在海量数据挖掘方面的成果当时还十分薄弱。作为一名科研工作者,他决心在这方面探索突破,以填补国内在该领域的空白。这成为他带领机器学习与数据挖掘团队不懈奋斗的最大动力。

“有志者,事竞成。”带着这样的志气,何清带领他的团队成员奏响了一曲斗志昂扬、攻坚克难的奋斗强音:近年来,他们先后在国际重要SCI期刊32篇,顶级会议近20篇,EI收录51篇。承担并圆满完成国家重点基础项目(“973”计划)3项;承担完成的“863”项目3项获得好评:承担完成或参加完成的国家自然科学基金项目5项被评为优或特优。获得北京市科学技术奖1项。课题组已经取得国家发明专利8项,软件开发著作权8项。在模糊信息处理中的信息扩展和聚类问题的研究和基于超曲面的海量数据分类法(Hsc)以及一套基于此的理论体系和算法方面均有创新性突破。目前团队在研课题共有6项,均进展顺利,特别是在多领域、多任务Web数据分析与挖掘、迁移学习分类问题上取得突破性进展。团队在Web内容管理、分析和挖掘上走在国内研究同行的前列,现正致力于人口数据和信息安全数据的大数据分析挖掘,有望取得创新性成果。

团队自2008年以来,一直坚持在并行数据挖掘领域开展系列研究,在这个方向也取得了国内领先的研究成果,相关成果发表在cloudCom09等领域内重要的国际期刊和会议中,其中并行K-Means算法论文单篇他引87次。在大数据时代,特别是在基于云计算的数据分析和挖掘是大数据分析的主流技术方面,何清及其团队一直站在研究领域前沿,立志可以对大数据、云计算技术的应用起到引航作用。

大数据分析论文范文第9篇

云计算、物联网和互联网的快速发展,使得数据量以极快的速度增长,大数据成为研究热点。大数据的价值产生于分析过程,所以大数据挖掘与分析是整个大数据处理流程的核心。本文介绍了大数据数据体量巨大、数据类型繁多、价值密度低、处理速度快的4V特征、以及基于这些特征的大数据挖掘与分析需要解决的关键技术。

关键词:

大数据大数据分析大数据挖掘可视分析

随着云计算、物联网和互联网等技术的快速发展,各种移动设备、传感网络、电商网站、社交网络时时刻刻都在生成各种各样类型的数据,大数据时代已经到来。大数据即数据体量巨大、数据类型多样、数据的质量低、处理速度迅速的数据。大数据分析的核心是从大量数据中获取有价值的内容,更准确、更深层次的知识,而不是对数据简单的统计和分析。

1大数据的定义与特征

大数据已经进入了我们每个人的生活,各行各业都在讨论如何发展和运用大数据,那么什么是大数据,大数据的特征是什么?大数据是指所涉及的数据规模巨大到无法通过目前主流的软件工具在合理时间内撷取、管理、处理、挖掘这些数据,并整理成为企业经营决策有用的信息。IBM提出大数据的4V特征,得到了业界的广泛认可。第一,数量(Volume),即数据巨大,从TB级别跃升到PB级别;第二,多样性(Variety),即数据类型繁多,不仅包括传统的格式化数据,还包含来自互联网的大量视频、图片、位置和日志等;第三,速度(Velocity),即处理速度快;第四,价值性(Veracity),即追求高质量的数据。大数据具有4V特征,给人们带来了新的机遇与挑战。

2大数据挖掘与分析的意义

在大数据处理的过程中,数据分析是核心,因为大数据的价值全部在数据分析过程中产生。互联网、硬件等技术迅猛发展,加深了人们对数据分析的需求。如果大数据是一种产业,赚钱的重点在于如何提高数据的分析能力,通过分析发现数据的更多潜在的价值。在大数据时代,数据分析是数据价值发现的最重要环节,也是决策的决定性元素。传统的数据分析主要针对结构化数据,且已经形成一整套非常有效果的分析体系。但是在大数据时代,半结构化和非结构化数据量的快速增长,给传统的分析技术带来了巨大的挑战和冲击。大数据分析于传统数据分析有哪些区别呢?

3大数据挖掘与分析的关键技术

大数据挖掘与分析的关键技术一般包括:大数据采集、大数据预处理、大数据存储及管理、大数据实时处理、大数据可视化和应用等。

3.1大数据采集技术大数据采集一般分为大数据智能感知层和基础支撑层。智能感知层重点攻克针对大数据源的智能识别、感知、适配、传输、接入等技术。基础支撑层重点攻克提供大数据服务平台所需的虚拟服务器、数据库及物联网络资源等处理技术。

3.2大数据预处理大数据预处理是指在大数据挖掘前期对大数据进行的一些提前处理。预处理包括数据清理、数据集成、数据变换和数据归约等几种方法(表1)。大数据的特点是数据量大,但并没有增加数据价值,相反增多了数据噪音,有很多数据放在存储器里就没再用过。数据量的突然增加,各种媒体数据被任意碎片化。在应对处理大数据的技术挑战中,大数据的降噪与清洗技术值得高度重视。早期主要是结构化数据的挖掘,可从数据库中发现时序知识、关联知识和分类知识等。在大数据时代,数据库已经不能满足人们的需求了。大数据中数据类型繁多,我们进入了一个非结构化数据挖掘时代。因此,非结构化数据模型是大数据预处理的重要研究方向。

3.3大数据管理大数据不断地从复杂的应用系统中产生,并且将会以更多、更复杂、更多样化的方式持续增长。多样化的物联网传感设备不断地感知着海量的具有不同格式的数据。物联网系统中大数据的复杂化和格式多样化,决定了物联网系统中针对大数据的应用场景和服务类型的多样化,从而要求物联网大数据管理系统必须采用特定技术来处理各种格式的大数据,而现在针对特定数据类型和业务的系统已经无法满足多样化需求,因此,设计新的具有可扩展性的系统架构已经成为大数据管理的研究热点。

3.4大数据实时处理根据大数据速度快的特点,时间越长,数据的价值也在不断衰减,因此很多领域需要对数据进行实时处理。大数据时代,伴随着各种应用场景的数据分析从离线转向了在线,实时处理的需求不断提高。大数据的实时处理面临着一些新的挑战,主要体现在数据处理模式和算法的选择及改进。

3.5大数据可视分析大数据可视分析是指在大数据自动挖掘的同时,融合计算机的计算能力和人的认知能力,利用人机交互技术和可视化界面,获得大规模复杂数据集的分析能力。在大数据时代,大数据可视化是必须尽快解决的关键问题,为大数据服务的研究指明了方向。

4结语

传统数据处理方法已经不能满足大数据挖掘与分析的需求。近年来,大数据挖掘与分析领域已经出现了很多新技术,并成为大数据采集、存储、处理和呈现的坚实基础。但是对大数据分析的价值尚缺少深入的理解,大数据分析中的很多重要技术还不成熟,还有很多其他关键技术难题需要去继续研究。

参考文献

[1]韩晶.大数据服务若干关键技术研究[D].北京邮电大学博士学位论文,2013.

[2]程学旗,靳小龙,王元卓等.大数据系统和分析技术综述[J].软件学报,2014,25(09):1889-1908.

[3]任磊,杜一,马帅等.大数据可视分析综述[J].软件学报,2014,25(09):1909-1936.

[4]McKinseyGlobalInstitute。Bigdata:Thenextfrontierforinnovation,competition,andproductivity[J],2011.

[5]孟小峰,慈祥,等.大数据管理:概念、技术与挑战[J].计算机研究与发展,2013,25(1):146-169。

大数据分析论文范文第10篇

摘要:大数据分析实现了当代高校图书馆在图书情报信息资源管理中的高效性和便捷性。在高校图书馆文献管理中,运用大数据理论进行数据挖掘、海量数据分析、高维数据阅览等,体现了大数据技术的优势所在,通过科学统计与分析网络阅读等结构复杂的大数据,能够极大促进高校的科研与教学工作,提高工作效率。大数据技术使得高校图书馆在网络时代能够与其他学术研究机构进行成功合作,大数据技术在当代高校图书馆中的运用已经成为信息资源管理创新性发展战略的标志性成果。

关键词:大数据;高校图书馆 ;信息资源;数据管理;创新性

中图分类号:G250.73文献标识码:A

DOI:10.3963/j.issn.16716477.2015.03.018

一、大数据分析在高校图书馆数据管理及文献与知识模块中的运用

大数据(big data)分析在高校图书馆管理中的第一个明确分析对象是海量阅读数据。从数据分析的表象来看,分析海量数据可以理解为对读者所感兴趣的文献信息资料等阅读对象的记录进行归类管理,大数据技术适用于高校图书馆数据管理,同时具有时间和空间属性。海量数据分析与管理的一项重要功能是对所确定的数据目标进行分析整理,以提供数字图书资源存在的价值与依据。其中,海量数据中的阅览数据既能体现文献的重要与否,又能体现文献的被利用率。文献知识是概念的诠释与表达,阅读的数据则是揭示知识存在的模式与关系的重要素材。单一的数据记录并不能说明知识的价值、可靠性和认知程度,只有将不同记录的数据进行有序的组织与关联,通过大数据分析,把握读者阅览的信息等,同时把与该知识文献相关的共性与差异阅读信息的关键线索进行对比分析,对数据中的有效信息进行有序解读,实现对隐藏于数据中的知识结构与线索的归纳与推理,才能证明该知识的可靠性和价值。

用大数据技术分析图书馆文献知识的过程具有一定的复杂性。知识的获取可分为显性知识获取和隐性知识获取。与获取显性知识阅读量数据相对应的是显现数据,显性数据的海量数据分析是按照某种规律或理论通过测量归类而得到的数据,用以描述观察到的文献阅览总量和对知识概念的获取,比如文科学科分类阅览、理论文献查阅、新闻事件的点击阅读、网上参与公众知识媒体平台的程度,等等。数据分析的作用是客观真实地评估高校图书馆信息资源的整体利用的程度与强度。然而,许多知识与信息是不可直接靠量化而获得的,这部分无法直接测量的知识与信息就需要通过模型辅助来推断。而用于未知概念推理建模的数据称为隐性数据,隐性数据分析的重要作用是揭示显性知识信息与资源成立的可靠依据。以PBL(problembasedlearning) 教学模式的数据分析研究为例。PBL是以问题解决为导向、以大学生自主学习的能力为教学目标的学习方法和相关知识体系,PBL教学模式能调动大学生学习的积极性与主动性,形成解决问题的技能和自主学习的能力。高校图书馆通过分析大学生查阅相关知识的点击量作为显性数据统计,研究分析表明学生在没有教师指导的情况下也能通过自己的阅读而独立解决问题。支持这个数据分析结论的理想数据还得益于一组高维隐性数据,即:参加实验的大学生在图书馆摄入的该知识的显性数据加上与该知识相关的学科知识的点击阅览数据作为隐性数据相加的总和。这个实验较为复杂,其成功的关键是如何实现双盲(double blind)数据设计与分析,通过尝试有效的隐性知识结构管理数据可能获得支持该研究质量不错的全面观察数据。图书信息采购、电子信息资源的阅览总量与相关隐性消费数据可以为该研究提供后续支持,如PBL问题意识较弱的学生关注本学科的研究成果,PBL问题意识较强的学生则关注与本学科领域相关的跨学科知识范围的信息获取。因此,我们研究PBL教学模式不能脱离高校图书馆信息技术的海量数据采集与分析,在充分采集显性数据的基础上还要利用大数据技术分析隐性的数据才能为科研项目提供客观科学的数据参考。

简而言之,利用大数据技术建立高校图书馆文献资源与信息综合平台,为高校学术研究提供数据采集、创建、检测、合成、编码、存储、、检索、提取、判断、问题解决和服务等形式多样的大数据分析服务,不仅大大扩展了数字化时代高校图书馆的功能,极大地提升了图书情报文献的利用率,而且很好地推动了从大数据中发现新知识和跨学科学习的知识创新模块,推动了当代高校图书馆信息资源管理模式的发展与创新。

二、大数据视域下的云计算与高校图书馆数据挖掘

谷歌、华盛顿大学、清华大学联合开展的云计算(cloud computing)学术合作计划正积极探索着大数据时代高校图书馆数据管理的新模式。“云计算是在虚拟计算环境下以数据为中心的一种超级计算方式,具有动态性和可扩展性特点”\[1\]。基于高校图书馆的云计算技术包括四个层次的数据架构,分别是基础架构即服务(简称Lass),平台即服务(Platform as a service,Paas)和软件即服务(Software as a service,Saas)以及数据即服务(Data as a service,Daas),即网络计算机和面向读者服务的群集计算技术。互联网平台为高校图书馆服务软件(汇文数据库)等软件行业的发展带来了新的机遇,如快速反馈、在线阅读、借还智能化、阅读软件在线升级等。“云计算使高校图书馆信息平台从以往对单机的软件开发和演化系统的研究转向了与社会知识网络以及公共知识平台之间的融合”\[2\]。高校图书馆信息资源以计算机云计算技术将社会分散式大规模的电子文献出版系统紧密地与个体终端读者、研究机构、学术团体之间构架起一座技术纽带,将高校图书馆信息资源与服务读者的最大化需求上升到紧密关联的模式上来,同时也拓展了高校图书馆的文献知识总量和获取知识的方式方法。如,不同高校图书馆馆藏文献的资源共享、高校图书资料软件工程的利用与开发、图书阅读软件升级的自适应演化以及珍贵文献存储池、阅览终端桌面池、云计算容灾系统安全池等。

云计算与高校图书馆数据挖掘(data mining)既有联系又有区别:云计算的动态性和可伸缩性的计算能力为高校图书馆高效海量阅读数据管理带来了可能性。云计算环境下读者参与的电子书籍的点击次数为出版社、图书公司等知识出版单位和著作人提供了学术动态及相关知识传播运行的数据,引导图书馆馆藏、知识消费、信息资源与图书馆文献结构的更新与发展。“云计算的服务化特征使高校图书馆面向高校科研的馆藏文献服务数据挖掘成为可能”\[3\]。同时云计算技术发展也离不开高校图书馆数据挖掘的支持,以文献搜索为例,基于云计算的搜索包括网页储存、搜索处理和前端交互三大组成部分。随着宽带技术的发展,高校图书馆文献还包括多媒体数据的文献,已开发出可查询图像、声音、图片和影视的搜索引擎,图像、视频是当代高校图书馆文本信息的补充。高校图书馆数据挖掘在这几部分中都有广泛的运用,例如网页储存中网页去重、搜索处理中网页排序和图书馆前端交互中的查询分类等,其中每部分都需要数据挖掘技术的支持。因此,云计算技术为图书馆海量阅读和复杂的电子文献数据挖掘提供了技术基础,为网络环境下面向大众的高校图书馆资源服务带来了突破性的创新。

云计算和图书馆数据挖掘技术提升了高校图书馆的利用效率,文献海量阅读数据又为高校教学与学术研究提供进一步研究的依据,同时也为著作者、图书出版发行单位提供电子书和图书文献的供求与出版方面的信息。云计算和数据挖掘技术支撑的信息网络技术已经将高校图书馆打造成为一个巨大的数字世界,在高校图书馆这种集中人类智慧结晶的知识智库中,大数据、云计算技术便捷地收集着任何时段所保留下来的反映知识世界与主体客观认识过程中的数据,以前所未有的速度将信息资源拼接在一个时空下供读者阅览,“大数据、云计算、图书馆数据挖掘丰富了当代高校图书馆情报与管理学的内容,引发了学界对如何用好数字化时代图书馆资源平台共享的探索与相关思考”\[4\]。

三、学术机构研究合作的大数据案例分析

大数据技术的运用开始体现在学术机构与高校图书馆的密切合作上,该研究已有成功案例――该案例旨在研究学术成果的跨机构合作规律以及其在高校图书馆信息资源管理、学术文献和知识函数中的广泛应用前景。高校图书馆大数据是建立在以学者研究成果为基础的学术共同体和相关学术机构信息交流及相关学术文献交流的备份信息上。大数据分析不仅为各学科的跨界交流研究提供了个体化的研究成果总汇,而且数据的汇总案例在揭示学者个体在研究机构中所从事学术活动的基本单元、在学术机构中的地位以及机构之间合作提供了重要参考;同时,对跨组织机构的不同学者间的学术合作进行差异化研究,为科学人员的学术交流和学科评价服务的最终用户提供更为全面的数据分析和信息检索服务。

本文案例数据来源于中国知网的文献记录,这些数据包括文献的作者和作者单位等信息。作为大数据案例分析,首先要根据这些统计数据信息分析高校图书馆在构建跨学科科研机构之间合作的网络平台,其中以网络节点表示科研机构(即文献作者所在单位,高校图书馆信息采编部门将科研机构限定在中国普通高等院校与中国科学院、中国社会科学院以及与中国科研机构有合作关系的国外高校之间),网络中的边表示相应的两个节点所代表的研究机构共同发表过的文献,边的权重由对应的两个研究机构共同发表的文献数量所决定。不同的科学研究机构在合作网络上呈现一个无向图,共179个节点,779条边,即共有179个不同的研究机构,这些机构之间存在779个两两合作的关系。假设用 G=(V,E)表示研究机构合作网络。其中V表示小节点集合,E表示边的集合,其中,WVW表示图中顶点V和W之间的边数,计算边的权重,m是总边数。网络边的权重定义如下:

Wvw=∑kδkvδkw2

nk

其中:Wvw为机构,v和w之间为边的权重;nk表示论文K的不同研究机构和不同作者的单位数,当机构V在论文K中出现时,δkv等于1,否则为零。案例公式计算边的权重意义在于一篇论文对整个科研机构合作网络只贡献一个单位的边权重。这一边的权重分析合理地避免了某篇文献因为由多个科研机构合作共同发表而过高评估了该篇论文对整个机构合作网络的影响。网络数据分析见表1。

表1不同科研机构的科研合作成果权重统计表

nodelnodelweight

1首都经贸大学中国财经大学3.33333

2首都经贸大学中国人民大学3

3航空航天大学吉林大学3

4航空航天大学哈尔滨工业大学2.33333

5武汉工程大学中国地质大学4

6武汉工程大学清华大学2

7华中科技大学北京大学3.33333

8华中科技大学武汉大学5.33333

本案例的数据存放在高校图书馆的“affiliations、txt”数据硬盘内。本案例的原始数据名为dt.txt,根据以上节选部分之内容,其中每一行表示一条边,第一、二列表示网络中的节点,第三列表示网络中边的权重。下面借助软件包igraph基于dt数据构建无向图,并给出有关科研机构之间的合作在网络上呈现的基本信息。通过使用require(igraph)加载R包igraph软件以调用数据。

FN算法为: plotcg, layout=L, vertex,color=color vertex,lable=NA)

FN算法关于高校机构研究合作在网络上数据挖掘的结果见表2。

表2合作高校网络数据挖掘结果表

合作区域合作高校及科研机构名称机构数量

1.北京清华大学 北京大学 中国人民大学 北京师范大学 中国社会科学院 …20

2.东北中国科学院 哈尔滨工业大学 吉林大学 大连理工大学 吉林财经大学…26

3.华东复旦大学 南京师范大学 南京财经大学 南京农业大学 浙江大学…18

4.华南中山大学 暨南大学 华南理工大学 华南师范大学 华南农业大学…10

5.华中武汉大学 华中科技大学 华中师范大学 中南财经政法大学 中南大学…28

6.西北西北大学 西安交通大学 陕西师范大学 西安理工大学 重庆大学…17

根据网络信息数据挖掘结果继续进行数据分析,其目前最优化、最流行的方法是非负矩阵分解。非负矩阵分解有着运算速度快、可解释性强等优点而受到越来越多的高校图书馆研究部门的关注,同时非负矩阵分析技术也适用于高校图书馆馆藏电子图像存储,文本数据及文献文档归类整理等多个领域。其具体公式创建如下:

首先创建一个可以进行非负矩阵分解的函数NMF,利用该函数对合作高校及科研机构进行数据挖掘。先安装R包RColorBrewer,然后,安装每个节点的机构类别require下面的调色板, pal<-brewer.pal

crf<-color Ramp Paletter(pal,bias=1)

cols<-crf(lenght(unique(mem_nmf)))

color<-cols\[mem_nmf\]

plot(g,layout=L,vertxt.size=4,vertxt.

Color=color,vertxt,Lable=NA)

如第一个合作区域的北京主要集中在清华大学、北京大学、中国人民大学、中国社会科学院等合作高校及科研机构。第二个合作区域主要高校及科研机构分布在中国的东北三省,第三个合作区域至第五个合作区域主要是位于中国华东、华中、华南等地的高等院校,第六个合作区域是中国西北地区的大学。高校图书馆通过对合作高校及科研机构在网络上的数据挖掘结果与分析,对相应的R包“entropy”编程方式进行了说明\[5\]。大数据技术克服了不同地域的学者们和各地机构之间在物理上的距离感,高校图书馆运用大数据技术在网络上对各高校及科研机构的学术成果进行数据的深度归纳、整理、统计与计算,可以分析得出中国高校与主流科研机构之间的研究成果在互联网资源平台上资源共享与深度学术合作的大致情况,这其间,高校图书馆信息资源平台成为合作高校和科研机构合作之间的数据枢纽,为中国科研学术资源的跨地域合作提供了充分的信息技术支持。

\[参考文献\]

\[1\]姚宏宇,田溯宁.云计算大数据时代的系统工具\[M\].北京:电子工业出版社,2012:8.

\[2\]封薇.云计算环境下的数字图书馆的发展前景\[J\].图书情报工作,2012(S1):120.

\[3\]刘鹏,黄宜华,陈卫卫.实战Hadoop:开启通向云计算的捷径\[M\].北京:电子工业出版社,2011:57.

\[4\]涂子沛.大数据\[M\].桂林:广西师范大学出版社,2012:230.

上一篇:中职政治教学论文范文 下一篇:云计算理论论文范文