大数据技术应用研究

时间:2022-10-23 04:11:37

大数据技术应用研究

摘要:对大数据的产生背景和来源作出了介绍,分析了大数据处理的技术,提出了可以采用的数学模型,阐述了大数据处理系统的应用,最后对其未来的发展做出了思考。

关键词:大数据;云计算;图模型;数据处理

中图分类号:TP311 文献标识码:A 文章编号:1009-3044(2013)22-5002-02

1 概述

随着产生数据的设备使用数量越来越多,使用范围越来越广,大量的非结构化数据每秒钟都被产生出来,比如视频、照片、社交媒体评论以及网站评述等数据都是这样的数据。这意味着越来越多的数据不能被存储在预定义的结构化表格中,相反,这类数据往往由形式自由的文本、日期、数字适时组成。某些数据源生成速度非常快,甚至来不及分析就进行存储。这也是无法单纯依靠传统数据管理和分析工具来存储、管理、处理和分析大数据的原因。为了从这些大数据中获取和分析特定的需求信息,就需要对大数据的技术进行研究。

2 大数据介绍

大数据近几年来新出现的一个名词,它相比传统的数据描述,有自己的四个特性[1],分别是:Volume(大的数据量)、Velocity(输入和处理速度快)、Variety(数据多种多样)、Veracity(真实有价值)。因此,大数据需要新的处理模式来取代传统的数据处理方法,它同时包含数据量巨大和快速的处理速度两层含义。

云计算是一种大数据的处理技术平台,综合了各种资源之后提供一些虚拟技术服务。这样的方式可以很大程度降低用户维护、处理、使用数据以及其他计算资源的成本。数据单位已不再是用GB,TB能够满足的描述需要,而是步入了PB级别的时代。传统的数据存储方式已经不能满足这些数据的存储和处理,只有依托云平台存储技术的方式来解决这个当前已经面临的问题。

3 大数据技术分析

3.1 大数据的处理方式

大数据的处理方式大致分为数据流处理方式和批量数据处理方式两种。

数据流处理的方式适合用于对实时性要求比较高的场合之中。并不需要等待所有的数据都有了之后再进行处理,而是有一点数据就处理一点,更多地要求机器的处理器有较快速的性能以及拥有比较大的主存储器容量,对辅助存储器的要求反而不高。

批量数据处理方式是对整个要处理的数据进行切割划分成小的数据块,之后对其进行处理。重点在于把大化小——把划分的小块数据形成小任务分别单独进行处理,并且形成小任务的过程中不时进行数据传输之后计算,而是将计算方法(通常是计算函数——映射并化简)作用到这些数据块最终得到结果。

3.2 大数据技术模型

大数据的技术模型目前主要研究的是图1的模型。

图1是一种描述复杂关系的数据结构,它并不像线性链表和树那样看上去结构简单和清晰,但它能描述一些更为错综复杂的层次和关系。对实际关系的描述使用范围和频率都更多更广。采用一些数学方法和算法工具来对图进行处理,是处理大数据的一个前提。存储图结构数据的时候一般选用邻接矩阵或邻接表的方式来进行,这在数据结构这门学科里面已经有所研究。图的两个顶点之间用边进行连接,这个可以看作网络结构里面,相邻两个节点之间有传输消息的通路。一个复杂的网络结构对应出来的也是复杂的图结构,处理的时候需要将该图进行分割处理,采用分而治之的办法来解决问题。

如果节点A和B之间的所有通路都被C阻塞了,就意味着C有向分割了A和B,即A和B在给定条件C时独立。

这种方法就降低了条件限制的复杂性,有效地将问题利用数学模型求解出来。

3.3 大数据处理系统应用

开源是现在很多大型国际IT公司倡导的服务方式,这个理念拥有很多拥护者。虽然它最初的出现和商业搭不上边,但已为具有现展理念的国际大型商业IT公司所接受,他们所认同的是面向服务的开源,进而出现了新的经济增长方式。

目前有一些较为前沿的公司已经研发开源的大数据处理技术,比较典型的是推特研发的Storm系统和谷歌研发的MapReduce模型。前者是以数据流方式进行数据处理而后者是采用批量数据的处理方式。

MapReduce是目前用得比较多的方法,其核心思想就是两个步骤:Map和Reduce。Map过程就是一个映射过程,完成这一步之后再对其进行Reduce过程处理,也即是精简的过程。最后将处理的最终结果进行输出。

3.4 大数据技术发展趋势

传统的关系型数据库和新兴的数据处理技术目前是并存状态,它们之间将来会相互学习,相互渗透,相互影响,互相融合,最终形成对数据分析有利的格局,能够更好地为大数据处理服务,从庞大巨量的数据当中找到需要的数据并对之进行处理、分析乃至决策。

4 结束语

大数据是当今越来越多的数据源每分每秒不断产生新数据后的一个产物,对他它的研究和利用是紧迫的事情。目前研究的一些大数据技术都有其优缺点,技术种类也不是很多,还处于一个上升的阶段。研究大数据的处理、分析、利用技术和方法,对今后这一分支的发展起到关键性的作用,对后来的科技产品乃至我们的日常生活都会带来巨大的影响。

参考文献:

[1] Grobelink M.Big-data computing: Creating revolutionary breakthroughs in commerce, science, and society[R/OL].2012.10.02. http:///eswc2012_grobelink_big_data/

[2] 戎翔,李玲娟.基于MapReduce的频繁项集挖掘方法[J].西安邮电学院学报,2011(4).

[3] 钱进,苗夺谦,张泽华.云计算环境下知识约简算法[J].计算机学报,2011,34(12):2332-2343.

[4] 李珺.基于Hadoop云计算模型探究[J].信息安全与技术,2011(6).

[5] 林佳烨.云计算在电信行业数据分析领域的应用[J].移动通信,2011(8).

上一篇:基于ASP.NET的数字图书馆网站设计与实现 下一篇:格式化字符串攻击检测算法