大数据技术初探

时间:2022-05-19 05:48:00

大数据技术初探

摘 要:大数据是继物联网、云计算技术后世界又一热议的信息技术,这种密集型数据爆炸现象的出现,标志着“大数据”时代的到来。文章介绍了大数据的概念,分析阐述了大数据相关技术。

关键词:大数据 数据处理 相关技术

中图分类号:TP334 文献标识码:A 文章编号:1674-098X(2014)02(a)-0048-01

“大数据”是从英语“Big Data”一词翻译而来的,是当前IT界热议和追逐的对象,是继物联网、云计算技术后世界又一热议的信息技术,发展迅速。截至2011年年底,全球互联网总数据存储量已达100亿TB以上,并且以59%以上的年增长率递增。麦肯锡公司在2011年的报告(Bigdata:the Next FrontierforInnovation)中,对这种密集型数据爆炸的现象称为“大数据”时代的到来。大数据领域出现的许多新技术,是大数据采集、存储、处理和呈现的有力武器。

1 大数据概念

大数据概念的前身是海量数据,但两者有很大的区别。海量数据主要强调了数据量的规模,对其特性并没有特别关注。而大数据对传播速率、体积、特征等数据的各种特性进行了描述。目前对大数据最广泛的定义是:大数据是无法在一定时间内用通常的软件工具进行收集、分析、管理的大量数据的集合。大数据的特点一般用“4V”概括,即:Volume:数据量大,目前大数据的最小单位一般被认为是10~20TB的量级;Variety:数据类型多,包括了结构化、非结构化和半结构化数据;value:数据的价值密度很低;velocity:数据产生和处理的速度非常快。

2 大数据相关技术

2.1 大数据处理通用技术架构

大数据的基本处理流程与传统数据处理流程的主要区别在于:由于大数据要处理大量、非结构化的数据,所以在各个处理环节中都可以采用并行处理。目前,MapReduce等分布式处理方式已经成为大数据处理各环节的通用处理方法。

MapReduce分布式方法最先由谷歌设计并实现,包括分布式文件系统GFS、MapReduce分布式编程环境以及分布式大规模数据库管理系统Bigrable。MapReduce是一套软件框架,包括Map和Reduce两个阶段,可以进行海量数据分割、任务分解与结果汇总,从而完成海量数据的并行处理。MapReduce的工作原理是先分后合的数据处理方式。Map即“分解”,把海量数据分割成若干部分,分给多台处理器并行处理;Reduce即“合并”,把各台处理器处理后的结果进行汇总操作,以得到最终结果。用户只需要提供自己的Map函数以及Reduce函数就可以在集群上进行大规模的分布式数据处理。MapReduce将处理任务分配到不同的处理节点,因此具有更强的并行处理能力。

2.2 大数据采集

大数据的采集是指利用数据库等方式接收发自客户端(Web、App或者传感器形式等)的数据。大数据采集的主要特点是并发访问量大,因为同时有可能会有成千上万的用户来进行访问和操作,比如火车票售票网站的并发访问量在峰值时达到上百万,这时传统的数据采集工具很容易失效。大数据采集方法主要包括:系统日志采集、网络数据采集、数据库采集、其他数据采集等四种。

2.3 大数据分享

目前数据分享主要通过数据集市和开放数据平台等方法实现。开放数据平台可以提供涵盖本地服务、娱乐、教育和医疗等方方面面的数据集合,用户不但可以通过API访问,还可以很方便地通过SDK集成到移动应用当中。在线数据集市除了提供下载数据的功能外,还为用户提供上传和交流数据的场所。数据平台和数据集市不但吸引有数据需求用户,还能够吸引很多数据开发者在平台上进行开发。

2.4 大数据预处理

数据预处理就是对采集的数据进行清洗、填补、平滑、合并、规格化以及检查一致性等处理,并对数据的多种属性进行初步组织,从而为数据的存储、分析和挖掘做好准备。通常数据预处理包含三个部分:数据清理、数据集成和变换和数据规约。

2.5 大数据存储及管理

大数据需要行之有效的存储和管理,否则人们不能处理和利用数据,更不能从数据中得到有用的信息。目前,大数据的存储和管理技术主要分三类:分布式文件系统、数据仓库和非关系型数据库(NoSOL)。

2.6 大数据分析及挖掘

大数据的分析和挖掘是一种决策支持过程,它主要基于人工智能、机器学习、模式识别、数据挖掘、统计学、数据库等技术,高度自动化地分析大数据,做出归纳性的推理,从中挖掘出潜在的模式,从而在大数据中提取有用信息。大数据的分析和挖掘与传统的数据挖掘比较有两个特点:一是通常采用并行处理的方式;二是大数据分析对实时处理的要求很高,流处理等实时处理技术受到人们欢迎。常用的方法有:机器学习、数据挖掘、模式识别、统计分析、并行处理。

2.7 大数据检索

①数据库实时检索:在数据仓库或者NoSOL等大数据存储平台上,或者多个不同结构的数据存储平台之间快速、实时地查询和检索不同结构的数据。②实时搜索引擎:对互联网上的大量数据和信息进行即时、快速搜索,实现即搜即得的效果。目前各大搜索引擎都在致力于实时搜索的实现。

2.8 大数据可视化

可以提供更为清晰直观的数据感官,将错综复杂的数据和数据之间的关系,通过图片、映射关系或表格,以简单、友好、易用的图形化、智能化的形式呈现给用户供其分析使用,可通过数据访问接口或商业智能门户实现,通过直观的方式表达出来。可视化与可视分析通过交互可视界面来进行分析、推理和决策;从海量、动态、不确定甚至相互冲突的数据中整合信息,获取对复杂情景的更深层的理解;可供人们检验已有预测,探索未知信息,同时提供快速、可检验、易理解.的评估和更有效的交流手段。可视化是人们理解复杂现象,诊释复杂数据的重要手段和途径。

2.9 大数据应用

①视频搜索;②内容分析;③理赔分析;④社交网络分析;⑤社会分析;⑥社交媒体监控。

2.10 大数据安全

大数据技术的发展,使得人们能够从这些数据中观察和分析社会动态、人群的动作和行为、人群活动规律以及企业的商业秘密。海量数据本身,以及数据中蕴藏的信息涉及到国家、社会、企业和人们的隐私,这对大数据时代的信息安全提出巨大挑战。因此,大数据时代需要发展信息安全技术,确保关系到人们生活方方面面的数据和信息不会被泄漏。

目前除了传统的信息安全方法外,大数据领域还有安全基础设施、安全数据仓库等。此外,一些数据库安全管理软件能够对不同操作系统上运行的异构关系型数据库进行实时监控,一些大型安全数据库能够对与商务数据结合在一起的数据进行预防性的分析,以便识别钓鱼攻击,防止诈骗和阻止黑客入侵。

上一篇:重塑英菲尼迪 下一篇:留学生回国后