大数据浅析

时间:2022-10-25 02:57:11

大数据浅析

【摘 要】本文分析了大数据的定义与特征,在此基础上探讨了大数据的获取与表示方法,以及大数据的存储与管理方式。

【关键词】大数据;数据表示;大数据存储

1 大数据

大数据是用传统方法或工具很难处理或分析的数据信息[1]。随着时代变化,除了企业数据,我们还记录着地理、气温、Web网页等各种数据,庞大纷杂的信息构成了大数据。关于大数据的定义,目前主要有如下几种。亚马逊大数据科学家John Rauser认为:大数据是“任何超过一台计算机处理能力的庞大数据量。”Informatica中国区首席产品顾问但彬认为“大数据=海量数据+复杂类型的数据”[2]。维基百科则把大数据定义为一个一个大而复杂的、难以用现有数据库管理工具处理的数据集。

2 大数据特征

2.1 数据体量巨大(Volume)

大数据通常指l0TB规模以上的数据量。之所以产生如此巨大的数据量,一是各种仪器的使用,能够感知更多的数据,这些数据的部分甚至全部就可以被存储;二是通信工具的使用,使人们能够全时段的联系,M2M方式使得交流的数据量成倍增长;三是集成电路价格降低,很多东西都有了智能的成分。

2.2 数据种类繁多(Variety)

随着传感器种类的增多以及智能设备、社交网络的流行,数据类型也变得更加复杂,不仅包括传统的关系数据类型,也包括以网页、音频、视频、E-mail、文档等形式存在的未加工的、半结构化的和非结构化的数据。

2.3 流动速度快(Velocity)

我们通常理解的是数据的获取、存储以及挖掘有效信息的速度,但我们现在处理的数据是 PB级代替了TB级,考虑到“超大规模数据”和“海量数据”也有规模大的特点,大数据强调数据是快速动态变化的,形成流式数据是大数据的重要特征,数据流动的速度快到难以用传统的系统去处理。

2.4 价值密度低(Value)

数据量呈指数增长的同时,隐藏在海量数据的有用信息却没有相应比例增长,反而使我们获取有用信息的难度加大。以视频为例,连续的监控视频,可能有用的数据仅有一两秒。

3 大数据的获取与数据表示

大数据包含的信息具有规模大、实时变化、分布性、异构性以及特殊访问方式等特点,为充分利用数据资源,获取高质量的数据并集成,整个集成过程可以分为数据获取、数据抽取和数据整合三个环节。

3.1 大数据获取

一部分大数据通过传感器、智能手机或通过传统搜索引擎从静态页面爬取到;另一部分大数据隐藏在数据库提供的查询界面后,只有通过提交查询才能获得,高质量的数据往往来源于此。

3.2 大数据抽取――清洗与提炼

由于现实世界数据的异质性、多源性以及采集数据时很难避免的人工错误,大数据是冗余、缺失和含有噪音的。如何有效地衡量数据的质量是一个重要的研究方向。文献[3]定义了衡量数据质量的4个指标:一致性、正确性、完整性和最小性。文献[4]提出了数据工程中数据质量的需求分析和模型,认为存在很多候选的数据质量衡量指标,用户应根据应用的需求选择其中一部分。

数据的清洗建立在数据质量标准之上,为了得到高质量的数据,清洗与提炼过程必须满足几个条件:检测并除去数据中所有明显的错误和不一致;尽可能地减小人工干预和用户的编程工作量,而且要容易扩展到其它数据源;应该和数据转化工作相结合;要有相应的描述语言来指定数据转化和数据清洗操作,所有这些操作应该在一个统一的框架下完成。对于数据清洗,工业界已经开发了很多数据抽取、转化和装载工具(ETL tool)[5]。

3.3 大数据整合

对大数据的建模和表达理论方而的研究,主要集中在大数据中的文本信息方面。对文本信息进行表示和建模其目的是让计算机能够正确理解人类的语言,能够分析和表达出其中包含的语义信息。文本信息的表达经历了从浅层词语表达方式到深层语义表达方式这样一个历程,其中代表性的工作包括了向量空间表示[6]、隐语义索引[7]和概率话题模型[8]等。

尽管数据表达的研究历经了很长的时间并取得了丰硕成果,但是对于大数据建模和表达还是面临着很多挑战。例如:对于海量文本数据建模,我们需要模型能够对超大规模的参数空间进行有效地学习,需要能够有效地建模并解决数据稀疏性所带来的问题,需要能够对动态演化的网络大数据进行合理表达的模型工具。对于图片和多媒体数据,我们也需要进一步探索其建模与表达方式,以便能够更加有效地表达其内在的语义信息。

4 大数据的存储与管理

大数据处理的数据规模从TB级上升到ZB级,而临着如何降低数据存储成本、充分利用计算资源、提高并发吞吐率、支持分布式非线性迭代算法优化等众多难题。

4.1 分布式大数据存储

作为一个新兴的技术体系,分布式数据处理技术在支持大规模数据处理及应用等大数据计算应用方而还存在着很多不足。

行存储和列存储是两种典型的数据库物理存储策略。行存储较为传统,它在磁盘中依次保存记录,适合事务操作;列存储垂直划分关系表,以列为单位存储数据。由于数据分析任务往往仅使用较少字段,因此列存储方式的效率更高。数据分析任务在大数据应用中更为常见,因此许多系统尽管无法完全实现列存储的所有特性,但也或多或少地借鉴了相关概念,包括BigTable、HBase等。

分布式数据存储是大数据应用的一个重要环节,但目前的研究工作仍存在局限性:针对海量数据存储和处理所而临的数据超大规模、处理速度要求高和数据结构异质多样等难题,需要开发支持高可扩展、深度处理的ZB级以上分布式数据存储框架,同时需要研究适应数据布局分布的存储结构优化方法,以提高大数据存储和处理效率,降低系统建设成本,从而实现高效的大数据分布式存储。

4.2 大数据的高效索引

目前,主流的查询索引技术是Google公司的BigTable为代表的列簇式NoSQL数据库。BigTable提出了一种介于关系模型和键-值对模型之间的新数据模型:Ordered Table。该模型提供一种稀疏的、分布式的、永久存储的、基于主键排序的映射,数据由行、列和时间戳表示。BigTable中表的模式非常灵活,可以在运行时修改。Ordered Table模型可以对基于主键的区间查询提供有力支持,对于涉及多个字段数据的多维区间查询主要采用二级索引技术,但这引起了性能问题。

为避免大量随机读,另一种思路是使用聚簇索引,即同时按索引顺序存储全部数据。为保证多个查询列均有很好的性能,需要按多个索引列聚簇,这会导致空间开销成倍增长,以及统计信息缺失。

4.3 大数据的数据世系管理

数据世系包含了不同数据源间的数据演化过程和相同数据源内部数据的演化过程。数据世系一般有两类基本方法,非注解的方法和基于注解的方法。

数据世系可针对多种数据类型,包括关系型数据、XML型数据和不确定型数据等。而对大数据,数据世系管理的研究工作主要涉及以下几个方面:(1)追踪数据的起源和演化过程;(2)利用数据的世系追踪数据不确定性的来源和演化过程;(3)如何解决异构世系标准的融合问题。

【参考文献】

[1]Making sense of Big Data[J]. Technology forecast, A quarterly journal, 2010.

[2]但彬.大数据=海量数据+复杂类型的数据[EB/OL].2012,7.

[3]Wang R Y, Ben H B, Madnick S E. Data quality require menu analysis and modeling[C]//Proceedings of the 9th International Conference on Data Engineering. Vienna, Austria 1993:670-677.

[4]Galhardas H, Florescu D, Shasha D,Simon E, AJAX: An extensible data cleaning tool[J]. ACM SIGMOD Record. 2000,29(2):590.

[5]郭志懋,周傲英.数据质量和数据清洗研究综述[J].软件学报,2002,13(11):2076-2082.

[6]Fan Wenlei, Geerts Floris. Foundation of management[J]. Synthesis Lectures on data Management. 2012,4(5):391-217.

[7]Deerwester S, Dumais S T, Furnas G W, et al. Indexing by latent semantic analysis[J]. Journal of the American Society for Information Science, 1990,41(6):391-407.

[8]Blei D M, Ng A Y, Jordan M I. Latent dirichlet allocation[J]. Journal of Machine Learning Research, 2003,3(1):993-1022

[9]王元卓,靳小龙,程学旗.网络大数据:现状与展望[J].计算机学报,2013,36(6):1125-1138.

上一篇:国际化背景下大学生思想特点及变化规律的研究 下一篇:J2EE课程整体教学改革