大数据技术范文

时间:2023-03-15 16:04:36

大数据技术

大数据技术范文第1篇

关键词:大数据 数据处理 相关技术

中图分类号:TP334 文献标识码:A 文章编号:1674-098X(2014)02(a)-0048-01

“大数据”是从英语“Big Data”一词翻译而来的,是当前IT界热议和追逐的对象,是继物联网、云计算技术后世界又一热议的信息技术,发展迅速。截至2011年年底,全球互联网总数据存储量已达100亿TB以上,并且以59%以上的年增长率递增。麦肯锡公司在2011年的报告(Bigdata:the Next FrontierforInnovation)中,对这种密集型数据爆炸的现象称为“大数据”时代的到来。大数据领域出现的许多新技术,是大数据采集、存储、处理和呈现的有力武器。

1 大数据概念

大数据概念的前身是海量数据,但两者有很大的区别。海量数据主要强调了数据量的规模,对其特性并没有特别关注。而大数据对传播速率、体积、特征等数据的各种特性进行了描述。目前对大数据最广泛的定义是:大数据是无法在一定时间内用通常的软件工具进行收集、分析、管理的大量数据的集合。大数据的特点一般用“4V”概括,即:Volume:数据量大,目前大数据的最小单位一般被认为是10~20TB的量级;Variety:数据类型多,包括了结构化、非结构化和半结构化数据;value:数据的价值密度很低;velocity:数据产生和处理的速度非常快。

2 大数据相关技术

2.1 大数据处理通用技术架构

大数据的基本处理流程与传统数据处理流程的主要区别在于:由于大数据要处理大量、非结构化的数据,所以在各个处理环节中都可以采用并行处理。目前,MapReduce等分布式处理方式已经成为大数据处理各环节的通用处理方法。

MapReduce分布式方法最先由谷歌设计并实现,包括分布式文件系统GFS、MapReduce分布式编程环境以及分布式大规模数据库管理系统Bigrable。MapReduce是一套软件框架,包括Map和Reduce两个阶段,可以进行海量数据分割、任务分解与结果汇总,从而完成海量数据的并行处理。MapReduce的工作原理是先分后合的数据处理方式。Map即“分解”,把海量数据分割成若干部分,分给多台处理器并行处理;Reduce即“合并”,把各台处理器处理后的结果进行汇总操作,以得到最终结果。用户只需要提供自己的Map函数以及Reduce函数就可以在集群上进行大规模的分布式数据处理。MapReduce将处理任务分配到不同的处理节点,因此具有更强的并行处理能力。

2.2 大数据采集

大数据的采集是指利用数据库等方式接收发自客户端(Web、App或者传感器形式等)的数据。大数据采集的主要特点是并发访问量大,因为同时有可能会有成千上万的用户来进行访问和操作,比如火车票售票网站的并发访问量在峰值时达到上百万,这时传统的数据采集工具很容易失效。大数据采集方法主要包括:系统日志采集、网络数据采集、数据库采集、其他数据采集等四种。

2.3 大数据分享

目前数据分享主要通过数据集市和开放数据平台等方法实现。开放数据平台可以提供涵盖本地服务、娱乐、教育和医疗等方方面面的数据集合,用户不但可以通过API访问,还可以很方便地通过SDK集成到移动应用当中。在线数据集市除了提供下载数据的功能外,还为用户提供上传和交流数据的场所。数据平台和数据集市不但吸引有数据需求用户,还能够吸引很多数据开发者在平台上进行开发。

2.4 大数据预处理

数据预处理就是对采集的数据进行清洗、填补、平滑、合并、规格化以及检查一致性等处理,并对数据的多种属性进行初步组织,从而为数据的存储、分析和挖掘做好准备。通常数据预处理包含三个部分:数据清理、数据集成和变换和数据规约。

2.5 大数据存储及管理

大数据需要行之有效的存储和管理,否则人们不能处理和利用数据,更不能从数据中得到有用的信息。目前,大数据的存储和管理技术主要分三类:分布式文件系统、数据仓库和非关系型数据库(NoSOL)。

2.6 大数据分析及挖掘

大数据的分析和挖掘是一种决策支持过程,它主要基于人工智能、机器学习、模式识别、数据挖掘、统计学、数据库等技术,高度自动化地分析大数据,做出归纳性的推理,从中挖掘出潜在的模式,从而在大数据中提取有用信息。大数据的分析和挖掘与传统的数据挖掘比较有两个特点:一是通常采用并行处理的方式;二是大数据分析对实时处理的要求很高,流处理等实时处理技术受到人们欢迎。常用的方法有:机器学习、数据挖掘、模式识别、统计分析、并行处理。

2.7 大数据检索

①数据库实时检索:在数据仓库或者NoSOL等大数据存储平台上,或者多个不同结构的数据存储平台之间快速、实时地查询和检索不同结构的数据。②实时搜索引擎:对互联网上的大量数据和信息进行即时、快速搜索,实现即搜即得的效果。目前各大搜索引擎都在致力于实时搜索的实现。

2.8 大数据可视化

可以提供更为清晰直观的数据感官,将错综复杂的数据和数据之间的关系,通过图片、映射关系或表格,以简单、友好、易用的图形化、智能化的形式呈现给用户供其分析使用,可通过数据访问接口或商业智能门户实现,通过直观的方式表达出来。可视化与可视分析通过交互可视界面来进行分析、推理和决策;从海量、动态、不确定甚至相互冲突的数据中整合信息,获取对复杂情景的更深层的理解;可供人们检验已有预测,探索未知信息,同时提供快速、可检验、易理解.的评估和更有效的交流手段。可视化是人们理解复杂现象,诊释复杂数据的重要手段和途径。

2.9 大数据应用

①视频搜索;②内容分析;③理赔分析;④社交网络分析;⑤社会分析;⑥社交媒体监控。

2.10 大数据安全

大数据技术的发展,使得人们能够从这些数据中观察和分析社会动态、人群的动作和行为、人群活动规律以及企业的商业秘密。海量数据本身,以及数据中蕴藏的信息涉及到国家、社会、企业和人们的隐私,这对大数据时代的信息安全提出巨大挑战。因此,大数据时代需要发展信息安全技术,确保关系到人们生活方方面面的数据和信息不会被泄漏。

大数据技术范文第2篇

关键词:大数据 数据挖掘 营销

中图分类号:F49 文献标识码:A 文章编号:1007-9416(2015)030-0209-01

近几年,大数据(big data)一词越来越多地被提及,人们用它来描述和定义信息爆炸时代产生的海量数据,并命名与之相关的技术发展与创新。2012 年3 月,奥巴马公布了美国《大数据研究和发展计划》,标志着大数据已经成为国家战略,上升为国家意志。从硅谷到北京,大数据的话题传播迅速。

1 大数据时代

随着计算机技术全面融入社会生活,经过半个多世纪的发展,信息爆炸已经积累到了一个开始引发变革的程度。它不仅使世界充斥着比以往更多的信息,而且其增长速度也在加快。最先经历信息爆炸的学科,如天文学和基因学,创造出了“大数据”这个概念。

1.1 大数据时代产生的背景

最早提出“大数据”时代到来的是全球知名咨询公司麦肯锡,麦肯锡称:“数据,已经渗透到当今每一个行业和业务职能领域,成为重要的生产因素。人们对于海量数据的挖掘和运用,预示着新一波生产率增长和消费者盈余浪潮的到来。”大规模生产、分享和应用海量数据的时代之所以能够开启,源于信息科技的进步、互联网与云计算技术和物联网的发展。

(1)信息科技的进步。信息处理、信息存储和信息传递是信息科技的三个主要支撑,存储设备性价比不断提升、网络带宽的持续增加,为大数据的存储和传播提供了物质基础。

(2)互联网与云计算技术。互联网时代,电子商务、社交网络和移动通信产生了大量结构化和非结构化的数据,以云计算为基础的信息存储、分享和挖掘手段,可以便宜、有效地将这些大量、高速、多变化的终端数据存储下来,并随时进行分析与计算。互联网领域的公司最早重视数据资产的价值,他们从大数据中淘金,并且引领着大数据的发展趋势。

(3)物联网的发展。众所周知,物联网时代所创造的数据不是互联网时代所能比拟的,而且物联网的数据是异构的、多样性的、非结构和有噪声的,最显著的特点是是它的高增长率。大数据是物联网中的关键技术,物联网对大数据技术的要求更高,它的发展离不开大数据。

1.2 大数据与数据挖掘

Google、Amazon、Facebook、Twitter,这些称霸全球互联网的企业,它们的成功都具备一个共同的因素,就是收集分析海量的各种类型的数据,并能够快速获取影响未来的信息的能力。“购买了此商品的顾客还购买了这些商品”,这恐怕是世界上最广为人知的一种商品推荐系统了,而创造出这个系统的正是Amazon。Amazon 通过分析商品的购买记录、浏览历史记录等庞大的用户行为历史数据,并与行为模式相似的其他用户的历史数据进行对照,提供出最适合的商品推荐信息。Facebook 可以为用户提供类似“也许你还认识这些人”的提示,这种提示可以准确到令人恐怖的程度,而这正是对庞大的数据进行分析而得到的结果。这种以数据分析为核心的技术就是数据挖掘(data mining)。

从技术角度看,数据挖掘是从大量的、复杂的、不规则的、随机的、模糊的数据中获取隐含的、人们事先没有发觉的、有潜在价值的信息和知识的过程。从商业角度来说,数据挖掘是从庞大的数据库中抽取、转换、分析一些潜在规律和价值,从中获取辅助商业决策的关键信息和有用知识。大数据概念的提出,将为数据挖掘技术的发展和应用带来一个很大的机遇。

2 数据挖掘

数据挖掘旨在从大数据中提取隐藏的预测性信息,用便于理解和观察的方式反映给用户,作为决策的依据。

2.1 数据挖掘原理

数据挖掘又称为数据库中的知识发现(Knowledge Diseoveryin Databases,KDD),是一个从数据库或数据仓库中发现并抽取隐含的、明显未知的、具有潜在用处的信息的过程。数据挖掘一般流程主要包括三个阶段:数据准备、数据挖掘、结果解释和评价。在数据挖掘的处理过程中,数据挖掘分析方法是最为关键的。

(1)数据准备。数据准备是从海量数据源得到数据挖掘所用的数据,将数据集成到一起的过程。由于数据收集阶段得到的数据可能有一定的污染,即数据可能存在不一致,或有缺失数据、脏数据的存在,因此需通过数据整理,对数据进行清洗及预处理。

(2)数据挖掘。是数据挖掘中最关键的一步,使用智能的方法提取数据模式,例如决策树、分类和聚类、关联规则和神经网络等。首先决定要提取什么样的模型,然后选取相应的算法参数,分析数据从而得到可能形成知识的模式模型。

(3)结果解释和评价。数据挖掘后的结果需要转换成用户能够理解的规则或模式,并根据其是否对决策问题具有实际意义进行评价。

2.2 数据挖掘技术在营销中的应用

无差别的大众媒体营销已经无法满足零和的市场环境下的竞争要求。精准营销是企业现在及未来的发展方向,在精准营销领域,最常用的数据挖掘分析方法包括分类、聚类和关联三类。

(1)关联规则。挖掘关联规则就是发现存在于大量数据集中的关联性或相关性,例如空间关联挖掘出啤酒与尿布效应;时间关联挖掘出孕婴用品与家居装修关系;时间关联挖掘出调味品、纸巾与化妆品的消费等。

此外,关联规则发现也可用于序列模式发现。序列模式发现的侧重点在于分析数据项集在时间上或序列上的前后(因果)规律,可以看作是一种特定的关联规则。例如顾客在购买了打印机后在一段时间内是否会购买墨盒。

(2)分类分析。分类是假定数据库中的每个对象属于一个预先给定的类,从而将数据库中的数据分配到给定的类中。它属于预测性模型,例如在银行业,事先定义用户的信用状况分为两类:信用好和信用坏,对于一个信用状态未知的用户,如果需要确定其信用度,可以采用“决策树”法构建一个分类模型,决策树方法着眼于从一组无次序、无规则的客户数据库中推理出决策树表现形式的分类规则。决策树的非叶子节点均是客户的一些基本特征,叶子节点是客户分类标识,由根节点至上而下,到每个叶子节点,就生成了一条规则,由该决策树可以得到很多规则,构成了一个规则集合,从而进行数据分析。

(3)聚类分析。聚类是将物理或抽象对象的集合进行分组,然后组成为由类似或相似的对象组成的多个分类的分析过程,其目的就是通过相似的方法来收集数据分类。为品牌找客户,回答品牌“谁来卖”是精准营销首先要解决的问题,科学细分客户是解决这一问题的有效手段。聚类可以将目标客户分成多个类,同一个类中的客户有很大的相似性,表现在购买行为的高度一致,不同类间的客户有很大的相异性,表现在购买行为的截然不同。

3 结语

大数据时代背景下“数据成为资产”,数据挖掘技术作为支撑精准营销的重要手段,将它应用于营销行业的决策中,不仅拓展了数据挖掘技术的应用范围,而且大数据时代的数据挖掘技术可以帮助企业获得突破性回报。

参考文献

[1]维克托・迈尔―舍恩伯格;肯尼思・库克耶.大数据时代:生活、工作与思维的大变革[M].周涛译.杭州:浙江人民出版社,2013.

[2]王伟玲.大数据产业的战略价值研究与思考.技术经济与管理研究[J],2015(1).

[3]俞立平.大数据与大数据经济学[J].中国软科学,2013(7):177-183.

[4]赵国栋.大数据时代的三大发展趋势[J].高科技与产业化,2013(5).

大数据技术范文第3篇

本文首先对大数据时代的特点进行了介绍,其次对常用的数据挖掘方法进行了阐述,最后提出了展望。

【关键词】大数据 数据挖掘 分类 聚类

大数据(Big Data),也称为海量数据,是随着计算机技术及互联网技术的高速发展而产生的独特数据现象。现代社会正以不可想象的速度产生大量数据,如网络访问,微博微信,视频图片,手机通信,网上购物……等等都在不断产生大量的数据。如何更好的利用和分析产生的数据,从而为人类使用,这是非常重要的科学研究。在大数据时代,更好的利用云计算以及数据挖掘,显得尤为重要。

1 大数据的概念

大数据,是指无法在一定时间内用常规机器和软硬件对其进行感知、获取、管理、处理和服务的数据集合。IBM将大数据的特点总结为三个V,即大量化(Volume)、多样化(Variety)和快速化(Velocity)。

即产生的数据容量大。数据主要来源如:E-mail、搜索引擎的搜索、图片、音频、视频、社交网站、微博微信、各种应用软件和app、电子商务以及电子通信等等。在实际生活中,电子商务的购物平台数量和种类越来越多,社交网站的典型facebook的数据量大的惊人,以PB计量都不够。数据存储的单位不仅仅是MB、GB等,而是使用了表示更大容量的TB、PB、EB、ZB和YB等,每个单位的关系为后者是前者的1024倍,如1PB=1024TB。同时大数据的增长速度是越来越快,如手机相机的像素数随着新款手机的出现而成倍的增长。

1.2 多样化

从数据组织形式的角度将数据分为结构化数据和非结构化数据。结构化数据,具有一定的规律,可以使用二维表结构来表示,并存储在数据库中,如高校的教务管理系统的数据、银行交易产生的数据。而非结构化数据是无法通过预先定义的数据模型表达并存储在数据库中的数据,如声音、视频和图片等等。当前非结构化数据的增长速度远远超过结构化数据。

1.3 快速化

在当前商业竞争激烈的时代,对实时的数据进行分析和处理,挖掘有用的数据信息,并用于商业运作,对于企业和组织来说非常重要。如现在网络购物会依据多数人的购物组合,分析出大部分人在购买一件物品的同时会同时购买其他的物品,从而在购物选择时给予方便,提高网购的效率,提高效益。

随着互联网技术和计算机技术的快速发展,在产生大数据的同时,人们要能够对这些数据加以利用,得到有用的信息,才是最重要的。为了让海量规模的数据能够真正发挥巨大的作用,需要将这些数据转换为有用的信息和知识,即从传统的数据统计向数据挖掘和分析进行转换。比如沃尔玛超市能够从男人购物时买啤酒的同时会购买小孩的纸尿裤这种关联,并在实际物品摆放时将这两种物品放置在一起,方便用户购物。

2 数据挖掘

随着信息技术应用的广泛,大量的数据产生并存储各个领域的信息系统中,数据呈现了爆炸式的增长。数据挖掘在这种“数据爆炸,知识匮乏”的情况下出现的。数据挖掘(Data mining)是一个多学科交叉的研究领域,它融合了数据库技术、机器学习、人工智能、知识工程和统计学等学科领域。数据挖掘在很多领域尤其是电信、银行、交通、保险和零售等商业领域得到广泛的应用。

数据挖掘也称为从数据中发现知识,具体来讲就是从大规模海量数据中抽取人们所感兴趣的非平凡的、隐含的、事先未知的和具有潜在用途的模式或者知识。

3 数据挖掘的主要研究内容

数据挖掘的任务是发现隐藏在数据中的模式,其模式分为两大类:描述型模式和预测型模式。描述型模式是对当前数据中存在的事实做规范描述,刻画当前数据的一般特性。预测型模式则是以时间为主要关键参数,对于时间序列型数据,根据其历史和当前的值去预测其未来的值。常使用的算法有:

3.1 聚类分析

聚类是将数据划分成群组的过程,根据数量本身的自然分布性质,数据变量之间存在的程度不同的相似性(亲疏关系),按照一定的准则将最相似的数据聚集成簇。主要包括划分聚类算法,层次聚类算法和密度聚类算法等。经典算法有K-Means、K-Medoids。

3.2 特性选择

特性选择是指为特定的应用在不失去数据原有价值的基础上选择最小的属性子集,去除不相关和冗余的属性。特性选择用于在建立分类模型前,或者预测模型之前,对原始数据库进行预处理。常用的算法有最小描述长度法。

3.3 特征抽取

特征抽取式数据挖掘技术的常用方法,是一个属性降维的过程,实际为变换属性,经变换了的属性或者特性,是原来属性集的线性合并,出现更小更精的一组属性。常用算法如主成分分析法、因子分析法和非负矩阵因子法等。

3.4 关联规则

关联规则挖掘是数据挖掘领域中研究最为广泛和和活跃的方法之一。最初的研究动机是针对购物篮分析问题提出的,目的是为了解决发现交易数据库中不同商品之间的联系规则。关联规则是指大量数据中项集之间的有趣关联或相关关系。常用的算法有Apriori算法。

3.5 分类和预测

分类是应用已知的一些属性数据去推测一个未知的离散型的属性数据,而这个被推测的属性数据的可取值是预先定义的。要很好的实现推测,需要事先定义一个分类模型。可用于分类的算法有决策树、朴素贝叶斯分类、神经网络、logistic回归和支持向量机等。

4 结论

随着时代的进步,数据也发生变化,具有各种各样的复杂形式。很多研究机构和个人在对结构化数据进行数据挖掘的同时,也展开了对空间数据、多媒体数据、时序数据和序列数据、文本和Web等数据进行数据挖掘和分析。同时大数据的发展促进了云计算的产生,基于云计算的数据挖掘也在迅速崛起。

参考文献

[1]刘军.大数据处理[M].北京:人民邮电出版社,2013(09).

[2]王元卓等.网络大数据:现状与展望[J].计算机学报,2013(06).

[3]申彦.大规模数据集高效数据挖掘算法研究[D].江苏大学,2013(06).

[4](加)洪松林.数据挖掘技术与工程实践[M].北京:机械工业出版社,2014.

[5]贺瑶等.基于云计算的海量数据挖掘研究[J].计算机技术与发展,2013(02).

作者简介

许凡(1996-),男,江苏省南京市人。现就读三江学院计算机科学与工程学院计算机软件工程专业本科。

孙勤红(1979-),女,山东省临沂市人。硕士研究生学历。现为三江学院计算机科学与工程学院讲师、指导教师。主要研究领域为数据挖掘。

作者单位

大数据技术范文第4篇

关键词:大数据;分布集群;高可用;高可靠

中图分类号:TP391 文献标识码:A 文章编号:1009-3044(2016)03-0019-02

1 概述

当前,互联网的发展已经进入到一个全新阶段,互联网的应用已经深入到人们的日常生活中,尤其是移动互联网技术的发展和运用已经日益成熟,传统企业都已经开始自觉地运用移动互联网技术和概念拓展新业务和方向[1]。在此背景下,大数据技术应运而生,针对大数据这一新兴概念,麦肯锡全球研究所曾给出这样的定义:一种规模大到在获取、存储、管理、分析方面大大超出了传统数据库软件工具能力范围的数据集合,具有海量的数据规模、快速的数据流转、多样的数据类型和价值密度低四大特征。

2 分布集群数据库

组成分布集群数据库系统的每台计算机可单独放在一个地方,其中每台计算机都可能保存一份数据库的完整拷贝副本,或者是部分副本,每台计算机单元具有自己局部的数据库,位于不同地点。这些计算机之间通过网络进行连接,共同组成一个完整的、全局的逻辑上集中、物理上分布的大型数据库。

在分布式集群系统中,数据库对用户来说是一个逻辑上的数据库整体,数据库的一致性、完整性及安全性都是对这一逻辑整体进行管理控制的。分布集群服务器对共享的数据进行统一的管理,但是非数据库的处理操作可以由客户机来完成。

在分布式集群系统中,通常采用外部链接技术进行数据库的远程控制。组成分布式集群的各计算机之间可以通过网络进行相互通讯,用户可以远程透明地单独访问远程各数据库单元的数据,也可以组合多个数据库的数据以满足多工作组、部门的复杂应用需求。远程数据库链接技术连接了各分散的数据库单元,逻辑的将他们组合为一个整体,从应用视图的角度来看,分布集中数据库系统就是一个整体的数据库服务系统。用户对此系统的单一逻辑的数据库访问请求都被自动分解、自动寻址、自动转换为网络请求,并在相应数据库结点上实现相应的操作请求。

分布集群数据库系统支持混合的网络拓扑结构,并采用混合的网络协议,自动地进行网络协议的转换。在分布集群数据库系统中,在保证海量数据存储的基础上,混合了高可用集群和高可靠集群,提高了数据库系统的可用性和可靠性,满足了现代互联网应用的需求。

物化视图是从一个或几个基表导出的表,同视图相比,它存储了导出表的真实数据。当基表中的数据发生变化时,物化视图所存储的数据将变得陈旧,用户可以通过手动刷新或自动刷新来对数据进行同步。物化视图包括了查询结果的数据对象,是远程数据的本地副本快照。物化视图允许你在本地维护远程数据的副本,但是只能读取这些副本[2]。

3 高可用集群

数据库高可用集群通过缓存交换技术实现,它基于同一份数据文件、但提供了多个数据库实例,即数据库服务进程。高可用性首要确保数据不丢失,数据不丢失是高可靠性的最基本的要求,是必须要保证的;其次是使数据库一直维持在正常的运行状态,确保不停机,以避免给客户造成损失。

在大数据应用环境下,数据库系统的停机分为两类,即计划性停机和非计划性停机。计划性停机一般在数据库管理软件升级、系统维护或者硬件维护的情况下进行,是有计划地安排节点或者系统的停机。非计划性停机是异常突然停机,具有不可预见性,这种情况一般是数据库管理系统缺陷或系统故障或硬件故障等[3]。

高可用集群数据库技术主要包含如下几点:

1)负载均衡技术:支持静态和动态负载均衡技术,实现系统范围内各节点负载均匀,避免出现单一节点或者部分节点负载过重而影响整体性能。

2)全局事务并发控制技术:通过高速缓存复制技术,各节点保持字典数据一致,同时能够看到全局锁和事务视图,使得能够正常实现事务的ACID特性。

3)多节点并发访问文件控制技术:由于多个节点共享同一份数据,控制好各节点对同一份数据的更新操作,避免出现错误的文件读写导致的数据不一致的问题。

4)动态增加和移除节点技术:在高可用集群环境中,能够在不中断服务的情况下,通过增加节点来提升系统性能,同时也能够在节点出现故障时,从集群中自动移除该节点,并且不影响整个集群系统对外提供服务。

4 高可靠集群

一般采用数据复制技术来保证数据库系统的高可靠性,数据复制同时也是一种分担系统访问压力、加快异地访问响应速的技术,数据复制具有物理和逻辑之分。通过将一个服务器实例上的数据变更复制到另外的服务器实例。可以用于解决大、中型应用中出现的因来自不同地域、不同部门、不同类型的数据访问、请求导致数据库服务器超负荷运行、网络阻塞、远程用户的数据响应迟缓的问题。

高可靠集群提供数据库的容灾、数据保护、故障恢复等,实现数据库快速切换与灾难性恢复。在生产数据库的保证"事务一致性"时,使用生产库的物理全备份创建备库,备库能够通过生产库传输过来的归档日志或重做条目自动维护备用数据库。

高可靠集群的数据同步技术有以下优势:

1)数据库自身内置的功能;

2)配置管理较简单,不需要熟悉其他第三方的软件产品。

3)物理Standby数据库支持任何类型的数据对象和数据类型;

4)逻辑Standby数据库处于打开状态,可以在保持数据同步的同时执行查询等操作。

5)在最大保护模式下,可确保数据的零丢失。

5 MPP技术的应用

MPP 架构采用统一的并行操作数据库引擎,将数据分散在不同的数据库节点上,在高速的内部网络环境下,对于海量数据的并发查询可极大地减少 I/O,提高查询效率。MPP 系统工作起来就像是一台单独的计算机,由于采用自动化的并行处理,在分析型数据仓库等 OLAP 应用中,查询性能比传统的单节点数据库大大提高。MPP 系统为新一代数据仓库所需的大规模数据和复杂查询提供了先进的软件级解决方案,具有业界先进的架构和高度的可靠性,能帮助企业管理好数据,使之更好地服务于企业,推动数据依赖型企业的发展。

6 大数据中的应用

基于数据库管理系统,搭建高可用、高可靠的分布集群数据库系统,结构如图 1所示。

在此环境中,高可用集群之间可搭建成主备关系,与任意高可靠集群或任意单机数据库服务器通过外部链接构成逻辑上统一的分布集群数据库系统。对于用户而言,仍然是单一的数据库服务。

单机数据库服务器、高可用集群、高可靠集群都可通过外部链接作为单独节点加入到分布集群数据库系统中,利用数据库系统的分布集群事务机制,既保留了局部数据库的自治特性,又可以作为全局分布集群系统中的一员参与到整个海量数据分析中。

解决了海量规模数据存储的问题后,针对快速的数据流转、多样的数据类型和价值密度低问题,数据库技术还实现了以下功能:

1)物化视图技术和高级复制技术解决分布集群系统中数据流转速度慢的问题。

2)支持面相对象、xml数据类型,满足数据类型多样化的需求。

3)数据挖掘技术,是决策分析技术的一个更高层次,数据挖掘技术采用人工智能的决策分析方法,按照用户既定的业务目标,对数据进行筛选,揭示其中的规律,并进一步将其模型化。

7 结束语

随着计算机技术的发展,数据库管理系统作为处理数据的核心之一,在大数据中的应用不应被忽视。因此,加强数据库新技术的研发,对于各个国家在大数据时代的信息战中都显得尤为重要。

参考文献:

[1] 齐磊.大数据分析场景下分布式数据库技术的应用[J].移动通信,2015(12):58-62.

[2] 滕健鲲,孙桂琴.数据库技术应用问题研究[J].科技致富向导,2015(15):81-81.

大数据技术范文第5篇

关键词:大数据;云计算;图模型;数据处理

中图分类号:TP311 文献标识码:A 文章编号:1009-3044(2013)22-5002-02

1 概述

随着产生数据的设备使用数量越来越多,使用范围越来越广,大量的非结构化数据每秒钟都被产生出来,比如视频、照片、社交媒体评论以及网站评述等数据都是这样的数据。这意味着越来越多的数据不能被存储在预定义的结构化表格中,相反,这类数据往往由形式自由的文本、日期、数字适时组成。某些数据源生成速度非常快,甚至来不及分析就进行存储。这也是无法单纯依靠传统数据管理和分析工具来存储、管理、处理和分析大数据的原因。为了从这些大数据中获取和分析特定的需求信息,就需要对大数据的技术进行研究。

2 大数据介绍

大数据近几年来新出现的一个名词,它相比传统的数据描述,有自己的四个特性[1],分别是:Volume(大的数据量)、Velocity(输入和处理速度快)、Variety(数据多种多样)、Veracity(真实有价值)。因此,大数据需要新的处理模式来取代传统的数据处理方法,它同时包含数据量巨大和快速的处理速度两层含义。

云计算是一种大数据的处理技术平台,综合了各种资源之后提供一些虚拟技术服务。这样的方式可以很大程度降低用户维护、处理、使用数据以及其他计算资源的成本。数据单位已不再是用GB,TB能够满足的描述需要,而是步入了PB级别的时代。传统的数据存储方式已经不能满足这些数据的存储和处理,只有依托云平台存储技术的方式来解决这个当前已经面临的问题。

3 大数据技术分析

3.1 大数据的处理方式

大数据的处理方式大致分为数据流处理方式和批量数据处理方式两种。

数据流处理的方式适合用于对实时性要求比较高的场合之中。并不需要等待所有的数据都有了之后再进行处理,而是有一点数据就处理一点,更多地要求机器的处理器有较快速的性能以及拥有比较大的主存储器容量,对辅助存储器的要求反而不高。

批量数据处理方式是对整个要处理的数据进行切割划分成小的数据块,之后对其进行处理。重点在于把大化小——把划分的小块数据形成小任务分别单独进行处理,并且形成小任务的过程中不时进行数据传输之后计算,而是将计算方法(通常是计算函数——映射并化简)作用到这些数据块最终得到结果。

3.2 大数据技术模型

大数据的技术模型目前主要研究的是图1的模型。

图1是一种描述复杂关系的数据结构,它并不像线性链表和树那样看上去结构简单和清晰,但它能描述一些更为错综复杂的层次和关系。对实际关系的描述使用范围和频率都更多更广。采用一些数学方法和算法工具来对图进行处理,是处理大数据的一个前提。存储图结构数据的时候一般选用邻接矩阵或邻接表的方式来进行,这在数据结构这门学科里面已经有所研究。图的两个顶点之间用边进行连接,这个可以看作网络结构里面,相邻两个节点之间有传输消息的通路。一个复杂的网络结构对应出来的也是复杂的图结构,处理的时候需要将该图进行分割处理,采用分而治之的办法来解决问题。

如果节点A和B之间的所有通路都被C阻塞了,就意味着C有向分割了A和B,即A和B在给定条件C时独立。

这种方法就降低了条件限制的复杂性,有效地将问题利用数学模型求解出来。

3.3 大数据处理系统应用

开源是现在很多大型国际IT公司倡导的服务方式,这个理念拥有很多拥护者。虽然它最初的出现和商业搭不上边,但已为具有现展理念的国际大型商业IT公司所接受,他们所认同的是面向服务的开源,进而出现了新的经济增长方式。

目前有一些较为前沿的公司已经研发开源的大数据处理技术,比较典型的是推特研发的Storm系统和谷歌研发的MapReduce模型。前者是以数据流方式进行数据处理而后者是采用批量数据的处理方式。

MapReduce是目前用得比较多的方法,其核心思想就是两个步骤:Map和Reduce。Map过程就是一个映射过程,完成这一步之后再对其进行Reduce过程处理,也即是精简的过程。最后将处理的最终结果进行输出。

3.4 大数据技术发展趋势

传统的关系型数据库和新兴的数据处理技术目前是并存状态,它们之间将来会相互学习,相互渗透,相互影响,互相融合,最终形成对数据分析有利的格局,能够更好地为大数据处理服务,从庞大巨量的数据当中找到需要的数据并对之进行处理、分析乃至决策。

4 结束语

大数据是当今越来越多的数据源每分每秒不断产生新数据后的一个产物,对他它的研究和利用是紧迫的事情。目前研究的一些大数据技术都有其优缺点,技术种类也不是很多,还处于一个上升的阶段。研究大数据的处理、分析、利用技术和方法,对今后这一分支的发展起到关键性的作用,对后来的科技产品乃至我们的日常生活都会带来巨大的影响。

参考文献:

[1] Grobelink M.Big-data computing: Creating revolutionary breakthroughs in commerce, science, and society[R/OL].2012.10.02. http:///eswc2012_grobelink_big_data/

[2] 戎翔,李玲娟.基于MapReduce的频繁项集挖掘方法[J].西安邮电学院学报,2011(4).

[3] 钱进,苗夺谦,张泽华.云计算环境下知识约简算法[J].计算机学报,2011,34(12):2332-2343.

[4] 李珺.基于Hadoop云计算模型探究[J].信息安全与技术,2011(6).

大数据技术范文第6篇

关键词: 大数据; 4V特征; Hadoop; 云计算

中图分类号:TP391 文献标志码:A 文章编号:1006-8228(2015)01-13-02

Overview on big data technology

Yang Jing

(Department of Computer Science, Yunyang Teachers' College, Shiyan, Hubei 442000, China)

Abstract: Big data is a new technical wave after the network of things and cloud computing. To understand big data technology, the definition and 4V characteristics, the key technologies and main application fields are systematically analyzed in the paper. Through the introduction of the basic conception, characteristics, the main application fields with typical cases are summarized. The core technologies, key strategies of cloud computing, hadoop and data backup are analyzed. The potential information safety risks are pointed out. The countermeasures are given to provide some suggestions and references for wider application and study in the future.

Key words: big data; 4V characteristics; Hadoop; cloud computing

0 引言

物联网、云计算等新兴技术的迅速发展开启了大数据时代的帷幕。大数据技术是指从各种各样的海量数据中,快速获取有价值信息的技术,大数据的核心问题就是大数据技术。目前所说的“大数据”不仅指数据本身的规模大,还包括采集数据的工具、平台和数据分析系统复杂程度大。大数据的研发目的是发展大数据技术并将其应用到相关领域,解决实际生产、生活中的各种问题,从而推动信息技术健康地可持续发展。

1 大数据的定义及主要特征

与其他新兴学科一样,目前大数据没有一个统一的标准和定义。一般认为:大数据是由大量异构数据组成的数据集合,可以应用合理的数学算法或工具从中找出有价值的信息,并为人们带来经济及社会效益的一门新兴学科。大数据又被称为海量数据、大资料、巨量数据等,指的是所涉及的数据量规模巨大,以至于无法在合理时间内通过人工攫取、管理、处理并整理成为人类所能解读的信息。这些数据来自方方面面,比如社交网络、传感器采集、安防监控视频、购物交易记录等。尽管尚无统一定义,但这些无比庞大的数据被称为大数据。大数据具有如下4V特性[1]:

⑴ 体量Volume,是指数据存储量大,计算量大;

⑵ 多样Variety,是指大数据的异构和多样性,比如数据来源丰富,数据格式包括多种不同形式,如网络日志、音频、视频、图片、地理位置信息等等;

⑶ 价值Value,是指大数据价值密度相对较低,信息海量,但是要挖掘出真正有价值的数据难度较大,浪里淘沙却又弥足珍贵;

⑷ 速度Velocity,是指数据增长速度快,处理速度要求快。

2 大数据技术的应用领域

通过对海量数据进行采集、分析与处理,挖掘出潜藏在数据海洋里的稀疏但却弥足珍贵的信息,大数据技术正在对经济建设、医疗教育、科学研究等领域产生着革命性的影响,其所带来的巨大使用价值正逐渐被各行各业的人们所感知。

2.1 金融领域

大数据的火热应用突出体现在金融业,各大互联网企业(谷歌、阿里巴巴等)纷纷掘金大数据,开创了新的互联网金融模式。目前阿里巴巴的互联网金融做得如火如荼:基金、小额信贷、余额宝和理财保险产品等等,阿里巴巴之所以能够做火金融服务,其主要原因就在于阿里的大数据,阿里巴巴的电商平台存储了大量微小企业客户及数以亿计的个人用户行为信息、交易记录、身份数据等,拥有最好、最全的数据以及最完整的产业链,做P2P及个人小额信贷,具有最大优势[2]。相反,传统商业银行早期就已推出的小额信贷业务,开展得并不十分顺利。

2.2 市场营销

今天的数字化营销与传统市场营销最大的区别就在于精准定位及个性化。如今企业与客户的交流渠道发生了革命性的变化,从过去的电话及邮件,发展到今天的博客、论坛、社交媒体账户等,从这些五花八门的渠道里跟踪客户,将他们的每一次点击、加好友、收藏、转发、分享等行为纳入到企业的销售漏斗中并转化成一项巨大的潜在价值,就是所谓的360度客户视角。例如谷歌的销售策略主要着眼于在线的免费软件,用户使用这些软件时,无形中就把个人的喜好、消费习惯等重要信息提交给了谷歌,因此谷歌的产品线越丰富,他们对用户的理解就越深入,其广告定位就越精准,广告所攫取的价值就越高,这是正向的循环。

2.3 公众服务

大数据的另一大应用领域是公众服务。如今数据挖掘已经能够预测海啸、地震、疾病暴发,理解交通模型并改善医疗和教育等。例如,可采用神经网络和基于地震时间序列的支持向量机方法来预测地震的大概方位、时间、震级大小等重要信息,为通用地震模拟程序提供关键的数据,从而对地震进行早期预警,以使防震抗灾部门可以提前做好应对措施,避免大量的人员伤亡及财产损失;再如,将各个省市的城镇医疗系统、新农村合作医疗系统等全部整合起来,建立通用的电子病历等基础数据库,实现医院之间对病患信息的共享,提高患者就医效率[3];电力管理系统通过记录人们的用电行为信息(做饭、照明、取暖等),大数据智能电网就能实现优化电的生产、分配及电网安全检测与控制,包括大灾难预警与处理、供电与电力调度决策支持和更准确的用电量预测等,并通过数据挖掘技术找出可行的节能降耗措施,以实现更科学的电力需求分配管理。

2.4 安防领域

安防领域中最重要的就是视频监控系统,从早期看得见到现在看得远、看得清,视频监控是典型的数据依赖型业务,依赖数据说话。尤其是高清、超高清监控时代的到来,会产生巨量的视频数据。这些巨量视频监控数据中,多数是冗余无用的,只有少数是关键数据,如何剔除这些无用数据,一直是人们研究问题的焦点。在大数据技术的支撑下,通过对巨量视频数据的分析与处理,可实现模糊查询、精准定位、快速检索等,能够对高清监控视频画质进行细节分析,智能挖掘出类似行为及特征的数据,从而为业务分析和事件决策判断提供精准依据。

3 大数据处理关键技术

3.1 数据备份技术

在大数据时代,如何做好数据的安全备份至关重要。数据备份是数据容灾的前提,具体是指当出现某种突发状况导致存储系统中的文件、数据、片段丢失或者严重损坏时,系统可准确而快速地将数据进行恢复的技术。数据容灾备份是为防止偶发事件而采取的一种数据保护手段,其核心工作是数据恢复,根本目的是数据资源再利用。

3.2 Hadoop

大数据时代对于数据分析、管理等都提出了更高层次的要求,传统的关系型数据库和数据分析处理技术已经不能满足大数据横向扩展的需求。为了给大数据处理、分析提供一个性能更好、可靠性更高的平台,Apache基金会开发了一个开源平台Hadoop[4],该平台用Java语言编写,可移植性强,现在Hadoop已经发展为一个包括HDFS(分布式文件系统 )、HBase(分布式数据库)等功能模块在内的完整生态系统,成为目前主流的大数据应用平台。

3.3 云计算

如果把各种各样的大数据应用比作在公路上行驶的各种汽车,那么支撑这些汽车快速运行的高速公路就是云计算,云计算是大数据分析处理技术的核心。正是由于云计算在海量信息存储、分析及管理方面的技术支持,大数据才有了如此广阔的用武之地。谷歌的各种大数据处理技术和应用平台都是基于云计算,最典型的就是以UFS(UIT云存储系统)、MapReduce(批处理技术)、BigTable(分布式数据库)为代表的大数据处理技术以及在此基础上产生的开源数据处理平台Hadoop[5]。

4 大数据应用带来的信息安全隐患及应对策略

大数据时代,海量数据通常存储在大规模分布式的网络节点中,管理相对分散,而且系统也无法控制用户进行数据交易的场所,因此很难辨别用户的身份(合法及非法用户),容易导致不合法用户篡改或窃取信息;此外,大数据存储系统中包含了海量的个人用户隐私数据及各种行为的记录信息,如何在大数据的挖掘利用中确定一个信息保护和开放的尺度, 是大数据面临的又一难题。为了合理利用大数据并有效规避风险,我们提出以下四点建议:

⑴ 国家出台相关政策,加强顶层设计,保障数据存储安全;

⑵ 增强网络安全防护能力,抵御网络犯罪,确保网络信息安全;

⑶ 提高警惕积极探索,加大个人隐私数据保护力度;

⑷ 深化云计算安全领域研究,保障云端数据安全。

5 结束语

在当今信息知识爆炸的时代,大数据技术已经被广泛应用于商业金融、电力医疗、教育科研等领域。随着数据挖掘技术的不断进步,相关信息行业竞相从规模庞大、结构复杂的大数据海洋中攫取更多有价值的数据信息用于分析、解决现实生活中的各种实际问题,从而实现信息技术的快速健康发展。本文梳理了大数据的基本概念及4V特征,总结归纳了大数据技术的四大热门应用领域及三大核心处理技术,分析了大数据技术带来的诸如信息窃取及篡改、个人隐私数据泄露等信息安全隐患,并提出了相应的解决措施及建议。当然,目前大数据技术的研究尚处在起步阶段,还有许多深层次的问题亟待解决,如大数据的存储管理是通过硬件的简单升级还是通过系统的重新设计来解决,大数据4V特征中起关键作用的是什么,大数据技术的应用前景是什么,等等。就目前来看,未来大数据技术的研究之路还很长,需要我们用更加敏锐的洞察力来分析和研究。

参考文献:

[1] BARWICK H. The "four Vs" of big data. Implementing Information

Infrastructure Symposium[EB/OL]. [2012-10-02]. http://.au/article/396198/iiis_four_vs_big_data/.

[2] 韦雪琼,杨哗,史超.大数据发展下的金融市场新生态[Jl.时代金融,

2012.7:173-174

[3] 张敬谊,佘盼,肖筱华.基于云计算的区域医疗信息化服务平台的研

究[J].计算机科学,2013.40(10):360-365

[4] Hadoop [EB/OL].[2012-10-02].http://hadoop.apache.orq.

大数据技术范文第7篇

关键词:大数据;云计算;网格计算;MapReduce

中图分类号: C35 文献标识码: A

一、大数据

大数据(BigData),是随着计算机技术及互联网技术的高速发展而产生的独特数据现象,通常来说,凡是数据量超过一定大小,导致常规软件无法在一个可接受的时间范围内完成对其抓取、管理和处理工作的数据即可称为大数据,包括互联网上的网页数据、社交网站上的用户交互数据、物联网中产生的活动数据等。大数据除了具有大容量、多类型和高时效等基本特征外,还具有一些区别于传统数据源的重要特征。

大数据通常是由机器自动生成的。在新数据的产生过程中,并不会涉及人工参与,它们完全由机器自动生成,例如:引擎中内置的传感器,即使没有人触摸或下达指令,它也会自动地生成关于周围环境的数据。

大数据通常是一种全新的数据源。例如:通过互联网,顾客与商家进行在线交易,对顾客来说只是多了一种不同的交易渠道,这种交易和传统的交易方式并没有本质上的差别,但对商家来说通过对顾客在线交易时的浏览行为进行收集,产生了一种本质上全新的数据。

很多大数据的设计并不友好。例如:对于社交媒体网站上的文本流,用户不一定会使用标准的语法或语序,当信息时,可以获得这些数据,但对这些数据的处理却不那么容易。

大数据可能并不蕴含大量的价值。传统数据源在定义之初,要求所有的数据都是有用的,主要是由于当时的可扩展性的限制,如今,存储空间已不再是主要的瓶颈,因此,大数据会收集所有可能使用到的信息,例如:一篇网页日志中会含有非常重要的数据,但其中也包含了很多没有价值的数据,对其进行提炼,从而保留有价值的部分是非常必要的。

二、驾驭大数据的几种技术

1、海量并行处理系统

大数据时代的到来,传统的数据处理方式已经不能满足海量数据处理的实时性与实效性要求,海量并行处理系统(MPP)适应了大数据时代的要求。MPP架构由多个对称多处理器结构SMP服务器(每个SMP服务器称为一个节点)通过节点互联网络进行连接,每个节点只访问自己的本地资源,协同工作,完成相同的任务[4]。MPP数据库会把一个任务数据切分成不同的独立数据块,利用独立存储与CPU资源进行管理,把数据分配到不同的磁盘空间和不同的CPU单元。

例如:对于一张1T的数据表,传统的数据库在同一时间只能查询一行,如果是一个拥有10个处理单元的MPP系统,它可以把这个1T的数据表切分成10份,每份100GB数据,并分配给不同的处理单元,也就是在同一时间可以同时查询10份100GB的数据。如果需要更强大的分析能力和更快的分析速度,只要增加更多的处理单元,系统能力就会得到提高。

MPP服务器架构的并行处理能力比SMP更适合于大数据时代下的复杂的数据综合分析与处理环境,它需要借助于支持MPP技术的关系数据库系统来屏蔽节点之间负载平衡与调度的复杂性。

2、云计算

云计算是硬件资源的虚拟化,大数据是云计算处理的数据之源,大数据的指数级增长使得数据的提取、存储、处理、管理以及分析具有较高的复杂性,因此,大数据对云计算环境有着很高的依赖。

云计算是融合诸如网格计算、分布式计算、并行计算、内存计算、虚拟化等传统计算机和网络技术发展起来的产物,通过将计算任务分布在大量的分布式计算机上,形成类网状的服务器集群。云计算具有较强的可扩展性,高效的交互处理能力,可以实现根据任务自由地分配资源,用户按照需求访问存储空间和服务器集群,从而大大地提高了计算能力,并降低了用户对客户端的要求,大数据的出现,为云计算提供了发展空间,云计算作为计算资源的底层,支撑着上层的大数据处理。目前较多运用云计算平台(Hadoop)架构和Mapreduce模式组合应用处理海量数据,Hadoop是云计算平台的架构,Mapreduce是一种处理海量数据的模式方法,在Hadoop架构体系中运用了Mapreduce并行编程计算模式处理海量的数据,提高了大数据分析的性能。

3、网格计算

某些计算过程与算法无法全部转换成SQL,或者难以嵌入数据库的某个自定义函数中。在这种情况下,必须把数据从传统的分析环境中抽取出来,然后用传统的分析工具和软件进行分析,随着分析师越来越多,以及分析任务越来越繁重,必须对这些服务器进行扩容或者增加更多的服务器,这些都是相当昂贵的,网格配置可以降低系统成本并提高性能,它使用大量的低成本计算机,而不是一台或几台高性能的服务器。网格计算并不是只使用一台大型服务器来管理执行不同任务的CPU和资源,相反地,不同任务被独立地分配给不同的计算机,并让每一台计算机并发执行。每一台计算机也许都会承担原有服务器的某一部分任务,同一时间一台计算机通常只能执行一项任务,因此,网格计算这种系统机制在提升系统性能和容量的同时,可以显著地降低系统的总体成本。

网格计算还有一个刚出现不久的创新,即高性能的分析架构,在这个架构中,网格计算环境下的不同计算机都知道其他计算机的存在,并且不同计算机可以共享信息。这种协作方式,在同一时间充分使用了网格计算环境下的所有计算资源,使得某些大型任务可以更快地完成。

4、MapReduce

MapReduce是谷歌提出的一个使用简易的软件框架,用于大规模数据集的并行运算,基于它写出来的应用程序能够运行在由上千个普通机器组成的大型集群上,并以一种可靠容错的方式并行处理上太级别的数据集。

MapReduce里内置了两个主要的处理过程:映射过程“map”和归纳过程“reduce”,MapReduce会在一系列的工作结点上并发执行这些处理过程,这类似于MPP系统,MapReduce将复杂的运行于大规模集群上的并行计算过程抽象为两个函数(map和reduce),执行时先指定一个map函数,把输入对映射成一组新的对,经过一定处理后交给reduce,reduce对相同key下的所有value处理后再输出对作为最终结果。与MPP系统的区别在于:MapReduce里的节点之间不会发生信息交互。它把一个任务分解成许多小任务,它们相互独立运行,如图2所示。

图2MapReduce处理过程

分析师可以创建一个映射程序来搜索并分析文本记录中的每一个词语,然后将这些词语从段落中解析出来;当每个工作节点都执行完映射程序,调度程序就会得到通知,之后,每个归纳节点的归纳程序开始汇总计算每个词语出现的频率,然后标上这个词语出现的次数统计,映射程序的输出结果就是词语与计数的组合。例如,网站的在线客服人员与客户交流的大量文本记录被不断地导入系统中,归纳程序的输出物可能是“,”“,”“,”,这里的数字表明这个词语在文章中出现的总次数,获得了词语的出现次数后,分析师就开始工作了,一些特定产品的名称,以及像“坏了”之类的词语都将被识别出来并进行重点研究,原来大段文字的文本数据经过处理后转换成了一种简单的格式,便于人们进行分析。许多大型的数据流都包含了大量没有长期价值的信息,部署在云端的弹性MapReduce可以根据需求实时地按需配置和访问服务器集群,实现对大量和密集型数据任务的处理,比如日志文件分析、数据挖掘等。

结束语

近年来,大数据如雨后春笋般地出现在各行各业中,如何适当地使用大数据已经成为人们研究的热点,研究人员积极地去收集和分析这些新的数据源,并深入了解这些新数据源带来的新信息。大数据的世界需要更高层次的可扩展性,随着数据量持续增长,原有的数据处理方式已无法应对现有的数据量,在大数据处理、分析与应用的不同层面中,有很多技术可以使用,本文对处理大数据的几种重要技术进行了分析。

参考文献

[1]刘畅.大数据及可信技术初探[J].软件工程师,2014,12:11-13.

[2]李振元,李宝聚,王泽一.大数据技术对我国电网未来发展的影响研究[J].吉林电力,2014,01:10-13.

大数据技术范文第8篇

2.1 大数据数据库的特点

传统的关系数据库,从其创立至现在,长期占据数据库的绝对统治地位。但是,数据挖掘、商业智能和可视化技术的发展,特别是它们处理非结构化数据的能力,动摇了传统数据库的牢固地位。于是善于处理非结构化数据的种种数据库工具大量产生,这其中必须优先提及的便是NoSQL(意为Not Only SQL)及NewSQL(意为New SQL)两大数据库阵营。

现在随着大数据时代的到来,由Carlo Strozzi开创的NoSQL以其技术上的先进性、方便性得到了越来越多的认可。NoSQL改变了数据的定义范围,其“数据类型”可以是文本、图片、影像、网页,也可以是整个文件;NoSQL数据库是非关系式的、数据间的关系更加复杂、多样,类型和相互关系具有多种扩展可能、存储方式也多采用分布式结构。经过十多年的发展,NoSQL取得了成功,采用NoSQL技术的产品也不断增长,目前NoSQL网站上()已经收集了150余个相关产品,人们也把采用类似NoSQL结构和原理的数据库统称为NoSQL数据库。

最初NoSQL有意排斥关系数据库的ACID规则和SQL特性(后发现其弱点又在一定程度和一定范围内支持数据的一致性要求和SQL特性)。NoSQL坚持分布式领域的CAP理论,CAP的含义为:

Consistency,一致性。数据一致更新,所有节点访问同一份最新的数据副本;

Availability,可用性。对数据更新具备高可用性;

Partition tolerance,分区容错性。能容忍网络分区。

CAP理论主张任何基于网络的数据共享系统,都最多只能拥有以下三条中的两条。而这种“三取二”的法则以及具体理解与执行的争论就一直存在。想同时满足三者,或者过分强化割舍三者之间联系均会破坏数据系统的效率和效果。32岁便获得加州大学伯克利分校终身教授的Eric Brewer提出了BASE理论(Basically Available, Soft state, Eventually consistent;基本可用、软状态、最终一致性),它用一种更注重可用性、更便于理解的方式解释分布式系统的特点。

NewSQL注意到关系数据库的灵活性不足、数据库互锁机制效率低下的特点,同时也意识到NoSQL不支持SQL所带来的不便,它采用了一种近似折中的方案,既支持SQL并保证一定程度的数据一致性,同时也提供NoSQL数据库的非关系数据处理的扩展功能,因而从产生之初便受到业界的喜爱,相关产品不断涌现。NoSQL和NewSQL常见产品及其分类情况如图所示。

2.2 NoSQL及其发展趋势

在NoSQL潮流中,最重要的莫过于Apache基金会的Hadoop。它是一个领导者,是一个典型的分布式文件系统,是一个开源系统。用户可以在不了解分布式底层细节的情况下,借助Hadoop开发分布式程序,它取得了成功,成为分布式数据处理界的巨兽(Hadoop的Logo就是只大象)。 现在甚至出来了“无分布不Hadoop”——每个传统的数据库提供商都急切地声明支持Hadoop。关系数据库的传统霸主Oracle公司也将Hadoop集成到自己的NoSQL数据库中,Microsoft、Sybase、IBM也加入了收纳Hadoop功能的竞赛中。

第二位领导者,MongoDB,是一个成功的文档处理型数据库系统,它被称为“非关系式数据库中最像关系式数据库的产品”。MongoDB查询功能强大,特别适合高性能的Web数据处理。

Cassandra是这个领域中的一个另类产品,它兼有键值数据库和列值数据库两者的长处,它的查询功能很优秀。虽然运行Cassandra集群难度较高,但它升级后的分析能力使得很多人感到惊讶。

Redis也是相当好的一个产品。对故障恢复的良好支持以及使用Lua的服务器端脚本语言是明显区别于其他软件之处。使用Lua确实带来了一些震动,因为更多的人喜欢和习惯JavaScript服务器端语言。但是,Lua是一个整洁的语言,它并为Redis开启了潘多拉盒子。

CouchBase在可扩展性和其他潜在因素,使其看起来是一个很好的选择,尽管Facebook以及Zynga面临着关键开发者离开的风波。CouchDB会变得更好抑或相反?只要数据库做得好受众就会欢迎,现在看来,它确实做的很好。

还需要提及的是Riak,在功能性和监控方面它也有了巨大的提升。在稳定性方面,它继续得到大家的赞美:“像巨石一般稳定、可靠且不显眼……”。Riak 数据模块化方面做得很有特色。

在图中,涉及了多个维度:关系型的与非关系型的、分析型的或操作型的、NoSQL类型与NewSQL类型的。最后的两个分类中,对于NoSQL有著名的子分类“键值类数据库、文档数据库、图存数据库和列存数据库。对于NewSQL本已建立“存储引擎、簇享数据、云服务”等类别。

最初,NoSQL破坏并引以为荣的特点是它不满足ACID(原子性、一致性、隔离性和持久性),这是它的优点,也是其问题所在。据美国Forrester的统计数据,在企业中的业务数据将有25%是结构化数据。无论是传统企业,还是引领技术潮流的大型网络公司,其数据库体系中都不可避免的共存着传统的结构化数据(如用户的标准信息,数据库元数据信息等),也存在着图片、视频、文档或网页等非结构化数据,所以关系数据库与NoSQL数据库并存将是数据库技术发展的基本面。另一方面,关系数据库、NoSQL和NewSQL都充分认识到了对方的长处和客户需求,每一个新数据处理技术都在“拼命地集成”其他范围数据库中的特性。NewSQL系统实现NoSQL的核心特性,而NoSQL越来越多地试图实现“传统”数据库的功能如支持SQL或在一定范围内“有保留地支持ACID,至少是可配置的持久化机制”。

大数据技术范文第9篇

看到这个案例你或许会认为,只要拥有一定的大数据分析、挖掘技术,就可以提高利润、节省成本。可事实远非这么简单。

大数据技术的进步之快,与传统的数据分析相比,就好比是喷汽式飞机与独轮车的差距。如果管理者没有足够的判断力和领导素养,该项新技术所带来的风险可能远远大于收益。

仔细研究塔吉特的“怀孕指标”之后我们发现,领导力在该项目当中发挥的作用远比技术工具来得关键:

以一定的收益风险管理为导向 很久以前,早在上

世纪八十年代,塔吉特就通过研究发现,消费者很少会因为商家的广告或者优惠券改变自己的购物习惯,选择不熟悉的品牌。只有当重大事件发生时,比如结婚、搬家或者生小孩,这一规律才会被打破。

没有这项理论做前提,塔吉特的“怀孕指标”项目就毫无意义。

合理的样本和模型很重要 建立一个数据模型需

要明确的样本和评估数据,这就需要对客户有足够的洞察。

在塔吉特的案例里,他们使用婴儿用品的购买记录作为样本,以此为基础来建构一个数据模型,分析更大量的数据记录。

理解信息的价值所在 需要仔细评估从最理想的数据中能够得到的商业结果,对比数据收集、分析的过程和最终得到的结果,来判断精确的分析是否值得。

例如,在塔吉特,可以根据“怀孕指标”,将准确率为80%的数据和准确率为90%的数据进行对比,以找到投入产出的最佳结合点,形成最优化的数据模型。

而且数据分析是持续不断的过程,而非一个阶段性的项目或者事件。只有这样,才能够分析找到推送优惠广告的最佳对象和方式,从而改善整个商业模式。

需要厘清伦理和隐私的边界 有些时候,人们可能会觉得自己被关注得太多了。为了减轻这种疑虑,塔吉特会在发送的婴儿用品优惠信息中夹杂一些诸如割草机一类的产品广告,以便看起来不那么像有针对性的监视。

大数据技术范文第10篇

关键词:云计算;云存储

1 什么是云存储

云存储是在云计算概念上延伸和发展的一个新的概念,是指通过集群应用、网络技术或分布式文件系统等功能,将网络中大量各种不同类型的存储设备通过应用软件集合起来协同工作,共同对外提供数据存储和业务访问功能的一个系统。当云计算系统运算和处理的核心是大量数据的存储管理时,云计算系统中就需要配置大量的存储设备,那么,云计算系统就转变成为一个云存储系统,所以云存储是一个以数据存储和管理为核心的云计算系统。

2 云存储分类

按照服务对象可以把云存储分类如下:

(1) 公共云存储。公共云存储可以以低成本提供大量的文件存储。供应商可以保持每个客户的存储、应用都是独立的、私有的,公共云存储可以划出一部分来用作私有云存储。

(2) 私有云存储。通过私有云存储,一个公司可以拥有或控制基础架构,以及应用的部署。私有云存储可以部署在企业数据中心或相同地点的设施上。私有云可以由公司自己的IT部门管理,也可以由服务供应商管理。

相比传统存储模式,云存储的租购模式显得更加灵活方便,其实,企业自己构建一个数据中心需要购买硬件等必备设施及复杂多变的维护管理。

(3) 混合云存储。这种云存储把公共云和私有云结合在一起。主要用于按客户要求的访问,特别是需要临时配置容量的时候。

从公共云上划出一部分容量配置一种私有云,可以帮助公司面对迅速增长的负载波动或高峰时很有帮助。

尽管如此,混合云存储带来了跨公共云和私有云分配应用的复杂性。

3 云存储具有的优势

作为大数据时代的云存储技术,与传统存储技术相比,具有如下明显优势:

(1) 灵活方便。对于中小企业或个人用户,完全可以将数据的创建与维护委托给云服务提供商,而只是租用云服务提供商的服务即可,用户不必考虑存储容量、存储设备类型、数据存储位置,以及更多的关于数据的可用性、可靠性和安全性等繁杂的技术层面。避免了购买硬件设备及技术维护而投入的精力,节省下来的大量时间可以用于更多的工作业务发展。

(2) 成本低廉。就目前来说,企业在数据存储上所付出的成本相当大,因为企业要建立一套存储系统不仅需要购买硬件等基础设施,同时,系统维护还需要专门的人员,企业的存储空间及管理费用都面临巨大挑战,企业必须更新或增加各种数据存储和管理设备,而且还要负担逐渐高涨的管理成本。

为了减少这种成本压力,好多企业将大部分数据迁移至云存储上,所有的升级、维护等管理任务均由云存储服务提供商来完成。因此,可以将数据存储与管理的成本降到最低,同时,还能获得最优良的数据存储服务。

(3) 量身定制。随着大数据的到来,传统的存储模式已不再适用企业的数据存储,企业急需一种新的存储方式来满足企业数据存储的个性化需求。

私有云即可满足企业这一个性化需求。云服务提供商可以专门为企业客户提供一种量身定制的云存储服务解决方案,也可以由企业自己的IT机构部署一套私有云服务架构。企业不仅可以得到最优质的个性化服务,还能在一定程度上降低安全风险。

4 云存储发展需要考虑的主要问题

由于云存储具有传统数据存储模式不具备的诸多优势,越来越多的中小企业正在将自己的数据中心逐渐转移至云端。而大型企业除了租用公共云存储服务以外,也开始着手建立自己的私有云存储数据中心。但是,云存储仍处于快速发展阶段,云存储要想得到广泛应用,还有待进一步完善和改进。

(1) 安全问题。数据存储在云计算中心,安全问题始终是用户最为关注的问题。

用户的敏感信息和个人隐私数据如何才能保证其具有安全性和私密性,云存储服务提供商应根据分布式文件中可能存在的安全威胁和安全需求,来制定相应的安全策略,以便在计算机中实施相应的保护机制,确保用户数据避免丢失或被窃。

(2) 可靠性问题。可靠性是数据存储系统最基本也是最关键的一项指标。

数据的备份复制是云存储管理中心必须考虑的问题,而且数据的备份复制可以大大提高云存储系统的可靠性和性能,同时能够增强系统的容错能力。如果云存储数据遭到破坏,云存储服务提供商应该能够快速全面地恢复数据,确保用户数据的完整性。

5 结束语

云存储不仅仅是存储,更多的是应用,是云计算时代的一场存储革命,随着云存储的安全性、可靠性、实用性等存储技术的不断成熟,人们对存储技术的认识不断提高,云存储成本的不断降低,一定会形成一个安全可靠、实用快速的云数据存储与访问系统。云存储必将广泛应用于各行各业,云存储必然是未来数据存储的发展趋势。

参考文献

[1]互动百科./wiki/云存储.

[2]百度百科. / view /

2044736.htm·pid=baike.box.

上一篇:数据库设计范文 下一篇:人口普查数据范文