云中的大数据

时间:2022-10-04 09:41:57

云中的大数据

摘 要:本文首先解释大数据分析背后的基本概念,然后重点介绍使用大数据的应用程序,以及如何将这些概念与商业智能(BI)应用程序和并行技术相结合。文中深入剖析了大数据应用服务所采用的非结构化数据的搜索、分析和机器学习等关键元素。

关键词:大数据;存储;云

中图分类号:TP311.13

1 定义大数据

从广义上来说,大数据可定义为采集、管理和分析得到的超出典型结构化数据范围的数据,这些数据可通过关系数据库管理系统查询。而查询来源常常是非结构化文件、数字视频、图像、传感器数据、日志文件,以及几乎未包含在具有明显可搜索字段的记录中的任何数据。从某种意义上说,非结构化数据是一种有趣的数据,但如果不与结构化数据相关联,则难以合成到BI中或从中得出结论。

大数据是云的固有特性,为使用传统、结构化的数据库信息,以及对社交网络、传感器网络数据及不那么结构化的多媒体执行业务分析提供了前所未有的机会。大数据应用程序需要一种以数据为中心的计算架构,许多解决方案都包含基于云的API,用于与高级的列式搜索、机器学习算法及高级分析配合使用。

2 数据速度、数据量、种类及真实性

2.1 数据量。除了大量的非结构化数据,大数据还拥有新的来源,比如机器生成的文件(日志文件或传感器网络)、移动设备,以及机器到机器传输的数据。IBM估计,现在全球用户每天会在互联网中创建2.5万兆字节的数据。

2.2 速度及种类。由于网络带宽增大,数据传输速率也在不断增长。第三是种类,现在包含更多非结构化数据类型,比如数字视频流和传感器数据,以及日志文件。

2.3 数据的真实性。用户越来越需要依赖这些高速收集的大量数据而制定关键决策,因此,对数据的信任程度需求也越来越高。实际上,确信数据没有假冒,没有损坏或来自预期的来源并不容易。比如,数据可能来自数千个安全照相机中的一个,每个照相机每小时生成数千帧视频。

3 大数据的来源及持久性

大数据的产生主要源于移动设备的进步,这些设备现在包含数字视频、照片、音频和高级的电子邮件及文本特性。用户收集的数据量比10年前多得多。同样,Google Translate等新型应用程序提供了大数据服务器的新特性,即向移动设备说出或键入的短语的自然语言翻译。在2013年的全球技术展望中,IBM认为大数据受移动优先战略的推动,而且移动设备正在用更多的新技术通过数据量、种类、速度和真实性来描绘大数据。这些数据自然远远没有关系数据库记录那么结构化,但可与这些数据相关联。

有趣的是,大部分数据永远不会被人类查阅。考虑到这一点,使用如此多数据的惟一合理的方式是,对大数据执行机器到机器的自动化或智能查询。而且,如果长期保存这么多的数据,人们如何知道是否有部分数据已损坏?当然,我们可以存储数据摘要,并使用独立磁盘冗余阵列,但仍然不能避免数据可能遭受的静默损坏。总体来讲,大数据的真实性是一大挑战,但纠删码和先进的数据摘要方法表现出了巨大潜力。XOR RAID或简单镜像等传统方法正被RAID-6和更高级的纠删码取代。这些传统方法在存储设备发生故障时仅提供了针对数据丢失的单一故障保护,不会处理由软件缺陷、数据中心操作员错误或媒体故障导致的不易察觉的损坏。大数据的数据持久性概念已变得非常重要。对于如此多的数据,人们检查它的真实性的想法完全行不通,而且只有在很久以后最终查询或访问这些数据时,才会注意到这些数据已丢失。

4 大数据系统设计

数据是一种资产,越来越多地被政府和企业用于制定重要决策,但如果数据的真实性未知,那么数据的价值就会下降或者甚至可能失去―或者更糟的情况是做出错误决策。用于大规模数据保护的架构应包含对以下方面的防御:丢失、静默损坏、恶意软件,以及网络罪犯或通过网络战争对数据执行的恶意修改。

更好地理解大数据的一种方式是,更详细地分析一些拥有足够数据的云网站和供应用程序使用的查询工具。大部分人都经常使用Google查询,但Google还提供了BigQuery,这个工具使用了更复杂的列式存储和搜索。其他著名的示例包括Facebook(社交网络)、Wikipedia(常识采集)、Internet Archive(数字数据管理机构)、DigitalGlobe(地理信息系统[GIS])、Microsoft Virtual Earth、Google Earth和许多新的大数据服务提供商。

公司拥有内部的大数据,在私有云系统上也拥有大数据。许多大数据系统对用户查询都是只读模式(从机器生成的来源采集),但如果它们允许更新数据库或非结构化数据,则可能包含使用密码短语的强身份验证,这就需要用户通过移动电话文本消息确认代码来进行身份验证,使用图形质询来验证人类的数据输入,或许在未来更多地使用生物学身份验证。

5 大数据应用程序

人们每天都在为CV和视频分析构思杀手级应用程序,但由于计算需求或实现成本的制约,一些应用程序需要好多年才能实现。尽管如此,笔者依然能列举以下应用程序的列表:(1)Google Trends的股票市场态度分析,能与历史指数的下降和上升建立良好的关联,它作为一种大数据应用还具有更重要的意义。使用态度分析来制定长期和短期的股票购买和销售决策,可能胜过简单的买入并持有战略和指数型基金投资。(2)Google的Picasa照片排序是一个很有用的工具,允许用户排序、查询,以及结合使用CV技术和机器学习来自动识别面部。(3)Pandora(音乐)、Netflix(影片)和Amazon(图书和产品)等推荐系统在一种称为协作式过滤的方法中使用客户数据和多个。这项大数据服务已成为机器学习和数据挖掘领域的更高级的研究主题。(4)客户群分析可将社交网络数据与从传统的客户交易记录收集的BI相关联,并基于此文本数据而提供客户的态度分析。态度分析使企业能够知道客户对其产品的想法,他们对该企业或竞争对手的兴趣,以及他们喜欢什么和不喜欢什么等。(5)医疗诊断常常包含基于规则的专家决策支持系统(DSS),但借助大数据,有证据表明这些系统可能完全脱离于研究,并成为主流的医疗助手。例如,协助对患者的自杀风险进行客观心理评估的新DSS已在研究中展现出了前景。证明这些系统的价值一种方式是,将它们与历史数据对比:这些系统不会取代人类的决策,还在用作支持工具时有可能改善决策。

这绝不是大数据应用的全部,而列式查询、非结构化数据分析、MapReduce以及大数据可视化和推理等应用仅仅是大数据技术的入门级别。

6 大数据应用的隐私考虑因素

如果公司、政府和组织仔细地收集、分析和使用大数据,那么带给公众的价值将显而易见。如果滥用大数据分析功能,就将失去公众信任,而且价值也会丢失。用户的态度必须是自愿提供的,许多价值都源于知道人们对它们所交互对象的感觉、他们所处的位置,或者他们在查阅的内容。就现在而言,照相机、录音或电子邮件数据挖掘的使用应高度关注隐私问题,并在某种程度上保持用户的信任和信心。

7 大数据的未来

本文分析了大数据的价值,还提供了真实性改进建议,以及处理数据的量、种类和速度的概念。迄今为止的经验表明,横向扩展、高级数据持久性方法的使用、用于集群的高速网络合并,以及MapReduce和列式搜索等横向扩展算法,表现出了有效处理大数据的巨大潜力。但是,由于数据的量增多、速度增快和种类增多,未考虑的问题已成为新的问题。过去,在磁盘驱动器和网络的位错误率远低于通过它们或存储在它们之上的字节数时,这些问题不太受关注。因此,如今的大数据架构师必须更加聪明,不但要保护数据的真实性和价值,还要设计使这些数据可以访问且有用的服务,因为数据量已大大超出了人们每天检查的能力。

参考文献:

[1]王涛,邵国强.基于云计算的大数据分析[J].福建电脑,2007.

作者简介:刘(1980-),女,河南郑州人,讲师,硕士,研究方向:网络技术。

作者单位:河南工程学院,郑州 451191

上一篇:数据挖掘技术与关联规则挖掘算法及其应用 下一篇:信息管理系统安全技术研究