大数据时代:Hadoop和云并非最好选择

时间:2022-09-25 02:13:36

大数据时代:Hadoop和云并非最好选择

Toigo Partners International的最主要的合作伙伴Jon Toigo针对大数据环境下的最佳实践方法发表自己的看法, 在Toigo与网站编辑助理Sarah Wilson就大数据环境下的存储市场变革进行讨论的过程中,他认为,如今出现的越来越多的诸如Hadoop、“云”之类的东西,并不是大数据环境下最好的实践方法。

存储最终会更集成更共享

Jon Toigo认为在大数据时代,存储市场出现了两种不同的趋势。

其一是Hadoop与大数据已密不可分,出现了Hadoop集群。由此,业界基本上抛弃了共享存储――SAN(存储区域网络)和NAS(网络附加存储),更倾向于使用直连存储(DAS),尤其是使用闪存的DAS。

比如,IBM存储部门的主管们推崇基于闪存的存储,因此,他们直连到集群上作为大数据分析的数据存储介质。因为他们“认为闪存是所有存储的未来。”

对于这是否为解决问题的最佳方案,Jon Toigo没有发表定论,但他认为这样会花掉一大笔钱。因为闪存的DAS使得存储架构回退到1999年以前的样子,它再次引入了几十年前存在的两个问题:忽略了存储孤岛上的数据保护问题,使得人们将不得不进行节点间的复制以确定存储孤岛间提供保护所需要的带宽。

“然而,考虑到存储销售额放缓的一般趋势,这样做的确会使相关厂商卖出更多的设备,这是业内人士希望看到的。” Jon Toigo说。

另外一种趋势是以整体的视角看待大数据时代下的存储市场,Jon Toigo认为现在的一些存储实践方式可能会引发客户不满,“过去十年里我们一直在部署共享存储,部署光纤通道架构。我们跟随着科技进步的方向,无论是用InfiniBand或SAS或者下一代新技术。为什么我们要花十年把这些搭起来,然后又把他们分开拆掉?”在Jon Toigo看来,这样做是没有什么意义的。

Jon Toigo认为,像DataCore Software公司那样,或者一些使用SAN卷控制器的IBM的产品那样,以及有些人试着对存储做虚拟化从而向服务器提供虚拟卷使得就像这些服务器直连了存储那样的做法会更有意义,因为这能整体地管理与存储相关的所有设备。Jon Toigo认为在这方面还有很多事情要做,而且最终业界会到达后一种模型,而不是把存储分开,为服务器添加直连存储。

云不是托管大数据的最佳位置

Jon Toigo认为自己不是一个典型的云技术推崇者,

而对于在大数据环境下另一个更流行的选择――云,Jon Toigo对它目前的发展有些迷惑。虽然业界很多人认为基于大数据的云存储可能是云发展过程中较好的模型之一――应用于云的可持续业务模型,即为承载大量特定类型的数据进行定制的云。

Jon Toigo说,一开始他跟业界大多数人一样,认为由云服务提供商来搭建一个大数据,省下买基础设施的步骤,对不想去花大笔钱来买支持Hadoop的基础设施的公司是有意义的,因为很多公司Hadoop上的业务分析项目可能只用一回,或者频率很低。

不过在IBM公司的Jeff Jonas,给他提出了不同的观点。Jeff Joans说:定位云中的数据需要大量时间,访问云中的数据需要付费带宽,与数据和云相关的初始安全问题、弹性问题,以及一些云运维其他方面问题,导致云不是托管大数据分析所需数据的最佳位置。

Jon Toigo补充说,即使托大点考虑,假设这些问题中一部分可以解决,那么,客户是否会把自己的数据上传到云中?他认为大概不会,因为现阶段还无法避免的存在着一个问题,那就是云服务提供商受制于这样一个事实:对于连接到客户工场的网络,提供商并无所有权。因此也无法保证其服务质量。

而且把数据存储在云中,客户很难相信这样的信息会是安全的。如果采用某种形式的单向散列并去掉数据中的私人信息,客户可能对其安全性没什么可担心的。但是对于其业务流程、商业交易、财务信息、信用卡信息等,客户基本上不会把它们置于云端。

Hadoop使数据保护变复杂

对大数据与Hadoop的看法,Jon Toigo一分为二:从灾难恢复的角度来看,大数据可以提供更优质的信息和更好的基础设施管理以规避风险。另一方面,从数据保护的角度来看,像Hadoop这样的基础设施,会把客户的生活弄得复杂。

Jon Toigo解释说,Hadoop模型基本上抛弃了共享存储,它部署于独立的节点和直连存储形式之上,于是面临一个巨大的问题就是如何对数据进行副本和保护。这是一个重要问题。

他以一个已使用VMware的客户为例,因为VMware与传统共享存储无法很好的协作。VMware需要客户做的就是,解除其SAN配置,以直连方式将存储部署到集群中的每个VMware服务器。

这样就导致了一个问题,即,客户必须依赖后端的副本策略和节点间镜像,而实际上这个镜像是没有人去做检查的。将一个镜像关闭是一件痛苦的事情:使应用进入静默状态,将缓存中的数据刷到磁盘上,并将数据复制到二级镜像,然后关闭整个操作,进行文件级比对,然后交叉手指祈祷好运并进行重启,希望不会遇到未正常同步的解决能力之外的问题。因此,没有人会去检查镜像。这便是构建在Hadoop架构之上的大数据方案的“阿喀琉斯之踵”。

Jon Toigo最后的结论是:使用大数据分析建立模型和监控存储基础设施,客户将获得一大堆的“各种信息”,诸如磁盘的smart技术和各种管理存储组件的基本管理器――实时或主动的关联这些信息并定位问题,实际上就能够避免很多灾难的发生。

上一篇:努力提高政治素质 做廉洁从业的模范 下一篇:强化项目管理思维