基于HDFS的云技术信息资源整合研究

时间:2022-10-09 12:03:20

基于HDFS的云技术信息资源整合研究

摘 要 随着互联网的飞速发展,人们对信息资源的需求也是日益剧增。于是云计算、云存储等云技术的出现,不断的提出各种新型的信息资源整合方案。其中基于Hadoop (HDFS)的分布式云计算/云存储节构的出现,有效的支撑了信息资源整合的不断优化,其关键所在是如何构建一个低成本、高效率、安全性高的分布式的信息资源整合方案。

关键词 HDFS;云计算;云存储;信息整合

中图分类号:TP333 文献标识码:A 文章编号:1671-7597(2013)18-0051-02

1 研究背景

面临当前社会信息资源的不断增长,海量数据资源也需要不断的整合,这已经成为当前信息资源整合界一个不争的事实。虽然信息资源整合存在的多种问题,比如:互联网信息资源分布不均、信息资源维护成本高、信息共享程度差和信息资源安全问题日益突出。这一系列的问题的解决方案都需要优先处理信息资源存储问题,这样才能有效、高效率的进行信息资源整合。目前在业界提出了云存储技术,就是解决这个问题的首选方案。

2 HDFS概念

HDFS:即Hadoop文件系统(Hadoop Distributed File System),它是被设计成适合运行在通用硬件(commodity hardware)上的分布式文件系统。它和现有的分布式文件系统有很多共同点。但同时,它和其他的分布式文件系统的区别也是很明显的。HDFS是一个高度容错性的系统,适合部署在廉价的机器上。HDFS能提供高吞吐量的数据访问,非常适合大规模数据集上的应用。

HDFS与现有的文件系统相比,有很多相同的地方,但也尤其优势之处。如:在处理高容错性上,HDFS可以部署在硬件要求较低的基础之上;在处理高吞吐量的应用上,也是以流传输的方式来进行信息资源文件的访问。因此,各大公司都在进行着自己的HDFS产品的开发,比如:微软的“Windows Live Sky Drive”,谷歌公司的“Google Storage”,亚马逊的“Amazon”,百度的“百度云”,阿里巴巴的“阿里云”等。在众多的信息资源云技术产品中,HDFS技术可以不仅仅是运行在集群服务器上,还可以运行在普通的个人计算机集群上,不断的构架出一个稳定性强、高性能、安全性很高的HDFS系统。

3 基于HDFS存储的信息资源整合解决方案

3.1 HDFS存储系统设计思路

面对海量信息资源整合难题,整合数据的成本也不断的增加,数据方案安全性问题也尤为突出,因此根据市场的需要,借助云存储的新型工作模式来解决这个问题,结合云存储的各种优势,因此可以从以下几个方面进行分析和设计。

1)高效信息资源整合,可以将各类型的数据利用HDFS存储在不同数据节点上,当用户利用客户端进行访问信息资源时,就能得到高效的回复,而且还可以进行并发数据发送和回复。

2)降低大数据量存储的成本设计,通常大数量存储是有众多服务器集群来进行存储的,这样存储的成本会大大提高。那么利用HDFS来存储海量的信息资源就可以有个人计算机集群来完成,然后通过合理的配置,就可以构建出一个海量存储设备。

3)提高信息资源正本的安全性,传统的数据存储都是同一个文件保存在一台服务器上,这样当这个服务器出现故障后,文件在接受到请求时,就无法进行响应。而HDFS则是将同一个文件在不同的计算机集群中形成副本,从而提高文件的安全性。

3.2 系统功能设计方案

对于广大互联网用户来说,一个用户就是相当于云存储系统中的一个子用户。因此对于这样一个基于HDFS的云储存系统中,就要实现其用户能够自定义创建、管理、维护其信息资源。用户上传、下载或删除的信息资源,都可以通过系统进行。由于该系统是基于HDFS进行构建的,因此对于一个基本的HDFS由一个NameNode和N个DataNode组成,然后通过各种工具集合起来协同工作,然后由用户提交的各种请求。

NameNode是一个中心的服务器节点,主要是负责管理和维护文件系统的NameSpace和Client发送对文件的请求与访问。DataNode在计算机集群中会有多个存在,一般是一个节点存在一个,来负责管理管理其自身节点上他们附带的存储。对于系统内部,一个大文件可以分解成一个或者是多个块,这些块存储在DataNode集合中。NameNode执行文件系统的NameSpace相关操作。对于单一节点的NameNode来说大大的简化了系统的复杂度,NameSpace负责保管所有的HDFS元数据,因此在请求NameNode得到文件的位置后就不需要通过NameNode参与而直接从DataNode进行。为了提高Namenode的性能,所有文件的namespace数据都在内存中维护,所以就天生存在了由于内存大小的限制导致一个HDFS集群的提供服务的文件数量的上限。

4 结论

基于HDFS的云技术信息资源整合是一种动态可调整、基于当代互联网的新型解决方案。用户不仅可以通过简单一用的协议和应用工具结构来实现访问和存储目标,还可以通过这种新技术实现海量、高效的数据资源整合。当然在这里云存储起到了很重要的基础,它不仅让广大用户实现快读容量的扩张,减少了使用成本,而且还让各运营商减少了运营成本,实现了丰厚的利润。因此,基于HDFS的与技术信息资源整合方案的应用和发展前景是很广阔的。

项目基金

本文系基于云技术下的信息资源整合管理研究项目的研究成果,项目编号为12C1085。

参考文献

[l]朱俊,严明.企业数字资源整合系统的设计与实现[J].情报杂志,2010,29(5):183-187.

[2]刘鹏.云计算[M].北京:电子工业出版,2009.

[3]高宏卿,汪浩.基于云存储的教学资源整合研究与实现[J].现代教育技术,2010,20(3):97-101.

[4]张文峰.MapReduce模型的分布式计算平台的原理与设计 [J].华中科技大学,2012(3).

[5]邓自立.云计算中的网络拓扑设计和Hadoop平台研究[D].合肥:中国科学技术大学,2010.

[6]朱强.多服务器模型下的服务器选择算法及仿真[J].计算机工程与应用,2005(29):167-170.

[7]王宗刚,潘峥嵘,祝燎.基于LabVIEW的心电信号采集系统的设计与实现[J].工业仪表与自动化装置,2011(3):40-42,46.

上一篇:柴油机掺烧生物柴油的燃烧模拟仿真 下一篇:云计算在电子政务系统中的应用研究