基于Hadoop+HBase+Hive分布式技术的云计算平台的设计

时间:2022-10-09 11:38:53

基于Hadoop+HBase+Hive分布式技术的云计算平台的设计

在近年来,云计算已经逐渐成为了国内外计算机研究领域的热门名词,云计算是一种基于互联网平台的超级计算模式,其借助互联网中的海量资源为计算机用户提供了全新的数据服务,其中Hadoop的开源更是为谷歌公司实现了GFS系统的操作,并一跃成为了云计算平台中的标准数据模型。本文将在对云计算平台进行简要阐述的基础上,基于Hadoop+HBase+Hive分布式技术,对云计算平台的搭建进行相关的设计和研究。

云计算的出现很好的解决了计算机操作中大数据的存储与分析难题。云计算是由位于网络空间的服务器将其所计算与存储的数据资源以服务的方式提供给计算机用户,并以此完成信息处理任务的方式,云计算几乎囊括了网格计算、并行计算、分布式计算、网络存储技术以及虚拟化技术等等一些传统计算机技术的所有用途和优点。从普遍意义上来说,云计算其实就是一种以虚拟化手段和技术对各种资源进行网络服务,并根据用户的实际用量来进行收费。云计算并不需要专人管理便可提供各式资源服务。目前云计算平台大多数为商业性质,但Hadoop开源却是免费的,其开源不仅为google公司带去了GFS配置,并且采用的是Java语言编程,可移植性强,能够为云计算的研究提供一个绝佳的平台。Hadoop是Apache下的开源分布式系统架构,其特征在于低成本的存储量和高效率的工作性质,其强大的可移植性能使其能够在PC机上建立分布式集群,并以此来处理不同的数据资源。

HDFS

HDFS即Hadoop分布式文件系统,其与现有的分布式文件系统既有相通之处,也存着明显的不同。HDFS采用了主/从架构,具有高度的容错性,在HDFS中包括一个控制节点与多个数据节点,其中控制节点为Namenode,是中心的服务器,用于管理和处理文件操作,并为客户端建立映射。数据节点Datanode则主要负责本节点的数据存储,接收客户端请求,并在控制节点的操作下进行数据块的创建、复制和删除等。

HDFS中的大文件都被分解为多个数据块,所有的数据块默认存储量为64个数据单位,数据块通常存储在数据节点中,每一数据块都有相应的备份数量,一般备份数默认为3,这样一来,在云计算中数据就能够得到可靠地安全性保障。

HBase

Hbase为Google Bigtable打造了的开源实现其不仅能够快速的读取和存储海量数据,并且可在普通PC机上搭建集群,利用面向列的分布式数据库来进行数据存储,HBase与一般的传统数据库并不相同,由于其采用了基于列存储模式,能够及其便捷的为数据库中数据提供物理相邻的存储单元。读取数据时只需要查询数据列即可,既方便了用户操作,又有效降低了系统工作性能的消耗。

Hive

在Hadoop中还包括了Hive数据仓库工具,Hive能够对系统中结构化的数据文件进行映射,使其以数据表形式展示,并为系统提供了与SQL语句相似的查询功能,其在此基础上还为用户提供了直接编译功能,使用户能够很好的操作和使用云计算平台中的海量数据。

Hive包括用户接口、元数据存储、编译器、优化器和执行器等。在用户接口中又包括命令行界面、Client以及WUI。命令行界面是Hive中最常用的接口。元数据存储主要功能是为了避免多个用户进行元数据搭建,元数据存储中所存储的数据主要由表数据所在目录、表名和表属性等等,编译器与优化器能够完成类似SQL语句的语法及词法的分析,同时还可以为用户提供查询计划。Hive的所有数据都存储在Hadoop的HDFS模块当中。

云计算平台的搭建步骤

1.硬件和软件配置

云计算平台主要包括主控制节点与三个数据节点,每个节点端口为一台PC机,均配备了Linux的操作系统,以及集群框架Hadoop1.0.4和JAVA操作环境。

2.Hadoop、HBase、Hive环境配置

为了给Hadoop、HBase、Hive进行环境配置,我们首先要对Hadoop进行基础文件配置,如hdfs-site.xml、regionservers 、hive-site.xml等,以便为其他系统提供环境配置。

3.HBase数据库设计

我们在userinfo表(用户信息表)中进行数据添加,表中共有1亿条数据为系统提供性能比较,Hbase数据库设计如下表所示:

Userinfo表

Row Key TimeStamp Column Family Column Keys

id t1 Userinfo id,name,sex,city

表中的Row Key为行键,也是该表格的主键,用户信息表默认为按行键进行升序, TimeStamp表示时间戳,能够记录系统每次的操作数据,Coulmn Family代表列族,一个列族可以由多列组成,但在用户信息表中。列族只有一个,即userinfo,在该列族下面总共包括了四小列,分别为id、name、sex、city。

结语

综上所述,在基于Hadoop+HBase+Hive分布式技术中进行云计算平台的搭建,其控制节点与数据节点均采用的是普通PC机,由此可见,整个云计算平台在进行海量数据的存储和处理过程中,能够很好的降低系统数据存储成本,并极大地提高系统存储效率,为广大用户提供一个便捷性的数据使用平台。

(作者单位:河北农业大学)

作者简介:张悦(1988―),女,河北三河人,硕士研究生在读学生,研究方向:信息资源管理;

杨学全(1967―),男,河北涞水人,硕士,教授,研究方向:计算机智能信息化。

上一篇:书画同源与书画异同性 下一篇:个性化与文化底蕴的整体性城市导向标识设计