基于HDFS的云存储安全技术分析

时间:2022-10-10 05:09:02

基于HDFS的云存储安全技术分析

摘 要:现阶段云存储技术普遍出现数据丢失与数据窃取等各种安全问题,结合HDFS数据完整性校验体系的技术特点,研究一种在HDFS基础上的数据传输存储技术的实现方案。对系统用户上传到HDFS中的数据文件进行AES加密处理,文件通过密文的方式实现存储目的,同时使用RSA算法确保AES密钥的安全性能,能够有效地避免在数据的传输与存储过程中丢失与被盗。HDFS的存储格式主要分为文件密文与文件明文两种类型,用户能够根据实际需求自主选择是否需要加密处理。

关键词:云存储;HDFS;加密;解密

中图分类号:TP216

云存储技术逐步发展成为数据信息存储的一种重要方式,其数据信息的安全性能作为社会各个领域所关注的关键问题。HDFS是基于云计算技术的开源分布式文件处理系统,能够广泛地支持高容错的特性,可以直接布设在低成本的计算机系统中,有利于进行高吞吐量的访问操作,适用于部分大规模数据处理功能的操作程序。然而HDFS的安全性能问题包含很多方面,比如系统用户的安全认证问题、DataNode的安全认证问题、文件存储和传输的机密性问题等。现阶段国内外领域对于云存储技术安全性能的涉及研究不多,对于数据信息的完整性保护功能,国外的研究学者曾经提出使用加密工具的处理方法、分布式加密系统的数据机密性处理方法以及数据信息可恢复机制等。在国内的研究领域,对于云计算技术的安全性能问题,相关的学者曾经提出数据信息的安全体系与保护策略,研究设计出一种数据信息安全虚拟监控系统的技术实施方案。本文结合HDFS文件的读取和写入的具体特点,提出以HDFS系统为基础的输入输出流、在客户端实现数据加解密功能的技术实施方案,有利于达到密文形式的数据传输和存储目标,有效地解决HDFS系统的数据丢失与窃取的实际问题。

1 HDFS的系统架构体系

HDFS的系统架构体系是主从结构的形式,HDFS集群通常是由一个名字节点NameNode与若干个数据节点DataNode所构成的,同时可能会包括一个Secondary NameNode,定期与NameNode进行通信,对NameNode上相应的元数据信息进行备份处理。NameNode属于HDFS的主服务器,主要负责在分布式文件系统中的元数据管理机制,同时需要负责客户端Client对系统文件的访问功能。DataNode主要负责存储文件相应的数据块block,响应Client的命令请求,实现文件数据的读与写等各种操作功能。

字节点NameNode的主要功能有以下几点:

(1)管理元数据与块信息。NameNode主要负责管理文件系统中的元数据信息,比如文件标识、文件大小、文件属性、文件块数、块大小、对应块的实际位置,块文件和DataNode的映射关系等各种信息。数据块的管理功能一般有新建数据块、删除数据块、复制数据块等操作。

(2)管理名字空间。NameNode作为HDFS系统的主控中心,对文件系统中元数据的任意修改操作都需要通过NameNode进行处理,NameNode可以通过事务日志进行相关记录,各种对文件的实际操作都通过日志系统映射到本地的文件系统中。为了能够保证数据信息的有效性,元数据并不是只保存在内存之中,存储到本地硬盘空间也是很有必要的。

(3)请求处理。后台通常是以保护进程的模式执行监听与处理客户端Client的实际服务请求,同时可以处理来源于DataNode的请求与响应。客户端的请求通常包含文件的查询、新建、删除或者修改等各种处理功能,DataNode的请求操作主要包括数据块的处理。

(4)管理心跳检测。因为HDFS具有大规模的特点,包含着有大量的数据节点DataNode,这样使得主控中心掌握整个系统中存储节点的实际运行情况。心跳检测主要针对上述需求而产生的执行机制,NameNode根据HDFS系统的相关设置对全部数据节点进行心跳检测,将返回得到的检测数据信息及时地反映到系统中,确保实际服务的连续性与完整性。

数据节点DataNode的主要功能:

(1)报告心跳状态。在HDFS系统集群中包括若干个DataNode,同时根据实际需要扩展具体的集群规模,各种可以连接到互联网并且符合系统配置要求标准的主机都能够作为Datanode。HDFS通过机架的方式组织DataNode,具有相同子网的Datanode直接构成一个机架,各个不同机架之间主要通过交换机、路由器等各种网络通信设备达到互联目的。机架内部节点之间的传输效率高于机架之间节点的传输效率。如果集群功能开启后,DataNoda会向NameNode进行注册,注册操作完成之后以心跳的方式与NameNode维持定期的通信。同时DataNode可以根据心跳返回的控制命令实现数据的增加、删除与复制等各种操作。

(2)数据块的读写。NameNode是不负责数据信息的物理存储与读写操作处理功能,如果客户端请求NameNode获取相关文件的元数据信息之后,通过元数据信息Client可以与DataNode进行主动交互。文件数据块以并行方式地传送到DataNode上,DataNode负责数据信息的校验与存储功能。DataNode在本机系统上保存相应的数据块文件与数据块元文件,数据块元文件存储的是数据块文件相应的校验信息,主要用于在数据传输之前与定期扫描过程中进行数据校验处理。DataNode开启之后,应当定期地扫描需要存储的数据块文件,同时把计算获取得到的校验信息和数据块元文件进行对比分析。假如不符合要求,说明这个数据块已经出现损坏状况,需要进行相应的恢复处理。DataNode可以把在系统获取得到的校验信息传输到Namenode中,Namenode根据相应的块数据失效信息记录到NameNode中,等待数据恢复流程实现异步处理功能。

(3)数据的流水线复制。HDFS为了能够确保系统正常的运行状态,让各个数据块在系统中保存三个副本,写入块数据时,并非是等待上一个数据块的写操作功能完成之后,再开始执行下一个数据块的写操作处理。

2 云存储安全技术

2.1 文件加解密设计

文件数据信息在实际的传输过程中通过AES加密处理之后,需要对加密功能的密钥进行RSA加密处理,获取到的密钥密文和文件通过加密处理之后的密文进行绑定操作,通过系统分块的作用存储在HDFS的各个存储节点中,这样不仅可以有效提升系统的实际存储效率,同时能够解决单钥密码相应的密钥分配问题。在加载HDFS系统上的文件时,应当在存储密文中抽取对应的AES密钥密文,使用用户的私钥可以进行解密处理,获取到密钥明文之后,再通过文件密文的解密处理实现文件明文的获取。

具体的执行过程如以下几方面:

(1)在文件的加密上传操作过程中,用户登录进入云存储系统,向HDFS发起传输文件请求的过程中需要选择加密处理的传输方式,同时根据客户端的随机密钥生成器产生一个128位的AES加密密钥。

(2)在客户端对系统用户需要进行传输的文件通过生成的AES密钥进行加密处理获取到文件密文。

(3)使用系统用户2048位RSA公钥对文件的加密密钥key进行加密处理,得到相应的密钥密文。

(4)通过对密钥密文和文件密文进行绑定处理,根据文件密文的实际储存格式加上对应的标识位与数据长度标识,存储在HDFS的文件系统中。

(5)在文件解密操作的下载过程中,如果系统用户在云端的HDFS文件系统中下载相应的文件时,在获取到在HDFS系统传送到客户端的相应文件之后,系统首先会自动判断文件的第一位比特值,如果值为零,则表示文件属于明文存储方式,去掉标识位之后可以还原成原始的文件格式;如果值为1,则说明文件属于密文的文件格式,应当进行相应的解密处理。

(6)首先需要提取文件中128字节的AES密钥密文,通过系统用户的RSA私钥能够解密得到AES对应的明文密钥。

(7)通过获取得到的AES密钥对存储文件密文的相关部分进行相应的解密处理,得到具体存储文件的明文。

2.2 文件存储格式分析

云端文件的存储格式通常可以分成明文存储与密文存储两种类型。存储格式中的第1位比特值为零,则说明文件属于明文存储的格式;如果值为1,则说明文件属于密文存储的格式。假如文件以密文形式进行存储时,在密文的前面应当增加128字节的空间用于存放RSA加密处理后生成的密文密钥,使用四个字节表示有效的文件数据长度。

3 结束语

结合HDFS系统的数据输入输出与完整性校验功能的执行特点,在HDFS系统的客户端运用AES算法对用户上传到系统中的文件进行加密处理,确保云存储系统用户数据的安全性;通过使用RSA算法提高AES密钥的机密性,同时能够有效解决AES单钥密码的实际分配问题;设计云端系统文件两种类型的存储格式,有利于系统用户进行加密方式的自主选择。在本文技术实施方案的理论基础上可以通过加入加密缓冲区域来为系统用户提供体验功能,同时需要进一步引入PKI技术,有利于实现HDFS系统用户的CA安全认证与数字签名功能,从而可以更好地提高HDFS系统的安全性能。

参考文献:

[1]冯登国,张敏,张妍.云计算安全研究[J].软件学报,2011(01):71-83.

[2]侯清铧,武永卫,郑纬民.一种保护云存储平台上用户数据私密性的方法[J].计算机研究与发展,2011(07):1146-1154.

[3]李书鹏.分布式文件系统在云存储环境下的若干问题研究[D].北京:中国科学技术大学,2011.

[4]黄晓云.基于HDFS的云存储服务系统研究[D].大连:大连海事大学.2010.

[5]曹夕,许力,陈兰香.云存储系统中数据完整性验证[J].计算机应用,2012(01):8-12.

[6]冯登国.云计算安全研究[J].软件学报,2011(01):71-83.

作者简介:陈薇(1978.03-),女,本科,讲师,研究方向:计算机教学、计算机应用。

作者单位:浙江育英职业技术学院,杭州 310018

上一篇:基于MEL语言的三维角色动力学设计 下一篇:面向电力生产管理系统非结构化数据检索系统