基于云存储的井下人员定位数据处理

时间:2022-07-10 04:30:26

基于云存储的井下人员定位数据处理

摘要:鉴于国内目前各大煤矿企业的实际情况,对井下人员定位系统进行研究,为了改进定位产生的海量数据所存在的不安全、不完整等弊端,采用云存储代替原有的存储模式。利用云存储量身定制这一特性,在企业内部搭建私有云,以Hadoop为技术架构,运用HBase的RowKey确定检索的主键,HDFS的NameNode与DataNode完成数据间的交互,快速、高效的查找数据。将云存储应用于企业中,帮助企业顺应时代的脚步,有利于企业的发展,具有一定的价值。

关键词:定位系统;云存储;海量数据;HDFS;HBase

中图分类号: TP391 文献标识码:A 文章编号:1009-3044(2014)04-0844-03

1 概述

中国作为煤矿大国,各大煤矿通过人员定位系统,实时监控井下作业人员,确保其人身安全。通过实时定位,收集各类数据,确定实时路径。煤矿企业在处理人员定位系统产生的海量数据方面存在众多问题:原有系统扩展性差,难以满足企业数据的快速增长;数据的处理以及复杂操作能力的需求不断提高;对数据的访问以及响应时间逐渐变慢等。传统的数据存储模式不能完美的解决这些问题,而云存储作为一种新型的数据存储方式,克服了传统存储方式产生的诸多弊端。

以淮北朱仙庄矿为背景,结合目前煤矿企业的实际情况,针对定位系统产生的海量数据,在企业内部建立私有云,整合现有的多样数据,建立Hadoop技术架构,以达到高速、安全的存储数据。

2 云存储下定位数据的处理

2.1 云存储

2.1.1 云存储的定义

云存储[1]作为云计算的延伸技术,主要指通过分布式文件系统、集群应用等,将同一网络中许多且不同类型的设备整合起来,实现对外提供数据存储和业务访问的功能[2]。其中,云存储并非实际意义上的存储,提供的是服务功能。

云存储是一种特殊的共享存储器,首先要保证用户存放的数据可靠、不丢失。其次,用户访问数据是任意时间的,云存储必须确保实时在线,方便用户的读取。鉴于成本和资金流量的考虑,云存储的规模必须随着数据的不断增加而扩展。

2.1.2 云存储的结构

云存储的核心是应用软件和存储设备相结合,通过应用软件来实现存储设备向存储服务的转变。图1为云存储的结构[3]。

由以上的结构图,我们不难看出云存储所具有的几个优势[4][5]:

1)成本低

目前,大多企业将大部分数据迁移至云存储上,因此升级、维护等管理任务均由云存储服务提供商来完成。不仅可以将数据存储与管理的成本降到最低,还能获得最优良的数据存储服务。

2)管理便捷

企业的数据管理从传统的分散管理转变为云存储的统一管理。其中维护功能由供应商来完成,企业不需要配备专业的存储系统管理员;其次较易扩展,不会因为新数据的产生而丢弃旧数据,保证数据间的完整性。

3)量身定做

随着大数据时代的到来,各企业产生的海量数据不尽相同,利用私有云这一特性为企业量身定做一套云存储服务解决方案。

2.2 Hadoop

2.2.1 Hadoop简介

Hadoop[6-7]是Doug Cutting创建的一个软件框架,能够对海量数据进行分布式处理,主要依附于社区服务器,因此成本较低,任何人都可以使用。Hadoop是一种可以让用户轻松建立和应用的分布式计算平台,方便对海量数据分析、处理。

主要有以下几个优点[8-9]:

1)高可靠性

使用按位存储和处理数据,值得用户的依赖。

2)高扩展性

通过计算机的集簇体现其高扩展性,将数据方便、快捷的扩展到数以千计的节点上。

3)高容错性

自身能够进行数据的备份,并且能够自动将失败的任务重新分配。

2.2.2 HDFS介绍

HDFS[10-11](Hadoop Distributed File System):分布式文件系统,简称HDFS;具有高容错性,主要放置在低廉的硬件上。

HDFS类似于一个分级文件系统[12],可以创建、删除、移动或重命名文件等。基于其自身的特点,HDFS的架构是由一组特定的节点构建的,这些节点主要包括NameNode(仅一个)存储的主要是文件名;DataNode为 HDFS 提供存储块。

NameNode主要起索引的作用,决定是否将文件映射到 DataNode 上,负责管理文件名和控制外部客户机的访问;DataNode则响应来自 NameNode 的创建、删除和复制块的命令。NameNode 依赖于单个 DataNode 的定期心跳消息,其中每条消息都包含一个块报告,可以根据这个块报告验证和映射元数据。

2.2.3 HBase介绍

HBase[13-14]是Google的一个高性能、高可靠性、面向列的分布式存储系统,类似于BigTable。

作为Apache的Hadoop项目中的一个子项目,HBase是基于列的模式,适用于非结构化数据存储的数据库,具有处理大数据的能力。HBase中的RowKey是用来检索记录的主键,可以是任意字符串。在存储时,数据按照RowKey的字典序排序存储。

2.3 定位的数据处理

2.3.1 人员定位数据

煤矿行业中,最重要的是人的生命安全,朱仙庄矿隶属淮北矿业集团,拥有庞大的团队,为了更好的保障矿工的安全,井下人员定位系统[15]起着举足轻重的作用。该定位系统不仅需要提供实时的监测查询功能,还需要在各种空间和时间的角度下提供历史统计。对任何一个人员,除了包含其本身的信息外,从进入井下开始,系统就对其进行实时定位跟踪,从而产生了跟踪路径,且这些定位数据都是不可再生的,这就将产生海量数据。因此海量定位数据的可靠性和完整性,对井下作业的操作是至关重要的。

在不增加任何设备的前提下,将原有的数据库结构改成云存储结构。云存储不同于传统的关系数据库,采用基于列存储的数据管理模式来支持大数据的高效管理,更好的实现大量数据的可靠存储。

2.3.2 总体架构设计

井下人员定位系统的数据处理以Hadoop技术为架构,HBase为大量数据管理系统, HDFS作为分布式存储系统。在HDFS中的文件以块的形式分布在DataNode,再通过NameNode控制所有文件,通过索引,各节点之间进行数据交互。

1)HBase的设计

一个有效的定位数据包括用户、时间和位置信息,这些数据都必须存放在Hadoop的HBase中。区别于传统的关系数据库,这类关系模型必须要转换为Key-value的形式才能被HBase接收。

系统中的定位数据主要用于以下两种类型的查询:一种是区域内所有人员的信息,另一种是一个人员的历史轨迹。为了提高查询的效率,在使用HBase进行数据存放时,将同一个区域的数据都存放在临近的DataNode上。考虑到定位数据本身具有区域性,即定位数据总是会在一个区域内产生大量数据,且定位数据是按照时间增长的时序数据。因此,如果按照区域聚集的方式存放数据就必然会导致拥塞,从而不能发挥集群的性能优势。为了避免这种情况, RowKey的选择至关重要。

为了使数据自动按照时间从新到旧的顺序排列,需要使用倒序时间戳,在HBase中多数使用Hash来解决这类问题。将Hash值作为一个额外的RowKey部分放在原有的RowKey的最前面对数据进行分散,同时根据服务器中DataNode的数量来设置一个合理的Hash表长度。

对于人员定位系统中的数据,可以将HBase中的RowKey设计为Hash([区域][人员][时间])[区域][人员][倒序时间]。将查询条件都作为RowKey后,人员的定位数据只剩下非常简单的三元组(x,y,z)形式,同时也没有必要将这三个数据分开存放,这样列族的数量只有一个,此时存放的数据即为定位的数据。

2) HDFS的设计

从上图可知:上位机主要是用来接收人员定位产生的数据,然后多个客户端可以从上位机上查询数据。NameNode存储的是数据的索引,即文件名,无真实的数据;DataNode存储的是真正的数据,即磁盘。当收到访问请求时,通过Name节点中的索引来决定所需匹配的DataNode;当DataNode发出定期心跳消息时,NameNode根据消息查询文件并映射元数据返回DataNode;当DataNode 没有发送心跳消息时,NameNode进行自我修复,重新复制丢失在块上的数据,并完成交互功能。

客户端向NameNode发送任务请求,NameNode先对客户进行合法性做验证,然后将文件分成数据块;接着根据各个DataNode状态进行分配任务,这样就可以决定数据块存储在具体哪个DataNode中,并通知客户端;最后客户端可以直接与DataNode通信。

2.4 云存储在人员定位中可能存在的隐患

1)安全问题

相对于传统的存储方式,云存储中的数据更具有条理性、完整性。但云存储提供的是在线数据存储服务,将数据放在服务端,企业用户不仅依赖于,同时也受制于服务器供应商。另外,必须时刻连接Internet,将导致数据的外泄。

2)速度问题

云存储是一种在线的服务,其存储速度是由宽带的速度来决定的,这将受到多方面的干扰。目前,随着互联网宽带的速度不断提升,用户的需求量也在不断扩大,所产生的数据将骤增,这样就导致了宽带的速度逐渐无法负荷数据的存在。

3)数据所有权问题

对传统的存储方式而言,数据在本地存储中,企业内部人员对其有绝对的控制权;但当数据转移到云服务后,这类支配的权利就逐渐转移。 另外,云存储还增加了不确定性,很难对存储数据进行实质性的管理,管理人员只能依据服务水平协议确定数据。

3 结束语

本文结合淮北朱仙庄矿实际情况,运用云存储技术,提出基于Hadoop框架的平台,初步解决井下人员定位系统产生的海量数据。利用云存储量身定制的优势,在企业内部建立私有云,快捷、高效的处理数据,在很大程度上带动企业顺应社会的发展。但云存储作为一项新型技术,仍不够完善,需要我们在以后的应用实践中,不断的发现问题并且改进。

参考文献:

[1] 江秋菊.基于云存储的数字图书馆资源存储[J].图书馆学刊,2012(2):109-111.

[2] 刘金芝,余丹,朱率率.一种新的云存储服务模型研究[J].计算机应用研究,2011,28(5):1869-1872.

[3] 黄燕.云存储影响下的数字图书馆[J].图书馆界,2011(5):3-4.

[4] 刘贝,汤斌.云存储原理及发展趋势[J].科技信息,2011(5):470-471.

[5] 熊聪聪,冯龙,陈丽仙.云存储在校园信息化中的应用与优化[J].天津科技大学学报,2012,27(5):69-73.

[6] 孙福权,张达伟,刘超.基于Hadoop企业私有云存储平台的构建[J].辽宁工程技术大学学报:自然科学版,2011,30(6):913-916.

[7] 曹英忠,谢晓兰,赵鹏.基于Hadoop的云存储实践[J].现代计算机:专业版,2011(24):25-26.

[8] 多雪松,张晶,高强.基于Hadoop的海量数据管理系统[J].微计算机信息,2010(13):202-204.

[9] 刘豪.基于Hadoop集群的海量数据计算和存储技术研究[D].武汉:武汉理工大学,2012.

[10] Venner J.Pro Hadoop[M].New York:Apress,2009.

[11] 黄晓云.基于HDFS的云存储服务系统研究[D].大连:大连海事大学,2010.

[12] 陈平华.海量数据存储模式的研究[D].广州:广东工业大学,2012.

[13] 陈庆奎,周利珍.基于HBase的大规模无线传感网络数据存储系统[J].计算机应用,2012,32(7):1920-1923.

[14] 张榆,马友忠,孟小峰.一种基于HBase的高效空间关键词查询策略[J].小型微型计算机系统,2012(10):2141-2145.

[15] 刘延龄.基于物联网的煤矿人员定位系统解决方案[J].煤矿机械,2011(5):222-223.

上一篇:《诗经》中叠音词语言现象传承探析 下一篇:纳西语比较范畴句法体现中的不对称机制