基于物联网海量数据处理的数据库技术分析与研究

时间:2022-10-23 11:34:26

基于物联网海量数据处理的数据库技术分析与研究

摘 要:随着物联网发展速度的不断加快,对海量数据处理技术也提出了更高的要求。物联网数据具有实时性、海量性与多态性、异构性等特点,因此其海量数据处理技术也具有一定的特殊性。针对物联网海量数据的新需求,本文首先对物联网数据海量性、异构性、数据多维性与数据关联性、实时性与动态化等特点进行了分析,在此基础上主要分析与研究了物联网海量数据处理的数据库技术,包括分布式内存数据库技术与分布式实时数据库技术两种。

关键词:物联网;海量数据;分布式内存数据库;分布式实时数据库

中图分类号:TP393

物联网技术的不断发展为各个领域的数据化提供了可能,在各个领域中的数据量不断增加。随着各个行业业务领域的不断扩大与信息化的不断深入,数据在企业的所有环节中都得到了广泛的应用。用户在对海量数据进行处理与分析的过程中,对实时性与高效性提出的更高的要求。只有提高含量数据处理与分析的实时性与有效性才能够为企业提供更加准确与详细的市场行情,为企业决策提供可靠的依据,在市场竞争中占据有利地位。物联网中各个子系统所产生的海量的、异构的数据都需要进行统一的处理与存储,因此,海量数据处理方法需要实现多个不同网络、数据源与异构的海量数据进行融合与处理。当前,传统的数据处理技术与数据库管理系统(DBMS)已经不能够满足物联网海量数据处理与存储管理的需求了。因此,本文重点分析与研究了基于物联网海量数据处理的数据库技术,包括分布式内存数据库技术与分布式实时数据库技术两种。

1 物联网数据所具有的特性

物联网(Internet of Things,IOT)指的是在物品上置入内嵌电子标签或传感器,通过这些对物品或者环境的信息进行获取,之后通过无线网络将收集到的信息向后台信息处理系统进行发送,各个信息系统之间通过互联的方式形成网络,通过这个网络实现对物品的跟踪、对环境的监测等智能化管理。

在现实情况中,物体在数量方面非常庞大,在形式方面非常多样,而且还一直处在变化之中,外界环境对其造成的影响较大。因此,物联网中的数据具有以下几个方面的特点:

1.1 物联网数据具有海量性的特点

物联网系统中通常会包含一个或者多个无线传感网络,这些无线传感网络中包含了超多的传感器节点。这些传感器节点持续地产生新的采用数据,而且数据的类型是多种多样的,不仅包括数值类采样数据,而且包括多媒体采样数据。此外,物联网系统中还会将所采集的数据进行一定时间的存储,为原处理的追溯与数据的挖掘分析提供便利。举例来讲,假设物联网系统中包含10,000个节点,每秒钟进行一次存储,每次单点占据10个字符,10年之后物联网系统中所包含的数据量将达到10,000×10×10×365×86400=31,536,000,000,000字节,而这仅仅是较为简单的数值类型数据。因此,物联网数据具有了海量性的特征。

1.2 物联网数据具有异构性的特点

传感器件在物理特性、产品特性以及系统设计等方面都存在一定的差异性,导致其采集生产的数据在类型、进度与数量方面都存在不同。这就导致了物联网数据存在多种模式,较难进行统一。例如在智能交通中,需要实现的功能包括车辆GPS定位、RFID车牌识别、路况信息、违章电子照相等,在这些功能实现的过程中通常需要种类较多的传感器,导致产生的简单数值类型数据、多媒体图像视频类型数据等异构数据。

1.3 物联网数据具有数据多维性与数据关联性的特点

物联网数据所具有的多维性特点是其较为重要也是非常必要的特点之一,视域普通的互联网数据进行区分的重要特性。物联网系统在对原始数据进行采集的过程中,默认的状态属性包括time(时间)、space(空间)、devicestamp(设备戳)。此外,物联网的物理对象并不是相互独立的,各个对象之间存在着各种不同的管理属性。例如智能电网中的用户在物理电网中的相对位置会对用户之间的关系和关联程度造成影响。物联网数据与数据属性是一个整体,缺一不可,如果没有数据属性,物联网数据就失去了代表意义。因此,数据的传输、存储与使用的过程中都应该注重属性的完整性与正确性。

1.4 物联网数据具有实时性与动态化的特点

物联网应用具有非常强的实时性,例如RFID系统、WSN系统等,都是对实时数据进行采集,在一定周期内向服务器进行数据发送。物联网系统中要对某个监控对象在某一时刻的物理状态进行查询时,仅仅依靠某个时间关键词的匹配很难实现,主要是由于数据采集具有一定的周期性。为了提供数据查询处理的有效性,应该将监控对象的采集数据形成数据序列,对监控对象制定时间的物理状态进行计算。在数据不断更新的过程中,所形成的采集数据序列也处于不断的动态变化中。

2 物联网海量数据处理中的重要技术

在物联网中包含了种类非常繁多的感知设备,这些设备所属的网络类型都是不同的,物联网在进行海量数据处理的过程中,需要采用能够对不同类型网络、不同数据源及异构含量数据进行融合的处理方法,在对海量数据进行处理的过程中进行有价值信息筛选,并对其进行有效的分析与应用。

2.1 物联网含量数据处理中的多源数据融合技术

在物联网中,如果信息获取的节点不同,这些信息的数据类型特征也不同。在对多源异构海量信息进行处理的过程中,需要实现层次化表达数据结构与本体标准的统一,以此作为标准的多元数据信息融合格式。实现多源数据融合技术与数据聚类技术、度量技术、时空转换技术等方面的有机结合,实现多源数据的一体化有效利用。

2.2 物联网海量数据处理中的数据存储、检索与查询技术

在物联网中部署了非常多的感知设备,对物联网中的数据进行采集,由于物联网中所包含的信息量巨大,采集的数据规模往往处于TB甚至是PB的级别。对物联网中海量数据的存储技术、检索技术与查询技术进行研究,能够促进海量数据处理的集中性与有效性,对这些数据实现高效的管理,将用户定制的数据进行实时、准确的传输,从而实现技术与用户信息系统的有机结合。

2.2.1 物联网海量数据存储技术

在物联网中,海量数据存储所采用的是就近存储原则,以全局摘要视图节点为中心,接收所有数据归档节点的数据分布情况报告。数据归档节点首先要向全局摘要视图节点发出查询请求,全局摘要视图节点对数据所在网络节点进行快速定位,通过这种方式能够避免物联网中出现信息泛洪式查询的情况。如果存储磁盘的设计容量已经耗尽,则需要对数据进行回收,在数据回收的过程中,首先要对查询历史进行统计,对当前系统存储容量进行核算,在此基础上为不同类型的数据动态地配置生存的周期,如果数据已经超过了配置的生存周期,那么这些数据就会被新增加是数据所覆盖。在物流网中,数据具有单次写入、较少修改、多次阅读与从不删除的特点。因此,单个网络节点在对数据储存技术进行选择的过程中,应该选择非关系数据库技术。

2.2.2 物联网数据索引技术

物联网中的数据分为两种类型,一种是时态流数据,另一种是空间流数据。物联网中依据数据的类型实现最优索引算法的自动创建。时态流数据主要采用间隔查询的查询类型,而空间流数据则通过操作方式的查询来对区域中所有符合条件的对象进行寻找,从而实现最佳索引的建立。

3 物联网数据库技术应该满足的要求

3.1 数据库技术的数据、数值及索引要求

物联网中存在着非常巨大的数据大小与数值范围,同时物联网系统中包含了多种类型风格不同的数据对象,在对这些数据进行处理的过程中,一方面要实现数据库编目管理,另一方面还要注重数据索引管理,这就对数据库的实时性提出了更高的要求。

3.2 数据库技术的查询语言要求

传统的数据库管理系统查询语言为结构化数据,这种查询语言已经不能够满足当前的需求了。可扩展标记语言(XML)所能够提供的数据表达方式具有更加松散的结构,同时能够对自定义数据描述进行支持。这种可扩展标记语言能够实现对文档及网页的整合,同时还能够查询关系数据库数据源等。

3.3 数据库技术的多相性与完整性要求

物联网中包含了众多的节点,这些节点包括感知节点与网络节点,不同节点的数据保存方式也是不同的。随着物联网中数据量与系统类型的快速增加,物联网实施数据库面临着更加严峻的异构性与互操作性问题。

3.4 数据库技术的时间序列聚集要求

传统的查询语言已经不能够适合时间序列数据的查询了,需要依据时间有序方式对物联网中实时数据进行组织与存储,能够进一步促进查询任务性能的提高、快速查询相应的提高。物联网中的实时数据具有时序特征,最佳的时间采样周期依赖于数据性质与应用领域,物流网中的实时数据库查询设备需要能够对数据进行连续的采用服务。

4 物联网实时数据库

4.1 分布式内存数据库技术

分布式数据库是在传统数据库技术与网络技术相互结合的情况下产生的,分布式数据库在物理空间的分布方面具有分散性,在计算机网络中的各个节点中进行分布,但是在逻辑方面具有同一性,是同一个系统中的数据结合,分布式数据库系统架构如图1所示。分布式内存数据库技术的特点包括:对具备物理空间自治性与逻辑全局共享性;第二,数据的冗余性与数据的独立性;第三,系统的透明性等。分布式数据库管理系统所采用的控制方式为全局控制集中、分散与部分分散方式;分布式数据库管理系统的主要组成部分包全局数据库管理系统、通信管理、全局数据字典、局部场地数据库管理系统等;分布式数据管理系统的主要功能包括局部应用的执行、局部数据库的建立与管理、场地的自治、全局事物的协调、分布透明性的提供、局部数据库管理系统的协调、更新的同步等。当前,数据库技术发展最为明显的特征为实现了数据库技术与网络通信技术、人工智能技术与并行计算技术之间的渗透与融合。

图1 分布式数据库系统架构

分布式内存数据库管理系统中,需要满足的要求包括:第一,各个网络节点中做包含的内存数据库要保持自治性;第二,内存数据库要实现集群化特征,通过垂直切分策略、读写分离策略及水平切分策略等实现海量数据的存储;第三,注重多种数据切分方式的结合,总体上采用垂直切分策略,在此基础上采用水平切分策略,依据应用与数据的具体情况选择不同的切分方式;第四,各个节点内存数据库之间要实现相互协调,所有的节点数据库都能够用作其他节点的服务端;第五,数据分布要保持一定的透明性,对数据的分布性与数据库的协调性进行满足,对物联网海量数据实时处理需求进行满足。第六,内存数据库必须具备持久性,如果内存数据库中的数据出现了变化,需要将这些变化复制到磁盘数据库中,通过两级数据库确保其持久性。

4.2 分布式实时数据库技术(DRTDBS)

分布式实时数据库技术是以云技术为基础的,其架构图如图2所示。分布式实时数据库技术指的是将数据库技术与云计算技术之间进行相互的融合,利用分布非常广泛的云计算中心服务器建立分布式实时数据库,实现数据库规模的可扩展与可伸缩,实现数据库管理系统的可靠性与可维护性。分布式实时数据库技术中主要的功能包括数据检索与处理压缩、数据存储虚拟化、内容分发网络、冲突处理、事物调度、负载均衡、故障监察、故障恢复等。

图2 分布式实时数据库架构

在分布式实时数据库的构架中,数据采集器与数据库服务器节点服务部件在进入分布式通讯服务平台是都是通过平台的中间件接口来完成的,在分布式通讯服务平台中实现与其他服务组件之间的交互过程。分布式实时数据库中的组件都是通过服务的方式实现与其他功能部件之间的连接与调用,从而能够自由的、高效的进行数据交互。此外,组件在分布式通讯服务平台中还能够实现与其他接入平台的节点进行通讯连接,分布式通讯服务平台接口还能够实现数据收发的功能。分布式通讯服务平台利用平台内部所具有的缓冲队列与异步调用机制,实现了无论接收节点处于何种状态,节点都可以进行数据发送,接收节点在数据接收的过程中采用信息回调方式。分布式数据存储平台如图3所示。

图3 分布式数据存储平台

数据采集器、数据服务器所需要的数据存储服务、数据检索服务的各个组件在云计算的基础之上接入到分布式通讯服务平台中,最终形成的统一的数据库存储服务与数据库检索服务,同时这些服务还能够对外进行提供,改变了传统的单台实时数据处理服务器所具有的孤岛模式,实现了分布式数据存储功能与数据检索功能系统的去中心化与对等化。不同的数据采集器或者是数据服务器对数据进行采集,并将采集获得的这些实时数据通过服务平台进行发送,最终发送到统一的数据存储服务功能模块中进行存储。客户端通过分布式通讯服务平台的接口或者WEB服务器与通信服务平台进行连接,向统一数据查询服务器提出数据查询服务的申请并进行查询。服务器节点通过分布式通信服务平台向其他的节点进行数据的发送,如果数据发送成功,则意味着数据写入成功;当接收节点接收到数据之后,在接收的过程中需要利用毁掉接口来完成。

5 结束语

本文在研究物联网海量数据特征的基础上对物联网海量数据处理关键技术及物联网实施数据库要求进行了列举,重点分析了分布式数据库技术与云技术实施数据库技术在物联网海量数据处理过程中所发挥的作用。首先,分布式内存数据库系统中包含多个节点数据库,这些节点数据库都保持着一定的自治性、数据分布性与数据库协调性,与数据分布所具有的透明性相互结合之后能够实现数据库平衡改进,更好地满足了物联网海量数据实时处理的要求。其次,分布式存储技术与云计算技术的相互结合形成了分布式实时数据库技术,多个数据采集器与数据服务器的数据存储部件与数据检索部件在云服务平台的基础上形成短路数据存储与数据检测服务,能够更好地满足物联网海量数据处理的要求。通过对基于物联网海量数据处理的数据库技术分析与研究,对物联网应用领域的延伸与推广提供了推进作用,进一步促进了海量数据的进一步挖掘。

参考文献:

[1]魏笑笑.基于RFID的物联网技术在农产品安全领域中的应用研究[J].安徽农业科学,2011(54):15150-15152.

[2]刘书伦,程亚维.基于物联网技术的产业集聚区服务平台研究[J].吉林工程技术师范学院学报,2014(53):88-90.

[3]朱洪波,杨龙祥,金石.物联网的协同创新体系与智慧服务产业研究[J].南京邮电大学学报(自然科学版),2014(01):1-9.

[4]黄健,冯暄,翁凯.DCQD:一种物联网高性能数据采集平台的设计与实现[J].四川大学学报(自然科学版),2014(42):707-712.

[5]袁磊,赵俊三,李红波.物联网空间数据仓库框架体系及关键技术分析[J].地理信息世界,2013(43):58-62+80.

[6]韩海雯,齐德昱,封斌.基于云计算与物联网技术的港口物流综合服务平台架构研究[J].计算机科学,2013(48):232-235+261.

[7]张桂刚,毕娅,李超.海量物联网数据安全处理模型研究[J].小型微型计算机系统,2013(54):2090-2094.

[8]丁治明,高需.面向物联网海量传感器采样数据管理的数据库集群系统框架[J].计算机学报,2012(75):1175-1191.

作者简介:张燕(1974-),女,上海人,副教授,研究方向:数据库技术及应用或数据库技术教学。

作者单位:宁夏工商职业技术学院商贸经济系,银川 750021

上一篇:浅议计算机实验室软件系统崩溃后的快速恢复 下一篇:位置依赖的协同工作模型―Locom