无线传感器网络中缺失数据估计算法

时间:2022-07-29 05:33:34

无线传感器网络中缺失数据估计算法

摘要:为了提高无线传感器网络(WSN)中缺失数据估计值的精度,提出了一种自决策插值算法该算法能够根据数据集的空间相关性以及缺失数据的连续性选择不同的缺失数据估计策略,并将自回归滑动平均(ARMA)模型引入到对缺失数据插值的研究中与传统缺失值估计算法相比,该算法不仅考虑到无线传感器网络的特性,而且考虑到数据集本身的特性在真实数据集上测试结果表明,该算法提高了对缺失值估计的精度

关键词:无线传感器网络; 缺失数据; 插值算法; 自回归滑动平均模型; 空间相关性

中图分类号: TP393 文献标志码:A

0引言

无线传感器节点一般直接布置在暴露的环境中,天气条件、传感器节点通信能力、信号强弱、信号遇到故障、人为的因素等原因都会造成通信链路频繁的断接,从而使采集到的感知数据在传送过程中丢失或数据异常丢弃缺失数据的记录是应用中最简单的一种缺失数据处理方法[1],但如果直接删除含有缺失数据的数据集合,则会丢失大量的原始数据,且与缺失数据相关的有价值的知识往往被忽略[2]这样会对数据分析结果造成相当大的影响,不但会降低数据分析的准确性与可靠性[3],甚至会影响到相应的决策各传感器节点采集到的数据集合中除了缺失数据外,其他数据是真实、可靠、可用的,如果对缺失数据进行合理的填补,就可以提高数据分析结果的准确性和可靠性

由于无线传感器网络中缺失数据的不可避免性,以及对缺失数据插补的重要性,填补缺失数据的方法无论是在技术上还是在理论上都受到高度的重视[4]因此,如何对缺失数据进行有效估计是亟待解决的问题[3,5-6]

1相关工作

部分研究领域中对缺失数据已有相应的研究[7-9],但这些研究并没有考虑到无线传感器网络的特性,所以不能很好地适用于无线传感器网络缺失数据的填补文献[7]研究了基于数据流的数据缺失问题,提出了WARA(Window Association Rule Mining)算法,当某一节点的数据流存在缺失值时,该算法首先找到与之关联的一个节点,并用关联节点的值填充其缺失值在无线传感器网络中,虽然节点A与节点B相关性很强,但可能A、B节点之间存在一个线性函数关系,两者的采样数据值不一定近似,所以这种算法精确性不高文献[10]在WARA算法的基础上对其进行改进,提出了CARM(Closed frequent itemsets Association Rule Mining)算法,该算法在频繁模式中不存在缺失值所对应的数据元组时,算法就会失效文献[3,5]均考虑到了时—空相关性的特点,在时域上对缺失值采用线性插值算法,即利用与缺失数据相邻数据的值,估计当前缺失数据的大小线性插值法具有较高的效率,但是当出现连续数据丢失或数据不稳定时,对缺失数据的估计值不精确对缺失值在空间上采用回归分析方法,而线性回归分析是根据通常特定的区域会布置两个或多个传感器,所以这些传感器节点在空间上存在相关性,或者函数对应关系当节点之间空间相关性较强时,此方法比较有效,但是对于空间相关性较差的情况,回归分析反而降低了估计的精度

为了克服时间上线性插值对连续缺失数据处理的缺陷,本文将自回归滑动平均(AutoRegressive and Moving Average, ARMA)模型引入到无线传感器网络缺失数据估计中ARMA模型由滑动平均(Moving Average, MA)模型与自回归(AutoRegressive, AR)模型为基础融合而成,是在多元线性回归的基础上演变发展而来的

ARMA模型描述如下:如果时间序列yt满足

2自决策插值法

自决策插值算法的基本思想是:根据空间相关性程度以及时间上缺失数据的连续性的不同,采用不同的方法对缺失数据进行插补首先考虑在空间上的相关性,当空间相关性较强时,采用回归模型对缺失数据进行估计;否则抛弃空间相关性,只考虑时域上的相关性其次考虑时间上数据是否连续缺失,单个数据缺失时,在时域上选择线性插值模型;否则在时域上采用ARMA对缺失数据进行预测

2.1算法选择

在无线传感器网络中,由于造成数据缺失的原因不同,缺失数据表现的形式也不相同,分别表现为单个数据的缺失、连续数据的缺失对于数据缺失的不同表现形式,采用不同的估计算法才能保证缺失数据估计的精确性

假设节点X含有缺失数据,首先考虑在空间上的相关性,若存在与节点X相关性较强的节点,则考虑将回归分析算法加入算法的集合U中;其次考虑时域上缺失数据的特性,若数据是连续缺失的,则将ARMA方法加入到U中,反之将线性插值法加入到集合U中算法决策过程如图1所示

无线传感器网络中,节点之间相关性的强弱由相关系数的大小决定本文采用皮尔逊相关系数求各节点间的相关性任意节点i与j之间的相关系数计算公式如下:

自决策数据插值算法(Selfdecision Data Interpolation Algorithm, SDA)综合考虑了感知数据的各种特性,不仅对空间相关性的强弱分别考虑,而且考虑到缺失数据的连续与否此算法能根据数据自身的特性自适应地选择相应的算法,因此,SDA能够更加精确地估计缺失数据值

3实验结果及分析

本文是在Matlab7.10的环境下进行实验,并在两个数据集DS1、DS2上分别测试算法在数据非连续缺失与数据连续缺失时的有效性

3.1非连续缺失数据集

DS1采用文献[9]中的四个压力传感器节点采集到的数据,其测试值如表1所示由表1可以看出,传感器采集到的数据中不含缺失数据,但为了验证方法在数据非连续缺失时的有效性,假设表1中传感器节点1的第6次测试数据以及传感器2测量的第3、4次数据是缺失值,分别标记为a、b、c则根据相关系数公式求得其他三个节点与节点1的相关系数值分别为1,0997,0999可见节点1与其他节点之间都属于强相关,所以选择线性与回归分析融合的算法

由于各个传感器节点采集到的数据与真实值之间存在一定的误差,计算结果的精确度依据与真实值的对比结果由表2可以看出,本文提出的SDA的实验结果明显优于其他算法因为该算法能够综合分析数据间的相关性,并通过权值决定函数,找出一个使误差平方和达到最小的加权系数向量,所以该算法的计算结果最接近数据的真实值

3.2连续缺失数据集

为了进一步验证算法的有效性,在真实数据集DS2上实验,DS2采用某电厂电力系统运营过程中由6个传感器采集到的空预器烟气出口温度的数据,采样周期为5s,共包含800个数据点,具体数据点情况如图2所示为了验证算法在数据连续缺失时的有效性,假设节点2中第501到700个数据缺失节点2与节点1、3、4、5、6的相关系数分别为09394、-0.3546、-0.1963、-0.1784、-0.6627,所以选择节点1参与回归分析函数的构造;而由于数据是连续缺失,所以在时域上选择ARMA模型对缺失数据进行估计

在ARMA模型中,依据前500个数据点建立ARMA(7,5)模型,并根据模型进行预测用ARMA模型预测节点2的第501到第750个数据,其中用第701到第750个数据点与原数据进行比较,并计算误差平方和为0.3208选取回归分析函数构建序列中的第701到750个数据与原数据比较,误差平方和为6.6094ARMA模型的误差与回归分析模型的误差的乘积和为-0.198

由图3可知,当数据连续缺失,并且数据序列不稳定时,线性插值法误差较大;回归分析估计结果误差与线性插值相比误差减少,但与原数据相比还有一定的误差;ARMA模型以及本文提出的SDA与原数据都比较接近为了比较ARMA模型与SDA,进一步比较两种算法的误差绝对值的平均,分别为0.0529、0.0505,所以SDA误差更小,平均误差率仅为00137%

通过在DS1和DS2上的实验结果表明:本文提出的自决策插值法SDA,不仅能够对非连续缺失数据进行精确的估计,而且能对连续缺失的非稳定数据进行很好的插补,解决了线性插值在数据连续缺失时误差较大的问题

4结语

针对电力系统运营中无线传感器网络的数据缺失问题,提出了一种自适应的融合插值算法该算法综合考虑传感器网络中时—空特性,根据数据的不同特性,采取不同的决策;对于决策结果中采用两种算法的,分别求出两种算法的估计结果,并取其加权平均值作为缺失数据的估计结果实验结果表明,本文提出的算法对不同的数据有最适合的决策结果,因此能够比较准确地对缺失数据进行估计有了相对精确的数据作为基础,从而在对电力系统的数据分析中能对设备的运行情况进行正确的评估并对设备进行相应的调整,避免故障的发生

参考文献:

[1]HAN J, KAMBER M, PEI J. Data mining: concepts and techniques [M]. San Francisco: Morgan Kaufmann, 2006.

[2]WANG H, WANG S. Discovering patterns of missing data in survey databases: an application of rough sets [J].Expert Systems with Applications, 2009, 36(3):6256-6260.

[3]潘立强,李建中,骆吉洲.传感器网络中一种基于时—空相关性的缺失值估计算法[J].计算机学报,2010,33(1):1-11.

[4]SONG Q, SHEOOERD M. A new imputation method for small software project data sets [J]. Journal of Systems and Software, 2007, 80(1): 51-62.

[5]潘立强,李建中.传感器网络中一种基于多元回归模型的缺失值估计算法[J].计算机研究与发展,2009,46(12): 1201-2110.

[6]林蔚,尹娟. 无线传感器网络中含有缺失数据的数据融合研究[J]. 计算机应用研究,2012, 29(11): 4284-4286.

[7]HALATCHEW M, GRUENWALD L. Estimating missing values in related sensor data streams [C]// Proceedings of 2005 ACM SIGMOD International Conference on Management of Data. New York: ACM, 2005: 83-94.

[8]ALLASIA G, BESENGHI R, CAVORETTO R, et al. Scattered and track data interpolation using an efficient strip searching procedure [J]. Applied Mathematics and Computation, 2011, 217(12): 5949-5966.

[9]COVILLE A, SIDDIQUI A, VOGSTADV K O. The effect of missing data on wind resource estimation [J]. Energy, 2011, 36(7): 4505-4517.

[10]JIANG N, GRUENWALD L. Estimating missing data in data streams [M]// DASFAA 2007: Proceedings of the 12th International Conference on Database Systems for Advanced Applications, LNCS 4443. Berlin: SpringerVerlag, 2007: 981-987.

[11]LIU H, SHI J. Applying ARMAGARCH approaches to forecasting shortterm electricity prices [J]. Energy Economics, 2013, 37(10): 152-166.

上一篇:基于CSMA/CA的无线多跳网中干扰特征仿真 下一篇:可容忍信息泄露的指定验证者签名方案