一种时间序列案例的综合相似度函数

时间:2022-09-22 09:54:36

一种时间序列案例的综合相似度函数

摘要:针对案例推理中案例检索的相似度函数这个关键问题,本文分析了时间序列案例的结构特点,提出了一种时间序列案例的相似度函数。讨论了常用相似度函数的不足,提出了一种综合相似度函数。最后,提出了一种时间序列案例的综合相似度函数,并在气象数据上进行了对比检验与分析。结果表明。该函数不仅可行,而且比常用函数更优。

关键字:案例推理;时间序列案例;相似度函数

中图法分类号:TP391.3 文献标识码:A 文章编号:1007-9599 (2010) 11-0000-02

One Integrated Similarity Function for Temporal Serial Cases

Wang Xiang,Lu Hanrong,Xiao Lei

(AFRA,Wuhan430019,China)

Abstract:Similarity function is critical to similarity retrieval in case-based reasoning (CBR).Based on one analysis of the structural characteristics of temporal serial cases,this paper presented a similarity function for temporal serial cases.After discussed the shortcomings of common similarity functions,an integrated similarity function was presented.Then a integrated similarity function for temporal serial cases was presented and was tested on meteorologic data.The results suggest that the function is not only feasible,but also performs much better than common functions.

Keywords:CBR;Temporal serial cases;Similarity function

案例推理(CBR,Case-based reasoning)是一种基于过去的实际经验或经历的推理,适用于天气预报过程。目前,国际上在这方面研究比较有代表性的工作有:文献[1]中Hansen将模糊集和CBR技术应用于机场云层高度和能见度的预测,文献[2]中Singh用改进的最近邻算法进行天气预报,文献[3]中Jursa用改进的最近邻算法取得了比一般天气预报方法更好的效果。

这些研究存在的主要问题有:1.没有针对气象要素数据是时间序列的特点,考虑越靠近预报时间的气象要素的参考价值越大。这削弱了最新气象要素的作用。2.相似度计算中的距离函数,考查的是气象要素的值差异,没有考查其形差异。

本文针对第一个问题,引入了时间函数,使得时间越近的气象要素在相似度计算中所占比重越大。针对第二个问题,提出了一个考虑形相似和值相似的综合相似度函数。

一、案例推理技术

案例推理技术,把当前所面临的问题称为目标案例,把存储的问题称为源案例,根据目标案例的描述来检索出案例库中的相似源案例,并由此指导目标案例求解和预测。在不能或者不便于用数学模型表示的领域,例如天气预报领域,这种方法特别有效。一个案例通常由问题的说明或描述和问题的求解或预测两部分组成。

案例的检索是案例推理的关键步骤,决定了系统的学习与推理性能。案例间的相似性度量是案例检索的关键。

案例检索中常用最近邻算法。它通过累加目标案例与源案例的每个属性的相似度值来确定案例的相似度,把满足相似度要求的源案例作为下一步研究的对象。

本文将针对案例推理中案例检索的相似度函数这个关键问题展开讨论。

二、时间序列案例的相似度函数

时间序列案例(temporal serial case)是一些案例点在时间上的有序序列。若干气象要素构成某时刻的天气案例点;若干天气案例点,构成一个时间序列的天气案例。

(一)时间序列案例的天气预报过程

时间序列案例的天气预报过程可分为3步:

1.T时刻气象要素构成一个T时刻的案例点,若干个案例点(T,T+l,…,T+T1,T+T2)(T2>T1)构成一个时间序列案例;

2.使用最近邻算法,检索出与目标案例最相似的k个源案例;

3.从这k个源案例的T+T2时刻的历史数据中,经过重用或修正,得到预报结果。

(二)时间序列案例的相似度函数

根据时间序列案例的特点,最近邻算法检索的相似度计算应按照案例属性、案例点、时间序列案例逐步完成。

1.案例属性有多种类型,有不同的相似度计算方法,用案例属性的相似度函数表示为如下形式。

其中,Ci表示第i个目标案例。Cj表示第j个源案例。t表示案例属性所属的时刻,k表示案例的第k个属性。

2.案例点的相似度是某时刻所有案例属性的加权和。案例点的相似度函数表示如下:

其中,wk为第k个案例属性的权重值;n为案例属性的个数。

3.天气预报中,越靠近预报时间的气象要素的参考价值越大。因此,可对每个案例点的相似度附上一个与案例点时间相关的权重,与预报时间越近的案例点的权重值越大。本文将这个权重值,设计为一个时间函数,表达式如下:

其基本思想是通过案例时间起点到案例点的时间长度与案例描述部分的时间长度的比值,来影响权重的大小。其中,t为案例点时间,T为案例的起始时间,T1为案例描述部分的时间长度。

时间序列案例的相似度是所有案例点相似度的加权和。时间序列案例的相似度函数表示如下:

三、案例属性的相似度

(一)常用相似度函数

气象要素都是连续性的数值,其相似度计算有两类:一是以“距离”为主要特征的有量纲量,如海明距离、欧氏距离。它们只反映属性的空间距离,无法准确反映属性的变化趋势。二是以相似系数和相关系数为主的无量纲量。它们只反映属性的变化趋势是否相同,无法反映值的大小差别[4,5]。天气预报,既要考查气象要素的形相似又要考查其值相似。

(二)综合相似度函数

由于常用相似度函数的上述不足,文献[6]在形相似函数上加入一个值系数,构成综合相似度函数。值系数形式为:

式中Dij为某种值相似的相似度函数,Dmax为其最大值。

该值系数,需要知道属性的最大最小值、相似度函数的最大值,计算比较复杂。一旦案例库变化,都需要重新求得极值。因此,需要寻找一个不用极值的值系数。

(三)一种新的综合相似度函数

相关系数相对于相似系数具有更好的形相似[5]。本文在相关系数的基础上设计值系数。案例属性平均值的差与其变化趋势的比值反映了属性值的差异。因此,设计值系数如下:

,其中;、为案例属性的平均值。

该值系数越小,两个案例的属性平均值差异越大,反映属性的值差异越大。

最后将相关系数与该值系数相乘,就可以得到既能描述属性形相似,又能描述属性值相似的综合相似度函数:

将前文设计的时间序列案例的相似度函数和新的综合相似度函数统一,得到时间序列案例的综合相似度函数。

该相似度函数的先进之处在于:(1)引入时间函数作为权重,使新近案例点的相似度比较远的案例点的相似度,在案例的相似度计算中所占比重较大;(2)既能反映两个属性的形相似,也能反映其值相似;(3)计算值系数时,不需要知道属性的最大最小值,简化了计算。

五、实验分析

采用某气象台10年的观测数据,验证本文提出时间序列案例的综合相似度函数的有效性。24小时时间段内的多个气象要素作为案例的描述部分,24小时之后的第6个小时的气象要素作为案例的预测部分。k=6。按照相似度大小成比例进行案例复用。即T1=24,T2=30。

同时,选取常用的欧式距离O、相关系数COR,以及引入时间函数的欧氏距离O(t)、相关系数COR(t)作为相似度函数,与本文提出的时间序列案例的综合相似度函数sim,在同一气象数据上,以2005年的数据作为验证数据,1996-2004年的数据作为历史数据,以预报结果的准确率作为衡量标准,进行对比研究。其中属性的权重值由气象专家给出。实验结果如表所示:

几种相似度函数的准确率(%)

O COR O(t) COR(t) sim

风向风速 46.23 51.77 48.54 54.88 77.66

能见度 60.44 61.36 64.67 66.27 85.88

云量 62.59 62.18 68.22 68.40 87.64

实验结果表明:

(一)常用相似度函数中,侧重值相似的欧式距离与侧重形相似的相关系数,在不同的气象要素上准确率互有高低,准确率总体偏低。这说明只考查值相似或者只考查形相似都是不充分的。

(二)针对时间序列案例的特点,在原有相似度函数的基础上,增加时间函数,使准确率有一定的提高,说明本文设计的时间函数是有效的。

(三)本文提出的时间序列案例的综合相似度函数,在准确率上有了明显提高,说明本文设计的综合相似度函数在形相似的基础上对值相似的考查是有效的。时间序列案例的综合相似度函数使案例推理技术在天气预报过程中能更加有效的应用。

六、小结与展望

本文关注案例推理中案例检索的相似度函数这个关键问题。针对时间序列案例的特点,分案例属性、案例点、时间序列案例,逐步给出了时间序列案例的相似度函数。设计了时间函数,使新近的案例点的相似度比较远的案例点的相似度,在案例的相似度计算中所占比重较大。针对常用相似度函数在形相似和值相似上考查不充分,以及文献[5]中值系数需要计算极值的不足,设计了新的综合相似度函数。最后得到的时间序列案例的综合相似度函数通过实验证明是有效的。

时间序列案例的综合相似度函数在准确率上还有提高的空间。从函数本身来看,权重值、时间函数和值系数的设计是下一步改进的方向。

参考文献:

[1]Hansen B K,Riordan D.Weather prediction using case-based reasoning and fuzzy set theory[R].New Brunswick:meteorological service of Canada,2001

[2]Singh D,Ganju A.Improvement in nearest neighbour weather forecast model performance while considering the previous day’s forecast for drawing forecast for the following day[J].CURRENT SCIENCE,2006:1686-1691

[3]Jursa R,Rohrig K.Short-term wind power forecasting using evolutionary algorithms for the automated specification of artificial intelligence models[J].International Journal of Forecasting,2008:694-709

[4]阎慧芳.常用相似性判据的检验和综合相似系数的使用[J].气象科技,2003:211-215

[5]罗阳.相似性度量及最优相似系数[R].北京:中国气象学会,2008

作者简介:

王翔(1984-),男,湖北武汉人,硕士生,主要研究领域为智能决策与军事专家系统。

上一篇:单模匹配算法移动过程研究 下一篇:基于存储域网络技术的网络存储的研究