投影寻踪分类模型在雷电灾害风险分析中的应用与比较

时间:2022-08-28 09:24:28

投影寻踪分类模型在雷电灾害风险分析中的应用与比较

摘要:目的 利用北京地区雷电监测资料,应用投影寻踪分类模型,对北京市雷电灾害进行风险分析,并与层次分析模型的结果进行比较。方法 以闪电密度(次・km-2・a-1)、人口密度(人・km-2)和GDP(万元・km-2)作为主要指标,使用DPS数据处理系统进行投影寻踪分析。结果 应用投影寻踪分类模型估算的雷电风险值与该地区实际雷电灾害发生频次的区县间变化趋势大致相同。结论 基于三指标的投影寻踪分类模型可用于雷电灾害的风险分析。

关键词:投影寻踪;雷电灾害;风险分析

雷电是我国沿海地区的一类常见自然灾害。目前主要通过构建多指标体系的雷电灾害风险评估模型来进行相关风险分析及区域划分。其中,从指标体系到形成风险评估模型的过程中,如何确定各个指标的权重系数是关键。总体上权重的确定方法包括两类,主观赋值法和客观赋值法。主观赋值法如通过专家咨询[1],但因有人的主观经验混在其中,因而在某种程度上均会影响最终结果的客观性和准确性。客观赋值法如层次分析法[2-4]、模糊综合评判法[5,6]等。层次分析法可通过计算机编程不依赖于人,通过对多层次指标的权重进行层次收敛,而获得各指标的权重。而投影寻踪方法作为一类由样本数据驱动的探索性分析方法,可基于原始数据的结构特征求得每个指标的权重,因而也可以排除人为主观判断而带来的干扰。

1投影寻踪分类模型

1.1 PP发展简史和原理 投影寻踪(projection pursuit,PP)是一类于20世纪70年代中期发展起来的一类处理非正态高维数据的统计方法,其融合了统计学、应用数学和计算机技术,主要用来分析和处理高纬观测数据,尤其适合于分析非正态非线性高纬数据。

PP是在70年代初由Kruskal开始试验和发展的。最开始,他通过将高纬数据投影到低维空间,获得数据的最优投影,用以解决数据的聚类结构和化石分类问题。之后,由Friedman和Tukey在1974年加以改进,并正式提出了PP概念。1976年,相关计算机图像系统PRIM-9。1979年及其后若干年内,Friedman等人还相继提出了投影寻踪分类模型(projection pursuit classification model,PPC)、投影寻踪回归模型(projection pursuit regression model,PPR)等方法[7]。目前,该方法已被广泛应用于包括气象[8]、环境科学[9]、经济学[10]和灾害评价[11]等方面。

1.2 PPC原理 作为一类探索性数据分析方法,PP由样本数据驱动,利用计算机技术将高维数据通过某种组合投影到低维子空间上。再通过采用投影指标函数分析与优化结果,寻找到能反映原高维数据结构或特征的投影,从而实现研究和分析高维数据的目的。其基本原理是通过将待评价对象的各评价指标样本进行线性投影,按照一定的原则寻求最优投影方向向量,即客观权重,从而建立综合评价指数进行评价。由于该方法对于指标和样本量无特别要求,且分析效果更为清晰,因此是一类较为实用和稳健的分析方法[7]。

1.3 PPC步骤 本研究应用的PPC模型的建模过程主要包括以下5个步骤[7]

步骤1:样本评价指标的归一化处理。

设p个指标n个样本集的原始数据为{x*(i,j)|i=1,2,……,p}

正向指标x(i,j)=■ (式1)

负向指标x(i,j)=■(式2)

xmax(j)、xmin(j)分别代表第j个指标值的最大和最小值。x(i,j)代表经过归一化处理后的指标值序列。

步骤2:构造投影指标函数Q(a)。目的是将p维数据{x*(i,j)|i=1,2,……,p}综合成以a={a1,a2,……,ap}为投影方向的一维投影值z(i):

z(i)=■a(j)x(i,j),(i=1,2,……,n)(式3)

然后根据{z(i)|i=1,2,……,n}的一维散布图进行分类。其中,a为单位长度向量。综合投影指标时,要求投影值 的散步特征应符合以下要求:局部投影点尽可能密集,如凝聚成若干点团,整体投影上点团之间距离尽可能大。按此投影指标函数还可表达为以下公式:

Q(a)=SzgDz(式4)

上式中,Sz为投影值的标准差,Dz为投影值的局部密度,

Sz=■(式5)

Dz=■■(R-r(i,j)gu(R-r(i,j))(式6)

上式中,E(z)为序列{z(i)|i=1,2,……,n}的平均值。R为局部密度的窗口半径。R的选择原则如下:使包含在窗口内的投影点的平均个数不太少,且不会随着n的增大而增加太多,此外还应避免滑动平均偏差太大。可以根据试验来确定R的大小。

t

步骤3:投影指标函数的优化。所谓优化,即通过求解最大投影指标函数值获取最佳投影方向。最大化目标函数为:Max:Q(a)=SzDz(式7)

约束条件为:s.t.■a2(j)=1(式8)

这是一个以a={a1,a2,……,ap}为优化变量的复杂非线性优化问题。可采用如加速遗传算法(real coded accelerating genetic algorithm,RAGA)等优化算法来解决高维全部寻优问题。

步骤4:分类或排序。在以上步骤所得结果的基础上,将最佳投影方向a*代入式3,可得各样本点投影值z*(i)。投影值z*(i)可从大到小实现排序。如果设定标准投影值区间,则还可以进行分类和评级。

2实证研究

2.1北京地区雷电灾害风险分析 选取北京地区雷电灾害作为实例,使用上述方法建立投影寻踪分类模型,使用文献数据进行雷电灾害的风险评估[12]。同时与文献采用的层次分析模型的结果进行比较。

根据文献整理出本文构建投影寻踪分类模型所需要的三个指标,分别是闪电密度(次・km-2・a-1)、人口密度(人・km-2)和GDP(万元・km-2)。北京市18个区县的三个指标水平见表1。

使用DPS数据处理系统,按要求录入北京18个区县的3个指标,使用加速遗传算法进行投影寻踪分类模型的构建,计算得到各区县的雷电灾害风险投影值。根据文献的风险等级标准进行了各区县风险等级划分(风险指标在0.85~1.00间为强风险,0.50~0.8为高风险,0.25~0.50为中风险,0.00~0.25为低风险)。同时,为了与各区县的雷电灾害实际发生频率进行更好的对比,根据文献公式(风险估算值=投影值*各区县1km2范围内的建筑面积)对雷电灾害风险程度进行估算。结果显示,北京18个区县中,西城区是强风险地区,高风险地区的有东城区、崇文区、宣武区等5个地区,怀柔区和延庆县未中风险地区,低风险地区有10个区县,见表2。

2.2与层次分析模型的结果比较 通过将投影寻踪分类模型所得的投影值与层次分析模型计算结果进行比较,可发现两者的分析结果存在一定差异,但所提示的各区县风险水平分布趋势大致相同。其中,东城区、西城区、崇文区、宣武区、平谷区、怀柔区、密云县和延庆县的雷电风险等级明显高于其他10个区县,见图1。

图1 投影寻踪模型与层次分析模型风险值比较

将基于两个模型的分析结果按公式计算的风险估算值与雷电灾害实际频度进行比较还可发现,投影寻踪分类模型的分析结果与层次分析模型的分析结果均较相近。尽管西城区基于投影寻踪分类模型的估算结果与实际雷电灾害频度差值的绝对值水平最高,为10.956,但是投影寻踪分类模型其他15个区县的估算结果与实际频度的差值绝对值水平低于2,而层次分析模型为12个区县。且层次分析模型有6个区县的估算结果与实际频度差值的绝对值水平大于2,而投影寻踪分类模型仅为3个区县。此外,实际雷电灾害频度最高的海淀区及实际频度最低的门头沟区,基于投影寻踪分类模型所计算的风险估算值与其差值的绝对值水平均低于层次分析模型分析结果,见表3。

3结论与建议

对北京雷电灾害风险进行了评价,以闪电密度(次・km-2・a-1)、人口密度(人・km-2)和GDP(万元・km-2)作为3个主要指标,在此基础上进行了投影寻踪分类模型的构建,获得北京市18个区县的投影值。并以各区县1km2范围内的建筑面积为基础,计算了各区县的风险估算值。通过和层次分析模型的分析结果及实际雷电灾害频度进行比较,结论:①投影寻踪方法客观可靠,结果合理,可应用于雷电灾害的风险分析;②投影值的大小结合各区县1km2范围内的建筑面积所得的风险估算值能客观反映了地区实际雷电风险水平高低;③本文使用了三个指标,18个县区的数据,利用DPS数据处理系统,完成了投影寻踪分类模型的构建,说明投影寻踪建模过程具有较高的可行性。

由模型构建过程可知,投影寻踪分类模型分析结果的准确性和可靠性,主要取决于选择的投影指标,且投影值会随着每个指标的样本数据的变化而变化。此外,投影寻踪分类模型的分析结果仅适合于样本指标和数据产生的地区和事件。如本文所构建的投影寻踪分类模型仅适合于北京地区的雷电风险评估。此外,引入各区县1km2范围内的建筑面积后的风险估算值较原有投影值更能准确反映实际灾害频度,这也说明正确合理地运用投影寻踪及层次分析模型等统计学方法,提高雷电灾害风险评估结果的准确性和科学性。同时,与广东省应用投影寻踪模型对其雷电灾害进行风险评价的研究不同的是[13],他们选取了9个指标进行投影寻踪模型的构建。说明还需要进一步的实证研究以探索最佳指标组合。

参考文献:

[1]程向阳,谢五三.雷电灾害风险区划方法研究及其在安徽省的应用[J].气象科学,2012,32(1):80-85.

[2]朱传林,王学良,贺姗.基于层次模型及权重分析的湖北省雷电灾害易损度区划[J].中国农学通报,2015,31(8):206-211.

[3]赵伟,杨续超,张斌.浙江省雷电灾害风险分析及区划[J].热带气象学报,2014,30(5):996-1000.

[4]刘,包云轩,缪启龙,等.杭州市雷电灾害风险区划及分析[J].西北师范大学学报:自然科学版,2014,50(3):99-105.

[5]余蜀豫,任艳,覃彬全.基于模糊数学的重庆地区雷电灾害风险评估方法研究[J].灾害学,2015,30(2):75-78.

[6]杨超.模糊综合评判法在厦门市雷电灾害风险区划中的应用[J].气候与环境研究,2011,16(6):774-778.

[7]付强,赵小勇.投影寻踪模型原理及其应用[M].北京:科学出版社,2008.

[8]杨再强,张婷华,黄海静,等.北方地区日光温室气象灾害风险评价[J].中国农业气象,2013,34(3):342-349.

[9]刘卫林.抚河水环境质量的投影寻踪回归分析[J].中国农村水利水电,2011(5):39-42.

[10]苗敬毅.基于投影寻踪聚类模型的区域经济可持续发展评价--以30个省1998-2011年数据为例[J].工业技术经济,2013(10):77-82.

[11]张明媛,袁永博,周晶.城市自然灾害风险分析新方法[J].大连理工大学学报,2010(5):706-711.

[12]扈海波,王迎春,熊亚军.基于层次分析模型的北京雷电灾害风险评估[J].自然灾害学报,2010(1):104-109.

[13]汪志红,王斌会.投影寻踪技术在突发事件风险分类评级中的应用--以广东省雷电灾害风险评价为例[J].灾害学,2011,26(3):78-82.

上一篇:脂蛋白胆固醇与发生急性脑梗死的分析 下一篇:前房维持器在白内障手术中应用