改进主成分分析方法及其在地震数据处理中的应用

时间:2022-05-31 07:46:14

改进主成分分析方法及其在地震数据处理中的应用

Improved Primary Component Analysis Method and Its Application in Seismic Data Analysis

Tian Shuying;Li Yueheng;Xin Xiaolong;He Ruichan;Chen Zhenxun

(①Northwest University,Xi'an 710127,China;②Xi'an Jiaotong University School of Electronic & Information Engineering,Xi'an 710049,China)

摘要: 本文基于地震数据的特征,引入向量成分化概念,提出了一种改进的PCA方法,并给出了相应的算法实现。应用改进后的PCA方法,分析了西安高陵2009年11月5日地震的前兆数据以及之前发生在西安地区的多次地震的前兆数据。分析结果表明:这种改进的PCA方法在处理地震数据时,主成分数据拟合曲线的震前特征更便于数学表示,为地震的分析和预测提供了良好的基础。

Abstract: This paper introduces the concept of vecter of proportions based on the characteristics of seismic data and presents an improved method of principal component analysis and a way to carry out it. Then we apply the improved PCA method to the precursor data of Gaoling earthquake which happened in Xi'an in November 5, 2009, as well as other precursor datas of earthquakes which happened in Xi'an before. The results show that this improved PCA method makes the pre-earthquake characteristics lie in the principal component data fitting curve more easier to express in mathematic when processing seismic data and that provides a good basis for earthquake analysis and prediction.

关键词: 地震数据 成分向量 主成分分析(PCA) 贡献率

Key words: Seismic Data;Vector ;Principal Component Analysis(PCA);contribution rateof Proportions

中图分类号:P315 文献标识码:A文章编号:1006-4311(2011)29-0003-02

0引言

地震数据是地震遥感器从各个观测站点实时采集得到的反映地震相关特征的物理参数值的流数据,它们构成多元时间序列。由于地震遥感器能以很高的频率(按秒采集)及高维数据的无序性,给地震数据的利用构成极大障碍。与地震活动相关的多个指标,如水位、地温、电磁波、电压、气压及水温等,有可能存在一定的相关性[1],这为利用多个指标的合成指标描述地震特征铺垫了基础。在实际预报中,常常有些参数在地震前出现较明显的异常,而另一些参数并不出现异常,或者异常持续的时段不同。这些也给实际预报带来困难。如何从大量的多指标实时数据中获得信息量大且具有代表性的综合指标,构成了本文研究的重点。由于不同指标的原始数据的拟合曲线呈现不同趋势,逐指标分析及常规PCA方法均不能得到很好的分析效果,本文提出了一种改进的主成分分析方法,并将其应用于2009年11月5日高陵地震等多次地震前兆数据,不仅实现了多项指标的化简,而且具有很好的分析效果。

多元时间序列数据的降维技术有很多,PCA方法是其中一种。主成分分析的基本思想是把高维欧式空间的矢量投影到它的子空间里,并且最大量地保持投影之前矢量之间的差异,从而可以利用降维以后的矢量数据代替原始数据进行相似计算。主成分分析作为一种矢量数据的降维技术,已被广泛地应用于数据分析和过程监控等领域[2,3]。本质上讲,主成分分析是一种线性方法,在处理非线性问题时,往往不能取得很好的效果;而地震前兆数据的数据阵并非线性结构[4]。广义主成分分析是Grandesikan(1966)和Wilk(1968)提出的[5],它通过一个高维映射把原始输入空间投影到特征空间,并在特征空间中利用PCA进行特征提取。理论研究结果表明,广义主成分分析不仅适合于处理非线性问题,而且能提供更多的信息。为此,本文主要阐述主成分分析及其基于地震前兆数据的改进的主成分分析方法以及利用改进的主成分分析方法进行地震指优化简得效果。

1方法概述

1.1 相关定义定义1 一系列观察值x■(j)称为多元时间序列,其中(j=1,2,…,n)表示在某个时点处的第j个观察值,(ti=1,2,…,m)表示第i个时点。

由此,一个多元时间序列可用一个m×n维矩阵来表示,m表示时点数,n表示同一时点处的观察值个数,也即是有n个指标。如果j仅为1,这时的多元时间序列就成了一元时间序列。

定义2 设随机向量X=(X1,X2,…,Xn)满足下列条件:

(1)Xi>0,i=1,2,…,n(即各指标变量均取正值);

(2)■X■=1,(即各指标值之和为1,即100%)。

从而每一分量可视为某一成分的含量,则称X为成分向量。

把一般随机变量化为成分向量的过程称为向量的成分化。

1.2 PCA方法主成分分析就是从一组指标参数中,找出数目较少且彼此独立的综合变量,并用原来的指标参数把这些综合指标表示出来。

设有m个样本,每个样本观察n个变量的数据资料。主成分分析的数学模型为:z■=l■x■+l■x■+…+l■x■z■=l■x■+l■x■+…+l■x■…………………………z■=l■x■+l■x■+…+l■x■(1)

式中,z1,z2,…,zn分别称作原指标的第一,第二,…,第n个主成分;li1,li2,…,lin为变量相关阵的第i个特征值所对应的特征向量,z1,z2,…,zn所对应的特征向量的特征值分别为:λ1,λ2,…,λn,且λ1?叟λ2?叟…?叟λn。比值λi/■λ■反映了zi对整体信息的贡献,该值越大,说明该主成分越重要。

1.3 主成分的性质主成分z1,z2,…,zp具有如下性质:

(1)主成分间互不相关,即对任意i和j有Cov(zi,zj)=0,(i≠j)。

(2)组合系数(li1,li2,…,lin)构成的向量为单位向量。

(3)各主成分的方差是递减的,即Var(z1)?叟Var(z2)?叟…?叟Var(zp)。

(4)总方差不增不减,即Var(x1)+Var(x2)+…+Var(xn)=Var(z1)+Var(z2)+…+Var(zn)=C

这一性质说明,主成分是原变量的线性组合,是对原变量信息的一种改组,主成分不增加总信息量,也不减少总信息量。

1.4 改进PCA分析基本思想及其具体实现改进主成分分析方法的基本思想是通过引进一个非线性变换f,把每一个样本向量xi(i=1,2,…,m)由输入空间Rn映射到特征空间G中,然后在G中进行PCA分析,提取主成分。即

f:RmG x│X(2)

其具体实现步骤如下:

设x=(x1,x2,…,xn)为多元离散的时间序列。

(1)向量成分化。即做变换:x■=■,i=1,2,…,n。(在不致引起混淆的情况下仍记为xi)。

(2)做映射f,把原始多元时间序列x=(x1,x2,…,xn)变为多元时间序列X=(X1,X2,…,Xn)。在不致引起混淆的情况下记X=(xij)m×n。

(3)对多元时间序列X=(X1,X2,…,Xn)进行标准化处理:

x■=■i=1,2,…,m。

式中,xij为第i个指标第j个样本的原始数据所对应的象;■j=■■x■和S■=■(j=1,2,…,n)分别为第i个指标对应的变换后数据的均值和标准差。

(4)根据标准化数据表(xij)m×n,计算相关系数矩阵R=(rij)n×n。其中:r■=■■x■・x■=■■■・■。

(5)计算R的特征值和特征向量。根据特征方程R-λI=0,计算特征根λi(i=1,2,…,n),并使其从大到小排列:λ1?叟λ2?叟…?叟λn。同时可得对应的特征向量:l1,l2,…,ln,它们标准正交。l1,l2,…,ln称为主轴。这里,I为单位矩阵。

(6)计算贡献率和累计贡献率。此时,称ei=λi/■λ■为第i个主成分的贡献率;E■=■λ■/■λ■为前i个主成分的累计方差贡献率。

(7)计算主成分:zi=li1x1+li2x2+…+linxn。

(8)确定主成分的个数,建立综合指标。选取主成分个数的常用方法是根据累计方差贡献率,一般以85%为界限。若前k-1个主成分的累计贡献率小于85%,而前k个主成分的累积贡献率超多85%,则就取k个主成分。

2改进PCA方法在地震数据处理中的应用

本文以三个实例具体说明此方法的优点。实例1为监测点陕鼓井地区采集的051102地震前后5天的前兆数据,包含5个指标,分别为:水位、气温、气压、电压、水温。实例2为检测地点户县,用到的指标有:水位、气温、气压、电压、地磁波幅度EW、电磁波幅度NS、水温。直接采用PCA算法,降维效果不理想;而采用本文改进的PCA算法效果良好。实例1与实例2中应用一般的PCA与改进PCA方法对相关指数进行优化结果分别见表1与表2。在实例1中,用一般PCA方法得到的第一主成分的贡献率为37.836,而用改进PCA方法得到的第一主成分的贡献率达到78.444;实例2中,用一般PCA方法得到的第一主成分的贡献率为31.762,而用改进PCA方法得到的第一主成分的贡献率达到74.862。由此可见,直接利用PCA算法,降维效果不理想;而采用本文提出改进的PCA算法效果良好。

下面以实例3为例,详细阐述改进主成分分析方法在地震数据分析中的应用。

实例3选取2009年11月05日西安与高陵交界处发生的3.6M地震的前兆数据做样本,进行改进主成分分析。其中,091105高陵地震前兆数据包含7个指标,分别为:水位、气温、气压、电压、地磁波幅度EW、电磁波幅度NS、水温。由于收集、记录数据的某些原因,部分数据缺失;这导致无法直接对数据进行改进PCA分析。我们采用下述方法进行处理:用缺失数据前后较小时间段(例如10分)内的数据的平均值填充缺失部位。这种处理是合理的,因为本文处理的数据是以每分钟为单位记录的,数据近似连续。

首先将所选取的样本数据进行非负性处理。由于091105地震前兆数据中有关水位指标的数据是负值,所以应先进行非负性处理。处理方法为:取绝对值。

对上述处理得到的数据进行拟合,根据图形显示的趋势特征及多次实验,选取映射为对数变换,即:f(x)=log(x)(为了避免映射后数据太小,影响拟合效果,在做映射前用n乘以向量成分化后的数据)。用MATLAB软件对上述数据进行改进PCA分析得到各指标间的相关系数矩阵。从得到的相关系数矩阵中可以看出,7项指标之间的相关系数介于-0.97993与0.9999之间,它们之间存在显著的相关关系。因此用改进主成分分析方法进行分析是可行的。根据表4,分析地震前后5天、前10天及前30天的数据可得协方差的最大特征值越大,降维效果就越好。

由图1,地震发生前,综和指标有先缓慢下降后上升的趋势,而地震发生在上升的点上。依此现象,10月23日前后也可能有地震发生。西安地区地震目录显示10月24日1:19分发生了1.5级地震,这说明我们的推测是合理的。这有助于我们对地震进行分析和预测。

3结论

本文提出的改进主成分分析方法很好地处理了地震前兆数据中的非线性关系,弥补了一般主成分分析在非线性问题中提取特征的不足。需要指出的是,这种改进主成分分析方法也有一些缺陷:其一,其物理意义不太明显,另一方面,从计算上来讲,其计算过程要复杂得多。前者不宜克服,这让我们很难进行合理的解释。对于后者,随着计算机的发展是比较容易克服的。

参考文献:

[1]张军.时间序列数据中的模式挖掘及其在地震预报中的应用研究.计算机软件与理论,2006,3.

[2]HOTELLING H.Analysis of a complex of statistical variables into principal components[J].Journal of Educational Psychology,1933,24:417-441.

[3]Moghaddam B1 Principal manifolds and probabilistic subspaces for visual recognition[J].1 IEEE Transactions on Pattern Analysis and Machine Intelligence,2002,24,(6):780-788.

[4]印兴耀,孔国英,张广智.基于核主成分分析的地震属性优化方法及应用.石油地球物理勘探,2008,43,(2):179-183.

[5]余锦华,杨维权,多元统计分析与应用.中山大学出版社,210-206.

上一篇:流动摊贩与城市管理者和谐关系模式的构建 下一篇:StatModcMC反演在薄互层地震储层预测中的应用