基于最大熵方法对测量数据估计的改进方法研究

时间:2022-08-05 07:56:34

基于最大熵方法对测量数据估计的改进方法研究

摘要: 针对未知概率分布时难以精确估算测量结果的问题,利用最大熵值法以最少的主观成分拟合测量数据概率分布。在仿真实现过程中,发现最大熵方法存在溢出的问题,通过变量变化法成功解决了此问题。最后,通过MATLAB仿真实现,证明了改进的算法更好的扩展了其适用范围,其估算结果具有可靠性。

Abstract:In the analysis of measurement data with unknown probability distribution, it is difficult to accurately evaluate the measurement result, through using the maximum entropy method to fit the least subjective probability distribution of measurement data. In the simulation process,the author found that the maximum entropy method exists overflow problem,and the problem was successfully resolved by variable change method. Finally, through MATLAB simulation, improved algorithm is proved to better expand its scope of application, and the estimation result is reliable.

关键词: 最大熵;仿真;MATLAB

Key words: maximum entropy;simulation;MATLAB

中图分类号:TH71 文献标识码:A文章编号:1006-4311(2010)28-0228-02

0引言

在计量工作中,测量数据样本值较少时,不一定满足中心极限定理,需要对未知分布的测量数据进行分布估计。而最大熵原理认为:在掌握部分信息的情况下对未知的分布形态做出推断,应该选择符合约束条件同时信息熵值取最大的那个概率分布,任何其他的选择都意味着我们添加了其他的约束或条件,这些约束或假设根据我们所掌握的信息是无法做出的。采用最大熵方法所确定的概率分布是含有最少主观假定的分布[1]。

1最大熵值法概率分布计算方法[2-3]

基于最大熵方法的随机变量x的概率密度p(x)的信息熵可定义为

H(x)=-p(x)In p(x)dx(1)

式(1)中,R为积分空间,令

H(x)=-p(x)In p(x)dx=max(2)

约束条件为

p(x)dx=1(3)

xp(x)dx=m i=1,2,…,m(4)

式(4)中,m为所用矩的阶数,mi为第i阶原点距。

通过调整p(x)来使得熵达到最大值,并采用拉格朗日乘子法来求解此问题。设H为拉格朗日函数,拉格朗日乘子为λ0,λ1,…,λ,则有

=H(x)+(λ+1)p(x)dx-1+λxp(x)dx-m(5)

令dH/dp(x)=0,有:

-In p(x)+1dx+(λ+1)dx+λxdx=0(6)

可解得:

p(x)=exp(λ+λx)(7)

式(7)就是最大熵概率密度函数的解析形式。

将式(7)代入式(3)有:

e=exp(λx)dx (8)

λ=-Inexp(λx)dx (9)

将式(8)对λ微分,有:

=-xexp(λ+λx)dx=-m (10)

将式(9)对λ微分可得:=-(11)

由式(10)和式(11)可得:Mi=(12)

通过式(12)可以建立求解λ1,…,λ的m个方程组,求出λ1,…,λ后,可以根据(9)求出λ0,为了便于数值求解,将式(12)改写成:

1-=ri (13)

式(13)中,ri为残差,可以用数值计算的方式使其接近于零,用非线性规划求(13)表示的这些残差平方和的最小值,当r

r=rmin(14)

2最大熵值法溢出问题改进

利用最大熵原理进行概率分布拟合时,当实际中的样本数据值较大时,因为需要求解xi的问题,很可能存在溢出的问题,导致估计概率密度函数失效。为了扩大最大熵适用范围,利用变量变换法转换随机变量x的定义域到[0,1]之间来避免。

设随机变量x变化为z时,相应的区间从[a,b]变换到区间[c,d],利用最大熵时估计概率密度函数时计算表达式如下所示:变量变化前的表达式如式15所示,区间变化后的则如式16所示。

p(x)=λ0+λx x∈[a,b] (15)

p(z)=λ+λz z∈[c,d] (16)

令参数β=和θ=,新旧变量之间的关系有

x=+θ (17)

利用无穷小时间建立两个变量概率函数的关系式,即在dx内的x事件应与dz内的z事件同时发生概率相等,因此:

f(x)dx=f(z)dz (18)

将上式变化后,可得

f(z)==(19)

将上式代入(16)中,可得:

f(x)=βf(z)=βλ+λz=βλ+λ(-βθ+-βx)i(20)

利用二项式展开式,可得:

f(x)=βλ+λ(-βθ)i+ (21)

将上式与(16)比较,令相应的系数相等可得。通过上式,将概率密度估计中的随机变量相应的变换到[0,1]之间,扩大了最大熵值法的适用范围。

3仿真验证[4]

3.1 验证数据来源以频谱分析仪3db带宽指标值为例。其实验数据位1.07、1.06、1.05、1.07、1,06、1.09、1.07、1.08。

3.2 编写Matlab程序采用非线性最小二乘法计算分布中的未知参数,部分关键实现程序如下:

options=optimset('MaxFunEvals',10000,'MaxIter',10000,'Display','iter','TolFun',1e-8);

//设定MaxFunEvals目标函数最大调用次数为10000,MaxIter 最大迭代次数为10000,TolFun函数计算的误差限为1e-8。

[y,resnorm,residual,ef,out]=lsqnonlin(@myfun2,H,[],[],options);

//其中resnorm为残差的平方、residual为残差。

通过计算,得到拟合的概率密度函数表达式如下P(x)=exp(-58.1352018184218+58.1352018184218?鄢x-75.0527739603257?鄢x2+44.2711348947073?鄢x3+13.4049404911812?鄢x4-18.4893203907466?鄢x5)。通过舍选法反抽样得到测量数据如表1所示。

当使用改进前的最大熵值法拟合概率密度分布模型时存在溢出的问题。经过变量区间变化法将测量数据进行区间变化后,成功解决了模型失效的问题。由舍选法反抽样得到了大量稳定可靠的测量数据值,可以应用于测量不确定的评定中。

4结论

本文针对最大熵值法确定测量数据存在溢出风险的问题,提出了变量变化法,拓宽了最大熵值法的适用范围。利用MATLAB仿真证明了算法的有效性,获取了可靠的测量估计数据。

参考文献:

[1]Zhang Q,Miihliebei H.On the convergence of a class of estimation of distribution algorithms[J].IEEE Trans.on EvolutionaryComputation 2003,8(2):127―136.

[2]费业泰.误差理论与数据处理[M].机械工业出版社,1987.

[3]吴乃龙,袁素云.最大熵方法[M].湖南科学技术出版社,1991.

[4]费业泰.现代误差理论及其基本问题[J].宇航计测技术,1996,16(5):2-5.

上一篇:试论基督教博爱思想的渊源 下一篇:基于虚拟仪器的变频器测试系统