逐段回归统计分析

时间:2022-09-02 09:34:14

逐段回归统计分析

【摘 要】本文探讨了逐段回归统计分析问题。目前已有的相关结果都是仅用一个连续向量函数来近似描述相应的不确定性相关关系,这样就有比较大的局限性,当所研究的相关关系在不同段上表现出不同的状态结构时,传统的方法就会产生较大的误差甚至于失效。本文将把回归函数的定义域作一个划分,然后在每一个子域中用一个连续向量函数来近似描述相应的不确定性相关关系,形成逐段回归统计分析问题。最后用一个示例说明了本文方法的有效性和可行性。

【关键词】统计;相关关系;逐段回归分析;最小二乘法

0.引言

客观现象之间总是存在着相互联系和相互依存的关系,反映这些联系的数量关系一般来说可分为两类,一类是确定性关系,另一类是非确定性关系。确定性关系是指描述客观现象的变量之间的关系可以用函数关系来表达的,如运动物移和时间的关系;圆的面积和半径的关系;某种商品的销售收入与该商品的销售量和价格之间的关系等等,其特点是,当一个或几个变量的取值确定时,相应的另一个变量的值就完全确定。若当一个或几个变量的取值给定时,相应的另一个变量的值不能完全确定,而是在一定范围内变化,则称变量之间的这种关系为不确定性关系即所谓相关关系。一般来说,人高一些,体重会重一些,但同样高度的人,体重往往不同;再比如空气污染度和人口寿命之间的关系、气象学中的温度和湿度之间的关系等等都是这种不确定关系。回归分析是研究相关关系的一种常用的统计方法,它是建立在对客观事物进行大量实验和观测的基础上,来寻找不确定性现象中的统计规律性的统计方法,回归分析是通过建立统计模型研究变量间相关关系的密切程度、结构状态、模型预测的一种有效工具。但目前已有的结果是使用一个连续向量函数来近似描述相应的不确定性相关关系,这样就有比较大的局限性,类似于一般的函数可能有间断点或是分段函数的问题,本文将把回归函数的定义域作一个划分,然后在每一个子域中用一个连续向量函数来近似描述相应的不确定性相关关系,形成逐段回归统计分析问题。

1.回归分析模型

为叙述方便,我们借用函数关系中关于变量的称呼,将在不确定性关系中作为影响因素的变量X1,X2,…,Xk称为自变量,受自变量取值影响的响应变量称为因变量,用Y表示。假设X1,X2,…,Xk是可控变量,即它们的取值是可以预先给定的,Y是可测的随机变量,当X1,X2,…,Xk的取值为x1,x2,…,xk时,就有一个随机变量与之对应。令

E(Y│X1=x1,X2=x2,…Xk=xk)=f(x1,x2,…,xk),

(1.1)

从而其它随机因素导致的偏差就是

ε=Y-f(x1,x2,…,xk)

(1.2)

那么X1,X2,…,Xk与Y之间的不确定性关系可表示为

Y=E(Y│X1=x1,X2=x2,…Xk=xk)+ε

=f(x1,x2,…,xk)+ε,

(1.3)

通常要求随机误差ε的均值为0,方差存在,即

E(ε)=0,D(ε)=D(Y)=σ2。

(1.4)

函数f(x1,x2,…,xk)称为Y对X1,X2,…,Xk的回归函数,而方程

y=f(x1,x2,…,xk)

(1.5)

则称为Y对X1,X2,…,Xk的回归方程。

以上模型称为回归模型,其中回归方程是一个确定性的函数关系,它也称为理论回归方程。

在回归分析中,在应用上最重要并且理论上解决地最完善的是线性回归问题,所谓线性回归问题就是回归函数为线性函数的回归分析。其数学模型为:

Y=b0+b1x1+…+bkxk+ε,

(1.6)

其中E(ε)=0,D(ε)=D(Y)=σ2;b0,b1…,bk,σ2是未知参数。x1,x2,…,xk称为自变量、解释变量或预报因子,Y为因变量、应变量或预报对象。

为了确定线性回归模型中的未知参数,必须若干次观测,得到自变量与应变量的若干次观测值:

y1,x11,…,x1ky2,x21,…,x2k…yn,xn1,…,xnk

在这种情况下得到下述整体回归模型:

Y1=b0+b1x11+…+bkx1k+ε1Y2=b0+b1x21+…+bkx2k+ε2

…Yn=b0+b1xn1+…+bkxnk+εn

(1.7)

并假设

E(εi)=0 i=1,2,…,nDε1…εn=σ2In(1.8)

其中In为n阶单位矩阵。

为方便起见,通常引入矩阵表示上述模型,记

Y=Y1Y2…Yn,b=b1b2…bk,ε=ε1ε2…εn,y=y1y2…yn,X=1 x11 … x1k1 x21 … x2k… …

…1 xn1 … xnk。

那么整体回归模型就可写成

Y=Xb+ε。

(1.9)

利用最小二乘法容易求出其回归方程。

在一些实际问题中,变量之间的相关关系并不是线性的,而是对应某种曲线的非线性相关关系,而其中的许多可以转化为线性回归问题。

2.逐段统计回归模型

许多情况下不能仅用一个向量函数近似代替一种相关关系,而作分段处理效果更好。下面介绍逐段统计回归模型。

首先把回归函数的定义域I划分为互斥的子域Ii(i=1,2,…,m),然后在每个子域上再根据观测值的散点图来确定适当的回归函数,这就是逐段统计回归模型,具体表述如下:

Y1=f1(x11,…,x■)+ε1,(x11,…,x■)∈I1,Y2=f2(x21,…,x■)+ε2,(x21,…,x■)∈I1,

…Ym=fm(xm1,…,x■■)+εm,(xm1,…,x■■)∈Im,

(2.1)

并假设

E(εi)=0 i=1,2,…,m,Dε1…εm=σ21…1.(2.2)其中fi(xi1,…,x■■)(i=1,2,…,m)是逐段回归函数,εi(i=1,2,…,m)是满足(2.2)的随机误差。

3.数值示例

例:观测某系统得出如下数据

试求应变量Y与预报因子X的回归方程。

解:通过作散点图容易发现当预报因子不超过10时,其回归方程应该是一种指数函数,设为y=αeβt,而预报因子大于10时应该是线性回归问题。利用最小二乘法及变量代换法不难求出其回归方程为:

■=2.0642+0.2121x,1≤x≤10,109.2e-0.342x,10<x≤40.

【参考文献】

[1]张贺祺关于经济回归分析方法的使用评价,内蒙古财经学院学报,2011.(02):15-19.

[2]李世军,袁光才.城镇居民人均消费支出影响因素计量分析—基于成都市的实证分析,技术经济与管理研究,2006.(02):53-54.

[3]冯天祥.多元线性回归最小二乘法及其经济分析,经济师,2003.(11):129.

[4]傅惠民,吴琼.高温合金松弛过程回归分析方法,航空动力学报,2010.(02):1989-1993.

[5]徐全智,吕恕.概率论与数理统计,高等教育出版社,2010.

[6]杨虎,刘琼荪,钟波.数理统计,计算机仿真,高等教育出版社,2004.

上一篇:应用型本科财务管理专业实践教学体系的改革研... 下一篇:环形交叉路口的安全分析及优缺点分析