基于主成分回归模型的哈尔滨市用水量预测

时间:2022-04-04 12:48:32

基于主成分回归模型的哈尔滨市用水量预测

摘 要:根据哈尔滨市1998~2007年的用水量数据,充分考虑社会经济因素对需水量的影响,选取解释变量,利用SPSS软件,先用主成分分析的方法确定有效变量,然后建立多元线性回归模型,对哈尔滨市的用水量进行预测,并且用1998~2009年的用水数据对模型进行检验,结果表明所建立的模型回归效果较好,可以用于对城市用水量的预测。

关键词:用水量预测 主成分分析 多元线性回归模型

中图分类号:F222.39 文献标识码:A

文章编号:1004-4914(2013)03-223-02

水资源是城市持续发展的前提,用水量预测是城市规划的基础。城市供水系统是市政基础设施的一项重要内容,进行城市用水量预测对于城市供水系统的规划管理以及市政建设资金的投入与合理利用有着相当重要的作用。

一、主成分分析的数学模型

用数据矩阵x的p个向量(即p个指标向量)X1,X2,…Xp作线性组合(即综合指标向量)为:

上述方程要求:

且系数aij由下列原则确定:

(1)Fi与Fj(i≠j,i,j=1,2…,p)不相关;

(2)F1是X1X2…,Xp的一切线性组合(系数满足上述方程组)中方差中最大的,F2是与F1不相关的X1X2…,Xp的一切线性组合中方差最大的,...,Fp是F1,F2…Fp-1都不相关的X1X2…,Xp的一切线性组合中方差最大的。

这样来确定系数aij的值。称F1,F2…,Fp分别为第一、第二…、第p个主成分,主成分的名次是按特征值大小的顺序排列的。

表示前m个主成分包含了原变量所具有的信息量。

二、主成分回归模型预测哈尔滨市用水量

(一)变量的选取及基础数据

影响城市需水量的因素有很多,城市的用水人口对居民的日常生活用水起着决定性的作用;城市的国民生产总值代表的这个城市整体的经济发展水平,而城市的需水量与经济发展水平有一定的相关关系,通常同等规模的情况下,经济水平较高的城市需水量较高;建成区绿化覆盖率代表一个城市生态环境的状况,与城市的公共事业用水的数量有关;工业用水重复率代表了城市的工业发展状况和节水水平,提高工业用水重复率是节约水资源的一项重要途径;年降水量与城市需水量一般成负相关,因为在降水量较多的年份,人工浇灌和市政浇洒绿地道路的用水量就会相应的减少。因此本文选取用水人口、国民生产总值、建成区绿化覆盖率、工业用水重复率、年降水量等五个因素作为解释变量,选取哈尔滨市1998~2009年的用水量数据及其相关因素数据作为样本,见表1。

(二)主成分分析法筛选变量

通过主成分分析的方法确定有效变量,具体步骤如下:

第一步:建立数据文件,定义数值型变量X1,X2,X3,X4,X5,Y,变量说明如下:X1-用水人口(万人);X2-国民身产总值(亿元);X3-建成区绿化覆盖率(%);X4-工业用水重复率(%);X5-年降水量(mm);Y-用水总量(万m3)。由于多变量的测量单位量纲不同,因此先对变量X1,X2,X3,X4,X5,Y进行标准化变换。

第二步:求R的特征值、贡献率和累计贡献率。

由表2可知,相关系数矩阵的特征根分别为:

λ1=2.997,λ2=1.063,λ3=0.828,λ4=0.101,λ5=0.012

第一个样本主成分的贡献率达59.933%,两个样本主成分的累计贡献率为81.190%,三个样本主成分的累计贡献率达到了97.741%,根据贡献率达到85%,因此选择三个公共因子。

第三步:得到初始因子载荷阵,确定x1,x2,x3,x4,x5是否为有效变量。

第一个主成分信息来源于X1,X2,X4三个变量,第二个主成分信息来源于x5,第三个主成分信息来源于x3,这三个主成分包含了所有变量的信息。

Y1=1.956X1+0.984X2+0.924X4

Y2=0.979X5

Y3=0.853X3

根据主成分分析结果可以看出,所选用的五个自变量均为有效变量,可以用于建立多元线性回归模型。

(三)模型建立

应用SPSS统计软件,可建立多元线性回归模型。

由表3,得到回归模型为:

Y=57.258X1+2.907X2+188.598X3-3705.312X4-5.387X5+289039.8

(四)模型检验

1.拟合优度检验。拟合优度R2=0.996,调整后的拟合优度Rˉ2=0.991,估计值的标准误差为288.05469,表明数据间有较强的回归关系,该回归方程是适合的。

2.对回归方程进行F检验。F的统计量为199.867,相应sig的F是值的实际显著性概率即P值,这里sig=0.000。给定α=0.05,显然P

3.对回归方程进行检验。回归系数的显著性t检验,需要对每个回归系数进行显著性检验。回归系数X1,X2,X3,X4和X5的回归系数均显著。

4.多重共线性检验。由表3的方差膨胀因子可以看出,X1,X2的方差膨胀因子大于10,说明自变量X1,X2与其他自变量之间存在严重的多重共线性。

5.异方差性检验。采用怀特检验法对模型进行异方差性检验。在显著性水平0.05下,χ2(5)临界值为11.071,n·R2=10*0.996=9.96

6.异常点检验。标准化残差最小值为-0.827,最大值为1.335,意味着标准化残差均小于3,因此没有异常值。

(五)模型修正

经检验,原模型存在多重共线性,剔除共线变量中相对不重要的变量X2。

由表4可以看出,回归方程系数是显著的,且消除了多重共线性。

修正后的模型方程为:

Y=103.849X1+285.047X3-3312.184X4-5.538X5+248497.856

三、模型预测及结果分析

采用修正后的回归模型

Y=103.849X1+285.047X3-3312.184X4-5.538X5+248497.856

对1998~2009年的用水量进行预测,并计算预测值与原始值的相对误差以及平均相对误差,见表5。

结果表明,所建立的用水量预测模型的预测相对误差与平均误差均小于5%,说明模型有效。

从回归方程可以看出,用水总量与X1,X3成正相关,因此要想控制用水总量就要控制人口的增长;由X3的系数可以看出建成区绿化覆盖率对用水总量的影响很大,说明公共事业的用水在用水总量中占着较大的比重,如何既提高建成区绿化覆盖率又能节约用水是一个很重要的问题;用水总量与X4,X5成负相关关系,其中降水量是人们难以控制的,而工业用水重复率对用水总量的影响是最大的,因此要想控制用水量就必须要提高工业用水重复率,节约工业用水。

[基金项目:黑龙江省教育厅科学研究项目(12521479)]

参考文献:

1.于秀林,任松雪.多元统计分析[M].北京:中国统计出版社,1999

2.沙之杰,周金峰.多元线性回归模型预测天津市用水量[J].西昌学院学报(自然科学版),2008(2)

(作者单位:黑龙江科技学院理学院 黑龙江哈尔滨 150027)

(责编:贾伟)

上一篇:武夷山市茶产业发展特征及对策研究 下一篇:山西省城镇居民消费支出的多元回归分析