基于GM(1,1)和BP神经网络集成模型的我国人口数量时间序列预测研究

时间:2022-10-26 03:19:04

基于GM(1,1)和BP神经网络集成模型的我国人口数量时间序列预测研究

摘 要:由于GM(1,1)模型和bp神经网络模型在预测具有趋势变动和波动二重特性的时间序列时能优势互补,首先建立GM(1,1)模型对序列的趋势项进行预测,得到模拟值及残差序列,然后建立BP神经网络模型对残差值进行预测,最后用加法模型对二者预测值进行集成。我国人口数量时间序列实证结果证实了集成模型用于人口数量预测是有效性,且预测效果显著高于单一模型。

关键词:人口总量预测;GM(1,1)模型;BP神经网络模型;集成

中图分类号:TP183

很多时间序列一方面呈现出趋势变动性,另一方面呈现出波动性[1]-[2]。对具有此二重特性的时间序列建立预测模型,是学术界研究的热点问题。GM(1,1)模型所需要的样本数据量少,处理趋势性时间序列有较好的效果,而处理波动性的时间序列,效果往往不佳[3]。神经网络模型具有良好的学习能力和映射能力,在理论上一个三层的神经网络可以逼近任何函数。神经网络模型可以比较轻松地实现非线性映射过程,处理波动性的时间序列通常可以得到比较满意的结果,而处理具有线性特征的时间序列时效果一般不如GM(1,1)模型[4]。对于优势互补的单一模型,可以把它们组合起来建立集成模型,提高预测效果。研究结果表明:集成模型较单个预测模型考虑问题更系统全面,能有效减少单个模型预测过程中一些环境随机因素的影响,预测效果总体来说要高于单一模型[5]-[6]。

人口问题与经济、环境、社会等问题息息相关,是国家或城市规划的一个重要考虑因素,因此采用科学的、正确的和有效的预测方法对未来我国人口数量进行预测具有重要的现实意义。国内有代表性的研究有:王瑞娜、唐德善建立了基于改进的灰色gm(1,1)模型的人口数量预测模型[7];胡芬则建立了灰色-线性回归组合模型,并用以预测湖北省老龄人口数量[8]。总的来说,在对人口数量时间序列进行预测研究中,更多的是建立单一模型,应用集成模型的相对很少,且现有的集成模型主要采取对单个预测方法进行加权平均的形式,加权系数的确定也不够科学和客观。本文尝试提出基于GM(1,1)和BP神经网络集成的预测模型,该模型根据时间序列的特征,首先用GM(1,1)模型预测趋势变动项,用BP神经网络模型预测波动项,最后利用加法模型对二者的预测值进行合成,得到最终预测结果。

1 GM(1,1)和BP神经网络模型基本原理

1.1 GM(1,1)模型

GM(1,1)模型即单变量一阶灰色模型,是灰色系统理论的基本模型。其原理是对原始序列采取累加的方法,使生成序列呈现出一定趋势规律,并对生成序列建立微分方程模型,通过求解微分方程得到时间响应函数预测模型,实现对系统的预测。建模步骤如下:

(1)累加

1.2 BP神经网络

神经网络即基于误差反向传播算法的多层前馈神经网络由于其良好的逼近能力和成熟的训练方法而得到了广泛的应用。模型结构如图所示:

(1)BP网络设计:由于网络结构的确定至今没有统一的方法和理论,本文通过经验和多次实验确定各层神经元和节点的数目。

(2)归一化处理输入数据。

(3)BP网络学习过程及步骤:①置所有连接权值和阈值为最小随机数;②提供训练集给网络;③计算隐含层、输出层各神经元的实际输出;④计算实际输出和期望值的误差;⑤调整修正连接权值和阈值;⑥返回步骤③,直到误差满足要求为止。

(4)经过反归一化处理,即可得到预测值。

1.3 基于GM(1,1)和BP神经网络集成模型

考虑到GM(1,1)模型和BP神经网络模型各自的优点和不足,建立GM(1,1)和BP神经网络集成模型,对我国人口数量的时间序列进行预测。具体步骤如下:

(1)收集并整理原始数据。

(2)利用GM(1,1)模型,对原始时间序列进行模拟,得到模拟值及残差序列。

(3)用残差序列训练BP神经网络。

(4)利用训练好的神经网络进行仿真检验,并对残差序列进行预测。

(5)利用加法模型得到人口数量的预测值。

2 实证分析

2.1 数据说明

选取1949年至2011年共48期的人口总量数据。1950年至1970年间,由于当时的人口统计政策尚未完善,这20年间仅收录了1950、1951、1955、1960、1965和1970的人口数据。1982、1990、2000、2010年数据为当年普查数据推算数,其余年份数据为年度人口抽样调查推算数据,部分年份数据根据人口普查数据进行了修订。人口总量数据未包括香港特别行政区、澳门特别行政区和台湾地区的人口数据。数据来源于2012年中国统计年鉴。

2.2 组合预测模型构建过程

2.2.1 长期趋势项的灰色GM(1,1)模型构建

(1)首先,记原始时间序列为:

2.2.2 BP神经网络模型构建

取其中前44期作为历史数据样本,将前40期数据分为10行4列矩阵作为网络训练输入向量p,将将5到44期数据分为4行10列矩阵作为网络训练输出向量t,取44期中的第35到44期这10期分为10行1列矩阵作为网络检验用的输入向量h,取第39到48期数据检验训练好的网络的仿真效果,将这10期分为10行1列矩阵作为网络仿真用的输入向量k。经过不断训练试验,最终确定神经网络结构为:其中输入输出层各4个神经元,隐含层10个神经元,第一层传递函数为logsin,第二层传递函数为pureline。训练图和训练结果图如下:

由表1可以看出,4期的相对平均误差都很小,说明模型预测效果良好。

为了进一步检验集成模型的预测效果,比较集成模型与单一模型预测结果的平均绝对百分比误差(MAPE ) 指标,指标定义分别为:

式中N是预测样本数, 表示预测值, 表示实际值。显然MAPE越小,说明模型预测效果就越好。单一模型与集成模型预测效果的对比见表2:

通过平均绝对误差的对比检验可以看出,灰色GM(1,1)单一模型的平均绝对误差为6.255%,BP神经网络单一模型的平均绝对误差为2.67%,灰色神经网络组合模型的平均绝对误差为0.99%,通过比较发现集成模型具有较高的稳定性,拟合误差较小,可以很好地反映我国人口数量的发展动态。

4 结论与展望

本文通过构建GM(1,1)和BP神经网络集成模型,对我国人口总量进行预测。经过一系列的检验和对比,可以认为集成模型比单一模型预测效果更好,更能拟合人口总量时间序列的未来发展动态。这主要是因为灰色模型具有弱化数据波动、提取数据变化趋势等优点,而神经网络模型具有拟合非线性时间序列、良好的学习适应能力等优点,利用神经网络模型拟合误差项,从而起到修正误差项的作用。

集成模型虽然在预测精度上优于单一模型,但在一定程度上仍受单个模型预测准确性的影响。灰色GM(1,1)模型的预测误差随着预测期数的增加而增大。BP神经网络模型隐含层的层数和单元数的选择尚无理论上的指导,一般是根据经验或者通过反复实验确定,带有一定的主观性。另外,在时间序列呈现出大的波动时,运用BP神经网络模型还会过滤掉部分信号,预测效果就会差一些。因此,未来的研究中可以考虑引入小波变换或小波包分解的方法对波动数据进行消噪和分解,进一步完善这类时间序列的集成预测模型。

参考文献:

[1]谢星锋,谢东风,邹平.基于CBP的卷烟销售二重时间序列预测模型研究与应用[J].控制理论与应用,2007,12(6):1015-1020.

[2]宋仙磊,刘业政,陈思凤,许波.二重趋势时间序列的灰色组合预测模型[J].计算机工程与应用,2011,47(8):115-118.

[3]孙群,赵颖,孟晓风.基于灰色组合模型的校准间隔优化仿真[J].系统仿真学报,2008,5(29):296-299.

[4]熊志斌.基于ARIMA与神经网络集成的GDP时间序列预测研究[J].数理统计与管理,2011,30(2):306-314.

[5]Bopp A.E.On combining forecasts:some extensions and results[J].Management Science,1985,31:502-519.

[6]HorniK,Stinchcombe M,White H.Multilayer feed forward networks are universal approximators[J].Neural Networks,1989,2:359-366.

[7]王瑞娜,唐德善.基于改进的灰色GM(1,1)模型的人口预测[J].统计与决策,2007,20:93-95.

[8]胡芬.灰色-线性回归组合模型在湖北省老龄人口预测中的应用[J].长江大学学报(自然科学版),2011,8:11-13.

作者简介:龙会典:讲师,博士研究生;严广乐:教授,博士生导师。

作者单位:广东外语外贸大学信息学院,广州 510420;上海理工大学管理学院,上海 200093

基金项目:本文受上海市一流学科建设项目(S1201YLXK)、国家统计局科学研究计划项目(2012LY063)资助

上一篇:菱镁保温墙体温室大棚设计与施工 下一篇:浅谈网络安全与防火墙