ARIMA模型在教育预测中的应用

时间:2022-07-01 06:05:30

ARIMA模型在教育预测中的应用

摘要:基于时间序列数据的教育预测方法较多,主要有趋势外推法、人口离散预测模型、生命表法、灰色预测法、线性回归模型、分布滞后模型、Logistic模型、人工神经网络方法等,对一些代表性的方法作了简单的概括,在此基础上,通过构建arima模型拟合湖南中等职业教育的发展趋势,对湖南2007―2011年中等职业教育发展规模进行客观预测

关键词:职业教育;教育预测;ARIMA模型

中图分类号:G40-03文献标志码:A文章编号:1673-291X(2008)06-0189-02

一、文献综述

基于时间序列数据的教育预测方法较多,主要有趋势外推法、人口离散预测模型、生命表法、灰色预测法、线性回归模型、分布滞后模型、Logistic模型、人工神经网络方法等。下面对这些代表性文献予以简单的概括。

曹志祥、高书国(2004)以全国及城乡全部0~17岁人口为高中阶段教育发展预测的基数,采取低预测、中预测和高预测三种方法,从普通高中阶段教育入学率的40%左右到85%之间,以每5个百分点为界对在校生规模进行具体预测,从而得到不同入学率下的2003―2020年全国高中阶段教育招生规模[1]。

李霞、刘家壮(2004)以基础教育发展为研究对象,在应用新增人口的离散预测模型基础上,分别建立了小学和初中招生数、分年级在校生规模、在校生总量、专任教师需求和补充规模的预测模型。

王金营、王绍杰(2006)根据2000年河北省人口普查资料构造出河北省教育生命表。在对2000年河北省教育状况作出合理分析的基础上,对未来20年内河北省各教育阶段升学率作出了高中低三种方案的设计

马守春(2006)根据1997―2003年自治区人口出生数,建立GM模型用于预测若干年内新出生人数,并分别建立了基础教育阶段在校生总量和分年级在校生的预测模型。

谢作栩、黄荣坦(2000)以20世纪下半叶我国高等教育学生数和高等教育毛入学率的波动为研究对象,主要采用线性回归分析方法考察高等教育规模扩张过程的发展趋势,得到中国高等教育毛入学率的增长趋势方程,并外推出今后10年高等教育规模的发展趋势[2]。

邱雅(2005)运用带有自回归项的分布滞后模型对我国高中教育发展规模进行计量预测与分析。这种预测采用逐步推算的方法,分五个步骤进行:首先预测小学毕业生数;由小学毕业生数预测初中招生数;由初中招生数预测初中毕业生数;由初中毕业生数预测职前高中招生数;由职前高中招生数预测职前高中的规模[3]。

苗红、李全生、吴建伟(2004)采用logistic方程作为高等教育发展规模预测模型,根据时间序列回归确定模型参数,对1980―2002年的历史数据进行了拟合,并对高校在校生人口的比重进行了短期和长期预测[4]。

刘迎春(2005)运用MATLAB神经网络工具箱的线性网络模型对上海市1980年至今的职业教育规模进行了分析,并比较了不同的输入向量个数、不同训练样本个数对预测结果的影响[5]。虽然线性网络能够在保证误差平方和最小的意义下逼近非线性问题,但它却不能够无误差地解决非线性问题。该方法还要求数据量足够多,这样预测的值就越精确。

从上述分析我们可以看出,不同的预测方法其建模思想、前提条件是不同的,对于教育预测而言,我们应该选择预测精度高、模型形式相对简单的方法。本文中我们将选用ARIMA模型,这是被普遍称之为博克斯――詹金斯(BJ)方法论的新预测方法,在“让数据自己说话”的哲理的指引下,着重于分析经济时间序列本身的概率或随机性质,而不在意于构造单一方程抑或联立方程模型。该方法既不需要设定一些关键参数(或变量),也不需要在预测最终变量之前先对模型中的相关变量作预测,因而能够降低预测的误差。

二、ARIMA模型的构建

为了构建ARIMA模型以预测湖南中等职业教育发展趋势,我们选取了中职在校生数(zxsrs)作为湖南中等职业教育发展规模的观测指标。通过搜集1978―2006年湖南中职在校生数的统计数据,运用Eviews3.1软件,我们做出了1978―2006年湖南中职在校生数的折线图。从图形上看,中职在校生数带有明显的时间趋势,应该为非平稳序列。因此,我们对中职在校生数(zxsrs)做单位根检验,检验式中包括截距项,所得检验结果如表1所示,相应的检验式为:

(0.3080)

表1给出了检验结果(ADF=0.3080)。很明显,该值比三个给定的临界值都大,可见中职在校生数(zxsrs)是一个非平稳序列。这样一来,我们就应该继续对中职在校生数(zxsrs)的一阶差分序列进行单位根检验。检验结果如表2所示:

从表2可知,ADF=-4.3325,小于不同检验水平的临界值,可见中职在校生数(zxsrs)的一阶差分序列?驻zxsrst是一个平稳序列。因此zxsrst,~I(1),为一阶单整序列,可以用ARIMA模型来模拟其变化规律。

首先观察自相关系数和偏相关系数的图形,可以看出,序列的自相关系数是拖尾的,偏相关系数在5阶截尾,由此可以判断序列基本满足AR(5)过程。通过ARIMA建模发现,AR(1)、AR(2)、AR(3)、AR(4)的系数均没有显著性,因此,剔除这四项继续估计,所得估计结果如表3所示:

对应的模型表达式是:

D(ZXSRS)= 2.6073 + [AR(5)=-0.5022](2)

Se=(0.7375) (0.2329)

t=(3.5352) (-2.1567)

R2=0.1813

为了判断模型(2)是不是对数据的一个良好的拟合,一种简易的诊断是求出模型(2)中的残差并计算这些残差的自相关(ACF)和偏相关(PACF)。残差序列的自相关图和偏相关图右侧给出相对于每一个滞后期的自相关系数和偏相关系数值。我们发现,没有任何自相关和偏相关是个别地在统计上显著的。最右侧Prob列中的数字表示相应自由度条件下统计量取值大于相应Q值的概率。因为这一列概率值都大于0.05,说明所有的Q值都小于检验水平为0.05的分布临界值。自相关和偏相关的相关图表明,从模型(2)估计出来的随机误差序列是一个白噪声序列,我们没有必要再去寻觅其他的ARIMA模型了。

三、模型评价及预测

在利用模型(2)进行预测之前,我们需要对模型的预测功能进行评价。通常的做法是将整个样本区间分成两个部分,用前一段数据估计模型,然后利用所估计的模型对余下的数据点进行预测。一般是用85%~90%的数据进行估计,剩余的数据进行检验。通过实际值和预测值的对比,评价模型的预测功能。因此,我们先用1978―2003年湖南中职在校生数建立模型,对2004―2006年湖南中职在校生数进行预测,然后用2004―2006年湖南中职在校生数的实际值作为检验性数据,考察实际值与预测值之间的偏差。模型估计结果为:

D(ZXSRS)=2.5781+[AR(5)=-0.4922](3)

Se=(0.8484)(0.2848)

t=(3.0389)(-1.7286)

R2=0.1424

利用模型(3)我们可以求出2004―2006年湖南中职在校生数的预测值。将这些预测值的点连成曲线,与实际值的折线图对比。从图中我们发现,2004―2006年的实际值与预测值几乎是重叠的,表明模型具有较好的预测能力。因此,我们可以依据模型(2)及1978―2006年湖南中职在校生数的实际值来预测2007―2011年的湖南中职在校生数,预测的结果如表4所示:

参考文献:

[1]曹志祥,高书国.全国高中阶段教育发展预测[J].基础教育参考,2004,(10):8-11.

[2]谢作栩,黄荣坦.20世纪下半叶中国高等教育规模发展波动研究――兼21世纪初高等教育发展预测[J].教育研究,2000,

(10):15-27.

[3]邱雅.我国高中教育发展规模的计量预测与分析[J].教育与经济,2005,(2):48-53.

[4]苗红,李全生,吴建伟.我国高等教育发展规模的分析与预测[J].中国地质大学学报:社会科学版,2004,(3):75-77.

[5]刘迎春.中等职业教育规模的神经网络预测[J].系统仿真技术,2005,(3):158-163.

上一篇:编辑的主体性与期刊质量 下一篇:多元回归分析在教育预测研究中的运用