基于上证指数收盘价标准差系数的时间序列预测

时间:2022-05-12 05:19:28

基于上证指数收盘价标准差系数的时间序列预测

摘要:稳定性是衡量股票市场风险程度的一个重要的指标,主要通过方差的计算来对稳定性进行度量。本文通过对上证指数2008年12月到2012年1月每月全部交易日收盘价的标准差系数进行研究,运用ARIMA时间序列技术,得出预测模型,对未来的标准差系数进行预测。

关键词:上证指数 ARIMA时间序列技术 标准差系数

金融市场周期性的危机在目前看来是不可避免的。无论是经济学家、统计学家,还是金融数学家,都在尽最大努力开发各种金融风险预警指标和方法,以求规避风险。2008年金融危机后,风险管理逐渐成为人们竞相追捧的领域。以往人们研究金融市场时总是倾向于把股票价格的概率分布描述成正态分布,本文在分析数据时发现,股票价格的标准差系数类似于白噪声过程一样的上下随机波动。基于这一点,通过对历史数据的分析,完全有可能通过时间序列的预测功能得到未来某时点上的标准差系数值,从而对未来短期内股票市场总体风险进行可量化估计。这为金融监管者提供了一种对金融市场风险的直观认识,以期在危机到来之前做好准备。

一、数据介绍

本文所用数据来自于上证指数2008年12月到2012年1月每月的全部交易日收盘价,由于股票价格指数的时间序列每月均值和方差都在变化,本文将不直接使用每月的全部交易日收盘价的方差来进行分析,而是先对原始收盘价数据求完方差后,再计算出每月全部交易日的均值,通过这两个数据得出标准差系数,它们的标准差系数数据如表1。

二、时间序列中ARIMA模型的建立

(一)序列图描述

本文数据是根据时间顺序排列,处理数据方法可采用时间序列分析技术。时间序列数据是随机过程的一个特殊样本,在时间序列分析中,常用时间序列数据样本对其背后总体的随机过程进行推断,包括对时间序列的数字特征的推断。在ARIMA分析中,我们常用的数字特征有:均值函数、自协方差函数、自相关函数和偏自相关函数。本文使用以上数字特征对数据进行平稳性检验、白噪声检验,最终得出模型方程。

平稳时间序列是指时间序列的统计特征不会随时间的推移而发生改变,即生成时间序列数据随机过程的统计特征不随时间变化而变化。平稳时间序列分为严平稳和弱平稳,严平稳的条件在现实生活中很难实现,而弱平稳则较为普遍。弱平稳的条件是:(1)E(Yt)=μ,即期望为常数;(2)Var(Yt)=σ2,即方差也为常数;(3)Cov(Yt,Yt-k)=E((Yt-μ)(Yt-k-μ))=γ(t,t-k),即随机过程两个间隔为k的随机变量间的协方差只与间隔k有关,与两变量所处的时点t无关。这是从数学角度的验证标准,在进行严格验证之前往往可以通过序列图的形状初步判断。一般地,平稳时间序列的序列图如果为一条围绕其均值上下波动的曲线,则可以认为是平稳时间序列。由本文数据得到的时间序列图如图1。

从图1可以看出,标准差系数从2008年12月骤然下跌,直观表明金融危机后期上证指数标准差系数的波动逐渐回稳,总体序列图成尖状脉冲图形,上下波动但不明显,需要做进一步的样本自相关函数检验。标准差系数作为衡量金融市场波动性的手段之一,反映外界信息对金融市场的冲击,无论是利好还是利空消息,都可能导致股票价格的突发性猛烈波动。由于整个金融市场中不良贷款的积累可能每20年出现一个峰值,这时候如果恰好遭遇标准差系数的波动峰值,若是利好消息引起的猛烈波动,则将加大不良贷款的违约风险,使系统崩溃提前发生;若是利空消息引起的,则可能导致极短时间内股价不可逆转的暴跌,在不良贷款和系统内波动的共同影响下,触发股市崩盘,引发金融危机。

这种标准差系数的波动还反映投资者的非理性投机行为。我国的金融市场刚刚兴起不久,政府干预力量巨大,相关法律不够健全,交易规则不够合理,风险管理意识淡薄。股票市场中小股民居多,他们往往缺乏投资的专业知识,对消息的敏感度高,当随机发生的信息进入股票市场时,就可能会引起投资者的强烈反应,所以序列图呈现尖状脉冲。

(二)ARIMA模型介绍

ARIMA模型是自回归单整移动平均时间序列的英文缩写,记为ARIMA(p,d,q),其中p是指组成ARIMA模型的自回归模型部分(AR(P))的阶数,记作Yt=φ1Yt-1+φ2Yt-2+...φpYt-p+μt,φ1、φ2、φp称为自回归系数,μt为随机干扰项,是一个白噪声过程;q是指ARIMA模型的移动平均模型部分(MA(q))的阶数,记作Yt=μt-θ1μt-1-θ2μt-2-...θqμt-q,μt、μt-1、μt-2、μt-q为滑动平均系数,是一组白噪声过程;d是指对原始数据差分的次数,在这里,“d阶单整”是指非平稳过程的时间序列数据d阶差分后是平稳的。所以ARIMA模型可写作AR模型与MA模型的合成,即:Yt=φ1Yt-1+φ2Yt-2+...φpYt-p+μt-θ1μt-1-θ2μt-2-...θqμt-q。为了简化模型,引入滞后算子L,定义:LYt=Yt-1,同理:L2Yt=Yt-2,...L2Yt=Yt-p,对MA模型也是一样:L2μt=μt-2,...Lqμt=μt-q。于是,ARIMA模型可化作:(1-φ1L-φ2L2-... φpLp)Yt=(1-θ1L-θ2L2-...θqLq)μt。定义差分算子Yt=Yt-Yt-1,d阶差分与滞后算子L之间有如下关系:d=(1-L)d。所以对于非平稳时间序列ARIMA(p,d,q),ARIMA模型可简化为:φ(L)(1-L)dYt=θ(L)μt。

(三)平稳性严格检验的数学原理及检验效果

上文提到,对于时间序列平稳性严格检验,我们采取样本自相关函数(AFC)来进行判断,自相关函数写作:γk=[(Yt-Y)(Yt+k-Y)]/(Yt-Y)2 (k=0, 1,2,......)

通过自相关函数可以看出,当K增大时,γk的分子将急剧减小,导致自相关函数减小,很快趋近于零,这种现象叫做截尾或拖尾。当出现截尾或拖尾现象时,可以认为时间序列是平稳的。用这种方法检验的ACF结果,并不拖尾或截尾,说明原始数据并不是平稳的,所以需要通过差分技术来对非平稳数据平稳化。经过尝试后认为三阶差分后效果最好,明显的围绕某个值上下波动的状态,而且没有趋势性,直观上可以认为三阶差分后的时间序列是平稳的。

(四)模型建立的数学原理与实证分析

下面进行ARIMA(p,d,q)模型建立。模型建立依赖于对组成ARIMA(p,d,q)的AR(p)和MA(q)中p和q的分别估计。下面引入AR(p)的偏自相关函数。对于AR(p)部分:Yt=φk1Yt-1+φk2Yt-2+...φkkYt-k+μt,偏自相关系数是指最后一个自回归系数φkk。它的作用是判断Yt和Yt-k是否有直接关系,而非通过各自与其他自回归系数建立间接关系。φkk有如下性质:对于AR(p),当k≤p时,φkk不等于0,反之则为0,也就是所谓的偏自相关函数的截尾现象。又因为φkk是随机变量的数字特征,所以如果找到其概率分布,即可通过假设检验判断φkk从p为何值起开始截尾,从而得到p值。数学家证明,当k>p时,φkk无限趋近服从均值为0,方差为1/n的正态分布。所以在0.05显著性水平下,可以通过计算机迭代得到p值。

对于MA(q)部分,则应使用其自相关函数ρk,此函数为:当k=0时,ρk=1;1≤k≤p时,ρk=(-θk+...θq-kθq)/(1+θ12+...θq2);k>q时,ρk=0,也就是自相关函数的截尾现象。所以,只需找出从何值开始,ρk=0,截尾现象出现,此值即为q值,这一切也可通过计算机迭代来实现。PACF三步截尾,可判断为平稳时间序列,从而得到p=3,q=1,d=3,所以ARIMA模型为ARIMA(3,3,1)。最后利用SPSS19.0的创建时间序列功能,得到模型白噪声检验以及参数估计值,如表2。

由表2可知,sig值为0.443,远大于0.05,可以认为模型显著性很高。由表3可知,AR部分的三个系数的sig值均小于0.05,接受估计值,但是发现MA部分的系数估计值的sig值大于0.05,可以拒绝估计值,但是当设q值为0时,即将ARIMA(3,3,1)改为模型ARIMA(3,3,0)后,得到的拟合曲线为图2,而q=1时的拟合曲线为图3。

对比图2和图3在2009年11月和2009年6月位置上的波动发现,图3的波动能够更好的拟合观测值,图2的标准差系数波动过大,所以图3的拟合效果好于图2,保留原来的模型假设,取ARIMA(3,3,1)。模型残差通过了白噪声检验。

从表3中还可以看到,常数项为 -0.785,sig值为0.985,远大于0.05,说明模型可以通过去除常数项进行优化,去掉常数项后MA的第一个系数的估计值的sig值为0.502,虽然仍大于0.05,但较保留常数项时表2中的sig=0.672有了较大改善,可以进行优化。最终得到的拟合图如图4。

可以看出,估计出的时间序列较好的拟合了实际时间序列图,虽然有一定偏差,但都在允许的范围内,而且比实际的标准差系数波动幅度大一点,可以为决策者提供决策的提前量。虽然BIC值和拟合优度上去掉常数和不去掉没有区别,但是从模型的简约性上讲,去掉常数优于保留常数。

三、模型结果、预测及意义

本文最后得到模型的数学表达式为:φ(L)(1-L)dYt=θ(L)μt。其中,L为滞后算子,φ(L)为自回归系数的特征方程, φ(L)=(1-φ1L-φ2L2-...φpLp);θ(L)为移动平均系数的特征方程,θ(L)=(1-θ1L-θ2L2-...-θqLq);μt为白噪声过程。代入参数得到预测模型的方程为:

Yt-1-1.898Yt-1+0.684Yt-2-0.107Yt-3 +0.407Yt-4+0.499Yt-5-0.451Yt-6=-0.99(Yt-1/Yt)+μt

经过拟合的序列图分析可知:最终得到的2012年1月预测值为0.415014和-1.291084。从上证指数2012年1月的数据算出的实际标准差系数为0.304233,结果差距不大,拟合值比观测值略向前平移了一个月的时间间隔,所以在实际应用中本文认为应将预测值对应的时间倒退1个月才是实际值对应的月份。预测图表现出尖状脉冲现象,对于短期的股票价格标准差系数预测具有较好的应用价值。

本文认为,标准差系数的波动主要反映的是股票市场外的信息对于股票价格的冲击程度,更深层次反映的是信息对于投资者心理的影响。如果可以测量各大股票指数如道琼斯工业平均指数、标准普尔500指数、纳斯达克指数、日经指数、香港恒生指数及上证指数的标准差系数的方差,或许可以比较各大股票市场投资者对于信息的敏感程度、理性程度以及投机成分含量,为未来我国金融改革提供数据支持。更深远的,由于信息是随机进入股票市场的,如果有一种方法能够测出信息发生的概率分布,将是对风险预警领域的一种巨大贡献。标准差系数能够间接反映信息对投资者乃至整个股票市场的影响程度大小,或许可以以此为一种测度方法,对影响市场的信息进行更深层次的研究。

四、结论

上证指数作为我国最重要的股票指数之一,反映我国金融改革步伐和经济发展脉博。外界对股票市场的冲击不可避免,但冲击后的结果因股票市场中投资者的风险承受力大小、对信息的敏感程度以及整个金融系统的稳定程度而异,这三点是可以控制的。所以金融监管部门可以通过本文数据估计出股票市场将要遭受的冲击,进一步推断出其他风险耐受程度指标,尤其是投资者对信息的敏感程度。这对于理性投资、冲击预警以及金融监管等领域都有重要的指导意义。

参考资料:

1.张龙,王文博,曹培慎.计量经济学[M].北京:北京交通大学出版社,2010.

2.宇传华.SPSS与统计分析[M].北京:电子工业出版社,2007.

上一篇:内部控制审计报告对上市公司的影响小议 下一篇:低碳经济下企业环境会计信息披露研究