基于信息粒化和支持向量机的股票价格预测

时间:2022-05-20 01:01:21

基于信息粒化和支持向量机的股票价格预测

摘 要:信息粒化是进行海量数据挖掘和模糊信息处理的有效工具。本文提出了一种基于信息粒化和支持向量机的股票价格预测方法。利用长安汽车的股票数据,建立股票开盘价回归预测模型,该模型克服了传统时间序列模型仅局限于线性系统的情况。应用实例表明:该方法能有效地预测股票价格的变化范围。

关键词: 信息粒化;支持向量机;股票价格

中图分类号: F224;F830.91 文献标识码: A 文章编号:1003-7217(2011)06-0044-04

一、引 言

随着我国证券行业的飞速发展,股票投资已成为许多家庭和个人理财的一种重要方式,是很多家庭财产收入的重要组成部分。股票市场具有高风险与高收益并存的特性,股票价格的涨跌及变化趋势也一直受到政府和投资大众的密切关注,证券市场的波动也逐渐成为衡量我国经济发展水平的一个重要指标。因此,股票价格的预测已成为经济学中一个重要的研究课题。已经有很多学者做了大量的研究,也提出了很多方法。但从模型的理论基础来看我们可以将其划分为两个主要的类别:一类是以统计学原理为理论基础的波动率预测模型,其中较为常见的模型有ARCH模型和SV模型等;另一类则是以灰色理论、神经网络、支持向量机等理论为基础的预测模型。其中支持向量机方法最大的特点就是改变了神经网络中的经验风险最小化原则,转而采用结构风险最小化原则,从而具有良好的泛化能力。另外,支持向量机在处理非线性问题时,通过用一个核函数来代替高维空间中的内积运算,从而将非线性问题转化为高维空间中的线性问题,非常有效地克服了维数灾难以及局部极小的问题[1]。我国学者彭丽芳等[2]于2006年提出了一种基于时间序列的支持向量机股票价格预测方法,并对股票的收盘价进行了回归预测,克服了传统时间序列预测模型仅局限于线性系统的缺点;史耀媛[3]于2006年在分析中国股市混沌特征的基础上,提出了基于SVM的股市时间序列预测算法和股市基本趋势模式识别算法,在基于小波变换和模糊系统原理的基础上改进了基于支持向量机的股市时间序列预测算法和股市基本趋势模式识别算法;李拥军等[4]在2006年提出了一种改进的快速增量加权支持向量机算法并用于证券指数预测。上述预测方法只能得到股票价格的点预测,但在现实生活中,投资者还想知道股票价格的波动范围[5]。为此,我们先将原始数据进行粒化,在此基础上构建支持向量机的预测模型,并以此来预测股票价格的波动范围。

二、基于信息粒化的支持向量机预测方法

信息粒化(Information Granulation)这一概念最早是由L.A.Zadeh教授于1979年提出的,自此之后,研究人员对信息粒化的思想产生了浓厚的兴趣。L.A.Zadeh教授认为很多领域都存在信息粒的概念,只是在不同领域中的表现形式不同。所谓信息粒化就是把大量复杂信息按各自的特征和性能将其划分成若干较简单的块,而每个如此划分出来的块被看成一个粒,这种处理信息的过程就被称为信息粒化。例如:停车场问题的信息粒,就是按车子的性能、型号、大小或牌号而将停车场划分成若干块,其每一块将停放一种性能或一种型号或一种大小或一类区域牌号的车子[6]。粒可以是密集的或稀疏的、清晰的或模糊的,它完全依赖于粒的边界是否被准确地定义而定。例如:学校中的小学类、中学类、大学类等就是清晰粒,人类头部中的鼻子、耳朵、额头、脸等就可以看作是一种模糊粒[7]。信息粒可以表示成如下形式:

g(x is G)is λ

其中,x是论域U中取值的变量,G是U的模糊子集,由隶属函数μG来刻画,λ表示可能性概率,一般假设U为实数集R(Rn),G是U的凸模糊子集,λ是单位区间的模糊子集[8, 9] 。模糊信息粒就是以模糊集的形式表示的信息粒,常用的模糊信息粒子有三角型、梯型、高斯型和抛物型等。

用模糊信息粒化方法进行支持向量机回归预测的步骤如下:

1.提取原始数据。

2.对原始数据进行模糊信息粒化,得到粒化后的原始数据。

本文拟采用三角型模糊粒子对数据进行处理,其隶属函数为:

A(x,a,m,b)=0,x<ax-am-a,a≤x≤mb-xb-m,m<x≤b0,x>b (1)

财经理论与实践(双月刊)2011年第6期2011年第6期(总第174期)喻胜华,肖雨峰:基于信息粒化和支持向量机的股票价格预测

其中x是论域中的变量,a、m和b是参数。

3.利用支持向量机对粒化数据进行回归预测。

支持向量机回归的基本思想是利用非线性映射将样本数据映射到高维的特征空间中,并在该空间中进行线性回归。支持向量机的目标是寻求回归函数:

y=f(x)=(w•x)+b(2)

式(2)中w为权重,x为样本输入值,b为阈值。

在高维特征空间中,线性问题中的内积运算可以用核函数来代替,而核函数可以用原空间中的函数实现,没有必要知道非线性函数的具体形式。

从已有的研究成果来看,Gauss径向基核函数在大多数情况下都取得了较好的预测效果,因此,本文沿用前人的经验采用Gauss径向基核函数,即:

K(xi,x)=exp (-γxi-x2)(3)

选取不同的核函数对支持向量机性能的影响并不大,但所选取的核函数的参数和误差惩罚因子C却严重影响了支持向量机的泛化推广性能,因此,针对核函数和误差惩罚因子的参数选择方法尤为重要。目前常采用交叉验证的方式来选择最优参数,其思想是将样本数据进行分组,一部分作为训练集,另一部分作为验证集,首先用训练集对学习机器进行训练,再利用验证集检测训练得到的模型。在交叉验证的思想下,参数寻优方法又可分为启发式算法和非启发式算法。启发式算法主要有遗传算法、粒子群优化算法和蚁群优化算法等,而非启发式算法主要有网格搜索法。

4. 给出预测变量的变化趋势并验证预测效果。

对建立的支持向量机回归预测模型可以使用均方误差、均方根误差、平均绝对百分比误差、平均绝对误差以及预测准确度等统计量来检验其预测和拟合效果。

三、应用实例

为了证明方法的一般性,我们在上市公司中随机抽取了一只股票(长安汽车(000625)),选取长安汽车2007年1月11日~2010年1月29日的每日开盘价进行分析(数据来源于新浪通信达股票数据库),以前644天的数据作为训练集建立支持向量机回归预测模型来预测后5天的开盘价。首先对原始数据进行提取,接着对开盘价进行模糊信息粒化,利用式(1)的三角型模糊粒子以5个交易日为一个窗口将训练集进行粒化,结果如图2所示。

针对每个窗口都得到3个模糊粒化后的变量:low, R和up, 它们分别对应三角型模糊粒化公式中的a, m和b三个参数,其中对于单个模糊粒子而言,low参数描述了原始数据变化的最小值,R参数描述了相应的原始数据变化的大体的平均水平,up参数描述了原始数据变化的最大值[10]。

接下来分别对low, R和up进行回归预测,首先将数据进行预处理,这里将粒化数据进行归一化,然后利用支持向量机回归预测模型来进行预测。

因为三个变量的预测过程类似,这里只给出low的运行结果,首先将low进行归一化处理,结果如图3。接着利用网格寻优进行模型参数的选择,先在大范围内做粗略的参数寻优找到其大致的范围,再图5 对Low变量进行参数精细选择的结果进行较小范围内的精细寻优,结果图4和图5。

得到最佳的c=256, γ=0.08839,利用最佳参数确定的模型对训练集进行训练,可以得到对训练集预测的对比图即图6。利用类似的方法,可以得到对R和up的模型参数并建立模型对其进行预测,从而预测出下5个交易日内开盘价的最小、平均和最大值,表1是预测结果与真实值的对比。

四、结 论

近年来,信息粒化这一研究领域已引起了国际上许多著名学者的关注,并做了许多相关的研究工作,该方法在医疗诊断等领域已取得了良好的应用效果。而支持向量机在解决小样本、非线性及高维模式识别中表现出许多特有的优势,并能够推广到函数拟合等其它机器学习问题中。本文把信息粒化方法和支持向量机结合起来,对长安汽车的股票价格进行了预测。通过表1 可以看出:与前5个交易日相比,长安汽车股票的开盘价有整体下降的趋势,并且,5天内长安汽车股票的开盘价都在我们的预测范围内,这说明基于信息粒化的支持向量机回归预测方法有较好的预测效果。支持向量机在小样本情况下表现出出色的分类能力,但其核参数的选取常常并不尽如人意,而信息粒化方法通过群体中个体之间的协作和信息共享来寻找最优解,其特点是收敛速度快,而且没有很多参数需要调节,容易实现。通过两者的结合,可取长补短。当然,该方法还处于尝试和起步阶段,尚存在许多不足之处:

1.该方法不能精确地预测出未来每天的股票价格,而只能确定其大致的波动范围。

2.该方法不能从理论上给出区间预测的可靠度。

3.从本文的应用实例来看,尽管该方法的可靠度达到了100%,但预测的精度不是很理想。

4.模糊粒子类型的选择、核函数的选择以及参数范围的设定等都具有很大的主观随意性,而这在实证分析中会直接影响预测效果。

综上所述,该方法的可靠度、预测精度、稳健性以及适应范围等问题还有待进一步研究。

参考文献:

[1]T.Hastie, R.Tibshirani, J.Friedman. The elements of statistical learning:data mining,inference and prediction[M]. Springer Series in Statistics, 2009:371-409.

[2]彭丽芳,孟志青,姜华. 基于时间序列的支持向量机在股票预测中的应用[J].计算技术与自动化. 2006,25(3):88-91.

[3]史耀媛. 基于支持向量机的股市分析与预测方法研究[R]. 西北工业大学博士学位论文, 2006.

[4]李拥军,奉国和. 快速增量加权支持向量机预测证券指数[J]. 控制理论与应用. 2006,23(5):807-809.

[5]关华.基于GARCH族模型的深证成指价格波动研究[J].湖南大学学报(社科版),2011,(3):62-65.

[6]刘清, 刘群. 粒及粒计算在逻辑推理中的应用[J]. 计算机研究与发展,2004,41(4):546-551.

[7]李鸿. 粒集理论:粒计算的新模型[J]. 重庆邮电大学学报(自然科学版),2007,19(4):397-404.

[8]王国胤, 张清华,胡军. 粒计算研究综述[J]. 智能系统学报,2007,2(6):8-26

[9]黄兆华,邓毅雄. 粒计算及其应用的研究[J]. 华东交通大学学报,2005,22(5):124-127.

[10]王斌会. 数据挖掘技术及其应用现状[J]. 统计与决策,2006,(5):122-124.

Forecasting Method of Stock Price based on Information Granulation and Support Vector Machine

YU Shenghua1, XIAO Yufeng 2

(1. School of Economics and Trade, Hunan University, Changsha, Hunan 410079,China; 2. School of Mathematical Sciences and Computing Technology, Central South University, Changsha, Hunan 410075,China)

Abstract: Information granulation is a powerful tool for massive data mining and fuzzy information processing. In this paper, a new forecasting method of stock price based on information granulation and support vector machine is put forward. Using the stock data of Changan Automobile, a regression prediction model of the opening price is established. This model abstains from the default of traditional time series prediction model that only can be used in linear system. The empirical analysis indicates that the above method can effectively predict the change range of the stock price.

Key words:Information granulation; Support vector machine; Stock price

收稿日期: 2011-06-20

基金项目: 国家自然科学基金资助项目(10771217)

作者简介: 喻胜华(1966―),男,湖南宁乡人,湖南大学经济与贸易学院教授,研究方向:数量经济学。

上一篇:大股东控制、市场化程度与公司现金持有水平 下一篇:金融危机对证券市场波动溢出的影响研究