基于数据挖掘的长株潭城市群消费研究

时间:2022-03-08 05:17:02

基于数据挖掘的长株潭城市群消费研究

摘要:在中部崛起战略推进和长株潭城市群建设全国资源节约型和环境友好型社会的背景下,长沙、株洲、湘潭三地也迎来深入发展的机遇,长株潭地区面临着经济结构调整、促进内需、提升消费等问题。本文以社会消费品零售总额为研究对象,从宏观经济数据的角度运用数据挖掘中的统计方法和神经网络来分析影响城市和城市群消费的显著性因素,并对消费总体规模进行预测,以提供一个提升城市群消费水平的参考视点。

关键词:长株潭城市群;数据挖掘;逐步线性回归;BP神经网络

中图分类号:F207文献标识码:A文章编号:1672-3309(2008)05-0026-05

1.引言

消费、投资和净出口共同构成整个国民经济,消费对国民经济起着支撑作用。2004年统计数据显示,7个主要工业化发达国家消费率英国最高达86.53%,其次是美国86.13%,平均比例达到79.93%,消费对经济贡献相当显著,4个新兴经济体中俄罗斯、印度、巴西消费比重分别为65.19%、70.88%、79%,中国的这一比例为54.44%。就地区而言,2006年湖南消费率为60.95%,长株潭城市群总体消费率仅为46.33%,提升消费对中国经济的贡献空间广阔。中国的经济发展由粗放的产值增长和供应推动型,向集约化、需求拉动型转移,将是我国城市经济发展的必由之路。

城市群这一区域经济模式对国民经济发展起着重要作用。美国三大城市群对美国经济整体贡献率为67%;日本三大城市群对日本经济整体贡献率超过70%;而中国的珠江三角洲、长江三角洲、京津唐环渤海湾地区三大城市群对中国经济整体贡献率仅达35%。从地区来看,目前长株潭城市群占全省经济比重为37.9%,影响力、吸引力和辐射力有很大的成长空间。城市群消费水平不仅是人民生活水平的体现,也是区域经济实力和城市群竞争力的重要因素。

当前城市群研究,针对城市主要有城市化、城市开发区、产业结构、房地产经济、城市基础设施、城市可持续发展、城市竞争力、城市发展战略等方面,而作为城市集合体的城市群其研究则包含城市群概念与内涵、城市群类型和模式、城市群形成机制、城市群空间结构、城市群规划、城市群协调发展、城市群发展阶段等领域。总的来说,由于城市和城市群的系统特征,使得该领域的研究具有系统性和复杂性,目前对于城市竞争力、城市产业以及城市可持续发展研究等方面有着较多关注。

本文运用数据挖掘方法研究城市群消费,以SAS的Enterprise Miner及SEMMA方法为工具,对长株潭城市群消费进行分析。研究发现,影响长株潭城市群消费显著性因素在于财政、农业和人口因素,分地域影响因素则具多样性。研究先采用双重逐步线性回归对各区域层次消费的显著性因素进行筛选,分析其特征及问题;然后参考城市群回归方程所提取变量,运用BP神经网络模型对线性回归模型的预测进行优化;通过回归模型和神经网络模型建立城市群问题发现和预测模型,对城市群消费进行监测。

2.影响消费的显著性因素分析

研究的目标变量为社会消费品零售总额,分15个地区、3个地级市辖区以及城市群总体的层次进行系统分析。考虑到各县市有其各自特征,各统计指标对于社会消费品零售总额的贡献度存在差异,因此在变量选取上应尽量考虑到多种因素的共同影响。数据样本来源于1990-2007年《湖南统计年鉴》,由于数据统计口径、一致性、完整性等因素,主要从数据源中抽取以下指标,指标及变量说明见表1。

2.1 逐步回归方法

要考察各因素增长对消费的贡献度,则采用线性――对数多元回归模型。变量同时进入模型可提高拟合优度,但解释变量之间可能存在共线性,估计结果无法通过显著性检验。综上,采用逐步回归分析对多种影响因素中的主要影响因素进行筛选。回归方法选择逐步筛选法(Stepwise),逐步筛选法每次引入模型一个最显著变量,然后考虑从模型中剔除一个最不显著变量,直到既无变量引入也无变量剔除为止,也称双重逐步回归。模型选择标准交叉验证误差,从验证数据集中选择最小误差,这种方法类似于以SSE为标准选择最佳模型。

2.2 逐步回归结果

城市群总体:

Y=-16671192.36+3942965.34lnX10

+3331453.3lnX12-11630474.75lnX15

t= (-2.201590) (3.169381) (5.204872) (-5.789535)

p= (0.0031)(0.0068) (0.0001) (0.0000)

R2=0.989067;R2=0.986725;F=422.1905

按地级市辖区分长沙、株洲、湘潭三市:

长沙市:Y=-305296767.4+53288202.23lnX1-7664702.56lnX15

t= (-18.53315) ( 22.77283)(-4.635727)

p= (0.0000)(0.0000) (0.0003)

R2=0.973299; R2= 0.969739; F=273.3870

株洲市:Y=-10402017.23+914793.66lnX10

+173356.02lnX11+397082.87lnX12

t= (-22.11772) (5.467101) (3.590788) (3.160809)

p= (0.0000)(0.0001) (0.0030)(0.0069)

R2=0.991155; R2= 0.989259; F=522.9165

湘潭市:Y= 345212.81lnX13-876304.47lnX17

t= (44.09447) (-37.10352)

p= (0.0000) (0.0000)

R2= 0.991513; R2= 0.990983; F= 1869.232

分县市区域结果归纳如表2,变量顺序按贡献度降序排列。

以上回归截距变量及偏回归系数均具有显著性,县市域方程省略了方程具体形式。望城县、炎陵县与湘潭市地市一级方程采用了逐步回归建立NOINT方程的方法。

2.3 实验结果评价

分县市区域结果中,中心城市长沙市区、株洲市区、湘潭市区模型变量与Y全部正相关。长沙市区方程变量贡献度X18>X12>X17;株洲市区方程变量贡献度X1>X12;湘潭市区的方程X3>X12>X7>X16。所有正相关变量中,X3对消费均存在正相关特征,相对突出的是湘潭市区;收入因素X4和X5对消费均产生正向影响;财政因素X12和X13对居民收入、经济和消费环境产生影响,均与消费呈正相关;所有负相关变量中,X2均显示出与消费显著负相关的性质,变量见于宁乡县、茶陵县和炎陵县的方程中,从经济学角度理解,从业人员增加可能降低平均工资而影响消费。X14-X18这5个变量主要是教育和医疗相关变量,呈现出中心城市正相关,县域城市负相关的特点。

地级市辖区模型中,从贡献度看,长沙市X1>X15,株洲市X10>X12>X11,湘潭市X13>X17。从相关性来看,除株洲市全部正相关外,长沙市与湘潭市分别存在负相关变量X15、X17,长沙市中等学校教师和湘潭市医务工作人员其人口比例增加将降低消费。值得注意的是,对比长沙市方程与所辖县市方程发现,X15未进入县市地区回归模型中,湘潭市的X17也未在辖区方程中出现,可见,由于分析的区域层次不同,某些因素可能被掩盖。

城市群总体方程中,贡献度X10>X12>X15。农业机械动力贡献度较高,提高农业机械化程度,会对消费产生较大影响;财政收入构成因素较多,它包括国内增值税、企业所得税、营业税、增值税和消费税、个人所得税等,财政收入增长,会影响社会消费;与财政收入对应,财政支出包括公务支出、国防、教育、卫生、社会保障及福利、住房和公共环境等,对消费环境具有广泛影响,其本身与消费相关度较高,但未进入模型;负相关变量X15其数量变化对消费影响相对较大,应考虑中等教育队伍质的提升而不是量的增加。

总的来说,双重逐步回归所得到的模型,对显著性变量的筛选是有效的,回归方程线性拟合和预测的特征,使其预测相对误差较大,以下将通过非线性拟合的方式对城市群消费总量进行拟合预测。

3.基于BP神经网络的消费预测

3.1 BP神经网络

神经网络模拟人脑工作,它由网络分布的神经元构成,神经元层次连接成知识处理和表达系统。BP神经网络属于前馈神经网络,是多层感知器(MLP)系统,它采用反向传播学习的方式对前馈神经网络进行训练。其原理是,对于每个训练实例,反向传播首先通过网络反馈实例,并计算网络输出,输出节点的误差反向传播到与其相关的节点并修改其网络权重值,进行充分迭代后,反向学习一定收敛。BP神经网络的网络拓扑结构如下所示:

一般而言,隐层的数量主要要考虑到输入变量的数量、训练数据中观测值的数量、训练数据潜在分布的噪声等级因素等。

3.2 结构与方法

BP神经网络具备很强的非线性映射能力,模型输入变量的选取以城市群回归模型及其变量作为参考,实验过程中根据模型拟合效果考虑变量的去留。备选变量主要考虑与目标变量的相关程度,根据模型需要选择,最终输入变量为X6、X10、X12、X13、X19,输出变量为Y。理论和实践证明,在数据显著性和可靠性的保证之下,仅含一个隐层的BP神经网络通过调整隐层神经元的数量足以解决许多复杂问题,因此优先使用三层网络结构。通过实验,网络结构最终选择5-14-1,即隐层含14个神经元,学习率0.022。

归一化采用标准差方法,它通过标准差来除以输入值减去样本均值将输入变量转换到[0,1]之内,为EM的默认方式。激活函数采用双曲线Tanh函数,其函数形式为:f(x)=(exex)/(ex +ex),该函数值域

[-1,1],符合神经网络特性,且比其它函数具有更快的收敛性能。模型选择采用平均误差方法选择平均误差较小的模型,目标变量为区间型变量适合采用这种方法。考虑对模型进行泛化,将数据分区为训练数据、检验数据、测试数据,分区比例为80%、10%、10%,综合考虑训练数据与非训练数据的平均误差大小来选择模型。

3.3 预测结果评价

模型平均误差参数及输出值对照如下:

神经网络模型中分析模型对样本规律的逼近情况,即泛化能力,要考虑训练数据与非训练数据之间误差的大小,不能只考虑拟合能力。若非训练数据平均误差小于或接近于训练数据平均误差,则模型反映了数据所蕴涵的规律。在误差参数中,检验数据和测试数据平均误差小于训练数据平均误差,同时模型中预测值相对误差小于10%,模型基本上反映出数据内在的规律,认为该神经网络模型是合理的。

4.结论与展望

通过以上研究,可以得出以下结论:

(1)从消费增长的角度观察,影响因素存在区域层次差异,刺激消费要注意总体和个体区别,灵活采取策略。城市群区域总体要注重农业机械动力的投入、扩大财政收入以及促进中等教育者素质和效率的提高;对于收入因素,城市在岗人均工资和农民人均纯收入对消费均有正向影响,提高城乡居民收入有利于提高消费;财政收入和支出包含对收入影响因素,也包含影响消费环境的成分,增加财政收入,加大财政对教育、医疗、社会保障、环境等方面的投入,有助于提升消费,从建设和谐社会的层面来说也是必要措施。固定资产投资对消费影响较小,在结果中也未得到体现。

(2)从城市发展的角度看,城市化、工业化是城市发展的重要特征,城市人口数与消费全部正相关,城市化对消费有明显作用;工业对消费的影响存在地区差异,并出现负相关项,工业发展要注重惠及广大人民。农业因素中农业机械动力投入均正相关,并表现在城市群方程中,在城市化导致耕地面积减少的情况下,推进城市化与工业化要更注重提高农业生产率,农业机械化值得重视。教育、医疗相关因素共有5个变量,在县域、长沙市与城市群的模型中全部负相关,而地级市区方程则全部正相关,可以认为,中心城市医疗和教育水平高于县域城市,县域城市需要针对性地提高医疗、教育水准。

(3)从所采用方法来分析,双重逐步线性回归具有半自动的提取显著变量特点,能够保证显著性水平,但预测结果相对误差较大,BP神经网络具有良好的预测能力,两者结合能够较好的对问题进行认识,同时根据需要可通过递推方法,对未来数据进行预测。

长株潭城市群的发展要注重借鉴与实践相结合。首先,长株潭城市群具备区位优势,拥有城市区域发展的基本条件,也存在管理体制、重复建设、能源和原材料短缺,基础设施滞后、污染严重等制约因素。吸取国外城市群发展经验,不但注重产业集聚的成本效应,更注重产业发展的质量;关注公共设施建设,完善公共交通体系;强调城市群区域竞争力乃至国际竞争力的发展,建设学习型城市和城市群;注重提高城市群内人民生活质量等。其次,长株潭城市群总体消费率发展空间大。促进消费水平的提高,有利于城市第三产业的发展,能推动产业结构调整。提高城市群消费的成功经验主要有提高最低工资标准、减免税收、低收入者消费补贴、拓展信用卡消费、解决住房问题等措施。

随着长株潭城市群建设两型社会展开以及交通同环、电力同网、金融同城、信息同享、环境同治“五同”专项规划的持续推进,将使城市群发展步入一个新的台阶,城市群内联系将进一步加强,促进城市和经济和谐发展、人民消费和生活水平将不断提高。

参考文献:

[1] 姚士谋、朱英明、陈振光.中国城市群[M].合肥:中国科学技术大学出版社,2001.

[2] 中国科学院可持续发展战略研究组编. 2004中国可持续发展战略报告[M].北京:科学出版社,2004.

[3] 赵勇、白永秀.城市群国内研究文献综述[J].城市问题.2007,(07):6-11.

[4] 赵伟.城市经济理论与中国城市发展[M].武汉:武汉大学出版社,2005.

[5] Roiger・Geatz著、翁敬农译.数据挖掘教程[M].北京:清华大学出版社,2003.

[6] Randall Matignon. Neural Network Modeling Using Sas Enterprise Miner[M]. Authorhouse,2005.

[7] 袁泉等.基于BP神经网络的预测方法应用研究[J].农业系统科学与综合研究,1998,14(4):261-263.

本文中所涉及到的图表、注解、公式等内容请以PDF格式阅读原文

上一篇:招商引资的博弈 下一篇:1997~2006:韩国“失去的十年”?