基于NRS―SVM的商品住宅投资风险评价研究

时间:2022-09-23 08:12:17

基于NRS―SVM的商品住宅投资风险评价研究

摘要:针对目前风险评价中普遍存在的样本需求量大、评价主观性强、预测准确性低的问题,在国际上首次将邻域粗糙集与支持向量机相结合建立商品住宅投资风险评价模型。将邻域粗糙集与支持向量机结合使用,可以直接从样本本身出发,在小样本前提下分析各项商品住宅投资风险因素对总体投资风险影响权重,简化决策表,建立商品住宅投资风险预测模型。通过案例分析可知,治安环境风险与工艺革新风险对商品住宅投资总体风险无影响,且在仅有40个样本的条件下,商品住宅投资风险预测模型预测相对误差控制在3%以内。由此表明,邻域粗糙集与支持向量机相结合的方法可以较好地解决风险评价中普遍存在的问题,对风险因素具有较强的解释能力,对总体风险具有较好的预测效果。

Abstract: According to the common problems of large demand of samples, subjective evaluation, low accuracy of prediction in risk evaluation, it is the first time to combine neighbor rough set and support vector machine in creating commodity residential evaluation model internationally. In this way, it can analyze different commodity residential investment risk factors in the whole risk influence weight, simplize decision form, create commodity residential investment prediction model under the condition of small sample. Through the analysis of case, security environment and technological innovation have nothing to do with the whole risk of commodity residential investment. Under the 40 samples, commodity residential investment prediction model errors are within 3%. So, the method of combining neighbor rough set and support vector machine can solve the common problems in investment risk, it has a strong ability of explaining to risk factors, and it has a good prediction outcome.

关键词: 商品住宅;投资风险;邻域粗糙集;支持向量机;五折交叉验证法

Key words: commodity residential;investment risk;neighbor rough set;support vector machine;5-fold cross validation

中图分类号:F293.35 文献标识码:A 文章编号:1006-4311(2016)03-0023-05

0 引言

商品住宅投资风险评价对风险防范至关重要。然而,目前常用的风险评价方法普遍存在主观性强、样本搜集工作量大、风险预测准确性低等缺陷,因此有必要采用一种新方法更加合理有效地评价并预测风险。

2008年,胡清华提出的邻域粗糙集理论(Neighborhood Rough Set,简称NRS)解决了经典粗糙集[1]不适用处理数值型数据的问题,扩展了粗糙集的适用性[2]。NRS已在机械故障诊断[3,4]、信用风险评价[5]、企业财务预警研究[6]等领域成功应用。

支持向量机(Support Vector Machine,简称SVM)是由Cortes与Vapnik于1995年首先提出的[7]。SVM已在人脸识别[8]、质量控制[9]、故障判别[10]、医疗诊断[11]等领域广泛使用。

NRS与SVM结合使用不仅可以发挥各自的优点,而且可以相互弥补各自的缺点,具体体现为:

①NRS可直接从给定集合出发,通过对具有不精确、不完整信息的研究对象进行分析处理形成规则集,且不需要数据离散化,保留了数据原始属性;但NRS对数据噪声较为敏感,SVM通过引入松弛变量可以抑制样本噪声,提升了模型推广能力。

②SVM以VC维理论与结构风险最小化原则为基础,它在解决小样本、非线性、过学习、高维数等问题中表现出明显的优势,且具备很强的泛化能力;但当样本维数较高时,会导致计算速度很慢而且网络结构复杂,NRS通过计算决策属性对条件属性的依赖度可以约去冗余的属性,降低样本维数。

本文在国际上首次将NRS与SVM结合应用于商品住宅投资风险评价,以期解决以往商品住宅投资风险评价中普遍存在的多种问题。

1 邻域粗糙集基本理论

1.1 δ-邻域

设(Ω,Δ)为一度量空间,Δ(xi,xj)是元素xi与xj的距离函数,U={x1,x2,…,xm}是给定的n维实数空间Ω中的非空有限集合,任意xi的δ-邻域定义为:

δ(xi)={xj│Δ(xi,xj)?燮δ,xj∈U}(1)

δ是一个非零常数,称为邻域半径。各属性的邻域半径可以通过下式确定:δk=Stdk/λ(2)

Stdk是第k个属性的标准差,λ是预先设定的分类精度参数,通常取值在0~4之间。

1.2 邻域决策系统正区域、负区域与边界区

由此可以计算出各条件属性影响决策属性分类能力的权重[12]。

2 支持向量机基本理论

2.1 支持向量回归机

设训练样本集为Q={(x1,y1),(x2,y2),…,(xm,ym)}∈Rn×R,xi∈χ=Rn,yi∈γ=R,i=1,2,…,m。设Q是按χ×γ上某一未知概率分布F(x,y)选取的独立同分布的样本点,且给定损失函数为c(x,y,f(x)),在χ中寻求一个函数f(x)

f(x)=ω・x+b(11)

使期望风险

R(f)=∫c(x,y,f(x))dF(x,y)(12)

最小。在SVM中一般选择ε-不敏感损失函数作为损失函数,即

c(x,y,f(x))=max{0,│y-f(x)│-ε}(13)

其中ε是一个预先设定的正数。

SVM使用函数?准 (x)将x映射到高维特征空间,y=

f(x,ω)就可以通过式(14)的线性组合表示:

y=f(x,ω)=ω・?准 (x)+b(14)

其中ω=(ω1,ω2,…,ωm)∈,b∈R,ωi是对应于xi的系数。为保证f(x,ω)具有良好的泛化能力,需要使ω最小化。

为了约束由于统计数据中夹杂噪音致使位置发生偏移的数据点并控制对错分样本惩罚程度,SVM引入松弛变量ξi及ξ*i惩罚参数C。最小化ω就可以用下式表示

2.2 核函数

事实上回归超平面与?准(x)的显式表达式无关。因此,SVM提出运用核函数求解?准(xi)・?准(x)内积的方法。

目前最为常用的核函数是RBF核函数,它的表达式如式(25),g为预先设定的参数。

3 商品住宅开发风险评价指标体系

商品住宅投资风险因素可以划分为六类一级风险因素,即政策风险、社会风险、经济风险、技术风险、管理风险以及自然风险[13]。再进一步划分可得到若干项二级风险因素。以上述风险因素为基础构建商品住宅投资风险评价指标体系,详见表1。

4 基于NRS-SVM的商品住宅投资风险评价模型建立与案例分析求证

为建立商品住宅投资风险评价模型,本文通过专家打分法收集到深圳市近年来开发的40个商品住宅楼盘投资风险因素与总体投资风险量化值,并建立起专家评估数据表,详见表2。表中C1到C14为商品住宅投资风险评价指标体系中的14项风险因素,D为决策属性,即由专家评估的各项目总体风险值。

4.1 计算风险因素权重及因素约简

4.1.1 数据归一化处理

为简化计算、方便比较,首先要对各项风险指标值分别进行归一化处理。

4.1.2 计算邻域决策系统正区域

①首先计算各风险因素评价值与总体风险评价值的标准差Std,选择合适的?姿,依据式(2)计算属性k的邻域半径;②依据式(1)计算各属性下样本xi(i=1,2,…,m)的?啄-邻域;③依据式(5)、(4)、(3)、(6)计算得到总体风险D关于风险因素集合C的正区域POSCD。

4.1.3 计算各项风险因素相对重要度与权重

①依据式(7)计算总体风险D对风险因素集合C的依赖度?酌(C,D); ②依据式(8)、(10)计算得到各风险因素的相对重要度和权重。

4.1.4 属性约简

依据式(9)剔除相对重要度为零的风险因素,得到项目总体风险关于风险因素集合C的相对核CORE■■。

以上过程可在MATLAB R2010b平台上通过编程实现。为保证各项风险因素权重的有效性,选取?姿为1.23。经程序计算得到各风险因素权重,详见表3。

由表3可知,C2和C10的权重为零,即治安环境风险和工艺革新风险对项目总体风险影响权重为零,将上述两列从表2剔除后组成新的决策表。

4.2 构建商品住宅投资风险预测模型

①采用五折交叉验证法划分训练集与测试集。为保证SVM模型预测效果最佳,可采用五折交叉验证法划分表2中的样本。

②在训练集上上建立SVM回归预测模型。设定适当的不敏感损失函数ε的取值,采用网格法搜索能够使SVM模型在训练集上的MSE最小的惩罚参数C和RBF核函数参数g的取值。以上述参数值在训练集上建立SVM回归预测模型。

③计算测试集上的MSE。以第(2)步建立的SVM回归预测模型计算测试集样本的预测值,并计算测试集的MSE。

④选择最优模型。更换第(1)步中划分的测试集与训练集,重复(2)、(3)步,直至(1)中划分出的每一份样本都被作为一次测试集,共建立五个SVM回归预测模型,选择在对应的测试集上MSE最小的模型作为最优模型。

上述步骤可在MATLAB R2010b平台下通过编程实现。将不敏感损失函数的参数设为0.01,选择式(15)作为目标函数,RBF函数作核函数,为保证模型尚佳的拟合效果及较短的参数寻优时间,设定参数C和g的寻优步长为0.25。五折交叉验证法下各模型的测试集及MSE见表4,其中样本编号一栏为表2中的样本编号。

由表4可知,2号模型预测最为准确,因此选用该模型作为商品住宅投资风险预测模型。采用网格法参数寻优得到的参数C为13.454,参数g为0.074,最优回归超平面常数项为0.53。将RBF核函数代入式(24),得到商品住宅投资风险预测模型如下:

其中X为待预测的商品住宅投资风险因素评估值向量,分别为X与支持向量Xi的第j个分量。令α是支持向量Xi的系数。模型共含有17个支持向量,各支持向量在表2中的编号及其系数见表5。

测试集中11、30、33、7、38、28、17、14号样本总体风险真实值与预测值的变化趋势如图1,其中虚线为预测值,实线为真实值。

测试集上各样本真实值y、模型预测值及相对误差RT(Relative Tolerance)见表6。

由表6可知,测试集各样本的相对误差控制在3%以内,模型能够较好的预测测试样本总体风险值。

5 结论

针对传统风险评价方法普遍存在的评价主观性强、样本需求量大、预测准确性低等缺点,本文在国际上首次将NRS与SVM结合应用于商品住宅投资风险评价中。从案例分析结果看,运用NRS在无任何假设前提的情况下,直接从决策表出发,计算得到治安环境风险与工艺革新风险对项目总体投资风险影响为零;且仅以40个样本为依据建立了商品住宅投资风险预测模型,该模型在测试集上的预测相对误差控制在3%以内。由此表明,NRS-SVM模型能够较好地克服传统方法缺点,对风险因素具有较强的解释能力,对总体风险具有较好的预测效果。

参考文献:

[1]Z P. Rough sets[J]. Internal Journal of Parallel Programming, 1982,11(5):341-356.

[2]胡清华,于达仁,谢宗霞.基于邻域粒化和粗糙逼近的数值属性约简[J].软件学报,2008(03):640-649.

[3]Li N Z R H Q. Mechanical fault diagnosis based on redundant second generation wavelet packet transform, neighborhood rough set and support vector machine[J]. Mechanical Systems and Signal Processing, 2012,28(0):608-621.

[4]毛清华,马宏伟,张旭辉.改进邻域粗糙集的输送带缺陷特征约简算法[J].仪器仪表学报,2014(07):1676-1680.

[5]郭春花.基于邻域粗糙集和距离判别的信用风险评级[J]. 重庆理工大学学报(自然科学),2013(02):130-134.

[6]武一锋.基于邻域粗糙集和粒子群优化BP网络的上市企业财务预警研究[D].陕西师范大学,2013.

[7]Cortes C V V. Support Vector networks[J]. Machine Learning, 1995,70(1):1-25.

[8]童小念,文卫蔚.利用MapReduce模型训练支持向量机的人脸识别方法[J].中南民族大学学报(自然科学版),2013(01):83-86.

[9]朱波.基于支持向量机的自动加工过程质量控制方法研究[D].重庆大学,2013.

[10]史丽萍,王攀攀,胡泳军,等.基于骨干微粒群算法和支持向量机的电机转子断条故障诊断[J].电工技术学报,2014(01):147-155.

[11]Lee S D D X. Jindal R, et al. Predicting full thickness skin sensitization using a support vector machine[J]. Toxicology in Vitro, 2014,28(8):1413-1423.

[12]曹秀英,梁静国.基于粗集理论的属性权重确定方法[J]. 中国管理科学,2002(05):99-101.

[13]李毅.基于SVM的房地产投资风险评价及应用[J].统计与决策,2012(01):70-72.

上一篇:浅谈学校的绿色教育 下一篇:在小学数学教学中对学生探究能力的培养