二手房价格评估系统设计与研究

时间:2022-04-17 08:20:41

二手房价格评估系统设计与研究

摘要: 针对二手房交易过程中普遍存在的买卖双方信息不对称的问题,设计了一套基于B/S层次化结构的二手房价格评估系统。该系统首先通过网络爬虫从二手房网站收集公开的实时性数据信息,随后对这些数据进行预处理并建立层级化数据库。随后通过非参数回归算法对二手房价格进行评估。实验证明,本系统能够为购房者提供综合、直观的二手房趋势信息,并进行较为准确的估价。对于购房者以及售房者的决策都具有重要的参考价值。

Abstract: In order to solve the problem of information asymmetry between sellers and buyers in the resold apartments transactions, a B/S structured evaluating system is introduced. The real-time data is acquired by web crawler from resold apartment transaction websites; the three level databases are built for data acquisition and preprocessing. Then the prices of apartments are evaluated by a pricing algorithm using non-parametrical methods. Experiment proves that the system can provide accurate evaluating result and comprehensive visualized trend information to users. Thus the system is supportive to both buyers and sellers in making decisions.

关键词: 二手房估价;信息系统;房屋价格

Key words: resold apartment evaluation;information system;apartment pricing

中图分类号:F293.3 文献标识码:A 文章编号:1006-4311(2013)34-0168-04

0 引言

目前,住房问题已经成为我国最受关注的民生问题之一,随着各级城市房价持续走高,越来越多的购房者将目光投向了总价较低、配套成熟、交通便利的二手房。在考虑候选房屋环境、条件是否满足自身需求的同时,购房者也希望能获得对二手房价格的客观参考,期望据此来衡量价格是否合理。因此,需要引入一个客观、科学的估价算法,并建立一套二手房估价系统来满足购买者的需求。在估价方法的选择上,国内外学者曾采用特征价格模型等方法[1],如将Hedonic方法应用到建立建筑价格指数中[2]。特征价格模型方法虽然是一种较为客观的价格评估方法,但难以避免由函数假设造成的偏差。在进行预测或估计的方法中,非参数回归具有不依赖于假设模型和参数、无需在添加新数据后对模型进行调整等特点,是一种完全由数据驱动的预测方法。这使非参数回归方法具有较为广泛的应用面。此方法已被大量应用在短时交通流预测[3]等研究中。近年来,非参数回归方法被应用在房屋价格评估中[4],并获得了较为理想的效果。因此,在已有研究基础上,引用非参数回归方法建立了二手房估价模块。

另外,在二手房交易市场趋于火热的背景下,涌现了大量的二手房信息服务网站,小型中介网站更是不计其数。在为购房者提供便利的同时,大量质量参差不齐的二手房信息同时也带来了“信息爆炸”的问题。这使缺乏经验的初次购房者在面对海量信息时感到无所适从。基于此问题,本文建立了二手房估价系统,它在为购房者提供对二手房价格合理的估计之外,也提供了一种能够迅速直观了解二手房宏观形势的手段,为购房者了解市场现状与未来发展、确定购房目标和备选房源、警惕虚假信息等提供

帮助。

1 系统结构设计

本系统通过网络爬虫程序自动收集二手房源公开信息,经过数据预处理后存入数据库中。随后开发B/S架构的二手房价格分析与估价系统,通过对数据仓库中的数据进行数据挖掘和统计分析,实现包括制定房源估价、趋势预测等功能,为二手房购房者提供决策支持。

1.1 系统架构 系统建立在.NET平台上,整体架构采用传统的“三层架构”,即包括数据访问层、业务逻辑层和界面表示三层,有利于开发、维护、部署和拓展。表示层主要用于显示数据和接收用户数据;逻辑层作为中间的角色对数据的有效性进行验证。数据层对数据进行增、删、改、查的操作。三层结构示意图如图1所示。

在数据库方面使用SQL Server 2008管理数据。由于系统实现使用技术,而为SQL Server数据库提供了丰富的接口,因此在数据操作方面,SQL Server能够与更好地融合。数据表包括原始数据表、房源基本信息表、房源推荐表、新闻表、用户信息表和留言板信息表。获得的原始数据经过数据清理步骤后导入房源基本信息表。

1.2 系统功能模块设计 本系统大致包括六个模块:注册登录模块、二手房估价模块、二手房价格趋势查询模块、二手房信息采集模块、新闻资讯模块、用户留言板模块。下面介绍三个主要功能模块:

①二手房价格趋势查询:此模块功能为,根据用户选取的分析需求和限定条件(如区域、年代等),查询限定条件内的二手房房源信息,并进行制图表达与专题渲染,生成平均房价的空间分布图等。例如,根据用户选定的区县,显示该区县内细分街道小区的平均价格的柱状图,或显示该区域房源价格随年代变化的折线图。

②二手房估价:根据用户输入的二手房的特征条件,估算出该房产的价格。用户输入所要购买的二手房的小区位置,建筑面积,建筑年龄,所在楼层,装修程度,朝向,小区环境,采用非参数回归的方法,给出估计的价格。

③二手房信息采集模块:为面向管理员的功能模块,获得管理员权限的用户通过登录进入此模块。为管理员用户提供功能如:按一定周期(每周或每月)通过网络爬虫程序抓取房源交易信息,对爬取的数据进行数据预处理,新闻更新,留言板信息处理。

2 数据获取及预处理

2.1 数据获取 价格估计和预测等算法往往要求有大量的数据支撑,使用人工搜集数据是不现实的。本系统采用从网络爬取数据的方式,使用网络爬虫程序从大型二手房交易网站抓取二手房交易信息作为算法和前台的支持数据。为了提高搜集的灵活性和效率,使用了自行编写的针对二手房交易信息的网络爬虫程序。使用的爬虫程序具有很强的灵活性,只需修改用来提取网页链接的正则表达式和分析数据的方法,便可适用于各大二手房交易网站的数据提取任务。同时,爬虫只解析与二手房交易相关的链接,这也提高了针对性和信息提取的效率。

另外,由于二手房作为商品交易房,其价格会因政策和市场供求关系等原因波动,因此较早的数据不应再作为参考。同时,在爬虫程序向数据库中存储历史样本数据时需将数据加上时间标记。

2.2 数据预处理 爬取的数据是价格估计及其他行情预测算法的基础,只有完整性好、数据冗余少、属性相关性小[5]的数据才能更有效地支持算法的分析。另外,数据的质量也在一定程度上决定了预测结果的可靠性。所以,有必要对原始数据进行一系列的预处理,使之完整、有效、规范化。数据预处理的步骤主要包括:数据选取、数据表属性一致化、数据清理和数据归约,对于这些步骤已有了相对应的方法和技术[6]。

具体预处理模块如图3。由于过多的对算法结果无贡献或贡献低的数据会降低算法的效率[5],估价算法选取影响价格的因素组成个体的状态向量,通常要求这些属性具有较小的相关性。从不同二手房信息网站中提取数据会产生属性命名或标准不一致的问题,如在“装修”属性中,不同网站的房源信息的属性值或为“简装”或为“简单装修”,通过对意义相同属性的重命名和添加属性值的自定义约束的方法对这些数据进行一致化处理。在数据清理过程中,删除重复的元组和多项属性值为空的元组;对于只有个别属性为空的元组,使用平均值填充。例如,若“建筑年代”为空,则使用房屋所在的小区建筑年代的平均值填充。

2.3 数据更新与管理 维持数据的时效性对于系统的有效运行至关重要,过时的数据难以支撑系统的功能,因此数据的实时更新和维护是必不可少的。系统数据库构成主要包括:数据源、现势数据库、早期数据库[7]。由图4所示。爬虫程序于固定时间间隔从天津我爱我家网、搜房网等大型二手房交易网站上提取房源信息以获得最新的交易数据,由于各网站提取信息的差异,将来自不同交易网站的信息存入数据源数据库中。实现来自不同数据源的集成,通过数据预处理的方法将处理后的数据使用增量更新的方式导入现势数据库,系统应用的实现直接依赖于现势数据库的数据。另外,为了避免数据老化和海量数据导致算法处理效率降低的问题,定期将现势数据库中失效的数据导出至早期数据库。

3 基于非参数回归的二手房估价算法

估价模块的目的在于通过用户输入的目标二手房的属性信息,使用合理的方法给出相对精准的预测。由于非参数回归不依赖于模型和由数据驱动的特点,并且对于二手房而言,如房屋地理位置、小区物业、朝向、楼层等影响二手房价格的数据以及二手房交易的价格都容易确定和获得,这使非参数回归成为较为理想的选择。鉴于此,在已有研究基础上,引用非参数回归方法建立了二手房估价

模块。

3.1 算法框架 估价方法被分为四个部分:历史样本数据、目标个体、近邻性度量算法、估计算法。此方法通过比较目标个体与历史数据样本的相似度来确定近邻个体,继而使用近邻个体作为目标个体估计的依据。

在建立了由足够大量历史数据构成的数据库后,将目标个体输入近邻性度量算法中,与历史样本个体一一进行比较,依据度量算法计算距离,并输出与目标个体差异度在一定范围内的近邻个体。将近邻个体作为估计算法的输入,进而生成最终的估计值,具体过程如图5。

3.2 状态向量及特征因素的确定 历史样本数据库中个体的状态由状态向量来表示,状态向量可以被描述为:

Xi=[Vi1,Vi2,Vi3,…,Vin]

其中,i代表历史样本数据库中的第i个个体,Vin为第i个个体的第n个特征因素。特征因素的选取对估计的精度影响尤为重要。

通常影响住宅价格的因素包括:区位、建筑结构、邻里环境,应当考虑各因素的代表性选择适当的变量。通常使用的变量为住宅到城市、公交站点、购物中心等的距离,建筑面积、年龄、楼层、总层数、卧室个数、卫生间个数,邻里服务设施、景观、噪声、污染水平等[8]。通过对文献的阅读研究,以及对数据获得、处理可能性的考虑,选取以下六个二手房屋的影响变量:小区位置,建筑面积,建筑年龄,所在楼层,装修程度,朝向,小区环境。

3.3 近邻性度量准则 引进距离函数的目的在于度量空间中两点间的距离,亦即两个实体间的相似度。与目标个体具有一定相似度的历史数据个体被称作邻居。距离函数可选用欧式距离:d(u,v)=■u■-v■■■,亦可选用

d(u,v)=■u■-v■[9]。式中,n代表状态向量的维度,u■、v■分别代表两个个体第i个影响因素。

3.4 估计算法 使用以上方法确定历史个体的距离后,便可以利用近邻集生成估计量。由于选取的近邻与目标个体的距离越小,越能更好的估计目标值,所以选择考虑权重进行估计的方法。在带权法中,历史数据个体的权值依据距离的大小确定:Y=■βiYi,其中βi=■,βi代表为第i个近邻赋予的权值。由于距离近的近邻将被赋予大权值,所以式中βi与距离的倒数成正比。

在建立估价算法的过程中,通过抽取样本数据比较了最常使用的指数平滑法和带权法的估计精度。通过数据分析,选择带权法作为预测的方法;同时,根据数据分析的结果确定了最佳的近邻个数。分析结果表明此算法可以获得较好的准确性。

4 主要功能模块的实现

4.1 系统开发技术选择分析 本系统是建立在.NET平台上,采用技术,选择C#作为后台编程语言,在数据操作方面使用了LINQ技术。在前台GUI设计方面提供了许多已有的控件,方便进行快速开发。可以实现前后台代码的分离,交互方便,编写逻辑清晰。使用LINQ实现对于数据库的操作,使得开发者可以避开使用底层的SQL语言对数据库进行操作。LINQ也大大简化了数据操作上的复杂度,使得代码更加简化和美观。同时前端网页开发还采用了一些Html 5的新特性,并以“DIV+CSS”进行布局和美化。

4.2 价格趋势查询模块的实现 此模块帮助购房者迅速了解市场现状与运行的趋势,确定合适的购房目标和备选房源。模块利用图形图表的方式对二手房的价格和区域等属性信息进行统计分析,图形展示使分析结果能简单明了地呈现给用户,并能精确地表现房价的空间差异和时间差异,帮助购房者决策。图示当中的数据分为原始数据与计算派生出的数据。原始数据包括二手房的信息,其中包括总价,单价,面积,户型,所属小区,楼层,建筑年代,朝向,装修和地址。计算派生出的数据有同区域不同年代的均价,不同区域的加权均价等。

绘制图形时为了简化,而使用了ashx程序文件。ashx是一种HTML与C#混合的文件,它免去了普通.aspx页面的控件解析以及页面处理的过程,主要用于网页图片的生成等,并且可以利用它调用HttpHandler类,与前台进行交互。价格趋势图示使用了.NET的GDI+技术生成,GDI+是Windows程序的图形设备接口,主要用于图形的生成显示。用户通过前台选择要绘制的图形类型与图形的信息,其中图形类型包括:各区县二手房源一览图、各区县二手房均价一览图、各街道二手房源价格变化图。绘图过程可描述如下。前台通过AJAX向程序文件ashx发出请求,程序文件通过Session取出相关的房源统计信息。这些信息是后台利用LINGQ将查询到的信息存放在HOUSE类当中,而后利用HOUSE类当中的方法对数据进行统计和分析而获得的。之后程序文件采用C#的BitMap和Graphics类根据取出的房源统计信息绘制图画,将图片保存至内存流当中,包装在context当中,传到前台获取参数,利用控件输出图片。

5 系统实现结果

系统通过爬虫程序获得大量的二手房的信息,组建数据库。以该数据库为基础,综合运用统计、分析、查询等方法,建立一个科学的二手房购买的辅助系统。

图6、图7、图8分别展示了系统实现了的房源对比、二手房价格趋势图示、二手房价格估计功能。如在二手房价格趋势图示当中,用户可以通过选择要输出的图示,然后选择二手房的年代或者区域等信息,通过计算将区域房源平均价格以折现图的方式展现出随年代变化的趋势,或者是不同区域的房源平均价格的柱状图。这对于用户从时间上纵向对比以及空间上横向对比自己预期的房源价格提供了便利。系统能够让用户迅速直观地了解二手房的宏观形势,辅助购买者进行决策。

6 结语

二手房估价与分析信息系统是辅助购房者决策的科学工具。本文所构建的系统能够帮助帮助相对缺乏经验的购房者,以及期望对二手房市场进行深入了解的其他人员了解市场的现状与运行趋势,定位备选房源。该系统采用结构化设计方法,具有较好的可扩展性,随着用户需求的不断产生,可添加新的功能模块,使系统最终能为用户提供全方位的决策支持服务。

参考文献:

[1]孙玉环.基于海量交易数据的房地产特征价格模型的构建[J].统计与决策,2011,02:9-13.

[2]赵何军.基于Hedonic模型的天津住宅价格因素分析[J].现代经济(现代物业下半月刊),2008,12:15-16,30.

[3]张涛,陈先,谢美萍等.基于K近邻非参数回归的短时交通流预测方法[J].系统工程理论与实践,2010,30(2):376-384.

[4]姜吉坤.非参数回归在商品住宅特征价格评估方法中的应用研究[D].浙江大学,2006.

[5]刘明吉,王秀峰,黄亚楼.数据挖掘中的数据预处理[J].计算机科学,2000(04):54-57.

[6]菅志刚,金旭.数据挖掘中数据预处理的研究与实现[J].计算机应用研究,2004(07):117-118,157.

[7]赵留军,周复旦,戴加盼.基于GIS的房地产估价系统建设初步探讨[J].科技创新导报,2008,33:186,188.

[8]李玉梅.我国房地产价格变动特征及其影响因素的实证研究[D].吉林大学,2012.

[9]张云霞.两种数据的非参数回归及其渐近性质[D].燕山大学,2012.

上一篇:某水电站料场砾石土渗透试验研究 下一篇:基于信息技术的成人和儿童输液流程改造