基于数据挖掘技术的交通流量分析

时间:2022-08-26 11:34:52

基于数据挖掘技术的交通流量分析

[摘要]本文探讨数据挖掘技术的交通流量分析中的应用,利用某市两个多月出租车GPS数据,选择时序回归算法,通过分析连续的出租车GPS浮动车数据,创建数据挖掘模型预测连续列,分析其客流量变化特征和客流时空分布。结果发现数据挖掘技术应用于交通流量分析具有可行性。

[关键词]数据挖掘 时序回归算法 交通流量

[中图分类号] C37 [文献码] B [文章编号] 1000-405X(2014)-8-210-2

1引言

随着城市的发展,城市交通系统趋于智能化、自动化、复杂化,以交通信息的高度集成为基础,将计算机技术、传感器控制技术、信息技术和通信技术等综合利用的智能交通体系逐渐完善。信息技术的发展使我们对这个复杂系统有了更多的连续观察和记录其动态过程的可能性。例如,散布在交通网络上的视频检测系统、感性线圈、以及红外线检测系统提供了被检测路段的实时交通流信息;最近几年迅速发展的浮动车数据(即FCD,主要包括安装在出租车、公交车、和私车上的GPS定位记录)则更加全面和连续的提供了整个交通网络的实时交通流信息;正在被探索的个人手机定位数据有着详细了解居民出行特征和实时检测交通流的巨大潜力。这些信息采集手段共同产生了海量的实时动态交通信息。随之带来的就是海量交通信息的存储、管理、分析与共享问题。

2数据挖掘技术

数据挖掘技术就是从大量不完全的随机模糊数据中提取人类所需要的信息,将信息应用于人类的生产实践的过程。需要强调的是这些信息隐含在数据中,人事先不清楚,不了解,但信息的获取对于人们的生产实践有很大帮助。数据挖掘技术应用于交通流量分析一方面可以提取人们出行需求及客流时空分部信息,掌握客流规律,进行客流预测;另一方面可以评价一个城市甚至一个区域的交通规划,为城市建设提供依据;再者,从技术层面讲,数据挖掘技术已经成为多元实时动态的交通系统获取信息源的唯一方法。

数据挖掘技术是基于先验知识理论,作为前瞻的技术预测一个活动的趋势,他包括关联分析、聚类分析、分类预测、趋势分析。关联分析是将数据中某两个或者多个变量之间存在的一些重要的隐藏的规律找出来,找出关联规则,这些规则展示属性值频繁地在给定数据集中一起出现的条件。聚类分析是未定义训练样本,直接面向源数据,所有记录都根据其相似程度加以归类。分类预测是对历史数据建立模型,分析其类别属性,建立分组,再用新数据为自变量,获取因变量的变化趋势或值域范围。趋势分析是时序数据挖掘基本内容,他利用长时序的历史数据,寻找活动的发展规律及趋势。

本文利用出租车GPS数据,选择时序回归算法,通过分析连续的出租车GPS浮动车数据,创建数据挖掘模型预测连续列,分析其客流量变化特征和客流时空分布,探讨数据挖掘技术的交通流量分析中的应用。

3数据的采集、处理及结果

3.1数据的来源及获取

出租车客流分布可以最直观的体现一个城市地面交通系统情况,利用出租车客流时空分布解决复杂的城市交通问题是一个快速有效地手段。本节所用到的数据主要是车辆GPS实时数据信息。原始数据表主要保存了出租车上装配的GPS终端所采集的数据,这些数据包括车牌号、采集时间点、经度、纬度、车辆状态、车速、行车方向、空重车状态等。由于每辆车每分钟采集一次数据,每辆车每天的数据量庞大,同一城市同时运行的出租车达上万辆,如此海量的数据需要利用数据挖掘技术获取有用信息。

3.2数据处理及挖掘技术实现

首先利用微软SQL Server2005创建数据库项目,根据数据源向导创建连接到数据库服务器上的数据库。利用数据库编程语言对原始数据进行筛选、优化,然后利用SQL Server提供的时序回归算法创建数据挖掘模型预测连续列。

原始数据筛选、优化程序:

INSERT INTO [FCDdata].[dbo].[temp5]

SELECT ROW_NUMBER()over(order by [列 0],[列 3])Num,[列 0],[列 1],[列 2],[列 3],[列 7]

from [FCDdata].[dbo].[2011-8-4src_1TOtxt]

INSERT into [FCDdata].[dbo].[temp6]

SELECT ROW_NUMBER()over(order by b.[列 0],b.[列 3])Num,ID=b.[列 0],O_X=b.[列 1],O_Y=b.[列 2],O_T=b.[列 3]

from [FCDdata].[dbo].[temp5] a ,[FCDdata].[dbo].[temp5] b

where (b.[列 7]='true' and (b.Num=a.Num-1) and b.[列 7]!=a.[列 7])

INSERT into [FCDdata].[dbo].[temp7]

SELECT ROW_NUMBER()over(order by b.[列 0],b.[列 3])Num,ID=b.[列 0],D_X=b.[列 1],D_Y=b.[列 2],D_T=b.[列 3]

from [FCDdata].[dbo].[temp5] a ,[FCDdata].[dbo].[temp5] b

where (b.[列 7]='true' and (b.Num=a.Num+1) and b.[列 7]!=a.[列 7])

INSERT into [FCDdata].[dbo].[temp4]

SELECT ROW_NUMBER()over(order by ID)rn

ID

FROM [FCDdata].[dbo].[temp6]

Group By ID

GO

DECLARE @n AS INT =2;

DECLARE @id AS INT ;

WHILE @n

BEGIN

SELECT @id=ID FROM [FCDdata].[dbo].[temp4] WHERE rn=@n

INSERT into [FCDdata].[dbo].[F20110804]

SELECT ROW_NUMBER()over(order by a.O_T)TripID

,TaxiID=a.ID,O_X=a.O_X,O_Y=a.O_Y,O_T=a.O_T ,D_X =b.D_X ,D_Y =b.D_Y,D_T =b.D_T

FROM [FCDdata].[dbo].[temp6] a inner join [FCDdata].[dbo].[temp7] b on a.Num=b.TripID and a.ID=@id and b.ID=@id;

SELECT @n=@n+1

END

原始数据经过筛选优化后得到的数据排列如下:

其中TripID字段代表的是某一辆出租车在一天内载客的次数,TaxiID字段代表的ID编号,O_X、O_Y字段代表出租车在这一趟载客的起点经纬度坐标,O_T字段代表车租车载客起点的时间点,D_X、D_Y字段代表出租车在这一趟载客的终点经纬度坐标D_X的空重车状态,D_T字段代表车租车载客终点的时间点,其中时间全部使用UNIX时间戳格式,即从1970年1月1日(UTC/GMT的午夜)开始所经过的秒数,不考虑闰秒。

3.3实验结果

本文随机抽取了2011年60多天的出租车数据,以某交通枢纽站为出租车上下客的位置,利用数据挖掘技术分析预测此枢纽站每日不同时间段的客流量,得到如图1。

根据已掌握的65天的浮动车数据建立了出租车一日内不同时段客流预测模型,当然,预测数据只能体现常规客流情况,不能预测特殊时期的客流变化情况。单日不同时段的客流模型反映出客流进站出现早高峰,出站出现晚高峰,客流高峰时两个小时的客流量在150辆左右。调查发现,这与该枢纽站的功能正相关,该枢纽站主要用于城际短途客流与城市客流的交换,该枢纽站主要是商务客流,早上乘坐长途车出差到周边城市,下午返回后乘坐出租车融入城市客流。

4结论与展望

通过对出租车GPS数据进行分析处理,利用数据挖掘技术,得到了城市某枢纽站的客流分析与预测结果,为城市交通规划、区域规划、出租车交通管理提供了数据支持。数据挖掘技术应用于交通流量分析具有可行性,研究结果可信。本研究成果得到以下的结论:

(1)通过数据挖掘技术得到的出租车在枢纽站内进出站的情况,可以一定程度上反映出租车在交通枢纽站内的出行需求,为出租车的调度提供科学依据;

(2)通过出租车的进出站时间分布,可以了解出租车在交通枢纽站的主要服务对象,为枢纽站的规划及客流预测提供依据;

(3)数据挖掘技术可以用于枢纽站内其他交通工具的客流预测,例如长途汽车、私家车、地铁等。参考文献

[1]夏火松.数据仓库与数据挖掘技术[M].北京:科学出版社,2004.

[2]胡小文,冯均佳,基于GPS数据采集的出租汽车交通运行特点研究[J],城市交通,2007.

[3]芦方强,陈学武,胡晓健,基于公交OD数据的居民公交出行特征研究[J],交通运输工程与信息学报,2010.

[4]陆建,王炜,城市出租汽车拥有量确定方法[J],j交通运输工程学报,2004,4(1).

[5]李雄飞,李军,数据挖掘与知识发现[M].北京:高等教育出版社,2003.

上一篇:数字化制图技术在煤矿地质测量中的应用研究 下一篇:纤维织物风管技术在天津某红酒物流库的应用