基于强化学习的交通灯控制与车辆诱导算法

时间:2022-06-26 11:51:27

基于强化学习的交通灯控制与车辆诱导算法

摘 要:城市交通控制的核心是由交通灯控制系统和车辆诱导系统两部分组成,实现在空间上对交通流进行分流和在时间上对交通灯进行动态配时。文章设计基于Q学习的交通灯控制算法和基于Sarsa学习的车辆诱导算法,从对系统整体性能的角度出发利用协同控制策略,更好地解决城市道路交通拥堵问题。

关键词:交通灯控制;车辆诱导;Q学习;Sarsa学习

引言

针对我国城市道路交通的现状,在交通灯控制系统和车辆诱导系统独立实施的基础上,以交通道路信息的协同为基础,从协同模式着手。

越来越多的学者致力于智能交通系统的研究,提出很多交通控制策略。Bell等人提出的交通灯控制与车辆诱导协同模型有低水平的数据共享方式、高层次的策略交互方式,主要考虑了数据信息的共享[1]。孙建平等人在基于Agent的理论上提出交通灯控制与车辆诱导协同模型,并对基于知识模型的多智能体交通控制进行研究[2];龚 等人在对交通灯控制和车辆诱导分别进行研究的基础上,提出了融合算法来提高两系统之间的协同效果,从而提高了交通系统的性能[3]。Mirchandani等人设计研究了交通灯控制与车辆诱导偏重式控制系统,两个系统在数据和策略实施上都进行协同控制,更好的利用交通信息[4]。

在实际的交通控制策略中,交通灯控制策略和车辆诱导策略在信息产生、数据处理和策略实施等多个方面应相互协同。交通控制系统主要采用的基于Q学习的交通灯控制算法和基于Sarsa学习的车辆诱导算法来提升整体的交通控制系统的性能。

1 问题分析

1.1 多智能体

多智能体系统(MAS,Multi-Agent-System)是多个智能体组成的集合,它的目标是将大而复杂的系统建设成小的、彼此互相通信和协调的,易于管理的系统。

1.2 强化学习

强化学习过程中Agent判断当前状态,选择一个动作作用于环境,环境在动作的影响下发生变化,并反馈给Agent一个奖惩值,Agent根据奖惩值进行下一个动作的选择,即Agent通过不断试错与环境进行交互获得信息。

2 基于Q学习的交通灯控制策略

本文设计一种基于Q学习的自适应交通灯控制策略。每个交通灯作为Q学习的Agent,Agent根据交叉口车道上车辆饱和度选择交通灯绿灯时间作为Agent的动作,车辆在交叉口处车道上的平均行驶时间作为Q学习的回报函数值。学习系统与环境不断的交互,获得反馈值并调整状态到动作的映射策略。

Q学习更新公式如下所示:

式中,参数?琢是学习率,参数?酌是折扣率,R(s,a)即为动作a作用于环境的反馈值。Q(s,a)为R(s,a)的累积值。Agent将根据系统的反馈值来进行Q(s,a)的更新。

2.1 状态描述

交通环境中的状态一般是连续的,但强化学习却是应用在离散空间下的求解,所以需要把交叉口状态进行离散化。本文在离散化过程中,把0到1的之间的车辆饱和度合理的离散化为四个等级。

根据交叉口各方向车道的车辆饱和度进行描述,对于有n个方向交叉口,其状态描述为s(d1,d2,kdn),其状态空间即为4n。其中,di表示第i个入口车道的车辆饱和度。

2.2 动作选择

本文使用Boltzmann策略进行动作选择,公式如下所示:

式中,A为交通灯的动作集合,p[a|s]为交通灯在状态s选择动作a的概率。?子为温控参数,温控参数越大,不同Q值对应的动作选择概率就越相近;温控参数越小,Boltzman策略与贪婪策略越相似。

3 基于SarsaW习的车辆诱导策略

本文设计基于Sarsa学习的车辆诱导策略。交通路网中的车辆是Sarsa学习的Agent,Agent利用Sarsa学习过程指导车辆进行动作选择,即选择下一条车道,Sarsa学习算法与环境交互的回报函数值为车辆在车道上的行驶时间。自学习系统不断的与环境进行交互,获得反馈信息,从而修改状态动作之间的映射。

Sarsa算法的更新公式如下所示:

式中,参数?琢是学习率,参数?酌是折扣率,Qd(s,k)是车辆从节点s出发经过节点k到达终节点d的期望行驶时间。tsk即为Agent的动作作用于环境的反馈值。Qd(s,k)的环境反馈值的累积值,Agent将根据环境实时的反馈值和历史的数据信息来进行Qd(s,k)的更新。

3.1 状态描述

在对车辆进行诱导时,首选确定Agent的状态,才能获得更好的诱导模式。决定车辆Agent状态的参数主要有车辆所在的车道和车辆所在的交叉口。因为本文中车辆的终点是某个信息节点,所以把车辆所在的交叉口定义为车辆Agent的状态。如果把车辆所在的车道定义为车辆Agent的状态,这么多状态如果都进行考虑,那么状态空间会十分巨大,将会增大Sarsa学习算法的收敛难度。

3.2 动作选择

本文使用Boltzmann策略进行动作选择,公式如下:

式中,A为车辆的动作集合,p[a|s]为车辆在状态s选择动作a的

概率,?子为温控参数。

4 基于强化学习的交通灯控制与车辆诱导协同策略

交通灯控制与车辆诱导协同问题实际上就是控制与交通流分配的协同问题,因此系统模型实际上就是交通灯控制模型与车辆诱导模型的协同模型。本文采用偏重交通灯控制方式的协同模型。

4.1 偏重交通灯控制方式

在偏重式协同下,交通灯控制系统和车辆诱导系统不是平等的关系,而是主从关系。以交通灯控制系统为主导系统的协同控制方式,就是偏重交通灯控制方式。

假设交通灯控制系统的优化函数为C,保证交叉口处车辆延误时间最小;车辆诱导系统的优化函数为U,保证车道上车辆的行驶时间最小。

偏重交通灯控制方式:

R=arg(P)交通灯控制目标函数最优;

s.t f(x)∈U车辆诱导目标函数最优。

在偏重交通灯控制方式中,交通灯控制系统是保证交叉口的延误时间最小,缓解交叉口的拥堵现象。车辆诱导系统是保证车道上车辆的行驶时间最小,进行动态的交通流分配。从整体系统性能的角度出发,协同控制下可以更好的确保行程时间的最小。

4.2 交通灯控制与车辆诱导协同模型

本文主要是以交通灯控制系统为主导系统的协同控制,车辆诱导系统每次更新过程后产生新的车辆控制方案时都会实时的报告给交通灯控制系统,从而减少车辆到达目标地点的行程时间。

车辆的行程时间包括车辆在车道上行驶时间和交叉口处的延误时间,行驶时间是由基于Sarsa学习的车辆诱导策略中所决定,而延误时间主要取决于基于Q学习的交通灯控制策略。交通灯控制与车辆诱导的协同公式:

式中,C(x,t)为车辆到达终节点的行程时间。T(r)为车辆诱导系统决定的车辆行驶时间,T(q)为由交通灯控制系统决定的车辆延迟时间。车辆诱导系统和交通灯控制系统的偏重式协同过程,如图1所示。

在交通灯控制系统中每个交通灯agent之间协同,优化交通灯的配时。在车辆诱导系统中,车辆agent相互协同,优化车辆路径选择。车辆的行驶时间和通过交通灯是的延误时间分别受两个系统影响。交通灯控制系统所决定的策略依赖于车辆诱导系统更新过程后产生新的车辆控制方案进行制定,从而提高了整个交通系统的性能。

5 仿真验及结果分析

5.1 实验环境

为了验证本文提出的交通控制策略的有效性和正确性,通过开源软件SUMO仿真器[5]在如图2所示路网上进行仿真和实验,通过java语言实现,路网是美国佛蒙特州的部分路段。

5.2 仿真设置

仿真中设置的参数均为在进行多次试验后所得到的经验值,其中,交通灯控制策略中的Q学习的学习率?琢为0.7,折扣率?茁为0.9,交通灯Agent动作选择策略中?子设为0.2。车辆诱导策略中的Sarsa学习的学习率?琢为0.7,折扣率?茁为0.8。在仿真实验中,仿真器的时间步与现实生活中的时间秒数相对应,总的仿真器时间设为15000。

5.3 基于强化学习的交通灯控制与车辆诱导算法

从系统整体性能的角度出发,利用基于Sarsa学习的车辆诱导策略(SVIS)对基于最短路径的车辆诱导系统的性能进行提升,利用常见的Dijkstra算法的作为最短路径算法(DVIS)。

本实验中,交通灯控制系统采用基于Q学习的交通灯控制策略(QTGCS)通灯进行动态配时。而交通灯控制系统的附属系统车辆诱导系统由基于最短路径的车辆诱导策略转变为基于Sarsa学习的车辆诱导策略,并对性能进行比较。

图3和图4分别显示了DVIS与QTGCS协同系统、SVIS与QTGCS协同系统所统计的评价数据。

交通系统中交叉口处车辆数量如图3所示。

实验结果表明,以基于Sarsa学习的车辆诱导策略为基础的基于Q学习的交通灯控制策略与以基于Dijkstra算法的车辆诱导策略为基础的基于Q学习的交通灯控制策略相比提高了交通系统的控制效果、减少系统中车辆到达终节点的行驶时间,可以很好的利用路网中的实时信息,达到缩减交通系统中车辆行驶时间和车辆延迟时间的目的。

6 结束语

城市交通系统影响因素复杂,本文提出基于强化学习的交通灯控制与车辆诱导算法。实验结果表明,通过该协同策略减少了路网中的车辆数量和车辆在交叉口的行驶时间,提升了交通系统的通行能力。

参考文献

[1]Sheffi Y, Powell W B. Optimal Signal Settings over Transportation Networks[J].Journal of Transportation Engineering,1983,109(6):824-839.

[2]徐丽鲜.城市交通流诱导与控制一体化理论和模型研究[D].吉林工业大学,吉林大学,1999.

[3]龚 .城市交通诱导与控制的融合研究[D].北京科技大学,2015.

[4]Li P, Mirchandani P, Zhou X. Solving simultaneous route guidance and traffic signal optimization problem using space-phase-time hypernetwork[J]. Transportation Research Part B Methodological, 2015, 81(1):103-130.

[5]Krajzewicz D, Erdmann J, Behrisch M, et al. Recent Development and Applications of SUMO - Simulation of Urban MObility[J]. International Journal on Advances in Systems & Measurements,2012, 3&4(3and4):128-138.

作者简介:赵佳文(1991-),男,满族,吉林省蛟河市,硕士,单位:沈阳理工大学 信息科学与工程学院,研究方向:数据库理论与信息系统。

乔春凯(1992-),男,汉族,辽宁省瓦房店市,硕士,单位:沈阳理工大学 信息科学与工程学院,研究方向:数据库理论与信息系统。

上一篇:便携式植物生长水分胁迫检测仪的设计 下一篇:高频外电监测系统的设计与实现