基于深度强化学习的交通灯控制研究文献综述

2020-04-15 20:29:46

1．目的及意义

随着社会经济的发展，城市化和汽车化速度的加快，交通拥挤、交通事故、交通污染、能源短缺等问题已经成为制约我国社会经济全面、协调、可持续发展的重要因素。目前，解决交通问题的方法通常有两种：一是加强基础设施建设，如提高路网的通行能力、扩建桥梁与道路等外延设施；二是提高交通控制和管理水平，采用先进、有效的智能决策方法，合理使用现有交通设施，充分发挥其能力。近年来，随着信息技术的迅速发展，后一种办法受到了人们的普遍重视。而作为城市道路交通管理的核心部分，城市交通信号配时决策系统是实现城市道路交通流有效运行的重要保障。

对于显著缓解城市路网的交通拥挤问题，自适应交通信号配时决策有很大的应用潜力，而目前其在中国各大城市的应用程度并不高。由于城市路网中各交叉口处的交通流是相互关联和影响的(特别是在较高饱和度交通条件下)，各交叉口控制策略间存在博弈现象。因此为了更有效地进行多交叉口交通信号配时决策，有必要引入协调机制。因此，融合多Agent强化学习和协调机制来进行路网自适应交通信号配时决策研究是多年来的一个热点问题。本文对多Agent强化学习及协调机制研究方法分类、国内外研究现状、存在的问题及未来研究方向进行了探讨，以期促进多Agent强化学习及其协调机制的研究和其在城市交通信号配时决策中的应用。

国内一些学者如首艳芳、杨兆升、陆化普等、刘智勇进行了有关自适应交通信号配时决策的理论和应用研究，取得了可喜的成果。近年来北京工业大学、清华大学、北京交通大学、上海交通大学等著名高校就多Agent强化学习技术在自适应交通信号配时决策中的应用开展了卓有成效的探索性研究。

国内外学者也已经意识到自适应交通信号配时决策中协渊机制研究的重要性，但研究还不够深入。现有交通系统和技术的交通信号配时协调机制通常应用在主干道的绿波带信号配时方面，而在允许交叉口之间协调方面应用还不够。首艳芳等通过引入群体动力学来进行交叉口群协调控制机制研究，但未结合强化学习研究。谌永荣等研究了区域信号配时模型的非平衡交通分配算法，采用遗传算法来求解，但遗传算法存在早熟收敛、全局搜索能力不强的问题，从而无法快速找到最佳配时方案。闰飞等研究了城市区域交通信号迭代学习控制策略，但未引入协调机制。张邻等建立了基于动态信号配时的非线性规划模型，考虑了各路段机动车的流量特征，但主要针对单交叉口，没有考虑相邻交叉口的关联性。Li等人通过建立深度神经网络来学习强化学习的Q函数，但主要应用在单交叉口的交通信号配时决策中。

{title}

2. 研究的基本内容与方案

{title}

本设计研究了如何利用车辆网络中提取的信息来控制交通灯信号，从而有效地管理交叉口的车辆。我们的总体想法是模仿一个有经验的操作员，根据从车辆网络收集的信息控制每个周期的信号持续时间。为了实现这一思想，将有经验的操作者的操作建模为马尔可夫决策过程（MDP）。MDP是一个高维模型，包含每个阶段的持续时间。然后在一个深度强化学习模型中，通过试错法学习基于MDP的控制策略。为了适应一个深度强化学习模型，我们将整个交叉口划分成网格，并根据车辆网络收集的网格中的车辆信息或通过图像处理从摄像机中提取的信息建立一个矩阵。矩阵被定义为状态，奖励是两个循环之间的累计等待时间差。在我们的模型中，使用卷积神经网络来匹配状态和预期的未来回报。我们的最终目的就是最小化交通拥堵，即最大化未来的回报，确定一个可以根据环境变化而做出最优决策的模型。

我们将使用多智能体强化学习结合深度学习，通过确定合理的行为空间、状态空间和奖励来是我们的模型做出最优策略。本文将这些技术结合起来作为解决问题的框架，可以很容易地应用到其他问题中。在交通微观仿真系统SUMO上对该系统进行了测试，仿真结果表明了该模型的有效性和高效性。

3. 参考文献

[1] Monireh Abdoos, Nasser Mozayani, andAna LC Bazzan. 2013. Holonic multiagent system for traffic signals control.Engineering Applications of Artificial Intelligence 26, 5 (2013), 1575–1587.

[2] Baher Abdulhai, Rob Pringle, andGrigoris J Karakoulas. 2003. Reinforcement learning for true adaptive trafficsignal control. Journal of Transportation Engineering 129, 3 (2003), 278–285.

[3] Itamar Arel, Cong Liu, T Urbanik,and AG Kohls. 2010. Reinforcement learningbased multi-agent system for networktraffic signal control. IET Intelligent Transport Systems 4, 2 (2010), 128–135.

[4] Bram Bakker, Shimon Whiteson, LeonKester, and Frans CA Groen. 2010. Traffic light control by multiagentreinforcement learning systems. In Interactive Collaborative InformationSystems. Springer, 475–510.

剩余内容已隐藏，您需要先支付 10元 才能查看该篇文章全部内容！立即支付

注册

找回密码