增强学习在高速公路换道超车驾驶决策中的应用开题报告
2020-04-07 08:43:37
1. 研究目的与意义(文献综述)
无人驾驶汽车是一种智能汽车,也可以称之为轮式移动机器人,主要依靠车内的计算机系统为主的智能驾驶仪来实现无人驾驶,无人驾驶汽车是通过车载传感器系统感知道路环境,自行规划行车路线并控制车辆达到预定目标的智能汽车。
研究机构预测,无人驾驶可以减少90%的交通事故,医院急诊室每年会因此减少数百万病人;降低80%以上的传统保费;能够将通勤所耗时间以及能源消耗减少90%;能使汽车数量减少90%;每年能够帮助减少3亿吨汽车二氧化碳排放量。
去年百度智能汽车事业部总经理顾维灏近日在硅谷参加由英伟达(nvidia)举办的2017年度gpu技术大会(gtc)时表示,百度智能汽车事业部顺应“apollo”计划的战略构想,将自己定位为领先的自动驾驶解决方案提供商,主要聚焦于制定三类特定场景下的自动驾驶解决方案:第一,高速公路行驶场景;第二,自动代客泊车场景;第三,卡车或商用车的自动驾驶。在高速公路行驶场景中,高速公路行驶占据了一半以上的驾驶总时间,且道路环境相对封闭和稳定,显然是自动驾驶绝佳的应用场景。而在高速公路自动驾驶研究的课题中,由于实车实验具有很高的危险性、耗时周期长、价格昂贵、特殊工况难以实现,针对于此,建立高速公路车辆的行驶仿真模型显得十分重要。车辆在高速公路上自动驾驶过程中的控制与决策问题是一个具有大规模连续空间以及多个优化目标的复杂序贯决策问题,利用传统的动态规划方法已经不能做到很完美地解决出现的问题,甚至可能完全解决不了问题,机器学习(machine learning,ml)的增强学习(reinforce learning)在该领域却应用已久。
2. 研究的基本内容与方案
设计的任务:
(1)简单高速公路上车辆模型的搭建;
(2)学习增强学习相关知识;
3. 研究计划与安排
1 - 2周 查阅相关文献,学习增强学习的相关知识;
3 - 4周 翻译外语资料,写开题报告;
5 - 6周 掌握matlab、python等工具软件的使用方法;
4. 参考文献(12篇以上)
[1] balduzzi, david and ghifary, muhammad. compatible value gradients for reinforcement learning of continuous deep policies. arxiv preprint arxiv:1509.03005, 2015.
[2] deisenroth, marc and rasmussen, carl e. pilco: a model-based and data-efficient approach to policy search. in proceedings of the 28th international conference on machine learning (icml-11), pp. 465–472, 2011.
[3] deisenroth, marc peter, neumann, gerhard, peters, jan, et al. a survey on policy search for robotics. foundations and trends in robotics, 2(1-2):1–142, 2013.