基于DRL算法的船舶路径规划方法研究与实现开题报告
2022-08-30 10:07:42
全文总字数:6794字
1. 研究目的与意义(文献综述)
题目:基于ppo算法的船舶路径规划方法研究与实现
背景资料:
2. 研究的基本内容与方案
基本内容与目标:
1)了解强化学习基础概念、PPO算法及其源码,了解路径规划相关知识,分析船舶路径规划的特点,设计高效的船舶路径规划算法;
2)熟悉实验平台Open AI gym,基于该平台,使用python、tensorflow等完成自定义路径规划环境的编码实现(需要能自定义地图的尺寸,随机设置障碍物,定义智能体、起止点、任务),通过在自定义环境中运行PPO算法并完成任务测试环境是否构造成功;
3)在2)中的自定义环境中实现、验证和分析所设计的路径规划算法。
拟采用的技术方案及措施:
可分为三个阶段:
第一阶段,自定义路径规划环境
Open AI gym平台是一个用于开发和比较RL 算法的工具包,与其他的数值计算库兼容。gym库在设计环境以及个体的交互时有自己的规范和接口。gym库的核心文件为core.py,这里定义了两个最基本的类Env和Space。前者是所有环境类的基类,后者是所有空间类的基类。从Space基类衍生出几个常用的空间类,其中最主要的是Discrete类和Box类。通过其__init__方法的参数以及其它方法的实现可以看出前者对应于一维离散空间,后者对应于多维连续空间。Open AI Gym 提供了一个统一的环境接口,智能体可以通过三种基本方法:重置(重置环境并返回观测值)、执行(在环境中执行一个时间步长,并返回观测值、奖励、状态和信息)和回馈(回馈环境的一个帧)与环境交互。本文的研究基于Open AI Gym平台构建二维仿真环境,环境模型中仿真静态船舶、防波堤等障碍物,实现用户交互实现自定义环境设置。
本阶段的环境构建采取大致采取以下逻辑:
(1)用户交互界面获取环境信息:自定义设置的地图尺寸(长*宽),障碍物的数量及每个障碍物的二维坐标,智能体的起点与终点位置坐标。
(2)根据获取信息调用gym库的相关信息绘制实验环境
第二阶段,面向路径规划的PPO算法设计
(1)构建神经网络模型
多层前向网络是一种前向结构的人工神经网络,映射一组输入向量到一组输出向量,结构简单。根据文献[18]可知,多层前向网络在表示障碍物信息时计算简单,易于并行,并且无需训练权值,是一种相对简单的神经网络模型。本文将根据阶段一获取的用户自定义的障碍物信息建立多层前向网络,根据智能体的坐标即可以判断该点所在的位置是否在障碍物中。
(2)非均匀采样策略
强化学习通过智能体的动作与环境交互,获取奖励和观测信息,而智能体动作的选择极大影响搜索空间的大小和搜索效率。根据参考文献[15]可知,非均匀的采样策略有利于在最优解决方案可能存在的区域中进行采样。通过演示学习采样分布,然后用于偏差采样。采样分布是通过条件变量分析编码器计算的,允许从特定规划问题的潜在空间条件生成样本。本文的研究将结合非均匀采样策略进行动作选择。
(3)PPO的自适应裁剪方法
PPO算法使用一阶优化方法,允许基于先前采样的数据重复策略优化以降低样本复杂性,同时引入裁剪替代目标函数来保证与上一步迭代的策略间的偏差相对较小。但它可能无法根据每个采样状态的重要性自适应地提高学习成绩。基于此,根据文献[16]提出的自适应裁剪方法,即PPO-λ根据适应性策略改进的理论目标反复优化政策。同时,通过超参数λ的限幅和自适应控制,可以有效地防止破坏性大的策略更新,确保高学习可靠性。其方法在文献[16]中有详细论述。
测试环境:自定义设置创建不同的环境,举例如下:
输入信息 | 值 |
地图尺寸 | 700*700、300*300 |
障碍物数量 | 多、少 |
障碍物分布 | 密集、分散 |
分析指标:路径迭代次数、路径长度
在每个环境中,利用PPO 算法和本文改进的算法分别训练智能体,获取智能体每一步的位置坐标及迭代次数,进行横向(同算法,异环境)和纵向(异算法,同环境)的比较分析。相同的迭代次数下,比较路径规划的效果,即是否达到目标点、路线的长度;当训练获得的奖励基本维持在一个稳定的值时,比较不同算法规划的路径长度及其对应的迭代次数。横向比较不同环境下算法的路径规划能力,纵向比较原算法与改进算法的性能。
3. 研究计划与安排
(1)2019/1/14—2019/2/28:明确选题,查阅相关文献,外文翻译和撰写开题报告;
(2)2019/3/1—2019/4/30:系统架构,系统设计与开发(或算法研究与设计)、系统测试、分析、比较与完善;
4. 参考文献(12篇以上)
[1]霍凤财,迟金,黄梓健,任璐,孙勤江,陈建玲.移动机器人路径规划算法综述[j].吉林大学学报(信息科学版),2018,36(06):639-647.