基于DRL算法的船舶路径规划方法研究与实现文献综述

2020-04-14 22:09:31

1．目的及意义

题目：基于PPO算法的船舶路径规划方法研究与实现

背景资料：

随着船舶智能化发展，路径规划逐渐成为研究热点。路径规划是在一定的障碍环境中，按照给定的性能指标（距离最短、时间最短或者消耗最少等），为智能体规划出从起点到终点的最优避障路径。其本质是在几个约束条件下得到最优或可行解的问题。比较流行的路径规划方法有：人工势场法，蚁群算法，神经网络和遗传算法等,每一种算法都有不同的优缺点。人工势场法简单实用但有较大概率无法到达目标位置，蚁群算法具有很强的鲁棒性和搜索较好解的能力但收敛速度慢，需要较长的搜索时间；神经网络算法学习能力强鲁棒性好但泛化能力差，遗传算法充分发挥自身迭代的优势但运算效率不高。

深度学习与强化学习是人工智能领域两大研究热点，其结合产物深度强化学习近年来也受到极大关注。深度学习通过组合低层特征形成更加抽象的高层表示属性类别或特征，以发现数据的分布式特征表示；强化学习是智能体探索与评价的过程，通过与环境交互，获取任务的最优解决方案。深度强化学习^[4]结合深度学习的感知能力与强化学习的决策能力，高维感知输入控制Agent的行为。比较典型的深度强化学习算法包括：DQN、TRPO、DPPG、A3C、PPO等，每种算法通过不同的学习方式获取最优或次优的解决方案。

目的和意义：

剩余内容已隐藏，您需要先支付 10元 才能查看该篇文章全部内容！立即支付

注册

找回密码