移动机器人的控制算法研究毕业论文
2022-03-07 22:16:18
论文总字数:18971字
摘 要
机器人在面对陌生的环境没有先验的知识,也就不可避免的遇见各种始料未及的障碍物。这就要求机器人能够在陌生的环境能够自主的学习。充分说明了机器人在未知环境下的路径研究的重要性。
本文的研究背景是移动机器人在未知的环境中路径的规划。用到了强化学Q-Learning算法,是强化学习算法的一种。Q-Learning算法首先会建立一张Q值表,Agent在未知的环境中,发出动作后,会有一个对当前动作及下一步环境的状态反馈,从而形成激励函数R,对于正确的动作Q值会不断地增加,错误的,比如说碰到障碍物了,或者是Agent偏离了正确的方向,Q值就会减小。通过这种奖励措施,也就是说机器人获得最多的正的,最大的奖励,从起点到终点,机器人能够避开障碍物并且选择出最优的路径。
文章首先介绍机器人路径规划研究的意义背景进行了介绍。结合了国内外的路径规划的研究现状,介绍了目前路径规划的主要的研究方法。以及当前路径规划研究所主要存在的问题。然后是本文主要工作做了大体介绍。以及后续章节的具体安排。
其次,本文对强化学习算法做了较为详细的介绍。介绍了强化学习算法的发展趋势存在不足。介绍了强化学习的概念、原理、组成以及基本性质。
最后,介绍了把Q-Learning算法运用得到路径规划当中,对机器人系统框架做了简单的介绍。路径规划的策略。最后就是仿真分析以及对所做工作进一步总结。
关键词:智能机器人 路径规划 强化学习 Q学习
Abstract
The robot faces a strange environment without a priori knowledge, and inevitably meets all kinds of unexpected obstacles. This requires the robot to be able to study autonomously in a strange environment. Fully explain the importance of robot path research in unknown environment.
The research background of this thesis is the path planning of mobile robot in unknown environment. Using reinforcement learning Q-Learning algorithm, is a kind of reinforcement learning algorithm. Q-Learning algorithm will first build a table of values of Q, Agent in the unknown environment, issued after the action, there will be one on the current status and action of the next step of environmental feedback, thus forming the incentive function of R, the correct action of Q value will continue to increase, wrong, for example to meet obstacles the Agent, or deviate from the right direction, the Q value will be reduced. Through this incentive measure, that is, the robot gets the most positive, the biggest reward, from the starting point to the end point, the robot can avoid obstacles and select the best path.
Firstly, the significance and background of robot path planning are introduced. Combined with the research status of path planning at home and abroad, the main research methods of path planning are introduced. And the main problems existing in current Institute of path planning. Then, the main work of this paper is introduced in general. And detailed arrangements for subsequent chapters.
Secondly, this paper introduces the reinforcement learning algorithm in detail. The development trend and shortages of reinforcement learning algorithm are introduced. The concept, principle, composition and basic properties of reinforcement learning are introduced.
Finally, this paper introduces the application of Q-Learning algorithm to path planning, and gives a brief introduction to the framework of robot system. Path planning strategy. Finally, the simulation analysis and further summary of the work done.
Keywords: intelligent robot;path planning; reinforcement learning;Q learning
目 录
摘 要 I
Abstract II
第一章 绪论 1
1.1研究背景及意义 1
1.2国内外研究现状 2
1.3移动机器人路径规划存在的问题 3
1.4本文主要工作 3
第二章 移动机器人路径规划及强化学习算法 5
2.1 引言 5
2.2 机器人路径规划技术 5
2.2.1 全局路径规划算法 5
2.2.2 局部路径规划算法 6
2.3强化学习算法理论 6
2.3.1 Markov决策过程 7
2.3.2 强化学习算法结构模型 8
2.3.3 强化学习算法组成元素 10
2.3.4 强化学习算法组成元素 10
2.4 Q-Learning算法 11
2.4.1 Q-Learning算法的原理 11
2.4.2 Q-Learning算法的原理 12
2.4.3 Q Learning算法收敛性分析 13
2.4.4 Q Learning算法收敛步数 14
第三章 Q-Learning算法用于机器人路径规划 15
3.1 移动机器人的系统框架 15
3.2 路径规划策略 16
3.3仿真实验遇到的问题及解决办法 18
3.4 仿真实验改进 20
3.5 仿真实验结果 21
3.6 实验结果分析 24
3.7 本章小结 25
第四章 总结与展望 26
4.1 总结 26
4.2 展望 26
参考文献 27
致 谢 29
第一章 绪论
1.1研究背景及意义
智能机器人,如今在许多的领域得以发展,比如 工业、农业、医疗技术、服务业、国防军事等。然而这离不开当前的技术支持。智能机器人在能够判别当前的环境,还能够自主的判断得到最优的路径。智能机器人技术也是一个多种技术的集合体,它集成了自动化技术、计算机技术、信息处理技术、电子工程技术、传感器技术、人工智能技术等。
机器人的研究要追溯到上世纪的六十年代。在当时机器人主要应用于军事,以及航空航天事业。美国研发的“探测者3号”[1]能够通过地面的远程遥控,使机器人能够在月球上完成例如挖沟等各种探测任务。苏联的“登月者20号”[2]也是通过无人驾驶,在地面远程遥控,完成钻岩石的操作并带回地球。七十年代,由于人们对于海洋开发需求的进一步加大,一些能够在极端环境下工作的机器人也取得较快的发展。
请支付后下载全文,论文总字数:18971字