Flappy-Bird游戏的双Q深度强化学习研究开题报告
2020-06-03 21:57:40
1. 研究目的与意义(文献综述包含参考文献)
1.前言
机器学习是人工智能研究的核心内容。它的应用已遍及人工智能的各个分支,如专家系统、自动推理、自然语言理解、模式识别、计算机视觉、智能机器人等领域。
人工智能涉及到诸如意识(consciousness)、自我(self)、心灵(mind)(包括无意识的精神(unconscious_mind))等等问题。人唯一了解的智能是人本身的智能,这是普遍认同的观点。但是我们对我们自身智能的理解都非常有限,对构成人的智能的必要元素也了解有限,所以就很难定义什么是”人工”制造的”智能”了。因此人工智能的研究往往涉及对人的智能本身的研究。其它关于动物或其它人造系统的智能也普遍被认为是人工智能相关的研究课题。
2. 研究的基本内容、问题解决措施及方案
1.本课题要研究或解决的问题
Q-Learning算法下机器人的学习效率不高,选择易出错,提高机器人的学习效率就是本课题要解决的问题
2.拟采用的研究手段
双Q深度学习是解决本课题的良好方案。它能解决Q-Learning选择偏向的问题,提高机器学习的速度。
本课题旨在将Q-Learning的Flappy-Bird变为双Q算法,提升学习的效率。开发拟采用VMware_workstation_full_10.0.1虚拟平台,在该平台上安装了Ubuntu虚拟机,虚拟机的硬件配置与软件配置如表所示
JDK |
1.8.0 |
opencv |
3.2.0 |
Tensorflow |
1.0.0 |
Hardware |
6G内存,20G硬盘 |
TensorFlow是谷歌基于DistBelief进行研发的第二代人工智能学习系统,其命名来源于本身的运行原理。Tensor(张量)意味着N维数组,Flow(流)意味着基于数据流图的计算,TensorFlow为张量从流图的一端流动到另一端计算过程。TensorFlow是将复杂的数据结构传输至人工智能神经网中进行分析和处理过程的系统。
OpenCV的全称是:Open Source Computer Vision Library。OpenCV是一个基于BSD许可(开源)发行的跨平台计算机视觉库,可以运行在Linux、Windows、Android和Mac OS操作系统上。它轻量级而且高效#8212;#8212;由一系列 C 函数和少量 C 类构成,同时提供了Python、Ruby、MATLAB等语言的接口,实现了图像处理和计算机视觉方面的很多通用算法。
在标准的 Q-learning 以及 DQN 上的 max operator,用相同的值来选择和评价一个 action。这使得其更偏向于选择 overestimated values,导致次优的估计值。为了防止此现象,我们可以从评价中将选择独立出来,这就是 Double Q-learning 背后的 idea。
本课题是在Q-learning算法的基础上,对机器学习做进一步的改进,提高机器学习的速度与效率,使其能够更快更好的应用于本实际生活。