登录

  • 登录
  • 忘记密码?点击找回

注册

  • 获取手机验证码 60
  • 注册

找回密码

  • 获取手机验证码60
  • 找回
毕业论文网 > 毕业论文 > 电子信息类 > 通信工程 > 正文

基于强化学习的智能博弈系统的设计与实现毕业论文

 2021-12-24 16:20:33  

论文总字数:21574字

摘 要

2016年,DeepMind团队创造出能够完成了人类大脑无法完成的工作量人工智能程序AlphaGo,他可以在无人为干预的情况下,通过学习大量棋谱,一举击败的欧洲的世界围棋选手。本次设计将使用AlphaGo中所采用的强化学习算法,应用于贪吃蛇游戏,使贪吃蛇在无人为控制的情况下,可以获得更高的分数。

本设计选择PyTorch作为机器学习的平台,使用Python语言,在PyCharm编辑器上完成系统的设计与实现。系统程序分为三个模块,分别是环境模块、算法模块和交互模块。交互模块作为主程序,控制模型训练和游戏演示,完成环境模块与算法模块的数据交互。环境模块通过Pygame搭建,完成贪吃蛇游戏的环境实现。算法模块使用深度强化学习算法,经过训练,输出当前状态下可选动作的Q值,与目标Q网络的结合进一步稳定动作值函数的训练,预测下一遵守游戏规则的最优动作,以获取更高的游戏分数。

关键词:DQN PyTorch 强化学习

Design and Implementation of Intelligent Game System Based on Reinforcement Learning

Abstract

In 2016, the DeepMind team created an artificial intelligence program AlphaGo that can complete the workload that the human brain cannot. Through learning a large number of chess games, and defeated the European Go players in one fell swoop.This design will use the reinforcement learning algorithm used in AlphaGo to apply to the snake game, so that the snake can get a higher score without human control..

This design chooses PyTorch as the machine learning platform and uses Python language. Finally, the design and implementation of the system are completed on the PyCharm editor. The system program is divided into three modules, namely environment module, algorithm module and interaction module. The interaction module serves as the main program, controls model training and game demonstration, and completes data interaction between the environment module and the algorithm module. The environment module is built by Pygame to complete the environment realization of the snake game. The algorithm module uses deep reinforcement learning algorithms. After training, the Q value of the optional action in the current state is output, and the combination with the target Q network further stabilizes the training of the action value function, and predicts the next optimal action following the game rules to obtain a higher game score.

Key Words: DQN;PyTorch;Reinforcement Learning

目 录

摘要 I

Abstract II

第一章绪论 1

1.1 选题背景 1

1.2 课题研究现状 1

1.3 主要研究内容 2

第二章相关技术 4

2.1 强化学习 4

2.1.1 强化学习基本架构 4

2.1.2 相关参数 5

2.1.3贪婪算法 6

2.2 神经网络 6

2.2.1 神经网络概述 6

2.2.2 卷积神经网络(CNN) 7

2.2.3 循环神经网络(RNN) 8

2.3 深度强化学习 8

2.3.1 经典算法分析 9

2.3.2 Q-Learning算法 11

2.3.3 深度Q网络 13

2.3.4 AlphaGo中的深度强化学习算法 13

2.4 本章小结 14

第三章系统总体设计 15

3.1 系统实现工具 15

3.2 系统分析 15

3.3 系统主要模块设计 17

3.3.1 交互模块 17

3.3.2 环境模块 18

3.3.3 算法模块 19

3.4 本章小结 21

第四章系统总体实现 22

4.1 系统实现工具以及开发环境搭建 22

4.2 系统主要模块实现 23

4.2.1 交互模块 23

4.2.2 环境模块 23

4.2.3 算法模块 24

4.2.4 其他补充功能 25

4.3 实验成果展示 25

第五章总结与展望 29

5.1 总结 29

5.2 展望 29

参考文献 30

致谢 31

第一章 绪论

1.1 选题背景

目前,人工智能已经发展成为了信息时代的一门新学科,他在生活中已被应用到衣食住行的方方面面,正在彻底的改变了人类的生活方式。尤其是在此次疫情救助当中,人工智能也发挥了他不可替代的作用。正式因为这些改变,让人们愈发认识到人工智能暗藏的潜力。

人工智能的研究分为多种学派,每种学派根据他们的方法能够解决不同的问题。机器学习是连接学派的产物,决策树、支撑向量机、逻辑回归等基于统计学的方法均属于此算法。机器学习是从数据中学习,自动学习算法,并且使用学习到的算法去进行预测。强化学习已经不需要依赖先验知识数据,他与传统的的监督与非监督学习不同,他可以通过自我学习的方式,使系统不再使用标注数据和先验知识,就可以求取最优解。

而随着研究人员需求的逐渐提高,强化学习逐渐露出他的短板,DeepMind团队开拓了另一种思维,将强化学习与机器学习中的另一分支深度学习与相结合,推出深度强化学习算法,巧妙地结合了二者的优势,可以更高效地解决智能体在高维复杂状态空间中的感知决策问题。DeepMind团队研发的AlphaGo程序,也成为了第一款战胜人类的程序。而AlphaGo Zero更是可以‘无师自通’的完成自我学习,体现出深度强化学习在未来人工智能社会的价值,远比现在可以想象的要多。深度强化学习在感知决策领域的落地,尤其是游戏、自动驾驶和围棋领域的成就,大大提升了深度强化学习的应用范围,也为未来发展提供了无限可能。本次设计,正是使用AlphaGo所提出的DQN(深度Q网络,DQN)算法,设计一个环境为贪吃游戏的基于强化学习的智能博弈系统。

1.2 课题研究现状

随着信息时代的到来,作为被人们称为世界三大尖端技术之一的人工智能,已然计成为算机学科的重要分支[1],显而易见,他将会带领人类进入下一阶段,从方方面面改变人类过往以来的生活习惯。而他包含的各种决策算法、深度学习、强化学习等等,都在各自应用范围发挥作用,更是当下社会热门的学习发展方向。

请支付后下载全文,论文总字数:21574字

您需要先支付 80元 才能查看全部内容!立即支付

企业微信

Copyright © 2010-2022 毕业论文网 站点地图