基于深度强化学习的五子棋平台的设计与实现开题报告
2022-06-05 22:05:58
1. 研究目的与意义
科学技术的不断发展使得人工智能已经成为计算机行业的一个热门领域。人工智能领域的主要目标之一是生成完全自主的智能体(agent),与他们的环境(env)进行交互以学习最佳行为,并通过反复试验来逐步提高。制作反应灵敏且能够有效学习的人工智能系统一直是一个长期的挑战,从可以感知和反应周围世界的机器人到纯粹基于软件的代理,可以与自然语言和多媒体互动。一个有经验的自主学习的原理性数学框架是强化学习(RL)。 随着AlphaGo、AlphaZero等一系列棋类博弈软件的诞生,人们对基于深度强化学习的应用更为重视,有学者认为深度强化学习是最接近于通用人工智能的范式。在人工智能的研究中,很多以棋类作为研究对象来对人工智能的算法进行研究和深化。五子棋是一种双人对弈的棋类游戏,是一款能增强思维能力、提高智力修身养性的十分容易上手的策略型游戏。 五子棋是在世界范围内广受欢迎的棋类运动,已经成为了世界上普及程度仅次于国际象棋的棋类游戏。棋盘 15x15 大小,玩家只需在规定的范围内连成5子即可获得胜利。五子棋的机器博弈的研究开展的很早,然而主要的研究方向主要发在了搜索上,通过搜索层数的增加来不断的提高棋力。但是五子棋的博弈系统的棋力对比五子棋职业选手还有所不如。目前主流的五子棋搜索博弈算法就是alpha-beta剪枝算法,在层数增加的同时保证还能保持时间上的效率。 棋类对弈是研究深度学习和强化学习的常用模型。人们在进行棋类的游戏时,通常会随着对弈次数的增长,能够获得更多经验,相应的棋力也会不断的提高。如果游戏的程序在对弈时也能够通过不断的对弈来提高,程序就会随着棋势的改变而不断调整策略,会因为不断的训练而提高程序自身的棋力,在游戏性上来讲,程序将变得更加有挑战性,使游戏变得可玩性更高,在人工智能的角度来说,游戏体现出了计算机对人们需求不断提高的学习能力。 将这种不断学习得到最佳策略的理念应用到现实生活中来正是其一大优点,人们可以借助人工智能实现各行业的智能化与自动化,从而大大地提高生产效率,节约成本开销,扩大经济优势。
|
2. 研究内容和预期目标
本设计主要是设计一种基于深度强化学习的智能五子棋平台用以进行训练五子棋模型。 研究内容: (1) 深入研究基于强化学习的基本原理和基本方法; (2) 研究深度强化学习方法,包含基于值函数的深度强化学习方法与基于策略梯度的强化学习方法;在强化学习基础上了解并掌握深度强化学习的算法体系和流程; (3) 对TensorFlow、Pytorch等常用的深度强化学习框架有一定的了解并且能够运用其进行训练; (4) 搭建五子棋棋盘,设定对弈规则,通过DQN算法进行不断的对弈模型训练,提高机器的下棋能力; (5) 检测训练的成果,测试算法性能。
预期目标: (1) 掌握深度学习和强化学习的基本理论; (2) 熟悉Python等语言以及相关库的使用; (3) 掌握Linux以及虚拟机的基本常规操作; (4) 实现五子棋训练平台的搭建; (5) 训练出一个尽可能稳定的五子棋模型; (6) 提交1篇符合规范的毕业设计论文; (7) 翻译1篇与毕业设计题目相关的英文资料; (8) 源代码1份。
|
3. 研究的方法与步骤
(1) 首先熟悉Java、C、Python等语言; (2) 阅读深度强化学习相关书籍,了解棋类博弈的原理; (3) 了解TensorFlow、Gym框架原理,熟悉开发文档; (4) 在准备充足的条件下实现简易的五子棋博弈的平台; (5) 在原有基础上进行创新。 |
4. 参考文献
[1] 徐松林. 深度强化学习概述[J]. 电脑知识与技术, 2018, 15(03): 199-200 [2] 刘全, 翟建伟, 章宗长, 钟珊, 周倩, 章鹏, 徐进. 深度强化学习综述[J]. 计算机学报, 2018, 421(1): 3-29 [3] 陈桥. 基于BP神经网络的五子棋自学习系统的设计与实现[D]. 秦皇岛: 燕山大学, 2015 [4] 刘阳. 基于人工智能的五子棋专家系统研究和设计[D]. 成都: 电子科技大学,2015 [5] 刘建伟, 高峰, 罗雄麟. 基于值函数和策略梯度的深度强化学习综述[J]. 计算机学报, 2018, 5(1): 1-21. [6] Sutton R S, Barto AG. 强化学习(第二版)[M]. 北京: 电子工业出版社, 2019. [7] Dong T Y. A SimpleAnalysis of AlphaGo[J]. Acta Automatica Sinica, 2016, 42(5): 671- 675. [8]Silver D, Schrittwieser J, Simonyan K, et al. Mastering the game of Gowithout human knowledge[J]. Nature, 2017, 550(7676): 354-359. [9] 罗文浩. 五子棋对弈平台的设计与实现[D]. 西安: 西安电子科技大学,2015 [10] 张效见. 五子棋计算机博弈系统的研究与实现 [D]. 合肥: 安徽大学, 2017 |
5. 计划与进度安排
(1) 2022年1月10日 — 2022年3月10日 接受毕业设计任务,查阅资料并完成开题报告; (2) 2022年3月11日 — 2022年3月18日 选择开发工具,并配置其环境; (3) 2022年3月19日 — 2022年3月 31日 完成软件需求分析和概要设计; (4) 2022年4月1日 — 2022年4月9日 完成软件详细设计; (5) 2022年4月 10日 — 2022年5月17日 编写和调试程序源代码,组织数据加以测试; (6) 2022年5月 18日 — 2022年5月31日 整理文挡,并翻译1篇相关的外文资料; (7) 2022年6月1日 — 2022年6月10日 撰写毕业设计论文,准备答辩资料。
|