基于强化学习的五子棋Agent的设计与实现开题报告
2020-06-23 20:51:20
1. 研究目的与意义(文献综述包含参考文献)
强化学习是机器学习一个重要分支[1],不同于传统的监督学习,它不需要大量数据和标签,而是通过agent的某个行为策略导致的环境变化进行相应的奖赏和惩罚[2],以此来强化agent的行为趋势。
一个基本的强化学习过程可以模式化为一个马尔科夫决策过程[3],它包括: 1、 一系列环境和agent的状态集合s。
2、 一系列agent的行为集合a。
剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!
2. 研究的基本内容、问题解决措施及方案
#61548; 设计五子棋界面以及胜负判定规则。
#61548; 实现使用值函数近似以及使用msct方法进行策略提升的强化学习算法 #61548; 对强化学习算法中的参数进行调节,使其达到最好的训练效果 #61548; 把强化学习算法与五子棋逻辑相结合 #61548; 对训练成果进行可视化 2. 拟采用的研究途经: #61548; 查阅网上有关强化学习算法的文献资料,同时也会参考一些其他的强化学习应用案例,借鉴并结合自己所做的,进行改进和优化。
#61548; 学习并掌握python编程语言以及相关机器学习库的应用 #61548; 学习js等网页脚本语言,编写动态页面展示成果
剩余内容已隐藏,您需要先支付 10元 才能查看该篇文章全部内容!立即支付