基于博弈树搜索和强化学习的gomoku系统开题报告
2020-02-18 19:27:30
1. 研究目的与意义(文献综述)
人工智能一直是当下发展最具前瞻性并备受人们关注的一个话题,而人工智能的一个长期目标则是建立在具有挑战性的领域里进行学习、决策并逐渐超越人能力的算法。棋类游戏则是人类智力方面最具挑战性的领域之一,因此从人工智能诞生开始,其在棋类游戏领域的探索便一直在进行。最初的人工智能注重算法的计算能力。1997年,ibm的“深蓝”战胜了国际象棋冠军卡斯帕罗夫,“深蓝”通过强大的计算能力穷举所有路数来选择最优策略,做到了可以预判12步。这样的算法依靠强大的计算能力取胜,然而并不是在所有领域中有有效,在围棋方面尽管可以训练到无限接近于人的能力,但始终无法超越,因为围棋不仅仅需要计算能力,还需要思考,因此以人类知识为基础来训练算法的思考能力,即从头开始建立一个可以思考的类似人脑的算法。
因此为对比算法进化的优势和特点,本课题尝试在五子棋领域对经典人工智能的博弈树搜索和后来出现的深度强化学习的算法性能进行比较,从训练速度、计算次数、决策判断、对战胜率等方面对两种算法进行剖析分析,从而得到算法进化的主要思路和方向,为学习深度学习和强化学习提供更好的优化思想。
一、神经网络的国内外发展现状
2. 研究的基本内容与方案
一、 基本内容及目标
为对比算法进化的优势和特点,本课题尝试在五子棋领域对经典人工智能的博弈树搜索和后来出现的深度强化学习的算法性能进行比较,从训练速度、计算次数、决策判断、对战胜率等方面对两种算法进行剖析分析,从而得到算法进化的主要思路和方向,为学习深度学习和强化学习提供更好的优化思想。
课题具体内容为:
3. 研究计划与安排
第1-3周 广泛查阅文献,明确选题,撰写开题报告
第4-5周 修改完善开题报告,并完成英文文献翻译
第6-7周 设计内容涉及的相关知识和技能的深入学习
4. 参考文献(12篇以上)
[1]alphazero实战:从零学下五子棋
[2]barto a g. reinforcement learning[j]. a bradford book, 1998, volume 15(7):665-685.
[3]chen j x . the evolution of computing: alphago[j]. computing in science and engineering, 2016, 18(4):4-7.