基于强化学习的吃豆人游戏AI的设计与实现开题报告
2022-01-25 23:02:23
全文总字数:1710字
1. 研究目的与意义及国内外研究现状
近年来随着大数据等技术的高速发展,机器学习已迎来发展拐点。机器学习将成为未来二十年全球最重要的科技,并成为工业机器人、无人机、无人驾驶、智能陪伴等新兴产业的重要基础。强化学习是机器学习的一部分,2016年 “alphago以4:1的比分击败了世界围棋冠军李世石”,最核心的技术便是强化学习。强化学习是智能体以不断尝试的方式进行学习,通过与环境进行交互获得的奖赏指导行为,目标是使智能体获得最大的奖赏。本次设计使在pacman游戏中,使用强化学习算法来实现pacman自动躲避ghost比吃掉所有的豆子获得尽可能高的分数。
国内外研究现状
强化学习算法在最近几年取得取得行的突破,2015年,deepmind的volodymyr mnih等研究员在《自然》杂志上发表论文,提出了一个结合深度学习技术和强化学习思想的模型deep q-network(dqn),在atari游戏平台上展示出超越人类水平的表现,首次将深度学习与强化学习结合起来形成深度强化学习,迅速成为人工智能界的焦点。之后又有像深度逆向强化学习之类的算法出现,不断推动着强化学习的发展。
2. 研究的基本内容
本课题内容包括训练一个吃豆人智能体能够躲避鬼吃掉图中的豆子,并能在吃掉胶囊(capsule)后在一定时间限制内吃掉鬼,最终获得高分。
具体到实现上,在pycharm上利用python语言编写强化学习中的q-learning算法,从游戏中提取适当的特征值做值函数近似,不断训练更新权值,运行时在每个状态处执行q-value值最大的行动,最终赢下游戏,获取高分
3. 实施方案、进度安排及预期效果
实施方案:通过查阅相关资料和动手实践,深入了解强化学习的基本概念和原理以及使用方法。先把相关概念、基本原理和使用方法了解透彻,再通过python编写程序实现吃豆人的自主运行,探索和学习。
进度安排:
4. 参考文献
[1] kaelbling, l.p., m.l.littman, anda.w.moore.(1996). “reinforcement learning: a survey.” journal of aritificialintelligence research.
[2] watkins, c.j.c.h. and p.dayan.(1992).“q-learning.” machine learning.
[3] sutton, r.s. and a.c.barto.(1998).reinforcement learning : an introduction. mit press, cambridge, ma.