基于深度强化学习的 flappy bird 应用开题报告
2022-01-13 22:10:15
全文总字数:2731字
1. 研究目的与意义及国内外研究现状
flappy bird是一款来自独立游戏开发者dong nguyen的游戏作品。在游戏中,玩家只需控制一只像素鸟通过两个管道中间的缝隙即可。如果玩家点击屏幕,鸟就会向上飞,如果玩家什么都不做,像素鸟就会一直下落。游戏中,像素鸟触碰到管道或者落地则游戏结束。
本设计利用基于深度残差网络的强化学习来训练flappy brid。最终目的是使机器学会如何去玩flappy brid,并取得更高的分数。
我们正处在一个日新月异、飞速变革的时代,层出不穷的新技术每天都在冲击和改变我们的生活。人工智能无疑是其中最受关注、也是影响最深远的技术领域。它为计算机插上了翅膀,演变出许多从前根本无法想象的新技术、新应用。
2. 研究的基本内容
flappy bird是一款来自独立游戏开发者dong nguyen的游戏作品。在游戏中,玩家只需控制一只像素鸟通过两个管道中间的缝隙即可。如果玩家点击屏幕,鸟就会向上飞,如果玩家什么都不做,像素鸟就会一直下落。游戏中,像素鸟触碰到管道或者落地则游戏结束。
本设计将利用基于深度残差网络的强化学习来训练flappy brid。
教电脑玩flappybird需要确定的两个东西是游戏和电脑,目的是电脑玩游戏。 游戏接收一个action操作,action是一个一维数组,比如a = [0,1], 当a[1] = 1的时候,我们让小鸟向上飞。如果是其它的数,小鸟下落。 我们训练出一个人工大脑agent,这个agent可以对环境environment中的状态status做出判断,读取环境的状态,并做出行动action。这个人工大脑做出行动之后,环境会根据受到的来自agent的行动给这个agent进行反馈reward,这个人工大脑会根据环境的反馈做出改进,从而做出更好improve的行动。就是这样一个循环往复的过程,agent不断地尝试,不断地改进自己,agent 每一步都要需要向着获得最大利益那边靠齐。
3. 实施方案、进度安排及预期效果
实行方案:本设计采用python进行编程,编程结束后对flappybird进行仿真训练。
实行进度:
2018年12月10日—2019年1月10日:调研,初步对深度强化学习有一个了解。
4. 参考文献
1.何之源.21个项目玩转深度学习:基于 tensorflow的实践详解.北京:电子工业出版社,2018.3.
2.廖星宇. 深度学习入门之pytorch. 北京: 电子工业出版社.2017.09.01.