基于强化学习的坦克大战对弈策略设计与实现开题报告
2020-02-18 20:01:45
1. 研究目的与意义(文献综述)
21世纪是游戏行业蓬勃发展、迅速壮大的时代,随着移动智能终端的普及、移动网络带宽及稳定性的大幅提高,手机成为人们日常生活不可或缺的物品,手机游戏的市场占有率逐年稳步上升,手机游戏行业的发展热火朝天,游戏种类琳琅满目[1],小型的对弈类游戏,例如:象棋游戏,坦克大战等,因其能让游戏者在短暂空闲时间片段内便能体验游戏乐趣,更因其益智性拥有大量的受众。
《坦克大战》是1985年日本南宫梦namco游戏公司在任天堂fc平台上推出的一款多方位平面射击游戏。游戏以坦克大战及保卫基地为主题,属于策略型联机类游戏[2]。传统fc上的游戏只是单一的进行人机对战[3],即使是升级后坦克大战,游戏中ai坦克的行为都是基于a*算法[4]或者bfs算法[4],然而,无论是哪种算法,都是典型的盲目式搜索算法。ai坦克的行为是基于随机决策或者传统的预定义行为决策决定的,致使随着玩家体验游戏次数的增多,就可能清晰地认识到游戏中非玩家角色的大致行为模式,这样极大地降低了玩家的参与性,使玩家丧失继续体验游戏的兴趣[2]。
因此,本研究结合相关的理论研究,提出了研究的重点,即能否使非玩家角色拥有人类的思维模式,使其通过感知虚拟游戏环境的变化与自身状态的详细信息,制定行为决策和规划,指导自身的自适应行为,进而增加游戏的真实体验,牢牢地吸引玩家的注意力[2],即采取强化学习的方法使非用户智能体具有学习能力,“顺势而变”,提高游戏的趣味性。
2. 研究的基本内容与方案
基本内容:
1)坦克大战app的设计与开发。该款app可供用户控制己方坦克进行上、下、左、右四种方式的移动,在有障碍物或者地图边界的地方坦克某一个或某些方位的移动会受到限制,用户还可以控制己方坦克射出子弹攻击ai坦克。同样,ai坦克也可进行上述移动并主动攻击用户坦克。
2)将基于强化学习算法的设计策略用于坦克大战中的人机对弈。在最开始的对弈中,可以设计ai坦克以固定或者随机的方式在地图上游走和射击,之后,便在选择的强化学习算法,例如:q-learning算法的指导下开始与环境进行交互,在不断“试错”中学习,提高自身的战斗力。
3. 研究计划与安排
第一阶段(第1周—第3周):阅读文献,主要是安卓应用开发和强化学习相关文献。
第二阶段(第4周—第7周):完成开题报告;翻译英文资料(不少于5000汉字),并交予指导教师检查。
第三阶段(第8周—第10周):掌握技能,具有针对性的学习编程语言,算法,设计基于安卓的坦克大战应用,完成预期基本功能,并进行调试;
4. 参考文献(12篇以上)
1. 篇) [1] 韩浩然. 基于android的《坦克大战》游戏的设计与实现[d].天津大学,2016.
[2] 周文娟. 数字化游戏中非玩家角色自适应行为的研究[d].山东师范大学,2015.
[3] 钟海平,曾玉珠.手机游戏“坦克大战”的开发[j].电脑编程技巧与维护,2009(03):80-84.