强化学习与PacMan的智能算法开题报告
2022-01-14 21:14:34
全文总字数:1607字
1. 研究目的与意义及国内外研究现状
强化学习是机器学习中的一个研究方向,已经经历了数十年的发展历程,通过对整个系统进行操作,以使得能够得到最高的回报。动物心理学家通过对动物的长期研究,动物能将受到伤害和饥饿等行为视为负反馈,将获得食物和感到开心等行为看作正反馈,长期的环境作用影响下,就会养成渴望且主动获得正反馈以及主动躲避或避免负反馈的行为习惯,强化学习与其有着相似之处。这些理论有着广泛的普适性,在博弈理论、运筹学、数据分析处理、自动化控制、运行优化、多agent控制、统计学习和语言处理等方向受到大量的研究,并很多都已经有着一些成果,得以应用。在最优理论的研究中,近似动态规划作为强化学习领域的一个范畴常被用来研究探寻是否有最优解和最优解的性质。在研究机器学习时,通常在一个系统环境(mdp)中,使用动态规划的方法来获得最优策略和效用函数,除此之外,强化学习在通过人力难以找到合理方法的不能完全观察环境中也适用。强化学习应用方向众多,有着很好的发展前景。
国内外研究现状
强化学习已经应用在许多的领域,比如机器人和工业自动化,是学术和工业领域共同的研究方向之一。工业自动化是未来一定要实现的方向,很多公司已经发现自动化解决方案将会带来巨大的生产力,同时也会有着广阔的市场需求,一些公司已经在制造类似机器人产品。deepmind利用强化学习技术显著降低了谷歌数据库日常所需要的能耗;bonsai公司它们正在研制一些工具,通过这些工具可以帮助其他的企业将强化学习以及一些其他相关的技术应用到工业来提高生产和发展。作为人工智能的子领域,对于一些需要很高的技术水平才能完成的调试机械和设施的任务工作如果用人来做费用将是昂贵无比,强化学习也能够提供一些有效的解决方案。在文字,语音,对话和数据等方面,强化学习能对文字,语音,数据的进行识别、翻译、语义分析以及解答等各种操作有着很大的帮助;一些大型互联网公司可以通过网络收集大量的用户相关数据,然后对其进行分析就可以为用户提供更好的服务,从而赢得更大用户市场和支持。很多需要和人交互的系统(好比机器人客服)先通过初步深度学习拥有一定的基本对答能力,然后再利用强化学习在平时通过和用户的交互来不断改善自己,系统将随着时间的推移以及交互的增多越来越强大,甚至达到以假乱真的程度。
2. 研究的基本内容
将采用伯克利大学的人工智能课程 PacMan项目的强化学习部分来进行分析,将从基础的一些算法是实现开始,逐步扩展,运用强化学习算法来控制 Pac- Man,这些概念也可以应用于现实世界的应用领域,比如自然语言处理、计算机视觉和机器人技术等等领域。这些项目提供强化学习所需要的基本框架以及驱动的数据,能够将强化学习从简单到复杂进行实现检验,能够直观地看到所实施的算法的运行结果,便于进行数据测试分析。
3. 实施方案、进度安排及预期效果
实施方案及预期效果:
阶段1:查找相关文献,参考资料书,获取所需的相关技术,分析研究基础理论知识。
阶段2:完成项目中的相关算法实现,进行运行调试,分析结果,尽可能优化完善。
阶段3:完成论文,进行答辩。
4. 参考文献
[1]Stuart J.Russell Peter Norvig著.人工智能:一种现代方法(第三版).殷剑平等译.北京:清华大学出版社,2014:688-689.