Flappy－Bird游戏的双Q深度强化学习研究文献综述

2020-06-03 21:57:37

1.前言

机器学习是人工智能研究的核心内容。它的应用已遍及人工智能的各个分支，如专家系统、自动推理、自然语言理解、模式识别、计算机视觉、智能机器人等领域。

人工智能涉及到诸如意识（consciousness）、自我（self）、心灵（mind）（包括无意识的精神（unconscious_mind））等等问题。人唯一了解的智能是人本身的智能，这是普遍认同的观点。但是我们对我们自身智能的理解都非常有限，对构成人的智能的必要元素也了解有限，所以就很难定义什么是”人工”制造的”智能”了。因此人工智能的研究往往涉及对人的智能本身的研究。其它关于动物或其它人造系统的智能也普遍被认为是人工智能相关的研究课题。

机器学习是人工智能研究发展到一定阶段的必然产物。从 20 世纪50 年代到 70 年代初，人工智能研究处于”推理期”，人们认为只要给机器赋予逻辑推理能力，机器就能具有智能。这一阶段的代表性工作主要有 A. Newell 和 H. Simon 的”逻辑理论家”程序以及此后的”通用问题求解”程序等，这些工作在当时取得了令人振奋的成果。例如，”逻辑理论家”程序在 1952 年证明了著名数学家罗素和怀特海的名著《数学原理》中的 38 条定理，在1963年证明了全部的52 条定理，而且定理 2.85甚至比罗素和怀特海证明得更巧妙。A. Newell和 H. Simon因此获得了 1975 年图灵奖。然而，随着研究向前发展，人们逐渐认识到，仅具有逻辑推理能力是远远实现不了人工智能的。E.A. Feigenbaum等人认为，要使机器具有智能，就必须设法使机器拥有知识。在他们的倡导下，20 世纪 70 年代中期开始，人工智能进入了”知识期”。在这一时期，大量专家系统问世，在很多领域做出了巨大贡献。E.A. Feigenbaum 作为”知识工程”之父在 1994 年获得了图灵奖。但是，专家系统面临”知识工程瓶颈”，简单地说，就是由人来把知识总结出来再教给计算机是相当困难的。于是，一些学者想到，如果机器自己能够学习知识该多好！实际上，图灵在1950年提出图灵测试的文章中，就已经提到了机器学习的可能，而20世纪50年代其实已经开始有机器学习相关的研究工作，主要集中在基于神经网络的连接主义学习方面，代表性工作主要有 F. Rosenblatt 的感知机、B. Widrow 的 Adaline 等。在 20 世纪 6、70 年代，多种学习技术得到了初步发展，例如以决策理论为基础的统计学习技术以及强化学习技术等，代表性工作主要有 A.L. Samuel 的跳棋程序以及 N.J. Nilson 的”学习机器”等，20 多年后红极一时的统计学习理论的一些重要结果也是在这个时期取得的。在这一时期，基于逻辑或图结构表示的符号学习技术也开始出现，代表性工作有 P. Winston的”结构学习系统”、R.S. Michalski等人的”基于逻辑的归纳学习系统”、E.B. Hunt 等人的”概念学习系统”等。1980 年夏天，在美国卡内基梅隆大学举行了第一届机器学习研讨会；同年，《策略分析与信息系统》连出三期机器学习专辑；1983年，Tioga出版社出版了R.S. Michalski、J.G. Carbonell和T.M. Mitchell主编的《机器学习：一种人工智能途径》，书中汇集了 20 位学者撰写的 16 篇文章，对当时的机器学习研究工作进行了总结，产生了很大反响；1986 ，《Machine Learning》创刊；1989 年，《Artificial Intelligence》出版了机器学习专辑，刊发了一些当时比较活跃的研究工作，其内容后来出现在J.G. Carbonell主编、MIT出版社 1990 年出版的《机器学习：风范与方法》一书中。总的来看，20 世纪 80 年代是机器学习成为一个独立的学科领域并开始快速发展、各种机器学习技术百花齐放的时期。R.S. Michalski等人中把机器学习研究划分成”从例子中学习”、”在问题求解和规划中学习”、”通过观察和发现学习”、”从指令中学习”等范畴；而 E.A. Feigenbaum在著名的《人工智能手册》中，则把机器学习技术划分为四大类，即”机械学习”、”示教学习”、”类比学习”、”归纳学习”

2.机器学习及发展现状

机器学习(Machine Learning)是研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。它是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域，它主要使用归纳、综合而不是演绎。
　　学习能力是智能行为的一个非常重要的特征，但至今对学习的机理尚不清楚。人们曾对机器学习给出各种定义。H.A.Simon认为，学习是系统所作的适应性变化，使得系统在下一次完成同样或类似的任务时更为有效。R.s.Michalski认为，学习是构造或修改对于所经历事物的表示。从事专家系统研制的人们则认为学习是知识的获取。这些观点各有侧重，第一种观点强调学习的外部行为效果，第二种则强调学习的内部过程，而第三种主要是从知识工程的实用性角度出发的。
　　机器学习在人工智能的研究中具有十分重要的地位。一个不具有学习能力的智能系统难以称得上是一个真正的智能系统，但是以往的智能系统都普遍缺少学习的能力。例如，它们遇到错误时不能自我校正；不会通过经验改善自身的性能；不会自动获取和发现所需要的知识。它们的推理仅限于演绎而缺少归纳，因此至多只能够证明已存在事实、定理，而不能发现新的定理、定律和规则等。随着人工智能的深入发展，这些局限性表现得愈加突出。正是在这种情形下，机器学习逐渐成为人工智能研究的核心之一。它的应用已遍及人工智能的各个分支，如专家系统、自动推理、自然语言理解、模式识别、计算机视觉、智能机器人等领域。其中尤其典型的是专家系统中的知识获取瓶颈问题，人们一直在努力试图采用机器学习的方法加以克服。

2016年3月，在韩国首尔四季酒店举行的谷歌DeepMind围棋挑战赛，人工智能围棋软件AlphaGo以4∶1战胜了韩国棋手李世乭九段。本次比赛后，关于人工智能和机器学习的话题迅速升温，引起社会各界的关心。

　毫无疑问，AlphaGo是近年来机器学习、系统和高效搜索算法结合成功的典范，谷歌AlphaGo成功给我们的启示是多方面的：

　　1）正确的选题。谷歌选择了可以量化、规则明确的计算机围棋领域，其主要负责人David Silver 和Aja Huang的博士论文均是计算机围棋，有着超过10年的经验。

　　2）恰当的方法与时机。在计算机性能大幅度提升的大背景下，谷歌通过训练大规模深度学习网络，结合高效的传统蒙特卡洛搜索树，成功地控制了围棋的复杂度。

剩余内容已隐藏，您需要先支付 10元 才能查看该篇文章全部内容！立即支付

注册

找回密码