基于强化学习的五子棋Agent的设计与实现文献综述

2020-06-23 20:43:25

强化学习是机器学习一个重要分支[1]，不同于传统的监督学习，它不需要大量数据和标签，而是通过Agent的某个行为策略导致的环境变化进行相应的奖赏和惩罚[2]，以此来强化Agent的行为趋势。

一个基本的强化学习过程可以模式化为一个马尔科夫决策过程[3]，它包括： 1、一系列环境和Agent的状态集合S。

2、一系列Agent的行为集合A。

3、指的是经过行为a由状态s转变为状态s#8217;的概率。

4、经过行为a状态由s转变为s#8217;所获得的即刻回报值。

5、 Agent所观测到的规则（随机的）。

通常来说，Agent的行为是受到限制的，它在每一个时间点t收到一个观测值，通常其中包含奖励，然后它从允许的集合中选择一个动作，然后送到环境中去，环境则变化到一个新的状态，然后决定了和这个变化（，，）相关联的奖励，强化学习Agent的目标就是尽可能得到多的奖励。

Agent所选择的动作是基于其历史的函数（也可以随机选择）。

和自始至终都以最优方式行动的Agent相比，它必须依据它长时间的行动序列进行推理，因此它当前所做出的行为也许不会即刻的最大利益，但就整体过程来看，它获得了较高的回报。

因此，强化学习对于包含长期反馈的问题比短期反馈的表现要更好。

剩余内容已隐藏，您需要先支付 10元 才能查看该篇文章全部内容！立即支付