两人对抗游戏中的角色动画外文翻译资料
2022-12-04 14:51:07
英语原文共 13 页,剩余内容已隐藏,支付完成后下载完整资料
两人对抗游戏中的角色动画
一些错综复杂的人类行为是在竞争性游戏中与他人互动而产生的。在许多竞技体育中,运动员们为了某些目标而竞争,同时阻止对手达到他们的目标。这些场景创造了非常动态和不可预知的情况:玩家需要做出决定,考虑他们自己的行为和对手的策略,包括对手行为的任何偏见或弱点。我们认为,基于博弈论的数学框架是在这些情况下对动画或控制角色的适当选择。此外,我们还指出,游戏理论公式自然地反映了现实生活中的一些行为,如佯装和其他非决定论的智能使用,这些行为在现实生活中是无所不在的,但到目前为止,在没有重大的手动调整的情况下,很难将其融入到游戏中。这在视频游戏中尤其具有价值,在游戏中,不确定性的智能使用对于在竞争环境中的虚拟角色来说是绝对必要的。
我们的方法基于的根本假设是,角色同时行动,与前对抗性的角色动画技术形成鲜明的对比。这与许多现实世界的游戏和运动的结构紧密相连,并抓住了在这些游戏中难以预测的原因。在基于回合的方法中,行为的最佳方式总是决定性的,而且任何随机性必须在一个特定的时间内进行处理,而且通常难以手动调音。这大大增加了动画控制器的设计,并且容易出现错误,导致字符在不合适的情况下,不随机选择,或者选择随机性。通过允许同时采取行动,我们得出了一个博弈论的公式,它在其最优行为的定义中包含了非确定性。这不仅允许自动构建智能和随机控制器,而且还会产生诸如假动作和快速的脚步动作这样的紧急行为,这些行为利用了不可预测性的有效性。
我们为角色动画所采用的特定数学模型被称为零和马尔科夫游戏。在这个模型中,每个角色根据概率分布进行操作,从而最大程度地实现获胜的可能性,假设对手有同样的推理能力,并试图尽可能有效地阻止他们。这种方法也可以使长期规划变得更加容易,在这个过程中,人物选择他们的行动,不仅基于马上发生的事情,而且还考虑到将来可能发生的后果。这对于在真正的游戏中适用的方法是必要的,并且会产生智能化的预期,例如“领导”一个跑步者的动作,以解决他们或计划在剑战中佯装。
不幸的是,建立最理想的游戏理论控制器是很困难的,因为我们要同时考虑两个对手来制定最优策略。这放大了高维度的所有问题,使得它比创建单个字符的控制器要困难得多。这是特别有问题的,因为现有的MDP和马尔可夫游戏规划算法需要在游戏的状态空间的维度上进行指数时间和存储。我们提供了一个新的离线学习算法,它采用了迭代函数学习和压缩启发式。这个算法有效地减轻了这个困难,特别适合于角色动画中遇到的各种问题。通过将这个模型与一个直接使用角色的动态图的模型结合起来,而不是依赖于简化的抽象,我们能够产生详细而实际的结果。
最后,我们提供了一种方法来改变我们角色的行为,以了解对手的偏见和低效率。例如,如果已知一个对手倾向于选择一个特定的动作,那么这个角色可以调整其行为,这样这个动作就不会成功。我们相信,在定义复杂的、智能的、不可预知的、适应性强的行为时,自然地解释随机性和其他细微差别的能力,将会极大地影响重复游戏体验的现实主义和独特性。
在游戏中,我们希望有一个角色控制器,在它的运动选择和随机性的使用中,它的行为都是智能的。以往的动画角色之间相互竞争的方法通常会从一个基于回合的框架来解决这个问题。在某种程度上不同的方法中,刘等人使用一系列交替的时空优化来产生一种躲避运动。在这些方法中,对角色的行为进行排序,迫使他们“轮流”选择他们的动作。这允许使用标准的交流极小极大搜索技术获得确定性策略。在某些情况下,这是适当的,它允许作者生成一些令人印象深刻的动画,但在其他情况下,这些方法会表现得很差。这些方法的难点在于,强加的排序通常是任意的,并且不反映物理游戏的真实性质,即同时采取行动。结果是双重的。首先,在以回合为基础的方法中,球员“以第二名”的方式有明显的优势,通常会导致一些不切实际的动作,在这些动作中,玩家似乎可以“预测”对手的动作,然后才会发生。其次,这些方法中的最佳行为总是决定性的。通过允许行为同时发生,我们自然会得出一个博弈论的方法来解决这两个问题。那些不确定性的政策似乎捕捉到了我们在竞争游戏中所期望的假动作和快速的脚步动作。
随机选择。这种方法通常产生不令人满意的结果,因为根据不同的状态和角色的可用行为,需要的随机性的程度和性质可能会有不同的变化。例如,在某些情况下,只有一个动作是合适的,例如在标签游戏中直接从对手那里跑。其他的动作,比如转弯或减速,可能会导致得分比最佳动作稍微低一些,但看起来很奇怪,实际上是一个选择的角色。相反,有些情况下,比如避开一个即将到来的俗套,在那里,它是不可预知的,而角色会希望在一个左边和右道奇之间随机选择。我们的博弈论框架自然地将随机性融入到其最优性的定义中,并决定了在游戏状态下的多样性和有效性之间的随机策略。
我们的方法也与强化学习技术有关,这些技术被用来实时生成智能的单字符行为。McCann和Pollard[2007]构建了一个值函数,它可以适应用户的命令模式。李(2006年)使用一个离散的表示来计算一个拳击手达到目标的最佳路径,通过让每个角色把对方的身体当做目标来获得两个角色的动画。Treuille等人(2007年)、Lo和Zwicker(2008)为价值函数提供紧凑的表示,以在运行时快速获得策略。我们的工作将这些想法扩展到多个字符,以产生在单字符框架中不可能实现的战略行为。
Graepel et al(2004年)提出了一种特别有趣的单个性方法来控制竞争角色。他们利用强化学习逐渐建立起一种有效的策略,让角色一遍又一遍地玩格斗游戏。这种方法确实可以适应对手的行为,但也忽略了对抗性的方面,因为它将对手视为一个随机过程而不是一些有能力的推理。这意味着生成的控制器仍然是决定性的,在新情况下应用之前可能需要大量的培训数据。
我们认为在一种游戏中,每个角色都试图表现得很好,同时防止对手做同样的事情,这是一个让一个角色与另一个角色竞争的问题。这意味着角色所采取的任何行动都将被选择,而不仅仅是他们帮助他们在游戏中的表现,以及他们的对手如何对抗他们。为了方便起见,我们今后将把一个角色称为代理,另一个是对手,并从代理的角度来描述游戏。然而,在我们的模型中,代理和对手是可互换的,我们的技术可以被用于动画,或者两者兼有。
我们的方法基于的基本假设是,这些角色同时选择他们的动作,与之前在角色动画中使用的基于回合的方法相反。这种假设更好地模拟了现实世界中大多数物理游戏的运行方式,以及为什么它常常是不可预测的。简单地说明一下这个特性,考虑一下井字与石头剪刀的区别。前者是基于回报的,并且有一个最佳的确定性策略。然而,在石头剪刀布和许多真正的游戏中,缺少转弯需要一个不确定的策略。
这一观点导致了使用马尔可夫游戏来模拟人物动画的问题。特别是我们采用了一个零和的马尔可夫游戏,其中两个角色与对方的目标竞争。在这样的游戏中,每个玩家在每个状态下都有一组可用的移动,我们称之为动作。我们的方法与这些行为的来源无关,但为了使人类的人物栩栩如生,我们使用参数运动图来生成它们。在此场景中,一个字符在状态中的操作对应于从该角色当前状态开始的移动图的可用转换,并在未来结束一些短时间。我们的方法允许一个连续的状态空间,直接在角色的运动模型上执行它的计划,并且完全捕获同步动作的问题。这自然产生微妙而又聪明的不确定性结果。
我们希望能够实时控制角色。这一点尤其重要,因为在计算机游戏中,对敌对的动画控制器来说这是最有趣的应用程序之一。为了允许实时控制,同时允许长期规划,我们预先计算了一个被称为游戏值函数的结构。值函数是一个总体概念规划算法,但在对抗性的游戏它代表一个函数映射每个可能状态的游戏变成一个实数表示预期未来回报的代理假设最佳遵守代理和对手。这样,我们就可以通过简单地观察状态立即产生的行为来确定预期的长期回报,然后查询价值函数来确定该状态的长期预期值。由于值函数可以完全在脱机前进行预计算,因此这种方法在运行时非常有效。
在本文的其余部分,我们将首先描述用于驱动我们的动画的参数运动图模型。接下来,我们将简要介绍博弈论的基本原理,因为它适用于我们的方法。然后讨论了我们方法的值函数的前计算阶段,特别是在多维马尔可夫游戏和MDPs中估计我们的值函数的一种新技术,用于将我们的方法应用于字符动画。最后,我们将展示一种简单的技术,它可以将对手的偏见和亚最优的知识融入到我们的模型中,并自动地对它们进行计划。
为了将基函数逼近算法扩展到更高维度,我们提出了一种新的启发式算法,它利用状态空间不同部分之间的相似性来逐步建立一组基函数。我们的方法直接利用游戏的奖励和作用函数来生成这些基函数,并且不像其他方法那样,在状态空间的维数中可以是多项式(而不是指数)。
在我们的算法背后的关键观察是,在许多实际的游戏中,值函数将在状态空间的许多维度上保留类似的特性。例如,在学习一个游戏的值函数时,一个玩家试图去解决另一个,值函数将随两个玩家的相对角度而变化。然而,我们期望它不会变化太大,而且在每个角度上,它都是可取的,例如,对于阻击手,要接近和面对他们的对手。
我们已经在几个简单的游戏和角色控制器上测试了我们的框架,用于标记和剑战。我们已经发现,这些技术既可以为这些游戏学习价值函数,也可以使角色实时动画。在这些游戏中,我们观察到聪明的不确定性行为和动作的使用,例如佯装和快速步骤,降低玩家的可预测性。不幸的是,在我们的方法和以前的方法之间进行直接的数值比较是不可能的,因为它们是基于不同的字符交互模型。我们在定性地提供了这个评价。我们在这两种游戏中都发现,我们的技术为观察到的策略增加了大量的随机性,同时保留了智能的行为。我们说明这随机性的标签游戏,很容易想象。我们也测试了标签和剑与回合制游戏控制器,发现产生的控制器显得很愚蠢,因为游戏的实际力学允许并发操作的两名球员。我们还测试了一个基于转位控制器的随机变化,该控制器在三个具有最高值的操作之间随机选择。这个随机化的控制器表现出不确定性,但在使用上并不聪明,在实践中,由于它选择了视觉上的次优行为,在实际操作中常常显得不那么可信。此外,我们还使用奖励函数(而不是值函数)来测试这两种游戏,并发现结果明显不太可信。鼓励读者观看本文附带的视频,可以通过ACM数字图书馆访问,为自己做出这些定性判断。
剩余内容已隐藏,支付完成后下载完整资料
资料编号:[25349],资料为PDF文档或Word文档,PDF文档可免费转换为Word