将行为特征应用于决策过程以创建可信的游戏AI外文翻译资料
2022-08-13 15:41:46
英语原文共 10 页,剩余内容已隐藏,支付完成后下载完整资料
将行为特征应用于决策过程以创建可信的游戏AI
1摘要
随着计算机游戏中人工智能的发展,创建具有令人信服和多样化行为的角色以居住在游戏世界中的问题变得越来越实际。 现代游戏人工智能的大量必需字符和高标准使问题变得更加复杂。 在本文中,我们提出了一个基于效用的决策模型,该模型提供了生成具有可信行为的字符的可能性。 这些角色的可信度来自他们的决策过程,不仅要考虑游戏环境的评估,还要考虑他们的个人特征和社会地位。 设计的模型用于生成AI驱动的角色,以开发具有个性特征的玩家对手,从而实现计算机卡策略。 该模型用于模拟2014年冬季奥运会主要铁路枢纽上的人流量,以揭示应控制行人流量的区域。
2介绍
人工智能(AI)在任何类型的游戏中都占有重要地位。 开发人员使用它来创建一个游戏内环境,以改善对游戏的沉浸感,这将有助于发现游戏世界的特殊属性。 许多游戏都是基于AI驱动的角色及其对玩家行为的反思。 复杂行为规则适用于此类字符。 AI的设计者付出了很多努力,以使这些规则与游戏项目的特殊性更加相关。 AI开发中最复杂,最庞大的案例之一就是具有所谓“开放”世界的游戏。 这类游戏的主要特征是玩家可以随时与任何游戏中物体或不可玩角色(NPC)进行互动。 通常,为了提供这种能力,开发人员会创建一个由许多角色居住的大世界。 如今,游戏开发商倾向于增加游戏世界的规模。 但是,这增加了居住在世界上所需的字符数。 城镇,村庄和国家需要大量的代理商来实施与地区相关的行为。 此外,现代游戏中的AI必须为每个NPC提供个性化的行为,以使其具有独特性。 该行为还必须看起来很现实,以给人留下NPC自己做出决定且不遵循任何规定的行为规则的印象。 现代游戏中可能有成千上万个这样的角色。 创建具有如此多种多样且复杂行为的角色的问题非常广泛,需要采用现代且复杂的方法来解决。 另一方面,在多主体仿真中使用允许以高精度对人群动态建模的方法来创建主体。 方法使用的一个示例是执行实验以测试密集人群中建筑物内部的代理行为。 高级行为框架可以实时处理数千个具有不同参数的代理。 小组行为和现实特工的运动是此类实验的主要兴趣点。 尽管观察到的方法在游戏行业中具有实际应用潜力,但最终的特工更多地是人群的一部分,而不是具有个人行为的角色。 因此,可以说明两个实际问题。 第一个问题是创造大量具有多种多样且可信行为的角色以居住在游戏世界中的问题。 第二个原因是在行人动力学方面无法进行实验。 需要一种现代的方法来解决它们。 本文提出了一个规范NPC游戏内环境互动与决策的模型作为问题解决方案。 它基于多智能体仿真方法与AI创作的现代游戏开发方法的集成。 所提出的模型允许创建具有符合最近游戏开发趋势的可信行为的NPC,以及用于区域和交互式对象定位的游戏内环境映射。
2.相关工作
2.1。 “可信”行为的定义现实主义的定义是AI驱动的NPC行为评估中最重要的事情之一。 因此,在当前工作的背景下定义“可信行为”的含义很重要。 即使该定义描述了座席的行为,但要感知像真实人物一样的角色更多地取决于座席观察者。 因此,应考虑该定义的心理方面。 代理人行为的可信度取决于观察者的期望。 这既取决于游戏规则,也取决于角色的外貌和背景故事。 例如,在一般情况下,机器人NPC的可信行为与人类NPC的行为大不相同。 因此,在计算机游戏中,可信行为是符合游戏规则并与角色的性格相对应的行为。 关于计算机科学中的可信度评估,现实性和AI进步的讨论通常包括对Turing测试的引用。 测试的目的在于发现机器是否可以思考。 在测试过程中,建议一个人与一个真实的人进行一次对话,另一人与由AI驱动的计算机进行对话。 谈话之后,该人必须根据收到的答案在同伴中确定一台计算机。 当计算机被选为真实人物时,该测试即视为通过。 换句话说,测试取决于可信的计算机如何模仿人类行为。 但是许多学者批评该测试。 他们说它的结果不能证明机器具有智能,而机器不能拥有智能[1]。 然而,在计算机游戏中,人工智能模仿人类行为并在预定情况下自然动作的能力至关重要。 因此,观众对角色行为的感知是确定可信行为的主要因素。 由于每个人的生活经历,而不是人脑中的通常过程,因此这种感觉对于每个观众都是独特的。 玩家期望AI在他的日常生活中表现得像他周围的人。在几篇科学论文中都观察到了确定虚拟代理行为的参数。 伊斯坎德·乌马罗夫(Iskander Umarov)已形成了可信AI的要求清单[2]。 需求的主要主题是代理人感知环境的方式以及使这些方式更像玩家的方式。 在专门针对计算机游戏中的AI的书中描述了另一项要求列表[3]。 该列表包括以下内容:适合游戏规则的行为动态行为调整类似于玩家之一的环境感知可以确定特定角色的个人特征特工之间的社交互动适当的预测水平 (太可预测的行为或太不可预测的行为会降低游戏玩法的可信度)因此,在当前作品中,“可信的行为”被定义为满足所列要求的行为。 但是,最终,行为的可信度始终由旁观者确定。
2.2。 决策系统范例决策系统是任何游戏中AI的重要组成部分。 这样的系统为NPC提供了在可能的选项中选择选项的能力,并允许描述行为。 NPC可以使用所提供的功能来找到游戏世界中的特定对象或做出某些决定。 在游戏行业中,有几种创建此类系统的方法。 下面通过分析它们的优缺点来描述最有可能和最常用的那些。
2.2.1。 计划的行为就内部体系结构而言,最原始的方法是使用存储在游戏逻辑中的预定义NPC行为[4]的方法。 这导致了一种不灵活的,预先计划好的行为,无法提供任何选择。 当必须在特定时间发生特定动作时,此方法可用于创建日常行为。 动作按照时间表按严格的顺序进行更改。 而且,在固定游戏场景的情况下,这种行为是优选的。 但是在其他情况下,这种方法需要更多的时间来实施。 创建动态行为时,它不符合当前工作的要求。 2.2.2。 有限状态机最常见的字符行为管理模型是基于有限状态机的模型[5]。 这些模型适用于具有少数可能状态的NPC。 在某个区域巡逻的NPC是这种模型的一个很好的例子。 然而,可能状态的数量越多,有限状态机变得越复杂,从而增加了实现时间。 而且,这些机器与所产生的情况紧密相关,并且很难在多个项目中同时使用单个机器。 因此,大多数现代计算机游戏在NPC开发中都没有使用有限状态机。 尽管其中一些确实使用了机器的改进版本[6]。
2.2.3。 行为树如今,行为树在计算机游戏AI创造技术中占主导地位[7]。 行为树是一种层次结构,其节点表示代理状态,并包含在激活节点时执行的逻辑。 通过管理执行线程的方式而变化的各种各样的节点提供了创建复杂行为结构的巨大潜力。 由于缺乏字符状态更改方面的问题,行为树优于有限状态机[8]。 而且,这种方法允许创建更复杂的行为结构并轻松添加新的行为模式。 行为树也有几个缺点。 首先,当搜索发生在每一帧时,深度优先搜索(DFS)需要花费大量时间才能在一棵大树中完成。 其次,由于缺乏随机决策的能力,行为树无法完全实现可信的角色行为。 第三,必须用难以导航和调试的巨大树来描述复杂的行为。行为树有一些扩展,可以包括并行计算改进[9]或深度学习方法的集成[10]。 但是游戏行业倾向于使用更现代的方法来创建AI。
2.2.4。 机器学习方法由于计算潜力的增加,近几年来,人工神经网络(ANN)在计算机游戏中变得越来越流行。 ANN的主要用途是向玩家提供适当的挑战。 2017年,使用神经网络为DOTA 2游戏创建了一个机器人(OpenAI)。 另一个示例是星际争霸2 [11]游戏中的一个名为“ DeepMind”的ANN。 通常,AI中的机器学习方法根据网络类型和体系结构通过输入数据对动作参数进行分类。 在大多数情况下,由于高计算资源要求和不可预测的结果,在开发游戏时,这些网络会以离线模式学习。 另一方面,强化学习在AI研究中得到了特别的关注。 这是没有老师的学习,系统会自行将计算结果与预期结果进行比较,并根据两个结果的相似性来改变它们之间的权重。 这种方法允许忽略缺少适当的映射数据库。 但是,要使这些方法起作用,就必须严格定义网络错误逼近函数。 有时定义这样的功能是一项艰巨的任务。 游戏行业中强化学习的著名示例是完成Atari游戏的AI [12]和AI竞赛中的角色训练系统[13]。
2.2.5。 效用AI是一种基于估计执行动作收益的技术[14]。 实用程序算法[15]在当今以及其他一些场合越来越受欢迎。 它们为创建NPC决策系统提供了一种灵活且可扩展的方法。 当需要在多个选项之间进行选择时,NPC将计算每个选项的收益(效用),然后选择效用最高的选项。 收益估算过程不仅考虑角色内部参数,还考虑对游戏环境状态的评估。 收益的估算使决策过程达到了模糊逻辑的水平[16] [17],即使在设计中未曾预测的游戏情况下,也能使代理商做出可信的决策。 效用方法的主要优点之一是呈现行为规则的方法。 它们可以用曲线表示法来描述,该曲线图表示多个行为规则的叠加,也可以通过表表示法来描述,以概述不同游戏情况下效用价值的变化。 Utility AI的另一个优点是,使用它构建的行为变得高度可重用和可扩展。 为了扩展角色的行为,需要在其基于实用程序的决策系统中添加新的可用选项,并且针对一个角色制定的行为规则可以轻松转换为另一角色。
2.2.6。 研究目标在当前工作中,我们的目标是设计和开发一种决策模型,该模型可以轻松创建具有可信行为的大量角色,以居住在游戏世界中,并可以进行行人动态实验。 为了满足AI的最新要求,该模型必须包含行为多样化的方法。 为实现目标已制定了下一组任务:1.根据利润估算功能开发决策组件; 2.代理行为多样化组件的设计与开发; 3.实施模块,以将开发的组件集成到可视化系统中; 4.测试开发模型的游戏世界角色创建和行人动态模拟。
3.方法
本节介绍了已开发模型及其基本组件的说明。 该模型是基于以下几个核心概念设计的:观察-东方-决定-行动(OODA)决策周期,效用AI,多智能体建模和游戏行业方法,以创建具有可信且多样化行为的角色。3.1。 两因素决策周期OODA循环的特点是决策的两个阶段:东方和决策。 在东方阶段,决策过程会考虑代理人的个人特征:例如,他的社会地位或当前的情绪状态。 在这方面,东方阶段对NPC行为的可信度有很大影响。 另一方面,在“决定”阶段,基于与游戏环境交互的规则,可以通过更为理性的考虑来调整“东方”阶段做出的情感决定。 因此,决定将决策周期分为两个部分。 第一个将在周期的东方阶段运行,并将为代理选择一个意图。 然后,在“决定”阶段,业务代表将根据当前意图选择其下一个“操作”。
3.1.1。 意图选择组件意图是决策系统的基本实体。 意图代表了代理商在游戏环境中的愿望。 为了选择合适的意图,代理商应评估周围的环境及其个人特征。 决定采用Utility AI方法评估此评估。 为了选择一个意图,代理商将通过接受每个意图来估计效用(收益),然后将选择收益最高的意图。 为了估算目标的当前收益,我们建议将冲动值与每个目标相匹配。 期望值显示了代理人目前希望接受这个意图的程度。 为了计算意图,我们建议使用效用增长函数,该函数根据意图的冲动和特工的内部参数来计算意图的当前效用。 为了在调整角色的行为方面获得更大的灵活性,我们可以针对每种意图分别设置实用程序增长功能。 为了描述意图变化的动态,冲动值可能会随时间或在外力的影响下上升或下降。 等式1描述了冲动随时间变化的过程,其中s表示冲动,g是冲动增长速度,t是预定的时间段。
?=? ?lowast;?(1)
因此,为了选择一个主导意图,每个代理都形成了一组当前可用的意图。 然后,对于每个意图,他们计算效用值并找到收益最高的意图。 要提到的一件事是,每个代理人目前可能只有一个主导意图,因此直到完全满足当前意图之前,选择意图的周期不会被触发。 通常,大多数意图都使用预定义的效用计算函数,例如,等式2和等式3描述了S型和切向效用函数。 但是要获得更大的决策灵活性,可以选择为每个意图设置一个独特的功能。
3.1.2。 动作选择组件决策过程的第二阶段是选择合适的动作,这些动作将由OODA循环的最后一个阶段中的角色执行。 动作是角色对所选意图的反应。 执行后,每个动作都会更改代理的内部状态,例如在游戏环境中移动到某个对象或开始动画序列。 另外,动作可能包含角色接受动作后将继承的某些逻辑。 这可以包含在游戏世界中的座席定位规则或影响其他座席状态的规则。 与意图不同,动作选择过程受游戏规则和其中的代理角色影响。 根据当前的主要意图选择动作。 选择算法基于执行动作的测量效用。 为此,将可用操作列表与每个意图关联。 在决定阶段动作选择组件从主导意图列表中计算执行每个动作的效用。 之后,代理将执行最有利的操作。 在最简单的情况下,执行操作的好处是使用操作优先级的值来计算的。 优先级越高,执行该动作的机会就越大。 但是,在大多数情况下,操作需要使用大量参数来设置单个效用计算函数。 动作分为两类:内部和外部。 内部动作旨在更改其执行程序的内部状态,并且不会影响其他对象。 另一方面,外部动作可以改变游戏环境的交互式对象的状态或修改其他代理的状态,例如,修改其意图的冲动。 动作也除以持续时间。 例如,某些动作可以减少匹配意图的冲动,并继续执行直到该冲动不会降到预定值以下。 另一个行动小组可能会持续一段时间,然后被打断。 为了实现角色行为的可信度,我们应该通过在决策过程中增加更多角色个性的方法对其进行补充,以使他们的决策更加独特和多样化。 为此,我们可以添加将在OODA循环的Orient阶段起作用的组件。
3.1.3。 代理角色组成根据在OODA循环的东方阶段的两因素决策模型,代理应获取可用于其意图的列表,并从中选择最合适的意图。 为了创建此列表,我们设计了一个角色组件。 该组件根据座席的当前角色提供意图列表。 角色是一个有助于描述角色和游戏情况的实体。 每个角色都包含一个意图和行动列表,角色从中继承了这些意图和行动。 根据作用的持续时间,将角色分为两组:行为组和临时角色行为组在设计阶段附加到角色
剩余内容已隐藏,支付完成后下载完整资料
资料编号:[236055],资料为PDF文档或Word文档,PDF文档可免费转换为Word