用于实时交通信号控制的混合代理架构外文翻译资料

2022-07-26 20:59:03

英语原文共 11 页，剩余内容已隐藏，支付完成后下载完整资料

用于实时交通信号控制的混合代理架构

摘要

本文提出了一种新的混合协同方法，应用计算机智能概念来实现复杂业务网络的实时业务信号控制的协作，分层，多代理系统。大规模交通信号控制问题分为各种子问题，每个子问题由具有模糊神经决策模块的智能代理处理。下级代理人做出的决定由其各自的上级代理人介入。通过采用协同分布式解决问题的方法，实现了代理商的协调控制。为了使多代理架构不断适应动态变化的问题领域，针对每个代理的多级在线学习过程的实现涉及加强学习，学习速率和权重调整以及使用进化算法动态更新模糊关系。用于这项研究的试验台是新加坡中央商务区的一部分。所提出的多代理架构的性能是针对当前实时自适应流量控制系统使用的信号集合进行评估的。多代理架构在交通网络条件下产生显着改善，总平均延迟降低40％，总停车时间缩短50％。

索引术语 - 协同系统，模糊神经网络，在线学习，多代理系统，实时交通信号控制。

引言

城市街道交通有效运输的交通信号控制是城市交通控制系统（UTCS）的一个具有挑战性的部分。交通响应式闭环系统或自适应交通信号系统正在成为越来越重要的交通运输机构，以满足其日常运营和管理需求^[1]。对于大规模的UTCS，可能难以或不可能判断交通网络是否畅通，并且可以评估其当前状态。此外，由于交通网络中的一些非线性和随机流量过程，预测修改任何流量控制参数的影响并不容易。因此，除了传统的交通控制技术^[2]，还需要以网络中的各种控制器之间协调的形式进行知情干预，以防止交通网络退化为车辆进展缓慢或完全停止的病态。另外，一个额外的挑战将是本领域早期研究所提出的：实现自适应流量控制，特别是对于在线信号优化^[3]。鉴于这些挑战，在本研究中实施了结合计算智能技术的多代理架构，以提供有效的实时流量控制。本研究探讨了通过有效的协调，沟通，知识获取，决策，目标制定和在线学习的多代理系统中的智能合作解决问题。

几项研究尝试实现分布式控制，无需监控即可获得对一组信号的最佳信号控制。在这些作品中已经应用了各种类型的多代理系统^{[4] - [7]}。在某些情况下，研究涉及到简化的交通状况，如定期交叉路口^[4]和包含单向道路^[5]，而其他交通条件已经使用了一部分现实情况^[8]。在^[9]中，代理人是交通模糊控制器的形式。在^[6]中，遗传算法和强化学习被应用于实现自组织的多代理系统。

基于这些研究，已经发现，在为现实世界情景模拟的复杂交通网络中，需要进行更多的研究来实施系统的，无监督的，分布式的测试方案。解决复杂分布式问题的多代理人之间的合作概念已被应用在交通领域，如上述的一些作品所示。但是，为了量化合作水平以及制定合作机制，还需要做很多工作。

本研究的主要目标是通过使用多个互动的自主代理为动态网络的实时流量管理提供有效的信号控制策略来满足这一需求，开发新的分布式，协同解决问题的方法。该多代理系统旨在利用神经网络和模糊逻辑系统之间的协同关系^[10]，[11]。它还通过强化学习^[12]，[13]和进化算法的模糊规则引入了一种创新的多阶段在线学习和代理自组织的方法^[14]，[15]。

分层多元建筑

多代理架构以分层方式设计，为交通网络提供不同级别的控制。该架构由三层组成。最低层由交通控制器代理（ICA）组成，其控制交通网络中的单独的，预先分配的交叉点。中间层由控制多个预先分配的ICA的区域控制器（ZCA）组成。最高级别由一个区域控制器代理（RCA）控制所有的ZCAs。

实时网络信号控制的问题分为几个子问题，每个子问题具有不同的规模和大小。任务是从多层架构的每一层的各个代理人根据层次结构来管理各个子问题。每个代理是能够查询环境的并发逻辑进程（例如，其控制内的较低级别的传感器和代理）并且自主地做出决定。每层的代理人根据交叉点的条件或一组交叉点确定他们认为适当的政策（包括信号时间安排调整和偏移协调的方向）和合作级别（由合作因子定义）在他们的管辖范围内。除了具有较高级别的交通网络参数作为其决策过程的输入外，上级代理人还获得了其下级代理商推荐的合作因素作为输入。基于这些投入，上级代理人的决策过程可能会提出一组与其较低级别代理推荐的政策不同的更高级别的政策，或者他们可能选择遵守较低级别的政策。

策略库是一个动态数据库，用于存储每个评估周期结束时所有级别的控制器代理推荐的所有策略。当所有交点已经完成其当前的信号相位时，指示评估周期的结束。在每个时期之后，先前推荐的策略将更新一套新的策略。政策存储库随后对整套建议的政策进行仲裁和解决冲突。仲裁程序优先考虑上级政策。然而，由于下级代理人的产出（即合作因素）之一是较高级代理人的投入的一部分（如前所述），这些较低级别的决定直接影响到上级代理人的成果代理人的决策过程。因此，低级别的政策不会被仲裁程序所淹没。在仲裁过程之后，所选择的策略集被发送到策略解释器。策略解释器的功能是将所选择的策略集合转化为动作，这可能导致对受影响的交叉点的各种信号定时参数（例如相位长度，周期时间，偏移协调的方向）的调整。

FUZZY-NEURAL决策模块

在每个自主代理中，模糊神经决策（FNDM）模块包括知识库和推理引擎。FNDM模块由两个主要功能块组成，即用于产生适当策略的信号策略推理机（对于本研究，策略是指交通信号策略）和协作因子推理机，用于产生合适的协作因子。合作因子是由较低级别代理产生的两个输出之一，后者又被馈送到其父级（更高级）代理。说明下级代理机构认为适合其管辖范围内目前交通条件的合作水平。

FNDM模块的架构遵循模仿模糊推理机制的多层前馈神经网络方法^[16]，[17]。因此，模糊神经结构由五层组成，在层间表示模糊推理机制的模糊化，含义，后果和去模糊化过程。使用这种方法，架构提供了证明信号策略和合作级别（由协作因素定义）的选择的手段。

每个ICA将不同交叉路口的流量变化的流量特征占用，流量和流量作为输入。流量变化的占有率，流量和流量变化基于环路检测器的测量（参见第V部分B有关环路检测器的更多细节），在交通信号灯为绿色的阶段。为了量化一个区域交叉点的交通状况，ZCA的FNDM模块将每个交叉口的代表占有率，流量和流量变化率作为输入。流量的模糊集，流量和流量变化率具有三个语言标签，即高，中，低三个隶属函数（高斯隶属函数）。除了前面提到的这些投入外，ZCA还采用了其管辖下的各ICAs所推荐的交叉合作因子（以反映每个ICA认为合适的自身交叉点的合作水平，所有这些都在区域由ZCA控制）。通过将第二层中的节点与第三层中的节点正确链接来定义模糊规则的前提。第三层基于使用MIN运算符实现的T范数模糊运算来触发每个规则。

第三层中的节点定义了区域（即，高，中，低负载）的当前业务负载的程度以及该区域内的交叉点（即，高，中，低合作度）所需的协作水平。第四层中的节点表示与FNDM模块中的模糊规则相对应的各种结果。对于信号策略推理机，其结果由各种信号改进/控制策略组成。对于合作因素推理机，其结果由各种可能的合作水平组成。由于一些模糊规则共享相同的结果，所以使用S规范模糊运算来整合规则。对于这项研究，使用MAX运算符实现S范数模糊运算。

最后，第五层执行去模糊化处理，以获得对应于所选择的信号策略和协作因子（即，每个代理的FNDM模块的输出）的清晰值。 ICA和RCA的FNDM模块的架构大体上类似于ZCA所述的架构。主要区别在于输入和由于整体多代理架构的层次性质。例如，对于RCA，输入是来自该地区所有区域的交通参数以及ZCAs推荐的区域合作因子，而输出是区域级信号策略和区域级协作因子。

在这项研究中，已经应用了几种技术来促进代理在动态上的在线适配。改变交通网络的问题域。在线适应主要采用多级在线学习过程的形式。这个过程主要包括三个子过程：强化学习，权重调整和模糊关系的调整。加强学习是第一次执行。从这个过程获得的加固反向传播给了RCA，随后又被传递给了所有的下级代理。随后，每个代理进行调整每个神经元的学习率，并在必要时激活忘记机制（由代理接收到的加固值确定）。当这样做时，每个代理根据拓扑权重更新方法调整其FNDM模块中的神经元的权重。最后，加强用于更新代理FNDM模块中每个神经元的适应度值。如果神经元的适应度值低于一些预先指定的值，则将使用进化算法模糊关系生成器来更新模糊关系（由神经元层的输出如何连接到下一层神经元的输入来表示） EAFRG）。第IV-A-IV-C节将详细描述多级在线学习过程的各种机制。

A.在线强化学习过程

鉴于强化学习的各种优势^[12]，[13]，这种概念在多代理架构中被采用，以开发基于环境反馈的无监督的在线学习机制（其状态又受多方架构推荐的政策的影响），ORL模块的作用是生成加强件，这些加固件将被反向传播给代理人，以促进其FNDM模块所代表的规则库的动态调整。ORL模块使用在开发FNDM模块中应用的类似模糊神经概念来实现。ORL模块旨在根据当前估计的状态与先前状态的比较来生成钢筋。从ORL模块生成的加强信号可以推导如下：

（1）

状态敏感度常数（经验确定）是当前状态值，是最佳状态值，

是先前的状态值。为了有一个积极的强化，和是必要的。使用反向传播技术，重量的变化来自神经元i到激活的输出神经元j如下：

(2)

是学习率,是输出神经元j的梯度,是神经元i的输出,注意：

(3)

(4)

其中：M是神经元j的输入数量。是输出节点j的反向传播强化值，是神经元j的传递函数。的上标l表示的一阶导数。用于神经的隐藏层网络，其右侧的k个神经元的隐藏神经元i的局部梯度定义如下：

(5)

(6)

其中p是神经元i的输入数。因此，如果一个由神经元表示的模糊关系适用于特定交通状况，将收到以积极R形式的积极强化，反之亦然。在接收到加固后，代理的FNDM模块中的每个神经元可以进行对其学习速率和权重的调整。该过程的细节将在第IV-B节中描述。

B.学习率和体重调整过程

代理商的FNDM模块中每个神经元的权重可以通过拓扑加权动态调整日期或激活遗忘机制。每个神经元的学习率也可以根据一些众所周知的方法动态调整^[18]，[19]。第IV-B.I-III节更详细地描述了这些技术中的每一种。学习速率适应：在拓扑权重更新之前，首先调整每个神经元的学习率。这是根据反向传播梯度的符号动态完成的。根据[18]，[19]中提到的准则进行调整。因此，在迭代中神经元的权重更新方程如下所示：

（7）

是连接节点i到j的突触权重，是激活的神经元k相对于神经元j的拓扑邻域，是神经元j的动态学习率，是神经元i的输出,的输出是神经元j的梯度。

拓扑重量更新：与传统的反向传播方法不同，FNDM模块中的所有神经元并不是在后退过程中更新其权重。基于一组兴奋神经元之间的横向相互作用的神经生物学证据，很明显的是，发射神经元倾向于在其邻近区域内激发比远离其的神经元更多的神经元。在自组织图（SOM）的研究中也有这种观察^[20]。

h表示以该为中心的拓扑邻域获得神经元i并且包含一组兴奋神经元，其中典型的神经元由j表示。令d表示横向获胜神经元i和激动神经元j之间的距离。图6描绘了作为d的函数的获胜神经元i（被认为是该示例的中间）的h。与SOM不同，由于模糊推理机制的性质和每个神经元的位置，拓扑网络h仅对于层中间的神经元是对称的。如图所示，为了方便，选择h的功能，可以使用诸如高斯函数的其他功能。应该注意的是，h的振幅随着d的增加而减小。这是收敛的必要条件。然而，由于FNDM模块的学习过程在动态交通网络中无限期地延续，拓扑邻域的大小并没有缩小时间。

因此，使用这个概念，仅更新属于获胜/激活神经元拓扑邻域内的神经元的权重，并且可以加速反向传播的过程。在FNDM的情况下获胜神经元模块由区域去模糊化过程（第四层），S模糊运算符（第三层）和T范数模糊算子（第二层）的中心决定。

忘记机制：最后，还可以通过使用遗忘机制来实现体重调整。在所有代理和ORL模块的FNDM中实现了一种遗忘机制，以影响权重调整过程。遗忘机制背后的原则是使决策模块能够以探索性的方式搜索解决方案空间，而不是纯粹的剥削方式^[21]，以减少搜索被捕获在局部最小值中的实例数量。这类似于模拟退火的概念，其目的是找到表征大型和复杂系统的成本函数的全局最小值。在这样做的过程中，模拟退火提出，不是一直在下坡，而是支持低能量有序状态，大部分时间都是很好的下坡。换句话说，在某些时候需要上坡搜索。结果显示^[21]，这种新方法为改变问题领域的强化学习提供了一个强大的框架，其中具有遗忘机制的即兴算法胜过常规的Q学习方法。对于这项研究，遗忘机制的变

全文共5796字，剩余内容已隐藏，支付完成后下载完整资料

资料编号：[144495]，资料为PDF文档或Word文档，PDF文档可免费转换为Word

您需要先支付 30元 才能查看全部内容！立即支付

注册

找回密码