多智能体控制方法及装置与流程

2022-06-01 00:36:28 来源：中国专利 TAG：

1.本发明涉及人工智能技术领域，尤其涉及一种多智能体控制方法及装置。

背景技术：

2.强化学习(reinforcement learning，rl)，又称再励学习、评价学习或增强学习，是机器学习的范式和方法论之一，可以用于描述和解决智能体在与环境的交互过程中通过学习策略以达成回报最大化或实现特定目标的问题。传统的强化学习网络模型可以包括但不限于dqn网络模型(deep q-learning network)、pg网络模型(policy gradient)以及ac网络模型(actor-critic)等。基于传统的强化学习网络模型，可以实现对单一智能体的控制。
3.在某些业务场景中，例如多台巡防机器人对目标区域进行巡防的业务场景中，需要同时对多个智能体进行控制。现有技术中，可以基于多智能体控制算法，实现对多智能体的控制。但是，现有的多智能体控制算法计算过程复杂、计算效率较低，导致基于现有的多智能体控制算法对多智能体进行控制的效率较低。如何基于计算过程更简单、计算效率更高的强化学习网络模型，实现更高效的控制多智能体，是本领域亟待解决的技术问题。

技术实现要素：

4.本发明提供一种多智能体控制方法及装置，用以解决现有技术中对多智能体进行控制的效率较低的缺陷，实现更高效的控制多智能体。
5.本发明提供一种多智能体控制方法，包括：
6.获取每一智能体的属性信息和目标区域的区域信息，作为当前时刻的状态信息；
7.将所述当前时刻的状态信息输入多智能体控制模型，获取所述多智能体控制模型输出的下一时刻每一智能体的目标动作；
8.基于所述下一时刻每一智能体的目标动作，生成下一时刻每一智能体对应的控制指令，以基于所述下一时刻每一智能体对应的控制指令，对每一多智能体进行控制；
9.其中，各所述智能体用于对所述目标区域进行巡防；所述多智能体控制模型是基于transformer网络模型和强化学习网络模型构建的。
10.根据本发明提供的一种多智能体控制方法，所述多智能体控制模型，包括：transformer层和强化学习层；
11.相应地，所述将所述当前时刻的状态信息输入多智能体控制模型，获取所述多智能体控制模型输出的下一时刻每一智能体的目标动作，具体包括：
12.将所述当前时刻的状态信息输入transformer层，获取所述transformer层输出的下一时刻每一智能体的可执行动作；
13.将所述当前时刻的状态信息和所述下一时刻每一智能体的可执行动作输入所述强化学习层，由所述强化学习层将所述下一时刻每一智能体的可执行动作中的一个，确定为下一时刻每一智能体的目标动作，进而获取所述强化学习层输出的所述下一时刻每一智
能体的目标动作。
14.根据本发明提供的一种多智能体控制方法，所述多智能体控制模型的损失函数，包括：奖励损失函数；
15.所述奖励损失函数，用于描述最小化自各所述智能体对所述目标区域开始巡防起，预设时长内任意两个智能体已巡防区域之间的交集面积和所述目标区域内未巡防区域的面积。
16.根据本发明提供的一种多智能体控制方法，所述transformer层，包括：格式转化单元和动作确定单元；
17.相应地，所述将所述当前时刻的状态信息输入transformer层，获取所述transformer层输出的下一时刻每一智能体的可执行动作，具体包括：
18.将所述当前时刻的状态信息输入格式转化单元层，由所述格式转化单元基于所述当前时刻每一智能体的位置信息对各智能体进行排序，进而获取所述格式转化单元输出的当前时刻的智能体属性信息序列；其中，所述智能体的属性信息包括智能体的位置信息；
19.将所述当前时刻的智能体属性信息序列和所述目标区域的区域信息输入所述动作确定单元，获取所述动作确定单元输出的所述下一时刻每一智能体的可执行动作。
20.根据本发明提供的一种多智能体控制方法，所述强化学习层，包括：概率分布单元和结果输出单元；
21.相应地，所述将所述当前时刻的状态信息和所述下一时刻每一智能体的可执行动作输入所述强化学习层，获取所述强化学习层输出的所述下一时刻每一智能体的目标动作，具体包括：
22.将所述当前时刻的状态信息和所述下一时刻每一智能体的可执行动作输入所述概率分布单元，获取所述概率分布单元输出的下一时刻每一智能体的可执行动作的概率分布；
23.将下一时刻每一智能体的可执行动作的概率分布输入所述结果输出单元，获取所述结果输出单元输出的所述下一时刻每一智能体的目标动作。
24.根据本发明提供的一种多智能体控制方法，所述属性信息，包括：所述智能体的电量剩余值、可视范围半径和位置信息。
25.本发明还提供一种多智能体控制装置，包括：
26.信息获取模块，用于获取每一智能体的属性信息和目标区域的区域信息，作为当前时刻的状态信息；
27.模型计算模块，用于将所述当前时刻的状态信息输入多智能体控制模型，获取所述多智能体控制模型输出的下一时刻每一智能体的目标动作；
28.智能体控制模块，用于基于所述下一时刻每一智能体的目标动作，生成下一时刻每一智能体对应的控制指令，以基于所述下一时刻每一智能体对应的控制指令，对每一多智能体进行控制；
29.其中，各所述智能体用于对所述目标区域进行巡防；所述多智能体控制模型是基于transformer网络模型和强化学习网络模型构建的。
30.本发明还提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述任一种所述多智能体控制
方法。
31.本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如上述任一种所述多智能体控制方法。
32.本发明还提供一种计算机程序产品，包括计算机程序，所述计算机程序被处理器执行时实现如上述任一种所述多智能体控制方法。
33.本发明提供的多智能体控制方法及装置，通过将包括当前时刻每一智能体的属性信息和目标区域的区域信息的状态信息输入多智能体控制模型，获取上述多智能体控制模型输出的下一时刻每一智能体的目标动作，基于下一时刻每一智能体的目标动作，生成下一时刻智能体对应的控制指令，以基于下一时刻每一智能体对应的控制指令，对每一智能体进行控制，能结合transformer网络模型以及计算过程更简单、计算效率更高的强化学习网络模型，实现对多智能体的控制，能提高对多智能体进行控制的效率。
附图说明
34.为了更清楚地说明本发明或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。
35.图1是本发明提供的多智能体控制方法的流程示意图；
36.图2是本发明提供的多智能体控制方法中传统的dqn网络模型的结构示意图；
37.图3是本发明提供的多智能体控制方法中多智能体控制模型的结构示意图；
38.图4是本发明提供的多智能体控制方法中动作确定单元的结构示意图；
39.图5是本发明提供的多智能体控制装置的结构示意图；
40.图6是本发明提供的电子设备的结构示意图。
具体实施方式
41.为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明中的附图，对本发明中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。
42.在发明的描述中，需要说明的是，除非另有明确的规定和限定，术语“安装”、“相连”、“连接”应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通。对于本领域的普通技术人员而言，可以根据具体情况理解上述术语在本发明中的具体含义。
43.图1是本发明提供的多智能体控制方法的流程示意图。下面结合图1描述本发明的多智能体控制方法。如图1所示，该方法包括：步骤101、获取每一智能体的属性信息和目标区域的区域信息，作为当前时刻的状态信息；其中，各智能体用于对目标区域进行巡防。
44.需要说明的是，本发明实施例中的智能体可以包括但不限于无人机、车辆以及巡防机器人等智能实体。多个上述智能体可以实现对指定的有限区域或者指定的有限空间进
行巡防。
45.目标区域，为预先确定的需要进行巡防的区域。多个智能体可以对目标区域进行巡防。
46.任一智能体对目标区域进行巡防时，可以响应于接收到的控制指令，完成相应的动作。
47.智能体的动作可以包括移动方向。本发明实施例中，可以将1
°
作为步长，移动方向可以定义为顺时针方向旋转1
°
至360
°
的方向。例如：智能体的动作可以包括沿顺时针方向旋转30
°
后的方向以某一移动速度向前移动。
48.需要说明的是，各智能体的移动速度可以相同或不同，在各智能体的移动速度相同的情况下，相同时长内每一智能体的移动距离相等。
49.需要说明的是，本发明实施例中的各智能体为相同的智能体，即各智能体的移动速度相同。并且，各智能体保持时刻向前运动的状态。因此，对于任一智能体，该智能体的动作可以仅包括移动方向，即该智能体的动作可以仅包括顺时针旋转的角度。
50.智能体可以基于按照在智能体上的视觉传感器对一定范围内的区域进行观察，智能体的可视范围与上述视觉传感器的性能参数相关，是智能体的固有属性。
51.当前时刻智能体的属性信息，可以用于描述当前时刻该智能体的状态。智能体的属性信息可以包括智能体的剩余电量、可视范围、位置信息、移动速度以及与其他各智能体之间的距离中的至少一个。本发明实施例中对智能体的属性信息不作具体限定。
52.可选地，可以将智能体的属性信息向量化，通过属性向量表示智能体的属性信息。上述属性向量的每一维度，可以表示智能体一种类型的属性信息。
53.对于每一智能体，可以通过多种方式获取当前时刻该智能体的属性信息，例如：可以基于该智能体的控制器以及各类传感器，获取当前时刻该智能体的属性信息。
54.当前时刻目标区域的区域信息，可以用于描述当前时刻上述目标区域被巡防的状态。目标区域的区域信息可以包括但不限于自各智能体对目标区域开始巡防起，预设时长内各智能体已巡防的区域以及尚未巡防的区域等。
55.可以通过多种方式获取当前时刻目标区域的区域信息，例如：可以通过各类传感器，获取当前时刻目标区域的区域信息。
56.步骤102、将当前时刻的状态信息输入多智能体控制模型，获取多智能体控制模型输出的下一时刻每一智能体的目标动作；其中，多智能体控制模型是基于transformer网络模型和强化学习网络模型构建的。
57.需要说明的是，通常情况下基于强化学习网络模型，可以较好的解决具有有限马尔科夫(markov decision process)性质的问题。对于资源自动调度策略，强化学习网络模型本身属于一种序列决策问题，具有有限马尔科夫性质。
58.图2是本发明提供的多智能体控制方法中传统的dqn网络模型的结构示意图。如图2所示，传统的dqn网络模型包括q-network单元、target-network单元和experience replay单元。q-network单元和target-network单元拥有相同的网络结构，可以通过多次训练后，将q-network单元的权重更新至target-network单元中。
59.对于用于对目标区域进行巡防任一智能体，基于传统的dqn网络模型难以让该智能体关注到目标区域中的其他智能体，即难以获取到目标区域中任意两个智能体之间的关
系。其中，上述关系可以包括当前时刻上述两个智能体之间的距离等。
60.因此，本发明实施例中基于transformer网络模型和强化学习网络模型，构建多智能体控制模型，并对上述多智能体控制模型进行训练，获得训练好的多智能体控制模型。上述训练好的多智能体控制模型可以用于基于当前时刻的状态信息，获取并输出下一时刻每一智能体的目标动作。其中，目标动作为下一时刻智能体需要执行的动作。
61.可选地，本发明实施例中的强化学习网络模型可以为dqn网络模型、pg网络模型(policy gradient)或ac网络模型(actor-critic)等。本发明实施例中，对具体的强化学习网络模型不作限定。
62.优选地，由于dqn网络模型具有通用性强、计算过程较简单以及计算效率较高等优点，本发明实施例中可以基于transformer网络模型和dqn网络模型构建多智能体控制模型。
63.基于transformer网络模型和强化学习网络模型，构建多智能体控制模型，并对上述多智能体控制模型进行训练，获得训练好的多智能体控制模型之后，可以将当前时刻的状态信息输入上述多智能体控制模型。
64.上述多智能体控制模型，可以基于当前时刻的状态信息，获取并输出下一时刻每一智能体的目标动作。
65.步骤103、基于下一时刻每一智能体的目标动作，生成下一时刻每一智能体对应的控制指令，以基于下一时刻每一智能体对应的控制指令，对每一智能体进行控制。
66.具体地，获取多智能体控制模型输出的下一时刻每一智能体的目标动作之后，可以基于下一时刻每一智能体的目标动作，生成下一时刻每一智能体对应的控制指令。
67.对于每一智能体，生成下一时刻该智能体对应的控制指令之后，可以将下一时刻该智能体对应的控制指令发送至该智能体的控制器。该智能体的控制器可以响应于下一时刻该智能体对应的控制指令，控制下一时刻该智能体的动作。
68.本发明实施例通过将包括当前时刻每一智能体的属性信息和目标区域的区域信息的状态信息输入多智能体控制模型，获取上述多智能体控制模型输出的下一时刻每一智能体的目标动作，基于下一时刻每一智能体的目标动作，生成下一时刻智能体对应的控制指令，以基于下一时刻每一智能体对应的控制指令，对每一智能体进行控制，能结合transformer网络模型以及计算过程更简单、计算效率更高的强化学习网络模型，实现对多智能体的控制，能提高对多智能体进行控制的效率。
69.基于上述各实施例的内容，属性信息，包括：剩余电量、可视范围和位置信息。
70.具体地，对于用于对目标区域进行巡防的任一智能体，该智能体的属性信息，可以包括该智能体的剩余电量、可视范围和位置信息。
71.可选地，可以在上述目标区域中建立平面直角坐标系，并可以通过上述平面直角坐标系中的坐标，表示任一智能体的位置信息。
72.可选地，可以用e表示智能体的剩余电量；r表示智能体的可视半径；x、y表示智能体在上述坐标系中的横坐标和纵坐标。
73.本发明实施例中智能体的属性信息包括上述智能体的剩余电量、可视范围和位置信息，能为多智能体控制模型更高效、更准确的获取下一时刻每一智能体的目标动作提供数据基础。
74.图3是本发明提供的多智能体控制方法中多智能体控制模型的结构示意图。如图3所示，多智能体控制模型，包括：transformer层和强化学习层。
75.相应地，将当前时刻的状态信息输入多智能体控制模型，获取多智能体控制模型输出的下一时刻每一智能体的目标动作，具体包括：将当前时刻的状态信息输入transformer层，获取transformer层输出的下一时刻每一智能体的可执行动作。
76.需要说明的是，transformer层是基于transformer网络模型构建的。强化学习层是基于dqn强化学习网络模型构建的。
77.如图3所示，图3中的status可以表示当前时刻的状态信息。获取当前时刻的状态信息之后，可以将当前时刻的状态信息存储至center storage单元。
78.需要说明的是，center storage单元可以为缓存单元。
79.可以从center storage单元获取当前时刻的状态信息，并可以将当前时刻的状态信息输入transformer层。
80.transformer层可以基于当前时刻的状态信息，获取并输出下一时刻每一智能体的可执行动作。
81.需要说明的是，对于任一智能体，下一时刻该智能体的可执行动作的数量可以为一个或多个。
82.可选地，可以将下一时刻每一智能体的可执行动作向量化，获得下一时刻每一智能体对应的动作向量。其中，任一智能体对应的动作向量中的每一维度，可以表示下一时刻该智能体的一个可执行动作。
83.将当前时刻的状态信息以及下一时刻每一智能体的可执行动作输入强化学习层，由强化学习层将下一时刻每一智能体的可执行动作中的一个，确定为下一时刻每一智能体的目标动作，进而获取强化学习层输出的下一时刻每一智能体的目标动作。
84.具体地，可以从center storage单元获取当前时刻的状态信息，并可以将当前时刻的状态信息以及下一时刻每一智能体的可执行动作输入强化学习层。
85.如图3所示，强化学习层包括q-network单元、target-network单元和experience replay单元。q-network单元中的state vector表示当前时刻的状态信息。
86.强化学习层的机制如下所示：
87.s0→
a0→
r1→
s1→…→st-1
→at-1
→rt
→st
→…
88.其中，s0表示初始时刻的状态信息，初始时刻为各智能体对目标区域开始巡防的时刻；a0表示初始时刻每一智能体的目标动作；r1表示每一智能体执行目标动作后，第1个时刻每一智能体的奖励值；s
t-1
表示第t-1时刻的状态信息；a
t-1
表示第t-1时刻每一智能体的目标动作；r
t
表示每一智能体执行目标动作后，第t时刻每一智能体的奖励值。
89.如图3所示，图3中的reward表示每一智能体执行目标动作之后，下一时刻每一智能体的奖励值。图3中的status-表示下一时刻的状态信息。
90.transformer层和强化学习层结合，可以建立如下所示的映射：
[0091][0092]
其中，ai表示下一时刻智能体i的可执行动作，ai∈{v1,v2,
…
,v
k-1
,vk}，i∈{1,2,
…
,i}，i表示智能体的数量，vk表示顺时针旋转第k度；表示下一时刻智能体i的目标动
作；χ表示当前时刻的状态信息；θ表示深化学习层的模型参数。
[0093]
对于每一智能体，强化学习层可以基于当前时刻的状态信息以及下一时刻该智能体的可执行动作，将下一时刻该智能体的可执行动作中的一个，确定为下一时刻该智能体的目标动作，进而输出下一时刻每一智能体的目标动作。
[0094]
本发明实施例通过将当前时刻的状态信息输入多智能体控制模型中的transformer层，获取上述transformer层输出的下一时刻每一智能体的可执行动作，将当前时刻的状态信息和下一时刻每一智能体的可执行动作，输入多智能体控制模型中的强化学习层，强化学习层将下一时刻每一智能体的可执行动作中的一个确定为下一时刻每一智能体的目标动作，进而获取上述强化学习层输出的下一时刻每一智能体的目标动作，能基于transformer层确定各智能体之间的关系，并基于上述关系确定下一时刻每一智能体的可执行动作，从而能实现基于传统的强化学习网络模型对多智能体进行控制。
[0095]
基于上述各实施例的内容，多智能体控制模型的损失函数，包括：奖励损失函数。
[0096]
奖励损失函数，用于描述最小化自各智能体对目标区域开始巡防起，预设时长内任意两个智能体已巡防区域之间的交集面积和目标区域内未巡防区域的面积。
[0097]
具体地，多智能体对目标区域进行巡防时，巡防目标可以包括对目标区域更高效的巡防和更少的未巡防区域。
[0098]
更高效的巡防，可以通过自各智能体对目标区域开始巡防起，预设时长内任意两个智能体已巡防区域之间的交集面积表示。上述交集面积越小，说明巡防的效率越高。
[0099]
更少的未巡防区域，可以通过自各智能体对目标区域开始巡防起，预设时长内目标区域内未巡防区域的面积表示。上述未巡防区域的面积越小，说明未巡防区域越少。
[0100]
奖励损失函数可以通过以下公式表示：
[0101]
υ(γ,s,a)＝αφ(γ,s,a) βψ(γ,s,a),0《α,β≤1
[0102]
其中，φ(γ,s,a)表示交集面积损失函数；ψ(γ,s,a)表示未巡防区域损失函数；α和β表示权重。
[0103]
交集面积损失函数φ(γ,s,a)可以通过以下公式表示：
[0104][0105]
其中，avg表示求取平均值；circle(i,j)表示自各智能体对目标区域开始巡防起，预设时长内智能体i和智能体j已巡防区域之间的交集面积；r表示智能体的可视半径；ξ＝0.1。
[0106]
未巡防区域损失函数ψ(γ,s,a)可以通过以下公式表示：
[0107][0108]
其中，δη
t
表示自各智能体对目标区域开始巡防起，预设时长内的t时刻目标区域内未巡防区域的面积的变化量。
[0109]
基于奖励损失函数，可以对多智能体控制模型进行训练，训练目标为奖励损失函数最小化，即交集面积损失函数最小化且未巡防区域损失函数最小化。对多智能体控制模型进行训练的具体过程如下：步骤一、设置最大迭代次数、批大小、transformer层中编码器
和解码器的数量以及head数等超参数，初始化每一样本智能体，初始化强化学习层的center storage单元。
[0110]
步骤二、开始本次迭代，将当前时刻的样本状态信息输入训练中的transformer层，获取transformer层输出的下一时刻每一样本智能体的每一预测可执行动作；其中，当前时刻的样本状态信息，包括每一样本智能体的属性信息和样本区域的区域信息；样本智能体的属性信息，包括样本智能体的剩余电量、可视范围和位置信息；样本区域的区域信息，包括但不限于自各样本智能体对样本区域开始巡防起，预设时长内各样本智能体已巡防的区域以及尚未巡防的区域等；t-1表示当前时刻。
[0111]
步骤三、将下一时刻每一样本智能体的每一预测可执行动作输入训练中的深度学习层之后，训练中的深度学习层可以遍历每一样本智能体(或并行实现)，以delta贪心策略确定下一时刻每一样本智能体的预测目标动作，并获得下一时刻的样本状态信息，以及每一样本智能体执行预测目标动作之后，下一时刻每一样本智能体的奖励值，即获得s
′
t-1
、a
′
t-1
、r
′
t
和s
′
t
，然后将s
′
t-1
、a
′
t-1
、r
′
t
和s
′
t
存储至深度学习层中的experience replay单元。其中，t-1表示当前时刻；s
′
t-1
表示当前时刻的样本状态信息；a
′
t-1
表示当前时刻每一样本智能体的目标动作；r
′
t
表示每一样本智能体执行预测目标动作之后，下一时刻每一样本智能体的奖励值；s
′
t
表示下一时刻的状态信息。
[0112]
步骤四、在experience replay单元中选取一批数据，以强化学习层中target-network单元的输出作为groud-truth(真实数据)，基于上述groud-truth和奖励损失函数，对强化学习层和transformer层进行训练。
[0113]
步骤五、基于本次迭代结果，更新上述超参数，并在迭代次数不超过最大迭代次数的情况下，重复执行步骤二至步骤五，直至迭代次数大于最大迭代次数，获得训练好的多智能体控制模型。
[0114]
本发明实施例中通过基于奖励损失函数对多智能体控制模型进行训练，奖励损失函数是基于自各智能体对目标区域开始巡防起，预设时长内任意两个智能体已巡防区域之间的交集面积和目标区域内未巡防区域的面积确定的，能基于训练好的多智能体控制模型实现对目标区域更高效的巡防和更少的未观察区域。
[0115]
基于上述各实施例的内容，transformer层，包括：格式转化单元和动作确定单元。
[0116]
相应地，将当前时刻的状态信息输入transformer层，获取transformer层输出的下一时刻每一智能体的可执行动作，具体包括：将当前时刻的状态信息输入格式转化单元层，由格式转化单元基于当前时刻每一智能体的位置信息对各智能体进行排序，进而获取格式转化单元输出的当前时刻的智能体属性信息序列；其中，智能体的属性信息包括智能体的位置信息。
[0117]
具体地，对于用于对目标区域进行巡防的智能体i，当前时刻智能体i的位置信息index(i)如下所示：
[0118]
index(i)＝i
x
iy[0119]
其中，i
x
和iy表示当前时刻智能体i在上述平面直角坐标系中的坐标值。
[0120]
基于当前时刻各智能体的位置信息index(i)，对各智能体进行升序排序，获得的当前时刻的智能体属性信息序列如下所示：
[0121]
g＝[g1,g2,
…
,gi,
…
,g
i-1
,gi]
t
[0122]
其中，g表示当前时刻的智能体序列；gi表示当前时刻智能体i的属性信息(属性向量)。
[0123]
将当前时刻的智能体属性信息序列和目标区域的区域信息输入动作确定单元，获取动作确定单元输出的下一时刻每一智能体的可执行动作。
[0124]
图4是本发明提供的多智能体控制方法中动作确定单元的结构示意图。由于动作确定单元的输入为当前时刻的智能体属性信息序列，上述当前时刻的智能体属性信息序列已向量化且包含了每一智能体的位置信息，因此，相较于传统的transformer网络模型，如图4所示，本发明实施例中的动作确定单元去除传统的transformer网络模型中原有的embedding单元和position-embedding单元。
[0125]
图4中动作确定单元的inputs为当前时刻的智能体属性信息序列，outputs为右移位运算后的当前时刻的智能体属性信息序列。
[0126]
将当前时刻的智能体属性信息序列和目标区域的区域信息输入动作确定单元之后，动作确定单元可以基于当前时刻的智能体属性信息序列和目标区域的区域信息，获取并输出下一时刻每一智能体的可执行动作。
[0127]
本发明实施例通过将当前时刻的状态信息输入transformer层中的格式转化单元，获取上述格式转化单元输出的当前时刻的智能体属性信息序列，将当前时刻的智能体属性信息序列和目标区域的区域信息输入transformer层中的动作确定单元，获取动作确定单元输出的下一时刻每一智能体的可执行动作，能通过格式转化单元将当前时刻的状态信息转化为动作确定单元可以识别的向量化的信息序列，能基于动作确定单元确定各智能体之间的关系，并基于上述关系确定下一时刻每一智能体的可执行动作，从而能实现基于传统的强化学习网络模型对多智能体进行控制。
[0128]
基于上述各实施例的内容，强化学习层，包括：概率分布单元和结果输出单元。
[0129]
相应地，将当前时刻的状态信息和下一时刻每一智能体的可执行动作输入强化学习层，获取强化学习层输出的下一时刻每一智能体的目标动作，具体包括：将当前时刻的状态信息和下一时刻每一智能体的可执行动作输入概率分布单元，获取概率分布单元输出的下一时刻各智能体的可执行动作的概率分布。
[0130]
具体地，将当前时刻的状态信息和下一时刻每一智能体的可执行动作输入概率分布单元之后，概率分布单元可以获取并输出下一时刻每一智能体的可执行动作的概率分布。其中，对应任一智能体，下一时刻该智能体的可执行动作的概率分布，可以用于描述下一时刻该智能体执行每一可执行动作的可能性。下一时刻该智能体的可执行动作的概率分布，可以包括下一时刻该智能体执行每一可执行动作的概率值。
[0131]
如图3所示，q-network单元中的action vector表示下一时刻每一智能体的可执行动作的概率分布。下一时刻每一智能体的可执行动作的概率分布可以通过下一时刻每一智能体对应的概率向量表示。下一时刻智能体i对应的概率向量如下所示：
[0132][0133]
其中，p
t
表示下一时刻智能体i沿顺时针旋转t
°
的概率，t∈{1,2,
…
,k}。
[0134]
将下一时刻每一智能体的可执行动作的概率分布输入结果输出单元，获取结果输出单元输出的下一时刻每一智能体的目标动作。
[0135]
具体地，将下一时刻每一智能体的可执行动作的概率分布输入结果输出单元之
后，结果输出单元可以将下一时刻每一智能体的可执行动作的概率分布中概率最大的可执行动作，作为下一时刻每一智能体的目标动作，进而可以获取结果输入单元输出的下一时刻每一智能体的目标动作。
[0136]
本发明实施例通过将当前时刻的状态信息和下一时刻每一智能体的可执行动作输入强化学习层中的概率分布单元，获取上述概率分布单元输出的下一时刻每一智能体的可执行动作的概率分布，将下一时刻每一智能体的可执行动作的概率分布输入强化学习层中的结果输出单元，获取上述结果输出单元输出的下一时刻每一智能体的目标动作，能基于强化学习层更准确、更高效的获取下一时刻每一智能体的目标动作，能对多智能体进行更高效的控制。
[0137]
图5是本发明提供的多智能体控制装置的结构示意图。下面结合图5对本发明提供的多智能体控制装置进行描述，下文描述的多智能体控制装置与上文描述的本发明提供的多智能体控制方法可相互对应参照。如图5所示，该装置包括：信息获取模块501、模型计算模块502和智能体控制模块503。
[0138]
信息获取模块501，用于获取每一智能体的属性信息和目标区域的区域信息，作为当前时刻的状态信息。
[0139]
模型计算模块502，用于将当前时刻的状态信息输入多智能体控制模型，获取多智能体控制模型输出的下一时刻每一智能体的目标动作。
[0140]
智能体控制模块503，用于基于下一时刻每一智能体的目标动作，生成下一时刻每一智能体对应的控制指令，以基于下一时刻每一智能体对应的控制指令，对每一多智能体进行控制。
[0141]
其中，各智能体用于对目标区域进行巡防；多智能体控制模型是基于transformer网络模型和强化学习网络模型构建的。
[0142]
具体地，信息获取模块501、模型计算模块502和智能体控制模块503电连接。
[0143]
对于每一智能体，信息获取模块501可以通过多种方式获取当前时刻该智能体的属性信息，例如：可以基于该智能体的控制器以及各类传感器，获取当前时刻该智能体的属性信息。信息获取模块501可以通过多种方式获取当前时刻目标区域的区域信息，例如：可以通过各类传感器，获取当前时刻目标区域的区域信息。
[0144]
模型计算模块502将当前时刻的状态信息输入上述多智能体控制模型。上述多智能体控制模型，可以基于当前时刻的状态信息，获取并输出下一时刻每一智能体的目标动作。
[0145]
智能体控制模块503可以基于下一时刻每一智能体的目标动作，生成下一时刻每一智能体对应的控制指令。对于每一智能体，生成下一时刻该智能体对应的控制指令之后，可以将下一时刻该智能体对应的控制指令发送至该智能体的控制器。该智能体的控制器可以响应于下一时刻该智能体对应的控制指令，控制下一时刻该智能体的动作。
[0146]
本发明实施例通过将包括当前时刻每一智能体的属性信息和目标区域的区域信息的状态信息输入多智能体控制模型，获取上述多智能体控制模型输出的下一时刻每一智能体的目标动作，基于下一时刻每一智能体的目标动作，生成下一时刻智能体对应的控制指令，以基于下一时刻每一智能体对应的控制指令，对每一智能体进行控制，能结合transformer网络模型以及计算过程更简单、计算效率更高的强化学习网络模型，实现对多
智能体的控制，能提高对多智能体进行控制的效率。
[0147]
图6示例了一种电子设备的实体结构示意图，如图6所示，该电子设备可以包括：处理器(processor)610、通信接口(communications interface)620、存储器(memory)630和通信总线640，其中，处理器610，通信接口620，存储器630通过通信总线640完成相互间的通信。处理器610可以调用存储器630中的逻辑指令，以执行多智能体控制方法，该方法包括：获取每一智能体的属性信息和目标区域的区域信息，作为当前时刻的状态信息；将当前时刻的状态信息输入多智能体控制模型，获取多智能体控制模型输出的下一时刻每一智能体的目标动作；基于下一时刻每一智能体的目标动作，生成下一时刻每一智能体对应的控制指令，以基于下一时刻每一智能体对应的控制指令，对每一多智能体进行控制；其中，各智能体用于对目标区域进行巡防；多智能体控制模型是基于transformer网络模型和强化学习网络模型构建的。
[0148]
此外，上述的存储器630中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：u盘、移动硬盘、只读存储器(rom，read-only memory)、随机存取存储器(ram，random access memory)、磁碟或者光盘等各种可以存储程序代码的介质。
[0149]
另一方面，本发明还提供一种计算机程序产品，所述计算机程序产品包括计算机程序，计算机程序可存储在非暂态计算机可读存储介质上，所述计算机程序被处理器执行时，计算机能够执行上述各方法所提供的多智能体控制方法，该方法包括：获取每一智能体的属性信息和目标区域的区域信息，作为当前时刻的状态信息；将当前时刻的状态信息输入多智能体控制模型，获取多智能体控制模型输出的下一时刻每一智能体的目标动作；基于下一时刻每一智能体的目标动作，生成下一时刻每一智能体对应的控制指令，以基于下一时刻每一智能体对应的控制指令，对每一多智能体进行控制；其中，各智能体用于对目标区域进行巡防；多智能体控制模型是基于transformer网络模型和强化学习网络模型构建的。
[0150]
又一方面，本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各方法提供的多智能体控制方法，该方法包括：获取每一智能体的属性信息和目标区域的区域信息，作为当前时刻的状态信息；将当前时刻的状态信息输入多智能体控制模型，获取多智能体控制模型输出的下一时刻每一智能体的目标动作；基于下一时刻每一智能体的目标动作，生成下一时刻每一智能体对应的控制指令，以基于下一时刻每一智能体对应的控制指令，对每一多智能体进行控制；其中，各智能体用于对目标区域进行巡防；多智能体控制模型是基于transformer网络模型和强化学习网络模型构建的。
[0151]
以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其
中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。
[0152]
通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如rom/ram、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
[0153]
最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

多智能体控制方法及装置与流程

相关文献

最热文献