基于环境模型的对手建模方法、装置、设备及存储介质与流程

2021-11-05 22:31:00 来源：中国专利 TAG：

1.本发明涉及人工智能技术领域，特别涉及一种基于环境模型的对手建模方法、装置、设备及存储介质。

背景技术：

2.在多智能体环境中，例如网络游戏环境，一个智能体通常必须与不同的其他智能体(统称为对手)竞争或合作。在交互过程中，对手策略也在同时影响着智能体所经历的转移动态，与不同的对手相互作用使得智能体的外在环境处于非平稳状态。由于对手策略的复杂性和多样性，智能体想要在对抗中保持整体优势是非常具有挑战的。
3.明确地对对手的行为、目标或信念建模，而不是将它们作为环境的一部分，可以帮助智能体调整其策略以适应不同的对手。然而，对手也可能有同样的推理能力。此时，需要更高层次的推理和一些其他的对手建模技术来处理这些复杂的对手。当对手同时进行学习，对手建模过程将变得不稳定，利用历史经验拟合的对手策略模型也会产生滞后。
4.因此，如何解决多智能体对抗中对手建模的滞后性问题是本领域技术人员亟待解决的技术问题。

技术实现要素：

5.本公开实施例提供了一种基于环境模型的对手建模方法、装置、设备及存储介质。为了对披露的实施例的一些方面有一个基本的理解，下面给出了简单的概括。该概括部分不是泛泛评述，也不是要确定关键/重要组成元素或描绘这些实施例的保护范围。其唯一目的是用简单的形式呈现一些概念，以此作为后面的详细说明的序言。
6.第一方面，本公开实施例提供了一种基于环境模型的对手建模方法,包括：
7.智能体根据对手的动作以及决策过程的状态得到第一层想象对手策略；
8.在预设的环境模型中利用仿真轨迹算法计算第一层的对手最佳动作，根据对手最佳动作调整第一层想象对手策略，得到调整后的第一层想象对手策略；
9.重复执行上述步骤，直到得到调整后的多层想象对手策略；
10.更新想象对手策略权重，根据想象对手策略权重以及调整后的多层想象对手策略，得到对手混合策略，将对手混合策略作为对手模型。
11.在一个实施例中，智能体根据对手的动作以及决策过程的状态得到第一层想象对手策略之前，还包括：
12.智能体使用近端策略优化算法与不同的对手进行交互，得到经验数据；
13.根据经验数据以及最小化均方误差训练环境模型，得到训练好的环境模型；
14.智能体与环境进行交互，得到对手的动作以及决策过程的状态。
15.在一个实施例中，根据如下公式计算第一层想象对手策略：
[0016][0017]
其中，s表示决策过程的状态，a
o
表示对手的动作，d表示经验数据库，φ0表示第一
层想象对手策略。
[0018]
在一个实施例中，根据如下公式计算对手最佳动作：
[0019][0020]
其中，表示t时刻对手最佳动作，表示t时刻对手动作，unif表示t 1时刻到t k时刻中对手动作序列服从均匀分布，γ表示贴现因子，r0表示对手的环境奖励，t表示时刻，v
o
表示对手的价值函数，s表示决策过程的状态。
[0021]
在一个实施例中，根据对手最佳动作调整第一层想象对手策略，得到调整后的第一层想象对手策略，包括：
[0022]
根据对手最佳动作以及决策过程的状态构造模拟数据；
[0023]
将模拟数据代入第一层想象对手策略公式，得到调整后的第一层想象对手策略。
[0024]
在一个实施例中，更新想象对手策略权重，包括：
[0025]
根据归一化概率分布算法以及贝叶斯公式计算想象对手策略权重。
[0026]
在一个实施例中，根据如下公式计算对手混合策略：
[0027][0028]
其中，π
mix
(
·
|s)表示对手混合策略，s表示决策过程的状态，m表示递归想象层数，i表示第i层递归想象，0≤i≤m
‑
1，α
i
表示第i层想象对手策略的权重，φ
i
表示第i层想象对手策略。
[0029]
第二方面，本公开实施例提供了一种基于环境模型的对手建模装置,包括：
[0030]
计算模块，用于智能体根据对手的动作以及决策过程的状态得到第一层想象对手策略；
[0031]
调整模块，用于在预设的环境模型中利用仿真轨迹算法计算第一层的对手最佳动作，根据对手最佳动作调整第一层想象对手策略，得到调整后的第一层想象对手策略；
[0032]
重复执行模块，用于重复执行上述步骤，直到得到调整后的多层想象对手策略；
[0033]
混合模块，用于更新想象对手策略权重，根据想象对手策略权重以及调整后的多层想象对手策略，得到对手混合策略，将对手混合策略作为对手模型。
[0034]
第三方面，本公开实施例提供了一种基于环境模型的对手建模设备，包括处理器和存储有程序指令的存储器，处理器被配置为在执行程序指令时，执行上述实施例提供的基于环境模型的对手建模方法。
[0035]
第四方面，本公开实施例提供了一种计算机可读介质，其上存储有计算机可读指令，计算机可读指令可被处理器执行以实现上述实施例提供的一种基于环境模型的对手建模方法。
[0036]
本公开实施例提供的技术方案可以包括以下有益效果：
[0037]
本公开实施例提供的基于环境模型的对手建模方法，当一个智能体在有多个智能体的环境中进行交互时，利用环境模型来预测和捕获对手的策略改进。该方法在对手建模
的同时，也考虑到了对手可能存在的推理能力，通过环境模型直接表示出对手可能的改进过程，获得更为准确的对手策略模型，解决了多智能体对抗中对手建模的滞后性问题，以达到对于同样有思考能力的对手进行有效建模的目的，进而帮助智能体策略学习。
[0038]
应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本发明。
附图说明
[0039]
此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本发明的实施例，并与说明书一起用于解释本发明的原理。
[0040]
图1是根据一示例性实施例示出的一种基于环境模型的对手建模方法的流程示意图；
[0041]
图2是根据一示例性实施例示出的一种基于环境模型的对手建模方法的示意图；
[0042]
图3是根据一示例性实施例示出的一种基于环境模型的对手建模装置的结构示意图；
[0043]
图4是根据一示例性实施例示出的一种基于环境模型的对手建模设备的结构示意图；
[0044]
图5是根据一示例性实施例示出的一种计算机存储介质的示意图。
具体实施方式
[0045]
以下描述和附图充分地示出本发明的具体实施方案，以使本领域的技术人员能够实践它们。
[0046]
应当明确，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。
[0047]
下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反，它们仅是如所附权利要求书中所详述的、本发明的一些方面相一致的系统和方法的例子。
[0048]
在本发明的描述中，需要理解的是，术语“第一”、“第二”等仅用于描述目的，而不能理解为指示或暗示相对重要性。对于本领域的普通技术人员而言，可以具体情况理解上述术语在本发明中的具体含义。此外，在本发明的描述中，除非另有说明，“多个”是指两个或两个以上。“和/或”，描述关联对象的关联关系，表示可以存在三种关系，例如，a和/或b，可以表示：单独存在a，同时存在a和b，单独存在b这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。
[0049]
可以理解的是，智能体通过其自身具备的自治性、社会性、反应性和预动性，可以在感知环境的变化时做出相应的反馈。在智能体管理系统的控制下，若干个智能体通过相互协作可以实现更为复杂的智能。即，形成多智能体。所述多智能体通过各智能体单元的直接配合以及策略选择，在飞行器的编队、多机械臂协同装备、多机器人合作控制、交通车辆控制、博弈游戏等领域已得到广泛应用。
[0050]
当一个智能体在有多个智能体的环境中进行交互时，对付各种前所未见的对手是一项挑战。针对对手的行为、目标或信念进行建模可以帮助智能体调整策略以适应不同的对手。考虑到对手也可能在同时进行学习，本实施例提出了此对手建模方法。
[0051]
然而，对手也可能有同样的推理能力。此时，需要更高层次的推理和一些其他的对手建模技术来处理这些复杂的对手。当对手同时进行学习，对手建模过程将变得不稳定，利用历史经验拟合的对手策略模型也会产生滞后。
[0052]
人类在了解环境的规则和机制后，通过模拟大脑中的交互作用来预测对手未来行为，这其中会产生递归推理，即推测他人认为自己在想什么，如“我猜你猜我在想什么”。受此启发本实施例提出了基于环境模型的对手建模方法，利用环境模型来预测和捕获对手的策略改进。该方法在对手建模的同时，也考虑到了对手可能存在的推理能力，通过环境模型直接表示出对手可能的改进过程，获得更为准确的对手策略模型，进而帮助智能体策略学习。
[0053]
图1是根据一示例性实施例示出的一种基于环境模型的对手建模方法的流程示意图，参见图1，该方法具体包括以下步骤。
[0054]
s101智能体根据对手的动作以及决策过程的状态得到第一层想象对手策略。
[0055]
智能体使用近端策略优化算法与不同的对手进行交互，得到经验数据库(s、a、a
o
、s
′
、r)，其中，s表示决策过程的状态，a表示智能体动作，a
o
表示对手动作，s
′
表示下一时刻决策过程的状态，r表示环境奖励。
[0056]
进一步地，利用经验数据库中的数据，通过最小化均方误差训练环境模型，得到的环境模型如下所示：
[0057][0058]
其中，s表示决策过程的状态，a表示智能体动作，a
o
表示对手动作，s
′
表示下一时刻决策过程的状态，r表示环境奖励，d表示经验数据库。
[0059]
然后根据对手的动作以及决策过程的状态数据，采用最小化最大似然估计训练第一层想象对手策略，第一层想象对手策略如下所示：
[0060][0061]
其中，s表示决策过程的状态，a
o
表示对手的动作，表示经验数据库，φ0表示第一层想象对手策略。
[0062]
s102在预设的环境模型中利用仿真轨迹算法计算第一层的对手最佳动作，根据对手最佳动作调整第一层想象对手策略，得到调整后的第一层想象对手策略。
[0063]
想象对手的学习过程，首先使用的是仿真轨迹算法来获得对手在智能体策略下的最佳响应，对于时间步t下的每个对手行动统一采样后续时刻中的对手行动序列，使用学习环境模型模拟轨迹，并选择具有最高仿真轨迹值的最佳对策。
[0064][0065]
其中，表示t时刻对手最佳动作，表示t时刻对手动作，unif表
示t 1时刻到t k时刻中对手动作序列服从均匀分布，γ表示贴现因子，r0表示对手的环境奖励，t表示时刻。
[0066]
在模拟过程中，智能体根据模型中的对手策略模型中的对手策略的策略行为，学习环境模型提供了环境转移概率s
t 1
，，使用更大的k，仿真轨迹算法有更长的规划时间，因此可以更准确地评估对手最优动作a
o*
。但是，由于仿真轨迹的计算成本随规划水平呈指数级增长，因此要得到a
o*
的准确估计，k的选择要权衡准确性和成本。具体而言，对于零和博弈和合作博弈，可以分别将对手的状态值v
o
(s)近似估计为
‑
v(s)和v(s)，并将仿真轨迹算法值修改为n步的递减累积回报，以获得更长的视界。最终，根据如下公式计算对手最佳动作：
[0067][0068]
其中，表示t时刻对手最佳动作，表示t时刻对手动作，unif表示t 1时刻到t k时刻中对手动作序列服从均匀分布，γ表示贴现因子，r0表示对手的环境奖励，t表示时刻，v
o
表示对手的价值函数，s表示决策过程的状态。
[0069]
通过想象，可以获得对手在智能体策略π和第一层想象对手策略下的最佳动作a
o*
。
[0070]
进一步地，根据对手最佳动作以及决策过程的状态构造模拟数据，将模拟数据代入第一层想象对手策略公式，得到调整后的第一层想象对手策略。
[0071]
具体地，将得到的最佳动作a
o*
和决策过程的状态s代入第一层想象对手策略公式得到调整后的第一层想象对手策略φ0，第一层想象对手策略可以看作是对手应对智能体的最佳策略。
[0072]
s103重复执行上述步骤，直到得到调整后的多层想象对手策略。
[0073]
得到第一层的想象对手策略之后，按照上述步骤中的方法继续计算第二层的想象对手策略、第三层的想象对手策略，直到所有递归想象层的对手策略计算完。
[0074]
其中，对手的最佳动作与环境奖励有关，环境奖励与对手的动作有关，对手的动作与递归想象的层数有关，因此，根据最佳动作的计算公式，计算每层对手策略下的最佳动作，然后将每层对手策略下的最佳动作a
o*
和决策过程的状态s代入想象对手策略公式，得到调整后的多层想象对手策略φ0，φ1……
φ
m
‑1。
[0075]
根据上述步骤，通过递归想象，显式地模拟了递归推理过程，利用环境模型生成一系列对手策略。
[0076]
s104更新想象对手策略权重，根据想象对手策略权重以及调整后的多层想象对手策略，得到对手混合策略，将对手混合策略作为对手模型。
[0077]
通过递归想象得到了具有不同推理层次的多个想象对手策略。然而，由于对手的学习和推理是未知的，单个想象对手策略可能会高估或低估对手。为了获得更强的表示能力，以及准确捕获对手的学习，将想象对手策略线性组合得到对手混合策略。
[0078]
首先，根据归一化概率分布算法以及贝叶斯公式计算想象对手策略权重。
[0079]
具体地，根据如下公式计算每层的想象对手策略权重：
[0080]
(α0,
…
,α
m
‑1)＝softmax(ψ0,
…
,ψ
m
‑1)
[0081]
其中，α0,
…
,α
m
‑1分别表示想象对手策略φ0，φ1……
φ
m
‑1对应的权重，softmax归一化函数，是逻辑函数的一种推广，尤其在多分类的场景中使用广泛，他把一些输入映射为0
‑
1之间的实数，并且归一化保证和为1，因此多分类的概率之和也刚好为1。
[0082]
ψ
m
是p(m|a
o
)的衰减移动平均，它是在对手a
o
的行动下使用第m层想象对手策略的概率。根据贝叶斯公式，有：
[0083][0084]
其中，p(m)是使用第m层想象对手策略的概率，将其估计为p(m|a
o
)的移动平均作为先验。ψ
m
表示水平第m层想象对手策略和对手在最近一段时期内的相似性。考虑到对手的行动，较高的ψ
m
意味着行动更可能来自第m层想象对手策略，因此第m层想象对手策略更类似于对手。根据相似度调整权值α0,
…
,α
m
‑1可以更准确地估计改进的对手策略。
[0085]
进一步地，根据如下公式计算对手混合策略：
[0086][0087]
其中，π
mix
(
·
|s)表示对手混合策略，s表示决策过程的状态，m表示递归想象层数，i表示第i层递归想象，0≤i≤m
‑
1，α
i
表示第i层想象对手策略的权重，φ
i
表示第i层想象对手策略。
[0088]
根据该步骤，想象对手策略混合器是非参数的，无需进行参数训练和过多的交互，可以快速有效地进行更新。因此，想象对手策略混合器可以适应快速改进的对手。混合的对手策略即为构建完成的对手模型。帮助智能体更好地进行学习。
[0089]
为了便于理解本技术实施例提供的基于环境模型的对手建模方法，下面结合附图2进行说明。图2是根据一示例性实施例示出的一种基于环境模型的对手建模方法的示意图。
[0090]
如图2所示，该方法包括两个部分，一部分为递归想象，一部分为贝叶斯混合。
[0091]
首先，智能体在环境模型中，通过递归想象的方法，计算每层的想象对手策略φ0，φ1……
φ
m
‑1。具体地，首先计算第一层的想象对手策略φ0，然后在环境模型中，采用轨迹模拟的方法计算当前层的最佳动作，根据计算出来的最佳动作调整第一层想象对手策略，递归地重复仿真轨迹和微调，得到m层想象对手策略，其中，想象对手策略层数越高，也意味着博弈越激烈。
[0092]
然后进行贝叶斯混合，首先根据归一化概率分布算法以及贝叶斯公式计算想象对手策略权重α0,
…
,α
m
‑1，根据权重进行策略混合，得到对手混合策略，即构建完成的对手混合模型π
mix
(
·
|s)。
[0093]
该方法适用的情景是一个交互环境中存在若干智能体，每个智能体获得环境的状态并同时作出决策，智能体获得的外部奖励信号与所有智能体的行动有关。
[0094]
在一个可选地实施例中，首先，初始化递归想象层数m、想象对手策略权重α、智能体策略θ、第一层想象对手策略φ0以及环境模型。
[0095]
在每次交互开始时，智能体策略θ根据历史对手混合策略π
mix
(
·
|s)与环境交互，同时获得对手的动作a
°
以及决策过程的状态s。
[0096]
根据对手的动作a
°
和决策过程的状态s学习第一层想象对手策略φ0。以及在环境模型中利用仿真轨迹算法计算当前层数下对手的最佳响应根据微调第一层想象对手策略φ0，得到第一层想象对手策略φ0。以此类推，得到第m层想象对手策略φ
m
‑1。
[0097]
更新想象对手策略权重α，利用φ0，φ1……
φ
m
‑1，通过想象对手策略混合器得到对手混合策略π
mix
(
·
|s)。
[0098]
根据本公开实施例提供的基于环境模型的对手建模方法，在对手建模的同时，也考虑到了对手可能存在的推理能力，通过环境模型直接表示出对手可能的改进过程，获得更为准确的对手策略模型，解决了多智能体对抗中对手建模的滞后性问题，以达到对于同样有思考能力的对手进行有效建模的目的，进而帮助智能体策略学习。
[0099]
本公开实施例还提供一种基于环境模型的对手建模装置，该装置用于执行上述实施例的基于环境模型的对手建模方法，如图3所示，该装置包括：
[0100]
计算模块301，用于智能体根据对手的动作以及决策过程的状态得到第一层想象对手策略；
[0101]
调整模块302，用于在预设的环境模型中利用仿真轨迹算法计算第一层的对手最佳动作，根据对手最佳动作调整第一层想象对手策略，得到调整后的第一层想象对手策略；
[0102]
重复执行模块303，用于重复执行上述步骤，直到得到调整后的多层想象对手策略；
[0103]
混合模块304，用于更新想象对手策略权重，根据想象对手策略权重以及调整后的多层想象对手策略，得到对手混合策略，将对手混合策略作为对手模型。
[0104]
需要说明的是，上述实施例提供的基于环境模型的对手建模装置在执行基于环境模型的对手建模方法时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将设备的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的基于环境模型的对手建模装置与基于环境模型的对手建模方法实施例属于同一构思，其体现实现过程详见方法实施例，这里不再赘述。
[0105]
本公开实施例还提供一种与前述实施例所提供的基于环境模型的对手建模方法对应的电子设备，以执行上述基于环境模型的对手建模方法。
[0106]
请参考图4，其示出了本技术的一些实施例所提供的一种电子设备的示意图。如图4所示，电子设备包括：处理器400，存储器401，总线402和通信接口403，处理器400、通信接口403和存储器401通过总线402连接；存储器401中存储有可在处理器400上运行的计算机程序，处理器400运行计算机程序时执行本技术前述任一实施例所提供的基于环境模型的对手建模方法。
[0107]
其中，存储器401可能包含高速随机存取存储器(ram：random access memory)，也可能还包括非不稳定的存储器(non
‑
volatile memory)，例如至少一个磁盘存储器。通过至少一个通信接口403(可以是有线或者无线)实现该系统网元与至少一个其他网元之间的通信连接，可以使用互联网、广域网、本地网、城域网等。
[0108]
总线402可以是isa总线、pci总线或eisa总线等。总线可以分为地址总线、数据总线、控制总线等。其中，存储器401用于存储程序，处理器400在接收到执行指令后，执行程序，前述本技术实施例任一实施方式揭示的基于环境模型的对手建模方法可以应用于处理
器400中，或者由处理器400实现。
[0109]
处理器400可能是一种集成电路芯片，具有信号的处理能力。在实现过程中，上述方法的各步骤可以通过处理器400中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器400可以是通用处理器，包括中央处理器(central processing unit，简称cpu)、网络处理器(network processor，简称np)等；还可以是数字信号处理器(dsp)、专用集成电路(asic)、现成可编程门阵列(fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本技术实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本技术实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器，闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器401，处理器400读取存储器401中的信息，结合其硬件完成上述方法的步骤。
[0110]
本技术实施例提供的电子设备与本技术实施例提供的基于环境模型的对手建模方法出于相同的发明构思，具有与其采用、运行或实现的方法相同的有益效果。
[0111]
本技术实施例还提供一种与前述实施例所提供的基于环境模型的对手建模方法对应的计算机可读存储介质，请参考图5，其示出的计算机可读存储介质为光盘500，其上存储有计算机程序(即程序产品)，计算机程序在被处理器运行时，会执行前述任意实施例所提供的基于环境模型的对手建模方法。
[0112]
需要说明的是，计算机可读存储介质的例子还可以包括，但不限于相变内存(pram)、静态随机存取存储器(sram)、动态随机存取存储器(dram)、其他类型的随机存取存储器(ram)、只读存储器(rom)、电可擦除可编程只读存储器(eeprom)、快闪记忆体或其他光学、磁性存储介质，在此不再一一赘述。
[0113]
本技术的上述实施例提供的计算机可读存储介质与本技术实施例提供的基于环境模型的对手建模方法出于相同的发明构思，具有与其存储的应用程序所采用、运行或实现的方法相同的有益效果。
[0114]
以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。
[0115]
以上实施例仅表达了本发明的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。因此，本发明专利的保护范围应以所附权利要求为准。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

基于环境模型的对手建模方法、装置、设备及存储介质与流程

相关文献

最热文献