一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种交互式动态影响图中智能体行为的多样化处理方法

2022-09-01 02:14:44 来源:中国专利 TAG:


1.本发明涉及互联网技术领域,尤其涉及的是一种交互式动态影响图中智能体行为的多样化处理方法。


背景技术:

2.随着云计算、物联网、移动互联网等新技术的出现和飞速发展,大数据技术的飞速推进,全球全面步入大数据时代,原有的以知识驱动为基础的建模的方式已经转变为数据驱动方向。怎样通过已积累的大量历史数据来挖掘数据特征,并利用数据特征发现的内在规律指导智能体获得最优决策,是目前智能决策领域最为热门的方向之一。
3.智能决策问题是人工智能领域的核心问题,随着智能体技术在工业、军事、交通、国防、商务等领域的应用和发展,针对其中多智能体的场景下,智能决策问题变得更加具有复杂性、动态性以及不确定性。从单个智能体的角度出发研究不确定性多智能体决策问题是目前出现的一种新型建模理论,交互式动态影响图(i-did,interactive dynamic influence diagram)的核心思想是采用智能体相互建模技术,把多智能体的决策问题转化为个体决策问题,通过建立交互状态空间,个体智能体可以清晰地表示其他智能体决策过程。也就是说,多智能体系统下,常从一个智能体角度出发,建模优化全局系统,该智能体作为主体智能体。复杂性:多个智能体将构建高维的状态空间与动作空间,求解问题的时间复杂度和空间复杂度都将随时间片指数增长;动态性:主体智能体采取决策时,其他智能体同时也在采取决策,环境状态的变化与所有智能体的联合决策相关,如在合作型的多智能体决策系统中,这将导致另一个目标一致性问题,全局回报最优下,各个智能体仅为局部最优;不确定性:多智能体系统中,主体智能体无法完全了解其他智能体,即便在合作型智能体环境中。
4.多智能体系统包含多个智能体间或智能体与人间的交互行为,通过理解发现交互信息来优化多智能体系统决策。主体智能体通过观察理解其他智能体的历史行为来优化自己的决策,然而当主体智能体无法获得其他智能体充足的历史行为信息时,优化主体智能体的行为将会变得比较困难,通常在竞争关系下,各智能体间无法共享观测信息、决策、奖励。即使在协作关系中,智能体间也可能因为隐私问题,不愿分享自己的信息。
5.举例说明,假设多智能体系统中有i、j两个智能体进行博弈,智能体i作为主体智能体,主体智能体i和其他智能体j都会在接受到环境观察时采取行动,并依据其动作对环境状态的影响获得对应奖励。其中,主体智能体i需要预测其他智能体j的行为,因为主体智能体i获得的奖励同时由i和j的行为所共同决定,然而i在与j交互前不知道j要采取的行为。因此,主体智能体i必须求解大量其他智能体j的可能模型,将其他智能体j的可能模型集合提供给智能体i作为候选模型集合。过去知识驱动的方法是用暴力搜索的方式为主体智能体提供其他智能体j的可能模型,这会极大程度的增大模型求解复杂度,随着时间片指数增长,将无法求解。采用数据驱动的研究方法选择收集智能体j过去历史数据提供给主体智能体i作为其他智能体j的可能模型,协助主体智能体i优化决策。在这个过程中存在两个
难点:(1)由于其他智能体j的历史数据不足,候选模型集合可能不包含智能体j的真实模型;(2)基于有限的历史数据,构建的智能体j的可能模型不完整,会导致损失原始历史决策序列中部分信息。这两个难点给主体智能体i在不了解智能体j可能模型时的优化决策带来了挑战。
6.也就是说,在交互式动态影响图建模求解主体智能体最优决策的过程中,由于主体智能体并不知道其他智能体的真实模型,理论上需要假设存在庞大数量的其他智能体的行为模型,导致交互式动态影响图求解困难。
7.因此,现有技术存在缺陷,有待改进与发展。


技术实现要素:

8.本发明要解决的技术问题在于,针对现有技术的上述缺陷,提供一种交互式动态影响图中智能体行为的多样化处理方法,旨在解决现有技术在交互式动态影响图建模求解主体智能体最优决策的过程中,需要假设存在庞大数量的其他智能体的行为模型,导致交互式动态影响图求解困难的问题。
9.本发明解决技术问题所采用的技术方案如下:
10.一种交互式动态影响图中智能体行为的多样化处理方法,包括:
11.确定目标问题域下对应的多智能体系统,所述多智能体系统包括主体智能体和关联智能体,所述关联智能体为合作智能体或竞争智能体;
12.根据所述关联智能体的历史行为模型生成新行为模型,对所述新行为模型进行多样性测量,并根据测量结果筛选出目标行为模型;
13.构建所述主体智能体对应的交互式动态影响图,并将所述目标行为模型嵌入到所述交互式动态影响图中;
14.在嵌入所述目标行为模型的所述交互式动态影响图中求解所述主体智能体的最优决策。
15.在一种实现方式中,根据所述关联智能体的历史行为模型生成新行为模型,对所述新行为模型进行多样性测量,并根据测量结果筛选出目标行为模型,包括:
16.根据所述关联智能体的历史行为模型,按照预设表征行为捕捉规则学习所述关联智能体可能的决策行为,生成新行为模型;
17.按照预设多样性测量算法计算所述新行为模型的多样性,得到多样性测量结果;
18.当所述新行为模型的多样性测量结果达到最大时,得到目标行为模型。
19.在一种实现方式中,根据所述关联智能体的历史行为模型,按照预设表征行为捕捉规则学习所述关联智能体可能的决策行为,生成新行为模型,包括:
20.利用线性降维方法,按照预设表征行为捕捉规则从所述历史行为模型中提取符合预设信息规则的行为序列;
21.根据所述行为序列生成所述关联智能体的新行为,得到对应的新行为模型。
22.在一种实现方式中,所述预设表征行为捕捉规则包括:
23.将关联智能体的行为序列表示为其中,a
t
(∈a)和o
t
(∈ω)是在规划时间片t内交替的行动和观察的集合;
24.利用关联智能体的一组行为序列组成策略树,所述策略树构造为深度为t的树结
构,其中,所述行动在节点中,所述观察在策略树中被附加到分支上。
25.在一种实现方式中,所述预设多样性测量算法为:
26.定义k个策略树的mdp多样性为
27.其中,所述k表示策略树的数量,所述mdp表示路径上的多样性测量,所述hk表示策略树,所述t表示规划时间片,所述diff(h
t
)表示策略树中不同序列的数量,所述h
t
表示策略树中子序列的数量,所述|ωj|表示关联智能体的观察次数。
28.在一种实现方式中,所述预设多样性测量算法为:
[0029][0030]
其中,所述k表示策略树的数量,所述hk表示策略树,所述mdf表示带框架的多样性测量,所述t表示规划时间片,所述diff(h
t
)表示策略树中不同序列的数量,所述diff(h
t
)表示策略树中子序列的数量,所述|ωj|表示关联智能体的观察次数。
[0031]
在一种实现方式中,构建所述主体智能体对应的交互式动态影响图,并将所述目标行为模型嵌入到所述交互式动态影响图中,包括:
[0032]
构建所述主体智能体对应的交互式动态影响图,所述交互式动态影响图中具有候选模型节点;
[0033]
将所述目标行为模型输入到所述候选模型节点中。
[0034]
本发明还提供一种交互式动态影响图中智能体行为的多样化处理装置,包括:
[0035]
确定模块,用于确定目标问题域下对应的多智能体系统,所述多智能体系统包括主体智能体和关联智能体,所述关联智能体为合作智能体或竞争智能体;
[0036]
测量模块,用于根据所述关联智能体的历史行为模型生成新行为模型,对所述新行为模型进行多样性测量,并根据测量结果筛选出目标行为模型;
[0037]
构建模块,用于构建所述主体智能体对应的交互式动态影响图,并将所述目标行为模型嵌入到所述交互式动态影响图中;
[0038]
求解模块,用于在嵌入所述目标行为模型的所述交互式动态影响图中求解所述主体智能体的最优决策。
[0039]
本发明还提供一种终端,包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的交互式动态影响图中智能体行为的多样化处理程序,所述交互式动态影响图中智能体行为的多样化处理程序被所述处理器执行时实现如上所述的交互式动态影响图中智能体行为的多样化处理方法的步骤。
[0040]
本发明还提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序能够被执行以用于实现如上所述的交互式动态影响图中智能体行为的多样化处理方法的步骤。
[0041]
本发明所提供的交互式动态影响图中智能体行为的多样化处理方法,包括:确定目标问题域下对应的多智能体系统,所述多智能体系统包括主体智能体和关联智能体,所述关联智能体为合作智能体或竞争智能体;根据所述关联智能体的历史行为模型生成新行为模型,对所述新行为模型进行多样性测量,并根据测量结果筛选出目标行为模型;构建所
述主体智能体对应的交互式动态影响图,并将所述目标行为模型嵌入到所述交互式动态影响图中;在嵌入所述目标行为模型的所述交互式动态影响图中求解所述主体智能体的最优决策。本发明通过根据关联智能体的历史行为模型生成新行为模型,并对所述新行为模型进行多样性测量处理,使得筛选出的目标行为模型更加多样化且数量有限,进而使得主体智能体得到关联智能体的有限行为数据的同时,能够获取更多样的行为数据,避免了需要假设存在庞大数量的关联智能体的行为模型而导致的交互式动态影响图求解困难的问题。
附图说明
[0042]
图1是本发明中交互式动态影响图中智能体行为的多样化处理方法较佳实施例的流程图。
[0043]
图2是本发明中交互式动态影响图中智能体行为的多样化处理方法较佳实施例中步骤s200的具体流程图。
[0044]
图3是本发明中交互式动态影响图中智能体行为的多样化处理方法较佳实施例中步骤s210的具体流程图。
[0045]
图4是本发明中交互式动态影响图中智能体行为的多样化处理方法较佳实施例中从三个行为模型中提取行为序列的示意图。
[0046]
图5是本发明中交互式动态影响图中智能体行为的多样化处理方法较佳实施例中mdp和mdf的示意图。
[0047]
图6是本发明中交互式动态影响图中智能体行为的多样化处理方法较佳实施例中步骤s300的具体流程图。
[0048]
图7是本发明中交互式动态影响图中智能体行为的多样化处理方法较佳实施例中交互式动态影响图的示意图。
[0049]
图8是本发明中交互式动态影响图中智能体行为的多样化处理方法较佳实施例中输出top-k行为的示意图。
[0050]
图9是多智能体老虎问题的场景图。
[0051]
图10是多智能体老虎问题验证交互式动态影响图智能体行为多样化的离线效果图(t=3)。
[0052]
图11是多智能体老虎问题验证交互式动态影响图智能体行为多样化的离线效果图(t=4)。
[0053]
图12是多智能体无人机问题的场景图。
[0054]
图13是多智能体无人机问题验证交互式动态影响图智能体行为多样化的离线效果图(t=3)。
[0055]
图14是多智能体老虎问题验证交互式动态影响图智能体行为多样化的离线效果图(t=4)。
[0056]
图15是本发明中交互式动态影响图中智能体行为的多样化处理装置较佳实施例的功能原理框图。
[0057]
图16是本发明中终端的较佳实施例的功能原理框图。
具体实施方式
[0058]
为使本发明的目的、技术方案及优点更加清楚、明确,以下参照附图并举实施例对本发明进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
[0059]
关于数据驱动的交互式动态影响图问题,希望在不确定性环境下多智能体决策问题能够更有效的优化智能体的决策,一直是人工智能研究领域中一个非常复杂的问题。
[0060]
基于其他智能体建模的研究在人工智能、决策科学和通用智能系统领域引起了越来越多的兴趣。它主要探索各种类型的建模语言来表示不同类型环境中的决策、行为推理和学习问题,例如:从经典的虚拟游戏模型到用于建模posg中的随机行为的概率确定性有限状态自动机。更复杂的包括递归建模方法,它遵循智能体a认为智能体b认为智能体a认为(等等)的嵌套推理形式,例如i-pomdps,甚至更严格的基于认知逻辑的规划系统。另外,还可以使用知识图谱对对手的行为进行建模,并据此推断智能体人的意图。特别是一系列概率图模型已经被提出用于解决多智能体决策问题。现有技术有的使用影响图对其他智能体进行建模,但没有提供根据主体智能体的观察更新模型的机制;有的提出了多智能体影响图(maid)来计算参与交互的所有智能体的纳什均衡策略,有的开发了影响图网络(nid)用于递归地建模其他智能体。maid和nid形式都侧重于静态的单次交互。相比之下,i-did提供了延长时间交互的解决方案,在这种交互中,智能体采取行动并更新他们对其他智能体模型的信度,这些模型本身就是动态的。
[0061]
考虑其他智能体的未知行为(真实模型),大多数研究假设其他智能体的大量模型基于主体智能体即使在其他智能体改变行为而随时间片优化调整决策(有时被称为动态对手)。这导致求解其他智能体模型的复杂性显著增加。因此,大量研究已投入到减少其他智能体的模型空间上。例如,最小心智模型的概念被用来压缩其他智能体的候选模型,以降低由于引入冗余潜在模型而导致的计算复杂度。行为等效原则成为一种常用的技术,用于对表现出其他智能体相同行为的候选模型进行分组。类似地,有的研究使用值等价来聚类对主体智能体的预期奖励具有相似影响的模型,这导致模型空间更加压缩。这种压缩模型空间的工作也是由于在构建一组合适的候选行为模型的先验知识有限。因此,生成一组好的初始模型变得很重要,因为它可以提供包含真实模型的良好机会,并且模型压缩技术不是严格要求的。
[0062]
目前大多数关于建模其他智能体的研究仍然依赖于根据专家知识包含先验知识的人工模型。有的研究是从智能体交互的历史数据中学习了其他智能体的行为模型,但没有依据有限的学习模型中提供新的模型。本发明的目标则是在对其行为了解有限的情况下生成其他智能体的新模型,并且包含在以前的交互中可能看不到新行为。
[0063]
具体地,本发明中考虑其他智能体的历史行为特征随机化一组新行为,随机化通过对其他智能体获得最佳奖励的动作进行采样来进行,通过这样做,我们可以获得另一个智能体的大量候选行为,即选取top-k组行为,其中可能包含其他智能体的真实行为,本发明提出两种新的测量方法来量化一组行为的多样性,用于优化top-k行为选择。第一个多样性测量考虑了在每个时间片上观察到的特定动作之间的差异,而第二个测量包含一个额外的因素,即随着时间的推移区分一般行为模式。与传统基于知识驱动的交互式动态影响图相比,数据驱动具有以下的优势和意义:(1)在i-did建模求解主智能体最优决策的过程中,
由于主体智能体并不知道其他智能体的真实模型,理论上需要假设存在庞大数量的其他智能体的行为模型,导致i-did模型求解困难,过去工作选择压缩候选模型空间来优化计算,本发明则使用其他智能体过去的历史行为数据,自动学习其可能的决策行为,嵌入到i-did模型中去;(2)进一步扩展i-did的普遍适用性,很多真实场景中因为隐私问题,从主体智能体角度来看,难以获得大量的其他智能体的行为数据,考虑用想象力方法,结合机器学习技术学习可能的真实行为模式,依据少量历史数据,合理增加其他智能体的新数据;(3)对优化决策建模过程,兼顾一定的建模可解释性,对其他的工作可能有借鉴意义。
[0064]
也就是说,本发明通过指出经典的交互式动态影响图模型存在的问题,并针对其中一些问题,设计了解决方法,包括:(1)拓展i-did模型中,首次使用想象力方法尝试解决主智能体对其他智能体数据不足的问题,根据少量的历史行为模型扩展数据;(2)在拓展建模的过程中,提出两种新的测量方法来量化一组行为的多样性,用于top-k的行为模型选择。
[0065]
请参见图1,图1是本发明中交互式动态影响图中智能体行为的多样化处理方法的流程图。如图1所示,本发明实施例所述的交互式动态影响图中智能体行为的多样化处理方法包括以下步骤:
[0066]
步骤s100、确定目标问题域下对应的多智能体系统,所述多智能体系统包括主体智能体和关联智能体,所述关联智能体为合作智能体或竞争智能体。
[0067]
具体地,确定需要求解决策的问题域中的多智能体系统,其中,所述关联智能体是指多智能体系统中除主体智能体以外的其他智能体,可以为合作智能体,也可以为竞争智能体。
[0068]
步骤s100之后为:步骤s200、根据所述关联智能体的历史行为模型生成新行为模型,对所述新行为模型进行多样性测量,并根据测量结果筛选出目标行为模型。
[0069]
在一种实现方式中,请参阅图2,所述步骤s200具体包括:
[0070]
步骤s210、根据所述关联智能体的历史行为模型,按照预设表征行为捕捉规则学习所述关联智能体可能的决策行为,生成新行为模型;
[0071]
步骤s220、按照预设多样性测量算法计算所述新行为模型的多样性,得到多样性测量结果;
[0072]
步骤s230、当所述新行为模型的多样性测量结果达到最大时,得到目标行为模型。
[0073]
在进一步地实现方式中,请参阅图3,所述步骤s210具体包括:
[0074]
步骤s211、利用线性降维方法,按照预设表征行为捕捉规则从所述历史行为模型中提取符合预设信息规则的行为序列;
[0075]
步骤s212、根据所述行为序列生成所述关联智能体的新行为,得到对应的新行为模型。
[0076]
在一种实现方式中,所述预设表征行为捕捉规则包括:
[0077]
将关联智能体的行为序列表示为其中,a
t
(∈a)和o
t
(∈ω)是在规划时间片t内交替的行动和观察的集合;
[0078]
利用关联智能体的一组行为序列组成策略树,所述策略树构造为深度为t的树结构,其中,所述行动在节点中,所述观察在策略树中被附加到分支上。
[0079]
具体地,智能体的行为模型规定了给定环境的观察智能体应做什么。通过求解交
互式动态影响图,可以获得智能体的最优策略,该策略包含一组动作,给定智能体随时间获得的各种观察。一般来说,策略可以用树形结构表示,策略树的每个分支都是一个行为序列,指导智能体在每个时间步可能的观察时的最佳行为。
[0080]
首先,定义一个行为序列,对于关联智能体j,行为序列其中,a
t
(∈a)和o
t
(∈ω)是在其规划时间片t内交替的行动和观察的集合。然后,定义由一组行为序列组成的策略树,关联智能体j的策略树是一组行为序列,它们构造为深度为t的树结构,其中,行动在节点中,而观察在树中被附加到分支上。
[0081]
按照策略树,智能体在每个时间步从环境接收到特定观察时执行行为得到一个序列。通过求解其决策模型(交互式动态影响图)获得智能体的行为序列表示为策略树。决策模型中参数的变化,例如交互式动态影响图中的概率分布,在智能体的决策模型中可能导致不同的行为。从主体智能体i的角度来看,重要的是另一个智能体j表现出的行为,而不是智能体j如何通过决策模型优化其行为。因此,在发明中,将关注智能体j的行为,并假设智能体i知道另一个智能体j的一组m个行为模型,作为候选行为模型集合。问题仍然是基于已知的m个行为为智能体j生成一组新的行为(≥m,包括已知行为)。期望新行为集将包括其他智能体j的潜在真实行为。
[0082]
已知的m行为表征根据智能体i对智能体j的先验知识,智能体j如何行为的基本类型。它们可以作为显着特征来扩展智能体j的新行为。继续从已知智能体j的行为中提取一组行为序列,根据这些行为序列生成其新行为。行为序列代表智能体i已知的智能体j行为。
[0083]
本发明不是从m个行为中随机选择m个行为序列fj={h1,

,hm},而是使用线性降维方法从已知序列中提取具有最足够信息的序列。具体地,构造一个行为矩阵,即p,其中每一行是一个策略树每一列是在策略树中看到的一个行为序列。由于某些行为序列可能出现在不同的策略树中,因此列维度小于m
×
|ω|
t-1
,但比行维度m大得多,特别是对于较大的规划范围t。如果序列hj出现在行为hi中,则矩阵元素p(hi,hj)为1;否则,p(hi,hj)=0。因此,矩阵p可能包含一些线性相关的行为序列,因此它的列可以简化为一组代表性序列f。使用高斯消元法来找到大矩阵p中的中心列,以抽取一组线性无关组f表征序列。提取过程可以在一个多项式时间内。原则上,找到一个中心矩阵fj和另一个矩阵uj,以确保:pj=fj×
uj。
[0084]
如图4所示,从三个行为模型中提取行为序列。行为矩阵pj的秩为3,因此可以获得返回三个线性独立序列的枢轴矩阵例如fj=(h1,h6,h8)。
[0085]
所述预设多样性测量算法包括两种,如图5所示,第一种多样性测量是定义k个策略树的mdp多样性为:其中,所述k表示策略树的数量,所述mdp表示路径上的多样性测量,所述hk表示策略树,所述t表示规划时间片,所述diff(h
t
)表示策略树中不同序列的数量,所述h
t
表示策略树中子序列的数量,所述|ωj|表示关联智能体的观察次数。
[0086]
具体地,多样性的第一个测量以垂直方式考虑行为序列之间的差异:沿深度分别
检查策略树中的序列或路径(在一个时间步有一个特定的观察)。它被称为mdp(路径上的多样性测量),主要测量策略树中序列的多样性。在第一种测量mdp中,从策略树hk中检索所有不同的行为序列。对于每个序列h
t
,聚合所有长度为t(∈[1,t])的子序列h
t
,t也称为规划范围或时间片。由于智能体j的早期行为对智能体的交互有直接影响,因此短序列对多样性的贡献更大。因此,使用因子对序列进行加权。
[0087]
具体地,利用第一种预设多样性测量算法获得多样性最大的策略树的计算程序具体包括:步骤1、目标函数为topk(fj,h={h1,

,hm},did of agent j);步骤2、从h中得到一组行为序列fj;步骤3、将agent j的did转为动态贝叶斯网络bj;步骤4、基于fj实例化bj;步骤5、初始化hk={h1,

,hm};步骤6、repeat;步骤7、从hk={h1,

,hm}中采样完整的策略树;步骤8、hk=hk∪h
t
;步骤9、重新计算种群多样性div(hk);步骤10、until div(hk)不再改变;步骤11、return hk。
[0088]
第一种测量仅考虑了一个时间步长的单个动作(在单个序列内),并且可能会丢失一个关于在一个时间步长的不同观察结果下智能体j行为的总体图景。为了捕捉一般行为的框架,将不同深度的子树(中每个策略树的一部分)的多样性添加到mdp中。也就是说,第二个多样性测量扩展了mdp,额外考虑了水平方向的行为:沿宽度比较序列(在一个时间步具有所有可能的观察结果)。它也称为mdf(带框架的多样性测量),测量mdp顶部的策略树的框架。公式如下:
[0089][0090]
其中,所述表示策略树,所述mdf表示带框架的多样性测量,所述t表示规划时间片,所述diff(h
t
)表示表示策略树中不同序列的数量,所述diff(h
t
)表示不同子树数量,所述|ωj|表示关联智能体的观察次数。
[0091]
步骤s200之后为:步骤s300、构建所述主体智能体对应的交互式动态影响图,并将所述目标行为模型嵌入到所述交互式动态影响图中。
[0092]
在一种实现方式中,如图6所示,所述步骤s300具体包括:
[0093]
步骤s310、构建所述主体智能体对应的交互式动态影响图,所述交互式动态影响图中具有候选模型节点;
[0094]
步骤s320、将所述目标行为模型输入到所述候选模型节点中。
[0095]
如图7所示,所述候选模型节点即为图中的m节点。
[0096]
步骤s300之后为:步骤s400、在嵌入所述目标行为模型的所述交互式动态影响图中求解所述主体智能体的最优决策。
[0097]
这样,本发明在对应的问题域下建立多智能体系统的i-did模型,在多智能体系统中,智能体i作为主体智能体,主体智能体i和其他智能体j都会在接受到环境观察时采取行动,并依据其动作对环境状态的影响获得对应奖励。其中,主体智能体i需要预测其他智能体j的行为,原始的方法是暴力遍历所有智能体j的可能行为,数据驱动下,如图8所示,本发明基于智能体j的历史行为模型,多样化智能体j的行为,生成更多的行为模型,希望可以生成智能体j的真实行为模型,并将多样性测量最大的topk个行为模型输入到i-did模型中提
供给智能体i,协助智能体i优化决策,得到更高的奖励。
[0098]
下面列举具体实施例进行说明,具体是基于两个问题域分别进行测试,表明本发明设计的算法对比原i-did模型有更好的效果。
[0099]
实施例一:
[0100]
如图9所示,本实施例的问题域是多智能体老虎问题。
[0101]
多智能体老虎问题在多智能体规划研究中得到了很好的研究,并已成为评估智能体规划模型的基准。在发明中考虑这个问题的两个智能体版本。智能体i和智能体j都需要在不确定时决定是打开门的右侧/左侧(or或ol)还是听(l)老虎的位置(门后)。如果两个人都打开一个存在金子的门,他们分享金子;否则,只要其中一人面对老虎,就会被老虎吃掉。他们会基于他们的观察采取行为,例如老虎的咆哮声或吱吱声从任一扇门传来,或是什么都没有听到。从智能体i的角度来看,它需要预测智能体j同时会做什么,从而优化自己的决策。本发明为智能体i构建了一个i-did模型,并修改i-did模型中关于智能体j的候选模型节点m。
[0102]
图10和图11是以多智能体老虎问题验证交互式动态影响图智能体行为多样化的离线效果,可以看出智能体i在运行具有不同规划范围(t=3和4)的i-did模型时收到的平均奖励。对于这两个模型,有智能体j的六个初始模型(m=6)。然而,当t=3的模型在top-k模型选择中同时使用mdf和mdp测量值仅添加三个新模型(k=3)时,t=4的模型选择了四个新模型(k=4)。选择是合理的,因为具有大规划范围的模型通常具有更多不同的行为。在几乎所有情况下,idid-mdf算法都比其他两种算法实现了更好的性能。此外,还可以观察到idid-mdf具有更小的方差表示更好的可靠性。归因于mdf测量在选择模型时考虑了一般行为模式的优点。
[0103]
实施例二:
[0104]
如图12所示,本实施例的问题域是多智能体无人机问题。
[0105]
多智能体无人机问题是关于测试i-did模型中最大的问题域。两架无人机都可以选择向四个方向移动或停留在原来的位置。它们不知道自己和他人的确切位置,但可以接收到彼此相对位置的信号。由于两架无人机同时行动,一架无人机需要对另一架无人机的行为有一个很好的估计,以实现自己的目标。在本实验中,让智能体i作为追踪无人机,他计划在前往安全屋的途中拦截逃亡的智能体j。一旦智能体i在智能体j到达安全屋之前成功捕获逃亡智能体j,就会获得奖励。本发明为追逐者i构建了i-did模型,并修改i-did模型中关于智能体j的候选模型节点m。
[0106]
如图13和图14所示,多智能体无人机追踪问题的试验报告了t=3和t=4的i-did模型在m=6的设置中代理i的平均奖励。与idid和idid-mdp算法相比,idid-mdf算法表现出更好的性能。在大多数情况下,idid-mdp和idid-mdf算法都优于idid算法,特别是在t=3和t=4的i-did模型中。另外,idid算法在t=3的i-did模型中表现不佳。对于较短的计划范围,追捕者i没有足够的时间来收集足够的信息以减少智能体j行为的不确定性,因此在大多数情况下未能捕获逃亡智能体j。idid-mdf算法在i-did中的表现略好于idid-mdp算法。
[0107]
本发明提出的交互式动态影响图中基于多样性测量的topk行为选择,即从原始的行为模型中生成若干新的行为模型,依据行为模型的多样性表达进行筛选,提供有限k个行为模型提供给主体智能体协助对其他智能体进行建模。也就是说,使用其他智能体过去的
历史行为数据,自动学习其可能的决策行为,并用多样性测量进行筛选,而后嵌入到i-did模型中去,这样,就无需假设存在庞大数量的其他智能体的行为模型,避免了交互式动态影响图求解困难的问题。
[0108]
进一步地,如图15所示,基于上述交互式动态影响图中智能体行为的多样化处理方法,本发明还相应提供了一种交互式动态影响图中智能体行为的多样化处理装置,包括:
[0109]
确定模块100,用于确定目标问题域下对应的多智能体系统,所述多智能体系统包括主体智能体和关联智能体,所述关联智能体为合作智能体或竞争智能体;
[0110]
测量模块200,用于根据所述关联智能体的历史行为模型生成新行为模型,对所述新行为模型进行多样性测量,并根据测量结果筛选出目标行为模型;
[0111]
构建模块300,用于构建所述主体智能体对应的交互式动态影响图,并将所述目标行为模型嵌入到所述交互式动态影响图中;
[0112]
求解模块400,用于在嵌入所述目标行为模型的所述交互式动态影响图中求解所述主体智能体的最优决策。
[0113]
进一步地,如图16所示,基于上述交互式动态影响图中智能体行为的多样化处理方法,本发明还相应提供了一种终端,包括:存储器20、处理器10及存储在所述存储器20上并可在所述处理器10上运行的交互式动态影响图中智能体行为的多样化处理程序30,所述交互式动态影响图中智能体行为的多样化处理程序30被所述处理器10执行时实现如上所述的交互式动态影响图中智能体行为的多样化处理方法的步骤。
[0114]
本发明还提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序能够被执行以用于实现如上所述的交互式动态影响图中智能体行为的多样化处理方法的步骤。
[0115]
综上所述,本发明公开的交互式动态影响图中智能体行为的多样化处理方法,包括:确定目标问题域下对应的多智能体系统,所述多智能体系统包括主体智能体和关联智能体,所述关联智能体为合作智能体或竞争智能体;根据所述关联智能体的历史行为模型生成新行为模型,对所述新行为模型进行多样性测量,并根据测量结果筛选出目标行为模型;构建所述主体智能体对应的交互式动态影响图,并将所述目标行为模型嵌入到所述交互式动态影响图中;在嵌入所述目标行为模型的所述交互式动态影响图中求解所述主体智能体的最优决策。本发明通过根据关联智能体的历史行为模型生成新行为模型,并对所述新行为模型进行多样性测量处理,使得筛选出的目标行为模型更加多样化且数量有限,进而使得主体智能体得到关联智能体的有限行为数据的同时,能够获取更多样的行为数据,避免了需要假设存在庞大数量的关联智能体的行为模型而导致的交互式动态影响图求解困难的问题。
[0116]
应当理解的是,本发明的应用不限于上述的举例,对本领域普通技术人员来说,可以根据上述说明加以改进或变换,所有这些改进和变换都应属于本发明所附权利要求的保护范围。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献