一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

面向限时红蓝对抗问题动作空间解耦的博弈决策方法与流程

2022-05-18 02:20:17 来源:中国专利 TAG:


1.本发明属于人工智能中的博弈决策领域,具体涉及一种面向限时红蓝对抗问题动作空间解耦的博弈决策方法。


背景技术:

2.语义数据作为一种信息描述方式可有效的表达态势信息,传输具有低带宽、低通信压力的特点,可有效支持高对抗、窄带宽、高损毁条件下的信息传输。机器博弈决策是支撑经济、政治等多方面问题进行辅助决策的关键技术,受到了广泛的关注。随着人工智能技术的发展,博弈决策技术已在部分问题上实现了落地应用。但随着需解决的博弈问题复杂性变高,非完全信息、动作空间变大、决策时间受限等问题凸显出来,现有的博弈决策技术已不能满足需求。如何更好的优化博弈决策算法,解决语义态势背景下的决策时间受限的复杂博弈问题,成为当前研究的重点。
3.目前的博弈决策算法大概分为三类主流的研究方法,第一类是利用强化学习方法,基于累积博弈奖励,构建策略或估值网络,通过大量的模拟仿真实现决策;第二类是博弈论目标优化方法,设定当前奖励目标,结合优化方法进行求解得到决策结果;第三类是搜索方法,通过搜索博弈问题的各种可能情况,结合奖励得到决策结果。第一类方法大多通过构造神经网络的方法,结合大量对局数据,通过网络训练进行决策,但结果解释性差且需要大量训练。第二类方法是针对当前奖励的最优解,但往往缺乏对未来奖励回报的考虑,具有一定的局限性。第三类方法可针对累积奖励进行求解,具有较好的解释性。针对动作空间较大的复杂博弈决策问题,第三类方法中的蒙特卡洛树可以良好应用,具有较好的解释性,且无需大量历史对局数据。但像计算生成兵力问题或即时战略游戏等非完全信息问题则不可以应用,且在时间受限的情况下决策效果有待提高。故而本发明针对第三类方法进行改进,以解决语义态势为基础时间受限的非完全信息下的复杂博弈决策问题。


技术实现要素:

4.本发明的目的在于提供一种面向限时红蓝对抗问题动作空间解耦的博弈决策方法,通过对语义态势信息的建模,可实现“战争迷雾”问题下的博弈对抗问题的决策,且可简化动作空间,应用于复杂对抗问题,大大减少搜索空间提高搜索准确性。
5.本发明采用的技术方案为:
6.一种面向限时红蓝对抗问题动作空间解耦的博弈决策方法,包括以下步骤:
7.步骤1,搭建具有迷雾效果的红蓝对抗场景,提供各自阵营视角的红蓝双方态势语义信息,同时基于建筑物进行环境抽象,引入连通性及节点将地图离散化,并明确动作空间制定原则;
8.步骤2,对各自阵营视角的红蓝双方态势语义信息进行解析,构建博弈数据进行非完全信息下的蓝方信息预测模型的训练,得到预训练模型bnr;
9.步骤3,将红方视角下基于迷雾的蓝方非完全态势语义信息及红方信息进行解析,
送入蓝方信息预测模型bnr,进行未知的蓝方信息的预测,得到红方视角下的蓝方完全信息;
10.步骤4,建立基于连通收益矩阵、辐射概率矩阵和红蓝单元分布矩阵的联合蒙特卡洛树评估体系;
11.步骤5,基于步骤3得到的蓝方完全信息和步骤4得到的评估体系,针对红方每个团体构建动作空间,建立蒙特卡洛树分开决策;其中,初始时刻红方每个单元定义为1个团体,在每个团体的蒙特卡洛树决策过程中,仅对当前团体进行搜索决策,其他团体静止;
12.步骤6,基于步骤5得到的蒙特卡洛树决策结果进行后处理,检查每个团体的蒙特卡洛树搜索结果产生的最终状态,并判断结果是否会相互影响,对于互相影响的团体则组合成新团体,返回步骤5构建联合动作空间,直至达到设定的时间阈值,输出当前决策结果;对于不存在关联关系的团体,直接输出当前决策结果;
13.步骤7,基于当前决策结果生成决策语义,并执行当前方案。
14.进一步的,步骤1具体包括以下步骤:
15.101构建包含具有迷雾效果的基于语义态势的红蓝对抗场景,其中红蓝双方基于可视范围获取信息,红蓝双方的博弈输入均为语义信息;
16.102提取城市建筑物,针对博弈想定地图进行离散化,构建可通行区域,其中地图用(m1,n1)维度的0,1矩阵表示,0代表可通行区域,1代表不可通行区域;
17.103基于可通行区域将问题离散化,用连通节点v表示城市中的可通行位置,通过距离阈值d
thr
判别节点的连通,用v
i,j
表示可通行区域的第i行第j列的节点,用v
p,q
表示可通行区域的第p行第q列的节点,若两个节点之间的距离d(v
i,j
,v
p,q
)小于d
thr
,则节点v
i,j
,v
p,q
连通,否则不连通,并以此构造节点的邻接矩阵
[0018][0019]
其中,节点v
ij
的邻接矩阵a(v
ij
)为m1行n1列的矩阵,a(v
i,j
)
(p,q)
表示节点v
i,j
与节点v
p,q
的联通性:
[0020][0021]
进而得到每个节点的连通节点,即位于每个节点红蓝单元的移动动作空间。
[0022]
进一步的,步骤4具体包括以下步骤:
[0023]
401基于邻接矩阵计算出每个节点v
i,j
与其他节点v
p,q
的连通性l
ij

[0024][0025]
连通性值越高,表示节点与其他节点的连通性越好,其中m1,n1分别为地图的长宽,a
mn
(v
ij
)为矩阵a(v
ij
)第m行n列的元素;
[0026]
402基于节点的连通性构造连通收益矩阵
[0027]
403构造博弈单元k的辐射概率矩阵博弈单元包括红方单元和蓝方单元,其中辐射概率矩阵通过下述方式计算:
[0028]

初始化博弈单元k的辐射概率矩阵
[0029]

基于博弈单元位置更新辐射概率矩阵τk;若博弈单元k位于v
i,j
处,则v
i,j
处的辐射概率值为1;其余位置v
p,q
处的辐射概率值由衰减函数g(v
i,j
,v
p,q
)给出:
[0030][0031]
其中,α为衰减系数;c(v
i,j
,v
p,q
)表示节点v
i,j
,v
p,q
之间的最短路径长度,通过广度或深度遍历得到,当辐射深度c(v
i,j
,v
p,q
)到达设定阈值或者辐射概率值小于设定阈值时停止辐射;
[0032]
404将博弈单元的辐射概率矩阵叠加,得到红方阵营或蓝方阵营的整体辐射概率矩阵d:
[0033][0034]
其中,n为红方单元或蓝方单元的个数,若n=0,则令其中,n为红方单元或蓝方单元的个数,若n=0,则令最终红方或蓝方的评估得分表示如下:
[0035]
sr=z
·
db[0036]
sb=z
·dr
[0037]
其中,sr为红方阵营的评估得分,sb为蓝方阵营的评估得分,
·
表示矩阵对应元素相乘,dr为红方阵营的整体辐射概率矩阵,db为蓝方阵营的整体辐射概率矩阵。
[0038]
进一步的,步骤6具体包括以下步骤:
[0039]
601基于节点相似度定义路径关联度:
[0040][0041]
其中,vi=[v
i,1
,v
i,2
,...,v
i,l
],vj=[v
j,1
,v
j,2
,...,v
j,l
]分别表示红方单元i,j的路径,l为红方蒙特卡洛树输出的下一时刻的行动点中包含的联通节点的节点个数,基于关联度聚类,筛选关联度高于阈值的包含g个红方团体的集合s=[s1,s2,

si,

,sg],其中si为一个红方团体,si包含u个红方单元[i1,

,iu];
[0042]
602基于路径关联度及红蓝双方兵力分布,量化单元决策耦合程度,构造影响判别函数f:
[0043]
[0044]
其中,d(si)为高密度红方团体si=[i1,

,iu]的路径重复率:
[0045][0046]
以集合si中红方单元的平均重复率度量团体内单元的关联度,其中表示团体si中单元io和单元i
l
的路径,表示红方团体si中各单元的路径,此外,计算si包含的红方人数nr以及红方路径途中包含的敌人数量nb,通过红蓝双方人数的分布,定义战局双方实力悬殊程度:
[0047][0048]
603针对s=[s1,s2,

si,...,sg]中的每个团体si=[i1,

,iu],分别计算判别函数,判别其中的红方单元是否相互影响,若判别函数f(si)小于等于阈值d
dis
,则团体si=[i1,

,iu]中各单元之间相互影响,将si中的单元组合构造联合动作空间,返回步骤5再次进行计算;若判别函数f(si)大于阈值d
dis
,则单元之间不存在相互影响,将独立计算结果保留,作为该单元的决策结果。
[0049]
本发明具有如下有益效果:
[0050]
(1)本发明提出了面向语义态势对抗博弈问题的建模和非完全信息处理方法,可以解决基于蒙特卡洛树的非完全信息问题的求解。
[0051]
(2)本发明提出了动作空间解耦方法,可以解决复杂博弈环境下由于多智能体联合动作空间导致的额搜索空间过大的问题,用于求解时间受限的博弈决策问题。
附图说明
[0052]
图1为本发明实施例的原理示意图。
具体实施方式
[0053]
下面结合附图及具体实施方式对本发明做进一步详细的说明。
[0054]
参照图1,一种面向限时红蓝对抗问题动作空间解耦的博弈决策方法,包括以下步骤:
[0055]
步骤1,基于城市环境的红蓝攻防问题,明确想定并进行场景建模。搭建具有迷雾效果的红蓝对抗场景,并提供各自阵营视角的红蓝双方态势语义信息,基于建筑物进行环境抽象,并引入连通性及节点将地图离散化,并明确动作空间制定原则。
[0056]
步骤2,构建非完全信息下的蓝方信息预测模型,以红方视角下基于迷雾的蓝方非完全信息语义态势及红方信息为输入,训练蓝方策略预测网络bnr得到当前未知蓝方信息。首先,设定红方想定,并对各自阵营视角的红蓝双方的态势语义信息进行解析转化为态势向量数据对。其次,以蓝方视角下的红蓝双方态势语义信息为输入,利用蒙特卡洛树进行自博弈,得到蓝方策略,并结合红方视角下的红蓝方信息,得到大量包含(红方视角下红蓝方当前状态,蒙特卡洛树蓝方策略结果)的向量态势数据对。最后,基于该态势向量数据对训练蓝方信息预测模型bnr,其中,网络输入为红方视角下的红方信息、已获取的蓝方位置,输
出为未知蓝方的位置信息,并且支持变长输出。
[0057]
步骤3,将红方视角下包含迷雾的蓝方态势语义信息及红方信息进行解析,随后送入蓝方位置预训练模型bnr,进行未知的蓝方信息的预测,得到红方视角下的蓝方完全信息环境。
[0058]
步骤4,建立基于连通收益矩阵、概率辐射矩阵和红蓝单元分布矩阵的联合蒙特卡洛树评估体系。具体包括以下步骤:
[0059]
401基于邻接矩阵计算出每个节点v
i,j
与其他节点v
p,q
的连通性l
ij

[0060][0061]
连通性值越高,表示节点与其他节点的连通性越好,其中m1,n1分别为地图的长宽,a
mn
(v
ij
)为矩阵a(v
ij
)第m行n列的元素;
[0062]
402基于节点的连通性构造连通收益矩阵
[0063]
403构造博弈单元k的辐射概率矩阵博弈单元包括红方单元和蓝方单元,其中辐射概率矩阵通过下述方式计算:
[0064]

初始化博弈单元k的辐射概率矩阵
[0065]

基于博弈单元位置更新辐射概率矩阵τk;若博弈单元k位于v
i,j
处,则v
i,j
处的辐射概率值为1;其余位置v
p,q
处的辐射概率值由衰减函数g(v
i,j
,v
p,q
)给出:
[0066][0067]
其中,α为衰减系数;c(v
i,j
,v
p,q
)表示节点v
i,j
,v
p,q
之间的最短路径长度,通过广度或深度遍历得到,当辐射深度c(v
i,j
,v
p,q
)到达设定阈值或者辐射概率值小于设定阈值时停止辐射;
[0068]
404将博弈单元的辐射概率矩阵叠加,得到红方阵营或蓝方阵营的整体辐射概率矩阵d:
[0069][0070]
其中,n为红方单元或蓝方单元的个数,若n=0,则令其中,n为红方单元或蓝方单元的个数,若n=0,则令最终红方或蓝方的评估得分表示如下:
[0071]
sr=z
·
db[0072]
sb=z
·dr
[0073]
其中,sr为红方阵营的评估得分,sb为蓝方阵营的评估得分,
·
表示矩阵对应元素相乘,dr为红方阵营的整体辐射概率矩阵,db为蓝方阵营的整体辐射概率矩阵。
[0074]
步骤5,基于步骤3得到的蓝方完全信息和步骤4得到的评估体系,针对红方每个团体进行动作空间解耦,建立蒙特卡洛树分开决策。其中,初始时刻红方每个单元定义为1个团体,在每个团体的蒙特卡洛树决策过程中,仅对当前团体进行搜索决策,其他团体静止。具体而言:
[0075]

构建单个团体动作空间,针对红方每个团体确定其下一时刻可行的行动点,同时确定决策时间间隔。
[0076]

基于步骤4的评估体系为蒙特卡洛树节点进行评价,即对动作选择后的局面进行评分和估值,辅助蒙特卡洛树的构建。
[0077]

基于
①‑②
进行选择、扩展、模拟、回溯4步建立蒙特卡洛树的步骤,如果到了规定的搜索时间限制,则选取当前估值最大的节点,否则,继续蒙特卡洛树搜索步骤,深入搜索。
[0078]
步骤6,基于步骤5得到的蒙特卡洛树决策结果进行后处理,检查每个团体的蒙特卡洛树搜索结果产生的最终状态,并判断结果是否会相互影响,对于互相影响的团体则组合成新团体,返回步骤5构建联合动作空间,直至达到设定的时间阈值,输出当前决策结果;对于不存在关联关系的团体,直接输出当前决策结果;具体包括以下步骤:
[0079]
601基于节点相似度定义路径关联度:
[0080][0081]
其中,vi=[v
i,1
,v
i,2
,...,v
i,l
],vj=[v
j,1
,v
j,2
,...,v
j,l
]分别表示红方单元i,j的路径,l为红方蒙特卡洛树输出的下一时刻的行动点中包含的联通节点的节点个数,基于关联度聚类,筛选关联度高于阈值的包含g个红方团体的集合s=[s1,s2,

si,

,sg],其中si为一个红方团体,si包含u个红方单元[i1,

,iu];
[0082]
602基于路径关联度及红蓝双方兵力分布,量化单元决策耦合程度,构造影响判别函数f:
[0083][0084]
其中,d(si)为高密度红方团体si=[i1,

,iu]的路径重复率:
[0085][0086]
以集合si中红方单元的平均重复率度量团体内单元的关联度,其中表示团体si中单元io和单元i
l
的路径,表示红方团体si中各单元的路径,此外,计算si包含的红方人数nr以及红方路径途中包含的敌人数量nb,通过红蓝双方人数的分布,定义战局双方实力悬殊程度:
[0087][0088]
603针对s=[s1,s2,

si,...,sg]中的每个团体si=[i1,

,iu],分别计算判别函
数,判别其中的红方单元是否相互影响,若判别函数f(si)小于等于阈值d
dis
,则团体si=[i1,

,iu]中各单元之间相互影响,将si中的单元组合构造联合动作空间,返回步骤5再次进行计算;若判别函数f(si)大于阈值d
dis
,则单元之间不存在相互影响,将独立计算结果保留,作为该单元的决策结果。
[0089]
步骤7,基于当前决策结果生成决策语义,并执行当前方案。
[0090]
本发明实现面向红蓝对抗问题动作空间解耦的蒙特卡洛树改进方法,针对以语义态势为基础复杂环境下的智能群体博弈决策,研究非完全信息博弈环境下的超大规模信息空间状态搜索求解技术,研究高效的信息空间搜索及估值方法,提升非完全信息的信息理解和抽象能力,最终形成有效的博弈策略求解方法,为智能体的辅助决策提供有效支撑。
[0091]
尽管上面对本发明说明性的具体实施方式进行了描述,以便于本技术领域的技术人员理解本发明,但应清楚,本发明不限于具体实施方式的范围,对本技术领域的普通技术人员来讲,只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内,这些变化时显而易见的,一切利用本发明构思的发明创造均在保护之列。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献