一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

基于奖励自适应分配的合作多智能体强化学习方法与流程

2021-12-12 22:43:00 来源:中国专利 TAG:


1.本发明属于智能体强化学习技术领域,更具体地,涉及一种基于奖励自适应分配的合作多智能体强化学习方法。


背景技术:

2.近年来,随着单智能体深度强化学习技术广泛取得的突破性进展,也推动了多智能体强化学习的发展和研究,在实际情形中,往往存在多个独立自主决策的智能体,因此,多智能体强化学习的研究具有十分重要的应用价值。
3.完全合作式多智能体与环境的交互过程如附图1所示,环境中一共有n个独立自主决策的智能体,过程主要如下:(1)在时刻t,智能体i感知当前的环境状态s
t
,得到自身的局部观测信息(2)智能体根据当前的局部观测信息及当前采取的策略从动作空间a中选择一个动作组成联合动作(3)当多智能体的联合动作作用于环境时,环境转移到新状态s
t 1
,并给出一个全局奖励回报值r
t
;如此循环。
4.其中,奖励回报指的是智能体在与环境的交互中获得的来自环境的评价性质的反馈信号。智能体通过强化学习方法,确定如何在环境中采取一系列行为动作,使长期的累积回报最大化。由于在完全合作式多智能体强化学习中只能获得全局回报,单个智能体无法确定自身动作对整体回报的影响,单个智能体学习的方向不明确,导致算法模型训练效率低下,甚至无法收敛。
5.目前常用的方法是采用值分解方法隐式的解决奖励分配问题,但是这类方法需要联合训练全局值函数、每个智能体的局部值函数以及二者之间的关系参数,存在训练效率低、多智能体之间协作能力不足、无法适应大规模场境的问题。


技术实现要素:

6.针对现有技术的以上缺陷或改进需求,本发明提供了一种基于奖励自适应分配的合作多智能体强化学习方法,根据观测到的环境状态自适应计算单个智能体的子奖励回报权重,并据此计算分配给单个智能体的局部奖励回报,即由子奖励回报值与子奖励回报的权重相乘得到的加权和,根据环境的变化能够自适应将全局奖励分配给单个智能体,使得智能体能够据此选择对全局有利的动作,从而提高算法模型的训练效率及最终的性能。
7.为实现上述目的,本发明提供了一种基于奖励自适应分配的合作多智能体强化学习方法,包括如下步骤:
8.(1)根据先验知识将全局回报划分为m类子奖励回报,并设置对应的子奖励回报函数;
9.(2)初始化模型参数;
10.(3)对每一个智能体i,每隔k个时间步长,根据智能体i观察到的环境状态o
i
,计算智能体i的子奖励回报权重向量智能体i的子奖励回报权重向量π(o
i
|θ)是智能体
的子奖励回报权重生成策略函数,θ是其参数;
11.(4)对每一个智能体i,在每个时间步长,根据智能体i观察到的环境状态o
i
,根据智能体的局部状态

动作值函数计算状态

动作值,按照贪心策略选取智能体该时刻t将执行的动作该时刻t将执行的动作是其参数;
12.(5)将所有智能体产生的动作联合动作输入到环境中执行,得到所有智能体的全局奖励r,根据子奖励回报函数得到每个智能体的子奖励回报值为以及对新的环境状态的观察为o

=(o
′1,
……
,o

n
);
13.(6)对每一个智能体i,每个时间步长,根据步骤(5)中得到的子奖励回报值及步骤(3)中得到的子奖励回报权重向量计算每个智能体i的局部奖励值
14.(7)每个时间步长,更新每个智能体的局部状态

动作值函数的参数,其中o
i
为智能体i观察的环境状态,为选择的动作,l是损失函数,
[0015][0016]
其中,λ是学习率,γ∈(0,1]是折扣因子,o
i 1
是智能体对下一时刻的环境状态的观察;
[0017]
(8)每隔k个时间步长,更新子奖励回报权重评价器q
tot
(o,w|θ
h
)的参数θ
h
,其中o=(o1,
……
,o
n
)是所有智能体的联合观察状态,是所有智能体的联合子奖励回报权重向量,l
h
是损失函数,l
h
对参数θ
h
连续可导,
[0018][0019]
λ是学习率,γ∈(0,1]是折扣因子,r
k
=∑
k
r为前k个时间步长的累积回报,o

=(o
′1,
……
,o

n
)是所有智能体对新的环境状态的观察;
[0020]
(9)每隔k个时间步长,更新子奖励回报权重生成策略函数w(o
i
|θ)的参数θ,其中λ是子奖励回报权重生成策略函数的学习率;
[0021]
(10)学习过程收敛或者达到最大迭代次数,则结束,否则返回步骤(3)。
[0022]
本发明的一个实施例中,所述多智能体是完全合作关系,即具有一个共同的目标。
[0023]
本发明的一个实施例中,所述步骤(4)中计算智能体该时刻将执行的动作使用基于值函数的方法。
[0024]
本发明的一个实施例中,所述步骤(2)中,初始化的模型参数包括:子奖励回报权重生成策略函数π(o
i
|θ)的参数θ,智能体的局部状态

动作值函数的参数子奖励回报权重评价器q
tot
(o,w|θ
h
)的参数θ
h

[0025]
本发明的一个实施例中,所述步骤(6)中,根据步骤(5)中得到的子奖励回报值及步骤(3)中得到的子奖励回报权重向量计算每个智能体i的局部奖励值为:
[0026]
本发明的一个实施例中,间隔步长数5≤k≤20。
[0027]
本发明的一个实施例中,子奖励回报权重生成策略函数π(o
i
|θ)、智能体的局部状态

动作值函数子奖励回报权重评价器q
tot
(o,w|θ
h
)均为循环神经网络。
[0028]
本发明的一个实施例中,所述智能体的可执行的动作为离散的动作,且数量≤5。
[0029]
本发明的一个实施例中,所述步骤(1)中子奖励回报的种类数量为4≤m≤10。
[0030]
本发明的一个实施例中,所述智能体的数量不大于10。
[0031]
总体而言,通过本发明所构思的以上技术方案与现有技术相比,具有如下有益效果:
[0032]
(1)显式的对全局奖励回报进行分配得到单个智能体的局部奖励回报,能够引导单个智能体根据环境的变化做出有利于全局任务的行动,提高了多智能体的协作能力;
[0033]
(2)通过显式的奖励分配使得单个智能体的学习具有目的性,能够提升模型算法的训练效率和最终的性能。
附图说明
[0034]
图1是完全合作式多智能体强化学习中交互过程示意图;
[0035]
图2是本发明提供的基于奖励自适应分配的合作多智能体强化学习方法的流程示意图。
具体实施方式
[0036]
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。此外,下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。
[0037]
如图2所示,本发明提供了一种基于奖励自适应分配的合作多智能体强化学习方法,包括如下步骤:
[0038]
(1)根据先验知识将全局回报划分为m类子奖励回报,并设置对应的子奖励回报函数;
[0039]
例如,子奖励回报的种类数量为4≤m≤10;
[0040]
(2)初始化模型参数;
[0041]
具体地,初始化的模型参数包括:子奖励回报权重生成策略函数π(o
i
|θ)的参数θ,智能体的局部状态

动作值函数的参数子奖励回报权重评价器q
tot
(o,w|θ
h
)的参数θ
h

[0042]
(3)对每一个智能体i,每隔k个时间步长,根据智能体i观察到的环境状态o
i
,计算
智能体i的子奖励回报权重向量智能体i的子奖励回报权重向量π(o
i
|θ)是智能体的子奖励回报权重生成策略函数,θ是其参数;
[0043]
其中,所述多智能体是完全合作关系,即具有一个共同的目标;
[0044]
一般地,所述智能体的数量不大于10;
[0045]
(4)对每一个智能体i,在每个时间步长,根据智能体i观察到的环境状态o
i
,根据智能体的局部状态

动作值函数计算状态

动作值,按照贪心策略选取智能体该时刻t将执行的动作该时刻t将执行的动作是其参数;
[0046]
其中,计算智能体该时刻将执行的动作一般使用基于值函数的方法;
[0047]
(5)将所有智能体产生的动作联合动作输入到环境中执行,得到所有智能体的全局奖励为r,根据子奖励回报函数得到每个智能体的子奖励回报值为以及对新的环境状态的观察为o

=(o
′1,
……
,o

n
);
[0048]
(6)对每一个智能体i,每个时间步长,根据步骤(5)中得到的子奖励回报值及步骤(3)中得到的子奖励回报权重向量计算每个智能体i的局部奖励值
[0049]
其中,根据步骤(5)中得到的子奖励回报值及步骤(3)中得到的子奖励回报权重向量计算每个智能体i的局部奖励值为:
[0050]
(7)每个时间步长,更新每个智能体的局部状态

动作值函数的参数,其中o
i
为智能体i观察的环境状态,为选择的动作,l是损失函数,
[0051][0052]
其中,λ是学习率,γ∈(0,1]是折扣因子,o
i 1
是智能体对下一时刻的环境状态的观察;
[0053]
(8)每隔k个时间步长,更新子奖励回报权重评价器q
tot
(o,w|θ
h
)的参数θ
h
,其中o=(o1,
……
,o
n
)是所有智能体的联合观察状态,是所有智能体的联合子奖励回报权重向量,l
h
是损失函数,l
h
对参数θ
h
连续可导,
[0054][0055]
λ是学习率,γ∈(0,1]是折扣因子,r
k
=∑
k
r为前k个时间步长的全局累积回报,o

=(o
′1,
……
,o

n
)是所有智能体对新的环境状态的观察;
[0056]
(9)每隔k个时间步长,更新子奖励回报权重生成策略函数π(o
i
|θ)的参数θ,
其中λ是子奖励回报权重生成策略函数的学习率;
[0057]
(10)学习过程收敛或者达到最大迭代次数,则结束,否则返回步骤(3)。
[0058]
进一步地,本发明实施例中,间隔步长数5≤k≤20;
[0059]
进一步地,子奖励回报权重生成策略函数π(o
i
|θ)、智能体的局部状态

动作值函数子奖励回报权重评价器q
tot
(o,w|θ
h
)均为循环神经网络;
[0060]
进一步地,所述智能体的可执行的动作为离散的动作,且数量≤5。
[0061]
本领域的技术人员容易理解,以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献