一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种合作环境下可扩展的多智能体强化学习方法

2022-11-28 10:11:44 来源:中国专利 TAG:


1.本发明涉及强化学习技术领域,尤其是一种合作环境下的可扩展的多智能体强化学习方法。


背景技术:

2.强化学习已经被成功应用于解决游戏、系统控制等不同领域内的挑战性问题,尤其在单个智能体情形下,强化学习展现出了其解决复杂问题的有效性和灵活性。然而,在某些具体问题中,多个智能体之间的交互也显得尤为重要,例如在多玩家游戏、多机器人控制以及多基站系统中的负载平衡等问题中,都面临着多个智能体之间的合作或竞争。因此,将强化学习推广到多智能体情形已成为当下一个十分热门的研究兴趣,在多智能体强化学习过程中,建模并预测当前环境中其他智能体的行为是最为关键的一环。
3.传统的强化学习方法不能直接有效地应用于多智能体情形中,其中一个问题是由于每个智能体的策略都将持续发生变化,这样对于单个智能体而言环境就会变得不再稳定,这导致了鲁棒性挑战并且限制了经验回放的直接使用;另一个问题是由于每个智能体对其他智能体的观察是部分的且不精确的,这导致了其不能够获得环境中的所有信息。因此,对于每个智能体而言,如何基于局部的信息来估计其他智能体的策略并更新自身的策略成为了一个关键性的问题。此外,可扩展性问题也是多智能体情形中一个亟待解决的问题,在许多应用场景下,由于新的智能体需要加入或者老的智能体需要移除等因素,智能体的数量是动态变化的,这就要求当智能体数量发生变化时,需要重新训练模型。但是重新训练模型是非常消耗时间和计算资源的,在某些情况下,这种重新训练的时间是不能接受的,例如在航空摄影系统中,当引入新的无人机时,对先前的无人机进行重新训练是非常危险的。
4.现有技术的强化学习方法不能直接有效地应用于多智能体情形中,无法解决每个智能体的策略持续发生变化,容易造成单个智能体环境不够稳定的问题,以及每个智能体对其他智能体的观察不精确而导致的不能够获得环境中所有信息。


技术实现要素:

5.本发明的目的是针对现有技术的不足而提供的一种合作环境下可扩展的多智能体强化学习方法,采用搭建基于集中训练和分散执行的可扩展框架,允许智能体在训练策略时使用额外的来自其他智能体的信息,允许每个智能体拥有自己的奖励函数和策略,且每个智能体在执行时仅使用自身的信息(智能体的部分观察)来执行策略,并使用双向长短期记忆网络来应对训练阶段的可扩展性问题,该合作环境下的可扩展的多智能体强化学习方法,较好的解决了每个智能体的策略持续发生变化,容易造成单个智能体环境不够稳定,以及每个智能体对其他智能体的观察不精确导致不能够获得环境中所有信息的问题,从而使得传统的强化学习方法不能直接有效地应用于多智能体的情形,方法简便,使用效果好,优势,具有广泛的应用前景。
6.实现本发明目的具体技术方案是:一种合作环境下可扩展的多智能体强化学习方法,其特点是具体包括以下步骤:
7.s1、采用集中训练和分散执行的可扩展框架,在本框架中,允许智能体在训练策略时使用额外的来自其他智能体的信息,但每个智能体仅可以使用自身的信息来执行策略。
8.s2、不同于传统的单个智能体环境,在多智能体环境下,每个智能体都拥有自己的观察它表示智能体i在时间t的状态每个智能体都维护着一个独立的策略其中每个策略都通过θi参数化,根据智能体的策略和当前状态,每个智能体执行自身的动作接着在执行动作后,智能体i将得到一个奖励并观察到新状态
9.s3、对于上述环境,其状态包含所有智能体的状态{s1,s2,

,sn},动作包含所有智能体的动作{a1,a2,

,an},当同时考虑所有的智能体时,环境仍保持着马尔可夫性,记作下述(a)式表示的马尔可夫迁移概率:
10.p(s
t 1
,r
t
|s
t
,a
t
)
ꢀꢀ
(a)。
11.其中,此外每个智能体设计了一个单独的奖励ri,而不是一个相同的全局奖励,以激励它们学习独特的策略。
12.s4、基于以上设定,在强化学习的一般设定下定义q价值函数和状态价值函数,对于智能体i,状态价值vi(s)定义为状态s下的预计折扣累计奖励ri由下述(b)式定义为:
[0013][0014]
其中,γ是奖励的折扣因子,q价值函数定义为下述(c)式:
[0015][0016]
由于本发明采取确定性策略,故q价值函数等于状态价值函数,即为下述(d)式:
[0017][0018]
其中,μ(s)=[μ1(s1),μ2(s2),

,μn(sn)],为每个智能体根据自身状态和策略采取的动作集合。
[0019]
s5、尝试最大化合作场景中的所有智能体的平均状态价值,也就是说由下述(e)式表示的试图最大化:
[0020][0021]
s6、执行者/评论者算法通过迭代更新执行者网络和评论者网络来学习每个智能体的最优策略和最优q价值函数,其中执行者网络指代策略函数,评论者网络指代q价值函数,在时间t,对于智能体i,最小化损失函数由下述(f)式表示为:
[0022][0023]
其中,是智能体i在时间t、状态s情形下执行动作a的预估奖励,且由下述(g)式表示为:
[0024][0025]
其中,是目标q价值函数,其参数使用最近的q函数的参数来定期更新。
[0026]
所述步骤s6中为了优化策略参数,使用策略梯度(policy gradient)算法,目标函数定义为所有智能体的平均q价值函数,具有策略参数θk的智能体k的梯度由下述(h)式表示为:
[0027][0028]
其中,s

是状态s下采用策略μ之后的状态,ρ(s

)是s

的折扣概率,同时保留了一个回放缓冲,其包含经验元组(s
t
,a
t
,r
t
,s
t 1
),在每个训练阶段,随机采样一批经验,并将它们用于执行者/评论者算法。
[0029]
所述步骤s6中每个智能体的价值函数的输入是所有智能体状态和动作,当有新的智能体被添加到环境时,价值函数的输入维度将增长,同时还需要为新加入的智能体添加新的价值函数。
[0030]
本发明与现有技术相比具有以下有益技术效果和显著的技术进步:
[0031]
1)允许每个智能体拥有自己的奖励函数和策略;
[0032]
2)每个智能体在执行时仅使用局部的信息(即智能体的部分观察);
[0033]
3)使用了双向长短期记忆网络来应对训练阶段的可扩展性问题。
附图说明
[0034]
图1为本发明集中训练和分散执行的可扩展学习框架图;
[0035]
图2为本发明q价值函数的lstm结构图;
[0036]
图3为实施例1在三个捕食者共同捕捉猎物情形下的平均q价值结果图;
[0037]
图4为实施例1捕获猎物比率的结果图;
[0038]
图5为实施例1捕获猎物步数的结果图;
[0039]
图6为实施例1在中途加入新的智能体前后的平均q价值结果图。
具体实施方式
[0040]
参阅图1,本发明按下述步骤进行合作环境下可扩展的多智能体强化学习:
[0041]
s1、采用集中训练和分散执行的可扩展框架,在本框架中,允许智能体在训练策略时使用额外的来自其他智能体的信息,但每个智能体仅可以使用自身的信息来执行策略。
[0042]
s2、不同于传统的单个智能体环境,在多智能体环境下,每个智能体都拥有自己的观察它表示智能体i在时间t的状态每个智能体都维护着一个独立的策略其中每个策略都通过θi参数化,根据智能体的策略和当前状态,每个智能体执行自身的动作接着在执行动作后,智能体i将得到一个奖励并观察到新状态
[0043]
s3、对于上述环境,其状态包含所有智能体的状态{s1,s2,

,sn},动作包含所有智能体的动作{a1,a2,

,an},当同时考虑所有的智能体时,环境仍保持着马尔可夫性,记作下
述(a)式表示的马尔可夫迁移概率:
[0044]
p(s
t 1
,r
t
|s
t
,a
t
)
ꢀꢀ
(a)。
[0045]
其中,
[0046]
此外,每个智能体设计了一个单独的奖励ri,而不是一个相同的全局奖励,以激励它们学习独特的策略。
[0047]
s4、基于以上设定,在强化学习的一般设定下定义q价值函数和状态价值函数,对于智能体i,状态价值vi(s)定义为状态s下的预计折扣累计奖励ri由下述(b)式定义为:
[0048][0049]
其中,γ是奖励的折扣因子,q价值函数定义为下述(c)式:
[0050][0051]
由于本发明采取确定性策略,故q价值函数等于状态价值函数,即为下述(d)式:
[0052][0053]
其中,μ(s)=[μ1(s1),μ2(s2),

,μn(sn)],为状态s下各智能体的策略采取的动作。
[0054]
s5、尝试最大化合作场景中的所有智能体的平均状态价值,也就是说试图最大化,且由下述(e)式表示为:
[0055][0056]
s6、执行者/评论者算法通过迭代更新执行者网络和评论者网络来学习每个智能体的最优策略和最优q价值函数,其中执行者网络指代策略函数,评论者网络指代q价值函数,在时间t,对于智能体i,最小化如下述(f)式表示的损失函数:
[0057][0058]
其中,是智能体i在时间t、状态s情形下执行动作a的预估奖励由下述(g)式表示为:
[0059][0060]
其中,是目标q价值函数,其参数使用最近的q函数的参数来定期更新。
[0061]
所述步骤s6中为了优化策略参数,使用策略梯度(policy gradient)算法,目标函数定义为所有智能体的平均q价值函数,具有策略参数θk的智能体k的梯度记成由下述(h)式的表示:
[0062][0063]
其中,s

是状态s下采用策略μ之后的状态,ρ(s

)是s

的折扣概率,同时保留了一个回放缓冲,其包含经验元组(s
t
,a
t
,r
t
,s
t 1
),在每个训练阶段,随机采样一批经验,并将它们用于执行者/评论者算法。
[0064]
所述步骤s6中每个智能体的价值函数的输入是所有智能体状态和动作,当有新的智能体被添加到环境时,价值函数的输入维度将增长,同时还需要为新加入的智能体添加
新的价值函数,如何解决这个可扩展性问题是至关重要的。对此,本发明应用了双向长短期记忆网络,双向长短期记忆网络具有动态输入和动态输出的优势特性。
[0065]
参阅图2,该图展示了每个智能体的q价值函数的结构,每个双向长短期记忆网络单元都具有相同的结构和参数,第i个双向长短期记忆网络单元的输入是第i个智能体的状态和动作,其对应的输出是第i个智能体的q价值,拥有了以上结构以后,本发明就可以灵活地向环境中添加新的智能体。
[0066]
下面以猎物/捕食者游戏的合作环境为例本发明作进一步的描述。显然,所描述的实施例仅仅是本发明最佳的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
[0067]
实施例1
[0068]
在一个叫做猎物/捕食者游戏的合作环境中对本发明提出的多智能体强化学习方法进行实验,在该游戏中,若干个缓慢移动的捕食者在一块限定的区域内合作去追捕一个快速移动的猎物,一旦捕食者追捕到了猎物,它们都会得到奖励,如果它们跑出了该限定区域,那么它们都将受到惩罚,新的捕食者将会在游戏进行时被添加到环境中。
[0069]
实验场景构建为一个形状为2
×
2正方形的有限空间,捕食者和猎物将在模拟空间中的随机位置进行初始化,还有一些地标随机分布在空间中,以阻挡捕食者和猎物的移动,一旦捕食者捕捉到猎物或捕食者跑出该空间,则游戏结束,实验将被重置。
[0070]
由于本发明主要针对在合作场景中的强化学习,故猎物可视作环境的一部分,猎物的移动速度快,且执行固定的策略,其有∈的概率沿随机方向移动,也有1-∈的概率沿逆着捕食者的方向移动,当猎物要离开有限空间时,实验场景将击退猎物。
[0071]
在该实验场景中,智能体是捕食者,它们的速度较慢,但可以相互配合以捕捉猎物,将每个智能体的状态定义为其对环境的部分观察,记作si,基于状态信息si,每个智能体都拥有其自身的策略μi,在实验的每一步中,智能体i根据策略μi(ai|si),执行动作ai,获得对应的奖励ri。
[0072]
状态si:每个智能体的部分观察包括其自身位置pi=(xi,yi),猎物的位置p
p
(x
p
,y
p
),智能体i与猎物之间移动方向的夹角θi,以及一些其他智能体的位置{pm,

pn}。故si={pi,p
p
,θi,pm,

pn}。
[0073]
动作ai:每个智能体的动作是该智能体应该移动的方向,它是在[-π,π]之间的一个角度。
[0074]
奖励ri:在本发明的框架中,每个智能体都拥有它们自身的奖励函数,ri定义如下述(i)式:(将公式的英文改用中文标注)
[0075][0076]
其中,每个智能体的individual bonus(i)可以各不相同。
[0077]
参阅图3,在三个捕食者共同捕捉猎物的情形下,本发明算法的平均q价值先不断
增加,随后收敛,当回放该算法学到的策略时,可以看出捕食者会根据奖励设计以不同的动作来捕捉猎物。
[0078]
参阅图4,为了检查本发明捕获猎物的比率,将每100轮中成功捕获的数量相加,然后计算比率,该比率随着算法的运行不断增加,并且其最终将近似收敛到1。此外,还统计了本发明每次捕获猎物的步数。
[0079]
参阅图5,可以看出本发明捕获猎物所花费的步数随着游戏轮数的增加而减少,这说明捕食者学会越来越快地捕获猎物。
[0080]
为了测试算法的可扩展性,设置了如下实验:
[0081]
1)在开始时三个捕食者加入游戏追逐猎物;
[0082]
2)然后在30000个回合后又有三个捕食者加入游戏,将本发明算法的结果与完全重新训练网络的结果进行比较。
[0083]
参阅图6,在三个新捕食者加入游戏的30000个回合后,本发明算法的q价值增加。此外,与完全重新训练网络相比,本发明算法的收敛速度更快并且具有更高的q价值,由于本实验的奖励设计为捕食者和智能体之间距离的负值,故q价值越大说明算法的性能越好,从实验结果可以看出,本发明算法具有较好的可扩展性。
[0084]
以上只是对本发明作进一步的说明,并非用以限制本专利,凡为本发明等效实施,均应包含于本专利的权利要求范围之内。
再多了解一些

本文用于创业者技术爱好者查询,仅供学习研究,如用于商业用途,请联系技术所有人。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献