一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种提升多智能体复杂博弈系统整体效益的空策略方法

2023-02-04 17:08:27 来源:中国专利 TAG:


1.本发明属于多智能体博弈和强化学习领域,具体涉及一种基于强化学习方法的博弈论动力学背景下多智能体相互作用的资源竞争优化博弈系统。


背景技术:

2.在真实复杂系统中,多资源的优化配置是一个热点问题。这里所说的资源是一种广义的概念,比如多智能体间用于通讯的信道资源、交通系统中的路径资源、金融系统中的股票买卖、生态系统中资源的开发利用等。随着信息技术的巨大发展使人工智能(ai)进入人类社会的方方面面。人工智能的基本特征之一是决策,在日益复杂的环境中个人、组织以及政府机构往往越来越依赖于人工智能算法,根据大量可用信息更加准确的做出多种决策。在真实自然系统中,资源配置系统无处不在,是现代经济社会的基础支撑,是由大量相互作用的要素组成的复杂系统。具体来说如常见的资源配置系统有:不同规模的生态系统,各种交通系统(如互联网、城市交通系统、铁路和航班网络),公共服务提供商(如超市、医院和学校),以及社会和经济组织(如银行和金融市场)。在一个资源分配系统中,大量的代理人为了最大化收益而竞争有限的公共资源。而这之间的相互作用会导致极其复杂的动态行为,对整个系统产生负面的影响。在这种多体资源配置系统里首先受关注的一个代表性问题就是羊群效应的抑制问题,最大化系统收益,因为非理性放牧会导致某些资源过度拥挤,而另一些资源闲置。它有可能在相对较短的时间内导致整个系统的灾难性崩溃。另外一个基本问题是以强化学习为基础的多智能体复杂系统集体行为涌现个性化参数设置及其演化规律。因此,如何构建多智能体复杂系统的动力学模型,使得该系统具备羊群效应可控、能够进行自组织优化的能力是多智能体领域研究人员急需解决的核心问题之一。


技术实现要素:

3.为解决现有模型构建技术中,多智能体复杂系统中资源优化配置中的羊群效应问题及其集体行为涌现的个性化参数设计,本发明提供了一种含有空策略的强化学习多智能体复杂博弈系统动力学建模方法,以有效解决上述问题。
4.本发明采用的技术方案是这样实现的:
5.一种提升多智能体复杂博弈系统整体效益的空策略方法,包括:多智能体博弈包含n个多智能体竞争m种有限资源,建立多智能体个体的状态、动作和奖励的关系,每个智能体个体都配置有名为q-learning的强化学习算法,通过多次与环境的交互以达到最优策略;
6.(1)建立模型,搭建强化学习算法与多智能体集群初始设计的模型:基于多体演化博弈动力学的微观相互作用机制,充分融合了人工智能领域中经典强化学习算法q-learning,通过引入空策略的方式优化资源竞争模型;
7.(2)数据采集,将所采集的数据运用统计学方法进行处理,整理归类:对每个个体的选择策略进行赋值,采集所有个体的选择,统计在每个时间点上不同个体的决策占比;
8.(3)模型数据分析,将所采集的数据运用多种统计分析的方式进行处理与印证:统计分析系统资源负载的相对涨落,即m种资源里选择每种资源的个体占比与该资源容量的平方和。另外,特别统计空策略个体占比与0的平方和。计算收益时,则根据原先制定的规则计算选择每种资源的个体是否获得系统资源优势,由此计算总收益。
9.通过将建立好的模型在计算机上动态展示,将模型按照实际操作要求,进行演示,通过绘制收益随时间变化的曲线来反映系统的可靠性,通过绘制方差图像曲线来展现系统稳定性。
10.对一些关键部位的数据,在模型建立的要求范围内,进行修改,并增加该处数值;在强化学习允许的范围内对强化学习因子α,γ和ε做适当改变,找到更优化的因子组合。
11.对改变数据后的模型,再一次在计算机上绘图演示,二次演示的过程中,程序与时间间隔维持不变,取多组值进行绘制图像,发现最终可反映预期的功能,也证明了系统的稳定性。
12.根据首次演示和二次演示得到的结果和模型建立所需要的成本及时间,进行比对,最终作出相应的评估,评估依据绘图曲线进行。
13.所述(1)中,建立多智能体个体的状态、选择和奖励的关系,其方法为:通过q矩阵函数表示个体此时的状态、状态下的选择以及奖励,其矩阵更新方法为按照下式所述的方法计算:
[0014][0015]
α强化学习学习率
[0016]
γ强化学习深度
[0017]
:t-1时刻q矩阵最大期望值
[0018]
qt-1(s,a):t-1时刻q矩阵的值
[0019]
rt(a):t时刻动作a的奖励值
[0020]
q(s,a):t时刻q矩阵的值。
[0021]
通过多次与环境的交互以达到最优策略,其方法为:随着探索环境的时间增长,q函数的适应性会增强,表演也会随着奖励动作的反馈而变好。
[0022]
所述(2)中的数据采集,将模型上的数据分别收集,并做相应数据统计处理,计算其收益,方差或概率。
[0023]
所述s1中的建立模型,根据设计要求及基本的设计程序,建立虚拟的模型。
[0024]
本发明在对多智能体竞争进行干预的过程中,模型通过收集前期竞争博弈的结果,形成q-矩阵,根据此矩阵的强化学习来指导其下一次选择。选择与介入由概率的方式呈现,在多智能体集群中显示出最终的竞争结果。而由于空矩阵(q_empty)的存在,令智能体可以选择退出竞争博弈,从而实现总体竞争奖励的最大化。且空矩阵的加入亦令模型更好地贴合研究实际问题时的场景模拟。
[0025]
与上述没有引入空策略的单纯竞争模型,以及学者challet和张翼诚的关于ei farol酒馆模型的算法相比,本发明模型存在以下优点:
[0026]
1.模型可以达到较好的正向收益。右下图结果可知,2*2算法往往得到负收益结
果,而我们的模型则可以得到稳定的正向收益;
[0027]
2.模型可以达到较稳定的正向收益。张翼诚和d.challet的mg模型中个体行动仅仅依赖最新的长度为m的记忆,在系统配置效率最高的前提下,可以看到收益分布正向较少,负向较多,且收益不稳定,我们的模型则具有稳定正向收益的优点。
附图说明
[0028]
图1是特定参数下系统选择占比方差图;
[0029]
图2是改变系统个体数尺寸时系统收益的方差图;
[0030]
图3是引入空策略时的系统的收益图;
[0031]
图4是是否参与竞争的个体占比随时间序列递增的变化图;
[0032]
图5是重新采集数据时特定参数下系统收益的方差图;
[0033]
图6是未引入空策略时的系统的收益图;
[0034]
图7是一种传统的强化学习模型所带来的收益图。
具体实施方式
[0035]
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围
[0036]
下面参照附图来描述本发明的优选实施方式。本领域技术人员应当理解的是,这些实施方式仅仅用于解释本发明的技术原理,并非旨在限制本发明的保护范围。
[0037]
参照图1所示,强化学习参数α=0.9时,系统收益的方差随强化学习参数γ与ε变化的图像,说明系统在达到最佳稳定时的参数取值与系统参数演化的规律。
[0038]
参照图2所示,当强化学习参数α=0.9,γ=0.3时,系统收益的方差随系统个体容量及强化学习参数ε变化时的图像,说明系统在内含个体数发生变化时,其收益方差基本维持不变,证明系统的稳定性。
[0039]
参照图3所示,当强化学习参数α=0.9,γ=0.3时,10000个个体,系统总体收益随时间序列增加的变化,可见在此时系统基本维持稳定,且得到了正向的收益,且获得收益的个体数接近于总个体数。
[0040]
参照图4所示,当强化学习参数α=0.9,γ=0.3时,当选择不同ε,且系统在存在两个竞争策略与一个空策略时,选择某种竞争资源与选择退出竞争(空策略)的个体占比。靠上方,接近0.5的是选择竞争的资源占比,靠下方的曲线是选择退出竞争的资源占比。说明当ε发生变化时,系统选择某一“竞争”与选择“弃权”的个体数量占系统总个体数的比率。可以发现在ε《0.12时系统稳定性都为较低,ε》0.12时稳定性较高,但是总体收益较低。ε《0.12时稳定性低,即系统内部出现大大小小的个体决策涨落,且有的涨落幅度较大。但是该智能系统具有强大的自我修复功能,经过振荡之后的系统将会重新进行自组织优化,完成自我更新。ε》0.12稳定性高但是收益低,这是由于强化学习矩阵的介入过少导致更多的个体盲目选择退出竞争而导致的。当ε=1时,即为强化学习不介入,此时选择每种资源的个体均为随机等概率选择。
[0041]
参照图5所示,二次采集数据,维持强化学习参数γ=0.3不变,系统收益的方差随强化学习参数α与ε变化的图像,说明系统达到最佳稳定时刻的参数取值与系统参数演化规律。
[0042]
参照图6所示,该图是未引入空策略时系统的收益,由于竞争的恶化,系统收益一直为负值。但是在竞争规则维持不变,额外加入空策略之后改善了竞争,使得总体收益恢复为正值,而图3呈现了改善后的收益结果。
[0043]
参照图7所示,传统mg模型中个体行动在表现最好的长度为m的记忆长度时,即系统配置效率最高的前提下,可以看到收益分布正向较少,负向较多,且总收益降低,但本发明采用强化学习指导资源分配的模型,则具有稳定正向收益的优点。
[0044]
(1)对系统进行初始化,包括个体的q表和其选择状态
[0045]
(2)每个个体进行选择资源的操作
[0046]
(3)根据选择概率判断是否参与q决策
[0047]
(4)若参与q决策:不探索,完全根据决策函数进行操作(包括空策略)
[0048]
(5)若不参与q决策:随机进行任意动作(包括空策略)
[0049]
(6)计算该决策下个体是否获得收益
[0050]
(7)根据收益(reward),上次的动作(s)和本次的动作(a)更新q表
[0051]
(8)返回第二步,在一定周期内,共进行若干个时间序列的操作
[0052]
本发明作用于:资源分配问题与资源共享问题下:通过关注复杂资源分配系统来解决复杂系统广义资源优化配置问题,该系统将人工智能纳入个体级别的决策,证明了人工智能对复杂系统达到其最优状态非常有利。本发明提供了一种多智能体博弈系统,基于博弈论动力学背景下多智能体相互作用,结合人工智能领域中的强化学习q-learning算法,在复杂的资源配置系统中实现无外部干预条件下的对于羊群效应的消除作用,进而有效提升系统整体利益。
[0053]
一种提升多智能体复杂博弈系统整体效益的空策略方法
[0054]
(1)根据系统资源规模建立强化学习模型;
[0055]
多智能体复杂博弈模型与由强化学习q-learning方法可以描述如下。资源规模给定的情况下,可以采取这样的方法,更具有普适性,与传统的资源优化配置模型相融合
[0056]
设资源数为m,记忆矩阵元素根据如下bellman方程更新
[0057][0058]
α强化学习学习率
[0059]
γ强化学习深度
[0060]
:t-1时刻q矩阵最大期望值
[0061]qt-1
(s,α):t-1时刻q矩阵的值
[0062]rt
(a):t时刻动作a的奖励值
[0063]
q(s,a):t时刻q矩阵的值
[0064]
对于给定的参数α和γ设置,执行q-学习算法,更新q矩阵。又因为所有资源的容量是有限的,存在每个资源可以容纳的最大个体数。为简单起见,设置了最大资源容纳量的个
体占比1/m。如果个体选择的资源没有超过容量,属于少数群体,则在本轮时间段中获胜并得到奖励。相反,如果超过资源容量,则相应的个体在这一轮中失败而呗惩罚。q-learning适应机制被纳入模型中,通过q函数的参数化,q函数用来表征特定动作的相对效用。q函数在代理与环境的交互过程中被更新。导致更高奖励的行为是强化学习模型的运行原理。
[0065]
引入空策略;
[0066]
在传统的m*m模型中,得到最终竞争结果的和都是负数,即这样的竞争模型只会恶化资源分配的效率。因此,引入一种“空策略”或者“弃权”策略(q_empty):个体在进行资源竞争的时候可以自愿灵活的退出竞争,此时收益为零,(引入之后,发现获胜个体数增加,且系统最终趋于稳定状态,由此改进资源配置情形,且改善其资源分配环境)。引入该策略是基于真实社会经济系统的一个现象观察,即个体不会在所有情况下都参与竞争,个体可以灵活的选择退出该轮博弈,所以如何在不改变系统动力学的情况下增加空选项,该选项收益为零,即个体退出机制。
[0067]
构建智能体记忆矩阵且设置资源配置的奖励规则;
[0068]
智能体记忆矩阵——q矩阵,其维度为(m 1)*(m 1),记录了从竞争开始时的奖励期望值,更新q值的操作也通过其完成,资源配置的奖励规则为:设置了最大资源容纳量为n/m或归一化占比为1/m。如果个体选择的资源没有超过资源自身的容量,属于少数群体,则这些个体在本轮时间段中获胜。相反,如果资源过于拥挤,则说明相应的个体在这一轮中失败。设置获胜个体奖励1个单位奖励,失败则扣除1个单位奖励作为惩罚。而选择空策略(q_empty)则不奖励,也不惩罚,即获得奖励为0。而对于系统来说,研究的一个关键问题是:在资源容纳量固定约束的情况下,多智能体产生的协作行为是否会指向高效,或最优的资源分配。
[0069]
智能体记忆矩阵的bellman更新;
[0070]
将以具体示例说明q记忆矩阵的更新方式,设系统中由n个体组成,且m=2,
[0071]
则记忆矩阵维度为(m 1)*(m 1)=3*3,共9个元素需要更新,系统中每个智能体在任意时刻,状态以1-ε的概率依据q矩阵决策并更新,其q矩阵中的某一个元素进行更新,其中ε为强化学习固有探索率。下面将分两种更新方式进行介绍:
[0072]
在没有引入空策略时,q矩阵为2*2,其q值更新方程分别为:
[0073][0074][0075][0076][0077]
而在加入空策略之后,更新q值方程分别为:
[0078][0079][0080][0081]
[0082][0083][0084][0085][0086][0087]
其中q(s,a)中,s:state,即当前时刻状态;a:action,即当前的选择,亦是下一时刻的状态。(s
x
,ay)为当系统存在两种资源时,处于状态x且选择动作y的资源的q矩阵值。α为学习率;γ为学习深度。
[0088]
(2)多智能体博弈系统模型数据采集;
[0089]
在该多智能体博弈系统中需要采集数据为任意时刻每个个体决策动作、获取的奖励以及整个q矩阵元素数值。
[0090]
同时为了清楚的理解该系统的动力学机制,还需要采集智能体的信念模式占比和模式转移矩阵时序数据,特别是需要采集空策略占比演化数据。
[0091]
通过智能体所采取的动作表示此时的状态、该状态下的动作以及奖励,其方法为按照如(4)所述的方法计算当强化学习参数α=0.9时,收益与方差的关系如图1所示。
[0092]
(3)系统模型数据分析;
[0093]
采用收益的方差与收益的绝对值来反映系统的稳定性:
[0094]
在系统的方差与学习率(强化学习体系的参与概率)ε增加的情况下,我们发现其在方差临界点之后,系统收益的方差稳定上升,说明在ε=0.12的时候有最大的收益。
[0095]
如图2所示,在改善系统稳定性考虑下,我们选择ε=0.05为最大收益的实现点。在此处绘制出其系统总收益随时间序列增加的时序图,如图3
[0096]
如图3所示,对于整个模型的收益,可以由此图得出,在引入了空策略之后,整个系统的收益一直维持在较高水平,而这也是之前的模型所无法达到的。
[0097]
(4)模型功能演示;
[0098]
时间序列为模型功能演示的直观体现:
[0099]
取两个资源,设置模型功能为:研究多智能体的个体在临界值上下的运动:我们发现,当强化学习参与度在临界点左右时,系统达到最高收益。而参与过度导致系统一直趋于振荡,而参与率过低也会导致其学习效率偏低,系统趋于原始的各占1/3的比率。
[0100]
如图4所示,
[0101]
(5)智能体学习参数设置;
[0102]
参数α∈(0,1]是学习速率,参数γ∈[0,1)是决定未来奖励重要性的折扣因子。而ε∈[0,1)决定了q-learning算法在其选择之中的参与度(决策度),而我们也测试了多组参数的结果,找到了参数的最佳值。
[0103]
对于参数alpha和gamma:alpha=0.9,gamma=0.3达到最优值
[0104]
对于epsilon:在临界点附近达到最好状态。
[0105]
(6)二次数据采集;
[0106]
选取了gamma=0.3进行演示。
[0107]
发现,在原先同等情况下,其依旧能达到相对良好的效果:
[0108]
数据采集后系统方差如图所示
[0109]
如图5所示,
[0110]
(7)评估结果;
[0111]
在大量改变参数组合的情况下仍然达到相对稳定的状态。说明我们的模型在受到扰动的情况下仍然能正常工作。而对于模型的可靠性,我们的模型会让系统维持正向的收益。
[0112]
结合附图所示的优选实施方式描述了本发明的技术方案,但是,本领域技术人员容易理解的是,本发明的保护范围显然不局限于这些具体实施方式。在不偏离本发明的原理的前提下,本领域技术人员可以对相关技术特征作出等同的更改或替换,这些更改或替换之后的技术方案都将落入本发明的保护范围之内。
再多了解一些

本文用于创业者技术爱好者查询,仅供学习研究,如用于商业用途,请联系技术所有人。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献