基于多智能体深度强化学习的工业无线网络资源分配方法与流程

2021-10-24 08:08:00 来源：中国专利 TAG：资源无线网络分配工业约束

技术特征：
1.基于多智能体深度强化学习的工业无线网络资源分配方法，其特征在于，包括以下步骤：1)建立端边协同的工业无线网络；2)基于端边协同的工业无线网络，确立工业无线网络端边资源分配的优化问题；3)根据优化问题，建立马尔科夫决策模型；4)采用多智能体深度强化学习构建资源分配神经网络模型；5)利用马尔科夫决策模型，对资源分配神经网络模型进行离线训练，直至奖励收敛到稳定值；6)基于离线训练结果，工业无线网络在线执行资源分配，处理工业任务。2.根据权利要求1所述的基于多智能体深度强化学习的工业无线网络资源分配方法，其特征在于，所述端边协同的工业无线网络，包括：n台工业基站和m个工业终端；所述工业基站，具有边缘计算能力，以为工业终端提供计算资源，用于调度网络覆盖范围内的工业终端，以及工业终端与工业基站间通信；所述工业终端，用于实时产生不同类型工业任务，通过无线信道与工业基站通信。3.根据权利要求1所述的基于多智能体深度强化学习的工业无线网络资源分配方法，其特征在于，所述工业无线网络端边资源分配的优化问题为：s.t.c1:0≤p
m
≤p,≤p,≤p,≤p,其中，表示系统开销；t
m
表示工业终端m的时延；e
m
表示工业终端m的能耗；ω表示时延权重，(1
‑
ω)表示能耗权重；表示工业基站集合，表示工业基站集合，表示工业终端集合,c1为工业终端m的能量约束，p
m
表示工业终端m的发射功率，p表示最大发射功率；c2为计算资源约束，表示工业基站n分配给工业终端m的计算资源、f
n
表示工业基站n的最大计算资源，卸载至工业基站n的工业终端所分得的计算资源总和不得超过工业基站n的最大计算资源；c3为计算资源约束，卸载至工业基站n的工业终端m所分得的计算资源不得超过工业基站n的最大计算资源；c4为计算决策约束，表示工业终端m的计算决策，工业终端m仅能选择本地处理工业
任务，即或者卸载工业任务至工业基站n，即c5为计算决策约束，若工业终端m卸载工业任务，其仅能卸载至工业基站集合中的一台工业基站。4.根据权利要求1所述的基于多智能体深度强化学习的工业无线网络资源分配方法，其特征在于，所述马尔科夫决策模型，是状态向量之间通过执行不同动作向量，实现长期累积奖励最优化的过程，使用转移概率描述为：其中，从任意状态向量转移至另一状态向量的转移概率为f
m
，f
m
(t)
*
表示在时隙t状态向量间的最优转移概率，为系统长期累积奖励，γ表示折扣比例，τ表示时隙；r
m
(t)＝ωr
m,d
(t) (1
‑
ω)r
m,e
(t)；所述马尔科夫决策模型，包括状态向量、动作向量、奖励向量，其中：所述状态向量为工业终端m在时隙t的状态，表示为其中表示工业终端m在时隙t开始时的计算决策，d
m
(t)表示工业终端m在时隙t产生的工业任务的数据量大小，c
m
(t)表示工业终端m在时隙t产生的工业任务的所需计算资源，表示工业终端m在时隙t时与全部n台工业基站的距离；所述动作向量为工业终端m在时隙t的动作，表示为a
m
(t)＝{a
m,o
(t),a
m,p
(t)}，其中a
m,o
(t)表示工业终端m在时隙t结束时的计算决策，a
m,p
(t)表示工业终端m在时隙t结束时的发射功率；所述奖励向量为工业终端m在时隙t的获得的奖励，表示为r
m
(t)＝{r
m,d
(t),r
m,e
(t)}，其中r
m,d
(t)表示工业终端m在时隙t的时延奖励，r
m,e
(t)表示工业终端m在时隙t的能耗奖励。5.根据权利要求1所述的基于多智能体深度强化学习的工业无线网络资源分配方法，其特征在于，所述步骤4)具体为：每个所述工业终端均为一个智能体，由一个actor结构和一个critic结构组成；所述actor结构由一个actor
‑
eval深度神经网络和一个actor
‑
target深度神经网络组成：所述actor
‑
eval深度神经网络和actor
‑
target深度神经网络模型参数集合为其中，表示actor
‑
eval深度神经网络和actor
‑
target深度神经网络输入层神经元个数，表示actor
‑
eval深度神经网络和actor
‑
target深度神经网络隐藏层神经元个数，表示actor
‑
eval深度神经网络和actor
‑
target深度神经网络输出层神经元个数，θ
π
表示actor
‑
eval深度神经网络超参，表示actor
‑
target深度神经网络超参；所述critic结构由一个critic
‑
eval深度神经网络和一个critic
‑
target深度神经网络组成：所述critic
‑
eval深度神经网络和critic
‑
target深度神经网络模型参数集合为其中，表示critic
‑
eval深度神经网络和critic
‑
target深度神经网络输入层神经元个数，表示critic
‑
eval深度神经网络和critic
‑
target深度神经网络隐藏层神经元个数，表示critic
‑
eval深度神经网络和critic
‑
target深度神经网络输出层神经元个数，θ
q
表示critic
‑
eval深度神经网络超参，表示critic
‑
target深度神经网络超参。6.根据权利要求1所述的基于多智能体深度强化学习的工业无线网络资源分配方法，其特征在于，所述步骤5)包括以下步骤：5.1)将工业终端m的当前时隙的状态向量s
m
与下一时隙的状态向量s
′
m
输入actor结构，输出动作向量a
m
和a
′
m
，获得奖励r
m
和r
′
m
；5.2)对每个工业终端循环执行步骤5.1)，存储每个时隙的<s
m
(t),a
m
(t),r
m
(t)>作为经验池经验，获得k条经验，根据经验的权重不同，分别存入两个经验池，k为常数；5.3)将全部工业终端当前时隙的状态向量当前时隙的动作向量与下一时隙的状态向量下一时隙的动作向量输入工业终端m的critic结构，分别输出值函数5.4)根据强化学习的贝尔曼更新公式利用随机梯度下降方法更新actor
‑
eval深度神经网络超参θ
π
和critic
‑
eval深度神经网络超参θ
q
；5.5)利用更新actor
‑
target深度神经网络超参利用更新actor
‑
eval深度神经网络超参其中λ为更新因子，λ∈[0,1]；5.6)执行优先级权重经验回放，重复迭代步骤5.1)
‑
5.5)直至奖励收敛到稳定值，获得训练完成的多智能体深度强化学习模型。7.根据权利要求6所述的基于多智能体深度强化学习的工业无线网络资源分配方法，其特征在于，所述步骤5.1)中，采用贪婪算法动态改变动作向量输出概率，具体为：使用贪婪方法选择输出动作向量，其中a
r
(t)表示随机选择的动作向量，a
v
(t)表示选择获得奖励最大的动作向量；所述ε＝(1
‑
δ)
u
ε0表示选择概率，其中，ε0表示初始选择概率，δ表示衰减速度，u表示训练次数。8.根据权利要求6所述的基于多智能体深度强化学习的工业无线网络资源分配方法，其特征在于，所述步骤5.2)中，设置两个经验池，分别存储不同权重的经验，随着神经网络模型训练次数变化，动态改变不同经验池中抽取经验的概率，具体为：由于不同的经验对深度神经网络收敛贡献不同，把每条经验的下降梯度作为经验的权重；对任意k条经验的权重取平均值，即权重高于权重平均值的经验，即为高权重经验，权重低于权重平均值的经验，即为低权重经验；
设置a、b两个经验池，a池存储高权值经验，b池存储低权值经验；训练初始阶段，a、b经验池随机采样经验的概率是相等的，随着训练次数增加，a经验池采样概率逐渐增加，b经验池采样概率逐渐减少；采样概率为x∈{a,b}，其中，0≤g
x
≤1表示a、b经验池的采样概率，g0表示a、b经验池的初始采样概率，表示a、b经验池的采样概率衰减值，u表示训练次数。9.根据权利要求6所述的基于多智能体深度强化学习的工业无线网络资源分配方法，其特征在于，所述步骤5.4)中，actor
‑
eval深度神经网络梯度为critic
‑
eval深度神经网络梯度为其中表示actor
‑
eval深度神经网络的下降梯度，表示critic
‑
eval深度神经网络的下降梯度，γ表示折扣比例，表示数学期望，π表示actor
‑
eval深度神经网络的当前策略。10.根据权利要求1所述的基于多智能体深度强化学习的工业无线网络资源分配方法，其特征在于，所述步骤6)包括以下步骤：6.1)将工业终端m当前时隙t的状态向量s
m
(t)作为离线训练完成的第m个智能体的actor结构的输入，得到输出动作向量a
m
(t)；6.2)根据得到的输出动作向量a
m
(t)，工业终端m根据a
m
(t)中的计算决策、发射功率分配计算和能量资源，处理工业任务；6.3)对工业无线网络内全部m个工业终端执行步骤6.1)
‑
6.2)，得到m个工业终端的资源分配结果，根据资源分配结果处理工业任务。

技术总结
本发明涉及工业无线网络技术，具体地说，是一种基于多智能体深度强化学习的工业无线网络资源分配方法，包括以下步骤：建立端边协同的工业无线网络；确立工业无线网络端边资源分配的优化问题；建立马尔科夫决策模型；采用多智能体深度强化学习方法，构建资源分配神经网络模型；离线训练神经网络模型，直至奖励收敛到稳定值；基于离线训练结果，工业无线网络在线执行资源分配，处理工业任务。本发明能够实时、高能效地对工业无线网络进行端边协同的资源分配，在满足有限能量、计算资源约束下，最小化系统开销。小化系统开销。小化系统开销。

技术研发人员：于海斌刘晓宇许驰夏长清金曦曾鹏
受保护的技术使用者：中国科学院沈阳自动化研究所
技术研发日：2021.06.24
技术公布日：2021/10/23

再多了解一些

2/2 首页上一页 1 2

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：基于ARX白盒分组密码的数字内容加解密方法与流程

基于多智能体深度强化学习的工业无线网络资源分配方法与流程

相关文献

最热文献