一种云边协同的双利益均衡禁忌强化学习资源分配方法与流程

2022-03-01 22:40:39 来源：中国专利 TAG：

1.本发明涉及云计算、边缘计算领域的系统资源分配方法，具体地指一种云边协同的双利益均衡禁忌强化学习资源分配方法。
技术背景
[0002]“云边协同”作为一种全新的物联网计算模式，通过在远程云和边缘云之间的计算/数据迁移和资源协同，计算节点之间的相互协作，执行大规模复杂的计算任务，逐渐成为国内外学术界和工业界关注的焦点和前沿领域。在传统云计算、边缘计算模式中，用户仅作为数据的最终“消费者”，如利用手机观看在线视频。相比之下，云边协同模式是由多种类型和资源异构的计算节点组成的互联系统，形成了一体化的协同计算体系，为用户就近提供智能服务。用户具备了数据“消费者”和“生产者”的双重角色，如可以通过微信、抖音等分享视频。用户关心的是他们完成他们自身的任务请求能够得到多少收益、完成这些任务请求需要支付给提供商多少费用，以及用户体验等。若用户在使用云边协同计算模式时利益不好，那么，用户将会拒绝使用云边协同服务而仅仅选择在本地完成他们的作业任务。反之，如果众多用户的利益能够得到优化，那么，用户将会更乐意去使用云边协同计算模式，这也会吸引市场上更多潜在的用户来使用云边协同。
[0003]
实际上，用户的利益与服务商的利益栖息相关。如前所述，云边协同是一种新型的应用范例，它包括软件、平台，以及基础设施服务，用户共享使用这些服务。对于服务商而言，他们的收入都来源于对用户提供服务而收取的费用(用户是消费者)以及用户共享的数据被他人使用所收取的费用(用户是生产者)。提高收入才能更好了促进服务质量，吸引更多的用户来使用该服务，最终实现良性循环。因此，在优化用户利益的同时，如何增加服务商利益也是需要考虑的一部分。因此，如何合理的分配资源满足云边协同环境下的用户和服务商利益均衡具有非常重要的意义。
[0004]
在许多已有的研究成果中，资源分配问题已被证明为一种多约束、多目标优化的np-hard问题。当前已有的资源分配解决方案是仅面向云计算或者边缘计算单一环境，缺乏通用性，使其难以直接应用于复杂的云边协同环境。另外，这些方案绝大部分是基于单一视角效益最大化的视角，缺乏对用户和服务商两者效益兼具的考虑。因此，有必要提供一种面向用户和服务商利益均衡的资源分配方法来解决上述问题。

技术实现要素：

[0005]
本发明的目的在于克服现有技术的不足，而提出一种云边协同的双利益均衡禁忌强化学习资源分配方法，综合地将用户任务平均完成时间作为用户利益指标，将服务商的平均资源利用率作为服务商利益指标，通过禁忌强化学习方法面对实时动态的用户任务时候自适应地做出最优的资源分配决策。
[0006]
为实现上述目的，本发明所设计的一种云边协同的双利益均衡禁忌强化学习资源分配方法，其特殊之处在于，所述方法包括如下步骤：
[0007]
1)建立云边环境下的资源分配框架，包括：用户资源需求模型，计算节点资源状态模型和资源分配器；
[0008]
2)确定用户利益优化目标函数、服务商利益优化目标函数和双边利益均衡目标函数；
[0009]
3)在资源分配器中构建强化学习中的三要素：状态空间、动作空间和奖励函数；
[0010]
4)资源分配器将状态空间发送给actor网络，actor网络根据策略从动作空间种选择一组计算节点ai作为动作向量分配用户任务；
[0011]ai
＝μ(s
t
，η
μ
) ψ
[0012]
其中，s
t
表示t时刻云边系统的状态；μ表示由卷积神经网络模拟出策略，ψ为随机噪声，η
μ
为actor-critic网络参数；
[0013]
5)状态空间根据步骤4)所选择的动作ai进行更新，得到新的状态s
t 1
；资源分配器将用户的任务依次分配至节点ai中，计算t时间段内的奖励值r
t
；若获得的奖励值为负数，则将选择的动作向量存储至禁忌名单中，若获得的奖励值为正数，将选择的动作向量存储至经验重放池中；
[0014]
6)状态空间根据新的状态s
t 1
，模拟出动作a
′i；
[0015]a′i＝μ
′
(s
t 1，
η
μ
′
) ψ
[0016]
其中，μ
′
表示由卷积神经网络模拟出策略，ψ为随机噪声，η
μ
′
为 actor-critic网络参数；
[0017]
7)资源分配器计算目标值
[0018][0019]
其中，reward表示奖励函数，γ为衰减因子，q
μ
′
表示在状态s
t 1
下采用策略μ
′
的q评估值，ηq′
为critic网络中的target策略网络参数， η
μ
′
为actor网络中的target策略网络参数。
[0020]
8)采用最小化均方差损失函数计算actor-critic网络参数ηq：
[0021][0022]
其中x表示经验重放池中经验数量，q
μ
表示在状态s
t
下采用动作ai并且一直采用策略μ的q值；
[0023]
9)采用蒙特卡洛法衡量策略μ更新actor-critic网络参数；
[0024]
10)重复步骤3)～步骤9)，直到actor-critic网络收敛，则得到了双边利益均衡目标函数的最优解。
[0025]
优选地，所述步骤1)中在每个调度时刻t：
[0026]
每个计算节点向资源分配器传输自己的状态，具体状态包括：cpu 资源余量，内存资源余量，存储资源余量；
[0027]
每个用户借助终端设备向资源分配器传输自己的计算任务需求，具体需求包括：用户所在位置，任务的尺寸，对cpu资源的需求，内存资源的需求，存储资源的需求。
[0028]
优选地，所述步骤1)中资源分配器采用矩阵的形式存储用户需求和计算节点状
态：
[0029][0030][0031]
其中，u
t
表示t时刻的用户需求矩阵；k表示在t时刻，用户的总数；s
k，cput
表示第k个用户对cpu资源的需求；s
k，ment
表示第k个用户对内存资源的需求；s
k，storaget
表示第k个用户对存储资源的需求；c
t
表示t时刻的计算节点状态矩阵；m表示计算节点的总数；c
m，cput
表示第m个计算节点的cpu资源余量；c
m，ment
表示第m个计算节点的内存资源余量；c
m，storaget
表示第m个计算节点的存储资源余量。
[0032]
优选地，所述步骤2)中所述用户利益优化目标函数由所有用户的任务平均执行时间构成：
[0033][0034]
其中，arti表示用户i的任务执行时间；art表示所有用户的任务平均执行时间；k表示用户数量，arti由任务传输至计算节点的延迟、计算节点中等待执行的延迟和任务计算时间组成：
[0035]
arti＝art
delay
art
wait
art
computg
[0036]
其中，art
delay
表示任务传输至计算节点的延迟，art
wait
表示任务在计算节点中等待执行的延迟，art
computing
表示任务在计算节点中计算的时间。
[0037]
优选地，所述步骤2)中所述服务商利益优化目标函数由所有计算节点的资源利用率构成：
[0038][0039][0040]
其中，asrj表示计算节点j的资源利用率；asr表示所有计算节点的资源利用率；n表示具有第n种资源余量的节点总数；c
m，nt
表示t 时刻第m个计算节点的第n种资源的余量；s
k，nt
表示t时刻第k个任务对第n种资源的需求；a
t
表示调度器在t时刻选择的调度动作。
[0041]
优选地，所述步骤2)中所述双边利益均衡目标函数由用户利益优化目标函数和服务商利益优化目标函数构成：
[0042][0043]
其中，z表示双边利益均衡目标函数；θ表示用户利益优化目标函数的权重系数；
表示服务商利益优化目标函数的权重系数，
[0044]
优选地，所述步骤6)中资源分配器利用贝尔曼公式评估策略μ：
[0045]qμ
(s
t
，ai，η
μ
)＝e[reward γq
μ
(s
t 1
，μ(s
t 1
，ηq)，η
μ
)]
[0046]
e表示期望。
[0047]
优选地，所述步骤9)中采用蒙特卡洛法衡量策略μ更新actor-critic 网络参数的方法为：
[0048][0049]
ηq′
←
vηq (1-v)ηq′
[0050]
η
μ
′
←
vη
μ
(1-v)η
μ
′
[0051]
其中，表示梯度，v为更新因子，值为0.001。
[0052]
优选地，所述任务传输至计算节点的延迟art
delay
的计算方式如下：
[0053][0054]
distance
ij
＝r*cos-1
[sin(mlati)*sin(mlatj)*cos(mlon
i-mlonj) cos(mlati)*cos(mlatj)|*π
÷
180；
[0055]
其中，α是延迟系数，distance
ii
表示用户i与计算节点j的距离，r 表示地球平均半径，值为6371.004km，π表示为圆周率；mlati表示用户i的计算纬度值，mloni表示用户i的计算经度值。
[0056]
优选地，所述任务在计算节点中等待执行的延迟art
wait
的计算方式如下：
[0057]
art
wait
＝task
begin-task
arrive
[0058]
其中，task
begin
表示任务开始计算的时间，由系统记录获得； task
arrive
表示任务的到达时间，由系统记录获得；
[0059]
所述任务在计算节点中计算的时间art
computing
的计算方式如下：
[0060]
art
computing
＝task
size
/fj[0061]
其中，task
size
是任务的尺寸；fj表示计算节点j的计算频率。
[0062]
本发明通过与云边环境进行交互，获取环境信息，并根据环境信息的变化做出相应的分配动作，实现最优的资源分配，其有益效果为：
[0063]
1、相比已有的方法，平均资源利用率提高了35.08％。
[0064]
2、相比已有的方法，任务平均完成时间降低24.2％。
[0065]
3、相比已有的方法，在确保服务商利益的同时，用户收益提高了32.96％，具有更好的利益均衡性能。
附图说明
[0066]
图1为基于禁忌强化学习面向用户和资源服务商双边利益均衡的资源分配方法系统架构图。
[0067]
图2为禁忌强化学习算法的整体架构图。
[0068]
图3为本发明实施例的对比本发明方法(sharer)与已有方法 (nsga-ii、msql、
icpso)的用户收益结果。
[0069]
图4为本发明实施例的对比本发明方法(sharer)与已有方法 (nsga-ii、msql、icpso)的服务商收益结果。图5为本发明实施例的对比本发明方法(sharer)与已有方法 (nsga-ii、msql、icpso)的任务平均完成时间结果。
具体实施方式
[0070]
以下结合附图和具体实施例对本发明作进一步的详细描述。
[0071]
如图1所示，本发明所提出的一种云边协同的双利益均衡禁忌强化学习资源分配方法，通过与云边环境进行交互，获取环境信息，并根据环境信息的变化做出相应的分配动作，实现最优的资源分配。具体步骤如下：
[0072]
1)建立云边环境下的资源分配框架，包括：用户资源需求模型，计算节点资源状态模型和资源分配器。在每个调度时刻t：
[0073]
每个计算节点向资源分配器传输自己的状态，具体状态包括：cpu 资源余量，内存资源余量，存储资源余量；
[0074]
每个用户借助终端设备向资源分配器传输自己的计算任务需求，具体需求包括：用户所在位置，任务的尺寸，对cpu资源的需求，内存资源的需求，存储资源的需求。
[0075]
资源分配器采用矩阵的形式存储用户需求和计算节点状态：
[0076][0077][0078]
其中，u
t
表示t时刻的用户需求矩阵；k表示在t时刻，用户的总数；s
k，cput
表示第k个用户对cpu资源的需求；s
k，ment
表示第k个用户对内存资源的需求；s
k，storaget
表示第k个用户对存储资源的需求；c
t
表示t时刻的计算节点状态矩阵；m表示计算节点的总数；c
m，cput
表示第m个计算节点的cpu资源余量；c
m，ment
表示第m个计算节点的内存资源余量；c
m，storaget
表示第m个计算节点的存储资源余量。
[0079]
2)确定用户利益优化目标函数、服务商利益优化目标函数和双边利益均衡目标函数。其中：
[0080]
用户利益优化目标函数由所有用户的任务平均执行时间构成：
[0081][0082]
其中，arti表示用户i的任务执行时间；art表示所有用户的任务平均执行时间；k为用户数量，arti由任务传输至计算节点的延迟、计算节点中等待执行的延迟和任务计算时间组成：
[0083]
arti＝art
delay
art
wait
art
computing
[0084]
其中，art
delay
表示任务传输至计算节点的延迟，art
wait
表示任务在计算节点中等待执行的延迟，art
computing
表示任务在计算节点中计算的时间。
[0085]
任务传输至计算节点的延迟art
delay
的计算方式如下：
[0086][0087]
distance
ij
＝r*cos-1
[sin(mlati)*sin(mlatj)*cos(mlon
i-mlonj) cos(mlati)*cos(mlatj)]*π
÷
180；
[0088]
其中，α是延迟系数，distance
ij
表示用户i与计算节点j的距离，r 表示地球平均半径，值为6371.004km，π表示为圆周率；mlati表示用户i的计算纬度值，如果所在地理位置为北半球，则mlati＝90-lati；如果所在地理位置为南半球，则mlati＝90 lati；lati为用户i的真实纬度值，由gps数据获得，mlatj的计算方法与mlati一致。mloni表示用户i的计算经度值，如果所在地理位置为东半球，则mloni＝loni；如果所在地理位置为西半球，则mloni＝-loni；其中，loni为用户i 的真实经度值，由gps数据获得，mlonj的计算方法与mloni一致。
[0089]
任务在计算节点中等待执行的延迟art
wait
的计算方式如下：
[0090]
art
wait
＝task
begin-task
arrive
[0091]
其中，task
begin
表示任务开始计算的时间，由系统记录获得； task
arrive
表示任务的到达时间，由系统记录获得；
[0092]
任务在计算节点中计算的时间art
computing
的计算方式如下：
[0093]
art
computing
＝task
size
/fj[0094]
其中，task
size
是任务的尺寸；fj表示计算节点j的计算频率。
[0095]
服务商利益优化目标函数由所有计算节点的资源利用率构成：
[0096][0097][0098]
其中，asrj表示计算节点j的资源利用率；asr表示所有计算节点的资源利用率；n表示具有第n种资源余量的节点总数；c
m，nt
表示t 时刻第m个计算节点的第n种资源的余量；s
k，nt
表示t时刻第k个任务对第n种资源的需求；a
t
表示调度器在t时刻选择的调度动作。
[0099]
双边利益均衡目标函数由用户利益优化目标函数和服务商利益优化目标函数构成：
[0100][0101]
其中，z表示双边利益均衡目标函数；θ表示用户利益优化目标函数的权重系数；表示服务商利益优化目标函数的权重系数，
[0102]
3)在资源分配器中构建强化学习中的三要素：状态空间、动作空间和奖励函数。
如图2所示，本实施例采用ddpg算法，ddpg算法由actor网络和critic网络构成。算法决定每个t时刻，用户任务所分配的计算节点。状态空间由计算节点状态矩阵表示：
[0103]
s＝{c
t
}
[0104]
其中，s表示状态空间。动作空间由可满足用户任务执行的计算节点集合表示：
[0105]
a＝{a1，a2，
…
，ai}
[0106]
其中，a表示动作空间，ai表示满足用户任务执行的一组计算节点。
[0107]
奖励函数由双边利益均衡目标函数构成，计算方式如下：
[0108][0109]
其中，reward表示奖励函数。
[0110]
4)资源分配器将状态空间发送给actor网络，actor网络根据策略从动作空间种选择一组计算节点ai作为动作向量分配用户任务；
[0111]ai
＝μ(s
t
，η
μ
) ψ
[0112]
其中，s
t
表示t时刻云边系统的状态；μ表示由卷积神经网络模拟出策略，ψ为随机噪声，η
μ
为actor-critic网络参数。
[0113]
5)状态空间根据步骤4)所选择的动作ai进行更新，得到新的状态s
t 1
；资源分配器将用户的任务依次分配至节点ai中，计算t时间段内的奖励值r
t
；若获得的奖励值为负数，则将选择的动作向量存储至禁忌名单中，若获得的奖励值为正数，将选择的动作向量存储至经验重放池中。
[0114]
6)状态空间根据新的状态s
t 1
，模拟出动作a
′i；
[0115]a′i＝μ
′
(s
t 1
，η
μ
′
) ψ
[0116]
其中，μ
′
表示由卷积神经网络模拟出策略，ψ为随机噪声，η
μ
′
为 actor-critic网络参数。资源分配器利用贝尔曼公式评估策略μ：
[0117]qμ
(s
t
，ai，η
μ
)＝e[reward γq
μ
(s
t 1
，μ(s
t 1
，ηq)，η
μ
)]
[0118]
其中，γ为衰减因子，ηq为actor-critic网络参数。
[0119]
7)资源分配器计算目标值
[0120][0121]
其中，reward表示奖励函数，γ为衰减因子，q
μ
′
表示在状态s
t 1
下采用策略μ
′
的q评估值，ηq′
为critic网络中的target策略网络参数， η
μ
′
为actor网络中的target策略网络参数。
[0122]
8)采用最小化均方差损失函数计算actor-critic网络参数ηq：
[0123][0124]
其中x表示经验重放池中经验数量，q
μ
表示在状态s
t
下采用动作ai并且一直采用策略μ的q值。
[0125]
9)采用蒙特卡洛法衡量策略μ更新actor-critic网络参数：
[0126][0127]
ηq′
←
vηq (1-v)ηq′
[0128]
η
μ
′
←
vη
μ
(1-v)η
μ
′
[0129]
其中，表示梯度，v为更新因子，值为0.001。
[0130]
10)重复步骤3)～9)，直到actor-critic网络收敛，则得到了双边利益均衡目标函数的最优解。
[0131]
本发明通过与云边环境进行交互，获取环境信息，并根据环境信息的变化做出相应的分配动作，实现最优的资源分配。本发明采用 mo-fjspw数据集与已有方法(nsga-ii、msql、icpso)进行了多角度的性能对比。本发明采用用户收益与服务商收益之比做为衡量双利益均衡的性能指标，如图3可知，本发明在不同的用户数目下均能获得最高的比率，这证明了本发明方法在利益均衡的优越性。图4可知，本发明方法在不同用户数量下都具有较高的平均资源利用率，效果明显优于其它三种方法。图5可知，平均任务完成时间相比其他方法在不同用户数目下均具有优势。
[0132]
最后需要说明的是，以上具体实施方式仅用以说明本专利技术方案而非限制，尽管参照较佳实施例对本专利进行了详细说明，本领域的普通技术人员应当理解，可以对本专利的技术方案进行修改或者等同替换，而不脱离本专利技术方案的精神和范围，其均应涵盖在本专利的权利要求范围当中。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：一种基于射频信号精细画像的多级特征提取方法与流程

一种云边协同的双利益均衡禁忌强化学习资源分配方法与流程

相关文献

最热文献