一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种云边协同的双利益均衡禁忌强化学习资源分配方法与流程

2022-03-01 22:40:39 来源:中国专利 TAG:


1.本发明涉及云计算、边缘计算领域的系统资源分配方法,具体地 指一种云边协同的双利益均衡禁忌强化学习资源分配方法。
技术背景
[0002]“云边协同”作为一种全新的物联网计算模式,通过在远程云和 边缘云之间的计算/数据迁移和资源协同,计算节点之间的相互协作, 执行大规模复杂的计算任务,逐渐成为国内外学术界和工业界关注的 焦点和前沿领域。在传统云计算、边缘计算模式中,用户仅作为数据 的最终“消费者”,如利用手机观看在线视频。相比之下,云边协同 模式是由多种类型和资源异构的计算节点组成的互联系统,形成了一 体化的协同计算体系,为用户就近提供智能服务。用户具备了数据“消 费者”和“生产者”的双重角色,如可以通过微信、抖音等分享视频。 用户关心的是他们完成他们自身的任务请求能够得到多少收益、完成 这些任务请求需要支付给提供商多少费用,以及用户体验等。若用户 在使用云边协同计算模式时利益不好,那么,用户将会拒绝使用云边 协同服务而仅仅选择在本地完成他们的作业任务。反之,如果众多用 户的利益能够得到优化,那么,用户将会更乐意去使用云边协同计算 模式,这也会吸引市场上更多潜在的用户来使用云边协同。
[0003]
实际上,用户的利益与服务商的利益栖息相关。如前所述,云边 协同是一种新型的应用范例,它包括软件、平台,以及基础设施服务, 用户共享使用这些服务。对于服务商而言,他们的收入都来源于对用 户提供服务而收取的费用(用户是消费者)以及用户共享的数据被他 人使用所收取的费用(用户是生产者)。提高收入才能更好了促进服 务质量,吸引更多的用户来使用该服务,最终实现良性循环。因此, 在优化用户利益的同时,如何增加服务商利益也是需要考虑的一部分。 因此,如何合理的分配资源满足云边协同环境下的用户和服务商利益 均衡具有非常重要的意义。
[0004]
在许多已有的研究成果中,资源分配问题已被证明为一种多约束、 多目标优化的np-hard问题。当前已有的资源分配解决方案是仅面向 云计算或者边缘计算单一环境,缺乏通用性,使其难以直接应用于复 杂的云边协同环境。另外,这些方案绝大部分是基于单一视角效益最 大化的视角,缺乏对用户和服务商两者效益兼具的考虑。因此,有必 要提供一种面向用户和服务商利益均衡的资源分配方法来解决上述 问题。


技术实现要素:

[0005]
本发明的目的在于克服现有技术的不足,而提出一种云边协同的 双利益均衡禁忌强化学习资源分配方法,综合地将用户任务平均完成 时间作为用户利益指标,将服务商的平均资源利用率作为服务商利益 指标,通过禁忌强化学习方法面对实时动态的用户任务时候自适应地 做出最优的资源分配决策。
[0006]
为实现上述目的,本发明所设计的一种云边协同的双利益均衡禁 忌强化学习资源分配方法,其特殊之处在于,所述方法包括如下步骤:
[0007]
1)建立云边环境下的资源分配框架,包括:用户资源需求模型, 计算节点资源状态模型和资源分配器;
[0008]
2)确定用户利益优化目标函数、服务商利益优化目标函数和双 边利益均衡目标函数;
[0009]
3)在资源分配器中构建强化学习中的三要素:状态空间、动作 空间和奖励函数;
[0010]
4)资源分配器将状态空间发送给actor网络,actor网络根据策 略从动作空间种选择一组计算节点ai作为动作向量分配用户任务;
[0011]ai
=μ(s
t
,η
μ
) ψ
[0012]
其中,s
t
表示t时刻云边系统的状态;μ表示由卷积神经网络模拟 出策略,ψ为随机噪声,η
μ
为actor-critic网络参数;
[0013]
5)状态空间根据步骤4)所选择的动作ai进行更新,得到新的状 态s
t 1
;资源分配器将用户的任务依次分配至节点ai中,计算t时间段 内的奖励值r
t
;若获得的奖励值为负数,则将选择的动作向量存储至 禁忌名单中,若获得的奖励值为正数,将选择的动作向量存储至经验 重放池中;
[0014]
6)状态空间根据新的状态s
t 1
,模拟出动作a
′i;
[0015]a′i=μ

(s
t 1,
η
μ

) ψ
[0016]
其中,μ

表示由卷积神经网络模拟出策略,ψ为随机噪声,η
μ

为 actor-critic网络参数;
[0017]
7)资源分配器计算目标值
[0018][0019]
其中,reward表示奖励函数,γ为衰减因子,q
μ

表示在状态s
t 1
下 采用策略μ

的q评估值,ηq′
为critic网络中的target策略网络参数, η
μ

为actor网络中的target策略网络参数。
[0020]
8)采用最小化均方差损失函数计算actor-critic网络参数ηq:
[0021][0022]
其中x表示经验重放池中经验数量,q
μ
表示在状态s
t
下采用动作ai并且一直采用策略μ的q值;
[0023]
9)采用蒙特卡洛法衡量策略μ更新actor-critic网络参数;
[0024]
10)重复步骤3)~步骤9),直到actor-critic网络收敛,则得到 了双边利益均衡目标函数的最优解。
[0025]
优选地,所述步骤1)中在每个调度时刻t:
[0026]
每个计算节点向资源分配器传输自己的状态,具体状态包括:cpu 资源余量,内存资源余量,存储资源余量;
[0027]
每个用户借助终端设备向资源分配器传输自己的计算任务需求, 具体需求包括:用户所在位置,任务的尺寸,对cpu资源的需求,内 存资源的需求,存储资源的需求。
[0028]
优选地,所述步骤1)中资源分配器采用矩阵的形式存储用户需求 和计算节点状
态:
[0029][0030][0031]
其中,u
t
表示t时刻的用户需求矩阵;k表示在t时刻,用户的总 数;s
k,cput
表示第k个用户对cpu资源的需求;s
k,ment
表示第k个用 户对内存资源的需求;s
k,storaget
表示第k个用户对存储资源的需求;c
t
表示t时刻的计算节点状态矩阵;m表示计算节点的总数;c
m,cput
表 示第m个计算节点的cpu资源余量;c
m,ment
表示第m个计算节点的 内存资源余量;c
m,storaget
表示第m个计算节点的存储资源余量。
[0032]
优选地,所述步骤2)中所述用户利益优化目标函数由所有用户的 任务平均执行时间构成:
[0033][0034]
其中,arti表示用户i的任务执行时间;art表示所有用户的任务 平均执行时间;k表示用户数量,arti由任务传输至计算节点的延迟、 计算节点中等待执行的延迟和任务计算时间组成:
[0035]
arti=art
delay
art
wait
art
computg
[0036]
其中,art
delay
表示任务传输至计算节点的延迟,art
wait
表示任务 在计算节点中等待执行的延迟,art
computing
表示任务在计算节点中计 算的时间。
[0037]
优选地,所述步骤2)中所述服务商利益优化目标函数由所有计算 节点的资源利用率构成:
[0038][0039][0040]
其中,asrj表示计算节点j的资源利用率;asr表示所有计算节点 的资源利用率;n表示具有第n种资源余量的节点总数;c
m,nt
表示t 时刻第m个计算节点的第n种资源的余量;s
k,nt
表示t时刻第k个任 务对第n种资源的需求;a
t
表示调度器在t时刻选择的调度动作。
[0041]
优选地,所述步骤2)中所述双边利益均衡目标函数由用户利益优 化目标函数和服务商利益优化目标函数构成:
[0042][0043]
其中,z表示双边利益均衡目标函数;θ表示用户利益优化目标函 数的权重系数;
表示服务商利益优化目标函数的权重系数,
[0044]
优选地,所述步骤6)中资源分配器利用贝尔曼公式评估策略μ:
[0045]qμ
(s
t
,ai,η
μ
)=e[reward γq
μ
(s
t 1
,μ(s
t 1
,ηq),η
μ
)]
[0046]
e表示期望。
[0047]
优选地,所述步骤9)中采用蒙特卡洛法衡量策略μ更新actor-critic 网络参数的方法为:
[0048][0049]
ηq′

vηq (1-v)ηq′
[0050]
η
μ



μ
(1-v)η
μ

[0051]
其中,表示梯度,v为更新因子,值为0.001。
[0052]
优选地,所述任务传输至计算节点的延迟art
delay
的计算方式如下:
[0053][0054]
distance
ij
=r*cos-1
[sin(mlati)*sin(mlatj)*cos(mlon
i-mlonj) cos(mlati)*cos(mlatj)|*π
÷
180;
[0055]
其中,α是延迟系数,distance
ii
表示用户i与计算节点j的距离,r 表示地球平均半径,值为6371.004km,π表示为圆周率;mlati表示用 户i的计算纬度值,mloni表示用户i的计算经度值。
[0056]
优选地,所述任务在计算节点中等待执行的延迟art
wait
的计算方 式如下:
[0057]
art
wait
=task
begin-task
arrive
[0058]
其中,task
begin
表示任务开始计算的时间,由系统记录获得; task
arrive
表示任务的到达时间,由系统记录获得;
[0059]
所述任务在计算节点中计算的时间art
computing
的计算方式如下:
[0060]
art
computing
=task
size
/fj[0061]
其中,task
size
是任务的尺寸;fj表示计算节点j的计算频率。
[0062]
本发明通过与云边环境进行交互,获取环境信息,并根据环境信 息的变化做出相应的分配动作,实现最优的资源分配,其有益效果为:
[0063]
1、相比已有的方法,平均资源利用率提高了35.08%。
[0064]
2、相比已有的方法,任务平均完成时间降低24.2%。
[0065]
3、相比已有的方法,在确保服务商利益的同时,用户收益提高 了32.96%,具有更好的利益均衡性能。
附图说明
[0066]
图1为基于禁忌强化学习面向用户和资源服务商双边利益均衡 的资源分配方法系统架构图。
[0067]
图2为禁忌强化学习算法的整体架构图。
[0068]
图3为本发明实施例的对比本发明方法(sharer)与已有方法 (nsga-ii、msql、
icpso)的用户收益结果。
[0069]
图4为本发明实施例的对比本发明方法(sharer)与已有方法 (nsga-ii、msql、icpso)的服务商收益结果。图5为本发明实施例的对比本发明方法(sharer)与已有方法 (nsga-ii、msql、icpso)的任务平均完成时间结果。
具体实施方式
[0070]
以下结合附图和具体实施例对本发明作进一步的详细描述。
[0071]
如图1所示,本发明所提出的一种云边协同的双利益均衡禁忌强 化学习资源分配方法,通过与云边环境进行交互,获取环境信息,并 根据环境信息的变化做出相应的分配动作,实现最优的资源分配。具 体步骤如下:
[0072]
1)建立云边环境下的资源分配框架,包括:用户资源需求模型, 计算节点资源状态模型和资源分配器。在每个调度时刻t:
[0073]
每个计算节点向资源分配器传输自己的状态,具体状态包括:cpu 资源余量,内存资源余量,存储资源余量;
[0074]
每个用户借助终端设备向资源分配器传输自己的计算任务需求, 具体需求包括:用户所在位置,任务的尺寸,对cpu资源的需求,内 存资源的需求,存储资源的需求。
[0075]
资源分配器采用矩阵的形式存储用户需求和计算节点状态:
[0076][0077][0078]
其中,u
t
表示t时刻的用户需求矩阵;k表示在t时刻,用户的总 数;s
k,cput
表示第k个用户对cpu资源的需求;s
k,ment
表示第k个用 户对内存资源的需求;s
k,storaget
表示第k个用户对存储资源的需求;c
t
表示t时刻的计算节点状态矩阵;m表示计算节点的总数;c
m,cput
表 示第m个计算节点的cpu资源余量;c
m,ment
表示第m个计算节点的 内存资源余量;c
m,storaget
表示第m个计算节点的存储资源余量。
[0079]
2)确定用户利益优化目标函数、服务商利益优化目标函数和双 边利益均衡目标函数。其中:
[0080]
用户利益优化目标函数由所有用户的任务平均执行时间构成:
[0081][0082]
其中,arti表示用户i的任务执行时间;art表示所有用户的任务 平均执行时间;k为用户数量,arti由任务传输至计算节点的延迟、计 算节点中等待执行的延迟和任务计算时间组成:
[0083]
arti=art
delay
art
wait
art
computing
[0084]
其中,art
delay
表示任务传输至计算节点的延迟,art
wait
表示任务 在计算节点中等待执行的延迟,art
computing
表示任务在计算节点中计 算的时间。
[0085]
任务传输至计算节点的延迟art
delay
的计算方式如下:
[0086][0087]
distance
ij
=r*cos-1
[sin(mlati)*sin(mlatj)*cos(mlon
i-mlonj) cos(mlati)*cos(mlatj)]*π
÷
180;
[0088]
其中,α是延迟系数,distance
ij
表示用户i与计算节点j的距离,r 表示地球平均半径,值为6371.004km,π表示为圆周率;mlati表示用 户i的计算纬度值,如果所在地理位置为北半球,则mlati=90-lati; 如果所在地理位置为南半球,则mlati=90 lati;lati为用户i的真实 纬度值,由gps数据获得,mlatj的计算方法与mlati一致。mloni表示 用户i的计算经度值,如果所在地理位置为东半球,则mloni=loni; 如果所在地理位置为西半球,则mloni=-loni;其中,loni为用户i 的真实经度值,由gps数据获得,mlonj的计算方法与mloni一致。
[0089]
任务在计算节点中等待执行的延迟art
wait
的计算方式如下:
[0090]
art
wait
=task
begin-task
arrive
[0091]
其中,task
begin
表示任务开始计算的时间,由系统记录获得; task
arrive
表示任务的到达时间,由系统记录获得;
[0092]
任务在计算节点中计算的时间art
computing
的计算方式如下:
[0093]
art
computing
=task
size
/fj[0094]
其中,task
size
是任务的尺寸;fj表示计算节点j的计算频率。
[0095]
服务商利益优化目标函数由所有计算节点的资源利用率构成:
[0096][0097][0098]
其中,asrj表示计算节点j的资源利用率;asr表示所有计算节点 的资源利用率;n表示具有第n种资源余量的节点总数;c
m,nt
表示t 时刻第m个计算节点的第n种资源的余量;s
k,nt
表示t时刻第k个任 务对第n种资源的需求;a
t
表示调度器在t时刻选择的调度动作。
[0099]
双边利益均衡目标函数由用户利益优化目标函数和服务商利益优 化目标函数构成:
[0100][0101]
其中,z表示双边利益均衡目标函数;θ表示用户利益优化目标函 数的权重系数;表示服务商利益优化目标函数的权重系数,
[0102]
3)在资源分配器中构建强化学习中的三要素:状态空间、动作空 间和奖励函数。
如图2所示,本实施例采用ddpg算法,ddpg算法 由actor网络和critic网络构成。算法决定每个t时刻,用户任务所分 配的计算节点。状态空间由计算节点状态矩阵表示:
[0103]
s={c
t
}
[0104]
其中,s表示状态空间。动作空间由可满足用户任务执行的计算节 点集合表示:
[0105]
a={a1,a2,

,ai}
[0106]
其中,a表示动作空间,ai表示满足用户任务执行的一组计算节点。
[0107]
奖励函数由双边利益均衡目标函数构成,计算方式如下:
[0108][0109]
其中,reward表示奖励函数。
[0110]
4)资源分配器将状态空间发送给actor网络,actor网络根据策 略从动作空间种选择一组计算节点ai作为动作向量分配用户任务;
[0111]ai
=μ(s
t
,η
μ
) ψ
[0112]
其中,s
t
表示t时刻云边系统的状态;μ表示由卷积神经网络模拟 出策略,ψ为随机噪声,η
μ
为actor-critic网络参数。
[0113]
5)状态空间根据步骤4)所选择的动作ai进行更新,得到新的状 态s
t 1
;资源分配器将用户的任务依次分配至节点ai中,计算t时间段 内的奖励值r
t
;若获得的奖励值为负数,则将选择的动作向量存储至 禁忌名单中,若获得的奖励值为正数,将选择的动作向量存储至经验 重放池中。
[0114]
6)状态空间根据新的状态s
t 1
,模拟出动作a
′i;
[0115]a′i=μ

(s
t 1
,η
μ

) ψ
[0116]
其中,μ

表示由卷积神经网络模拟出策略,ψ为随机噪声,η
μ

为 actor-critic网络参数。资源分配器利用贝尔曼公式评估策略μ:
[0117]qμ
(s
t
,ai,η
μ
)=e[reward γq
μ
(s
t 1
,μ(s
t 1
,ηq),η
μ
)]
[0118]
其中,γ为衰减因子,ηq为actor-critic网络参数。
[0119]
7)资源分配器计算目标值
[0120][0121]
其中,reward表示奖励函数,γ为衰减因子,q
μ

表示在状态s
t 1
下 采用策略μ

的q评估值,ηq′
为critic网络中的target策略网络参数, η
μ

为actor网络中的target策略网络参数。
[0122]
8)采用最小化均方差损失函数计算actor-critic网络参数ηq:
[0123][0124]
其中x表示经验重放池中经验数量,q
μ
表示在状态s
t
下采用动作ai并且一直采用策略μ的q值。
[0125]
9)采用蒙特卡洛法衡量策略μ更新actor-critic网络参数:
[0126][0127]
ηq′

vηq (1-v)ηq′
[0128]
η
μ



μ
(1-v)η
μ

[0129]
其中,表示梯度,v为更新因子,值为0.001。
[0130]
10)重复步骤3)~9),直到actor-critic网络收敛,则得到了双 边利益均衡目标函数的最优解。
[0131]
本发明通过与云边环境进行交互,获取环境信息,并根据环境信 息的变化做出相应的分配动作,实现最优的资源分配。本发明采用 mo-fjspw数据集与已有方法(nsga-ii、msql、icpso)进行了多 角度的性能对比。本发明采用用户收益与服务商收益之比做为衡量双 利益均衡的性能指标,如图3可知,本发明在不同的用户数目下均能 获得最高的比率,这证明了本发明方法在利益均衡的优越性。图4可 知,本发明方法在不同用户数量下都具有较高的平均资源利用率,效 果明显优于其它三种方法。图5可知,平均任务完成时间相比其他方 法在不同用户数目下均具有优势。
[0132]
最后需要说明的是,以上具体实施方式仅用以说明本专利技术方 案而非限制,尽管参照较佳实施例对本专利进行了详细说明,本领域 的普通技术人员应当理解,可以对本专利的技术方案进行修改或者等 同替换,而不脱离本专利技术方案的精神和范围,其均应涵盖在本专 利的权利要求范围当中。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献