1.本发明涉及计算机无线通信技术领域,具体涉及一种基于深度强 化学习的无线供电系统的卸载策略方法。
背景技术:
2.物联网设备如传感器、摄像机和可穿戴设备等,由于计算能力、 电源和存储器的限制,在支持交互式在线游戏和人脸识别等先进应用 方面存在着计算瓶颈。这个挑战可以通过移动边缘计算(mec)技术来 解决。在mec技术中,移动设备将计算任务卸载到物联网设备的无 线接入中的mec设备,如基站、接入点(access point,ap)、笔记本电 脑和智能手机。通过利用mec设备的计算、缓存和功率资源,计算 卸载可以减少计算延迟,节省电池寿命,甚至提高计算密集型物联网 应用的安全性。能量收集元件是另一种有希望延长电池寿命并为物联 网设备提供满意质量体验的技术。由于无线功率传输(wireless powertransmission,wpt)技术的最新进展,无线设备(wireless device,wd) 的电池可以在空中连续充电,而无需更换电池。同时随着移动边缘计 算技术的发展,可以将无线设备中一些高运算力的任务卸载到边缘服 务器。这两种技术的发展,使无线设备突破了其使用时间短和计算能 力低的限制。
3.mec使得任务处理变得高效,有大量文献研究了mec技术。这 些文献大多通过优化任务分配或资源分配来最小化能耗或最大化计 算效率,如dynamic task offloading and scheduling for low
‑
latencyiot services in multi
‑
access edge computing;dynamic resource andtaskallocation for energy minimization in mobile clound systems; mobile edge computing:a survey),并没有考虑平衡用户设备的计算 量,会导致信道资源较差的用户设备无法完成计算任务,造成任务成 功率的下降,同时并没有考虑电池损耗问题,在计算密集型系统中, 频繁的深度充放电会对电池造成较大伤害,使电池的寿命极低。
技术实现要素:
4.针对上述问题,本发明提出一种基于深度强化学习的无线供电系 统的卸载策略方法,以无线信道的时变性为基础对边缘无线网络进行 建模。构建在保证智能终端电池寿命基础下的网络计算速率和任务成 功率最大化问题。采用基于深度强化学习理论框架下的在线卸载算 法,并将联合优化问题转化为二进制卸载等子问题,设计联合优化任 务卸载决策和无线资源分配方案。通过利用合理的无线资源分配和卸 载决策,实现了在保证电池寿命的基础上达到网络计算速率和任务成 功率的最大化。
5.基于深度强化学习的无线供电系统的卸载策略方法,具体步骤包 括如下:
6.步骤1,建立能量采集环境下的多用户mec系统模型;
7.步骤2,将多用户mec系统模型转化为优化问题;
8.步骤3,将优化问题根据能量采集模式、本地计算模式和mec 卸载计算模式分解成
三个子问题用以后续求解;
9.步骤4,构建深度强化学习框架,根据信道增益判断请求设备是 否在本地完成计算任务,若是,则选择本地计算模式,计算完成后流 程结束;若否,则继续执行后续步骤;
10.步骤5,选择卸载计算模式,再解决卸载计算模式下的资源分配 优化问题。
11.步骤6,将获得的结果添加到深度强化学习框架的重放存储器中 进行迭代。
12.进一步地,在步骤1中,所建立能量采集环境下的多用户mec 系统模型包括一个集成无线供电传输功能和边缘服务器的混合接入 点、n个请求设备。
13.进一步地,在步骤2中,所述建立的优化问题具体包括目标函数 和约束条件;
14.其中,所述目标函数是:
[0015][0016]
式(1)为求出无线系统中计算的最大收益值,其中,p
o,i
为卸载计 算产生的收益;p
l,i
为本地计算产生的收益;h表示信道增益;x
i
表示 设备i的卸载动作,x
i
=1表示将任务卸载至边缘服务器,此时设备 i∈m1,x
i
=0表示将任务在本地进行计算,此时设备i∈m0;a表示 设备i能量采集的时间;τ
i
表示卸载情况下设备i的卸载时间;f
i
表示本 地计算时设备i计算速度;p
i
表示卸载计算时设备设备i的发射功率;
[0017]
所述约束条件具体包括:
[0018]
wd
i
在mec卸载计算模式下的时间约束条件:
[0019][0020]
式中,i∈m1表示选择卸载计算的用户设备的序号,τ
i
表示选择卸 载计算的用户设备wd
i
卸载任务所花费的时间,a表示能量采集所花 时间;设信道相干时间t为1,由于采用时分复用方式所以各部分时 间之和小于信道相干时间;
[0021]
wd
i
在本地计算模式下的能耗约束条件:
[0022][0023]
式中k
i
为处理器芯片的计算能效系数,f
i
代表本地处理器的处理 速度,t
i
为执行本地计算任务所需时间,e
i
为用户设备在能量采集阶 段获得的能量,b
i,p
为电池在时隙开始时的电量,i∈m0表示选择本地 计算的用户设备,此时x
i
=0;
[0024]
wd
i
在mec卸载计算模式下的能耗约束条件:
[0025][0026]
p
i
为用户设备wd
i
的发射功率,e
i
为用户设备在能量采集阶段获 得的能量,b
i,p
为电池在时隙开始时的电量,时隙结束后电池电量表 示为b
i,n
,其中p,n用于区分时隙开始时电池电量和时隙结束后的电池 电量,i∈m1表示选择卸载计算的用户设备,此时x
i
=1;
[0027]
wd
i
的模式选择约束:
[0028]
x
i
={0,1}
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(5)
[0029]
x
i
=1时无线用户设备将任务卸载到边缘服务器,x
i
=0时无线 用户设备进行本地计算。
[0030]
进一步地,在步骤4中,卸载行为的产生依赖于dnn的使用, dnn的特征是其嵌入的参数θ,θ为连接隐藏神经元的权重;在第t 个时间帧中,dnn以信道增益h
t
作为输入,根据θ
t
参数化的当前卸 载策略θ
t
为t时刻连接隐藏神经元的权重,输出一个松弛的卸载 动作每个条目松弛到0到1之间的连续值,然后将松弛的动作量 化为k个二进制卸载动作,当卸载动作为0时代表设备在本地完成 计算,否则代表设备将任务卸载至边缘服务器计算。
[0031]
进一步地,在步骤5中,解决卸载计算模式下的资源分配优化问 题具体为:通过设置电池电量的门限值对设备发射功率和用户设备计 算能力作出预估计,将四变量优化问题转化为二变量优化问题,结合 双段搜索算法和拉格朗日乘子法得到最优值。
[0032]
进一步地,在步骤6中,将获得的结果添加到深度强化学习框架 的重放存储器中,从存储器中提取一批训练样本来训练,相应地更新 其参数,生成新的卸载决策,此后,随着新的信道实现被观察到,通 过该种迭代重复以改进卸载策略。
[0033]
本发明的有益效果是:将wpt技术应用于卸载策略,充分考虑了 系统计算效率,任务成功率和电池电量的变化以及无线用户和边缘服 务器之间的无线通信环境,提出了一个基于深度强化学习的联合卸载 调度解决方案;通过设置电池电量的门限值对设备发射功率和用户设 备计算能力作出预估计,将四变量优化问题转化为二变量优化问题, 结合双段搜索算法和拉格朗日乘子法得到最优值,降低了计算复杂 度;利用了深度强化学习和拆分成子问题的方法提升所提算法的收敛 性能和训练效率。首先,使用基于深度强化学习的在线算法框架来设 计和训练算法,保证算法的可靠性和稳定性。其次,将原始问题转化 为三个子问题,降低了计算的收敛时间同时避免了维数灾难问题。
附图说明
[0034]
图1是本发明实施例中的流程示意图。
[0035]
图2是本发明实施例中关于mec卸载和资源分配算法框架图。
[0036]
图3是本发明实施例中不同用户设备在不同计算模式下的计算 速率图。
[0037]
具体实施方式
[0038]
下面结合说明书附图对本发明的技术方案做进一步的详细说明。
[0039]
为了更清楚地说明本发明的技术方案,下面结合附图对本发明的 技术方案做进一步的详细说明:如图1所述;对于步骤1:图1展示 了本发明的系统模型,模型中存在着两种设备分别是:一个集成无线 供电传输功能和边缘服务器的混合接入点,n个请求设备。在一个 mec无线网络中包含n个无线可充电设备wd
i
和一个混合接入点ap, 其中n表示为集合n={1,
…
,n}。ap是一个带有稳定电源和充足计 算能力的服务器,可以向每个wd广播能量。每个wd都携带有电池 装置,可以存储服务器的射频能量,将其用于自身的计算和传输。wd
i
根据信道条件和自身能源决定将任务卸载到ap端计算还是在本地计 算。使用两个互斥集m0和m0来表示分别在模式0和模式1中运行的 wd
s
(s表示复数,表示多个用户设备)的索引,因此m=m0∪m1= {1,
…
,n}是所有wd
s
的集合。
[0040]
将ap对每个设备执行一次操作的时间设置为t,t为固定的时 间长度,但t必须小于信道的相干时间以保证在每个t时间内无线 信道的信道增益都不会改变。为了避免相互干扰,每个wd的通信和 能量收集电路以时分多路复用(time
‑
division
‑
multiplexing,
tdd)方式 运行。电路结构也采用了类似的tdd电路,实现了与wd
s
的能量传 输和通信分离。时隙t可以分为三个部分,分别是at,a∈[0,1],为 ap将能量广播到wd的时间,τ
i
t为wd
i
将任务卸载到ap的时间, σ
i
t为ap将处理后的任务传回wd
i
的时间,σ2t为ap将处理后的 任务传回wd2的时间。由于ap处理后的数据量很小所以σ1t,σ2t (σ1t是ap将处理后的任务传回wd1的时间)可以忽略不记。此外, 考虑到深度充放电对电池造成的损害,应该尽量使电池中的电量不低 于最大电量的20%。
[0041]
进一步的,在步骤2中,所述建立的优化问题具体包括目标函数 和约束条件;
[0042]
其中,所述的目标函数是:
[0043][0044]
式(1)为求出无线系统中计算的最大收益值,其中p
o,i
为卸载计算 产生的收益,p
l,i
为本地计算产生的收益。
[0045]
h,x
i
,a,τ
i
,f
i
,p
i
分别表示信道增益;设备i的卸载动作,x
i
=1表 示将任务卸载至边缘服务器,此时设备i∈m1,x
i
=0表示将任务在 本地进行计算,此时设备i∈m0;设备i能量采集的时间;卸载情况下 设备i的卸载时间;本地计算时设备i计算频率和卸载计算时设备设备i 的发射功率。
[0046]
所述的约束条件具体包括:
[0047]
一、wd
i
在mec卸载计算模式下的时间约束条件是:
[0048][0049]
式中,i∈m1表示选择卸载计算的用户设备,τ
i
表示选择卸载计算 的用户设备wd
i
卸载任务所花费的时间,a表示能量采集所花时间。 假设信道相干时间t为1,由于采用时分复用方式所以各部分时间之 和小于信道相干时间。
[0050]
二、wd
i
在本地计算模式下的能耗约束条件是:
[0051][0052]
式中k
i
为处理器芯片的计算能效系数,f
i
代表本地处理器的处理 速度,t
i
为执行本地计算任务所需时间,e
i
为用户设备在能量采集阶 段获得的能量,b
i,p
为电池的在时隙开始时的电量,i∈m0表示选择本 地计算的用户设备。
[0053]
三、wd
i
在mec卸载计算模式下的能耗约束条件是:
[0054][0055]
p
i
为用户设备wd
i
的发射功率,e
i
为用户设备在能量采集阶段获 得的能量,b
i,p
为电池的在时隙开始时的电量。
[0056]
三、wd
i
的模式选择约束是:
[0057]
x
i
={0,1}
ꢀꢀꢀꢀꢀꢀꢀꢀ
(5)
[0058]
x
i
=1时无线用户设备将任务卸载到边缘服务器,x
i
=0时无线 用户设备进行本地计算。
[0059]
对于步骤2:目标函数是为卸载计算产生的收益和本地计算产生 的收益之和。
[0060]
具体的,能量采集阶段本地设备获得的能量为:
[0061]
e
i
=μph
i
at
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(6)
[0062]
其中μ∈(0,1)表示能量收获效率,p表示ap发射功率。利用收 集的能量,每个wd需要在一个时间框架结束之前完成一个优先级计 算任务。h
i
对应代表第i个设备的信道增益,t为信道相干时间。
[0063]
本地计算时本地计算速度为:
[0064][0065]
wd在本地执行计算任务的同时,也能收到ap广播给它的能量 e
i
。假设当前设备中电池电量表示为b
i,p
,电池的最大容量为b
max
,l
i
表示为wd
i
在当前时隙开始时产生的任务比特数,f
i
≤f
max
代表本地 处理器的处理速度,可以表示为1秒钟cpu的周期数,0≤t
i
≤t为执 行本地计算任务所需时间,为处理1bit任务所需周期数。所以t
i
时 间内本地计算处理的任务量为当时任务被视为丢弃,消耗 的能量为其中k
i
为处理器芯片的计算能效系数。
[0066]
本地计算产生的收益为:
[0067][0068]
本地计算产生的收益为本地计算速率与为了防止电池深度放电 产生的惩罚之和,当电池电量小于20%时,系统会产生一个惩罚,惩 罚因子为γ。式中β也为惩罚因子,代表任务被丢弃产生的惩罚。
[0069]
卸载计算时系统的传输速率为:
[0070][0071]
其中b表示通信带宽,n0表示接收器噪声功率。v
u
>1表示任务 分流中的通信开销,例如数据包头和加密。p
i
表示第i个wd的发射 功率。
[0072]
卸载计算产生的收益是:
[0073][0074]
式(6)中,为卸载计算时的传输速率,ρi(l
o,i
<l
i
) 为当设备没有成功完成任务产生的惩罚,γi(p
i
>0.8((e
i
b
i,p
))为当 电池消耗的电量超过总电量80%时产生的惩罚,其中惩罚因子分别为 λ,γ。
[0075]
综上,本发明优化问题表述为:
[0076][0077][0078][0079]
p
i
≤(e
i
b
i,p
)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(11d)
[0080]
c
i
={0,1}
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(11e)
[0081][0082]
进一步的,在步骤4中目标是设计一个卸载策略函数π,一旦在 每个时间框架的开始接收到信道信息就能快速产生最优卸载 行为x
*
∈{0,1}
n
。这项政策为:
[0083]
π:h
→
x
*
ꢀꢀꢀꢀꢀꢀꢀꢀ
(12)
[0084]
如图3所示,该框架由卸载动作生成和卸载策略更新两个交替阶 段组成。卸载行为的产生依赖于dnn的使用,dnn的特征是其嵌入 的参数θ,例如连接隐藏神经元的权重。在第t个时间帧中,dnn以 信道增益h
t
作为输入,根据θ
t
参数化的当前卸载策略输出一个松 弛的卸载动作(每个条目松弛到0到1之间的连续值),然后将松 弛的动作量化为k个二进制卸载动作,最后通过计算资源分配方案 的可实现计算速率选择一个最佳动作相应的作为h
t
的解 输出,网络采取卸载动作接收奖励,并将新获得的状态动作对添加到重放存储器中。
[0085]
在第t时间帧的策略更新阶段,从存储器中提取一批训练样本来 训练dnn,dnn相应地将其参数从θ
t
更新为θ
t 1
(相当于卸载策略 )。在下一时间帧中使用新的卸载策略根据观测到的新信 道h
t 1
生成卸载决策此后,随着新的信道实现被观察到,这样 的迭代重复,并且dnn的策略被逐渐改进。
[0086]
进一步的,在步骤5中,解决卸载计算模式下的资源分配优化问 题使用的方法是通过设置电池电量的门限值对设备发射功率和用户 设备计算能力作出预估计,将四变量优化问题转化为二变量优化问 题,结合双段搜索算法和拉格朗日乘子法得到最优值,具体操作步骤 如下。
[0087]
考虑到(为最优的f
i
,p
i
)取值的可预估计性和五变量 优化算法的复杂性,可以先将p2中的f
i
,p
i
确定。若不考虑电池电量 和任务成功率的因素,系统总收益为:
[0088][0089]
s.t(11b)(11c)(11d)(11f)
[0090]
参考文献(computation rate maximization for wireless powered mobile
‑
edge computing with binary computation offlfloading)可知时取得本地计算最优值,时取得卸载计算最优值, 则系统总收益变为:
[0091][0092]
s.t(11b)(11c)(11d)(11f)
[0093]
其中利用拉格朗日乘子法将拉格朗日乘子引 入约束,形成
部分拉格朗日乘子:
[0094][0095]
式中v为拉格朗日乘子。
[0096]
对应的对偶函数为:
[0097][0098]
凸优化问题转化为:
[0099]
计算得到:
[0100][0101]
其中,
[0102][0103]
w(x)为lambert
‑
w函数,是v的递减函数,当v
→
0时 v
→
∞时
[0104]
将式(17)代入得到a
*
作为τ
*
函数的半闭形式,a
*
为a的最优解,τ
*
为τ的最优解,v
*
为v的最优解:
[0105][0106]
给定的单调性,可以得到p1(v)是v中的一个增函数,当v
→ꢀ
0时p1(v)
→
0,v
→
∞时p1(v)
→
1,可以得到关于v
*
的最优值:
[0107][0108]
在式(21)中,通过对进行双段搜索,可以有效地得到最优 的v,从而找到满足条件的唯一v,其中是一个足够大的值。既然获 得了最优v
*
,那么可以使用(18)和(20)直接计算最优{a
*
,τ
*
}。由于凸 性,原始最优值和对偶最优值是相同的。
[0109]
若考虑电池电量和任务成功率的因素,当由于设置了电池消耗电 量的最高门限值为0.8b
max
,因此可以将取值框定在电池耗能的 [0.8
‑
1.0]之间然后取分辨率为0.01均匀遍历电池耗能[0.8
‑
1.0]的值得 到m个候选取值f
m
和p
m
。将f
m
,p
m
代入式(18)的通过双段搜 索算法得出最佳值。
[0110]
具体所述:如图3所述,图3总共展示了3种不同数量的设备在 3种不同方案下的计算速率的仿真结果比较,三种方案为:1)、本 地计算模式,2)、卸载计算模式,3)、本发明提
出的计算方案。
[0111]
仿真的参数设置如下所示:ap的发射功率为3w,能量转换效率 为0.7,ap发送能量的能量转化效率μ=0.51。信道在一个时隙内保持 静态,在不同时间段遵循自由空间路径损耗模型其中a
d
=4.11为天线增益,f
c
=915mhz表示载波频率,d
e
=2.8 表示路径损耗指数,电池最大电量b
max
=15,电池的初始值为最大 电量的一半。假设处理器芯片的计算能效系数相等,为k
i
=10
‑
26
,i= 1
…
n。对于所有的用户,处理1bit任务所需周期数为100,数据卸 载时的传输带宽b为2mhz,接收端的噪声功率为n0=10
‑
10
,v
u
= 1.1。仿真平台为一台带有2.1ghz的处理器和16gb内存的笔记本电 脑。
[0112]
图3比较了不同卸载算法在不同无线用户设备数目下的计算速 率性能,实验结果表明,该算法具有近似最优的性能,明显优于边缘 计算和局部计算算法。
[0113]
综上所述本发明研究了多用户二进制卸载计算结构下的卸载策 略与资源分配联合优化方案,考虑了系统吞吐量、任务丢弃率与电池 损耗,提出了以最大化系统总收益为目标的优化问题,并使用深度强 化学习为计算框架实现了对该优化问题的求解。首先根据信道增益通 过dnn神经网络算法得出卸载松弛变量,并采用保序量化算法得出 一组卸载方案,然后对卸载发送功率和本地处理速率作预估计得出一 组候选值并通过二分搜索算法得出最佳资源分配方案,最后迭代比较 不同卸载方案下的系统收益值,确定出系统最大收益值和最佳卸载方 案。
[0114]
以上所述仅为本发明的较佳实施方式,本发明的保护范围并不以 上述实施方式为限,但凡本领域普通技术人员根据本发明所揭示内容 所作的等效修饰或变化,皆应纳入权利要求书中记载的保护范围内。
再多了解一些
本文用于企业家、创业者技术爱好者查询,结果仅供参考。