一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

大规模用户任务卸载方法、装置、计算机设备和存储介质与流程

2021-11-22 13:26:00 来源:中国专利 TAG:


1.本技术涉及通信领域资源分配技术领域,特别是涉及一种大规模用户任务卸载方法、装置、计算机设备和存储介质。


背景技术:

2.随着通信技术的不断发展,催生出大量新兴移动应用,例如云游戏、虚拟现实(virtual reality,vr)和增强现实(augmented reality,ar)等。为了满足而此类应用正常工作。任务卸载技术应运而生,任务卸载技术利用通信技术将终端设备中计算密集型任务卸载到计算资源充足的服务器端进行处理,然后再由服务器端将计算结果回传至终端设备,从而实现了计算能力和时延的双重优化。但是由于云计算中卸载端服务器和终端设备端的终端设备相距甚远,导致其传输时延一直远高于计算任务的可容忍时延要求,使得终端设备体验较差。然而,近年来,将终端设备中计算密集型任务卸载到计算资源充足的边缘基站端进行处理,成为了研究的热点问题。
3.在传统方法中,以凸优化、博弈论等为代表的传统算法,在多个终端设备同时卸载任务时,不会进行多个终端设备之间的通信。
4.因此,上述传统方法中,当存在多个终端设备同时卸载任务时,可能会出现多个终端设备同时将任务卸载到同一基站的情况,从而导致基站资源不足难以完成任务的现象。


技术实现要素:

5.基于此,有必要针对上述技术问题,提供一种大规模用户任务卸载方法、装置、计算机设备和存储介质,能够解决多个终端设备如何协作卸载任务的问题。
6.第一方面,提供了一种大规模用户任务卸载方法,该方法包括:获取待卸载的目标任务的任务属性信息以及各候选基站被对应设备的相邻终端设备选择的概率分布;获取与终端设备关联的多个候选基站的属性信息以及终端设备与各候选基站之间的信道估计信息;将任务属性信息、各候选基站被对应设备的相邻终端设备选择的概率分布、多个候选基站的属性信息以及终端设备与各候选基站之间的信道估计信息输入至预设深度强化学习模型中,确定目标任务对应的目标基站,并输出目标基站的标识信息对应的目标评价值;目标评价值用于表征将目标任务卸载到目标基站的匹配度,其中,预设深度强化学习模型包括图卷积神经网络,图卷积神经网络用于对预设深度强化学习模型的输入数据进行至少两次特征提取;将目标任务卸载至目标基站。
7.在其中一个实施例中,预设深度强化学习模型包括目标演员网络和目标评论家网络,将任务属性信息、各候选基站被对应设备的相邻终端设备选择的概率分布、多个候选基站的属性信息以及终端设备与各候选基站之间的信道估计信息输入至预设深度强化学习模型中,确定目标任务对应的目标基站,并输出目标基站的标识信息对应的目标评价值,包括:将任务属性信息、多个候选基站的属性信息以及终端设备与各候选基站之间的信道估计信息输入至目标演员网络,并输出目标基站的标识信息;将任务属性信息、多个候选基站
的属性信息、终端设备与各候选基站之间的信道估计信息、目标基站的标识信息以及各候选基站被对应设备的相邻终端设备选择的概率分布输入至目标评论家网络,输出目标基站的标识信息对应的目标评价值。
8.在其中一个实施例中,预设深度强化学习模型包括回报函数,将任务属性信息、各候选基站被对应设备的相邻终端设备选择的概率分布、多个候选基站的属性信息以及终端设备与各候选基站之间的信道估计信息输入至预设深度强化学习模型中,确定目标任务对应的目标基站,还包括:利用回报函数计算目标回报值,目标回报值用于表征将目标任务卸载到目标基站对应的时延数据以及能耗数据。
9.在其中一个实施例中,预设深度强化学习模型包括目标演员网络和目标评论家网络,目标演员网络中包括至少两层图卷积神经网络,目标评论家网络包括至少两层图卷积神经网络,将任务属性信息、各候选基站被对应设备的相邻终端设备选择的概率分布、多个候选基站的属性信息以及终端设备与各候选基站之间的信道估计信息输入至预设深度强化学习模型中,确定目标任务对应的目标基站,并输出目标基站的标识信息对应的目标评价值,包括:将任务属性信息、多个候选基站的属性信息以及终端设备与各候选基站之间的信道估计信息输入至目标演员网络中,利用目标演员网络中的至少两层图卷积神经网络对输入数据进行至少两次特征提取,基于提取后的特征,输出目标基站的标识信息;将任务属性信息、多个候选基站的属性信息、终端设备与各候选基站之间的信道估计信息、目标基站的标识信息以及各候选基站被对应设备的相邻终端设备选择的概率分布输入至目标评论家网络中,利用目标评论家网络中的至少两层图卷积神经网络对输入数据进行至少两次特征提取,基于提取后的特征,输出目标基站的标识信息对应的目标评价值。
10.在其中一个实施例中,获取与终端设备关联的多个候选基站的属性信息,包括:终端设备向基站发送广播信息,广播信息用于指示各基站向终端设备发送基站的属性信息;接收到各基站发送的属性信息,根据终端设备的位置信息以及各属性信息中包括的基站的位置信息,确定与终端设备关联的多个候选基站的属性信息。
11.在其中一个实施例中,预设深度强化学习模型的训练过程为:获取预设深度强化学习模型对应的训练集,训练集中包括多个训练任务的属性信息、训练任务对应的多个候选基站的属性信息、训练任务对应的终端设备到各候选基站之间的信道估计信息、训练任务对应的训练基站的标识信息以及各候选基站被对应设备的相邻终端设备选择的概率分布;以训练任务的属性信息、训练任务对应的多个候选基站的属性信息、训练任务对应的终端设备到各候选基站之间的信道估计信息训练任务对应的训练基站的标识信息以及各候选基站被对应设备的相邻终端设备选择的概率分布为输入,训练深度强化学习网络,得到预设深度强化学习模型。
12.在其中一个实施例中,预设深度强化学习模型包括目标演员网络、目标评论家网络以及回报函数,以训练任务的属性信息、训练任务对应的多个候选基站的属性信息、训练任务对应的终端设备到各候选基站之间的信道估计信息训练任务对应的训练基站的标识信息以及各候选基站被对应设备的相邻终端设备选择的概率分布为输入,训练深度强化学习网络,得到预设深度强化学习模型,包括:将训练任务的属性信息、训练任务对应的多个候选基站的属性信息以及训练任务对应的终端设备到各候选基站之间的信道估计信息输入至初始演员网络,输出训练任务对应的训练基站的标识;将训练任务的属性信息、训练任
务对应的多个候选基站的属性信息、训练任务对应的终端设备到各候选基站之间的信道估计信息、各候选基站被对应设备的相邻终端设备选择的概率分布以及训练任务对应的训练基站的标识输入至初始评论家网络中,利用初始评论家网络对输入数据进行特征提取,输出将训练任务卸载到训练基站的训练评价值,训练评价值用于表征将训练任务卸载到任务对应的训练基站的匹配度;利用回报函数计算将训练任务卸载到训练基站对应的训练回报值,训练回报值用于表征将训练任务卸载到训练基站对应的时延数据以及能耗数据;根据训练回报值,训练初始评论家网络,得到目标评论家网络;根据训练评价值以及训练回报值,训练初始演员网络,得到目标演员网络。
13.第二方面,提供了一种大规模用户任务卸载装置,装置包括:
14.第一获取模块,用于获取待卸载的目标任务的任务属性信息以及各候选基站被对应设备的相邻终端设备选择的概率分布;
15.第二获取模块,用于获取与终端设备关联的多个候选基站的属性信息以及终端设备与各候选基站之间的信道估计信息;
16.确定模块,用于将任务属性信息、各候选基站被对应设备的相邻终端设备选择的概率分布、多个候选基站的属性信息以及终端设备与各候选基站之间的信道估计信息输入至预设深度强化学习模型中,确定目标任务对应的目标基站,并输出目标基站的标识信息对应的目标评价值,目标评价值用于表征将目标任务卸载到目标基站的匹配度;其中,预设深度强化学习模型包括图卷积神经网络,图卷积神经网络用于对预设深度强化学习模型的输入数据进行至少两次特征提取;
17.卸载模块,用于将目标任务卸载至目标基站。
18.第三方面,提供了一种计算机设备,包括存储器和处理器,存储器存储有计算机程序,处理器执行计算机程序时实现如上述第一方面任一的大规模用户任务卸载方法。
19.第四方面,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现如上述第一方面任一的大规模用户任务卸载方法。
20.上述大规模用户任务卸载方法、装置、计算机设备和存储介质,获取待卸载的目标任务的任务属性信息以及各候选基站被对应设备的相邻终端设备选择的概率分布;获取与终端设备关联的多个候选基站的属性信息以及终端设备与各候选基站之间的信道估计信息;将任务属性信息、各候选基站被对应设备的相邻终端设备选择的概率分布、多个候选基站的属性信息以及终端设备与各候选基站之间的信道估计信息输入至预设深度强化学习模型中,确定目标任务对应的目标基站,并输出目标基站的标识信息对应的目标评价值,目标评价值用于表征将目标任务卸载到目标基站的匹配度,其中,预设深度强化学习模型包括图卷积神经网络,图卷积神经网络用于对预设深度强化学习模型的输入数据进行至少两次特征提取;将目标任务卸载至目标基站。上述方法中,终端设备不仅获取待卸载的目标任务的任务属性信息以及各候选基站被对应设备的相邻终端设备选择的概率分布,还获取与终端设备关联的多个候选基站的属性信息以及终端设备与各候选基站之间的信道估计信息,从而可以保证终端设备清楚地确定邻居终端设备将卸载任务卸载到哪个基站,最后保证的为各个邻居基站之间相互协作卸载。终端设备将任务属性信息、各候选基站被对应设备的相邻终端设备选择的概率分布、多个候选基站的属性信息以及终端设备与各候选基站之间的信道估计信息输入至预设深度强化学习模型中,确定目标任务对应的目标基站。终
端设备结合任务属性信息、各候选基站被对应设备的相邻终端设备选择的概率分布、多个候选基站的属性信息以及终端设备与各候选基站之间的信道估计信息,基于预设深度强化学习模型确定与目标任务对应的目标基站,且由于预设深度强化学习模型中包括图卷积神经网络,从而解决了不同终端设备可连接基站不同而导致动作空间不一致的问题。此外,上述方法中,通过终端设备与邻居终端设备间相互通信,实现了各终端设备间协作决策,进而实现了系统整体性能的最佳,且有效防止多个终端设备挤占计算资源的情况发生,避免了基站资源不足难以完成任务的现象。此外,预设深度强化学习模型还可以输出目标评价值,从而可以对将目标任务卸载到目标基站的匹配进行评价。
附图说明
21.图1为一个实施例中大规模用户任务卸载方法的应用环境图;
22.图2为一个实施例中大规模用户任务卸载法的流程示意图;
23.图3为一个实施例中大规模用户任务卸载方法中深度强化学习模型的结构示意图;
24.图4为另一个实施例中大规模用户任务卸载方法中图卷积神经网络的结构示意图;
25.图5为一个实施例中大规模用户任务卸载法的流程示意图;
26.图6为一个实施例中大规模用户任务卸载方法中深度强化学习模型的结构示意图;
27.图7为一个实施例中大规模用户任务卸载方法的流程示意图;
28.图8为一个实施例中大规模用户任务卸载方法的流程示意图;
29.图9为一个实施例中大规模用户任务卸载方法的流程示意图;
30.图10为一个实施例中大规模用户任务卸载方法的流程示意图;
31.图11为一个实施例中大规模用户任务卸载装置的结构框图;
32.图12为一个实施例中大规模用户任务卸载装置的结构框图;
33.图13为一个实施例中大规模用户任务卸载装置的结构框图;
34.图14为一个实施例中大规模用户任务卸载装置的结构框图;
35.图15为一个实施例中大规模用户任务卸载装置的结构框图;
36.图16为一个实施例中计算机设备的内部结构图。
具体实施方式
37.为了使本技术的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本技术进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本技术,并不用于限定本技术。
38.本技术提供的大规模用户任务卸载方法,可以应用于如图1所示的应用环境中。其中,终端设备102通过网络与基站104进行通信。终端设备根据终端设备的位置信息,通过与基站之间的通信获取与终端设备对应的多个候选基站的属性信息。其中,终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备,基站104可以者是多个基站组成的服务器集群来实现。
39.在一个实施例中,如图2所示,提供了一种大规模用户任务卸载方法,以该方法应用于图1中的终端设备为例进行说明,包括以下步骤:
40.步骤201,终端设备获取待卸载的目标任务的任务属性信息以及各候选基站被对应设备的相邻终端设备选择的概率分布。
41.具体地,终端设备可以获取到待卸载的目标任务的属性信息,其中,目标任务的任务属性信息可以包括目标任务的数据大小以及目标任务的标识信息等。此外,终端设备还可以通过与邻居终端设备之间的通信连接,获取到各候选基站被对应设备的相邻终端设备选择的概率分布。
42.步骤202,终端设备获取与终端设备关联的多个候选基站的属性信息以及终端设备与各候选基站之间的信道估计信息。
43.具体地,终端设备可以以广播的形式,向周围的基站发送信号,并接收各基站返回的属性信息。其中,各基站返回的属性信息中,可以包括各基站的位置信息。终端设备根据终端设备的位置信息,以及各基站的位置信息,确定与终端设备对应的对个基站,并确定该多个基站对应的属性信息。终端设备根据终端设备的属性信息以及与终端设备关联的多个候选基站的属性信息确定终端设备与各候选基站之间的信道估计信息。
44.步骤203,终端设备将任务属性信息、各候选基站被对应设备的相邻终端设备选择的概率分布、多个候选基站的属性信息以及终端设备与各候选基站之间的信道估计信息输入至预设深度强化学习模型中,确定目标任务对应的目标基站,并输出目标基站的标识信息对应的目标评价值。
45.其中,目标评价值用于表征将目标任务卸载到目标基站的匹配度。预设深度强化学习模型包括图卷积神经网络,图卷积神经网络用于对预设深度强化学习模型的输入数据进行至少两次特征提取。
46.具体地,终端设备将任务属性信息、各候选基站被对应设备的相邻终端设备选择的概率分布、多个候选基站的属性信息以及终端设备与各候选基站之间的信道估计信息输入至预设深度强化学习模型中,终端设备利用预设深度强化学习模型中的图卷积神经网络对输入的数据进行至少两次特征提取,并基于提取后的特征,确定目标任务对应的目标基站。
47.其中,深度强化学习模型作为当下研究的热点,已经广泛应用于各个研究领域。如图3所示,深度强化学习模型在具体应用场景下用以学习某种应对策略,其通常以环境中可观测状态信息(state s
t
)为输入,终端设备评估后做出相应动作(action a
t
)并作用于环境,进而得到反馈(reward r
t
)用以改进策略。如此循环往复,直至终端设备能够自如应对环境的动态变化。一般来说,强化学习可分为两类:一种是基于价值的方法(如dqn算法),旨在最大化每次所做动作的回报。因此,回报越高,其对应动作越容易被选中;另一中是基于策略的方法,旨在直接学习一个参数化的策略π
θ
。同时,基于策略方法中的参数θ可以利用以下公式通过反向梯度传递来更新:
[0048][0049]
其中,p
π
为状态分布概率。而梯度可根据如下公式计算获得:
[0050]
[0051]
其中,π
θ
(a
t
|s
t
)代表在给定状态信息s
t
时选择动作a
t
的概率。
[0052]
然后,通过反向梯度传导对模型参数进行更新:
[0053][0054]
其中,α是学习过程中的步长设置。
[0055]
在本技术实施例中,主要是基于深度强化学习模型中图学习的多终端设备分布式强化学习算法(multi

agent graph learning based actor critic reinforcement learning,magcac)进行改进,得到预设深度强化学习模型。预设深度强化学习模型用于从多个基站中确定目标任务卸载过程中所需时延最短、且能耗满足预设的约束条件的基站。
[0056]
此外,图卷积神经网络(graph convolution networks,gcn)自2017年诞生以来,一直是研究的热点,并且在多个领域取得了不俗的效果。通常来说,图的结构是十分不规范的,不具有平移不变性,因此无法使用卷积神经网络(cnn)和循环神经网络(rnn)等来提取特征。于是,许多关于图学习理论的工作如雨后春笋般涌现出来。图4中展示了一个多层图卷积网络,其以图结构特征为输入,经过图卷积后输出相应的特征,逐层计算时如下所示:
[0057][0058]
其中,代表图结构的临接矩阵,i
n
则为单位矩阵;w是可学习的权重参数矩阵。σ(
·
)为激活函数,例如relu(
·
)等;h
(l)
∈r
n
×
d
为第l
th
层图卷积神经网络提取后的特征,当l
th
=0时,则h
(0)
=x,x为输入的图结构特征。
[0059]
步骤204,终端设备将目标任务卸载至目标基站。
[0060]
具体地,在确定了目标任务对应的目标基站之后,终端设备可以将目标任务卸载到目标基站,该目标基站对目标任务进行计算之后,将计算结果发送至终端设备。
[0061]
上述任务卸载方法中,终端设备获取待卸载的目标任务的任务属性信息以及各候选基站被对应设备的相邻终端设备选择的概率分布;获取与终端设备关联的多个候选基站的属性信息以及终端设备与各候选基站之间的信道估计信息;将任务属性信息、各候选基站被对应设备的相邻终端设备选择的概率分布、多个候选基站的属性信息以及终端设备与各候选基站之间的信道估计信息输入至预设深度强化学习模型中,确定目标任务对应的目标基站,其中,预设深度强化学习模型包括图卷积神经网络,图卷积神经网络用于对预设深度强化学习模型的输入数据进行至少两次特征提取;将目标任务卸载至目标基站。上述方法中,终端设备不仅获取待卸载的目标任务的任务属性信息以及各候选基站被对应设备的相邻终端设备选择的概率分布,还获取与终端设备关联的多个候选基站的属性信息以及终端设备与各候选基站之间的信道估计信息,从而可以保证终端设备清楚地确定邻居终端设备将卸载任务卸载到哪个基站,最后保证的为各个邻居基站之间相互协作卸载。终端设备将任务属性信息、各候选基站被对应设备的相邻终端设备选择的概率分布、多个候选基站的属性信息以及终端设备与各候选基站之间的信道估计信息输入至预设深度强化学习模型中,确定目标任务对应的目标基站。终端设备结合任务属性信息、各候选基站被对应设备的相邻终端设备选择的概率分布、多个候选基站的属性信息以及终端设备与各候选基站之间的信道估计信息,基于预设深度强化学习模型确定与目标任务对应的目标基站,且由于预设深度强化学习模型中包括图卷积神经网络,从而解决了不同终端设备可连接基站不同
而导致动作空间不一致的问题。此外,上述方法中,通过终端设备与邻居终端设备间相互通信,实现了各终端设备间协作决策,进而实现了系统整体性能的最佳,且有效防止多个终端设备挤占计算资源的情况发生,避免了基站资源不足难以完成任务的现象。此外,预设深度强化学习模型还可以输出目标评价值,从而可以对将目标任务卸载到目标基站的匹配进行评价。
[0062]
在本技术一个可选的实施例中,预设深度强化学习模型包括目标演员网络、目标评论家网络以及回报函数,如图5所示,上述步骤203中的“将任务属性信息、各候选基站被对应设备的相邻终端设备选择的概率分布、多个候选基站的属性信息以及终端设备与各候选基站之间的信道估计信息输入至预设深度强化学习模型中,确定目标任务对应的目标基站,并输出目标基站的标识信息对应的目标评价值”,可以包括以下步骤:
[0063]
步骤501,终端设备将任务属性信息、各候选基站被对应设备的相邻终端设备选择的概率分布、多个候选基站的属性信息以及终端设备与各候选基站之间的信道估计信息输入至目标演员网络中,输出目标基站的标识信息。
[0064]
具体地,终端设备将任务属性信息、各候选基站被对应设备的相邻终端设备选择的概率分布、多个候选基站的属性信息以及终端设备与各候选基站之间的信道估计信息输入至目标演员网络中,终端设备可以利用目标演员网络中包括的至少两层特征提取层对输入的数据进行特征提取,并利用目标演员网络中的全连接层对提取的特征进行计算,最后输出目标基站的标识信息。
[0065]
具体地,在本技术实施例中,预设深度强化学习模型主要是基于深度强化学习模型中图学习的多终端设备分布式强化学习算法(multi

agent graph learning based actor critic reinforcement learning,magcac)进行改进。该算法以终端设备为终端设备,并将整个边缘计算系统视为环境,并分为演员网络和评论家网络两部分。
[0066]
在本技术实施例中,观测状态是指模型对环境的观测,观测状态中特征选取是否合理直接影响到终端设备是否能够学习到有效的应对策略。该算法将系统中的终端设备和基站均视为节点,从而根据终端设备和基站之间的可连接性绘制出对应的图结构g。为便于实现,本技术实施例将终端设备视作特殊的基站,即由于该系统中终端设备并不支持计算任务完全在本地计算,故终端设备作为基站的特征信息全部被置0。另外需要注意的是,本技术实施例只考虑终端设备和基站的连接性,并未考虑终端设备之间的连接性。因此,本技术实施例将终端设备和基站的节点特征分别记作和终端设备i对应的图结构如下:
[0067][0068]
在本技术实施例中则将时刻t的图结构作为终端设备i的状态观测信息即考虑到任务卸载过程中,时延和能耗主要受以下因素影响,分别为:基站计算能力f
j
、可达到传输速率r
i,j
(t)以及基站计算资源被挤占情况。因此,将可连接基站计算能力和可达到传输速率作为主要观测状态信息,于是,对于终端设备i,而对于基站计算资源被挤占的情况,则需要视邻居设备之间的协作情况而定。
[0069]
在时刻t,终端设备通过评估当下状态信息进而得出对应动作:
[0070][0071]
其中,动作为one

hot编码,即选择卸载的基站记作1,其他记作0。但是,由于ddpg算法中要求动作为连续的,所以本技术实施例将ddpg算法输出重新表示,并且离散化为上述one

hot编码形式。
[0072]
此外,如图6所示,在本技术实施例中,magcac算法中演员网络结构以图结构g作为输入,并使用两层gcn来提取特征,最后以一个多层感知机(multilayer perceptron,mlp)作为输出。由于每个智能体动作空间不同,所以本文将多层感知机的输出结果和对应智能体的掩码相乘,获得最终的动作。
[0073]
因此,智能体i在确定策略下的梯度可计算得:
[0074][0075]
同理,magcac算法中评论家网络结构同样以图结构g作为输入,并使用两层gcn来提取特征,最后以一个多层感知机(multilayer perceptron,mlp)作为输出。因此,评论家网络的损失函数可计算得:
[0076][0077]
其中,则是目标动作值计算如下:
[0078][0079]
而表示各基站被终端设备i的相邻终端设备选择的概率分布,g
i
代表终端设备i的相邻终端设备的集合:
[0080][0081]
步骤502,终端设备将任务属性信息、多个候选基站的属性信息、终端设备与各候选基站之间的信道估计信息、目标基站的标识信息以及各候选基站被对应设备的相邻终端设备选择的概率分布输入至目标评论家网络,输出目标基站的标识信息对应的目标评价值。
[0082]
具体地,终端设备将各候选基站被对应设备的相邻终端设备选择的概率分布输入至目标评论家网络,利用评论家网络中的至少两层特提取层对输入数据进行特征提取,输出目标基站的标识信息对应的目标评价值。
[0083]
步骤503,终端设备利用回报函数计算目标回报值。
[0084]
其中,目标回报值用于表征将目标任务卸载到目标基站对应的时延数据以及能耗数据。
[0085]
具体地,回报值用来表征将目标任任务卸载到目标基站对应的任务时延情况和能耗情况。回报值越高说明将目标任务卸载到目标基站对应的任务时延越短,能耗越小。
[0086]
示例性的,本技术实施例中的是回报函数以期望在满足能耗预算的约束条件下,使得任务时延最小化。在给定动作时,其对应回报函数依据如下公式计算得知:
[0087][0088]
其中,为一个非正数,表示能耗惩罚上限。该回报函数能够在兼顾电池能耗安全情况下,始终以最小化任务时延为目标。当能耗ε
i
(t)低于时,回报函数中能耗部分奖励为0,即在保证能耗安全的情况下,本技术实施例对于任务传输能耗并没有特定限制;当能耗ε
i
(t)高于时,该部分则是负数,即为惩罚,并且该部分惩罚设置有下限因此,在回报函数的引导下,在兼顾任务时延和传输能耗的基础上,终端设备能够学习到一个优异的任务卸载策略,并将给定任务卸载至恰当的基站上。
[0089]
在本技术实施例中,终端设备将任务属性信息、各候选基站被对应设备的相邻终端设备选择的概率分布、多个候选基站的属性信息以及终端设备与各候选基站之间的信道估计信息输入至目标演员网络中,输出目标基站的标识信息。然后,终端设备将各候选基站被对应设备的相邻终端设备选择的概率分布输入至目标评论家网络,输出目标基站的标识信息对应的目标评价值,目标评价值用于表征将目标任务卸载到目标基站的匹配度。此外,终端设备利用回报函数计算目标回报值。此而可以保证将目标任务卸载到目标基站的任务时延最短,且满足能耗约束条件。
[0090]
在本技术一个可选的实施例中,预设深度强化学习模型包括目标演员网络和目标评论家网络,目标演员网络中包括至少两层图卷积神经网络,目标评论家网络包括至少两层图卷积神经网络,目标任务卸载到目标基站的任务时延最短,且满足能耗约束条件,上述步骤203中的“将任务属性信息、各候选基站被对应设备的相邻终端设备选择的概率分布、多个候选基站的属性信息以及终端设备与各候选基站之间的信道估计信息输入至预设深度强化学习模型中,确定目标任务对应的目标基站,并输出目标基站的标识信息对应的目标评价值”,可以包括以下内容:
[0091]
终端设备将任务属性信息、多个候选基站的属性信息以及终端设备与各候选基站之间的信道估计信息输入至目标演员网络中,利用目标演员网络中的至少两层图卷积神经网络对输入数据进行至少两次特征提取,基于提取后的特征,输出目标基站的标识信息。
[0092]
终端设备将任务属性信息、多个候选基站的属性信息、终端设备与各候选基站之间的信道估计信息、目标基站的标识信息以及各候选基站被对应设备的相邻终端设备选择的概率分布输入至目标评论家网络中,利用目标评论家网络中的至少两层图卷积神经网络对输入数据进行至少两次特征提取,基于提取后的特征,输出目标基站的标识信息对应的目标评价值。
[0093]
其中,图卷积神经网络(graph convolution networks,gcn)自2017年诞生以来,一直是研究的热点,并且在多个领域取得了不俗的效果。通常来说,图的结构是十分不规范的,不具有平移不变性,因此无法使用卷积神经网络(cnn)和循环神经网络(rnn)等来提取特征。于是,许多关于图学习理论的工作如雨后春笋般涌现出来。图4中展示了一个多层图卷积网络,其以图结构特征为输入,经过图卷积后输出相应的特征,逐层计算时如下所示:
[0094][0095]
其中,代表图结构的临接矩阵,i
n
则为单位矩阵;w是可学习
的权重参数矩阵。σ(
·
)为激活函数,例如relu(
·
)等;h
(l)
∈r
n
×
d
为第l
th
层图卷积神经网络提取后的特征,当l
th
=0时,则h
(0)
=x,x为输入的图结构特征。
[0096]
具体地,演员网络结构以任务属性信息、多个候选基站的属性信息以及终端设备与各候选基站之间的信道估计信息作为输入,并使用两层gcn对输入的信息进行提取特征,最后利用多层感知机(multilayer perceptron,mlp)对提取的特征进行计算,输出目标基站的标识信息。
[0097]
终端设备将任务属性信息、多个候选基站的属性信息、终端设备与各候选基站之间的信道估计信息、目标基站的标识信息以及各候选基站被对应设备的相邻终端设备选择的概率分布输入至目标评论家网络中,利用目标评论家网络中的至少两层图卷积神经网络对输入数据进行至少两次特征提取,输出目标基站的标识信息对应的目标评价值。
[0098]
其中,目标评价值用于表征将目标任务卸载到目标基站的匹配度。
[0099]
具体地,各候选基站被对应设备的相邻终端设备选择的概率分布输入至目标评论家网络中。终端设备利用评论家网络中的至少两层图卷积神经网络对输入数据进行至少两次特征提取,并利用多层感知机(multilayer perceptron,mlp)对提取的特征进行计算,输出目标基站的标识信息对应的目标评价值。
[0100]
其中,目标评论家网络的损失函数可计算得:
[0101][0102]
其中,则是目标动作值计算如下:
[0103][0104]
而表示终端设备i的相邻终端设备选择各候选基站的概率分布,g
i
代表终端设备i的相邻终端设备的集合:
[0105][0106]
在本技术实施例中,终端设备将任务属性信息、多个候选基站的属性信息以及终端设备与各候选基站之间的信道估计信息输入至目标演员网络中,利用目标演员网络中的至少两层图卷积神经网络对输入数据进行至少两次特征提取,基于提取后的特征,输出目标基站的标识信息。终端设备将任务属性信息、多个候选基站的属性信息、终端设备与各候选基站之间的信道估计信息、目标基站的标识信息以及各候选基站被对应设备的相邻终端设备选择的概率分布输入至目标评论家网络中,利用目标评论家网络中的至少两层图卷积神经网络对输入数据进行至少两次特征提取,基于提取后的特征,输出目标基站的标识信息对应的目标评价值,目标评价值用于表征将目标任务卸载到目标基站的匹配度。上述方法中,利用目标演员网络中的至少两层图卷积神经网络对输入数据进行至少两次特征提取,保证了目标演员网络提取得到的特征的准确性,从而保证了目标演员网络输出的目标基站的标识的准确率较高。此外,利用目标评论家网络中的至少两层图卷积神经网络对输入数据进行至少两次特征提取,保证了目标评论家网络输出的目标评价值的准确性。
[0107]
在本技术一个可选的实施例中,如图7所示,上述步骤202中的“获取与终端设备关
联的多个候选基站的属性信息”,包括:
[0108]
步骤701,终端设备向基站发送广播信息。
[0109]
其中,广播信息用于指示各基站向终端设备发送基站的属性信息。
[0110]
具体地,终端设备可以在卸载目标任务之前,向各终端设备周围的基站发送的广播信息。
[0111]
各基站在接收到终端设备发送的广播信息之后,可以向终端设备发送基站的属性信息,建立与终端设备的之间的连接。
[0112]
步骤702,终端设备接收到各基站发送的属性信息,根据终端设备的位置信息以及各属性信息中包括的基站的位置信息,确定与终端设备关联的多个候选基站的属性信息。
[0113]
具体地,各基站发送的属性信息中可以包括各基站的位置信息,终端设备在接收到各基站发送的属性信息之后,可以根据各属性信息中包括的各基站的位置信息,确定各基站的位置。终端设备可以根据自身的位置信息以及各基站的位置信息,从接收到属性信息的各基站中,选择与终端设备距离相对较近的基站,作为与终端设备对应的多个基站,并确定与终端设备对应的多个候选基站的属性信息。
[0114]
在本技术实施例中,终端设备向基站发送广播信息,并接收到各基站发送的属性信息,根据终端设备的位置信息以及各属性信息中包括的基站的位置信息,确定与终端设备对应的多个候选基站的属性信息。上述方法中,终端设备通过向基站发送广播信息且接收各基站发送的属性信息,确定可以与终端设备建立连接的基站。然后根据终端设备的位置信息以及各属性信息中包括的基站的位置信息,从建立连接的基站中确定与终端设备对应的多个候选基站的属性信息,从而保证终端设备对应的对个基站,可以与终端设备建立稳定连接,且与终端设备距离较近,从而可以保证将目标任务卸载到目标基站需要的任务时延最短,且满足基站的能耗约束条件。
[0115]
在本技术一个可选的实施例中,如图8所示,上述预设深度强化学习模型的训练过程可以包括以下内容:
[0116]
步骤801,终端设备获取预设深度强化学习模型对应的训练集。
[0117]
其中,训练集中包括多个训练任务的属性信息、训练任务对应的多个候选基站的属性信息、训练任务对应的终端设备到各候选基站之间的信道估计信息、训练任务对应的训练基站的标识信息以及各候选基站被对应设备的相邻终端设备选择的概率分布。
[0118]
具体地,终端设备在训练预设深度强化学习模型之前,需要获取到预设深度强化学习模型对应的训练集。终端设备可以获取到多个训练任务的属性信息,其中,多个任务的属性信息可以包括各训练任务的数据大小信息、各训练的标识信息。终端设备还可以通过与基站之间的通信连接,获取到训练任务对应的对个候选基站的属性信息。终端设备可以根据预设的算法,计算将各训练任务卸载到各基站的时延数据和能耗数据,从而根据计算得到的时延数据和能耗数据,从多个候选基站中确定各训练任务对应的目标基站以及目标基站的标识信息。
[0119]
示例性的,在本技术实施例中,定义了一个边缘计算系统,该系统部署有n个微型基站(base station,bs),并且可以为系统内的大规模移动物联网设备(mobile device,md)提供计算服务。为方便表述,不妨将基站表示为ν={1,2,...,n},移动物联网设备表示为μ={1,2,...,m},并且将时间离散为τ个不同的时间间歇(time slot),记作t={1,
2,...,τ}。同时,由于基站分布位置不同,且信号可覆盖能力不同,所以每个基站可服务于不同的终端设备;另外,由于终端设备所处位置的不同,其可连接的基站也是不同。于是,在时间t,终端设备i的可连接基站的集合记作ν
i
(t),基站j的可服务终端设备的集合记作μ
j
(t)。而此时对于任一基站j,其信号覆盖范围内的终端设备若卸载任务至该基站上,则记为1,否则记为0,具体可表示为:
[0120][0121]
示例性的,以一个部署有边缘计算系统的社区场景为例,包括智能手表、智能眼镜和智能手机等在内的多种移动物联网设备随机分布在社区中的任一位置,并在每个时间间隙τ开始时,生成特定大小的计算任务k,在经过本地预处理后将其卸载至选定的边缘基站上进行进一步的计算分析,最后再由基站将处理后的结果返回给终端设备。在此过程中,需要注意以下两点,一是终端设备预处理后的待卸载数据是不可分的,即直接交由选定基站计算分析;二是由于基站计算过后的分析结果相较于需卸载数据要小得多,因此在计算任务时延时下行链路的传输时延可以被忽略。
[0122]
其中,在预处理环节,终端设备通常需要将产生的任务数据加密和打包,然后卸载到基站上进行处理。为便于表述,不妨设终端设备i需在本地处理的数据大小为需卸载到基站端处理的数据大小为相对应的,在时刻t生成的任务,单位数据量在本地计算和基站计算所需的cpu周期数分别为和于是,其在本地预处理时所消耗时延为:
[0123][0124]
其中,f
i
表示终端设备i自身的cpu频率;其本地处理时花费的能耗为:
[0125][0126]
其中,κ
i
为对应设备的能耗系数,该系数通常取决于不同的芯片架构。
[0127]
在该场景下,由于待卸载任务不可分,故其卸载时延通常包含有两部分,分别是:传输时延和计算时延。首先,传输时延是指终端设备i将预处理后的任务传输至被选定的基站j所需要花费的时间。所以,对于终端设备i,其在时刻t的传输时延具体为:
[0128][0129]
其中,是所需传输的内容的大小,r
i,j
(t)则是终端设备i和基站j之间可以达到的上行速率,其具体计算如下:
[0130][0131]
其中,b代表终端设备和可连接基站之间传递数据时可利用的带宽;代表终端设备i和选择基站j之间的信道增益。另外,终端设备统一以功率p
tx
输任务,其间噪声功率表示为σ2,基站端的干扰功率可表示为i
i,j
。其中,信道增益计算公式如下:
[0132][0133]
其中,x代表路径损耗的调节因子;β
i,j
和分别代表快衰落增益系数和慢衰落增
益系数;d
i,j
代表终端设备i和基站j之间的距离;ζ则是路径损耗系数。
[0134]
其次,终端设备i在时刻t产生的任务在边缘服务器上的计算时延可表示如下:
[0135][0136]
其中,代表子单位任务在基站端计算所需的cpu周期数。f
i,j
(t)=f
j
/∑(i
j
(t))代表
[0137]
终端设备i时刻t在基站j上所分得的cpu频率,即当多个任务卸载至同一基站时,该基站将自身算力平均分配至每个任务。
[0138]
因此,对于终端设备i上的任务从预处理到计算完成所需要的总时延为:
[0139][0140]
此外,对于终端设备而言,任务在卸载过程中所花费的能耗,通常包含有将任务传输至基站所需的能耗以及基站将计算结果传输回终端设备时其接收所需的能耗两部分。其中,由于计算结果的数据量相较于待传输数据量十分微小,故此接收能耗可以忽略不计。于是,终端设备i卸载任务时,其传输能耗为:
[0141][0142]
则其总能耗为:
[0143][0144]
此外,当移动边缘系统中终端设备卸载任务时,不可避免的会产生能量消耗。然而,若电池瞬时放电功率较大时,则是有害的,为此本文引入了电池安全系数即终端设备在卸载任务时,能耗应满足如下条件:
[0145][0146]
因此,终端设备卸载任务时,应该在满足能耗约束条件下,实现总时延最小优。此优化问题定义如下:
[0147][0148][0149][0150]
基于上述内容,终端设备可以计算出将该各训练任务卸载到各基站对应的时延数据以及能耗数据,根据计算出的时延数据以及能耗数据,从多个基站中确定出各训练任务对应的目标基站以及目标基站的标识信息。其中,将各训练任务卸载到目标基站对应的任务卸载时延最短,且满足预设的能耗约束条件。
[0151]
步骤802,终端设备以训练任务的属性信息、训练任务对应的多个候选基站的属性信息、训练任务对应的终端设备到各候选基站之间的信道估计信息训练任务对应的训练基站的标识信息以及各候选基站被对应设备的相邻终端设备选择的概率分布为输入,训练深度强化学习网络,得到预设深度强化学习模型。
[0152]
具体地,终端设备可以将各训练任务的属性信息、各训练任务对应的多个候选基站的属性信息以及训练任务对应的终端设备到各候选基站之间的信道估计信息,输入至未
经训练的深度强化学习网络中,并以深度强化学习模型为金标准训练深度强化学习网络,从而得到预设深度强化学习模型。
[0153]
进一步地,上述预设深度强化学习模型在训练时,可以选择adam优化器对预设深度强化学习模型进行优化,从而可以使预设深度强化学习模型能够快速收敛。
[0154]
在上述利用adam优化器对预设深度强化学习模型进行优化时,也可以为优化器设置一个学习率,在这里可以采用学习率范围测试的技术选择最佳学习率。该测试技术的学习率选择过程为:首先将学习率设置为一个很小的值,接着将预设深度强化学习模型和训练样本数据简单的迭代几次,每次迭代完成后增加学习率,并记录每次的训练损失(loss),然后绘制学习率范围测试图,一般理想的学习率范围测试图包含三个区域:第一个区域学习率太小损失基本不变,第二个区域损失减小收敛很快,最后一个区域学习率太大以至于损失开始发散,那么可以将学习率范围测试t图中的最低点所对应的学习率作为最佳学习率。
[0155]
在本技术实施例中,终端设备获取预设深度强化学习模型对应的训练集,终端设备以训练任务的属性信息、训练任务对应的多个候选基站的属性信息以及训练任务对应的终端设备到各候选基站之间的信道估计信息为输入,训练深度强化学习网络,得到预设深度强化学习模型。在本技术实实施例中,预设深度强化学习模型基于训练集训练得到,可以保证预设深度强化学习模型更加准确,从而保证基于预设深度强化学习模型得到的将目标任务卸载到目标基站更加准确。
[0156]
在本技术一个可选的实施例中,预设深度强化学习模型包括目标演员网络、目标评论家网络以及回报函数,如图9所示,上述步骤802中的“以训练任务的属性信息、训练任务对应的多个候选基站的属性信息、训练任务对应的终端设备到各候选基站之间的信道估计信息训练任务对应的训练基站的标识信息以及各候选基站被对应设备的相邻终端设备选择的概率分布为输入,训练深度强化学习网络,得到预设深度强化学习模型”,可以包括以下步骤:
[0157]
步骤901,终端设备将训练任务的属性信息、训练任务对应的多个候选基站的属性信息以及训练任务对应的终端设备到各候选基站之间的信道估计信息输入至初始演员网络,输出训练任务对应的训练基站的标识。
[0158]
其中,初始演员网络可以包括第一演员网络和第二演员网络
[0159]
步骤902,终端设备将训练任务的属性信息、训练任务对应的多个候选基站的属性信息、训练任务对应的终端设备到各候选基站之间的信道估计信息、各候选基站被对应设备的相邻终端设备选择的概率分布以及训练任务对应的训练基站的标识输入至初始评论家网络中,利用初始评论家网络对输入数据进行特征提取,输出将训练任务卸载到训练基站的训练评价值。
[0160]
其中,训练评价值用于表征将训练任务卸载到任务对应的训练基站的匹配度。
[0161]
步骤903,终端设备利用回报函数计算将训练任务卸载到训练基站对应的训练回报值。
[0162]
其中,训练回报值用于表征将训练任务卸载到训练基站对应的时延数据以及能耗数据。
[0163]
步骤904,终端设备根据训练回报值,训练初始评论家网络,得到目标评论家网络。
[0164]
步骤905,终端设备根据训练评价值以及训练回报值,训练初始演员网络,得到目标演员网络。
[0165]
具体的训练和执行过程可以包括以下步骤:
[0166]
1.该模型中包含多个终端设备(智能体),并且每个终端设备均包含有演员网络和评论家网络两部分。其中,演员/评论家网络包含有第一演员/评论家网络和第二演员/评论家网络。而且在训练前第二演员/评论家网络完全由第一演员/评论家网络复制而来;在训练时,第二演员/评论家网络按照一定的规则进行更新,例如,a表示第一演员/评论家网络的参数,b表示第二演员/评论家网络中的参数,则b=αb (1

α)a。
[0167]
2.为方便表示,将“训练任务的属性信息、训练任务对应的多个候选基站的属性信息、训练任务对应的终端设备到各候选基站之间的信道估计信息”称为状态信息;“训练任务对应的训练基站的标识”称之为动作,“各候选基站被选择的概率分布”称之为联合动作。
[0168]
3.执行流程:首先每个终端设备获取训练任务的属性信息、训练任务对应的多个候选基站的属性信息、训练任务对应的终端设备到各候选基站之间的信道估计信息,并将其输入到第一演员网络中,获得训练任务对应的训练基站的标识以及对应的回报值。同时,每个终端设备通过通讯模块获取相邻终端设备所选择的对应基站的标识,并依此计算各候选基站被选择的概率分布。此时,环境中的训练任务的属性信息、训练任务对应的多个候选基站的属性信息、训练任务对应的终端设备到各候选基站之间的信道估计信息更新到下一时刻,并且可以被终端设备获取。最后,终端设备会将上述训练任务的属性信息、上述训练任务对应的多个候选基站的属性信息、上述训练任务对应的终端设备到各候选基站之间的信道估计信息、上述训练任务对应的训练基站的标识、上述各基站的被选择概率分布、上述对应的回报值以及下一时刻对应的训练任务的属性信息、训练任务对应的多个候选基站的属性信息、训练任务对应的终端设备到各候选基站之间的信道估计信息组合成为一条完整发经验,并将其存储在各自独立的经验池中,以供后续训练使用。
[0169]
4.训练流程:通常完整的训练流程包含有从训练评论家网络到训练演员网络的多个循环,并且二者互为依赖。
[0170]
训练评论家网络:首先各个终端设备将从上述经验池中随机采样得到的训练任务的属性信息、训练任务对应的多个候选基站的属性信息、训练任务对应的终端设备到各候选基站之间的信道估计信息、训练任务对应的训练基站的标识、上述各基站的被选择概率分布信息输入到对应模型中的第一评论家网络中,获得评论值;然后将上述经验中的下一时刻的训练任务的属性信息、训练任务对应的多个候选基站的属性信息、训练任务对应的终端设备到各候选基站之间的信道估计信息输入到对应模型中的第二演员网络中,获得下一时刻的训练任务对应的训练基站的标识;然后各终端设备通过获取模块获取邻近终端设备的训练任务对应的训练基站的标识,并计算各候选基站被选择的概率分布;最后,将上述下一时刻对应的训练任务的属性信息、训练任务对应的多个候选基站的属性信息、训练任务对应的终端设备到各候选基站之间的信道估计信息、训练任务对应的训练基站的标识、各候选基站的被选择概率分布信息输入到该子模型中的第二评论家网络中,计算获得下一时刻评论值。此时,利用上述评论值、上述采样得到的回报值和上述下一时刻评论值共同计算损失,并进一步计算梯度以更新终端设备中的第一评论家网络。
[0171]
训练演员网络:首先各个终端设备将上述采样得到的训练任务的属性信息、训练
任务对应的多个候选基站的属性信息、训练任务对应的终端设备到各候选基站之间的信道估计信息输入到对应模型中的第一演员网络中并获得上述训练任务对应的训练基站的标识,并将上述训练任务的属性信息、训练任务对应的多个候选基站的属性信息、训练任务对应的终端设备到各候选基站之间的信道估计信息、上述训练任务对应的训练基站的标识以及各候选基站被选择的概率分布信息输入到对应终端设备中的第一评论家网络中获得对应的评论值。然后根据该评论值计算损失,并进一步计算梯度更新对应终端设备中的第一演员网络。
[0172]
最后,根据上述步骤1中第二演员/评论家网络更新方式对终端设备中的第二演员/评论家网络进行更新。
[0173]
为了更好的说明本技术的提供的大规模用户任务卸载方法,本技术提供一种大规模用户任务卸载方法的整体流程方面进行解释说明的实施例,如图10所示,该方法包括:
[0174]
步骤1001,终端设备获取预设深度强化学习模型对应的训练集。
[0175]
步骤1002,终端设备以训练任务的属性信息、训练任务对应的多个候选基站的属性信息、训练任务对应的终端设备到各候选基站之间的信道估计信息训练任务对应的训练基站的标识信息以及各候选基站被对应设备的相邻终端设备选择的概率分布为输入,训练深度强化学习网络,得到预设深度强化学习模型。
[0176]
步骤1003,终端设备获取待卸载的目标任务的任务属性信息以及各候选基站被对应设备的相邻终端设备选择的概率分布。
[0177]
步骤1004,终端设备向基站发送广播信息。
[0178]
步骤1005,终端设备接收到各基站发送的属性信息,根据终端设备的位置信息以及各属性信息中包括的基站的位置信息,确定与终端设备关联的多个候选基站的属性信息以及终端设备与各候选基站之间的信道估计信息。
[0179]
步骤1006,终端设备将任务属性信息、各候选基站被对应设备的相邻终端设备选择的概率分布、多个候选基站的属性信息以及终端设备与各候选基站之间的信道估计信息输入至目标演员网络中,利用目标演员网络中的至少两层图卷积神经网络对输入数据进行至少两次特征提取,基于提取后的特征,输出目标基站的标识信息。
[0180]
步骤1007,终端设备将任务属性信息、多个候选基站的属性信息、终端设备与各候选基站之间的信道估计信息、目标基站的标识信息以及各候选基站被对应设备的相邻终端设备选择的概率分布输入至目标评论家网络中,利用目标评论家网络中的至少两层图卷积神经网络对输入数据进行至少两次特征提取,基于提取后的特征,输出目标基站的标识信息对应的目标评价值。
[0181]
步骤1008,终端设备利用回报函数计算目标回报值。
[0182]
应该理解的是,虽然图2、图5、以及图7

10的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本技术实施例中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图2、图5、以及图7

10中的至少一部分步骤可以包括多个步骤或者多个阶段,这些步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。
[0183]
在本技术一个实施例中,如图11所示,提供了一种大规模用户任务卸载装置1100,包括:第一获取模块1110、第二获取模块1120、确定模块1130以及卸载模块1140,其中:
[0184]
第一获取模块1110,获取待卸载的目标任务的任务属性信息以及各候选基站被对应设备的相邻终端设备选择的概率分布。
[0185]
第二获取模块1120,用于获取与终端设备关联的多个候选基站的属性信息以及终端设备与各候选基站之间的信道估计信息。
[0186]
确定模块1130,用于将任务属性信息、各候选基站被对应设备的相邻终端设备选择的概率分布、多个候选基站的属性信息以及终端设备与各候选基站之间的信道估计信息输入至预设深度强化学习模型中,确定目标任务对应的目标基站,并输出目标基站的标识信息对应的目标评价值;目标评价值用于表征将目标任务卸载到目标基站的匹配度,其中,预设深度强化学习模型包括图卷积神经网络,图卷积神经网络用于对预设深度强化学习模型的输入数据进行至少两次特征提取;
[0187]
卸载模块1140,用于将目标任务卸载至目标基站。
[0188]
在本技术一个实施例中,预设深度强化学习模型包括目标演员网络和目标评论家网络,如图12所示,上述确定模块1130,包括:第一输出单元1131,和第二输出单元1132,其中:
[0189]
第一输出单元1131,用于将任务属性信息、多个候选基站的属性信息以及终端设备与各候选基站之间的信道估计信息输入至目标演员网络,输出目标基站的标识信息。
[0190]
第二输出单元1132,用于将任务属性信息、多个候选基站的属性信息、终端设备与各候选基站之间的信道估计信息、目标基站的标识信息以及各候选基站被对应设备的相邻终端设备选择的概率分布输入至目标评论家网络,输出目标基站的标识信息对应的目标评价值。
[0191]
在本技术一个实施例中,预设深度强化学习模型包括回报函数,如图13所示,上述确定模块1130,还包括:计算单元1133,其中:
[0192]
计算单元1133,用于利用回报函数计算目标回报值,目标回报值用于表征将目标任务卸载到目标基站对应的时延数据以及能耗数据。
[0193]
在本技术一个实施例中,预设深度强化学习模型包括目标演员网络和目标评论家网络,目标演员网络中包括至少两层图卷积神经网络,目标评论家网络包括至少两层图卷积神经网络,上述确定模块1130,具体用于将任务属性信息、多个候选基站的属性信息以及终端设备与各候选基站之间的信道估计信息输入至目标演员网络中,利用目标演员网络中的至少两层图卷积神经网络对输入数据进行至少两次特征提取,基于提取后的特征,输出目标基站的标识信息;将任务属性信息、多个候选基站的属性信息、终端设备与各候选基站之间的信道估计信息、目标基站的标识信息以及各候选基站被对应设备的相邻终端设备选择的概率分布输入至目标评论家网络中,利用目标评论家网络中的至少两层图卷积神经网络对输入数据进行至少两次特征提取,基于提取后的特征,输出目标基站的标识信息对应的目标评价值。
[0194]
在本技术一个实施例中,如图14所示,上述第二获取模块1120,包括发送单元1121和接收单元1122,其中:
[0195]
发送单元1121,用于终端设备向基站发送广播信息,广播信息用于指示各基站向
终端设备发送基站的属性信息;
[0196]
接收单元1122,用于接收到各基站发送的属性信息,根据终端设备的位置信息以及各属性信息中包括的基站的位置信息,确定与终端设备对应的多个候选基站的属性信息。
[0197]
在本技术一个实施例中,如图15所示,上述大规模用户任务卸载装置1100,还包括:第三获取模块1150以及训练模块1160,其中
[0198]
第三获取模块1150,获取预设深度强化学习模型对应的训练集,训练集中包括多个训练任务的属性信息、训练任务对应的多个候选基站的属性信息、训练任务对应的终端设备到各候选基站之间的信道估计信息、训练任务对应的训练基站的标识信息以及各候选基站被对应设备的相邻终端设备选择的概率分布。
[0199]
训练模块1160,用于以训练任务的属性信息、训练任务对应的多个候选基站的属性信息、训练任务对应的终端设备到各候选基站之间的信道估计信息训练任务对应的训练基站的标识信息以及各候选基站被对应设备的相邻终端设备选择的概率分布为输入,训练深度强化学习网络,得到预设深度强化学习模型。
[0200]
在本技术一个实施例中,预设深度强化学习模型包括目标演员网络、目标评论家网络以及回报函数,训练模块1160,具体用于将训练任务的属性信息、训练任务对应的多个候选基站的属性信息以及训练任务对应的终端设备到各候选基站之间的信道估计信息输入至初始演员网络,输出训练任务对应的训练基站的标识;将训练任务的属性信息、训练任务对应的多个候选基站的属性信息、训练任务对应的终端设备到各候选基站之间的信道估计信息、各候选基站被对应设备的相邻终端设备选择的概率分布以及训练任务对应的训练基站的标识输入至初始评论家网络中,利用初始评论家网络对输入数据进行特征提取,输出将训练任务卸载到训练基站的训练评价值,训练评价值用于表征将训练任务卸载到任务对应的训练基站的匹配度;利用回报函数计算将训练任务卸载到训练基站对应的训练回报值,训练回报值用于表征将训练任务卸载到训练基站对应的时延数据以及能耗数据;根据训练回报值,训练初始评论家网络,得到目标评论家网络;根据训练评价值以及训练回报值,训练初始演员网络,得到目标演员网络。
[0201]
关于大规模用户任务卸载装置的具体限定可以参见上文中对于任务卸载方法的限定,在此不再赘述。上述任务卸载装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
[0202]
在一个实施例中,提供了一种计算机设备,该计算机设备可以是终端,其内部结构图可以如图16所示。该计算机设备包括通过系统总线连接的处理器、存储器、通信接口、显示屏和输入装置。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的通信接口用于与外部的终端进行有线或无线方式的通信,无线方式可通过wifi、运营商网络、nfc(近场通信)或其他技术实现。该计算机程序被处理器执行时以实现一种任务卸载方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏,该计
算机设备的输入装置可以是显示屏上覆盖的触摸层,也可以是计算机设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。
[0203]
本领域技术人员可以理解,图16中示出的结构,仅仅是与本技术方案相关的部分结构的框图,并不构成对本技术方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
[0204]
在一个实施例中,提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现以下步骤:获取待卸载的目标任务的任务属性信息以及各候选基站被对应设备的相邻终端设备选择的概率分布;获取与终端设备关联的多个候选基站的属性信息以及终端设备与各候选基站之间的信道估计信息;将任务属性信息、各候选基站被对应设备的相邻终端设备选择的概率分布、多个候选基站的属性信息以及终端设备与各候选基站之间的信道估计信息输入至预设深度强化学习模型中,确定目标任务对应的目标基站,并输出目标基站的标识信息对应的目标评价值;目标评价值用于表征将目标任务卸载到目标基站的匹配度;其中,预设深度强化学习模型包括图卷积神经网络,图卷积神经网络用于对预设深度强化学习模型的输入数据进行至少两次特征提取;将目标任务卸载至目标基站。
[0205]
在一个实施例中,预设深度强化学习模型包括目标演员网络和目标评论家网络,处理器执行计算机程序时还实现以下步骤:将任务属性信息、多个候选基站的属性信息以及终端设备与各候选基站之间的信道估计信息输入至目标演员网络,并输出目标基站的标识信息;将任务属性信息、多个候选基站的属性信息、终端设备与各候选基站之间的信道估计信息、目标基站的标识信息以及各候选基站被对应设备的相邻终端设备选择的概率分布输入至目标评论家网络,输出目标基站的标识信息对应的目标评价值。
[0206]
在一个实施例中,预设深度强化学习模型包括回报函数,处理器执行计算机程序时还实现以下步骤:利用回报函数计算目标回报值,目标回报值用于表征将目标任务卸载到目标基站对应的时延数据以及能耗数据。
[0207]
在一个实施例中预设深度强化学习模型包括目标演员网络和目标评论家网络,目标演员网络中包括至少两层图卷积神经网络,目标评论家网络包括至少两层图卷积神经网络,处理器执行计算机程序时还实现以下步骤:将任务属性信息、多个候选基站的属性信息以及终端设备与各候选基站之间的信道估计信息输入至目标演员网络中,利用目标演员网络中的至少两层图卷积神经网络对输入数据进行至少两次特征提取,基于提取后的特征,输出目标基站的标识信息;将任务属性信息、多个候选基站的属性信息、终端设备与各候选基站之间的信道估计信息、目标基站的标识信息以及各候选基站被对应设备的相邻终端设备选择的概率分布输入至目标评论家网络中,利用目标评论家网络中的至少两层图卷积神经网络对输入数据进行至少两次特征提取,基于提取后的特征,输出目标基站的标识信息对应的目标评价值。
[0208]
在一个实施例中,处理器执行计算机程序时还实现以下步骤:终端设备向基站发送广播信息,广播信息用于指示各基站向终端设备发送基站的属性信息;接收到各基站发送的属性信息,根据终端设备的位置信息以及各属性信息中包括的基站的位置信息,确定与终端设备关联的多个候选基站的属性信息。
[0209]
在一个实施例中,处理器执行计算机程序时还实现以下步骤:获取预设深度强化
学习模型对应的训练集,训练集中包括多个训练任务的属性信息、训练任务对应的多个候选基站的属性信息、训练任务对应的终端设备到各候选基站之间的信道估计信息、训练任务对应的训练基站的标识信息以及各候选基站被对应设备的相邻终端设备选择的概率分布;以训练任务的属性信息、训练任务对应的多个候选基站的属性信息、训练任务对应的终端设备到各候选基站之间的信道估计信息训练任务对应的训练基站的标识信息以及各候选基站被对应设备的相邻终端设备选择的概率分布为输入,训练深度强化学习网络,得到预设深度强化学习模型。
[0210]
在一个实施例中,预设深度强化学习模型包括目标演员网络、目标评论家网络以及回报函数,处理器执行计算机程序时还实现以下步骤:将训练任务的属性信息、训练任务对应的多个候选基站的属性信息以及训练任务对应的终端设备到各候选基站之间的信道估计信息输入至初始演员网络,输出训练任务对应的训练基站的标识;将训练任务的属性信息、训练任务对应的多个候选基站的属性信息、训练任务对应的终端设备到各候选基站之间的信道估计信息、各候选基站被对应设备的相邻终端设备选择的概率分布以及训练任务对应的训练基站的标识输入至初始评论家网络中,利用初始评论家网络对输入数据进行特征提取,输出将训练任务卸载到训练基站的训练评价值,训练评价值用于表征将训练任务卸载到任务对应的训练基站的匹配度;利用回报函数计算将训练任务卸载到训练基站对应的训练回报值,训练回报值用于表征将训练任务卸载到训练基站对应的时延数据以及能耗数据;根据训练回报值,训练初始评论家网络,得到目标评论家网络;根据训练评价值以及训练回报值,训练初始演员网络,得到目标演员网络。
[0211]
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:获取待卸载的目标任务的任务属性信息以及各候选基站被对应设备的相邻终端设备选择的概率分布;获取与终端设备关联的多个候选基站的属性信息以及终端设备与各候选基站之间的信道估计信息;将任务属性信息、各候选基站被对应设备的相邻终端设备选择的概率分布、多个候选基站的属性信息以及终端设备与各候选基站之间的信道估计信息输入至预设深度强化学习模型中,确定目标任务对应的目标基站,并输出目标基站的标识信息对应的目标评价值;目标评价值用于表征将目标任务卸载到目标基站的匹配度;其中,预设深度强化学习模型包括图卷积神经网络,图卷积神经网络用于对预设深度强化学习模型的输入数据进行至少两次特征提取;将目标任务卸载至目标基站。
[0212]
在一个实施例中,预设深度强化学习模型包括目标演员网络和目标评论家网络,计算机程序被处理器执行时还实现以下步骤:将任务属性信息、多个候选基站的属性信息以及终端设备与各候选基站之间的信道估计信息输入至目标演员网络,并输出目标基站的标识信息;将任务属性信息、多个候选基站的属性信息、终端设备与各候选基站之间的信道估计信息、目标基站的标识信息以及各候选基站被对应设备的相邻终端设备选择的概率分布输入至目标评论家网络,输出目标基站的标识信息对应的目标评价值。
[0213]
在一个实施例中,预设深度强化学习模型包括回报函数,计算机程序被处理器执行时还实现以下步骤:利用回报函数计算目标回报值,目标回报值用于表征将目标任务卸载到目标基站对应的时延数据以及能耗数据。
[0214]
在一个实施例中预设深度强化学习模型包括目标演员网络和目标评论家网络,目
标演员网络中包括至少两层图卷积神经网络,目标评论家网络包括至少两层图卷积神经网络,计算机程序被处理器执行时还实现以下步骤:将任务属性信息、多个候选基站的属性信息以及终端设备与各候选基站之间的信道估计信息输入至目标演员网络中,利用目标演员网络中的至少两层图卷积神经网络对输入数据进行至少两次特征提取,基于提取后的特征,输出目标基站的标识信息;将任务属性信息、多个候选基站的属性信息、终端设备与各候选基站之间的信道估计信息、目标基站的标识信息以及各候选基站被对应设备的相邻终端设备选择的概率分布输入至目标评论家网络中,利用目标评论家网络中的至少两层图卷积神经网络对输入数据进行至少两次特征提取,基于提取后的特征,输出目标基站的标识信息对应的目标评价值。
[0215]
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:终端设备向基站发送广播信息,广播信息用于指示各基站向终端设备发送基站的属性信息;接收到各基站发送的属性信息,根据终端设备的位置信息以及各属性信息中包括的基站的位置信息,确定与终端设备关联的多个候选基站的属性信息。
[0216]
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:获取预设深度强化学习模型对应的训练集,训练集中包括多个训练任务的属性信息、训练任务对应的多个候选基站的属性信息、训练任务对应的终端设备到各候选基站之间的信道估计信息、训练任务对应的训练基站的标识信息以及各候选基站被对应设备的相邻终端设备选择的概率分布;以训练任务的属性信息、训练任务对应的多个候选基站的属性信息、训练任务对应的终端设备到各候选基站之间的信道估计信息训练任务对应的训练基站的标识信息以及各候选基站被对应设备的相邻终端设备选择的概率分布为输入,训练深度强化学习网络,得到预设深度强化学习模型。
[0217]
在一个实施例中,预设深度强化学习模型包括目标演员网络、目标评论家网络以及回报函数,计算机程序被处理器执行时还实现以下步骤:将训练任务的属性信息、训练任务对应的多个候选基站的属性信息以及训练任务对应的终端设备到各候选基站之间的信道估计信息输入至初始演员网络,输出训练任务对应的训练基站的标识;将训练任务的属性信息、训练任务对应的多个候选基站的属性信息、训练任务对应的终端设备到各候选基站之间的信道估计信息、各候选基站被对应设备的相邻终端设备选择的概率分布以及训练任务对应的训练基站的标识输入至初始评论家网络中,利用初始评论家网络对输入数据进行特征提取,输出将训练任务卸载到训练基站的训练评价值,训练评价值用于表征将训练任务卸载到任务对应的训练基站的匹配度;利用回报函数计算将训练任务卸载到训练基站对应的训练回报值,训练回报值用于表征将训练任务卸载到训练基站对应的时延数据以及能耗数据;根据训练回报值,训练初始评论家网络,得到目标评论家网络;根据训练评价值以及训练回报值,训练初始演员网络,得到目标演员网络。
[0218]
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本技术所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(read

only memory,rom)、磁带、软盘、闪存或光存储器等。易失性存储器可包括随机存取存储器
(random access memory,ram)或外部高速缓冲存储器。作为说明而非局限,ram可以是多种形式,比如静态随机存取存储器(static random access memory,sram)或动态随机存取存储器(dynamic random access memory,dram)等。
[0219]
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
[0220]
以上实施例仅表达了本技术的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本技术构思的前提下,还可以做出若干变形和改进,这些都属于本技术的保护范围。因此,本技术专利的保护范围应以所附权利要求为准。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献