带宽额度调整方法、装置、设备、介质及计算机程序产品与流程

2022-12-20 21:25:59 来源：中国专利 TAG：

1.本技术涉及人工智能技术领域，尤其涉及一种带宽额度调整方法、装置、设备、介质及计算机程序产品。

背景技术：

2.目前，各5g(5th generation mobile communication technology，第五代移动通信技术)边缘节点所能使用的带宽额度为运营商预先设置的固定值，而该固定值是人为设置的。但是，将5g边缘节点所能使用的带宽额度设置为固定值的做法灵活性不足，当某些边缘节点有突发性或临时性的带宽需求时可能无法快速满足，在某些边缘节点业务闲时所富余的带宽也无法提供给需要的边缘节点，导致带宽资源利用不充分。

技术实现要素：

3.本技术的主要目的在于提供一种带宽额度调整方法、装置、设备、介质及计算机程序产品，旨在解决当前带宽资源利用不充分的技术问题。
4.为实现上述目的，本技术实施例提供一种带宽额度调整方法，所述带宽额度调整方法包括：
5.获取边缘节点组的状态信息与多条件信息，将所述边缘节点组的状态信息与多条件信息输入至目标多条件深度确定性策略梯度ddpg模型；
6.基于所述目标多条件ddpg模型根据所述边缘节点组的状态信息与多条件信息确定所述边缘节点组的带宽额度调整标识；
7.根据所述边缘节点组的带宽额度调整标识，在所述边缘节点组中的各边缘节点之间进行带宽额度调整。
8.优选地，所述获取边缘节点组的状态信息与多条件信息，将所述边缘节点组的状态信息与多条件信息输入至目标多条件深度确定性策略梯度ddpg模型的步骤之前，还包括：
9.获取边缘节点组的历史状态信息与历史多条件信息作为训练数据集；
10.基于执行器与评判器构建初始多条件ddpg模型；
11.根据所述训练数据集对所述初始多条件ddpg模型进行训练，得到目标多条件ddpg模型。
12.优选地，所述训练数据集包括训练集与测试集，所述根据所述训练数据集对所述初始多条件ddpg模型进行训练，得到目标多条件ddpg模型的步骤包括：
13.根据所述训练数据集的训练集对所述初始多条件ddpg模型进行训练，得到待测试多条件ddpg模型；
14.根据所述训练数据集的测试集对所述待测试多条件ddpg模型进行测试，得到目标多条件ddpg模型。
15.优选地，所述根据所述训练数据集的训练集对所述初始多条件ddpg模型进行训
练，得到待测试多条件ddpg模型的步骤包括：
16.将所述训练数据集的训练集分别输入至所述初始多条件ddpg模型的执行器与评判器；
17.根据所述训练集分别对所述初始多条件ddpg模型中的执行器与评判器进行训练，得到待测试多条件ddpg模型。
18.优选地，所述根据所述训练集分别对所述初始多条件ddpg模型中的执行器与评判器进行训练，得到待测试多条件ddpg模型的步骤包括：
19.根据所述训练集对所述初始多条件ddpg模型中执行器的动作估计网络进行训练，得到动作目标网络；
20.根据所述训练集对所述初始多条件ddpg模型中评判器的评价估计网络进行训练，得到评价目标网络；
21.基于所述动作目标网络与所述评价目标网络得到待测试多条件ddpg模型。
22.优选地，所述将所述边缘节点组的状态信息与多条件信息输入至目标多条件深度确定性策略梯度ddpg模型的步骤之前还包括：
23.对所述边缘节点组的状态信息与多条件信息进行数据预处理，得到预处理后的所述边缘节点组的状态信息与多条件信息；
24.将所述边缘节点组的状态信息与多条件信息输入至目标多条件深度确定性策略梯度ddpg模型的步骤包括：
25.将预处理后的所述边缘节点组的状态信息与多条件信息输入至目标多条件深度确定性策略梯度ddpg模型的执行器。
26.为实现上述目的，本技术还提供一种带宽额度调整装置，所述带宽额度调整装置包括：
27.获取模块，用于获取边缘节点组的状态信息与多条件信息，将所述边缘节点组的状态信息与多条件信息输入至目标多条件深度确定性策略梯度ddpg模型；
28.确定模块，用于基于所述目标多条件ddpg模型根据所述边缘节点组的状态信息与多条件信息确定所述边缘节点组的带宽额度调整标识；
29.调整模块，用于根据所述边缘节点组的带宽额度调整标识，在所述边缘节点组中的各边缘节点之间进行带宽额度调整。
30.进一步地，为实现上述目的，本技术还提供一种带宽额度调整设备，所述带宽额度调整设备包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的带宽额度调整程序，所述带宽额度调整程序被所述处理器执行时实现上述的带宽额度调整方法的步骤。
31.进一步地，为实现上述目的，本技术还提供一种介质，所述介质上存储有带宽额度调整程序，所述带宽额度调整程序被处理器执行时实现上述的带宽额度调整方法的步骤。
32.进一步地，为实现上述目的，本技术还提供一种计算机程序产品，包括计算机程序，所述计算机程序被处理器执行时实现上述的带宽额度调整方法的步骤。
33.本技术实施例提供一种带宽额度调整方法、装置、设备、介质及计算机程序产品，获取边缘节点组的状态信息与多条件信息，将所述边缘节点组的状态信息与多条件信息输入至目标多条件深度确定性策略梯度ddpg模型；基于所述目标多条件ddpg模型根据所述边
缘节点组的状态信息与多条件信息确定所述边缘节点组的带宽额度调整标识；根据所述边缘节点组的带宽额度调整标识，在所述边缘节点组中的各边缘节点之间进行带宽额度调整。本技术通过目标多条件ddpg模型根据边缘节点组的状态信息与多条件信息确定边缘节点组的带宽额度调整标识，再按照边缘节点组的带宽额度调整标识在边缘节点组中各边缘节点之间进行带宽额度调整，以满足边缘节点组中各边缘节点的带宽需求，有效提高边缘节点组的带宽资源利用率。
附图说明
34.图1为本技术带宽额度调整方法实施例方案涉及的硬件运行环境的结构示意图；
35.图2为本技术带宽额度调整方法第一实施例的流程示意图；
36.图3为本技术带宽额度调整方法第二实施例的流程示意图；
37.图4为本技术带宽额度调整方法第二实施例中执行器的结构示意图；
38.图5为本技术带宽额度调整方法第二实施例中评判器的结构示意图；
39.图6为本技术带宽额度调整方法中5g边缘节点的带宽额度在线自适应分配流程示意图；
40.图7为本技术带宽额度调整装置较佳实施例的功能模块示意图。
41.本技术目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。
具体实施方式
42.应当理解，此处所描述的具体实施例仅仅用以解释本技术，并不用于限定本技术。
43.本技术实施例提供一种带宽额度调整方法、装置、设备、介质及计算机程序产品，获取边缘节点组的状态信息与多条件信息，将所述边缘节点组的状态信息与多条件信息输入至目标多条件深度确定性策略梯度ddpg模型；基于所述目标多条件ddpg模型根据所述边缘节点组的状态信息与多条件信息确定所述边缘节点组的带宽额度调整标识；根据所述边缘节点组的带宽额度调整标识，在所述边缘节点组中的各边缘节点之间进行带宽额度调整。本技术通过目标多条件ddpg模型根据边缘节点组的状态信息与多条件信息确定边缘节点组的带宽额度调整标识，再按照边缘节点组的带宽额度调整标识在边缘节点组中各边缘节点之间进行带宽额度调整，以满足边缘节点组中各边缘节点的带宽需求，有效提高边缘节点组的带宽资源利用率。
44.如图1所示，图1是本技术实施例方案涉及的硬件运行环境的带宽额度调整设备结构示意图。
45.在后续的描述中，使用用于表示元件的诸如“模块”、“部件”或“单元”的后缀仅为了有利于本技术的说明，其本身没有特定的意义。因此，“模块”、“部件”或“单元”可以混合地使用。
46.本技术实施例带宽额度调整设备可以是pc，也可以是平板电脑、便携计算机等可移动式终端设备。
47.如图1所示，该带宽额度调整设备可以包括：处理器1001，例如cpu，网络接口1004，用户接口1003，存储器1005，通信总线1002。其中，通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(display)、输入单元比如键盘(keyboard)，可选
用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如wi-fi接口)。存储器1005可以是高速ram存储器，也可以是稳定的存储器(non-volatile memory)，例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。
48.本领域技术人员可以理解，图1中示出的带宽额度调整设备结构并不构成对带宽额度调整设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。
49.如图1所示，作为一种存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及带宽额度调整程序。
50.在图1所示的设备中，网络接口1004主要用于连接后台服务器，与后台服务器进行数据通信；用户接口1003主要用于连接客户端(用户端)，与客户端进行数据通信；而处理器1001可以用于调用存储器1005中存储的带宽额度调整程序，并执行以下操作：
51.获取边缘节点组的状态信息与多条件信息，将所述边缘节点组的状态信息与多条件信息输入至目标多条件深度确定性策略梯度ddpg模型；
52.基于所述目标多条件ddpg模型根据所述边缘节点组的状态信息与多条件信息确定所述边缘节点组的带宽额度调整标识；
53.根据所述边缘节点组的带宽额度调整标识，在所述边缘节点组中的各边缘节点之间进行带宽额度调整。
54.进一步地，所述获取边缘节点组的状态信息与多条件信息，将所述边缘节点组的状态信息与多条件信息输入至目标多条件深度确定性策略梯度ddpg模型的步骤之前，处理器1001可以用于调用存储器1005中存储的带宽额度调整程序，并执行以下操作：
55.获取边缘节点组的历史状态信息与历史多条件信息作为训练数据集；
56.基于执行器与评判器构建初始多条件ddpg模型；
57.根据所述训练数据集对所述初始多条件ddpg模型进行训练，得到目标多条件ddpg模型。
58.进一步地，所述训练数据集包括训练集与测试集，所述根据所述训练数据集对所述初始多条件ddpg模型进行训练，得到目标多条件ddpg模型的步骤包括：
59.根据所述训练数据集的训练集对所述初始多条件ddpg模型进行训练，得到待测试多条件ddpg模型；
60.根据所述训练数据集的测试集对所述待测试多条件ddpg模型进行测试，得到目标多条件ddpg模型。
61.进一步地，所述根据所述训练数据集的训练集对所述初始多条件ddpg模型进行训练，得到待测试多条件ddpg模型的步骤包括：
62.将所述训练数据集的训练集分别输入至所述初始多条件ddpg模型的执行器与评判器；
63.根据所述训练集分别对所述初始多条件ddpg模型中的执行器与评判器进行训练，得到待测试多条件ddpg模型。
64.进一步地，所述根据所述训练集分别对所述初始多条件ddpg模型中的执行器与评判器进行训练，得到待测试多条件ddpg模型的步骤包括：
65.根据所述训练集对所述初始多条件ddpg模型中执行器的动作估计网络进行训练，得到动作目标网络；
66.根据所述训练集对所述初始多条件ddpg模型中评判器的评价估计网络进行训练，得到评价目标网络；
67.基于所述动作目标网络与所述评价目标网络得到待测试多条件ddpg模型。
68.进一步地，所述将所述边缘节点组的状态信息与多条件信息输入至目标多条件深度确定性策略梯度ddpg模型的步骤之前，处理器1001可以用于调用存储器1005中存储的带宽额度调整程序，并执行以下操作：
69.对所述边缘节点组的状态信息与多条件信息进行数据预处理，得到预处理后的所述边缘节点组的状态信息与多条件信息；
70.将所述边缘节点组的状态信息与多条件信息输入至目标多条件深度确定性策略梯度ddpg模型的步骤包括：
71.将预处理后的所述边缘节点组的状态信息与多条件信息输入至目标多条件深度确定性策略梯度ddpg模型的执行器。
72.为了更好的理解上述技术方案，下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例，然而应当理解，可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本公开，并且能够将本公开的范围完整的传达给本领域的技术人员。
73.为了更好的理解上述技术方案，下面将结合说明书附图以及具体的实施方式对上述技术方案进行详细的说明。
74.参照图2，本技术第一实施例提供一种带宽额度调整方法的流程示意图。该实施例中，所述带宽额度调整方法包括以下步骤：
75.步骤s10，获取边缘节点组的状态信息与多条件信息，将所述边缘节点组的状态信息与多条件信息输入至目标多条件深度确定性策略梯度ddpg模型；
76.可以理解地，5g时代万物互联，海量物联设备向上延伸，云计算模式数据处理和成本能耗方面将产生瓶颈，同时极致的用户体验也需要云的内容向用户延伸，为此mec(multi-access edge computing，边缘计算)的快速发展将是技术演进的必然。mec通过在移动网络边缘提供灵活的网络接入能力和边缘计算服务，减少网络传输和服务交付时延，提升数据安全性，为垂直行业赋予新的发展动能。目前，各5g边缘节点所能使用的带宽额度为运营商预先设置的固定值，而该固定值是人为设置的。但是，将5g边缘节点所能使用的带宽额度设置为固定值的做法灵活性不足，当某些边缘节点有突发性或临时性的带宽需求时可能无法快速满足，在某些边缘节点业务闲时所富余的带宽也无法提供给需要的边缘节点，导致带宽资源利用不充分。在此基础上，本技术提出一种带宽额度调整方法。
77.本实施例中带宽额度调整方法应用于边缘计算管理平台(mepm)，边缘计算管理平台用于通过实施带宽额度调整方法，实现自动对多个边缘节点进行带宽额度调整与调整，以提高带宽资源的利用率。可以理解地，为方便描述，后续将边缘计算管理平台简称为平台。
78.本实施例中平台可以通过训练好的目标多条件ddpg(deep deterministic policy gradient，深度确定性策略梯度)模型，基于边缘节点组的状态信息与多条件信息，
对边缘节点组进行带宽额度分配与调整，其中边缘节点组中包含一个或多个边缘节点，可以理解地，当边缘节点组中只有一个边缘节点时，无法对该边缘节点的带宽额度进行调整；当边缘节点组中包含多个边缘节点时，可以将带宽需求较低的边缘节点的带宽进行降低，并将降低的带宽分配给带宽需求较高的边缘节点，以此满足边缘节点组中各边缘节点的带宽需求；若边缘节点组中各边缘节点的带宽需求均较高且无可分配带宽时，亦无法进行带宽额度的调整。具体地，平台首先获取最近t时间段内边缘节点组的实时运行kpi(key performance indicator，关键指标指示)作为边缘节点组的状态信息，同时获取当前可提供的最大总带宽以及给边缘节点组承诺的最低带宽作为多条件信息，并将作为边缘节点组的状态信息的最近t时间段内边缘节点组的实时运行kpi，以及作为多条件信息的当前可提供的最大总带宽以及给边缘节点组承诺的最低带宽输入至训练好的目标多条件ddpg模型，以通过目标多条件ddpg模型根据输入的边缘节点组的多条件信息与状态信息确定出边缘节点组的带宽额度调整标识，再通过边缘节点组的带宽额度调整标识在边缘节点组中的各边缘节点之间进行带宽额度调整，能够最大程度满足边缘节点组中各边缘节点的带宽需求，同时提升带宽利用率的动作，从而充分提升带宽资源的利用率。其中，边缘节点组的实时运行kpi包括边缘节点组已使用的平均带宽、峰值带宽、最小带宽、请求平均时延、请求平均成功率、丢包率、数据传输量、误码率、错误码个数等m个维度的信息，时间颗粒度/时间间隔为t，例如5min；带宽额度调整标识用于对边缘节点的带宽额度的调整信息进行标识。
79.可以理解地，ddpg(deep deterministic policy gradient，深度确定性策略梯度)是基于actor-critic架构的深度强化学习方法，在动作输出方面采用一个网络来拟合策略函数，直接输出动作，可以应对连续动作的输出及大的动作空间。ddpg结合了之前获得成功的dqn(deep q network，强化学习)结构，提高了actor-critic的稳定性和收敛性。策略函数actor基于概率选择行为，价值函数critic基于actor的行为评判行为的得分，actor根据critic的评分修改选择行为。
80.dpg(deterministic policy gradient，确定性的行为策略)即每一步的行为通过函数μ直接获得确定的值：
81.a
t
＝μ(s
t
|θ
μ
)
82.其中，a
t
为t时刻所选择的动作，s
t
为t时刻环境的状态，θ
μ
为权重值，该函数μ即最优行为策略，经过训练得到一个确定性的最优行为策略函数。
83.ddpg(deep deterministic policy gradient，深度确定性策略梯度)是将深度学习神经网络融合进dpg的策略学习方法。即把价值函数和策略函数都用神经网络来做表达。相对于dpg的核心改进是：采用神经网络作为策略函数μ和q函数的模拟，即策略网络和q网络；然后使用深度学习的方法来训练深度学习神经网络。
84.进一步地，所述将所述边缘节点组的状态信息与多条件信息输入至目标多条件深度确定性策略梯度ddpg模型的步骤之前还包括：
85.步骤s100，对所述边缘节点组的状态信息与多条件信息进行数据预处理，得到预处理后的所述边缘节点组的状态信息与多条件信息；
86.可以理解地，在将边缘节点组的状态信息与多条件信息输入至目标多条件ddpg模型之前，平台需要对边缘节点组的状态信息与多条件信息分别进行数据预处理，本实施例中数据预处理方式为标准化处理。具体地，将作为边缘节点组的状态信息的最近t时间段内
边缘节点组的实时运行kpi，针对每个维度的数据，分别按属性(按列进行)减去其均值，再除以其方差，得到预处理后的边缘节点组的状态信息；同时，将作为多条件信息的当前可提供的最大总带宽以及给边缘节点组承诺的最低带宽，按属性(按列进行)减去其均值，再除以其方差，得到预处理后的边缘节点组的多条件信息。先对边缘节点组的状态信息与多条件信息进行数据预处理再输入至目标多条件ddpg模型的执行器，可以提升目标多条件ddpg模型的数据处理速度。
87.进一步地，将所述边缘节点组的状态信息与多条件信息输入至目标多条件深度确定性策略梯度ddpg模型的步骤包括：
88.步骤s11，将预处理后的所述边缘节点组的状态信息与多条件信息输入至目标多条件深度确定性策略梯度ddpg模型的执行器。
89.进一步地，将预处理后边缘节点组的状态信息与多条件信息输入至目标多条件ddpg模型的执行器中，以通过目标多条件ddpg模型的执行器根据预处理后的边缘节点组的状态信息与多条件信息确定出边缘节点组的带宽额度调整标识，再通过边缘节点组的带宽额度调整标识在边缘节点组中的各边缘节点之间进行带宽额度调整，能够最大程度满足边缘节点组中各边缘节点的带宽需求，同时提升带宽利用率的动作，从而充分提升带宽资源的利用率。
90.步骤s20，基于所述目标多条件ddpg模型根据所述边缘节点组的状态信息与多条件信息确定所述边缘节点组的带宽额度调整标识；
91.在将边缘节点组的状态信息与多条件信息输入至目标多条件ddpg模型后，目标多条件ddpg模型中执行器的深度神经网络可以从多条件信息中学习带宽额度调整的限制、从边缘节点组的实时运行kpi中学习边缘节点的运行状态以及当前对带宽的需求，因此通过训练好的目标多条件ddpg模型中执行器的深度神经网络，可以根据边缘节点组的状态信息与多条件信息确定出边缘节点组的带宽额度需求，并进一步确定边缘节点组的带宽额度调整标识，通过确定边缘节点组的带宽额度调整标识，再根据带宽额度调整标识带宽额度调整标识，可以最大程度满足边缘节点组中各边缘节点的带宽需求，同时提升带宽利用率的动作，从而充分提升带宽资源的利用率。
92.具体地，平台通过训练好的目标多条件ddpg模型中执行器的图网络，由输入层1输入边缘节点组实时运行kpi(包含边缘节点组使用的带宽)(s)作为边缘节点组的状态信息；由输入层2输入可提供的最大总带宽(c1)、给边缘节点组承诺的最低带宽(c2)作为边缘节点组的多条件信息；进一步地，上述的两个输入层分别经过一个全连接层，神经元个数为128，激活函数为“relu”，然后通过合并层(merge)来合并状态信息、多条件信息。随后紧接一个全连接层(神经元个数为128，激活函数为“relu”)和舍弃层(dropout)，设置舍弃概率为0.2，即随机忽略20％的神经元，使其失效。输出层为全连接层(dense)：设置n个神经元，激活函数为“tanh”，每个神经元输出的数值范围取-5至5，正值为在原带宽额度基础上增长的百分比，负值为在原带宽额度基础上减少的百分比，0为无变化。其中n个神经元的具体数值与边缘节点组中边缘节点的数量对应，例如输入包含5个边缘节点的边缘节点组的状态信息与多条件信息，则输出5个边缘节点的带宽额度调整标识。
93.步骤s30，根据所述边缘节点组的带宽额度调整标识，在所述边缘节点组中的各边缘节点之间进行带宽额度调整。
94.在通过目标多条件ddpg模型确定边缘节点组的带宽额度调整标识后，平台根据目标多条件ddpg模型输出的边缘节点组的带宽额度调整标识确定对于边缘节点组中各边缘节点的调整动作，再根据各边缘节点的调整动作在各边缘节点组之间进行带宽额度调整，使得边缘节点组中每一边缘节点的带宽额度均为最佳带宽额度，以最大程度满足边缘节点组各边缘节点的带宽需求，同时提升带宽利用率的动作，从而充分提升带宽资源的利用率。例如：包含5个边缘节点的边缘节点组的带宽额度调整标识包括-1、-1、0、2、0，则将第一与第二个边缘节点的调整动作确定为带宽额度降低1％，而将第四个边缘节点的调整动作确定为带宽额度提高2％，其余边缘节点的调整动作确定为不做调整，再根据各边缘节点的调整动作在各边缘节点组之间进行带宽额度调整，即将第一与第二个边缘节点所降低的带宽额度分配给第四个边缘节点，使其带宽额度增加，使得边缘节点组中各边缘节点的带宽需求均得到满足，提高带宽资源的利用率。
95.可以理解地，平台在根据边缘节点组的带宽额度调整标识对边缘节点组中需要进行调整的边缘节点的带宽额度进行调整后，将下一个t时间段的边缘节点组的状态信息与多条件信息，再输入至基于多条件强化学习的目标多条件ddpg模型的执行器中，以此实现5g边缘节点的带宽额度自适应分配。本实施例中通过基于多条件强化学习的目标多条件ddpg模型进行5g边缘节点的带宽额度自适应分配，在原有深度确定性策略梯度ddpg的基础上引入多条件，并利用ddpg在连续动作空间预测上的优势来预估边缘节点所需的最佳带宽并完成边缘节点的带宽额度调整，可以满足边缘节点组中各边缘节点的带宽需求，有效提高边缘节点组的带宽资源利用率。
96.本实施例提供一种带宽额度调整方法、装置、设备、介质及计算机程序产品，获取边缘节点组的状态信息与多条件信息，将所述边缘节点组的状态信息与多条件信息输入至目标多条件深度确定性策略梯度ddpg模型；基于所述目标多条件ddpg模型根据所述边缘节点组的状态信息与多条件信息确定所述边缘节点组的带宽额度调整标识；根据所述边缘节点组的带宽额度调整标识，在所述边缘节点组中的各边缘节点之间进行带宽额度调整。本技术通过目标多条件ddpg模型根据边缘节点组的状态信息与多条件信息确定边缘节点组的带宽额度调整标识，再按照边缘节点组的带宽额度调整标识在边缘节点组中各边缘节点之间进行带宽额度调整，以满足边缘节点组中各边缘节点的带宽需求，有效提高边缘节点组的带宽资源利用率。
97.进一步地，参照图3，基于本技术带宽额度调整方法的第一实施例，提出本技术带宽额度调整方法的第二实施例，在第二实施例中，所述获取边缘节点组的状态信息与多条件信息，将所述边缘节点组的状态信息与多条件信息输入至目标多条件深度确定性策略梯度ddpg模型的步骤之前，还包括：
98.步骤a1，获取边缘节点组的历史状态信息与历史多条件信息作为训练数据集；
99.步骤a2，基于执行器与评判器构建初始多条件ddpg模型；
100.步骤a3，根据所述训练数据集对所述初始多条件ddpg模型进行训练，得到目标多条件ddpg模型。
101.进一步地，平台获取边缘节点组的历史实时运行kpi(包含边缘节点组使用的带宽)作为边缘节点组的历史状态信息，以及获取历史可提供的最大总带宽(c1)、历史给边缘节点组承诺的最低带宽(c2)作为边缘节点组的历史多条件信息，时间颗粒度/时间间隔为t
(5min)。其中，边缘节点组的历史状态信息，即边缘节点组的历史实时运行kpi包括：边缘节点历史已使用的平均带宽、历史峰值带宽、历史最小带宽、历史请求平均时延、历史请求平均成功率、历史丢包率、历史数据传输量、历史误码率、历史错误码个数等m个维度的信息。进一步地，平台将边缘节点组的历史状态信息与历史多条件信息作为数据集，并对数据集进行标准化处理，具体地，将数据集中每个维度的数据按属性(按列进行)减去其均值，并除以其方差，得到用于进行模型训练的训练数据。对边缘节点组的历史状态信息与历史多条件信息进行标准化处理，可以提升所训练的模型的收敛速度、提升模型的精度。在本实施例中，将训练数据集划分为训练集和测试集，具体为取整个训练数据集的80％作为训练集，剩余20％作为测试集。其中训练集用于对模型进行训练，测试集用于对训练后的模型进行评价验证(即测试)。
102.在获取训练数据集的同时，平台还需进行多条件ddpg模型的搭建，具体地，平台基于执行器(actor)和评判器(critic)构建初始多条件ddpg模型。参照图4，图4为本技术带宽额度调整方法第二实施例中执行器的结构示意图，执行器(actor network)由图网络构成，包含动作目标网络(target_net)和动作估计网络(eval_net)两个神经网络，两个神经网络之间结构相同，仅是参数更新频率不同。其中输入层1输入边缘节点组中各边缘节点实时运行kpi(包含边缘节点组中各边缘节点使用的带宽)(s)；输入层2输入可提供的最大总带宽(c1)、给边缘节点组中各边缘节点承诺的最低带宽(c2)；两个输入层分别经过一个全连接层，神经元个数为128，激活函数为“relu”。然后通过合并层(merge)来合并状态信息、多条件信息。随后紧接一个全连接层(神经元个数为128，激活函数为“relu”)和舍弃层(dropout)，设置舍弃概率为0.2，即随机忽略20％的神经元，使其失效。输出层为全连接层(dense)：设置n个神经元，激活函数为“tanh”，每个神经元输出的数值范围取-5至5，正值为在原带宽额度基础上增长的百分比，负值为在原带宽额度基础上减少的百分比，0为无变化。
103.参照图5，图5为本技术带宽额度调整方法第二实施例中评判器的结构示意图；评判器(critic network)包含评价目标网络(target_net)和评价估计网络(eval_net)两个结构相同，仅是参数更新频率不同的神经网络。评判器中设置两个输入层，输入层1接收最近t时间段内边缘节点组中各边缘节点的运行状态，输入层2接收可提供的最大总带宽(c1)和给边缘节点组中各边缘节点承诺的最低带宽(c2)，输入层3接收执行器输出的边缘节点组带宽额度调整标识；将输入层1、2分别经过两个全连接层(dense)，分别设置256、128个神经元，激活函数为“relu”；将输入层3经过1个全连接层(dense)，设置16个神经元，激活函数为“relu”；然后通过合并层(merge)来合并状态信息、多条件信息、带宽额度分配调整动作；最后紧接一个全连接层(128个神经元、激活函数为“relu”)和一个输出层(1个神经元、激活函数为“tanh”)，最终输出评价此次根据带宽额度调整标识所实施的动作的价值q(s，c1，c2，a)。
104.进一步地，在获取到包含训练集与测试集的训练数据集，以及完成初始神经网络模型的构建后，平台则通过训练集对初始神经网络模型进行训练，并在训练完成后通过测试集对训练后的初始神经网络模型进行评价验证，以提高模型的精确性。
105.进一步地，所述根据所述训练数据集对所述初始多条件ddpg模型进行训练，得到目标多条件ddpg模型的步骤包括：
106.步骤a31，根据所述训练数据集的训练集对所述初始多条件ddpg模型进行训练，得到待测试多条件ddpg模型；
107.步骤a32，根据所述训练数据集的测试集对所述待测试多条件ddpg模型进行测试，得到目标多条件ddpg模型。
108.进一步地，平台通过训练数据集中的训练集对初始多条件ddpg模型进行训练，具体地，通过训练数据集中80％的训练集分别对初始多条件ddpg模型的执行器与评判器进行训练，以此对执行器与评判器的参数进行优化，并在训练完成后得到待测试多条件ddpg模型，待测试多条件ddpg模型即需要通过测试集测试其模型准确性的中间模型。
109.在训练得到待测试神经网络模型后，平台通过训练数据集中20％的测试集对待测试神经网络模型进行评估验证，具体地，将测试集输入至待测试神经网络模型，通过测试集确定待测试神经网络模型是否收敛来对待测试神经网络模型进行评价与验证，当待测试神经网络模型收敛时导出其权重值，并将待测试神经网络模型确定为具有最优预测性能的目标多条件ddpg模型。
110.进一步地，所述根据所述训练数据集的训练集对所述初始多条件ddpg模型进行训练，得到待测试多条件ddpg模型的步骤包括：
111.步骤a311，将所述训练数据集的训练集分别输入至所述初始多条件ddpg模型的执行器与评判器；
112.步骤a312，根据所述训练集分别对所述初始多条件ddpg模型中的执行器与评判器进行训练，得到待测试多条件ddpg模型。
113.进一步地，平台将训练数据集的训练集分别输入至初始多条件ddpg模型的执行器与评判器中，通过训练集对初始多条件ddpg模型中的执行器进行训练，以及通过训练集对初始多条件ddpg模型中的评判器进行训练，在执行器与评判器均完成训练后得到待测试多条件ddpg模型。
114.具体地，执行器中包含动作目标网络和动作估计网络，评判器中包含评价目标网络和评价估计网络，但是，在初始多条件ddpg模型的模型训练过程中，只需要训练动作估计网络和评价估计网络的参数，而动作目标网络和评价目标网络的参数由动作估计网络和评价估计网络每隔一定的时间复制得到。具体地，可以使用经验回放(replay buffer)来保存所有阶段的(s，c1，c2，a，r，s')到一个回放存储器中。训练的数据是从记忆库中随机提取的，记忆库记录着每一个状态下的行动、奖励、和下一个状态的结果(s，c1，c2，a，r，s')。记忆库的大小有限，当记录满了数据之后，下一个数据会覆盖记忆库中的第一个数据。训练数据(s，c1，c2，a，r，s')是actor在和边缘节点环境做互动时产生的数据，s表示当时系统所面临的状态、a表示执行器面临边缘节点运行状态时所做的行为、r表示执行器做出了选择的行为之后从环境中获得的收益、s'表示agent做出了选择的行为后系统转移到的另外一个状态。
115.进一步地，所述根据所述训练集分别对所述初始多条件ddpg模型中的执行器与评判器进行训练，得到待测试多条件ddpg模型的步骤包括：
116.步骤a3121，根据所述训练集对所述初始多条件ddpg模型中执行器的动作估计网络进行训练，得到动作目标网络；
117.步骤a3122，根据所述训练集对所述初始多条件ddpg模型中评判器的评价估计网
络进行训练，得到评价目标网络；
118.步骤a3123，基于所述动作目标网络与所述评价目标网络得到待测试多条件ddpg模型。
119.可以理解地，在将训练集输入至初始多条件ddpg模型中的执行器后，执行器根据训练数据集输出历史边缘节点组的带宽额度调整标识，并输入至初始多条件ddpg模型的评判器，评判器根据历史边缘节点组的带宽额度调整标识与训练数据集，确定历史边缘节点组的带宽额度调整标识的价值；再将历史边缘节点组的带宽额度调整标识的价值反馈至执行器中，执行器根据历史边缘节点组的带宽额度调整标识的价值确定历史边缘节点组中各边缘节点的最佳带宽额度。因此可以根据训练集对初始多条件ddpg模型中的执行器与评判器进行网络参数的训练，即权重的优化与更新。参照图6，图6为本技术带宽额度调整方法中5g边缘节点的带宽额度在线自适应分配流程示意图，在进行模型训练时，边缘计算管理平台mepm从边缘节点1、边缘节点2，...，边缘节点n中获取各边缘节点的实时运行kpi(s)、可提供的最大总带宽(c1)、给各边缘节点承诺的最低带宽(c2)，经过标准化处理后分别输入至执行器(actor network(π))以及评判器(critic neiwork(q
π
))，执行器根据标准化处理后的边缘节点组的实时运行kpi(s)、可提供的最大总带宽(c1)、给各边缘节点承诺的最低带宽(c2)确定边缘节点组的带宽额度修改动作(a)，带宽额度修改动作包括边缘节点1的带宽分配额、边缘节点2的带宽分配额，...，边缘节点n的带宽分配额；并将带宽额度修改动作(a)输入至评判器中，评判器根据边缘节点组的实时运行kpi(s)、可提供的最大总带宽(c1)、给各边缘节点承诺的最低带宽(c2)以及执行器输入的带宽额度修改动作(a)，输出评价此次动作选择的q
π
(s，c1，c2，a)值，再将q值反馈给执行器，使得执行器可以根据q值来选取能够最大程度满足边缘节点组中各边缘节点的带宽需求、同时提升带宽利用率的动作。而在模型训练好并进行应用时，边缘计算管理平台mepm从边缘节点1、边缘节点2，...，边缘节点n中获取边缘节点组的实时运行kpi(s)、可提供的最大总带宽(c1)、给各边缘节点组承诺的最低带宽(c2)，经过标准化处理后输入至执行器(actor network(π))，执行器根据标准化处理后边缘节点组的实时运行kpi(s)、可提供的最大总带宽(c1)、给各边缘节点组承诺的最低带宽(c2)确定边缘节点组中各边缘节点的带宽额度修改动作(a)，带宽额度修改动作包括边缘节点1的带宽分配额、边缘节点2的带宽分配额，...，边缘节点n的带宽分配额。并将带宽额度修改动作(a)输出给边缘计算管理平台mepm，使得边缘计算管理平台mepm可以根据包含边缘节点组中各边缘节点的带宽分配额的带宽额度修改动作，再边缘节点1、边缘节点2，...，边缘节点n等边缘节点之间进行带宽额度调整，以满足边缘节点组中各边缘节点的带宽额度需求，提高带宽资源的利用率。
120.进一步地，首先随机初始化初始多条件ddpg模型中的critic网络q(s，a|θq)和actor网络μ(s|θ
μ
)，即初始化执行器的动作估计网络与评判器的评价估计网络，初始化的权重分别为θq和θ
μ
。然后初始化评价目标网络q’＝q(s，a|θq)和动作目标网络μ’＝μ(s|θ
μ
)，初始化经验回放r。
121.回合＝1时：为动作选择初始化一个随机过程，得到边缘节点组的初始状态s1。t＝1时，选取边缘节点组的带宽额度调整动作a
t
，执行后得到回报r
t
和新的边缘节点组的运行状态s
t 1
。将该阶段产生的(s
t
，c1，c2，a
t
，r
t
，s
t 1
)存入r。从r中随机抽取一批n个记录(si，c
1i
，c
2i
，ai，ri，s
i 1
)，然后设置目标函数yi为：
122.yi＝ri γq
′
(s
i 1
，μ
′
(s
i 1
|θ
μ
′
)|θq′
)
123.其中yi代表目标网络，ri代表在i学习过程中的回报值，θu′
、θq′
代表目标权重，γ代表折扣因子。
124.进一步地，通过最小化以下损失函数来更新critic网络：l代表损失函数。
[0125][0126]
critic中状态估计网络的训练基于现实的q值和估计的q值的平方损失确定，估计的q值根据当前的状态s和动作估计网络输出的动作a输入状态估计网络得到，而现实的q值根据现实的奖励r，以及将下一时刻的状态s'和动作现实网络得到的动作a'输入到状态现实网络而得到的q值的折现值相加得到。进一步地，更新actor网络：由于a是确定性策略，即a＝μ(s∣θ)，因此通过确定性策略梯度来更新actor网络。从critic得来的动作梯度
▽
a(a_grad)乘以从actor得来的参数梯度
▽
θ
μ
(policy_grads)，使得actor朝着更有可能获取比较大的q函数值的方向修改参数。actor的目的是尽量得到一个高q值的action，因此actor的损失可以简单的理解为得到的反馈q值越大损失越小，得到的反馈q值越小损失越大。
[0127][0128]
其中代表梯度，用动作网络的方法调整权重值，代表动作梯度，代表参数梯度。
[0129]
最后更新目标网络，目标网络包括评价目标网络和动作目标网络：目标网络的权重通过慢慢跟踪学习过的网络来更新，以下分别为评价目标网络和动作目标网络的权重更新：
[0130]
θq′
←
τθq (1-τ)θq′
[0131]
θ
μ
←
τθ
μ
(1-τ)θ
μ
[0132]
τ设置为非常接近1的数，这样目标网络的参数θ不会发生太大的变化。
[0133]
在完成评价目标网络和动作目标网络的权重更新后，由更新后的评价目标网络和动作目标网络形成待测试多条件ddpg模型，在经过测试集的评估验证后即得到目标多条件ddpg模型。
[0134]
本实施例通过训练数据集对初始神经网络模型中的执行器与评判器进行训练，使得执行器可以从多条件信息中学习带宽额度调整的限制、从边缘节点组的实时运行kpi中学习边缘节点的运行状态以及当前对带宽的需求，得到目标多条件ddpg模型，以通过目标多条件ddpg模型中的执行器根据边缘节点组的状态信息与多条件信息确定边缘节点组的带宽额度调整标识，便于根据边缘节点组的带宽额度调整标识在边缘节点组中各边缘节点之间进行带宽额度调整，满足边缘节点组中各边缘节点的带宽需求，有效提高边缘节点组的带宽资源利用率。
[0135]
进一步地，本技术还提供一种带宽额度调整装置。
[0136]
参照图7，图7为本技术带宽额度调整装置第一实施例的功能模块示意图。
[0137]
所述带宽额度调整装置包括：
[0138]
获取模块10，用于获取边缘节点组的状态信息与多条件信息，将所述边缘节点组的状态信息与多条件信息输入至目标多条件深度确定性策略梯度ddpg模型；
[0139]
确定模块20，用于基于所述目标多条件ddpg模型根据所述边缘节点组的状态信息与多条件信息确定所述边缘节点组的带宽额度调整标识；
[0140]
调整模块30，用于根据所述边缘节点组的带宽额度调整标识，在所述边缘节点组中的各边缘节点之间进行带宽额度调整。
[0141]
进一步地，所述获取模块10包括：
[0142]
预处理单元，用于对所述边缘节点组的状态信息与多条件信息进行数据预处理，得到预处理后的所述边缘节点组的状态信息与多条件信息；
[0143]
第一输入单元，用于将预处理后的所述边缘节点组的状态信息与多条件信息输入至目标多条件深度确定性策略梯度ddpg模型的执行器。
[0144]
进一步地，所述获取模块10还包括：
[0145]
获取单元，用于获取边缘节点组的历史状态信息与历史多条件信息作为训练数据集；
[0146]
构建单元，用于基于执行器与评判器构建初始多条件ddpg模型；
[0147]
第一训练单元，用于根据所述训练数据集对所述初始多条件ddpg模型进行训练，得到目标多条件ddpg模型。
[0148]
进一步地，所述获取模块10还包括：
[0149]
第二训练单元，用于根据所述训练数据集的训练集对所述初始多条件ddpg模型进行训练，得到待测试多条件ddpg模型；
[0150]
测试单元，用于根据所述训练数据集的测试集对所述待测试多条件ddpg模型进行测试，得到目标多条件ddpg模型。
[0151]
进一步地，所述获取模块10还包括：
[0152]
第二输入单元，用于将所述训练数据集的训练集分别输入至所述初始多条件ddpg模型的执行器与评判器；
[0153]
第三训练单元，用于根据所述训练集分别对所述初始多条件ddpg模型中的执行器与评判器进行训练，得到待测试多条件ddpg模型。
[0154]
进一步地，所述获取模块10还包括：
[0155]
第四训练单元，用于根据所述训练集对所述初始多条件ddpg模型中执行器的动作估计网络进行训练，得到动作目标网络；
[0156]
第五训练单元，用于根据所述训练集对所述初始多条件ddpg模型中评判器的评价估计网络进行训练，得到评价目标网络；
[0157]
生成单元，用于基于所述动作目标网络与所述评价目标网络得到待测试多条件ddpg模型。
[0158]
此外，本技术还提供一种介质，所述介质优选为计算机可读存储介质，其上存储有带宽额度调整程序，所述带宽额度调整程序被处理器执行时实现上述带宽额度调整方法各实施例的步骤。
[0159]
此外，本技术还提供一种计算机程序产品，包括计算机程序，所述计算机程序被处理器执行时实现上述带宽额度调整方法各实施例的步骤。
[0160]
在本技术带宽额度调整设备、计算机可读介质和计算机程序产品的实施例中，包含了上述带宽额度调整方法各实施例的全部技术特征，说明和解释内容与上述带宽额度调整方法各实施例基本相同，在此不做赘述。
[0161]
需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个
……”
限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。
[0162]
上述本技术实施例序号仅仅为了描述，不代表实施例的优劣。
[0163]
通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本技术的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如rom/ram、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是固定终端，如物联网智能设备，包括智能空调、智能电灯、智能电源、智能路由器等智能家居；也可以是移动终端，包括智能手机、可穿戴的联网ar/vr装置、智能音箱、自动驾驶汽车等诸多联网设备)执行本技术各个实施例所述的方法。
[0164]
以上仅为本技术的优选实施例，并非因此限制本技术的专利范围，凡是利用本技术说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本技术的专利保护范围内。

再多了解一些

1/2 1 2 下一页尾页

本文用于创业者技术爱好者查询，仅供学习研究，如用于商业用途，请联系技术所有人。

上一篇：返回列表
下一篇：一种多级平台联动方法、系统、装置及存储介质与流程

带宽额度调整方法、装置、设备、介质及计算机程序产品与流程

相关文献

最热文献