一种基于深度强化学习的边缘计算主动服务方法及系统与流程

2022-03-09 00:43:28 来源：中国专利 TAG：

1.本发明涉及一种基于深度强化学习的边缘计算主动服务系统及方法，属于用户边缘计算技术领域。

背景技术：

2.使用边缘计算的用户(如ar用户、入侵检测终端设备)在与边缘节点的交互过程中，边缘节点可以根据用户的负载情况提供主动的边缘服务，从而增加用户体验，例如计算卸载、边缘缓存服务等等。如果可以提前预判到用户的性能瓶颈，则能够根据用户的使用信息，主动为用户进行服务，提升用户体验。预判用户负载情况并进行主动服务可以有效提升用户的满意度，现有的方法主要有以下几种:
3.1)基于人工规则配置，根据用户偏好、历史负载等，可以人工的配置相关规则，预判用户资源需求，例如针对喜欢看电影的用户，可以提前部署视频资源；对于喜欢玩游戏的用户，可以预分配较多的计算资源。
4.人工规则配置存在的问题：
5.a)需要专家领域知识，需要大量人工参与；
6.b)用户的资源需求可能多变复杂，需要逐步的进行配置；
7.c)用户画像、应用信息等非常复杂，有上千种特征，人工很难配置出合理的规则；
8.2)基于监督学习的方法，根据用户的用户特征、历史负载等等等，通过神经网络、树模型等训练监督学习模型，通过多分类来预测用户资源需求，并进行提前部署。
9.监督学习目前存在的问题：
10.a)用户的资源需求具有序列性，在上一次资源请求中，对用户的服务质量会影响用户在下一步的需求，监督学习很难考虑到这一点；
11.b)随着业务的发展，用户的不同应用的资源请求特征也会有变化，每次有应用更新等发生时，监督学习都需要重新训练模型，计算量大，需要花费时间多。

技术实现要素：

12.本发明所要解决的技术问题：在边缘计算场景中，用户的资源请求具有序列性，并且用户资源请求可能会动态变化，计算量大，需要花费时间多。
13.本发明采用的技术方案工作原理是：本发明对以下两种场景进行用户资源需求预判：
14.边缘缓存：在用户浏览视频资源等情况时，如果可以预测到用户的视频请求等，可以提前在边缘进行缓存，为用户提供更快速的带宽资源；
15.计算密集应用：在用户玩游戏、数据计算等应用请求中，如果可以预测到用户请求，主动为用户计算任务提供更高效的计算服务，提高用户的计算效率。
16.针对以上几种情况，本发明通过强化学习的方式，每次通过探索提供给用户不同的资源服务，并通过用户点击或其他反馈获取奖赏，最终目标是最大化用户长期的累积奖
赏或用户的满意度，来实现用户资源请求预判。
17.本发明的技术方案为:
18.一种基于深度强化学习的边缘计算主动服务方法，包括以下步骤：
19.1)提取用户特征信息，特征信息包括用户画像、用户在设定期间内的应用负载、用户位置等，同时提取用户意图分类；
20.2)通过深度神经网络预训练意图预判模型，所述意图预判模型为多分类神经网络模型，意图预判模型的输入为用户画像、用户在设定期间内的应用负载、用户位置，意图预判模型的输出为经过归一化指数函数softmax的多分类用户意图概率，然后利用交叉熵损失函数优化意图预判模型，训练后的意图预判模型输出为当前的意图的类别，同时将训练后的意图预判模型的倒数第二层作为表示向量，建立ddpg模型；
21.3)通过线上探索对ddpg模型进行优化；
22.4)设定强化学习的奖赏函数，如果用户使用其中一个意图对应的服务，则奖赏值为1，否则奖赏值为0；主动服务系统在与用户交互过程中，根据奖赏值对用户资源请求进行预判，选择使得critic估值函数最大的动作，即提供相应的服务。
23.一种基于深度强化学习的边缘计算主动服务系统，包括以下程序模块；
24.特征提取模块：提取用户特征信息，特征信息包括用户画像、用户在设定期间内的应用负载、用户位置等，同时提取用户意图分类；
25.神经网络训练模块：通过深度神经网络预训练意图预判模型，所述意图预判模型为多分类神经网络模型，意图预判模型的输入为用户画像、用户在设定期间内的应用负载、用户位置，意图预判模型的输出为经过归一化指数函数 softmax的多分类用户意图概率，然后利用交叉熵损失函数优化意图预判模型，训练后的意图预判模型输出为当前的意图的类别，同时将训练后的意图预判模型的倒数第二层作为表示向量，建立ddpg模型；
26.模型优化模块：过线上探索对ddpg模型进行优化；
27.预判模块：设定强化学习的奖赏函数，如果用户使用其中一个意图对应的服务，则奖赏值为1，否则奖赏值为0；主动服务系统在与用户交互过程中，根据奖赏值对用户资源请求进行预判，选择使得critic估值函数最大的动作，即提供相应的服务。
28.本发明所达到的有益效果：本发明的方法与系统通过深度强化学习，在动态的环境下对用户进行主动的服务推送，并通过不断的试错优化推送的服务质量，提升边缘节点的服务效率，并提升用户满意度。同时，本发明的方法可以动态的新增或减少用户意图，模型可以通过强化学习自动的更新，并针对用户序列的行为给出最优的意图预判结果。
附图说明
29.图1为本发明的基于深度强化学习的边缘计算主动服务方法的流程图；
30.图2为本明的ddpg模型结构示意图。
具体实施方式
31.以下结合附图和具体实施例对本发明的技术方案作进一步说明。
32.实施例1
33.如图1所示，本发明的一种基于深度强化学习的边缘计算主动服务方法，包括以下
步骤：
34.1)提取用户特征信息，特征信息包括用户画像、用户在设定期间内的应用负载、用户位置等，同时提取用户意图分类；
35.2)通过深度神经网络预训练意图预判模型，所述意图预判模型为多分类神经网络模型，意图预判模型的输入为用户画像、用户在设定期间内的应用负载、用户位置，意图预判模型的输出为经过归一化指数函数softmax的多分类用户意图概率，然后利用交叉熵损失函数优化意图预判模型，训练后的意图预判模型输出为当前的意图的类别，同时将训练后的意图预判模型的倒数第二层作为表示向量，建立ddpg模型；因为意图预判模型最后一层是归一化指数函数softmax，与下一个任务无关，因此根据迁移学习的方法，将网络中间层的输出作为表示向量；
36.3)通过线上探索对ddpg模型进行优化，具体步骤包括：
37.31)通过强化学习ddpg算法(deep deterministic policy gradient)实现强化学习，其中actor网络以步骤2)获得的表示向量作为输入，ddpg算法输出向用户提供的存储或计算服务；
38.32)critic网络通过表示向量和展示的问题预测进行服务后的长期收益并通过时序差分误差进行优化，
[0039][0040]
其中，q代表critic网络，s为当前的环境状态，a为选取的服务动作，w 为critic网络的参数；s',a'分别为下一时刻的状态和动作，r为奖赏函数，γ为折扣因子，一般为0.95；l(w)表示优化值，e[.]为期望值，a
′
是使critic网络 q(s
′
,a
′
,w)最大的值；
[0041]
33)ddpg算法通过噪声函数ounoise进行动态探索；
[0042]
4)设定强化学习的奖赏函数，如果用户使用其中一个意图对应的服务，则奖赏值为1，否则奖赏值为0；主动服务系统在与用户交互过程中，根据奖赏值对用户资源请求进行预判，选择使得critic估值函数最大的动作，即提供相应的服务。通过与用户交互，利用强化学习ddpg算法，优化策略函数，即主动服务模型，提升预判准确率；
[0043]
5)当有用户新增需求时，保持步骤2)中的深度神经网络不变，修改步骤3) 中actor网络输出和critic网络的输入，对新的意图进行动态的探索，提升用户点击率。
[0044]
ddpg模型结构如图2所示，ddpg模型的具体工作步骤为：
[0045]
1)根据策略函数向用户推送计算或存储服务，在训练时刻，对策略输出加ounoise噪声之后，选择使得critic估值函数最大的动作；在测试时刻，选择使得critic估值函数最大的动作；所述策略函数是指策略网络的输出值，针对每种状态输出相对应的动作，所述动作为推送的服务；
[0046]
2)在用户端由用户选择是否使用推送的服务；
[0047]
3)根据用户的选择获取奖赏函数，同时更新估值函数和策略函数；
[0048]
4)继续返回至步骤1)循环工作。
[0049]
一种基于深度强化学习的边缘计算主动服务系统，包括以下程序模块；
[0050]
特征提取模块：提取用户特征信息，特征信息包括用户画像、用户在设定期间内的应用负载、用户位置等，同时提取用户意图分类；
[0051]
神经网络训练模块：通过深度神经网络预训练意图预判模型，所述意图预判模型为多分类神经网络模型，意图预判模型的输入为用户画像、用户在设定期间内的应用负载、用户位置，意图预判模型的输出为经过归一化指数函数 softmax的多分类用户意图概率，然后利用交叉熵损失函数优化意图预判模型，训练后的意图预判模型输出为当前的意图的类别，同时将训练后的意图预判模型的倒数第二层作为表示向量，建立ddpg模型；
[0052]
模型优化模块：过线上探索对ddpg模型进行优化；
[0053]
预判模块：设定强化学习的奖赏函数，如果用户使用其中一个意图对应的服务，则奖赏值为1，否则奖赏值为0；主动服务系统在与用户交互过程中，根据奖赏值对用户资源请求进行预判，选择使得critic估值函数最大的动作，即提供相应的服务。
[0054]
提升模块：当有用户新增需求时，保持神经网络训练模块中的深度神经网络不变，修改模型优化模块中actor网络输出和critic网络的输入，对新的意图进行动态的探索，提升用户点击率。
[0055]
本领域内的技术人员应明白，本技术的实施例可提供为方法、系统、或计算机程序产品。因此，本技术可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本技术可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、 cd-rom、光学存储器等)上实施的计算机程序产品的形式。
[0056]
本技术是参照根据本技术实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/ 或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
[0057]
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
[0058]
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
[0059]
以上结合附图对本发明的实施例进行了描述，但是本发明并不局限于上述的具体实施方式，上述的具体实施方式仅仅是示意性的，而不是限制性的，本领域的普通技术人员在本发明的启示下，在不脱离本发明宗旨和权利要求所保护的范围情况下，还可做出很多形式，这些均属于本发明的保护之内。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：一种NLU任务的处理方法、系统、电子设备及存储介质与流程

一种基于深度强化学习的边缘计算主动服务方法及系统与流程

相关文献

最热文献