一种基于深度强化学习的RIC节点的算法部署方法及装置与流程

2022-11-14 00:18:18 来源：中国专利 TAG：

一种基于深度强化学习的ric节点的算法部署方法及装置
技术领域
1.本技术涉及移动通信技术领域，特别是涉及一种基于深度强化学习的ric节点的算法部署方法及装置。

背景技术：

2.伴随着云网融合的深入，核心网功能单元已经开始逐步云化，通用设备替代专用的网络设备的研究也在稳步推进。面向未来网络业务多样化、内生设计和开放生态的需求，网络智能化是重要的网络演进路线。
3.o-ran(open radio access network，开放式无线接入网)组织针对ran(radio access network，无线电接入网)虚拟化提出了ran智能控制器ric(radio intelligent controller，无线智能控制器)，其中ric包含了non-rt(非实时)ric和near-rt(近实时)ric。非实时ric部署在相较于近实时ric更为丰富算力的节点，且非实时ric和近实时ric在部署时采用分布式的架构，即一个非实时ric可以与一个或者多个近实时ric连接，同时，非实时ric可以将已经训练完成的ai算法(或xapp)下发至近实时ric。
4.但是鉴于近实时ric在部署中更靠近边缘，具有算力和存储空间的局限性，且近实时ric需要实时处理业务，因此需要预先在近实时ric部署相关的ai算法。
5.在现有的部署方案中，near-rt ric根据前期业务需求部署相应的算法，但无法实现xapp内容的自动更新和维护，当业务场景发生变化，原先部署的算法无法处理新的业务，造成业务接受率下降。

技术实现要素：

6.本技术实施例的目的在于提供一种基于深度强化学习的ric节点的算法部署方法及装置，以实现预先预测出近实时ric节点需要部署的算法集，节省通信开销，提升业务响应速度以及业务接受率。具体技术方案如下：
7.为实现上述目的，本技术实施例提供了一种基于深度强化学习的ric节点的算法部署方法，应用于无线智能控制器ric包含的非实时ric节点，所述无线智能控制器还包括近实时ric节点，所述方法包括：
8.确定当前决策时刻所述近实时ric节点的节点状态，所述节点状态包括：所述近实时ric节点内部署的业务算法集合、上一决策时刻与当前决策时刻之间所述近实时ric节点接收的业务请求集合；
9.将所述节点状态输入预先训练的深度强化学习模型，确定接受率期望值最大的算法部署决策，其中，所述算法部署决策包含需要在所述近实时ric节点部署的目标算法集合；
10.将所述目标算法集合下发至所述近实时ric节点，以使所述近实时ric节点变更所部署的业务算法集合。
11.可选的，所述深度强化学习模型是根据多个四元组数据训练得到的，其中，每一四
元组数据包括：
12.每一决策时刻所述近实时ric节点的第一节点状态、该决策时刻的决策动作、执行所述决策动作后所述近实时ric节点的第二节点状态、所述决策动作的奖励值；
13.所述第一节点状态包括：所述近实时ric节点内部署的业务算法集合、上一决策时刻与当前决策时刻之间所述近实时ric节点接收的的业务请求集合。
14.可选的，采用如下方式获取所述四元组数据：
15.确定当前决策时刻所述近实时ric节点的第一节点状态；
16.根据所述第一节点状态确定决策动作，并基于所述决策动作变更所述近实时ric节点内部署的业务算法集合；
17.计算上一决策时刻与当前决策时刻之间所述近实时ric节点的业务接受率，判断该业务接受率是否大于上一次计算的业务接受率；若大于，确定所述决策动作的奖励值为预设正奖励值；若不大于，确定所述决策动作的奖励值为预设负奖励值。
18.可选的，所述深度强化学习模型为深度q网络dqn模型。
19.为实现上述目的，本技术实施例还提供了一种基于深度强化学习的ric节点的算法部署装置，应用于无线智能控制器ric包含的非实时ric节点，所述无线智能控制器还包括近实时ric节点，所述装置包括：
20.第一确定模块，用于确定当前决策时刻所述近实时ric节点的节点状态，所述节点状态包括：所述近实时ric节点内部署的业务算法集合、上一决策时刻与当前决策时刻之间所述近实时ric节点接收的业务请求集合；
21.第二确定模块，用于将所述节点状态输入预先训练的深度强化学习模型，确定接受率期望值最大的算法部署决策，其中，所述算法部署决策包含需要在所述近实时ric节点部署的目标算法集合；
22.下发模块，用于将所述目标算法集合下发至所述近实时ric节点，以使所述近实时ric节点变更所部署的业务算法集合。
23.可选的，所述深度强化学习模型是根据多个四元组数据训练得到的，其中，每一四元组数据包括：
24.每一决策时刻所述近实时ric节点的第一节点状态、该决策时刻的决策动作、执行所述决策动作后所述近实时ric节点的第二节点状态、所述决策动作的奖励值；
25.所述第一节点状态包括：所述近实时ric节点内部署的业务算法集合、上一决策时刻与当前决策时刻之间所述近实时ric节点接收的的业务请求集合。
26.可选的，还包括获取模块，用于获取所述四元组数据；所述获取模块，包括：
27.确定子模块，用于确定当前决策时刻所述近实时ric节点的第一节点状态；
28.变更子模块，用于根据所述第一节点状态确定决策动作，并基于所述决策动作变更所述近实时ric节点内部署的业务算法集合；
29.判断子模块，用于计算上一决策时刻与当前决策时刻之间所述近实时ric节点的业务接受率，判断该业务接受率是否大于上一次计算的业务接受率；若大于，确定所述决策动作的奖励值为预设正奖励值；若不大于，确定所述决策动作的奖励值为预设负奖励值。
30.可选的，所述深度强化学习模型为深度q网络dqn模型。
31.为实现上述目的，本技术实施例还提供了一种电子设备，包括处理器、通信接口、
存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；
32.存储器，用于存放计算机程序；
33.处理器，用于执行存储器上所存放的程序时，实现上述任一基于深度强化学习的ric节点的算法部署方法步骤。
34.为实现上述目的，本技术实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现上述任一基于深度强化学习的ric节点的算法部署方法步骤。
35.本技术实施例有益效果：
36.可见，应用本技术实施例提供的基于深度强化学习的ric节点的算法部署方法及装置，确定当前决策时刻所述近实时ric节点的节点状态，所述节点状态包括：所述近实时ric节点内部署的业务算法集合、上一决策时刻与当前决策时刻之间所述近实时ric节点接收的业务请求集合；将所述节点状态输入预先训练的深度强化学习模型，确定接受率期望值最大的算法部署决策，其中，所述算法部署决策包含需要在所述近实时ric节点部署的目标算法集合；将所述目标算法集合下发至所述近实时ric节点，以使所述近实时ric节点变更所部署的业务算法集合。
37.从而基于深度强化学习模型，根据实时变化的近实时ric节点的节点状态，实时预测出近实时ric节点需要部署的算法集合，以适应不断变化的业务需求，提升业务响应速度和业务接受率。
38.当然，实施本技术的任一产品或方法并不一定需要同时达到以上所述的所有优点。
附图说明
39.为了更清楚地说明本技术实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本技术的一些实施例，对于本领域普通技术人员来讲，还可以根据这些附图获得其他的实施例。
40.图1为本技术实施例提供的基于深度强化学习的ric节点的算法部署方法的一种流程示意图；
41.图2为本技术实施例提供的基于深度强化学习的ric节点的算法部署装置的一种结构示意图；
42.图3为本技术实施例提供的电子设备的一种结构示意图。
具体实施方式
43.下面将结合本技术实施例中的附图，对本技术实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本技术一部分实施例，而不是全部的实施例。基于本技术中的实施例，本领域普通技术人员基于本技术所获得的所有其他实施例，都属于本技术保护的范围。
44.为了解决现有技术中无法提前预测需要部署在近实时ric节点的算法集，导致业务接受率较低的技术问题，本技术实施例提供了一种基于深度强化学习的ric节点的算法
部署方法及装置，方法可以应用于无线智能控制器包含的非实时ric节点，其中，无线智能控制器还包括至少一个近实时ric节点，非实时ric节点和近实时ric节点在部署时采用分布式的架构，即一个非实时ric节点可以同一个或多个近实时ric节点连接。
45.参见图1，图1为本技术实施例提供的基于深度强化学习的ric节点的算法部署方法的一种流程示意图，该方法可以应用于无线智能控制器ric包含的非实时ric节点，如图1所示，方法可以包括以下步骤：
46.s101：确定当前决策时刻所述近实时ric节点的节点状态，节点状态包括：所述近实时ric节点内部署的业务算法集合、上一决策时刻与当前决策时刻之间所述近实时ric节点接收的业务请求集合。
47.本技术实施例中，近实时ric节点在部署中更靠近边缘，需要实时处理业务。
48.其中，近实时ric节点处理的业务可以是多种类型的，例如人脸识别、图像处理等。相应的，业务算法可以包括：人脸识别算法、图像处理算法等。
49.近实时ric节点可以接收业务请求，并将自身所接收到业务请求告知非实时ric节点。由于近实时ric节点具有算力和存储空间的局限性，且需要实时处理业务，因此非实时ric节点可以预先向近实时ric节点下发相关的算法，算法可以部署在xapp中。
50.本技术实施例中，为了实现及时更新近实时ric节点部署的算法集合，以尽可能的提高业务接受率，可以预先训练深度强化学习模型，并根据深度强化学习模型进行决策，确定需要缓存至近实时ric节点的目标算法集。
51.具体的，深度强化学习模型根据近实时ric节点的节点状态进行决策，以确定部署在近实时ric节点的业务算法集合。
52.因此，需要对近实时ric节点的节点状态进行定义。
53.本技术实施例中，深度强化学习模型在每个决策时刻，根据节点状态完成决策，那么在每个决策时刻，近实时ric节点的节点状态可以包括：近实时ric节点内部署的业务算法集合、上一决策时刻与当前决策时刻之间近实时ric节点接收的业务请求集合。
54.s102：将所述节点状态输入预先训练的深度强化学习模型，确定接受率期望值最大的算法部署决策，其中，所述算法部署决策包含需要在所述近实时ric节点部署的目标算法集合。
55.本技术的一个实施例中，深度强化学习模型是dqn(deep q network)模型，本质上是基于深度神经网络的q-learning模型。
56.本领域技术人员可以理解，在训练dqn模型后，模型相当于一个q(s，a)函数，其中s表示模型的输入，在本技术实施例中s是近实时ric节点的节点状态；模型输出为使q(s，a)取最大值的决策动作a，在本技术实施例中a是算法部署决策，也就是需要在近实时ric节点部署的目标算法集合。
57.本技术实施例中，在训练dqn模型过程中，以业务接受率最大为目标，因此q(s，a)中的q值表示接受率期望值。
58.在完成深度强化学习模型的训练后，将节点状态输入深度强化学习模型，即可得到最大的接受率期望值对应的决策动作，也就是接受率期望值最大的算法部署决策。
59.s103：将所述目标算法集合下发至所述近实时ric节点，以使所述近实时ric节点变更所部署的业务算法集合。
60.具体的，非实时ric节点确定目标算法集后，即可将其下发至近实时ric节点，从而近实时ric节点提前部署合适的算法，提升业务响应速度和业务接受率。
61.可见，应用本技术实施例提供的基于深度强化学习的ric节点的算法部署方法，确定当前决策时刻所述近实时ric节点的节点状态，所述节点状态包括：所述近实时ric节点内部署的业务算法集合、上一决策时刻与当前决策时刻之间所述近实时ric节点接收的业务请求集合；将所述节点状态输入预先训练的深度强化学习模型，确定接受率期望值最大的算法部署决策，其中，所述算法部署决策包含需要在所述近实时ric节点部署的目标算法集合；将所述目标算法集合下发至所述近实时ric节点，以使所述近实时ric节点变更所部署的业务算法集合。
62.从而基于深度强化学习模型，根据实时变化的近实时ric节点的节点状态，实时预测出近实时ric节点需要部署的算法集合，以适应不断变化的业务需求，提升业务响应速度和业务接受率。
63.本技术的一个实施例中，深度强化学习模型是根据多个四元组数据训练得到的，每一四元组数据包括：每一决策时刻所述近实时ric节点的第一节点状态、该决策时刻的决策动作、执行所述决策动作后所述近实时ric节点的第二节点状态、所述决策动作的奖励值；
64.所述第一节点状态包括：所述近实时ric节点内部署的业务算法集合、上一决策时刻与当前决策时刻之间所述近实时ric节点接收的的业务请求集合。
65.具体的，在当前决策时刻t，系统状态可被量化为集合其中，表示非实时ric节点中当前已经训练完成的算法。
66.c
t
表示上一决策时刻与当前决策时刻之间依次到达近实时ric节点的业务请求的集合，可以由d
t
个业务请求构成，表示为：
67.c
t
＝{c(t,1),c(t,2),
…
,c(t,d
t
)}
68.θ
t
表示近实时ric节点中已缓存的算法，可以表示为：
69.θ
t
＝[θ
t
[1],θ
t
[2],
…
,θ
t
[c],
…
,θ
t
[c]]
t
[0070]
其中，当θ
t
[c]＝1，表示近实时ric节点存在c算法；当θ
t
[c]＝0，表示近实时ric节点不存在c算法。
[0071]
在获取近实时ric节点的状态s
t
后，深度强化学习模型决策下一时刻(t 1时刻)需要缓存的算法内容，对应的决策表示为a＝{a
t
,θ
t 1
}，即对近实时ric节点已存在的算法进行修改，θ
t 1
表示执行决策后近实时ric节点中缓存的算法集合。
[0072]
本技术实施例中，在训练过程中，需要预先设置奖励策略，若执行的决策能够提高业务接受率，将获得正奖励；若执行的决策导致业务接受率降低，则获得负奖励。
[0073]
具体的，采用如下步骤获取上述四元组数据：
[0074]
步骤11：确定当前决策时刻近实时ric节点的第一节点状态。
[0075]
步骤12：根据所述第一节点状态确定决策动作，并基于所述决策动作变更所述近实时ric节点内部署的业务算法集合。
[0076]
在深度强化学习中，通过智能体与环境交互，记录下观测到的状态、动作、奖励，用这些经验来学习一个策略函数q(s，a)。
[0077]
具体的，在初始阶段，策略函数q(s，a)并不准确，但仍可以根据每一决策时刻近实
时ric节点的第一节点状态，确定决策动作。
[0078]
步骤13：计算上一决策时刻与当前决策时刻之间所述近实时ric节点的业务接受率，判断该业务接受率是否大于上一次计算的业务接受率；若大于，确定所述决策动作的奖励值为预设正奖励值；若不大于，确定所述决策动作的奖励值为预设负奖励值。
[0079]
在确定决策动作后，基于决策动作变更近实时ric节点的部署的业务算法，然后计算上一决策时刻与当前决策时刻之间所述近实时ric节点的业务接受率，判断该业务接受率是否大于上一次计算的业务接受率，若大于，确定决策动作的奖励值为预设正奖励值，如奖励值为 1；若不大于，确定所述决策动作的奖励值为预设负奖励值，如奖励值为-1。上述奖励值仅作为示例，还可以根据具体的环境调整奖励值，以适应多样化的应用场景。
[0080]
其中，业务接受率是近实时ric节点收到的业务请求能够被处理的比率，如果近实时ric节点部署有业务请求对应的算法，则该业务请求能够被处理。
[0081]
举例来讲，若上一决策时刻与当前决策时刻之间近实时ric节点收到的业务请求包括a1，a2，a3，a4，a5和a6，近实时ric节点部署的算法包括：a1、a3和a5，其中，算法a1用于处理业务请求a1，算法a3用于处理业务请求a3，算法a5用于处理业务请求a5，则上述6个业务请求中，有3个能够被处理，则近实时ric节点的业务接受率为3/6＝50％。
[0082]
可见，本技术实施例中，若决策策略能提高业务接受率，将获得正奖励，若业务接受率降低，则受到负奖励。
[0083]
通过不断执行上述步骤11-步骤13，能够获取大量的四元组数据，记为(s,a,r,s’)，s表示决策时刻近实时ric节点的第一节点状态，a表示决策时刻的决策动作，s’表示执行决策动作后近实时ric节点的第二节点状态，r表示决策动作的奖励值。进而可以根据四元组数据构建记忆池。
[0084]
本技术实施例中，可以基于大量的四元组数据训练深度强化学习模型，本领域技术人员可以理解，根据四元组数据训练dqn模型的具体过程属于现有技术范畴。
[0085]
具体的，从记忆池中选取独立同分布的四元组数据进行训练，根据构建的损失函数计算损失值，并基于梯度下降算法更新模型中的网络参数，直到模型收敛。
[0086]
可见，本技术实施例中，通过预先获取的四元组数据训练dqn模型，从而基于dqn模型，根据实时变化的近实时ric节点的节点状态，实时预测出近实时ric节点需要部署的算法集合，以适应不断变化的业务需求，提升业务响应速度和业务接受率。
[0087]
本技术实施例还提供了一种基于深度强化学习的ric节点的算法部署装置，参见图2，图2为本技术实施例提供的基于深度强化学习的ric节点的算法部署的一种结构示意图，应用于无线智能控制器ric包含的非实时ric节点，所述无线智能控制器还包括至少一个近实时ric节点，所述装置包括：
[0088]
第一确定模块201，用于确定当前决策时刻所述近实时ric节点的节点状态，所述节点状态包括：所述近实时ric节点内部署的业务算法集合、上一决策时刻与当前决策时刻之间所述近实时ric节点接收的业务请求集合；
[0089]
第二确定模块202，用于将所述节点状态输入预先训练的深度强化学习模型，确定接受率期望值最大的算法部署决策，其中，所述算法部署决策包含需要在所述近实时ric节点部署的目标算法集合；
[0090]
下发模块203，用于将所述目标算法集合下发至所述近实时ric节点，以使所述近
实时ric节点变更所部署的业务算法集合。
[0091]
本技术的一种实施例中，深度强化学习模型是根据多个四元组数据训练得到的，其中，每一四元组数据包括：
[0092]
每一决策时刻所述近实时ric节点的第一节点状态、该决策时刻的决策动作、执行所述决策动作后所述近实时ric节点的第二节点状态、所述决策动作的奖励值；
[0093]
所述第一节点状态包括：所述近实时ric节点内部署的业务算法集合、上一决策时刻与当前决策时刻之间所述近实时ric节点接收的的业务请求集合。
[0094]
本技术的一种实施例中，在图2所示装置基础上，还可以包括获取模块，用于获取所述四元组数据；所述获取模块，包括：
[0095]
确定子模块，用于确定当前决策时刻所述近实时ric节点的第一节点状态；
[0096]
变更子模块，用于根据所述第一节点状态确定决策动作，并基于所述决策动作变更所述近实时ric节点内部署的业务算法集合；
[0097]
判断子模块，用于计算上一决策时刻与当前决策时刻之间所述近实时ric节点的业务接受率，判断该业务接受率是否大于上一次计算的业务接受率；若大于，确定所述决策动作的奖励值为预设正奖励值；若不大于，确定所述决策动作的奖励值为预设负奖励值。
[0098]
本技术的一种实施例中，所述深度强化学习模型为深度q网络dqn模型。
[0099]
可见，应用本技术实施例提供的基于深度强化学习的ric节点的算法部署装置，确定当前决策时刻所述近实时ric节点的节点状态，所述节点状态包括：所述近实时ric节点内部署的业务算法集合、上一决策时刻与当前决策时刻之间所述近实时ric节点接收的业务请求集合；将所述节点状态输入预先训练的深度强化学习模型，确定接受率期望值最大的算法部署决策，其中，所述算法部署决策包含需要在所述近实时ric节点部署的目标算法集合；将所述目标算法集合下发至所述近实时ric节点，以使所述近实时ric节点变更所部署的业务算法集合。
[0100]
从而基于深度强化学习模型，根据实时变化的近实时ric节点的节点状态，实时预测出近实时ric节点需要部署的算法集合，以适应不断变化的业务需求，提升业务响应速度和业务接受率。
[0101]
本技术实施例还提供了一种电子设备，如图3所示，包括处理器301、通信接口302、存储器303和通信总线304，其中，处理器301，通信接口302，存储器303通过通信总线304完成相互间的通信，
[0102]
存储器303，用于存放计算机程序；
[0103]
处理器301，用于执行存储器303上所存放的程序时，实现如下步骤：
[0104]
确定当前决策时刻所述近实时ric节点的节点状态，所述节点状态包括：所述近实时ric节点内部署的业务算法集合、上一决策时刻与当前决策时刻之间所述近实时ric节点接收的业务请求集合；
[0105]
将所述节点状态输入预先训练的深度强化学习模型，确定接受率期望值最大的算法部署决策，其中，所述算法部署决策包含需要在所述近实时ric节点部署的目标算法集合；
[0106]
将所述目标算法集合下发至所述近实时ric节点，以使所述近实时ric节点变更所部署的业务算法集合。
[0107]
上述电子设备提到的通信总线可以是外设部件互连标准(peripheral component interconnect，pci)总线或扩展工业标准结构(extended industry standard architecture，eisa)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示，图中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。
[0108]
通信接口用于上述电子设备与其他设备之间的通信。
[0109]
存储器可以包括随机存取存储器(random access memory，ram)，也可以包括非易失性存储器(non-volatile memory，nvm)，例如至少一个磁盘存储器。可选的，存储器还可以是至少一个位于远离前述处理器的存储装置。
[0110]
上述的处理器可以是通用处理器，包括中央处理器(central processing unit，cpu)、网络处理器(network processor，np)等；还可以是数字信号处理器(digital signal processor，dsp)、专用集成电路(application specific integrated circuit，asic)、现场可编程门阵列(field-programmable gate array，fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
[0111]
在本技术提供的又一实施例中，还提供了一种计算机可读存储介质，该计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现上述任一基于深度强化学习的ric节点的算法部署方法的步骤。
[0112]
在本技术提供的又一实施例中，还提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述实施例中任一基于深度强化学习的ric节点的算法部署方法。
[0113]
在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时，全部或部分地产生按照本技术实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(dsl))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，dvd)、或者半导体介质(例如固态硬盘solid state disk(ssd))等。
[0114]
需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个
……”
限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
[0115]
本说明书中的各个实施例均采用相关的方式描述，各个实施例之间相同相似的部
分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于基于深度强化学习的ric节点的算法部署装置、电子设备、计算机存储介质、计算机程序产品实施例而言，由于其基本相似于基于深度强化学习的ric节点的算法部署实施例，所以描述的比较简单，相关之处参见基于深度强化学习的ric节点的算法部署方法实施例的部分说明即可。
[0116]
以上所述仅为本技术的较佳实施例，并非用于限定本技术的保护范围。凡在本技术的精神和原则之内所作的任何修改、等同替换、改进等，均包含在本技术的保护范围内。

再多了解一些

1/2 1 2 下一页尾页

本文用于创业者技术爱好者查询，仅供学习研究，如用于商业用途，请联系技术所有人。

一种基于深度强化学习的RIC节点的算法部署方法及装置与流程

相关文献

最热文献