一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种多波束的巨星座卫星频率与功率联合分配方法及装置

2022-09-01 00:28:02 来源:中国专利 TAG:


1.本发明涉及无线通信技术领域,特别是指一种多波束的巨星座卫星频率与功率联合分配方法及装置。


背景技术:

2.以卫星星座系统为重要组成部分的天地一体化信息网络,是支撑我国经济发展及国防信息化建设的重要网络基础设施,已成为我国“新基建”的重点发展方向。为了应对全球地域无差别海量用户的高速连接及超远程用户的低时延信息服务等业务需求的增长,就需要设计天地一体化大规模超密集星座系统,并保障其高效、高可靠运行。组建星座系统的的低轨卫星有效载荷要求具有高度灵活性,通过配备多波束发射天线来满足高质量和低成本服务的通信流量需求。为了满足日益增长的通信容量需求,巨星座多波束卫星系统必须打破带宽这个限制容量的主要瓶颈,在用户链路通常会选择频率复用,即不同点波束多次使用同一子信道的方法来解决此问题。但同频波束之间会产生共信道干扰,对于点波束分布密集的巨星座场景,这种同频干扰可能会非常严重,大大降低了多波束卫星系统的频带利用率。大规模星座系统作为一种典型的资源受限系统,如何有效的进行合理高效的星上资源分配从而降低同频干扰是提升通信系统频带利用率的关键问题。
3.低轨卫星的子信道资源和点波束功率分配是缓解大规模星座系统同频干扰的一种重要手段。而为解决低轨多波束卫星中服务场景不断变化,以及多元化、复杂化的发展趋势,需要引入一种高度灵活性的资源分配算法。深度强化学习是一种能解决高动态性问题的可靠方法,被广泛应用于无线通信的资源分配领域,但是传统的深度q学习算法和ddpg算法都无法处理同时包含离散变量和连续变量存在的场景,无法同时进行离散的子信道分配和连续的点波束功率分配问题;又由于一般的单智能体的方法,其动作空间的维度会随着点波束数量的增加呈指数级上升,在通信复杂度和计算成本上有着与传统的集中式优化算法相类似的问题,而多智能体算法,将其余智能体作为环境的一部分进行交互,而不是由一个智能体控制全部的动作空间,更容易扩展到具有大量点波束的巨星座网络系统中。
4.综上所述,现有技术中存在由于巨星座卫星系统中点波束密集部署所引起的同频小区间干扰严重,系统频带资源利用率低下的问题。


技术实现要素:

5.针对现有技术中巨星座卫星系统中点波束密集部署所引起的同频小区间干扰严重,系统频带资源利用率低下的问题,本发明提出了一种多波束的巨星座卫星频率与功率联合分配方法及装置。
6.为解决上述技术问题,本发明提供如下技术方案:
7.一方面,提供了一种多波束的巨星座卫星频率与功率联合分配方法,包括以下步骤:
8.s1:建立巨星座卫星多波束的网络模型;
9.s2:确立频带利用率最大化的卫星网络资源分配问题,建立马尔科夫决策模型;
10.s3:初始化深度神经网络参数,初始化当前价值函数和当前网络q值;
11.s4:通过多智能体深度强化学习方法,离线训练神经网络模型,直至奖励收敛到稳定值,基于训练结果对卫星多波束网络进行子信道与功率的联合分配。
12.可选地,设定一个星座系统内有k个卫星,每个卫星内用n个波束,整个系统共有m子信道,建立信道增益表示为表示卫星k到达点波束n处的信道增益,使用了第m个子信道。
13.可选地,步骤s2中,确立频带利用率最大化的卫星网络资源分配问题,建立马尔科夫决策模型,包括:
14.s21:结合同频波束间产生的干扰,表征处时隙t时点波束n的载干噪比,计算点波束n在时隙t内子信道m中的频带利用率;
15.s22:分别定义第一层子信道分配层的深度q网络的动作空间与状态空间,以及第二层功率分配层的actor-critic网络的动作空间与状态空间,建立马尔科夫决策模型;
16.s23:根据所述马尔科夫决策模型,确立点波束的资源优化问题,建立目标函数。
17.可选地,步骤s21中,结合同频波束间产生的干扰,表征处时隙t时点波束n的载干噪比,计算点波束n在时隙t内子信道m中的频带利用率,包括:
18.结合同频波束间产生的干扰,根据下述公式(1)表征处时隙t时点波束n的载干噪比
[0019][0020]
其中,代表信道选择情况,1代表选择m信道,0代表没有选择m信道;kn代表点波束n所选择的服务卫星,g(θ)代表天线方向图;g
max
为最大天线增益;θ
l,n
表示基于卫星k
l
,点波束l与n之间角度差;δ2代表点波束用户n处接收机的噪声;
[0021]
点波束n在时隙t内子信道m中的频带利用率c根据下述公式(2)表示为:
[0022][0023]
可选地,s22中,分别定义第一层子信道分配层的深度q网络的动作空间与状态空间,以及第二层功率分配层的actor-critic网络的动作空间与状态空间,建立马尔科夫决策模型,包括:
[0024]
s221:定义第一层子信道分配层的深度q网络的动作空间与状态空间,初始化当前价值函数和当前网络q值,进行系统的分布式执行部分,其中,选取一个点波束代表为智能体,则点波束n所对应的智能体在第一层时隙t的状态向量为q-target网络函数为其中ψ为深度q网络超参,选取得到q值最大的动作代表在t时刻所选取的信道为
[0025]
s222:定义第二层功率分配层的actor-critic网络的动作空间与状态空间,策略网络得到动作则对应的点波束发射功率为则对应的点波束发射功率为使用点波束n所对应的智能体的critic网络输出当前功率选择动作的值函数q(s,μ(s,θ);φ);
[0026]
其中θ为actorc网络超参,p
max
为点波束能够达到的最大功率,φ为critic网络超参。
[0027]
可选地,步骤s23中,根据所述马尔科夫决策模型,确立点波束的资源优化问题,建立目标函数,包括:
[0028]
s231:确立点波束的资源优化问题,建立如下述公式(3)的目标函数
[0029][0030]
其中,t
reuse
代表单个子信道的最大重用次数;n表示点波束集合,m表示子信道集合;约束条件c1表示为每个点波束n的最大发射功率为p
max
;约束条件c2表示为在时隙t时对于每个子信道都只有选取和不选取两种状态;约束条件c3表示为每个点波束n在时隙t时都必须选择一条子信道作为传输信道;约束条件c4表示每个子信道m在时隙t时最多可被重用t
reuse
次,也即共有最多t
reuse
个点波束可在时隙t内共有一个子信道m;
[0031]
s232:第一层子信道分配层和第二层功率分配层根据反馈奖励最大化来选取动作,循环累计奖励值;其中,子信道分配层和功率分配层共用同一个奖励函数奖励函数由自身点波束在时隙t内的频带利用率和对其余同频波束产生干扰的惩罚项所组成。
[0032]
可选地,步骤s3中,初始化深度神经网络参数,初始化当前价值函数和当前网络q值,包括:
[0033]
深度q结构网络模型参数为其中,表示深度q神经网络输入层神经元个数,表示深度q神经网络隐藏层神经元个数,表示深度q神经网络输出层神经元个数,ψ表示深度q神经网络超参,ψ
target
表示表示深度q-target神经网络超参;
[0034]
actor结构网络模型参数为其中,表示actor-eval深度神经网络和actor-target深度神经网络输入层神经元个数,表示actor-eval深度神经网络和actor-target深度神经网络隐藏层神经元个
数,表示actor-eval深度神经网络和actor-target深度神经网络输出层神经元个数,θ表示actor-eval深度神经网络超参,θ
target
表示表示actor-target深度神经网络超参;
[0035]
critic结构网络模型参数为其中,表示critic-eval深度神经网络和actor-target深度神经网络输入层神经元个数,表示critic-eval深度神经网络和critic-target深度神经网络隐藏层神经元个数,表示critic-eval深度神经网络和actor-target深度神经网络输出层神经元个数,φ表示critic-eval深度神经网络超参,φ
target
表示表示critic-target深度神经网络超参。
[0036]
可选地,步骤s4中,通过多智能体深度强化学习方法,离线训练神经网络模型,直至奖励收敛到稳定值,基于训练结果对卫星多波束网络进行子信道与功率的联合分配,包括:
[0037]
通过贝尔曼方程获得即时奖励,展开深度学习算法;所述深度学习算法包括分布式执行部分以及集中式训练部分;所述分布式执行部分负责根据q值选取新的动作,并与环境交互产生新的状态值,存入顶层记忆池d
subband
和底层记忆池d
power
中;所述集中式训练部分负责根据即时奖励不断地更新参数,直到奖励值趋于收敛,则终止训练和执行部分,得到此时最优的资源分配方案,终止学习。
[0038]
一方面,提供了一种多波束的巨星座卫星频率与功率联合分配装置,该装置应用于电子设备,适用于上述任意一项的方法,该装置包括:
[0039]
网络模型建立模块,用于建立巨星座卫星多波束的网络模型;
[0040]
分配问题确立模块,用于确立频带利用率最大化的卫星网络资源分配问题,建立马尔科夫决策模型;
[0041]
参数初始化模块,用于初始化深度神经网络参数,初始化当前价值函数和当前网络q值;
[0042]
联合分配模块,用于通过多智能体深度强化学习方法,离线训练神经网络模型,直至奖励收敛到稳定值,基于训练结果对卫星多波束网络进行子信道与功率的联合分配。
[0043]
可选地,网络模型建立模块,用于设定一个星座系统内有k个卫星,每个卫星内用n个波束,整个系统共有m子信道,建立信道增益表示为表示卫星k到达点波束n处的信道增益,使用了第m个子信道。
[0044]
一方面,提供了一种电子设备,所述电子设备包括处理器和存储器,所述存储器中存储有至少一条指令,所述至少一条指令由所述处理器加载并执行以实现上述一种多波束的巨星座卫星频率与功率联合分配方法。
[0045]
一方面,提供了一种计算机可读存储介质,所述存储介质中存储有至少一条指令,所述至少一条指令由处理器加载并执行以实现上述一种多波束的巨星座卫星频率与功率联合分配方法。
[0046]
本发明实施例的上述技术方案至少具有如下有益效果:
[0047]
上述方案中,本发明提出一种面向大规模星座超密组网的多波束的巨星座卫星频
率与功率联合分配装置,该方法由两层架构所组成,分别为子信道分配层和点波束功率分配层:在子信道分配层,由于是离散的频带分配,采用深度q学习算法进行点波束的子信道选择;在功率分配层,采用ddpg算法在物理层进行连续的点波束功率分配。两层共同进行集中式训练和分布式执行操作。优化了点波束的频率分配和传输功率,最大化了系统频带利用率。将卫星各点波束的资源分配最优化问题作为马尔科夫决策过程;基于间歇性训练结果对卫星多波束网络在线执行资源分配,以便使其更加稳定并且快速收敛。
附图说明
[0048]
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0049]
图1是本发明实施例提供的一种多波束卫星频率与功率联合分配的流程图;
[0050]
图2是本发明实施例提供的一种多波束卫星频率与功率联合分配的流程图;
[0051]
图3是本发明实施例提供的一种多波束卫星频率与功率联合分配的深度强化学习算法流程图;
[0052]
图4是本发明实施例提供的一种多波束的巨星座卫星频率与功率联合分配装置框图;
[0053]
图5是本发明实施例提供的一种电子设备的结构示意图。
具体实施方式
[0054]
为使本发明要解决的技术问题、技术方案和优点更加清楚,下面将结合附图及具体实施例进行详细描述。
[0055]
本发明实施例提供了一种多波束的巨星座卫星频率与功率联合分配方法,该方法可以由电子设备实现,该电子设备可以是终端或服务器。如图1所示的多波束的巨星座卫星频率与功率联合分配方法流程图,该方法的处理流程可以包括如下的步骤:
[0056]
s101:建立巨星座卫星多波束的网络模型;
[0057]
s102:确立频带利用率最大化的卫星网络资源分配问题,建立马尔科夫决策模型;
[0058]
s103:初始化深度神经网络参数,初始化当前价值函数和当前网络q值;
[0059]
s104:通过多智能体深度强化学习方法,离线训练神经网络模型,直至奖励收敛到稳定值,基于训练结果对卫星多波束网络进行子信道与功率的联合分配。
[0060]
可选地,设定一个星座系统内有k个卫星,每个卫星内用n个波束,整个系统共有m子信道,建立信道增益表示为表示卫星k到达点波束n处的信道增益,使用了第m个子信道。
[0061]
可选地,步骤s102中,确立频带利用率最大化的卫星网络资源分配问题,建立马尔科夫决策模型,包括:
[0062]
s121:结合同频波束间产生的干扰,表征处时隙t时点波束n的载干噪比,计算点波束n在时隙t内子信道m中的频带利用率;
[0063]
s122:分别定义第一层子信道分配层的深度q网络的动作空间与状态空间,以及第二层功率分配层的actor-critic网络的动作空间与状态空间,建立马尔科夫决策模型;
[0064]
s123:根据所述马尔科夫决策模型,确立点波束的资源优化问题,建立目标函数。
[0065]
可选地,步骤s121中,结合同频波束间产生的干扰,表征处时隙t时点波束n的载干噪比,计算点波束n在时隙t内子信道m中的频带利用率,包括:
[0066]
结合同频波束间产生的干扰,根据下述公式(1)表征处时隙t时点波束n的载干噪比
[0067][0068]
其中,代表信道选择情况,1代表选择m信道,0代表没有选择m信道;kn代表点波束n所选择的服务卫星,g(θ)代表天线方向图;g
max
为最大天线增益;θ
l,n
表示基于卫星k
l
,点波束l与n之间角度差;δ2代表点波束用户n处接收机的噪声;
[0069]
点波束n在时隙t内子信道m中的频带利用率c根据下述公式(2)表示为:
[0070][0071]
可选地,s122中,分别定义第一层子信道分配层的深度q网络的动作空间与状态空间,以及第二层功率分配层的actor-critic网络的动作空间与状态空间,建立马尔科夫决策模型,包括:
[0072]
s1221:定义第一层子信道分配层的深度q网络的动作空间与状态空间,初始化当前价值函数和当前网络q值,进行系统的分布式执行部分,其中,选取一个点波束代表为智能体,则点波束n所对应的智能体在第一层时隙t的状态向量为q-target网络函数为其中ψ为深度q网络超参,选取得到q值最大的动作代表在t时刻所选取的信道为
[0073]
s1222:定义第二层功率分配层的actor-critic网络的动作空间与状态空间,策略网络得到动作则对应的点波束发射功率为则对应的点波束发射功率为使用点波束n所对应的智能体的critic网络输出当前功率选择动作的值函数q(s,μ(s,θ);φ);
[0074]
其中θ为actorc网络超参,p
max
为点波束能够达到的最大功率,φ为critic网络超参。
[0075]
可选地,步骤s123中,根据所述马尔科夫决策模型,确立点波束的资源优化问题,建立目标函数,包括:
[0076]
s1231:确立点波束的资源优化问题,建立如下述公式(3)的目标函数
[0077][0078]
其中,t
reuse
代表单个子信道的最大重用次数;n表示点波束集合,m表示子信道集合;约束条件c1表示为每个点波束n的最大发射功率为p
max
;约束条件c2表示为在时隙t时对于每个子信道都只有选取和不选取两种状态;约束条件c3表示为每个点波束n在时隙t时都必须选择一条子信道作为传输信道;约束条件c4表示每个子信道m在时隙t时最多可被重用t
reuse
次,也即共有最多t
reuse
个点波束可在时隙t内共有一个子信道m;
[0079]
s1232:第一层子信道分配层和第二层功率分配层根据反馈奖励最大化来选取动作,循环累计奖励值;其中,子信道分配层和功率分配层共用同一个奖励函数奖励函数由自身点波束在时隙t内的频带利用率和对其余同频波束产生干扰的惩罚项所组成。
[0080]
可选地,步骤s103中,初始化深度神经网络参数,初始化当前价值函数和当前网络q值,包括:
[0081]
深度q结构网络模型参数为其中,表示深度q神经网络输入层神经元个数,表示深度q神经网络隐藏层神经元个数,表示深度q神经网络输出层神经元个数,ψ表示深度q神经网络超参,ψ
target
表示表示深度q-target神经网络超参;
[0082]
actor结构网络模型参数为其中,表示actor-eval深度神经网络和actor-target深度神经网络输入层神经元个数,表示actor-eval深度神经网络和actor-target深度神经网络隐藏层神经元个数,表示actor-eval深度神经网络和actor-target深度神经网络输出层神经元个数,θ表示actor-eval深度神经网络超参,θ
target
表示表示actor-target深度神经网络超参;
[0083]
critic结构网络模型参数为其中,表示critic-eval深度神经网络和actor-target深度神经网络输入层神经元个数,表示critic-eval深度神经网络和critic-target深度神经网络隐藏层神经元个数,表示critic-eval深度神经网络和actor-target深度神经网络输出层神经元个数,φ表示critic-eval深度神经网络超参,φ
target
表示表示critic-target深度神经网络超参。
[0084]
可选地,步骤s104中,通过多智能体深度强化学习方法,离线训练神经网络模型,直至奖励收敛到稳定值,基于训练结果对卫星多波束网络进行子信道与功率的联合分配,包括:
[0085]
通过贝尔曼方程获得即时奖励,展开深度学习算法;所述深度学习算法包括分布式执行部分以及集中式训练部分;所述分布式执行部分负责根据q值选取新的动作,并与环境交互产生新的状态值,存入顶层记忆池d
subband
和底层记忆池d
power
中;所述集中式训练部分负责根据即时奖励不断地更新参数,直到奖励值趋于收敛,则终止训练和执行部分,得到此时最优的资源分配方案,终止学习。
[0086]
本发明实施例中,提出一种面向大规模星座超密组网的多波束的巨星座卫星频率与功率联合分配装置,该方法由两层架构所组成,分别为子信道分配层和点波束功率分配层:在子信道分配层,由于是离散的频带分配,采用深度q学习算法进行点波束的子信道选择;在功率分配层,采用ddpg算法在物理层进行连续的点波束功率分配。两层共同进行集中式训练和分布式执行操作。优化了点波束的频率分配和传输功率,最大化了系统频带利用率。将卫星各点波束的资源分配最优化问题作为马尔科夫决策过程;基于间歇性训练结果对卫星多波束网络在线执行资源分配,以便使其更加稳定并且快速收敛。
[0087]
本发明实施例提供了一种多波束的巨星座卫星频率与功率联合分配方法,该方法可以由电子设备实现,该电子设备可以是终端或服务器。如图2所示的多波束的巨星座卫星频率与功率联合分配方法流程图,该方法的处理流程可以包括如下的步骤:
[0088]
s201:建立巨星座卫星多波束的网络模型。
[0089]
一种可行的实施方式中,本发明首先构建了点波束密集部署的巨星座网络场景。设定一个星座系统内有k个卫星,卫星集合表示为k={1,2,3

k};每个卫星内用n个点波束,点波束集合表示为n={1,2,3

n};整个系统共有m子信道集合表示为m={1,2,3

m};一般的有n>>m;l为每个频道可以重用的次数;建立信道增益表示为表示卫星k到达点波束n处的信道增益,使用了第m个子信道。其中,t=1,2,3


[0090]
βk→n代表卫星k到地面点波束n的大尺度衰落,根据friis公式可知代表卫星k到地面点波束n的大尺度衰落,根据friis公式可知其中g
t
表示发射增益、gr表示接收增益、l表示与传播环境无关的系统损耗系数,d代表天线到地面终端距离,代表小尺度瑞利衰落。
[0091]
s202:结合同频波束间产生的干扰,表征处时隙t时点波束n的载干噪比,计算点波束n在时隙t内子信道m中的频带利用率。
[0092]
一种可行的实施方式中,结合同频波束间产生的干扰,根据下述公式(1)表征处时隙t时点波束n的载干噪比
[0093]
[0094]
其中,代表信道选择情况,1代表选择m信道,0代表没有选择m信道;kn代表点波束n所选择的服务卫星,kn∈k,g(θ)代表天线方向图;g
max
为最大天线增益;θ
l,n
表示基于卫星k
l
,点波束l与n之间角度差;δ2代表点波束n处接收机的噪声。
[0095]
点波束n在时隙t内子信道m中的频带利用率c根据下述公式(2)表示为:
[0096][0097]
s203:分别定义第一层子信道分配层的深度q网络的动作空间与状态空间,以及第二层功率分配层的actor-critic网络的动作空间与状态空间,建立马尔科夫决策模型。
[0098]
一种可行的实施方式中,定义第一层子信道分配层的深度q网络的动作空间与状态空间,初始化当前价值函数和当前网络q值,进行系统的分布式执行部分,其中,选取一个点波束代表为智能体,则点波束n所对应的智能体在第一层时隙t的状态向量为q-target网络函数为其中ψ为深度q网络超参,选取得到q值最大的动作代表在t时刻所选取的信道为
[0099]
定义第二层功率分配层的actor-critic网络的动作空间与状态空间,策略网络得到动作则对应的点波束发射功率为使用点波束n所对应的智能体的critic网络输出当前功率选择动作的值函数q(s,μ(s,θ);φ);
[0100]
其中θ为actorc网络超参,p
max
为点波束能够达到的最大功率,φ为critic网络超参。
[0101]
一种可行的实施方式中,在时隙t内点波束n子信道分配情况为:一种可行的实施方式中,在时隙t内点波束n子信道分配情况为:则时隙t内的所有点波束子信道分配为:则时隙t内的所有点波束子信道分配为:
[0102]
在时隙t内各点波束的功率分配情况位:
[0103]
s204:根据所述马尔科夫决策模型,确立点波束的资源优化问题,建立目标函数。
[0104]
一种可行的实施方式中,确立点波束的资源优化问题,建立如下述公式(3)的目标函数
[0105][0106]
其中,t
reuse
代表单个子信道的最大重用次数;n表示点波束集合,m表示子信道集合;约束条件c1表示为每个点波束n的最大发射功率为p
max
;约束条件c2表示为在时隙t时对
于每个子信道都只有选取和不选取两种状态;约束条件c3表示为每个点波束n在时隙t时都必须选择一条子信道作为传输信道;约束条件c4表示每个子信道m在时隙t时最多可被重用t
reuse
次,也即共有最多t
reuse
个点波束可在时隙t内共有一个子信道m。
[0107]
一种可行的实施方式中,为了表征分配子信道后同频干扰对多卫星多波束系统的影响,还需定义两组参数:
[0108]
参数1:代表所有在时隙t内与点波束n使用相同子信道的其余所有点波束n对干扰的强度进行排序,即按照下式排序
[0109]
参数2:代表在时隙t内点波束n附近使用过m子信道的点波束集合,即集合的排序按照在时隙t-1内干扰点波束对邻近点波束干扰的显著性进行排序
[0110]
s205:第一层子信道分配层和第二层功率分配层根据反馈奖励最大化来选取动作,循环累计奖励值;其中,子信道分配层和功率分配层共用同一个奖励函数奖励函数由自身点波束在时隙t内的频带利用率和对其余同频波束产生干扰的惩罚项所组成。
[0111]
一种可行的实施方式中,本发明采用多智能体的深度强化学习网络来进行资源分配以最大化目标函数。每个卫星点波束作为一个智能体,将其余智能体作为环境的一部分集中式进行训练,为了描述各智能体的动作选择对于其余智能体所产生的影响,每个智能体采用相同的奖励函数体采用相同的奖励函数代表所有被点波束n所干扰的点波束集合。
[0112]
一种可行的实施方式中,需要进行深度学习网络的动作空间和状态空间。该算法需设定分配子信道和给子信道分配功率两个动作,定义分配子信道为需设定分配子信道和给子信道分配功率两个动作,定义分配子信道为定义给子信道分配功率为设定则点波束发射功率定为p
max
为常量,特指点波束所能达到的最大发射功率。
[0113]
将状态空间设置为:
[0114][0115]
其中,p代表点波束n的发射功率。该网络需要同时考虑子信道分配和功率控制对于整体的影响,在考虑点波束n频带利用率的同时,需要设定惩罚项来表明点波束n对于其余波束同频干扰的影响,因此将奖励函数设定为:
[0116]
其中,为一个惩罚项,代表了该点波束n对于其余所有同频点波束所产生的影响,惩罚原则为:该点波束所产生的同频干扰值在被干扰波束所受全部干扰功率中占比越大,则惩罚项越大,对应所受的奖励越小。
[0117]
进行深度强化学习算法首先需要进行如下参数初始化:
[0118]
s206:初始化深度神经网络参数,初始化当前价值函数和当前网络q值。
[0119]
一种可行的实施方式中,深度q结构网络模型参数为一种可行的实施方式中,深度q结构网络模型参数为其中,表示深度q神经网络输入层神经元个数,表示深度q神经网络隐藏层神经元个数,表示深度q神经网络输出层神经元个数,ψ表示深度q神经网络超参,ψ
target
表示表示深度q-target神经网络超参;
[0120]
actor结构网络模型参数为其中,表示actor-eval深度神经网络和actor-target深度神经网络输入层神经元个数,表示actor-eval深度神经网络和actor-target深度神经网络隐藏层神经元个数,表示actor-eval深度神经网络和actor-target深度神经网络输出层神经元个数,θ表示actor-eval深度神经网络超参,θ
target
表示表示actor-target深度神经网络超参;
[0121]
critic结构网络模型参数为其中,表示critic-eval深度神经网络和actor-target深度神经网络输入层神经元个数,表示critic-eval深度神经网络和critic-target深度神经网络隐藏层神经元个数,表示critic-eval深度神经网络和actor-target深度神经网络输出层神经元个数,φ表示critic-eval深度神经网络超参,φ
target
表示表示critic-target深度神经网络超参。
[0122]
一种可行的实施方式中,每个卫星点波束作为一个智能体,由一个深度q网络以及一个actor结构和一个critic结构组成,深度q网络用于在顶层配置动作选择子信道行为并输出其q值,actor-critic结构用于在底层选择策略配置点波束功率并生成评价函数。
[0123]
s07:通过多智能体深度强化学习方法,离线训练神经网络模型,直至奖励收敛到稳定值,基于训练结果对卫星多波束网络进行子信道与功率的联合分配。
[0124]
一种可行的实施方式中,通过贝尔曼方程获得即时奖励,展开深度学习算法;所述深度学习算法包括分布式执行部分以及集中式训练部分;所述分布式执行部分负责根据q值选取新的动作,并与环境交互产生新的状态值,存入顶层记忆池d
subband
和底层记忆池d
power
中;所述集中式训练部分负责根据即时奖励不断地更新参数,直到奖励值趋于收敛,则终止训练和执行部分,得到此时最优的资源分配方案,终止学习。
[0125]
一种可行的实施方式中,离线训练神经网络模型,直至奖励收敛到稳定值,如图3所示,具体步骤可以分为分布式执行和集中式训练两部分,其中分布式执行系统如下:
[0126]
(1).从第一层系统子信道分配层中将点波束n所对应的智能体时隙t的状态向量
[0127]
(2).将状态信息输入q-target网络,根据ψ
arent
得到q值最大的动作同时将对应子信道选择设置为
[0128]
(3).将存入子信道训练系统的记忆池d
subband
中。
[0129]
(4).第二层系统波束功率分配层从子信道分配层中得到点波束n所对应的智能体时隙t的状态向量为(相当于在底层不需要知道所有子信道信息,而只需要知道在时刻t时做出的决策。)
[0130]
(5).在第二层系统中将状态信息输入critic-target网络,根据策略网络得到动作则对应的点波束发射功率为
[0131]
(6).使用点波束n所对应的智能体的critic-target网络输出当前功率选择动作的值函数
[0132]
(7).将时刻t时的得到的两个动作与输入进无线卫星系统中,得到新一轮的环境状态s
(t 1)

[0133]
集中式训练如下:
[0134]
a.将系统的传输延迟定义为1时隙,则在顶层的集中训练部分,在时隙t时点波束n所对应的智能体从记忆池d
subband
中可以获取的最新经验表示为对d
subband
进行采样获得mini-batch样本为bs,则目标q网络的均方贝尔曼误差表示为:l(ψ,d)=e
(s,a,r

,s

)~d
[(y(r

,s

)-q(s,a;ψ
target
))2],其中y(r

,s

)=r

γmaxq

(s

,a

;ψ
target
),γ代表折扣系数。
[0135]
b.利用梯度下降法最小化贝尔曼误差函数如下式:更新点波束n所对应的智能体的深度q网络参数ψ,并每隔tu时隙更新目标q网络的参数ψ
target

ψ。
[0136]
c.在底层的集中训练部分,在时隙t时点波束n所对应的智能体从记忆池d
subband
中可以获取的最新经验表示为对d
power
进行采样获得mini-batch样本为b
p
,则critic-target网络的均方贝尔曼误差表示为:l(φ,d)=e
(s,a,r

,s

)~d
[(y
critic
(r

n,m
,s

n,m
)-q(s
n,m
,a
n,m
;φ))2],其中y
critic
(r

,s

)=r

ζmaxq

(s

,a

;φ
target
),ζ代表折扣系数。
[0137]
d.利用梯度下降法最小化贝尔曼误差函数如下式:
更新点波束n所对应的智能体的critic-eval网络参数φ,并每隔tu时隙更新目标q网络的参数φ
target

φ。
[0138]
e.接下来进行actor-target网络的更新,由于是确定性策略,其损失函数表示为l(θ,d)=e
(s,a,r

,s

)~d
[q(s,μ(s;θ);φ)],根据梯度上升策略最小化损失函数表示为:更新点波束n所对应的智能体的actor-eval网络参数θ,并每隔tu时隙更新目标q网络的参数θ
target

θ。
[0139]
最后通过上述分布式执行以及集中式训练,基于离线训练结果,在线对卫星多波束网络执行子信道与频率的资源分配,最大化网络频带利用率。
[0140]
本发明实施例中,提出一种面向大规模星座超密组网的多波束卫星频率与功率联合分配装置,该方法由两层架构所组成,分别为子信道分配层和点波束功率分配层:在子信道分配层,由于是离散的频带分配,采用深度q学习算法进行点波束的子信道选择;在功率分配层,采用ddpg算法在物理层进行连续的点波束功率分配。两层共同进行集中式训练和分布式执行操作。优化了点波束的频率分配和传输功率,最大化了系统频带利用率。将卫星各点波束的资源分配最优化问题作为马尔科夫决策过程;基于间歇性训练结果对卫星多波束网络在线执行资源分配,以便使其更加稳定并且快速收敛。
[0141]
图4是根据一示例性实施例示出的一种多波束的巨星座卫星频率与功率联合分配装置框图。该装置适用于上述任意一项的方法。参照图4,该装置300包括:
[0142]
网络模型建立模块310,用于建立巨星座卫星多波束的网络模型;
[0143]
分配问题确立模块320,用于确立频带利用率最大化的卫星网络资源分配问题,建立马尔科夫决策模型;
[0144]
参数初始化模块330,用于初始化深度神经网络参数,初始化当前价值函数和当前网络q值;
[0145]
联合分配模块340,用于通过多智能体深度强化学习方法,离线训练神经网络模型,直至奖励收敛到稳定值,基于训练结果对卫星多波束网络进行子信道与功率的联合分配。
[0146]
可选地,网络模型建立模块310,还用于设定一个星座系统内有k个卫星,每个卫星内用n个波束,整个系统共有m子信道,l为每个频道可以重用的次数;建立信道增益表示为表示卫星k到达点波束n处的信道增益,使用了第m个子信道。
[0147]
可选地,分配问题确立模块320,用于结合同频波束间产生的干扰,表征处时隙t时点波束n的载干噪比,计算点波束n在时隙t内子信道m中的频带利用率;
[0148]
分别定义第一层子信道分配层的深度q网络的动作空间与状态空间,以及第二层功率分配层的actor-critic网络的动作空间与状态空间,建立马尔科夫决策模型;
[0149]
根据所述马尔科夫决策模型,确立点波束的资源优化问题,建立目标函数。
[0150]
可选地,分配问题确立模块320,用于结合同频波束间产生的干扰,根据下述公式(1)表征处时隙t时点波束n的载干噪比
[0151][0152]
其中,代表信道选择情况,1代表选择m子信道,0代表没有选择m信道;kn代表点波束n所选择的服务卫星,g(θ)代表天线方向图;g
max
为最大天线增益;θ
l,n
表示基于卫星k
l
,点波束l与n之间角度差;δ2代表点波束n处接收机的噪声;
[0153]
点波束n在时隙t内子信道m中的频带利用率c根据下述公式(2)表示为:
[0154][0155]
可选地,分配问题确立模块320,用于定义第一层子信道分配层的深度q网络的动作空间与状态空间,初始化当前价值函数和当前网络q值,进行系统的分布式执行部分,其中,选取一个点波束代表为智能体,则点波束n所对应的智能体在第一层时隙t的状态向量为q-target网络函数为其中ψ为深度q网络超参,选取得到q值最大的动作代表在t时刻所选取的信道为
[0156]
定义第二层功率分配层的actor-critic网络的动作空间与状态空间,策略网络得到动作则对应的点波束发射功率为使用点波束n所对应的智能体的critic网络输出当前功率选择动作的值函数q(s,μ(s,θ);φ);
[0157]
其中θ为actorc网络超参,p
max
为点波束能够达到的最大功率,φ为critic网络超参。
[0158]
可选地,分配问题确立模块320,还用于确立点波束的资源优化问题,建立如下述公式(3)的目标函数
[0159][0160]
其中,t
reuse
代表单个子信道的最大重用次数;n表示点波束集合,m表示子信道集合;约束条件c1表示为每个点波束n的最大发射功率为p
max
;约束条件c2表示为在时隙t时对于每个子信道都只有选取和不选取两种状态;约束条件c3表示为每个点波束n在时隙t时都必须选择一条子信道作为传输信道;约束条件c4表示每个子信道m在时隙t时最多可被重用t
reuse
次,也即共有最多t
reuse
个点波束可在时隙t内共有一个子信道m;
[0161]
第一层子信道分配层和第二层功率分配层根据反馈奖励最大化来选取动作,循环
累计奖励值;其中,子信道分配层和功率分配层共用同一个奖励函数奖励函数由自身点波束在时隙t内的频带利用率和对其余同频波束产生干扰的惩罚项所组成。
[0162]
可选地,参数初始化模块330,用于深度q结构网络模型参数为其中,表示深度q神经网络输入层神经元个数,表示深度q神经网络隐藏层神经元个数,表示深度q神经网络输出层神经元个数,ψ表示深度q神经网络超参,ψ
target
表示表示深度q-target神经网络超参;
[0163]
actor结构网络模型参数为其中,表示actor-eval深度神经网络和actor-target深度神经网络输入层神经元个数,表示actor-eval深度神经网络和actor-target深度神经网络隐藏层神经元个数,表示actor-eval深度神经网络和actor-target深度神经网络输出层神经元个数,θ表示actor-eval深度神经网络超参,θ
target
表示表示actor-target深度神经网络超参;
[0164]
critic结构网络模型参数为其中,表示critic-eval深度神经网络和actor-target深度神经网络输入层神经元个数,表示critic-eval深度神经网络和critic-target深度神经网络隐藏层神经元个数,表示critic-eval深度神经网络和actor-target深度神经网络输出层神经元个数,φ表示critic-eval深度神经网络超参,φ
target
表示表示critic-target深度神经网络超参。
[0165]
可选地,联合分配模块340,用于通过贝尔曼方程获得即时奖励,展开深度学习算法;所述深度学习算法包括分布式执行部分以及集中式训练部分;所述分布式执行部分负责根据q值选取新的动作,并与环境交互产生新的状态值,存入顶层记忆池d
subband
和底层记忆池d
power
中;所述集中式训练部分负责根据即时奖励不断地更新参数,直到奖励值趋于收敛,则终止训练和执行部分,得到此时最优的资源分配方案,终止学习。
[0166]
本发明实施例中,提出一种面向大规模星座超密组网的多波束的巨星座卫星频率与功率联合分配装置,该方法由两层架构所组成,分别为子信道分配层和点波束功率分配层:在子信道分配层,由于是离散的频带分配,采用深度q学习算法进行点波束的子信道选择;在功率分配层,采用ddpg算法在物理层进行连续的点波束功率分配。两层共同进行集中式训练和分布式执行操作。优化了点波束的频率分配和传输功率,最大化了系统频带利用率。将卫星各点波束的资源分配最优化问题作为马尔科夫决策过程;基于间歇性训练结果对卫星多波束网络在线执行资源分配,以便使其更加稳定并且快速收敛。
[0167]
图5是本发明实施例提供的一种电子设备400的结构示意图,该电子设备400可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上处理器(central processing units,cpu)401和一个或一个以上的存储器402,其中,所述存储器402中存储有至少一条指令,所述至少一条指令由所述处理器401加载并执行以实现下述多波束的巨
星座卫星频率与功率联合分配方法的步骤:
[0168]
s1:建立巨星座卫星多波束的网络模型;
[0169]
s2:根据所述网络模型,确立频带利用率最大化的卫星网络资源分配问题,建立马尔科夫决策模型,确立点波束的资源优化问题;
[0170]
s3:根据点波束的资源优化问题,构建深度神经网络模型;初始化深度神经网络参数,初始化当前价值函数和当前网络q值;
[0171]
s4:通过多智能体深度强化学习方法,离线训练深度神经网络模型,直至奖励收敛到稳定值,基于训练结果对卫星多波束网络进行频率与功率的联合分配。
[0172]
在示例性实施例中,还提供了一种计算机可读存储介质,例如包括指令的存储器,上述指令可由终端中的处理器执行以完成上述基于课程学习的多波束的巨星座卫星频率与功率联合分配方法。例如,所述计算机可读存储介质可以是rom、随机存取存储器(ram)、cd-rom、磁带、软盘和光数据存储设备等。
[0173]
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
[0174]
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献