基于深度强化学习的分布式星群动态组网方法与流程

2022-02-19 08:36:38 来源：中国专利 TAG：

1.本发明涉及卫星通信技术领域，尤其涉及一种基于深度强化学习的分布式星群动态组网方法。

背景技术：

2.随着人类空间探测、对地观测、物联网和宽带通信技术的发展，未来的高分辨率地球观测任务、天基云存储服务、天基互联网服务、深空探测任务以及载人飞船和空间站等天基信息系统对空间数据处理、传输的需求日益迫切。空间分布式星群，通过在同一geo空间轨道位置上的多颗异构任务卫星，采用分布式载荷联合协作，实现广域覆盖、大容量信息交换、灵活组网通信、空间信息服务、自主拓扑重构和快速在轨自愈等功能，从而克服传统大卫星平台存在的资源约束和技术瓶颈等问题。为实现分布式星群中各卫星的协同工作，星群内部需要具备星间协同和数据传输的能力。考虑到未来天基信息网络所需承载的数据量巨大，且用户对各类信息服务的实时性要求高，传统微波通信将难以在兼顾系统复杂度、载荷和功耗的条件下满足星群内高速通信的需求。空间激光通信具有容量大、体积小、抗干扰能力强、保密性好等优势。光学多波束天线为分布式星群群内高速激光的组网交互奠定了技术基础。然而，光学多波束天线受到技术和工艺的影响，存在链路距离、指向角度受限等约束，在分布式星群的卫星节点相对空间位置快速变化的应用场景下，各卫星难以长时间处于彼此光学多波束天线的可见范围内，星间链路的可见性状态也将随着星间相对位置的变化而改变。因此，分布式星群在轨运行过程中必须具备智能组网和重构能力。如何实现分布式星群动态组网优化，保证分布式星群网络拓扑的连通度、网络持续时间成为亟待解决问题。
3.在中国专利cn113301591a中，提出了一种用于全球组网观测卫星星座的星间网络优化方法，通过基于负载加权的dijkstra方法求解星间网络优化问题，优化了星间链路的平均传输时延；在中国专利cn110601748b中，提出了一种改进的多目标模拟退火算法进行多状态空间信息网络拓扑生成优化算法，减小了网络时延，提高了网络抗毁性；在专利中cn108540204b中，针对卫星网络高动态性，以链路平均端到端时延和最大端到端时延为优化目标，提出一种利用快速收敛蚁群算法的卫星网络拓扑生成方法，考虑星间链路的长度、链路连接时间以及链路容量这三种因素共同作用对卫星网络拓扑生成的影响，使用改进型蚁群算法，获取全局最优拓扑，增强了拓扑的稳定性。上述专利中公开的技术能够在一定程度上优化卫星组网效果，但是都针对传统的卫星通信链路展开，以优化链路传输时延为目标，未能考虑分布式星群激光通信容量大、传输速率快、激光难对准的特点，难以实现分布式星群快速组网问题。

技术实现要素：

4.针对分布式星群激光通信容量大、传输速率快、激光难对准的特点，难以实现分布式星群快速组网的问题，本发明公开了一种基于深度强化学习的分布式星群动态组网方
法，分布式星群系统包括多颗geo轨道卫星，各卫星通过光学多波束天线实现多星互联，分布式星群系统采用双层深度强化学习算法进行动态组网优化，其具体步骤包括：
5.s1，设定分布式星群系统中卫星数量为s，每颗卫星的光学多波束天线数量为a，每个光学多波束天线可同时支持n条激光通信链路。
6.s2，通过接收地面遥测数据、星间测距、状态检测手段获得分布式星群系统的各卫星的实时轨道信息。
7.s3，通过获得的分布式星群系统的各卫星的实时轨道信息，计算分布式星群激光通信链路的可用状态矩阵，具体步骤包括：
8.s31，假设分布式星群系统采用零差bpsk调制方法进行星间激光通信，其通信误码率ber
bpsk
的表达式为：
[0009][0010]
其中，r为光电探测器响应度，d
t
和d
r
分别为光学多波束天线的发射天线和接收天线的口径，为激光束散角，s
t
为发射信号功率，l
atp
为激光通信链路的捕获、跟踪和对准(atp)失配损耗，p
lo
为本振激光器功率，σ为噪声功率，erfc()为互补误差函数，d
link
为建立激光通信链路的两个卫星之间的链路距离，对于分布式星群系统中的第i个卫星和第j个卫星，其链路距离的变量为d
ij
或d
ji
，其计算公式为：
[0011][0012]
其中，(x
i
,y
i
,z
i
)为第i个卫星在地球惯性系中的坐标，(v
x,i
,v
y,i
,v
z,i
)为第i个卫星的运动速度在地球惯性系中的三维矢量，θ为波束偏转角，η(θ)为波束偏转角取θ时的光学多波束天线的透射效率，其表达式为：
[0013][0014]
其中，θ
max
为光学多波束天线所支持的最大波束偏转角；
[0015]
s32，计算分布式星群系统的各卫星的天线之间的可视状态；利用θ和d
link
，计算得到各激光通信链路的误码率，误码率上限记为ber
th
，当链路误码率大于该上限时，判定该激光通信链路中断，即该链路对应的两个卫星的天线之间为不可视状态；
[0016]
s33，计算分布式星群系统激光通信链路的可用状态矩阵l
ink
，可用状态矩阵l
ink
中的元素表达为α
ik,jl
，i＝1,2,...,s，j＝1,2,...,s，k＝1,2,...,a,l＝1,2,...,a，s表示该分布式星群系统所包含的卫星的数目，a表示一个卫星所包含的光学多波束天线的数目，α
ik,jl
用于表示第i颗卫星的第k个天线与第j颗卫星的第l个天线之间的可视状态，当二者之间为可视状态时，其取值为1，反之，其取值为0，当i＝j时，α
ik,jl
记为0。
[0017]
s4，获取分布式星群系统的各个卫星间的激光通信链路所构成的拓扑网络当前的网络拓扑结构，将其表示为矩阵t
cur
，矩阵t
cur
中的元素表达为t
ik,jl
，i＝1,2,...,s,j＝1,2,...,s，k＝1,2,...,a,l＝1,2,...,a，其中，t
ik,jl
用于表示第i颗卫星的第k个天线与第j颗卫星的第l个天线之间的连接状态，若二者之间有激光通信链路连接，则t
ik,jl
为1，否则t
ik,jl
为0；
[0018]
s5，逐个比较矩阵t
cur
和矩阵l
ink
中的元素，若存在t
ik,jl
＝1而α
ik,jl
＝0的情况，则判定可用状态矩阵的变化将影响分布式星群系统的网络拓扑结构，转入步骤s6，否则维持分布式星群系统的当前网络拓扑结构，转入步骤s2。
[0019]
s6，根据分布式星群系统激光通信链路的组网需求，建立多目标优化模型；所述的步骤s6，其具体步骤包括，
[0020]
s61，利用分布式星群系统激光通信链路的可用状态矩阵l
ink
，计算得到组网重构状态矩阵a
nt
，该矩阵中的元素为β
ik,jl
，i＝1,2,...,s,j＝1,2,...,s，k＝1,2,...,a,l＝1,2,...,a，其中，β
ik,jl
＝1时，则表示在第i颗卫星的第k个天线与第j颗卫星的第l个天线之间建立激光通信链路，β
ik,jl
＝0时，则表示不在第i颗卫星的第k个天线与第j颗卫星的第l个天线之间建立激光通信链路，当i＝j时，β
ik,jl
记为0；
[0021]
s62，计算分布式星群系统的各卫星之间的连接矩阵t
p
，其表达式为：
[0022][0023]
其中，γ
i,j
表示第i颗卫星和第j颗卫星之间是否存在激光通信链路，当k和l分别取1到a时，若对应的全部β
ik,jl
中存在任意一项不为1，则γ
i,j
＝1，即卫星i和卫星j之间存在激光通信链路，若对应的全部β
ik,jl
取值均为1，则γ
i,j
＝0；
[0024]
s63，计算激光通信链路权重矩阵w，该矩阵中的元素的表达式为：
[0025][0026]
其中，i＝1,2,...,s,j＝1,2,...,s，d
i,j
为卫星i和卫星j之间的激光通信链路距离，θ
i,k
和θ
j,l
分别为卫星i和卫星j的收发天线波束偏转角度，η
t
(θ
i,k
)为在收发天线波束偏转角度θ
i,k
下对应的发射天线透射率，η
r
(θ
j,l
)为在收发天线波束偏转角度θ
j,l
下对应的接收天线透射率；
[0027]
s64，计算分布式星群系统的各个卫星间的激光通信链路所构成的拓扑网络的拉普拉斯矩阵l
p
，其元素l
pi,j
的表示式为：
[0028][0029]
其中，i＝1,2,...,s,j＝1,2,...,s。
[0030]
s65，计算分布式星群系统的拓扑网络的代数加权连通度，代数加权连通度的取值为拉普拉斯矩阵l
p
的第二小的特征值λ2，上述代数加权连通度的计算过程记为acon(l
p
)；
[0031]
s66，计算分布式星群系统的拓扑网络的持续时间拓扑网络的持续时间是指该拓扑网络保持当前的网络拓扑结构而不发生变化的时间，t
tp
为分布式星群系统的各激光通信链路的持续时间的集合，t
tp
＝{t
i,j
}，i＝1,2,...,s,j＝1,2,...,s，t
i,j
为卫星i和
卫星j之间的激光通信链路的持续时间。当γ
i,j
＝0时，卫星i和卫星j之间不存在激光通信链路，则令t
i,j
＝inf，当γ
i,j
＝1时，t
i,j
等于卫星i和卫星j之间的激光通信链路超出可视范围的时刻与获得分布式星群系统的各卫星的实时轨道信息的时刻之间的时间间隔；
[0032]
s67，计算网络连接矩阵摄动d，其表达式为s67，计算网络连接矩阵摄动d，其表达式为表示对两个矩阵的对应元素依次进行异或运算，sum表示对异或得到的矩阵的所有元素进行累加；
[0033]
s68，建立多目标优化模型：
[0034][0035]
其中，g1(l
p
)、g2(t
tp
)和g3(a
nt
,t
cur
)分别代表了网络互连通、网络持续时间和网络连接矩阵摄动三个优化目标函数，约束条件c1为卫星之间的激光通信链路的可见性约束，即每个激光通信链路对应的可用状态矩阵l
ink
中的元素取值必须为1；约束条件c2表示拓扑网络必须是连通的；约束条件c3表示所有天线同时建立的激光通信链路的数量必须小于波束数量限制，式中，表示对a
nt
中的所有元素按行求和，得到一个列向量，该列向量中的第i个元素代表了第i个天线当前所建立的激光通信链路的数量；
[0036]
s7，分布式星群系统使用双层深度强化学习算法对步骤s6中得到的多目标优化模型进行求解，得到组网重构矩阵，其具体步骤包括：
[0037]
s701，构建双层深度强化学习算法的实现架构，其包括内层环境和外层环境、内层经验池和外层经验池、以及内层智能体和外层智能体，外层环境用于模拟分布式星群系统的拓扑网络的拓扑结构状态，外层智能体用于从外层环境中抽取信息得到外层状态，内层环境用于模拟分布式星群系统的拓扑网络的互联互通状态，内层智能体用于从内层环境中抽取信息得到内层状态，外层环境的描述变量包括分布式星群系统的激光通信链路的可用状态矩阵，外层智能体的动作是用于为内层智能体选择目标函数优化任务，目标函数优化任务的参数包括分布式星群系统的拓扑网络的代数加权连通度、持续时间和连接矩阵摄动取值组合，外层环境的描述变量是通过对分布式星群系统的拓扑网络的每一次组网后的拓扑结构来得到，内层环境的描述变量是组网重构矩阵，内层智能体的动作是在分布式星群系统的某两个卫星之间建立激光通信链路，内层状态变量是利用该双层深度强化学习算法对多目标优化模型进行求解的中间过程得到的组网重构矩阵。内层经验池和外层经验池分别用于存储内层经验和外层经验；
[0038]
s702，初始化双层深度强化学习算法的参数，双层深度强化学习算法参数包括内外层的经验池大小、内层经验池经验数量学习门限、外层经验池经验数量学习门限、探索概率、折扣因子、内层和外层智能体的网络参数、目标网络更新频率和奖励值函数；设定该算
法训练轮次上限为me，当前轮次数loop＝0；
[0039]
s703，获取分布式星群系统的初始参数，包括分布式星群系统中卫星的数量、每个卫星的光学多波束天线数量、每个光学多波束天线所建立的激光通信链路数量和分布式星群系统中各卫星的实时轨道信息，计算激光通信链路的可用状态矩阵l
ink
；初始化双层深度强化学习算法的外层状态变量为与可用状态矩阵l
ink
维度相同的零矩阵，设定外层状态变量的终止状态；判断loop是否小于me，如果loop小于me，转入步骤s704，否则完成内层智能体和外层智能体的训练，转入步骤s8；
[0040]
s704，判断外层状态变量是否是终止状态，如果是终止状态，loop＝loop 1，并转入步骤s703，如果不是终止状态，转入步骤s705；
[0041]
s705，外层智能体根据双层深度强化学习算法的外层状态，为内层智能体选择目标函数优化任务；
[0042]
s706，内层智能体根据选择的目标函数优化任务，初始化内层状态；
[0043]
s707，内层智能体根据内层状态和选择的目标函数优化任务，选择其是否需要采取动作，即是否在分布式星群系统的某两个卫星间建立某条激光通信链路；
[0044]
s708，内层智能体计算内层奖励botr，其计算公式为：
[0045][0046]
内层智能体更新内层状态，将内层经验存储到内层经验池中，内层经验包括内层状态、内层动作、内层奖励以及更新后的内层状态；
[0047]
s709，激光通信链路的可用状态矩阵l
ink
中取1的元素的个数为可用激光通信链路数，判断可用激光通信链路数是否大于0，如果是，转入步骤s707，否则转入步骤s710；
[0048]
s710，外层智能体获取最终的内层状态，即最终的组网重构矩阵，作为分布式星群系统的本次组网的结果；
[0049]
s711，外层智能体计算外层奖励topr，topr＝w1f1(g1) w2f2(g2) w3f3(g3)，其中，w
i
是第i个目标函数的权重，f
i
是第i个目标函数的归一化函数，g
i
是第i个目标函数，i＝1,2,3，并更新外层状态变量为本次组网的结果，存储外层经验到外层经验池中，外层经验包括外层状态、外层智能体动作、外层奖励以及更新后的外层状态；
[0050]
s712，判断内层经验池的数据量是否大于内层经验池经验数量学习门限，判断外层经验池的数据量是否大于外层经验池经验数量学习门限，如果内外层经验池的数据量均大于其对应的经验池经验数量学习门限，则训练内层智能体和外层智能体，之后转入步骤s704，如果否，直接转入步骤s704。
[0051]
s8，在内层智能体和外层智能体的训练均完成后，当该分布式星群系统需要重新组网的时候，则调用已经训练好的双层深度强化学习算法，得到组网重构矩阵，并利用组网重构矩阵对该分布式星群系统进行重新组网，完成一次组网优化过程。
[0052]
本发明的有益效果包括：
[0053]
1、本发明充分考虑分布式星群系统的多方面需求，以最大化网络互连通、拓扑持续时间和最小化网络连接矩阵摄动为目标，建立多目标优化模型，实现综合效益最优的分布式星群组网优化结果；
[0054]
2、本发明采用深度强化学习算法进行分布式星群系统的组网优化，本算法占用算
力少，计算速度快，能够迅速响应分布式星群系统可用激光链路变化的情况，给出优化的拓扑结果。
附图说明
[0055]
图1为本发明的基于深度强化学习的分布式星群动态组网方法实现流程图。
具体实施方式
[0056]
下面给出了本发明的一个实施例，对其进行详细描述。
[0057]
图1为本发明中基于深度强化学习的分布式星群动态组网方法实现流程图。如图1所示，本发明公开了一种基于深度强化学习的分布式星群动态组网方法，分布式星群系统包括多颗geo轨道卫星，各卫星通过光学多波束天线实现多星互联，分布式星群系统采用双层深度强化学习算法进行动态组网优化，其具体步骤包括：
[0058]
s1，设定分布式星群系统中卫星数量为s，每颗卫星的光学多波束天线数量为a，每个光学多波束天线可同时支持n条激光通信链路。
[0059]
s2，通过接收地面遥测数据、星间测距、状态检测手段获得分布式星群系统的各卫星的实时轨道信息。
[0060]
s3，通过获得的分布式星群系统的各卫星的实时轨道信息，计算分布式星群激光通信链路的可用状态矩阵，具体步骤包括：
[0061]
s31，假设分布式星群系统采用零差bpsk调制方法进行星间激光通信，其通信误码率ber
bpsk
的表达式为：
[0062][0063]
其中，r为光电探测器响应度，d
t
和d
r
分别为光学多波束天线的发射天线和接收天线的口径，为激光束散角，s
t
为发射信号功率，l
atp
为激光通信链路的捕获、跟踪和对准(atp)失配损耗，p
lo
为本振激光器功率，σ为噪声功率，erfc()为互补误差函数，d
link
为建立激光通信链路的两个卫星之间的链路距离，对于分布式星群系统中的第i个卫星和第j个卫星，其链路距离的变量为d
ij
或d
ji
，其计算公式为：
[0064][0065]
其中，(x
i
,y
i
,z
i
)为第i个卫星在地球惯性系中的坐标，(v
x,i
,v
y,i
,v
z,i
)为第i个卫星的运动速度在地球惯性系中的三维矢量，θ为波束偏转角，η(θ)为波束偏转角取θ时的光学多波束天线的透射效率，其表达式为：
[0066][0067]
其中，θ
max
为光学多波束天线所支持的最大波束偏转角；
[0068]
s32，计算分布式星群系统的各卫星的天线之间的可视状态；利用θ和d
link
，计算得到各激光通信链路的误码率，误码率上限记为ber
th
，当链路误码率大于该上限时，判定该激光通信链路中断，即该链路对应的两个卫星的天线之间为不可视状态；
[0069]
s33，计算分布式星群系统激光通信链路的可用状态矩阵l
ink
，可用状态矩阵l
ink
中的元素表达为α
ik,jl
，i＝1,2,...,s，j＝1,2,...,s，k＝1,2,...,a,l＝1,2,...,a，s表示该分布式星群系统所包含的卫星的数目，a表示一个卫星所包含的光学多波束天线的数目，α
ik,jl
用于表示第i颗卫星的第k个天线与第j颗卫星的第l个天线之间的可视状态，当二者之间为可视状态时，其取值为1，反之，其取值为0，当i＝j时，α
ik,jl
记为0，由于两个天线之间的可视状态是相互的，因此有α
ik,jl
＝α
jl,ik
，即l
ink
＝l
inkt
。当天线数目a＝2、卫星数目s＝5时，该可用状态矩阵l
ink
表达式为：
[0070][0071]
对于天线数目和卫星数目取其他值的情况，可用状态矩阵l
ink
可按照上述方式构建。
[0072]
s4，获取分布式星群系统的各个卫星间的激光通信链路所构成的拓扑网络当前的网络拓扑结构，将其表示为矩阵t
cur
，矩阵t
cur
中的元素表达为t
ik,jl
，i＝1,2,...,s,j＝1,2,...,s，k＝1,2,...,a,l＝1,2,...,a，其中，t
ik,jl
用于表示第i颗卫星的第k个天线与第j颗卫星的第l个天线之间的连接状态，若二者之间有激光通信链路连接，则t
ik,jl
为1，否则t
ik,jl
为0；
[0073]
s5，逐个比较矩阵t
cur
和矩阵l
ink
中的元素，若存在t
ik,jl
＝1而α
ik,jl
＝0的情况，则判定可用状态矩阵的变化将影响分布式星群系统的网络拓扑结构，转入步骤s6，否则维持分布式星群系统的当前网络拓扑结构，转入步骤s2。
[0074]
s6，根据分布式星群系统激光通信链路的组网需求，建立多目标优化模型；所述的步骤s6，其具体步骤包括，
[0075]
s61，利用分布式星群系统激光通信链路的可用状态矩阵l
ink
，计算得到组网重构状态矩阵a
nt
，该矩阵中的元素为β
ik,jl
，i＝1,2,...,s,j＝1,2,...,s，k＝1,2,...,a,l＝1,2,...,a，其中，β
ik,jl
＝1时，则表示在第i颗卫星的第k个天线与第j颗卫星的第l个天线之间建立激光通信链路，β
ik,jl
＝0时，则表示不在第i颗卫星的第k个天线与第j颗卫星的第l个天线之间建立激光通信链路，当i＝j时，β
ik,jl
记为0，l
ink
＝l
inkt
，由于a
nt
是根据l
ink
生成的，当且仅当α
ik,jl
＝1时，β
ik,jl
才可能为1；当天线数目a＝2、卫星数目s＝5时，该组网重构状态矩阵a
nt
的表达式为：
[0076][0077]
对于天线数目和卫星数目取其他值的情况，组网重构状态矩阵a
nt
可按照上述方式构建。
[0078]
s62，计算分布式星群系统的各卫星之间的连接矩阵t
p
，其表达式为：
[0079][0080]
其中，γ
i,j
表示第i颗卫星和第j颗卫星之间是否存在激光通信链路，当k和l分别取1到a时，若对应的全部β
ik,jl
中存在任意一项不为1，则γ
i,j
＝1，即卫星i和卫星j之间存在激光通信链路，若对应的全部β
ik,jl
取值均为1，则γ
i,j
＝0；
[0081]
s63，计算激光通信链路权重矩阵w，该矩阵中的元素的表达式为：
[0082][0083]
其中，i＝1,2,...,s,j＝1,2,...,s，d
i,j
为卫星i和卫星j之间的激光通信链路距离，θ
i,k
和θ
j,l
分别为卫星i和卫星j的收发天线波束偏转角度，η
t
(θ
i,k
)为在收发天线波束偏转角度θ
i,k
下对应的发射天线透射率，η
r
(θ
j,l
)为在收发天线波束偏转角度θ
j,l
下对应的接收天线透射率；
[0084]
s64，计算分布式星群系统的各个卫星间的激光通信链路所构成的拓扑网络的拉普拉斯矩阵l
p
，其元素l
pi,j
的表示式为：
[0085][0086]
其中，i＝1,2,...,s,j＝1,2,...,s。
[0087]
s65，计算分布式星群系统的拓扑网络的代数加权连通度，代数加权连通度的取值为拉普拉斯矩阵l
p
的第二小的特征值λ2，上述代数加权连通度的计算过程记为acon(l
p
)；
[0088]
s66，计算分布式星群系统的拓扑网络的持续时间拓扑网络的持续时间是指该拓扑网络保持当前的网络拓扑结构而不发生变化的时间，t
tp
为分布式星群系统的各激光通信链路的持续时间的集合，t
tp
＝{t
i,j
}，i＝1,2,...,s,j＝1,2,...,s，t
i,j
为卫星i和卫星j之间的激光通信链路的持续时间。当γ
i,j
＝0时，卫星i和卫星j之间不存在激光通信
链路，则令t
i,j
＝inf，当γ
i,j
＝1时，t
i,j
等于卫星i和卫星j之间的激光通信链路超出可视范围的时刻与获得分布式星群系统的各卫星的实时轨道信息的时刻之间的时间间隔；
[0089]
s67，计算网络连接矩阵摄动d，其表达式为s67，计算网络连接矩阵摄动d，其表达式为表示对两个矩阵的对应元素依次进行异或运算，sum表示对异或得到的矩阵的所有元素进行累加；
[0090]
s68，建立多目标优化模型：
[0091][0092]
其中，g1(l
p
)、g2(t
tp
)和g3(a
nt
,t
cur
)分别代表了网络互连通、网络持续时间和网络连接矩阵摄动三个优化目标函数，约束条件c1为卫星之间的激光通信链路的可见性约束，即每个激光通信链路对应的可用状态矩阵l
ink
中的元素取值必须为1；约束条件c2表示拓扑网络必须是连通的；约束条件c3表示所有天线同时建立的激光通信链路的数量必须小于波束数量限制，式中，表示对a
nt
中的所有元素按行求和，得到一个列向量，该列向量中的第i个元素代表了第i个天线当前所建立的激光通信链路的数量；
[0093]
s7，分布式星群系统使用双层深度强化学习算法对步骤s6中得到的多目标优化模型进行求解，得到组网重构矩阵，其具体步骤包括：
[0094]
s701，构建双层深度强化学习算法的实现架构，其包括内层环境和外层环境、内层经验池和外层经验池、以及内层智能体和外层智能体，外层环境用于模拟分布式星群系统的拓扑网络的拓扑结构状态，外层智能体用于从外层环境中抽取信息得到外层状态，内层环境用于模拟分布式星群系统的拓扑网络的互联互通状态，内层智能体用于从内层环境中抽取信息得到内层状态，外层环境的描述变量包括分布式星群系统的激光通信链路的可用状态矩阵，外层智能体的动作是用于为内层智能体选择目标函数优化任务，目标函数优化任务的参数包括分布式星群系统的拓扑网络的代数加权连通度、持续时间和连接矩阵摄动取值组合，外层环境的描述变量是通过对分布式星群系统的拓扑网络的每一次组网后的拓扑结构来得到，内层环境的描述变量是组网重构矩阵，内层智能体的动作是在分布式星群系统的某两个卫星之间建立激光通信链路，内层状态变量是利用该双层深度强化学习算法对多目标优化模型进行求解的中间过程得到的组网重构矩阵。内层经验池和外层经验池分别用于存储内层经验和外层经验；该双层深度强化学习算法的实现架构用于实现该双层深度强化学习算法；
[0095]
s702，初始化双层深度强化学习算法的参数，双层深度强化学习算法参数包括内外层的经验池大小、内层经验池经验数量学习门限、外层经验池经验数量学习门限、探索概率、折扣因子、内层和外层智能体的网络参数、目标网络更新频率和奖励值函数；设定该算
法训练轮次上限为me，当前轮次数loop＝0；
[0096]
s703，获取分布式星群系统的初始参数，包括分布式星群系统中卫星的数量、每个卫星的光学多波束天线数量、每个光学多波束天线所建立的激光通信链路数量和分布式星群系统中各卫星的实时轨道信息，计算激光通信链路的可用状态矩阵l
ink
；初始化双层深度强化学习算法的外层状态变量为与可用状态矩阵l
ink
维度相同的零矩阵，设定外层状态变量的终止状态；判断loop是否小于me，如果loop小于me，转入步骤s704，否则完成内层智能体和外层智能体的训练，转入步骤s8；
[0097]
s704，判断外层状态变量是否是终止状态，如果是终止状态，loop＝loop 1，并转入步骤s703，如果不是终止状态，转入步骤s705；
[0098]
s705，外层智能体根据双层深度强化学习算法的外层状态，为内层智能体选择目标函数优化任务；
[0099]
s706，内层智能体根据选择的目标函数优化任务，初始化内层状态；
[0100]
s707，内层智能体根据内层状态和选择的目标函数优化任务，选择其是否需要采取动作，即是否在分布式星群系统的某两个卫星间建立某条激光通信链路；
[0101]
s708，内层智能体计算内层奖励botr，其计算公式为：
[0102][0103]
内层智能体更新内层状态，将内层经验存储到内层经验池中，内层经验包括内层状态、内层动作、内层奖励以及更新后的内层状态；
[0104]
s709，激光通信链路的可用状态矩阵l
ink
中取1的元素的个数为可用激光通信链路数，判断可用激光通信链路数是否大于0，如果是，转入步骤s707，否则转入步骤s710；
[0105]
s710，外层智能体获取最终的内层状态，即最终的组网重构矩阵，作为分布式星群系统的本次组网的结果；
[0106]
s711，外层智能体计算外层奖励topr，topr＝w1f1(g1) w2f2(g2) w3f3(g3)，其中，w
i
是第i个目标函数的权重，f
i
是第i个目标函数的归一化函数，g
i
是第i个目标函数，i＝1,2,3，并更新外层状态变量为本次组网的结果，存储外层经验到外层经验池中，外层经验包括外层状态、外层智能体动作、外层奖励以及更新后的外层状态；
[0107]
s712，判断内层经验池的数据量是否大于内层经验池经验数量学习门限，判断外层经验池的数据量是否大于外层经验池经验数量学习门限，如果内外层经验池的数据量均大于其对应的经验池经验数量学习门限，则训练内层智能体和外层智能体，之后转入步骤s704，如果否，直接转入步骤s704。
[0108]
s8，在内层智能体和外层智能体的训练均完成后，当该分布式星群系统需要重新组网的时候，则调用已经训练好的双层深度强化学习算法，得到组网重构矩阵，并利用组网重构矩阵对该分布式星群系统进行重新组网，完成一次组网优化过程。
[0109]
以上结合附图详细说明了本发明，但是本领域的普通技术人员应当明白，说明书是用于解释权利要求的，本发明的保护范围以权利要求为准，在本发明的基础上，任何所做的修改、等同替换和改进等都应当在所要求的保护范围内。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

基于深度强化学习的分布式星群动态组网方法与流程

相关文献

最热文献