一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

基于深度强化学习的分布式星群动态组网方法与流程

2022-02-19 08:36:38 来源:中国专利 TAG:

技术特征:
1.一种基于深度强化学习的分布式星群动态组网方法,其特征在于,分布式星群系统包括多颗geo轨道卫星,各卫星通过光学多波束天线实现多星互联,分布式星群系统采用双层深度强化学习算法进行动态组网优化,其具体步骤包括:s1,设定分布式星群系统中卫星数量为s,每颗卫星的光学多波束天线数量为a,每个光学多波束天线可同时支持n条激光通信链路;s2,通过接收地面遥测数据、星间测距、状态检测手段获得分布式星群系统的各卫星的实时轨道信息;s3,通过获得的分布式星群系统的各卫星的实时轨道信息,计算分布式星群激光通信链路的可用状态矩阵,s4,获取分布式星群系统的各个卫星间的激光通信链路所构成的拓扑网络当前的网络拓扑结构,将其表示为矩阵t
cur
,矩阵t
cur
中的元素表达为t
ik,jl
,i=1,2,...,s,j=1,2,...,s,k=1,2,...,a,l=1,2,...,a,其中,t
ik,jl
用于表示第i颗卫星的第k个天线与第j颗卫星的第l个天线之间的连接状态,若二者之间有激光通信链路连接,则t
ik,jl
为1,否则t
ik,jl
为0;s5,逐个比较矩阵t
cur
和矩阵l
ink
中的元素,若存在t
ik,jl
=1而α
ik,jl
=0的情况,则判定可用状态矩阵的变化将影响分布式星群系统的网络拓扑结构,转入步骤s6,否则维持分布式星群系统的当前网络拓扑结构,转入步骤s2;s6,根据分布式星群系统激光通信链路的组网需求,建立多目标优化模型;s7,分布式星群系统使用双层深度强化学习算法对步骤s6中得到的多目标优化模型进行求解,得到组网重构矩阵,s8,在内层智能体和外层智能体的训练均完成后,当该分布式星群系统需要重新组网的时候,则调用已经训练好的双层深度强化学习算法,得到组网重构矩阵,并利用组网重构矩阵对该分布式星群系统进行重新组网,完成一次组网优化过程。2.如权利要求1所述的基于深度强化学习的分布式星群动态组网方法,其特征在于,所述的步骤s3,其具体步骤包括:s31,假设分布式星群系统采用零差bpsk调制方法进行星间激光通信,其通信误码率ber
bpsk
的表达式为:其中,r为光电探测器响应度,d
t
和d
r
分别为光学多波束天线的发射天线和接收天线的口径,为激光束散角,s
t
为发射信号功率,l
atp
为激光通信链路的捕获、跟踪和对准(atp)失配损耗,p
lo
为本振激光器功率,σ为噪声功率,erfc()为互补误差函数,d
link
为建立激光通信链路的两个卫星之间的链路距离,对于分布式星群系统中的第i个卫星和第j个卫星,其链路距离的变量为d
ij
或d
ji
,其计算公式为:其中,(x
i
,y
i
,z
i
)为第i个卫星在地球惯性系中的坐标,(v
x,i
,v
y,i
,v
z,i
)为第i个卫星的运动速度在地球惯性系中的三维矢量,θ为波束偏转角,η(θ)为波束偏转角取θ时的光学多
波束天线的透射效率,其表达式为:其中,θ
max
为光学多波束天线所支持的最大波束偏转角;s32,计算分布式星群系统的各卫星的天线之间的可视状态;利用θ和d
link
,计算得到各激光通信链路的误码率,误码率上限记为ber
th
,当链路误码率大于该上限时,判定该激光通信链路中断,即该链路对应的两个卫星的天线之间为不可视状态;s33,计算分布式星群系统激光通信链路的可用状态矩阵l
ink
,可用状态矩阵l
ink
中的元素表达为α
ik,jl
,i=1,2,...,s,j=1,2,...,s,k=1,2,...,a,l=1,2,...,a,s表示该分布式星群系统所包含的卫星的数目,a表示一个卫星所包含的光学多波束天线的数目,α
ik,jl
用于表示第i颗卫星的第k个天线与第j颗卫星的第l个天线之间的可视状态,当二者之间为可视状态时,其取值为1,反之,其取值为0,当i=j时,α
ik,jl
记为0。3.如权利要求1所述的基于深度强化学习的分布式星群动态组网方法,其特征在于,所述的步骤s6,其具体步骤包括,s61,利用分布式星群系统激光通信链路的可用状态矩阵l
ink
,计算得到组网重构状态矩阵a
nt
,该矩阵中的元素为β
ik,jl
,i=1,2,...,s,j=1,2,...,s,k=1,2,...,a,l=1,2,...,a,其中,β
ik,jl
=1时,则表示在第i颗卫星的第k个天线与第j颗卫星的第l个天线之间建立激光通信链路,β
ik,jl
=0时,则表示不在第i颗卫星的第k个天线与第j颗卫星的第l个天线之间建立激光通信链路,当i=j时,β
ik,jl
记为0;s62,计算分布式星群系统的各卫星之间的连接矩阵t
p
,其表达式为:其中,γ
i,j
表示第i颗卫星和第j颗卫星之间是否存在激光通信链路,当k和l分别取1到a时,若对应的全部β
ik,jl
中存在任意一项不为1,则γ
i,j
=1,即卫星i和卫星j之间存在激光通信链路,若对应的全部β
ik,jl
取值均为1,则γ
i,j
=0;s63,计算激光通信链路权重矩阵w,该矩阵中的元素的表达式为:其中,i=1,2,...,s,j=1,2,...,s,d
i,j
为卫星i和卫星j之间的激光通信链路距离,θ
i,k
和θ
j,l
分别为卫星i和卫星j的收发天线波束偏转角度,η
t

i,k
)为在收发天线波束偏转角度θ
i,k
下对应的发射天线透射率,η
r

j,l
)为在收发天线波束偏转角度θ
j,l
下对应的接收天线透射率;s64,计算分布式星群系统的各个卫星间的激光通信链路所构成的拓扑网络的拉普拉斯矩阵l
p
,其元素l
pi,j
的表示式为:
其中,i=1,2,...,s,j=1,2,...,s;s65,计算分布式星群系统的拓扑网络的代数加权连通度,代数加权连通度的取值为拉普拉斯矩阵l
p
的第二小的特征值λ2,上述代数加权连通度的计算过程记为acon(l
p
);s66,计算分布式星群系统的拓扑网络的持续时间min(t
tp
),拓扑网络的持续时间是指该拓扑网络保持当前的网络拓扑结构而不发生变化的时间,t
tp
为分布式星群系统的各激光通信链路的持续时间的集合,t
tp
={t
i,j
},i=1,2,...,s,j=1,2,...,s,t
i,j
为卫星i和卫星j之间的激光通信链路的持续时间;当γ
i,j
=0时,卫星i和卫星j之间不存在激光通信链路,则令t
i,j
=inf,当γ
i,j
=1时,t
i,j
等于卫星i和卫星j之间的激光通信链路超出可视范围的时刻与获得分布式星群系统的各卫星的实时轨道信息的时刻之间的时间间隔;s67,计算网络连接矩阵摄动d,其表达式为s67,计算网络连接矩阵摄动d,其表达式为表示对两个矩阵的对应元素依次进行异或运算,sum表示对异或得到的矩阵的所有元素进行累加;s68,建立多目标优化模型:其中,g1(l
p
)、g2(t
tp
)和g3(a
nt
,t
cur
)分别代表了网络互连通、网络持续时间和网络连接矩阵摄动三个优化目标函数,约束条件c1为卫星之间的激光通信链路的可见性约束,即每个激光通信链路对应的可用状态矩阵l
ink
中的元素取值必须为1;约束条件c2表示拓扑网络必须是连通的;约束条件c3表示所有天线同时建立的激光通信链路的数量必须小于波束数量限制,式中,表示对a
nt
中的所有元素按行求和,得到一个列向量,该列向量中的第i个元素代表了第i个天线当前所建立的激光通信链路的数量。4.如权利要求1所述的基于深度强化学习的分布式星群动态组网方法,其特征在于,所述的步骤s7,其具体步骤包括:s701,构建双层深度强化学习算法的实现架构,其包括内层环境和外层环境、内层经验池和外层经验池、以及内层智能体和外层智能体,外层环境用于模拟分布式星群系统的拓扑网络的拓扑结构状态,外层智能体用于从外层环境中抽取信息得到外层状态,内层环境用于模拟分布式星群系统的拓扑网络的互联互通状态,内层智能体用于从内层环境中抽取信息得到内层状态,外层环境的描述变量包括分布式星群系统的激光通信链路的可用状态矩阵,外层智能体的动作是用于为内层智能体选择目标函数优化任务,目标函数优化任务
的参数包括分布式星群系统的拓扑网络的代数加权连通度、持续时间和连接矩阵摄动取值组合,外层环境的描述变量是通过对分布式星群系统的拓扑网络的每一次组网后的拓扑结构来得到,内层环境的描述变量是组网重构矩阵,内层智能体的动作是在分布式星群系统的某两个卫星之间建立激光通信链路,内层状态变量是利用该双层深度强化学习算法对多目标优化模型进行求解的中间过程得到的组网重构矩阵;内层经验池和外层经验池分别用于存储内层经验和外层经验;s702,初始化双层深度强化学习算法的参数,双层深度强化学习算法参数包括内外层的经验池大小、内层经验池经验数量学习门限、外层经验池经验数量学习门限、探索概率、折扣因子、内层和外层智能体的网络参数、目标网络更新频率和奖励值函数;设定该算法训练轮次上限为me,当前轮次数loop=0;s703,获取分布式星群系统的初始参数,包括分布式星群系统中卫星的数量、每个卫星的光学多波束天线数量、每个光学多波束天线所建立的激光通信链路数量和分布式星群系统中各卫星的实时轨道信息,计算激光通信链路的可用状态矩阵l
ink
;初始化双层深度强化学习算法的外层状态变量为与可用状态矩阵l
ink
维度相同的零矩阵,设定外层状态变量的终止状态;判断loop是否小于me,如果loop小于me,转入步骤s704,否则完成内层智能体和外层智能体的训练,转入步骤s8;s704,判断外层状态变量是否是终止状态,如果是终止状态,loop=loop 1,并转入步骤s703,如果不是终止状态,转入步骤s705;s705,外层智能体根据双层深度强化学习算法的外层状态,为内层智能体选择目标函数优化任务;s706,内层智能体根据选择的目标函数优化任务,初始化内层状态;s707,内层智能体根据内层状态和选择的目标函数优化任务,选择其是否需要采取动作,即是否在分布式星群系统的某两个卫星间建立某条激光通信链路;s708,内层智能体计算内层奖励botr,其计算公式为:内层智能体更新内层状态,将内层经验存储到内层经验池中,内层经验包括内层状态、内层动作、内层奖励以及更新后的内层状态;s709,激光通信链路的可用状态矩阵l
ink
中取1的元素的个数为可用激光通信链路数,判断可用激光通信链路数是否大于0,如果是,转入步骤s707,否则转入步骤s710;s710,外层智能体获取最终的内层状态,即最终的组网重构矩阵,作为分布式星群系统的本次组网的结果;s711,外层智能体计算外层奖励topr,topr=w1f1(g1) w2f2(g2) w3f3(g3),其中,w
i
是第i个目标函数的权重,f
i
是第i个目标函数的归一化函数,g
i
是第i个目标函数,i=1,2,3,并更新外层状态变量为本次组网的结果,存储外层经验到外层经验池中,外层经验包括外层状态、外层智能体动作、外层奖励以及更新后的外层状态;s712,判断内层经验池的数据量是否大于内层经验池经验数量学习门限,判断外层经验池的数据量是否大于外层经验池经验数量学习门限,如果内外层经验池的数据量均大于其对应的经验池经验数量学习门限,则训练内层智能体和外层智能体,之后转入步骤s704,
如果否,直接转入步骤s704。

技术总结
本发明公开了一种基于深度强化学习的分布式星群动态组网方法,其步骤包括:获取分布式星群各卫星实时轨道信息;根据分布式星群任务需求,建立多目标优化模型;构建双层深度强化学习架构;设计双层深度强化学习算法,使用该算法进行分布式星群激光组网优化;各卫星根据优化结果调整激光通信链路,完成网络构建或组网重构。本发明实现了分布式星群网络互连通、拓扑持续时间和网络连接矩阵摄动的综合优化组网,具有网络拓扑稳定和组网速度快的优点;通过构建多目标优化模型进行分布式星群拓扑优化,能够实现组网结果的综合最优;采用深度强化学习组网算法可以实现快速组网。度强化学习组网算法可以实现快速组网。度强化学习组网算法可以实现快速组网。


技术研发人员:何元智 盛彪
受保护的技术使用者:军事科学院系统工程研究院网络信息研究所
技术研发日:2021.11.03
技术公布日:2022/1/4
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献