一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种时序强化学习的星间激光干涉频率规划仿真验证系统的制作方法

2021-11-05 19:10:00 来源:中国专利 TAG:


1.本发明涉及光学激光干涉测量领域与计算机强化学习技术领域,尤其涉及一种时序强化学习的星间激光干涉频率规划仿真验证系统。


背景技术:

2.强化学习是机器学习领域一个新的方向,它的目的在于通过机器自主选择的动作以及环境反馈的惩罚来进行学习。在一步步“趋利避害”的过程中,程序所控制的“智能体”通过不断的试错,逐步了解所处环境并进行最优的策略选择。算法需要提前设定好智能体所处的环境以及在智能体选择了动作后的奖励。它的最终目标是让智能体能够像人一样具有环境分析能力,能够计算出在当前环境下做何种动作是更加有利的。
3.探测引力波的核心技术是采用激光干涉法测量引力波所引起的空间变化。引力波探测分为两种类型,分别是地面引力波探测和空间引力波探测。地面引力波探测由于受到地球引力的影响,仅能探测中高频段的引力波,近年来人们逐渐把目光转向空间以实现更具科学价值的中低频段引力波的探测。空间引力波探测中,一个卫星将接收到的源自另一颗卫星所发射的激光与本地激光器进行干涉,从而完成星间测距任务。由于多普勒频移的影响,使得参与干涉测量的两束光的拍频发生震荡,因此只能采用外差干涉测距的方式。为了保证拍频频率不为零且不超出光电探测器的探测范围,需要在干涉过程中加入人为可控的频率项进行调整,使得受影响的拍频仍然可以维持在一定的区间内。多普勒频移由卫星之间的相互运动所决定,在确定了卫星轨道后,每一时刻的多普勒频移也会确定下来。目前,通常采用线性规划或遗传算法来根据已知信息对人工频率进行优化,以保证最后的拍频符合一定的约束。实验过程中,线性规划得到的结果往往缺乏多样性,无法得出多个可行解。遗传算法虽然在理论上可以得到多个可行解,但在实际使用过程中,求解效率极其低下。
4.此外,迫切需要通过地面仿真系统对所计算得到的频率规划方案进行验证,以保证卫星在轨运行的可靠性。


技术实现要素:

5.本发明的目的在于克服现有频率规划方案的缺陷并且验证频率规划方案的可靠性,提出了一种时序强化学习的星间激光干涉频率规划仿真验证系统。
6.为了实现上述目的,本发明提出了一种时序强化学习的星间激光干涉频率规划仿真验证系统,用于对制定的星间频率规划方案进行仿真验证,所述系统包括:激光干涉光学平台组、存储组件和显示终端;其中,
7.所述激光干涉光学平台组包括六个结构相同的激光干涉光学平台,每两个激光干涉光学平台为一对,用于模拟在同一卫星的两个光学平台,根据存储组件提供的频率规划方案实时调节激光的频率和相位,并根据存储组件提供的指定时刻的多普勒干扰频率信息,对入射激光进行频率移频,以模拟卫星在太空时由于多普勒现象所发生的干扰;
8.所述存储组件,用于存储预先建立和训练好的决策模型,存储根据卫星轨道数据由决策模型确定的频率规划方案,用于存储对应仿真验证实验各个时刻的多普勒干扰频率信息,还用于存储在仿真验证实验过程中所选择的频率规划方案;所述决策模型采用时序回溯式强化学习方法训练获得;
9.所述显示终端,用于实时显示多普勒干扰频率信息和激光拍频信息。
10.作为上述系统的一种改进,所述六个结构相同的激光干涉光学平台按照逆时针方向设置,分别为a1、a2、a3、a4、a5和a6,其中,a1与a6、a2与a3以及a4与a5分别在一条直线上,方向相反,形成一个三角环路;a1与a2、a3与a4以及a5与a6分别组成一对,每对的两个激光干涉光学平台间的夹角均为60度。
11.作为上述系统的一种改进,所述激光干涉光学平台包括:激光发射器、多普勒频移干扰发生器,镜片组和两个四象限光电探测器,其中,
12.所述激光发射器,用于发射特定频率的激光,还用于根据存储组件提供的频率规划方案实时调节激光的频率和相位;所述激光发射器为可调谐激光器;
13.所述多普勒频移干扰发生器,用于接收存储组件发送的指定时刻的频移干扰,对入射激光进行频率移频,以模拟卫星在空间运行时由于多普勒现象所发生的频率干扰;所述多普勒频移干扰发生器包括电性连接的声光移频器和移频处理器,所述声光移频器,用于将接收到的入射激光进行特定量的频率移频;所述移频处理器,用于指定声光移频器移频的量;
14.所述镜片组,用于对激光进行反射或分束,包括多个反射镜、多个分束器和两个单向玻璃;
15.所述两个四象限光电探测器,用于收集本地激光与邻近光学平台激光发生干涉后的激光干涉信号,并转换为电信号输入显示终端。
16.作为上述系统的一种改进,所述存储组件包括强化学习策略存储器、多普勒频移干扰信息存储器和实时策略存储器;其中,
17.所述强化学习策略存储器,用于存储预先建立和训练好的决策模型,还用于存储根据卫星轨道数据由决策模型确定的频率规划方案;
18.所述多普勒频移干扰信息存储器,用于存储预先计算好的对应仿真验证实验各个时刻的多普勒干扰频率信息,并将各个时刻多普勒干扰频率信息传输给多普勒频移干扰发生器;
19.所述实时策略存储器,用于存储在仿真验证实验过程中所选择的频率规划方案。
20.作为上述系统的一种改进,所述决策模型的输入为a1与a6之间、a2与a3之间、a4与a5之间的多普勒频移干扰频率,输出为包括每个激光干涉光学平台待发射的激光频率的频率规划方案;满足以下约束条件:
[0021][0022]
其中,lb表示约束的下限,ub表示约束的上限,f
d1
(t),f
d2
(t),f
d3
(t)分别为t时刻a1与a6之间、a2与a3之间以及a4与a5之间的多普勒频移干扰频率;f1(t),f2(t),f3(t),f4(t),f5(t),f6(t)分别为t时刻六个激光干涉光学平台待发射的激光频率;每两个激光频率之间的差值δf
12
,δf
34
,δf
56
,δf
16
,δf
23
满足下式:
[0023]
δf
12
=abs(f1(t)

f2(t)),δf
34
=abs(f3(t)

f4(t)),δf
56
=abs(f5(t)

f6(t)),δf
16
=abs(f1(t)

f6(t)),δf
23
=abs(f2(t)

f3(t)),其中abs表示取绝对值操作。
[0024]
作为上述系统的一种改进,所述决策模型采用演绎网络,用于输出针对当前星间多普勒频移的星间频率规划方案,所述演绎网络包括依次连接的第一全连接层、第二全连接层、第三全连接层和输出层,其中第一全连接层的输入为当前时刻六个多普勒频移干扰频率,输出为1
×
16的特征向量,采用relu激活函数;第二全连接层输入为第一全连接层的输出,输出为1
×
32的特征向量,采用relu激活函数;第三全连接层的输入为第二全连接层的输出,输出为1
×
32的特征向量,采用relu激活函数;输出层用于将第三全连接层输出的特征向量转换成1
×
6的输出向量,分别对应a1

a6中激光发射器的激光频率。
[0025]
作为上述系统的一种改进,所述决策模型的训练过程包括:
[0026]
步骤1)在决策模型后增加评判网络,用于输出当前策略的值函数q;所述评判网络包括依次连接的两个全连接层和一个输出层,其中,两个全连接层分别包含32个隐层和16个隐层,所述评判网络的输入为一个1
×
12的向量,该向量前6个数据表示当前时刻六个多普勒频移干扰频率,后6个数据为当前时刻演绎网络输出的六个激光频率,输出为当前策略的值函数q;
[0027]
步骤2)根据公式(1)构建频率规划的约束项,确定训练数据的频率范围;
[0028]
步骤3)基于空间引力波探测卫星动力学模型,随机生成若干组训练数据,每组训练数据均包括1
×
1000时序的多普勒频率干扰信息,每个多普勒频率干扰信息的数值均在[

10mhz,10mhz]之间,且相邻时刻的多普勒频率干扰信息的数值差值在1mhz以内;演绎网络随机输出六个激光频率;随机取出一组训练数据,依次输入演绎网络和评判网络;
[0029]
步骤4)采用奖励机制根据演绎网络的输出得到当前规划的奖励r,将演绎网络的输入和输出组成一个1
×
12的向量输入评判网络,计算当前时刻的值函数q,若演绎网络输出的六个激光频率不满足约束项的约束,则重新生成六个激光频率;转至步骤4);否则得到t时刻的频率规划方案,转至步骤5);
[0030]
步骤5)基于确定性策略梯度定理,根据t时刻的频率规划方案得到的奖励r和值函
数q对演绎网络和评判网络进行更新;
[0031]
步骤6)采用时序机制,继续沿用t时刻的频率规划方案,并得到当前时刻的奖励r以及值函数q;重复步骤6)直至t k时刻,t时刻的频率规划方案不满足约束条件,则转至步骤7);
[0032]
步骤7)采用回溯机制,自动回溯预先设定的m个时刻,重新对t k

m 1时刻进行频率规划,由演绎网络输出新的六个激光频率,得到t k

m 1时刻的频率规划方案,记录对应的奖励r和值函数q,如果演绎网络收敛则转至步骤8);否则,将t k

m 1赋值给t,并判断该组训练数据是否遍历完毕,判断为是,顺序选取下一组训练数据,转至步骤5);判断为否,转至步骤5);
[0033]
步骤8)得到训练好的决策模型。
[0034]
作为上述系统的一种改进,所述采用奖励机制根据演绎网络的输出得到当前规划的奖励r;具体包括:根据演绎网络输出的频率规划方案持续的时间进行评分,对于t时刻的频率规划方案,持续到t k时刻均满足约束条件,则该频率规划方案的奖励r满足下式:
[0035][0036]
一种时序强化学习的星间激光干涉频率规划仿真验证方法,基于上述任一所述的系统实现,所述方法包括:
[0037]
根据轨道数据计算指定时刻的多普勒频移,并存储至存储组件的多普勒频移干扰信息存储器;
[0038]
将指定时刻的多普勒频移输入已经建立和训练好的决策模型,得到每个激光干涉光学平台各个时刻的待发射激光频率,构成包括各个时刻的频率规划方案并存储至存储组件的强化学习策略存储器;
[0039]
将频率规划方案输入每个激光干涉光学平台的激光发射器;
[0040]
将指定时刻的多普勒频移输入每个激光干涉光学平台的多普勒频移干扰发生器;
[0041]
根据时序依次进行仿真验证实验,由显示终端进行显示,并由存储组件的实时策略存储器记录在仿真验证实验过程中所选择的频率规划方案
[0042]
与现有技术相比,本发明的优势在于:
[0043]
1、采用时序回溯式强化学习实时生成星间激光干涉频率规划方案,可以在训练过程中随时回退,保证了最终频率规划方案的优越性,此外该方法灵活性强且易于扩展;
[0044]
2、实时显示当前频率规划情况,有助于对不够优良的方案进行针对性处理,便于得到更好的策略;
[0045]
3、地面实验装置可以测试卫星平台各个组件在运行过程中的稳定性,有助于辨别不符合条件的器件,以降低风险。
附图说明
[0046]
图1是本发明实施例1的激光干涉光学平台组平面图;
[0047]
图2是激光干涉光学平台a1的平面图;
[0048]
图3是多普勒频移干扰发生器示意图;
[0049]
图4是本发明的强化学习模型训练示意图;
[0050]
图5是本发明实施例2的方法流程图。
[0051]
附图标记
[0052]
1.多光路激光干涉地面仿真系统
ꢀꢀꢀ
2.可调谐激光器
[0053]
3.半透半反分光镜
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
4.半透半反分光镜
[0054]
5.单向玻璃
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
6.四象限光电探测器
[0055]
7.半透半反分光镜
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
8.本地光学平台一侧激光光路
[0056]
9.光束耦合器
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
10.单向玻璃
[0057]
11.四象限光电探测器
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
12.反射镜
[0058]
13.反射镜
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
14.光束耦合器
[0059]
15.本地光学平台另一侧激光光路
ꢀꢀ
16.远端平台激光光路
[0060]
17.多普勒频移干扰发生器
具体实施方式
[0061]
本发明的技术方案包括地面验证装置和频率规划方案制定算法。
[0062]
一、地面验证装置
[0063]
地面验证装置包括:激光干涉光学平台a1,激光干涉光学平台a2,激光干涉光学平台a3,激光干涉光学平台a4,激光干涉光学平台a5,激光干涉光学平台a6,存储组件和显示终端。
[0064]
激光干涉光学平台a1、a2、a3、a4、a5、a6,用于向邻近光学平台发送和接收激光。其中a1与a2和a6相邻,a5与a6和a4相邻,a3与a2和a4相邻。a1与a2、a3与a4、a5与a6分别模拟在同一卫星的两个光学平台。安装时6个光学平台依次安装,形成一个三角环路。a1与a2、a3与a4、a5与a6的夹角都为60度。a1与a6、a2与a3、a4与a5安装在一条直线上,方向相反。
[0065]
光学平台a1、a2、a3、a4、a5、a6包含有激光发射器、多普勒频移干扰发生器,镜片组和两个四象限光电探测器,其中
[0066]
激光发射器用于发射特定频率的激光,并可以根据存储组件提供的频率规划方案实时调节激光的频率和相位。
[0067]
多普勒频移干扰发生器包含一个声光移频器和移频处理器。声光移频器用于将接收到的光进行特定量的频率偏移;移频处理器用于指定声光移频器移频的量。多普勒频移干扰发生器用于模拟卫星在空间运行时由于多普勒现象所发生的频率干扰。
[0068]
镜片组包括多个反射镜、多个分束器、两个单向玻璃分别用于将激光进行反射或分束。
[0069]
两个四象限光电探测器用于收集本地激光与邻近光学平台激光发生干涉后的激光干涉信号。
[0070]
存储组件,用于存储预先训练好的策略制定方案和频率规划规则、记录在实验过程中的任意时刻的多普勒频移干扰和相应的频率规划方案。存储组件包括强化学习策略存储器、多普勒频移干扰信息存储器和实时策略存储器;其中
[0071]
强化学习策略存储器用于存储预先训练好的模型以及频率规划方案,在仿真实验过程中,按照频率规划方案改变各个光学平台的激光器初始频率。多普勒频移干扰信息存
储器用于存储预先计算好的各个时刻的多普勒频移干扰,仿真过程中将各个时刻的频移干扰传输给多普勒频移干扰发生器。实时策略存储器用于存储在实验过程中程序所选择的频率规划方案。
[0072]
显示终端,用于实时显示多普勒干扰频率信息和激光拍频信息。
[0073]
二、频率规划方案制定算法
[0074]
频率规划方案制定算法采用端到端的时序回溯式强化学习决策网络模型,向网络中输入a1与a6之间、a2与a3之间、a4与a5之间的多普勒频移干扰频率,输出在当前情况下的6个激光发射器所发射的激光频率。
[0075]
频率规划制定方案的数学模型:
[0076]
设光学平台a1与a6之间、a2与a3之间、a4与a5之间的多普勒频移干扰频率分别为f
d1
(t),f
d2
(t),f
d3
(t),光学平台a1

a6上安装的激光器的发射频率分别为f1(t),f2(t),f3(t),f4(t),f5(t),f6(t),其中t表示这些频率都会随着时间变化而变化。频率规划的目标是设定f1(t),f2(t),f3(t),f4(t),f5(t),f6(t)的数值,保证在每个时间点都满足以下约束条件的同时,其值在任务周期内维持尽可能长的时间。
[0077][0078]
其中,lb表示约束的下限,ub表示约束的上限。δf
12
=abs(f1‑
f2),δf
34
=abs(f3‑
f4),δf
56
=abs(f5‑
f6),δf
16
=abs(f1‑
f6),δf
23
=abs(f2‑
f3),其中abs表示取绝对值
[0079]
时序回溯式强化学习决策网络模型具体包括:
[0080]
采用演绎评判的时序回溯式强化学习方案,该方案包含演绎网络,评判网络,时序机制,回溯机制和奖励机制。所述演绎网络用于输出针对当前星间多普勒频移的星间频率规划方案,该网络包括第一全连接层、第二全连接层、第三全连接层和输出层,其中第一全连接层的输入为当前时刻6个多普勒频移干扰频率,输出为1
×
16的特征向量,采用relu激活函数;第二全连接层输入为上层的输出,最终输出1
×
32的特征向量,激活函数为relu;第三全连接层的输入为上层输出,本层输出为1
×
32的特征向量,激活函数为relu;输出层用于将最后的特征向量转换成1
×
6的输出向量,分别对应a1

a6中激光发射器的频率。将这6个频率带入到奖励机制中计算当前规划方案奖励r。
[0081]
所述评判网络用于输出当前策略的值函数,仅在训练过程中被使用,共包含有两个全连接层和一个输出层,第一全连接层的输入是一个1
×
12的向量,该向量前6个数据表示当前时刻6个多普勒频移干扰频率,后6个数据为演绎评判网络的输出,共包含由32个隐层;第二全连接层包含16个隐层,用于输出当前策略的值函数q。
[0082]
针对演绎网络,设计时序机制、回溯机制和奖励机制。
[0083]
时序机制:在网络训练的t时刻,网络输出一个符合约束条件的频率制定方案。则在t 1时刻,仍然沿用这一方案。直到t m时刻,该方案无法满足当前时刻的约束。
[0084]
回溯机制:由于激光发射器发射频率的限制,以及最终受到多普勒频移干扰后的两束激光干涉拍频检测设备的探测范围限制,在该模型的训练初期会有大量的输出不满足实际的约束限制。在卫星实际的运行过程中,多普勒频移在时间上是连续变化的,默认不会在短时间内发生突变。因此,在训练时会输入随时间连续变化的多普勒频移。由于输入是已知的,所以当t时刻网络输出的频率规划策略是满足设备限制而t 1时刻不满足时,对网络的训练时会自动回溯m个时刻(m需人为指定),重新对t

m 1时刻的频率输出进行规划。上述过程将重复n次(n需人为指定),若还未找到合适的规划,则记录该点的发生时刻t,t 1时刻作为新的回溯机制起点。
[0085]
奖励机制:当前频率规划方案作为奖励机制的输入,奖励机制的输出是对该方案持续时间的评分,评分越大越好。假设[t

m 1,t]这段时间内的频率规划方案没有发生变化,其中t

m 1表示回溯机制起点。若t=1,则m=1。
[0086]
奖励值r采用以下公式计算得出。
[0087][0088]
时序回溯式强化学习决策网络模型的训练过程为:
[0089]
步骤01)搭建演绎评判强化学习网络。
[0090]
步骤02)采用公式(1)构建频率规划的约束项,对时序回溯式强化学习最终选择的频率范围进行约束。
[0091]
步骤03)基于空间引力波探测卫星动力学模型,随机生成10000组1
×
1000的时序的多普勒频率干扰信息。生成多普勒频移数值在[

10mhz,10mhz]之间,且相邻时刻的多普勒频率干扰数据的差值在1mhz以内。
[0092]
步骤04)若当前时刻t=1,则将每一组多普勒频率干扰信息依次作为环境状态信息输入演绎网络和评判网络。演绎网络输出六个激光发射器的频率。奖励机制根据演绎网络的输出得出当前规划的奖励r。演绎网络的输入和输出组成一个1
×
12的向量,作为评判网络的输入,计算当前时刻的值函数q。若演绎评判网络输出的6个激光频率规划方案不满足约束项的约束,则重新规划,否则进入步骤05)。
[0093]
步骤05)基于确定性策略梯度定理,根据输出的奖励值r和值函数q对演绎网络和评判网络进行更新。
[0094]
步骤06)若当前时刻t≠1,则采用时序机制继续沿用之前的频率规划方案。重复步骤06)。直到之前的频率规划方案无法满足当前需求,则进入步骤07)
[0095]
步骤07)进入回溯机制,对频率规划方案进行回溯。记录回溯过程中的奖励r,演绎网络输出的激光频率制定策略和评判网络输出的值函数,进入步骤05)
[0096]
步骤10)重复步骤05),06),07)直至网络收敛。
[0097]
所述频率规划的具体实现过程为:
[0098]
步骤01)将多普勒频移干扰发生器产生的时序频率干扰作为已经训练好的时序回
溯式强化学习模型的输入。
[0099]
步骤02)强化学习模型输出相应的频率规划方案。
[0100]
步骤03)将频率规划方案存储至实时策略存储器中,应用于地面验证装置各个激光干涉光学平台中。
[0101]
步骤04)将时序频率干扰输入到多普勒频移干扰发生器中。
[0102]
步骤05)按照时序依次进行,直到实验结束。
[0103]
下面结合附图和实施例对本发明的技术方案进行详细的说明。
[0104]
实施例1
[0105]
如图1所示,本发明的实施例1提出了一种时序回溯式强化学习模型的频率规划方案制定系统,所述系统包括用于模拟实际太空中六个光学平台a1、a2、a3、a5、a4、a6。光学平台a1与a2的夹角是60度为一组相邻光学平台,a3与a4的夹角是60度为一组相邻光学平台,a5与a6的夹角是60度为一组相邻光学平台。a1与a6为一组相对光学平台,a2与a3为一组相对光学平台,a4与a5为一组相对光学平台。
[0106]
各个光学平台包括可调谐激光器、多个分光镜、多个单向玻璃、多个四象限光电探测器、多个光束耦合器、一个多普勒频移干扰发生器。所述光学平台a1、a2、a3、a5、a4、a6的结构相同且内部均由相同结构的激光器、镜片组、光束耦合器以及四象限光电探测器组成。图2是本发明光学平台a1平面图。所述激光器安装在光学平台上,并且发射的激光频率可以改变。镜片组包含有若干个用于反射或投射光的光学镜片。各个光学平台之间的光学链路上连接有用于模拟多普勒频移的多普勒频移干扰发生器。图3是多普勒频移干扰发生器示意图,多普勒频移干扰发生器内部有声光移频器和移频处理器。光学平台激光器所发射的激光通过光学链路连接到光束耦合器,用于与相邻光学平台的激光发生干涉。镜片组、激光器和多普勒频移干扰发生器安装于水平的光学平台上。所述激光器发射的激光频率可以通过外部输入的方式对其调整。
[0107]
激光器为可调谐激光器,激光器初始波长为1064nm。激光器用于根据基于强化学习的预定频率规划方案来对原始激光频率进行修正,以控制整个链路各个激光器之间的激光干涉不发生零差干涉且拍频信号在预定范围内。拍频信号的预定范围根据具体实验要求制定。
[0108]
多普勒频移干扰发生器中声光移频器与移频处理器电性相连。移频处理器用于改变声光移频器的移频量以模拟多普勒频移干扰。
[0109]
四象限光电探测器安装于光学链路的末端用于确定发生干涉后的光的拍频和相位。所述干涉后的光为不同激光器发射出的激光发生干涉生成,垂直入射到四象限光电探测器中心。
[0110]
存储组件分为强化学习策略存储器、多普勒频移干扰信息存储器和实时策略存储器。
[0111]
强化学习策略存储器用于存储预先训练好的模型以及频率规划方案,在仿真实验过程中,按照频率规划方案改变各个光学平台的激光器初始频率。多普勒频移干扰信息存储器用于存储预先制定好的在各个时刻的多普勒频移干扰,仿真过程中将各个时刻的频移干扰传输给多普勒频移干扰器。实时策略存储器用于存储在实验过程中程序所选择的频率规划方案。
[0112]
如图4所示,时序回溯式强化学习决策网络模型的训练过程为:
[0113]
步骤01)搭建演绎评判强化学习网络。
[0114]
步骤02)采用公式(1)构建频率规划的约束项,对时序回溯式强化学习最终选择的频率范围进行约束。
[0115]
步骤03)随机生成10000组1
×
1000的时序的多普勒频率干扰信息。生成多普勒频移数值在[

10mhz,10mhz]之间,且相邻时刻的多普勒频率干扰数据的差值在1mhz以内。
[0116]
步骤04)若当前时刻t=1,则将每一组多普勒频率干扰信息依次作为环境状态信息输入演绎网络和评判网络。演绎网络输出六个激光发射器的频率。奖励机制根据演绎网络的输出得出当前规划的奖励r。演绎网络的输入和输出组成一个1
×
12的向量,作为评判网络的输入,计算当前时刻的值函数q。若演绎评判网络输出的6个激光频率规划方案不满足约束项的约束,则重新规划,否则进入步骤05)。
[0117]
步骤05)将输出的r和值函数q采用确定性策略梯度定理提供的更新确定性策略的方法对演绎网络和评判网络进行更新。
[0118]
步骤06)若当前时刻t≠1,则采用时序机制继续沿用之前的频率规划方案。重复步骤06)。直到之前的频率规划方案无法满足当前需求,则进入步骤07)
[0119]
步骤07)进入回溯机制,对频率规划方案进行回溯。记录回溯过程中的奖励r,演绎网络输出的激光频率制定策略和评判网络输出的值函数,进入步骤05)
[0120]
步骤10)重复步骤05),06),07)直至网络收敛。
[0121]
实施例2
[0122]
如图5所示,本发明的实施例2提出了一种时序强化学习的星间激光干涉频率规划仿真验证方法,基于实施例1的系统实现。具体方法包括:
[0123]
根据轨道数据计算指定时刻的多普勒频移,并存储至存储组件的多普勒频移干扰信息存储器;
[0124]
将指定时刻的多普勒频移输入已经建立和训练好的决策模型,得到每个激光干涉光学平台各个时刻的待发射激光频率,构成包括各个时刻的频率规划方案并存储至存储组件的强化学习策略存储器;
[0125]
将频率规划方案输入每个激光干涉光学平台的激光发射器;
[0126]
将指定时刻的多普勒频移输入每个激光干涉光学平台的多普勒频移干扰发生器;
[0127]
根据时序依次进行仿真验证实验,由显示终端进行显示,并由存储组件的实时策略存储器记录在仿真验证实验过程中所选择的频率规划方案。
[0128]
其中,频率规划的具体实现过程为:
[0129]
步骤01)将多普勒频移干扰发生器产生的时序频率干扰作为已经训练好的时序回溯式强化学习模型的输入。
[0130]
步骤02)强化学习模型输出相应的频率规划方案。
[0131]
步骤03)将频率规划方案存储至实时策略存储器中,应用于地面验证装置各个激光干涉光学平台中。
[0132]
步骤04)将时序频率干扰输入到多普勒频移干扰发生器中。
[0133]
步骤05)按照时序依次进行,直到实验结束。
[0134]
实时频率规划仿真与验证过程的具体操作步骤如下:
[0135]
1)开启各个光学平台的可调谐激光器对其进行预热,激光器的初始激光波长设置为1064nm。
[0136]
2)可调谐激光器根据实时策略存储器存储的频率规划方案,在特定时刻改变发射激光的频率。
[0137]
3)当步骤1)结束后,开启各个光学平台中的多普勒频移干扰发生器,用于对入射激光进行移频处理。多普勒频移干扰发生器,根据存储器存储的随时间变化的多普勒频移信息,在特定时刻对入射激光的频率移频。
[0138]
4)以光学平台a1为例,可调谐激光器2发出激光8后经过第一半透半反分光镜3,激光分为两路,两路光信号分别作为本地激光1和本地激光2。
[0139]
5)本地激光1经过第二半透半反分光镜4,激光分为两路,两路光信号分别作为出射激光和本地激光3。
[0140]
6)多普勒频移干扰发生器17对出射激光进行移频处理,模拟由在太空中远端光学平台发射过来的激光频率变化。
[0141]
7)本地激光3穿过单向玻璃5,激光垂直入射到光学平台四象限探测器6的中心。
[0142]
8)与光学平台a1相对的光学平台a6的出射激光16经过单向玻璃5垂直反射到光学平台四象限探测器6的中心,四象限光电探测器6将差分光信号转化为电信号,并展示在与之相连的显示设备上。
[0143]
9)本地激光2经过第三半透半反分光镜7,激光分为两路,两路光信号分别作为本地激光4和本地激光5。
[0144]
10)本地激光4经过光束耦合器9将本地激光4传输到邻近光学平台a2中,用于邻近光学平台间的激光干涉仿真。
[0145]
11)本地激光5经过单向玻璃10垂直入射到光学平台四象限探测器11的中心。
[0146]
12)邻近光学平台a2的激光15通过光束耦合器14进入光学平台a1。
[0147]
13)激光15依次经过反射镜12、反射镜13和单向玻璃10,垂直入射到光学平台四象限探测器11的中心。
[0148]
14)四象限光电探测器11将差分光信号转化为电信号,并展示在与之相连的显示设备上。
[0149]
15)光学平台a2

a6中的各个光学组件重复以上的步骤。
[0150]
最后所应说明的是,以上实施例仅用以说明本发明的技术方案而非限制。尽管参照实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,对本发明的技术方案进行修改或者等同替换,都不脱离本发明技术方案的精神和范围,其均应涵盖在本发明的权利要求范围当中。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献