一种卫星姿态的控制方法、控制装置、计算机设备和介质

2022-08-13 12:38:13 来源：中国专利 TAG：

1.本技术涉及卫星控制领域，具体而言，涉及一种卫星姿态的控制方法、控制装置、计算机设备和介质。

背景技术：

2.随着技术的发展，人们所需要的信息也越来越多，但是刚靠人类在地球表面搜集的信息已经不能满足人类的需求，因此人造卫星就诞生了。现阶段，人造卫星各自在对应的轨道运行，但是不同的卫星可能功能和用途是不相同的，一般卫星可以分为通信卫星、气象卫星、资源卫星、侦查卫星、导航卫星等。卫星在轨道上的姿态并不是固定的，卫星是通过调整不同的姿态来获取不同的信息。现阶段，每个卫星都会有一个固定的控制算法来确定卫星的姿态。

技术实现要素：

3.有鉴于此，本技术的目的在于提供一种卫星姿态的控制方法、控制装置、计算机设备和介质，用于解决现有技术中无法准确对目标卫星进行姿态调整的问题。
4.第一方面，本技术实施例提供了一种卫星姿态的控制方法，包括：
5.获取目标卫星的上一时刻运行信息和目标姿态角；
6.将所述目标姿态角和上一时刻运行信息输入至实时调参的强化学习网络，计算得到所述目标卫星中动量轮在当前时刻的控制参数值；
7.根据计算得到的所述当前时刻的控制参数值，调整所述目标卫星的当前时刻姿态角，以使所述目标卫星向着所述目标姿态角运行。
8.可选的，所述控制方法还包括：
9.获取所述目标卫星在所述动量轮调整控制参数值后的当前时刻运行信息，若所述当前时刻运行信息中的当前时刻姿态角非所述目标姿态角，则对所述强化学习网络中的参数进行调整；
10.将当前时刻运行信息中的运行信息作为新的上一时刻运行信息，将调整参数后的强化学习网络作为新的强化学习网络，重新执行步骤将所述目标姿态角和新的上一时刻运行信息输入至新的强化学习网络，计算得到所述目标卫星的动量轮在新的当前时刻的控制参数值，步骤根据计算得到的所述新的当前时刻的控制参数值，调整所述目标卫星的当前时刻姿态角，以使所述目标卫星向着所述目标姿态角运行，以及获取所述目标卫星在所述动量轮调整控制参数值后的当前时刻运行信息，若所述当前时刻运行信息中的当前时刻姿态角非所述目标姿态角，则对所述强化学习网络中的参数进行调整，直至所述目标卫星的调整后的姿态角为目标姿态角。
11.可选的，所述当前时刻动量轮的控制参数值与所述上一时刻运行信息中动量轮的控制参数值之间的差值小于预设参数变化量。
12.可选的，所述控制方法还包括：
13.将所述上一时刻运行信息、所述当前时刻运行信息、目标姿态角、动作类别和奖励值作为一组经验数据存储在所述实时调参的强化学习网络的经验池中。
14.可选的，所述对强化学习网络的调参过程包括：
15.从经验池中随机采样，得到多个历史经验数据；
16.利用所述多个历史经验数据和损失函数，对强化学习网络中两个动作价值网络和演员网络进行参数调整。
17.可选的，所述奖励值是通过如下步骤确定的：
18.利用所述经验数据中的当前时刻运行信息的姿态角与所述目标姿态角的差异，确定奖励值。
19.可选的，所述动作类别是根据当前时刻运行信息中的转速与上一时刻运行信息中的上一时刻转速的比较结果确定的。
20.第二方面，本技术实施例提供了一种卫星姿态的控制装置，包括：
21.获取模块，用于获取目标卫星的上一时刻运行信息和目标姿态角；
22.计算模块，用于将所述目标姿态角和上一时刻运行信息输入至实时调参的强化学习网络，计算得到所述目标卫星中动量轮在当前时刻的控制参数值；
23.调整模块，用于根据计算得到的所述当前时刻的控制参数值，调整所述目标卫星的当前时刻姿态角，以使所述目标卫星向着所述目标姿态角运行。
24.第三方面，本技术实施例提供了一种计算机设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述方法的步骤。
25.第四方面，本技术实施例提供了一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器运行时执行上述方法的步骤。
26.本技术实施例提出的目标姿态的控制方法，首先，获取目标卫星的上一时刻运行信息和目标姿态角；其次，将所述目标姿态角和上一时刻运行信息输入至实时调参的强化学习网络，计算得到所述目标卫星中动量轮在当前时刻的控制参数值；最后，根据计算得到的所述当前时刻的控制参数值，调整所述目标卫星的当前时刻姿态角，以使所述目标卫星向着所述目标姿态角运行。
27.在某些实施例中，当目标卫星的形状、质量等参数可以随着时间的变化而变化时，本技术利提供了一种可以实时调参的强化学习网络，在目标卫星的当前参数的情况下，利用强化学习网络学习出来的一种针对当前目标卫星的最优控制策略，以实现更快更准确的将目标卫星调整到目标姿态角。
28.为使本技术的上述目的、特征和优点能更明显易懂，下文特举较佳实施例，并配合所附附图，作详细说明如下。
附图说明
29.为了更清楚地说明本技术实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本技术的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。
30.图1为本技术实施例提供的一种卫星姿态的控制方法的流程示意图；
31.图2为本技术实施例提供的一种详细的卫星姿态的控制方法的流程示意图；
32.图3为本技术实施例提供的一种卫星姿态的控制装置的结构示意图；
33.图4为本技术实施例提供的一种计算机设备的结构示意图。
具体实施方式
34.为使本技术实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中附图，对本技术实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本技术一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本技术实施例的组件可以以各种不同的配置来布置和设计。因此，以下对在附图中提供的本技术的实施例的详细描述并非旨在限制要求保护的本技术的范围，而是仅仅表示本技术的选定实施例。基于本技术的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本技术保护的范围。
35.现阶段，卫星姿态控制技术采用的是pid控制算法。针对每个卫星的 pid控制算法，pid控制算法中的各个参数是根据卫星的形状、质量以及各个器件的参数确定的，也就是说每个卫星对应的pid控制算法只能适用与这一个卫星，且在卫星的形状，质量以及各器件的状态等随着在轨时间的变化而变化时，pid控制算法的控制效果也会大打折扣，如果想要对pid 控制算法中的参数进行调整时，需要一定的专家经验和时间成本才能实现调整，调整方法比较繁琐。
36.基于上述缺陷，本技术实施例提供了一种卫星姿态的控制方法，如图1 所示，包括以下步骤：
37.s101，获取目标卫星的上一时刻运行信息和目标姿态角；
38.s102，将所述目标姿态角和上一时刻运行信息输入至实时调参的强化学习网络，计算得到所述目标卫星中动量轮在当前时刻的控制参数值；
39.s103，根据计算得到的所述当前时刻的控制参数值，调整所述目标卫星的当前时刻姿态角，以使所述目标卫星向着所述目标姿态角运行。
40.在上述步骤s101中，目标卫星是可以用于调整姿态角的人造卫星。上一时刻与当前时刻之间的时间间隔为预设值。上一时刻运行信息包括以下信息：上一时刻姿态角、上一时刻角速度、上一时刻转速、上一时刻pwm (pulse width modulation wave，脉冲宽度调制)值。其中，上一时刻姿态角和上一时刻角度是目标卫星的自身运动信息，而上一时刻转速和上一时刻pwm值是目标卫星中动量轮的运行信息。目标卫星中的动量轮通过调整自身的转速和pwm值，可以实现对目标卫星的角速度进行调整，进而通过角速度的调整实现姿态角的调整。目标姿态角是目标卫星在指定工作需求下最合适的姿态角。目标卫星可以是通过地面指令进行控制的，目标卫星的内部程序会依据地面指令确定出目标姿态角，然后目标卫星会利用本申请所述提供的控制方法逐渐从当前姿态角向着目标姿态角调整。
41.具体实施中，目标卫星会获取到地球上的控制中心所发出的地面指令，在地面指令中携带有目标姿态角，目标卫星会从地面指令中分析出目标姿态角，并且在接收到地面指令后，根据地面指令的指示信息来控制目标卫星中的传感器收集目标卫星的当前运行信息。
42.在上述步骤s102中，实时调参的强化学习网络是在每一次输出结果之后，都会进行一次参数的更新。计算得到的当前时刻的动量轮的控制参数是动量轮即将要调整的控制参数值，动量轮的控制装置在接收到携带有当前时刻的控制参数值的调整指示时，会控制动量轮从当前时刻的运行参数值调整为当前时刻的控制参数值。控制参数值包括以下参数值中的任意一种：动量轮的转速和动量轮的pwm值。控制参数值是用于调整动量轮运行的参数值。
43.当前时刻运行信息是目标卫星在运行过程中通过传感器获取到的信息，当前时刻运行信息包括以下信息：当前时刻姿态角、当前时刻角速度、当前时刻转速、当前时刻pwm(pulse width modulation wave，脉冲宽度调制)值。其中，当前时刻姿态角和当前时刻角度是目标卫星的自身运动信息，而当前时刻转速和当前时刻pwm值是目标卫星中动量轮的运行信息。目标卫星中的动量轮通过调整自身的转速或pwm值，可以实现对目标卫星的角速度进行调整，进而通过角速度的调整实现姿态角的调整。
44.具体实施中，实时调参的强化学习网络输出的是动量轮的控制参数的变化量(可以是转速变化量，也可以是pwm值变化量)，通过将控制参数的变化量与动量轮当前时刻的运行参数值的结合，最终计算得到动量轮在当前时刻的控制参数值。
45.在上述步骤s103中，当前时刻的控制参数值是用来对动量轮进行调整的，利用当前时刻的控制参数值对动量轮的运行参数值(运行参数值是动量轮正在运行时的参数值，可以是转速或pwm值，运行参数值是与控制参数值相匹配的，比如，当控制参数值为转速时，运行参数值也为转速；当控制参数值为pwm值时，运行参数值也为pwm值)进行调整后，通过动量轮的运行参数值的变化实现对目标卫星的角速度的调整，进而通过角速度的调整实现对目标卫星的姿态角的调整，当然调整过程并不是一蹴而就的，而是一个循序渐进的过程，所以利用实时调参的强化学习网络对目标卫星调整后的姿态角只是越来越接近目标姿态角，当目标卫星调整后的姿态角达到目标姿态角的时候，才算是目标卫星的调整结束。
46.在上述三个步骤中，当目标卫星的形状、质量等参数可以随着时间的变化而变化时，本技术提供了一种可以实时调参的强化学习网络，在目标卫星的当前参数的情况下，利用强化学习网络学习出来的一种针对当前目标卫星的最优控制策略，以实现更快更准确的将目标卫星调整到目标姿态角。
47.实时调参的强化学习网络指的是将强化学习网络运用到目标卫星之后，会根据目标卫星实时产生的运行信息，实现强化学习网络中参数的调整，在上述步骤s103中，计算得到当前时刻的控制参数后，将动量轮从当前时刻的运行参数调整为当前时刻的控制参数，在运行参数值调整的过程中会影响目标卫星整体姿态发生改变，这种改变表现为目标卫星从上一姿态角向着目标姿态角进行调整，也就是说，目标卫星调整后的姿态角相较于调整前的运行信息中的姿态角更接近目标姿态角。为了让强化学习网络输出的结果能够让目标卫星更快、更准确的接近目标姿态角，所以在强化学习网络每输出一次结果之后都会进行一次调参，并用调参后的强化学习网络继续对目标卫星的下一状态对应的动量轮的控制参数值进行预测，进而持续对目标卫星的姿态进行调整，以达到目标卫星处于目标姿态角的状态，如图2所示：
48.s104，获取所述目标卫星在所述动量轮调整控制参数值后的当前时刻运行信息，
若所述当前时刻运行信息中的当前时刻姿态角非所述目标姿态角，则对所述强化学习网络中的参数进行调整；
49.s105，将当前时刻运行信息中的运行信息作为新的上一时刻运行信息，将调整参数后的强化学习网络作为新的强化学习网络，重新执行步骤将所述目标姿态角和新的上一时刻运行信息输入至新的强化学习网络，计算得到所述目标卫星的动量轮在新的当前时刻的控制参数值，步骤根据计算得到的所述新的当前时刻的控制参数值，调整所述目标卫星的当前时刻姿态角，以使所述目标卫星向着所述目标姿态角运行，以及获取所述目标卫星在所述动量轮调整控制参数值后的当前时刻运行信息，若所述当前时刻运行信息中的当前时刻姿态角非所述目标姿态角，则对所述强化学习网络中的参数进行调整，直至所述目标卫星的调整后的姿态角为目标姿态角。
50.在上述步骤s104中，当前时刻的运行信息是目标卫星中的动量轮根据当前时刻的控制参数值对运行参数值进行调整后，目标卫星在运行时获取的运行信息。
51.具体实施中，如果获取到的当前时刻的运行信息中当前时刻的姿态角并不是目标姿态角，则说明目标卫星还未达到目标状态，需要继续进行姿态调整，并为了保证调整的更精确，也需要更新强化学习网络中的参数。
52.在上述步骤s105中，仅利用强化学习网络进行一次当前时刻的控制参数值的预测，可能并不能实现将目标卫星的姿态直接调整为目标姿态，因此，本技术会重复执行步骤s102、s103、s104和s105，直至目标卫星的姿态角达到目标姿态角。而在这个调整的过程中，强化学习网络是在不断的更新的，这样使得更新后的强化学习网络预测出的当前时刻的控制参数值能够能更快的使目标卫星向着目标姿态角调整。
53.在调整目标卫星的姿态角的过程中，之所以会通过多次调整才将目标卫星的姿态角调整为目标姿态角，是为了保护动量轮，如果动量轮的运行参数值调整的过快或过慢(也就是上一时刻的运行参数值与当前时刻的运行参数值之间差值的绝对值过大)的话，会增加动量轮的损耗。而将相邻两个时刻之间运行参数值的差值控制在一定的可控范围内，让动量轮的运行参数值调整跨度降低，进而保护动量轮减少损耗，提高动量轮的使用寿命。
54.当然在调整目标卫星的姿态角的过程中，虽然说相邻两个时刻的运行参数值之间的差值会控制在一定的可控范围内，但是在这个可控范围内的差值越大，目标卫星调整到目标姿态角的速度越快，所需的时间越短，差值越小，目标卫星调整到目标姿态角的速度越慢，所需的时间越长。而在某些情况下，目标卫星是需要在指定时间内将姿态角调整到目标姿态角的，所以结合上述保护动量轮的角度考虑，会在调整目标卫星的姿态角的过程中设置动量轮的控制频率，利用控制频率确定目标卫星每次调整姿态角的调整周期，也就是，强化学习网络的调参周期。比如以控制参数值为动量轮的转速为例，我们要让目标卫星在一秒内到达目标姿态角，而动量轮的控制频率为50hz，也就是0.02秒控制动量轮一次，那么每一个0.02秒，强化学习网络都会输出动量轮所需的转速，动量轮的控制装置按照强化学习网络输出的转速对动量轮进行调整，以使目标卫星每0.02秒就会调整一次姿态角，并最终在一秒内达到目标姿态角。
55.实时调参的强化学习网络的调参过程是一个不断试错的过程，需要经过大量的试错才会让强化学习网络能变得更加精准，试错的过程就会需要大量的数据，这些数据存
储在强化学习网络的经验池中，成为用于强化学习用于试错的经验数据，这些经验数据包括以下数据：所述当前时刻运行信息、所述上一时刻的运行信息、目标姿态角、动作类别和奖励值。而上述这些数据都是目标卫星在运行过程中所获取的数据，因此，本技术的控制方法还包括：
56.步骤106，将所述上一时刻运行信息、所述当前时刻的运行信息、目标姿态角、动作类别和奖励值作为一组经验数据存储在所述实时调参的强化学习网络的经验池中。
57.在上述步骤106中，动作类别包括加速类别和减速类别。加速类别表示当前时刻转速大于上一时刻转速。减速类别表示当前时刻转速小于上一时刻转速。奖励值表征当前时刻的运行信息中目标卫星的姿态角与目标姿态角之间的接近程度。奖励值越大，说明当前时刻的运行信息中目标卫星的姿态角与目标姿态角之间越接近，奖励值越小，说明当前时刻的运行信息中目标卫星的姿态角与目标姿态角之间越相差较大。将上述经验数据存储在强化学习网络的经验池中，可供强化学习网络快速进行学习，提高试错效率。当然，强化学习网络每预测一次(相当于目标卫星每调整一次姿态角)，都会获取调整运行参数值后的目标卫星的运行信息(也就是当前时刻的运行信息)，然后利用上一时刻运行信息和当前时刻运行信息来确定动作类别和奖励值。
58.具体的，本技术的控制方法中，所述经验数据中的奖励值是通过如下步骤确定的：
59.步骤107，利用所述经验数据中的当前时刻运行信息的姿态角与所述目标姿态角的差，确定奖励值。
60.在上述步骤107中，使用如下公式，基于当前时刻运行信息的姿态角与所述目标姿态角的差异，计算奖励值。
61.其中，r表示奖励值，s
t
表示当前时刻运行信息中的姿态角，s
target
表示目标姿态角。不管当前时刻运行信息中的姿态角还是目标姿态角都是同一维度(同一运动轨道)下目标卫星所对应的姿态角。
62.具体的，本技术的控制方法中，所述动作类别是根据上一时刻运行信息中的转速与当前时刻运行信息中的下一时刻转速的比较结果确定的。如果当前时刻运行信息中的当前时刻转速大于上一时刻运行信息中的转速，则说明是加速类别；如果当前时刻运行信息中的当前时刻转速小于上一时刻运行信息中的转速，则说明是减速类别。
63.上文中有提到了目标卫星每调整一次姿态角就会获取一次运行信息，并和上一时刻运行信息经过处理组成经验数据存储在强化学习网络的经验池中，因此，在强化学习网络的经验池中会有多个历史时刻对应的经验数据。经验池中的经验数据按照时间先后顺序存入那么新的样本会将时间上最久远的经验数据覆盖。而对采样来说，如果每次都取出最新序列的经验数据，那么强化学习网络就和在线学习相差不多，学习效果不好，如果是随机采样，也就是随机从历史的经验数据中获取用于强化学习试错的多个不同时刻的经验数据，每次学习过程中的经验数据通常来自多个交互序列，这样单一序列的波动就被减轻很多，训练效果也就更加稳定。同时，一份经验数据也可以被多次训练，提高了经验数据的利用率。具体的，本技术的控制方法还包括：
64.步骤108，从经验池中随机采样，得到多个历史经验数据；
65.步骤109，利用所述多个历史经验数据和损失函数，对强化学习网络中两个动作价值网络和演员网络进行参数调整。
66.在上述步骤108中，历史经验数据是历史时刻存储的经验数据，历史经验数据包括历史时刻的运行信息、历史时刻的上一时刻的运行信息、历史时刻的动作类别和历史时刻额奖励值。
67.在上述步骤109中，损失函数计算得到的结果用于对强化学习网络中的参数进行更新。具体的，首先会利用目标函数和历史经验数据，计算目标值。
68.y
target
＝r γ(1-d)(min(q
target，1
(s
′
，a
′
)，q
target，2
(s
′
，a
′
))-αlog(π
θ
(a
′
|s
′
)))
69.其中，y
target
是目标值，r是历史经验数据中的奖励值，γ表征的是历史经验数据中的奖励值对于后续的目标卫星的运行信息所对应的奖励值的影响程度，d是表征目标卫星在历史经验数据对应的历史时刻是否处于目标姿态角的标签，α是预设系数，s’是历史经验数据对应的历史时刻的运行信息，a’是历史经验数据对应的历史时刻的动作类别，π
θ
是参数为θ的演员网络，min(q
target，1
(s’，a’)，q
target，2
(s’，a’))是在s’和a’的情况下两个动作价值网络分别输出的q
tar get
中的最小值，q
tar get，1
(s’，a’)是强化学习网络中一个动作价值网络在s’和a’的情况下输出的值， q
tar get，2
(s’，a’)是强化学习网络中另一个动作价值网络在s’和a’的情况下输出的值。
70.在计算出目标值后，利用第一损失函数更新强化学习网络中的两个动作价值网络，第一损失函数如下：
71.l
φ
＝∑
(s，a，r，s
′
，d)∈d
(qi(s，a)-y
target
)272.其中，y
tar get
是目标值，r是奖励值，s是历史经验数据对应的历史时刻的上一时刻的运行信息，a是历史经验数据对应的历史时刻的上一时刻的动作类别，d是表征目标卫星在历史经验数据对应的历史时刻是否处于目标姿态角的标签，s’是历史经验数据对应的历史时刻的运行信息，qi(s，a)是第i个动作价值网络在历史时刻的上一时刻的运行信息和动作类别的情况下输出的值，其中，i∈(1,2)，是用于更新动作价值函数中参数的损失函数，d是经验池中的历史经验数据所组成的集合。
73.利用第二损失函数更新强化学习网络中的动作分布网络，第二损失函数如下：
74.l
θ
＝∑
s∈d
(min(q1(s，a
′
θ
)，q2(s，a
′
θ
))-αlog(π
θ
(a
′
θ
|s))) 其中，r是奖励值，s是历史经验数据对应的历史时刻的上一时刻的运行信息，α是预设系数，π
θ
是参数为θ的演员网络，a
′
θ
是参数为θ的演员网络在历史时刻的上一时刻的运行信息的情况下预测出的动作类别， min(q1(s，a
′
θ
)，q2(s，a
′
θ
))是在s和a
′
θ
的情况下两个动作价值网络分别输出结果中的最小值，d是经验池中的历史经验数据所组成的集合。
75.在本技术中的强化学习网络用了两个动作价值估计网络来进行预测，且这两个动作价值估计网络是不同的，利用两个不同的动作价值网络对同一组历史经验数据进行预测，可以得到两个不同的预测结果，最后从两个不同的预测结果中选一个较为准确的结果，进一步提高了强化学习网络预测的准确度。
76.一般强化学习网络是采用python语言编写的，具体用了python语言中的pytorch框架，而强化学习网络中参数更新的过程是采用了pytorch 框架中的优化器实现的，可选的优化器有很多，比如adam，sgd，rmsprop 等等。
77.本技术提供了一种卫星姿态的控制装置，如图3所示，包括：
78.获取模块301，用于获取目标卫星的上一时刻运行信息和目标姿态角；
79.计算模块302，用于将所述目标姿态角和上一时刻运行信息输入至实时调参的强化学习网络，计算得到所述目标卫星中动量轮在当前时刻的控制参数值；
80.调整模块303，用于根据计算得到的所述当前时刻的控制参数值，调整所述目标卫星的当前时刻姿态角，以使所述目标卫星向着所述目标姿态角运行；
81.可选的，所述控制装置还包括：
82.判断模块，用于获取所述目标卫星在所述动量轮调整控制参数值后的当前时刻运行信息，若所述当前时刻运行信息中的当前时刻姿态角非所述目标姿态角，则对所述强化学习网络中的参数进行调整；
83.循环模块，用于将当前时刻运行信息中的运行信息作为新的上一时刻运行信息，将调整参数后的强化学习网络作为新的强化学习网络，重新执行步骤将所述目标姿态角和新的上一时刻运行信息输入至新的强化学习网络，计算得到所述目标卫星的动量轮在新的当前时刻的控制参数值，步骤根据计算得到的所述新的当前时刻的控制参数值，调整所述目标卫星的当前时刻姿态角，以使所述目标卫星向着所述目标姿态角运行，以及获取所述目标卫星在所述动量轮调整控制参数值后的当前时刻运行信息，若所述当前时刻运行信息中的当前时刻姿态角非所述目标姿态角，则对所述强化学习网络中的参数进行调整，直至所述目标卫星的调整后的姿态角为目标姿态角。
84.可选的，所述当前时刻动量轮的控制参数值与所述上一时刻运行信息中动量轮的控制参数值之间的差值小于预设参数变化量。
85.可选的，所述控制装置还包括：
86.存储模块，用于将所述上一时刻运行信息、所述当前时刻运行信息、目标姿态角、动作类别和奖励值作为一组经验数据存储在所述实时调参的强化学习网络的经验池中。
87.可选的，所述控制装置包括：
88.采样模块，用于从经验池中随机采样，得到多个历史经验数据；
89.调整模块，用于利用所述多个历史经验数据和损失函数，对强化学习网络中两个动作价值网络和演员网络进行参数调整。
90.可选的，所述奖励值是通过如下步骤确定的：
91.确定模块，用于利用所述经验数据中的当前时刻运行信息的姿态角与所述目标姿态角的差异，确定奖励值。
92.可选的，所述动作类别是根据当前时刻运行信息中的转速与上一时刻运行信息中的上一时刻转速的比较结果确定的。
93.对应于图1中的卫星姿态的控制方法，本技术实施例还提供了一种计算机设备400，如图4所示，该设备包括存储器401、处理器402及存储在该存储器401上并可在该处理器402上运行的计算机程序，其中，上述处理器402执行上述计算机程序时实现上述卫星姿态的控制方法。
94.具体地，上述存储器401和处理器402能够为通用的存储器和处理器，这里不做具体限定，当处理器402运行存储器401存储的计算机程序时，能够执行上述卫星姿态的控制方法，解决了现有技术中无法准确对目标卫星进行姿态调整的问题。
95.对应于图1中的卫星姿态的控制方法，本技术实施例还提供了一种计算机可读存
储介质，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时执行上述卫星姿态的控制方法的步骤。
96.具体地，该存储介质能够为通用的存储介质，如移动磁盘、硬盘等，该存储介质上的计算机程序被运行时，能够执行上述卫星姿态的控制方法，解决了现有技术中无法准确对目标卫星进行姿态调整的问题，当目标卫星的形状、质量等参数可以随着时间的变化而变化时，本技术提供了一种可以实时调参的强化学习网络，在目标卫星的当前参数的情况下，利用强化学习网络学习出来的一种针对当前目标卫星的最优控制策略，以实现更快更准确的将目标卫星调整到目标姿态角。
97.在本技术所提供的实施例中，应该理解到，所揭露方法和装置，可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，又例如，多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。
98.所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
99.另外，在本技术提供的实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。
100.所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本技术各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：u盘、移动硬盘、只读存储器(rom，read-onlymemory)、随机存取存储器(ram，random access memory)、磁碟或者光盘等各种可以存储程序代码的介质。
101.应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释，此外，术语“第一”、“第二”、“第三”等仅用于区分描述，而不能理解为指示或暗示相对重要性。
102.最后应说明的是：以上所述实施例，仅为本技术的具体实施方式，用以说明本技术的技术方案，而非对其限制，本技术的保护范围并不局限于此，尽管参照前述实施例对本技术进行了详细的说明，本领域的普通技术人员应当理解：任何熟悉本技术领域的技术人员在本技术揭露的技术范围内，其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化，或者对其中部分技术特征进行等同替换；而这些修改、变化或者替换，并不使相应技术方案的本质脱离本技术实施例技术方案的精神和范围。都应涵盖在本技术的保护范围之内。因此，本技术的保护范围应所述以权利要求的保护范围为准。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：一种大型无人机航拍用摄像机多角度调节装置的制作方法

一种卫星姿态的控制方法、控制装置、计算机设备和介质

相关文献

最热文献