一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

基于输入输出信息的航空发动机多变量强化学习控制方法与流程

2021-10-09 00:01:00 来源:中国专利 TAG:控制 航空发动机 多变 输入输出 强化


1.本发明属于航空发动机控制领域,具体涉及一种基于输入输出信息的航空发动机多变量强化学习控制方法。


背景技术:

2.航空发动机具有高复杂度与强耦合性,加之愈发复杂的工作环境,对控制精度、调节时间、稳定性和耗油率等各方面性能要求都十分苛刻。而单输入单输出控制系统对多变量特征显著的航空发动机而言,调节能力有限,仅能使单个控制目标满足需求指标,无法处理复杂的耦合关联使多个目标同时达到指定要求。因此,多输入多输出(多变量)控制是必然选择,通过增加控制变量,可有效提升航空发动机整体运行效能。然而,传统多变量控制系统通常以错频策略将多个单变量控制器并联组合,不可避免地增加了控制设计的复杂度,且对于不确定问题适应与学习能力有限,难以保证大范围工况变化下的发动机稳态和动态性能。
3.强化学习作为机器学习的重要分支,因其强大的探索和自主学习能力备受关注。近来,结合具有强感知能力的深度学习,已演变成性能更优、功能更全面的深度强化学习方法,广泛应用于多智能体协作、机器人控制、导航、游戏对抗、城市交通等诸多领域。从控制角度,深度强化学习方法不依赖精确的控制模型,支持离散及连续的多维状态输入和动作输出,无需建立多个单变量控制器或进行复杂的多变量解耦设计,有效减小了控制设计难度,且对复杂不确定环境具有强适应学习能力。另外,面向控制精度和指标制定的奖励函数可在探索性与交互性的基础上,有效指导深度强化学习控制策略(神经网络)按预期收敛,大幅提高训练效率。然而,基于深度强化学习方法的航空发动机控制研究很少,且未见采用输入/输出信息的多变量控制设计。


技术实现要素:

4.针对现有技术的空缺,本发明提供一种基于输入输出信息的航空发动机多变量强化学习控制方法,包括选择基于输入/输出信息的发动机状态、构造多变量执行机构动作的输出变量、设计基于深度确定性策略梯度(简称ddpg)算法的深度神经网络、设置面向控制性能的奖励函数、设定深度神经网络收敛条件、根据经验回放集合中的经验更新深度神经网络、基于输入输出信息的航空发动机多变量强化学习控制仿真等关键技术,实现航空发动机低压转子转速和压比的高水平控制。
5.本发明提出的一种基于输入输出信息的航空发动机多变量强化学习控制方法,包括:
6.步骤1:选择基于输入/输出信息的发动机多变量状态;
7.步骤2:构造多变量执行机构动作的输出变量;
8.步骤3:设计基于深度确定性策略梯度算法的深度神经网络;
9.步骤4:设置面向控制性能的奖励函数;
10.步骤5:设定深度神经网络收敛条件;
11.步骤6:根据经验回放集合中的经验更新深度神经网络;
12.步骤7:利用深度神经网络对航空发动机进行控制。
13.所述步骤1中发动机多变量状态,在t时刻表示为s
t
,具体为:t

1时刻的燃油流量、喷口喉道面积以及t时刻的低压转子转速、压比、低压转子转速差、压比差,其中,低压转子转速差为期望转速与实际转速的差值,压比差为期望压比与实际压比的差值。
14.所述步骤2中多变量执行机构动作的输出变量,包括燃油流量与喷口喉道面积;其中,燃油流量的范围为0.2kg/s~0.6kg/s,喷口喉道面积的范围为0.2m2~0.6m2,通过上一时刻执行机构输出燃油流量与当前燃油流量变化量求和得到当前执行机构输出燃油流量,上一时刻执行机构输出喷口喉道面积与当前喷口喉道面积变化量求和得到当前执行机构输出喷口喉道面积。
15.所述步骤3中基于深度确定性策略梯度算法的深度神经网络,包括:actor估计网络、critic估计网络、actor目标网络和critic目标网络共四个深度神经网络。
16.所述步骤4中面向控制性能的奖励函数为:
17.r_nl
e


|nl
e
| 10
18.r_π
e



e
| 100
19.r=r_nl
e
r_π
e
20.式中,nl
e
为航空发动机低压转子转速误差,r_nl
e
为低压转子转速误差对应的奖励值,π
e
为压比误差,r_π
e
为压比误差对应的奖励值,r为总奖励。
21.所述步骤5中深度神经网络收敛条件为单轮仿真累计奖励达到最大值,累计奖励计算方法为单轮仿真交互次数乘以每次交互所得奖励值。
22.所述步骤6包括:
23.步骤6.1:actor估计网络接收t时刻的发动机状态s
t
,输出t时刻动作参数a
t
,使发动机进入到下一时刻状态s
t 1
,得到奖励r;
24.步骤6.2:critic估计网络计算并输出状态参数s
t
和动作参数a
t
的评价q值,即q(s
t
,a
t
);
25.步骤6.3:储存交互经验{s
t
,a
t
,s
t 1
,r}至经验回放集合;
26.步骤6.4:actor目标网络将发动机t 1时刻状态s
t 1
作为输入,输出执行机构在t 1时刻的动作参数a
t 1

27.步骤6.5:critic目标网络计算并输出状态参数s
t 1
和动作参数a
t 1
的评价q值,即q(s
t 1
,a
t 1
);
28.步骤6.6:判断经验回放集合中所存经验个数是否为最大值,若不为最大值,重复执行步骤6.1至6.5;若为最大值,则从经验回放集合中随机采样q条经验用于深度神经网络的更新。
29.所述步骤6.6中深度神经网络更新时,设置估计网络更新方式为梯度下降反向传播误差,目标网络更新方式为软更新。
30.本发明的有益技术效果:
31.本发明提出一种基于输入输出信息的航空发动机多变量强化学习控制方法,减小了传统多变量控制设计的复杂度,解决了对复杂大不确定环境的适应性难题,弥补了综合
发动机输入/输出信息的多变量深度强化学习控制这一技术空白。所述的一种基于输入输出信息的航空发动机多变量强化学习控制方法具有自主探索、自我更新能力,且控制效果可通过迭代交互逐步提升,设计发动机状态参数与执行机构动作参数的合理对应关系,加之面向控制性能的奖励函数,有效提高了网络收敛速度。在稳态和动态情况下,本发明提出的控制方法均实现了燃油流量和喷口喉道面积的迅速调节,获得了低压转子转速和压比的强稳定、高精度控制水平。
附图说明
32.图1为本发明实施例提供的基于输入输出信息的航空发动机多变量强化学习控制方法控制原理图;
33.图2为本发明实施例提供的基于输入输出信息的航空发动机多变量强化学习控制方法流程图;
34.图3为本发明实施例提供的actor估计网络和actor目标网络结构图;
35.图4为本发明实施例提供的critic估计网络和critic目标网络结构图;
36.图5为本发明实施例提供的ddpg深度强化学习神经网络更新原理图;
37.图6为本发明实施例提供的一种基于输入输出信息的航空发动机多变量强化学习控制作用下低压转转子速转速响应图;
38.图7为本发明实施例提供的一种基于输入输出信息的航空发动机多变量强化学习控制作用下压比响应图;
39.图8为本发明实施例提供的一种基于输入输出信息的航空发动机多变量强化学习控制作用下燃油流量响应图;
40.图9为本发明实施例提供的一种基于输入输出信息的航空发动机多变量强化学习控制作用下喷口喉道面积响应图。
具体实施方式
41.为填补现有技术空缺,综合输入/输出信息,本发明采用深度强化学习方法以增量输出形式构建航空发动机低压转子转速与压比多变量控制器,通过控制器自主交互、主动探索来积累控制经验,进而优化和完善控制策略,提升稳态和动态性能,实现对燃油流量和喷口喉道面积的迅速调节,达成发动机的高性能控制。
42.下面结合附图来对本发明的技术方案进行详细说明:图1给出了本发明控制方法的原理图,通过低压转子转速与发动机压比插值函数,拟合低压转子转速与发动机压比的非线性关系,根据低压转子转速指令通过该函数得到发动机压比控制指令。ddpg深度强化学习控制器,包括发动机多变量状态参数输入、奖励函数输入、记忆模块、actor估计网络、critic估计网络、actor目标网络和critic目标网络四个深度神经网络、经验回放集合。所述状态参数均进行了归一化处理,奖励函数根据控制性能设计,记忆模块暂存控制器作用下的燃油流量和喷口喉道面积,两个actor网络结构和初始参数相同,两个critic网络结构和初始参数也相同,actor估计网络与环境交互,critic估计网络评估actor估计网络输出动作的优劣并指导其更新,actor目标网络与critic目标网络依次计算critic估计网络更新所需的动作和价值,两个估计网络按梯度下降法更新网络参数,两个目标网络以软更新
方式更新网络参数,经验回放集合缓存actor估计网络与环境的交互经验。
43.基于此,本发明提出的一种基于输入输出信息的航空发动机多变量强化学习控制方法,如图2所示,包括:
44.步骤1:选择基于输入/输出信息的发动机多变量状态;所述发动机多变量状态,在t时刻表示为s
t
,具体为:t

1时刻的燃油流量、喷口喉道面积(即航空发动机的输入信息)以及t时刻的低压转子转速、压比、低压转子转速差、压比差(即航空发动机的输出信息),其中,低压转子转速差为期望转速与实际转速的差值,压比差为期望压比与实际压比的差值;
45.步骤2:构造多变量执行机构动作的输出变量;所述多变量执行机构动作的输出变量,包括燃油流量与喷口喉道面积;其中,燃油流量的范围为0.2kg/s~0.6kg/s,喷口喉道面积的范围为0.2m2~0.6m2,通过上一时刻执行机构输出燃油流量与当前燃油流量变化量求和得到当前执行机构输出燃油流量,上一时刻执行机构输出喷口喉道面积与当前喷口喉道面积变化量求和得到当前执行机构输出喷口喉道面积,其中,燃油流量变化量与喷口喉道面积变化量由actor估计网络计算得到,燃油流量变化量的范围为

0.005kg/s~0.005kg/s,喷口喉道面积变化量的范围为

0.005m2~0.005m2。
46.具体输出动作a为:
[0047][0048]
式中,ω
ai
,i=1,2,3,4为权重矩阵,b
ai
,i=1,2,3,4为偏置向量,为tanh激活函数,具体为:
[0049][0050]
步骤3:设计基于深度确定性策略梯度(简称ddpg)算法的深度神经网络;包括:actor估计网络、critic估计网络、actor目标网络和critic目标网络共四个深度神经网络,actor表示执行者,critic表示评价者;其中,两个actor网络结构和初始参数相同,两个critic网络结构和初始参数也相同,actor估计网络用于与环境交互并产生交互经验;critic估计网络在t时刻时用于评估actor估计网络在状态s
t
下输出动作a
t
的价值,指导actor估计网络更新;经验回放集合可存储交互经验数量为6500;actor目标网络以经验集合里单次交互经验{s
t
,a
t
,s
t 1
,r}中的s
t 1
为输入,计算得到a
t 1
作为critic目标网络输入动作参数;critic目标网络以a
t 1
与经验集合{s
t
,a
t
,s
t 1
,r}中的s
t 1
为输入,评估actor目标网络在状态s
t 1
下输出动作a
t 1
的价值,指导critic估计网络更新。图3为本发明实施例提供的actor估计网络和actor目标网络结构图,状态输入层节点个数为6,3层隐层的节点个数均为40,动作输出层节点个数为2,相邻网络层采用全连接方式,激活函数为tanh函数。critic估计网络和critic目标网络结构如图4所示,动作输入层节点个数为2,状态输入层节点个数为6,隐层节点个数均为50,价值输出层节点个数为1,相邻网络层采用全连接方式,激活函数为relu函数。
[0051]
步骤4:设置面向控制性能的奖励函数,即根据低压转子转速误差和压比误差进行奖励函数设置,整体遵循低压转子转速误差绝对值、压比误差绝对值越小奖励值越大的原则,设置面向控制性能的奖励函数为:
[0052]
r_nl
e


|nl
e
| 10
[0053]
r_π
e



e
| 100
[0054]
r=r_nl
e
r_π
e
[0055]
式中,nl
e
为航空发动机低压转子转速误差,r_nl
e
为低压转子转速误差对应的奖励值,π
e
为压比误差,r_π
e
为压比误差对应的奖励值,r为总奖励。
[0056]
步骤5:设定深度神经网络收敛条件;深度神经网络收敛条件为单轮仿真累计奖励达到最大值,累计奖励计算方法为单轮仿真交互次数乘以每次交互所得奖励值,设置网络单次交互最大奖励值为110,单轮仿真时间为300s,采样间隔0.1s,据此可得单轮仿真交互次数为3000,单轮最大累计奖励为:
[0057][0058]
式中,r
i
_nl
e
为第i次交互低压转子转速误差对应的奖励值,r
i

e
为第i次交互压比误差对应的奖励值,r
i
为第i次交互的总奖励值;
[0059]
步骤6:根据经验回放集合中的经验更新深度神经网络;包括:
[0060]
步骤6.1:actor估计网络接收t时刻的发动机状态s
t
,输出t时刻动作参数a
t
,使发动机进入到下一时刻状态s
t 1
,得到奖励r;
[0061]
步骤6.2:critic估计网络计算并输出actor估计网络在发动机t时刻的状态参数s
t
和动作参数a
t
的评价q值,即q(s
t
,a
t
),具体表示为:
[0062]
q(s
t
,s
t
)=φ(ω
c6
φ(ω
c5
(φ(ω
c1
a
t

b
c1
) φ(ω
c4
φ(ω
c3
φ(ω
c2
s
t

b
c2
)

b
c3
)

b
c4
))

b
c5
)

b
c6
)
[0063]
式中,ω
ci
,i=1,2,3,4,5,6为权重矩阵,b
ci
,i=1,2,3,4,5,6为偏置向量,φ(
·
)为relu激活函数,具体为:
[0064]
φ(x)=max(0,x)
[0065]
步骤6.3:储存交互经验{s
t
,a
t
,s
t 1
,r}至经验回放集合,经验回放集合最大存储经验个数为6500;
[0066]
步骤6.4:actor目标网络将发动机t 1时刻状态s
t 1
作为输入,输出执行机构在t 1时刻的动作参数a
t 1

[0067]
步骤6.5:critic目标网络计算并输出actor目标网络在发动机t 1时刻的状态参数s
t 1
和动作参数a
t 1
的评价q值,即q(s
t 1
,a
t 1
);
[0068]
步骤6.6:判断经验回放集合中所存经验个数是否为最大值,若不为最大值,重复执行步骤6.1至6.5;若为最大值,则从经验回放集合中随机采样q条经验用于深度神经网络的更新,深度神经网络更新时,设置估计网络更新方式为梯度下降反向传播误差,目标网络更新方式为软更新。
[0069]
设置采样个数q为256,critic估计网络和actor估计网络以梯度下降法更新网络参数,具体的critic估计网络反向传播误差为:
[0070][0071]
actor估计网络反向传播误差为:
[0072][0073]
critic估计网络和actor估计网络的更新公式为:
[0074][0075][0076]
式中,θ
c
为critic估计网络参数,具体包括权重矩阵ω
ci
,i=1,2,3,4,5,6和偏置向量b
ci
,i=1,2,3,4,5,6,α
c
为critic估计网络更新步长,取值0.001,θ
a
为actor估计网络参数,具体包括权重矩阵ω
ai
,i=1,2,3,4和偏置向量b
ai
,i=1,2,3,4,α
a
为actor估计网络更新步长,取值0.001。
[0077]
critic目标网络和actor目标网络以软更新的方式更新权重与偏置,即每次只以较小幅度更新网络参数,critic目标网络和actor目标网络更新公式为:
[0078]
θ

c
=τθ
c

(1

τ)θ

c
[0079]
θ

a
=τθ
a

(1

τ)θ

a
[0080]
式中,θ

c
为critic目标网络参数,θ

a
为actor目标网络参数,τ为软更新系数,取值0.001。直至单轮奖励达到最大,神经网络停止更新。ddpg深度强化学习神经网络更新流程如图5所示。
[0081]
步骤7:利用深度神经网络对航空发动机进行控制。为了验证本发明技术方案的有效性,进行仿真实验验证,具体仿真条件设置如下:低压转子转速初始8000rpm在仿真时间第150s时调整到8200rpm,压比初始2.113在仿真时间第150s时调整到2.228,仿真结果分别如图6、图7、图8、图9所示。图6为基于输入输出信息的航空发动机多变量深度强化学习控制低压转子转速仿真结果,前150s转速稳态误差0.075%,后150s转速稳态误差为0.037%,运行状态发生变化时调节时间为2.8s,超调量为0.28%。图7为压比仿真结果,前150s压比稳态误差0.14%,后150s压比稳态误差为0.31%,运行状态发生变化时调节时间为2.5s,超调量为2.24%。图8为燃油流量仿真结果,图9为喷口喉道面积仿真结果。由仿真结果可见,本发明提出的控制方法实现了燃油输出与喷口喉道面积的快速调节,达到了对低压转子转速和压比快速、准确、稳定的高水平控制。由仿真结果可见,本发明提出的基于输入输出信息的航空发动机多变量深度强化学习控制,实现了在较小燃油输出下对低压转子转速与压比的高性能稳态控制,进一步验证了控制设计的合理性与有效性。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献

  • 日榜
  • 周榜
  • 月榜