一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

基于代理模型虚实迁移的有机朗肯循环强化学习控制方法

2022-11-13 13:12:57 来源:中国专利 TAG:


1.本发明属于工业过程控制领域,尤其是涉及一种基于代理模型虚实迁移的有机朗肯循环强化学习控制方法。


背景技术:

2.有机朗肯循环(organic rankine cycle,orc)被认为是一种有效的低温余热回收技术,可采用不同的低沸点有机物作为工质,对不同范围的低温余热进行回收利用,且其结构简单,热回收效率高,已成为低温余热回收技术中的研究热点。此外,有机朗肯循环还被广泛用于地热能发电,太阳能发电,生物质能发电。
3.如公开号为cn105626175a的中国专利文献公开了一种有机朗肯循环发电系统,包括循环发电主回路和膨胀机膨胀气体调节回路;循环发电主回路中,高压蒸发器的工质出口连接至膨胀机的主气进口,膨胀机的排气口连接至冷凝器的入口,冷凝器的出口连接至高压工质泵的入口,高压工质泵的出口连接至高压蒸发器的工质入口,膨胀机的输出端连接发电机;膨胀机膨胀气体调节回路中,低压工质泵的入口连接至冷凝器的出口,低压工质泵的出口连接至低压蒸发器的工质入口,低压蒸发器的工质出口连接至膨胀机的膨胀气体调节口,膨胀机的膨胀气体调节口连接至回热器的第一换热管路入口,回热器的第一换热管路出口冷凝器的入口。
4.orc是一个多变量耦合的时变非线性系统,由于余热工况的波动容易导致系统状态偏离设定值,甚至违反约束条件,循环运行过程中需要采用控制器来保证orc的正常工作,满足约束限制。良好的控制系统设计不仅能确保orc系统在余热工况变化下稳定可靠运行,延长系统部件的使用寿命,还能提高余热的回收利用率,实现余热资源的最大化利用。因此,控制系统是基于orc的低温余热回收系统中的一个重要组成部分,实现可靠且高性能的控制系统设计对orc技术的推广应用有着至关重要的作用。
5.深度强化学习(drl)是当下非常热门的技术,无论是在学术界还是工业界,关于drl的研究层出不穷。然后,drl要想真正被应用到实际生产中,为企业和社会创造价值,如今仍然面临着很大的挑战。首先,强化学习实现落地还停留在可以无限试错的游戏领域,对于实际的工业过程和无人驾驶领域,训练过程中容易出现安全问题,试错成本过高,因此无法在实物上直接训练。其次强化学习的探索效率低,往往采集到的大量经验都是无用的,导致训练时间过长甚至无法收敛。并且,强化学习的泛化性能差,往往训练好的智能体只能在同一环境下做出正确决策,环境的轻微改变就可能大大降低智能体的决策性能。
6.在有机朗肯循环系统的控制领域中,目前还没有任何基于代理模型和强化学习进行虚实迁移训练控制器的方法的研究工作。


技术实现要素:

7.本发明提供了一种基于代理模型虚实迁移的有机朗肯循环强化学习控制方法,对于响应速度慢,无法直接在实物上进行强化学习训练的有机朗肯循环系统,可以通过代理
模型预训练的方法,在保障了实际系统的安全的前提下,极大提升了训练效率,快速获得具有优秀控制效果的强化学习控制器。
8.一种基于代理模型虚实迁移的有机朗肯循环强化学习控制方法,包括:
9.(1)在余热工况存在扰动的情况下,每隔一段时间改变有机朗肯循环系统的设定值,采集历史积累的闭环运行数据;
10.(2)利用采集得到的闭环运行数据训练基于神经网络预测的系统动力学模型,将其作为有机朗肯循环系统的代理模型,验证在闭环控制下代理模型与实际系统的准确性和一致性;若代理模型符合要求则执行步骤(3),否则重复步骤(2);
11.(3)利用代理模型构建强化学习预训练的虚拟仿真环境,在一个强化学习episode内设置多个设定值并加入时变的余热扰动,训练强化学习智能体以控制代理模型;若训练效果达到预设条件则执行步骤(4),否则重复步骤(3);
12.(4)将在虚拟仿真环境中预训练的强化学习智能体的结构和参数迁移到实际有机朗肯循环控制系统,并进行微调和继续训练,直至在实际系统上达到理想的控制效果;
13.(5)将训练好的强化学习智能体用于实际有机朗肯循环系统的过程控制。
14.进一步地,步骤(1)中,采集历史积累的闭环运行数据具体为:
15.在多种运行工况下采集若干条随时间变化的系统状态量,包括:蒸发器出口压力pe、蒸发器出口温度t
oe
、工质的质量流量m
ai
、冷凝流体温度t
ai
、工质泵转速u、过热值sh、跟踪误差sh-sh
set
和控制信号m;采集得到的系统状态序列将作为训练基于神经网络预测的系统动力学模型的输入输出数据。
16.步骤(2)的具体过程为:
17.(2-1)将t时刻的七个状态量pe,t
oe
,m
ai
,t
ai
,u,sh,sh-sh
set
和控制信号m输入神经网络预测模型,将t 1时刻的状态量作为标签进行训练,得到系统动力学模型,将其作为有机朗肯循环系统的代理模型;
18.所述神经网络预测模型的结构为:第一层为lstm,神经元个数为80,加入一个dropout层防止过拟合,再加入一层lstm,神经元个数为100,再加入一个dropout层防止过拟合。
19.(2-2)在闭环控制下,给训练后的代理模型与实际系统设置相同的初态和控制器参数,通过比较两者的控制效果验证预测模型的准确性和一致性,如果模型预测效果未达到预期,则重复步骤(2-1)。
20.优选地,步骤(3)中,使用ppo算法训练强化学习智能体以控制代理模型。
21.步骤(3)的具体过程为:
22.(3-1)根据实际有机朗肯循环系统历史数据中状态变化的范围,设置强化学习状态的上下限和强化学习训练episode的终止条件;
23.(3-2)将强化学习智能体的动作作为控制信号m,并根据实际有机朗肯循环控制系统中控制信号的范围设置动作空间;
24.(3-3)在一个强化学习的episode内,每隔一段时间随机改变一次代理模型控制系统的设定值,并加入时变的余热扰动,以增加迁移后的泛化性能;根据误差信号sh-sh
set
设置离散和连续的奖励,不断训练和调参,直至强化学习智能体能采取准确的动作快速减小误差,达到理想的控制效果。
25.根据误差信号sh-sh
set
设置离散和连续的奖励具体为:
26.设置离散部分奖励为:当sh-sh
set
的绝对值小于1时给予正奖励,其余为负奖励,误差区间越小奖励越大;连续部分奖励为reward=-5*(sh-sh
set
)
2-0.5(u
t-u
t-1
)。
27.步骤(4)具体包括:
28.将代理模型构建的虚拟仿真环境下预训练得到的强化学习智能体迁移到实际有机朗肯循环的控制系统,根据在实际系统和虚拟仿真环境中的控制效果的偏差继续调整强化学习奖励、算法参数、episode终止条件的参数设置,在实物上继续训练,直至强化学习智能体在实际有机朗肯循环控制系统中能实现同样的设定值跟踪性能。
29.与现有技术相比,本发明具有以下有益效果:
30.(1)本发明利用实际有机朗肯循环系统产生的数据进行建模,得到的代理模型可以根据上一时刻的状态和控制信号快速预测出下一时刻的状态,有效解决了实际系统响应慢,计算耗时的问题。
31.(2)本发明在代理模型上进行预训练,不用与实际环境进行交互,保障了安全性,同时极大提升了训练速度。
32.(3)本发明的代理模型通过训练基于神经网络预测的系统动力学模型得到,可以在强化学习训练过程中预测出历史数据中未出现的状态,解决提升强化学习智能体在多模态控制情形下的泛化性能。
33.(4)本发明使用ppo算法训练代理模型和实际orc系统,减少了超参数的调试频次,有效提升了训练成功率,加速了模型收敛。
34.(5)本发明提出的方法可以轻松扩展到任何工业控制系统,为促进强化学习在工业生产领域的落地提供一种新的思路。
附图说明
35.图1为本发明基于代理模型虚实迁移的有机朗肯循环强化学习控制方法流程图;
36.图2为本发明实施例中有机朗肯循环系统的结构图;
37.图3为本发明实施例中神经网络预测模型的结构图;
38.图4为本发明实施例中神经网络预测模型的预测效果图;
39.图5为本发明实施例中强化学习智能体迁移到实际系统上的控制效果图。
具体实施方式
40.下面结合附图和实施例对本发明做进一步详细描述,需要指出的是,以下所述实施例旨在便于对本发明的理解,而对其不起任何限定作用。
41.如图1所示,一种基于代理模型虚实迁移的有机朗肯循环强化学习控制方法,该有机朗肯循环系统的结构如图2所示,主要由蒸发器1、膨胀机2、冷凝器3、储液罐4和加压泵5五个部件组成。
42.具体控制过程包括如下步骤:
43.s01,采集实际系统中的数据:对有机朗肯循环的闭环控制系统在13.44kg/s的余热扰动工况下加入高斯白噪声,每隔100秒随机改变一次设定值,采集5000条运行数据;分别为蒸发器出口压力pe,蒸发器出口温度t
oe
,工质的质量流量mai,冷凝流体温度t
ai
,工质泵
转速u,过热值sh,跟踪误差sh-sh
set
和控制信号m。
44.s02,训练神经网络预测模型:将5000条运行数据划分4000条作为训练集,1000条作为测试集。构建神经网络预测模型,第一层为lstm,神经元个数为80,加入dropout层防止过拟合,再加入一层lstm,神经元个数为100,再加入dropout层防止过拟合,其结构如图3所示。将t时刻的pe,t
oe
,m
ai
,t
ai
,u,sh,sh-sh
set
和控制信号m的作为输入输入神经网络,将t 1时刻的pe,t
oe
,m
ai
,t
ai
,u,sh,sh-sh
set
作为标签进行训练。
45.在训练1000次后绘制用测试集进行测试,绘制预测结果与实际状态值的对比图,如图4所示,计算均方误差。在闭环控制下,给实际系统和预测模型设置同样的pi参数和设定值,输入同一初始状态,待两者响应200秒后绘制过热值随时间的变化曲线,验证模型的准确性。
46.s03,将较为精准的神经预测模型作为有机朗肯循环系统的代理模型,利用python中gym模块构建强化学习环境,设置状态空间上限为[2500,500,20,600,30.0,30.0,15],下限为[1800,200,0.0,0.0,10,10,-15],动作空间为[10~30]。将过热值设定为sh
set
=24作为控制目标,当sh<10或sh>30时done=true;设置离散部分奖励为:当sh-sh
set
的绝对值小于1时给予正奖励,其余为负奖励,误差区间越小奖励越大;连续部分奖励为reward=-5*(sh-sh
set
)
2-0.5(u
t-u
t-1
),利用ppo算法训练强化学习智能体控制代理模型使过热值快速达到设定要求,减小误差。
[0047]
s04,将在代理模型上达到理想控制效果的强化学习智能体迁移到实际的有机朗肯循环控制系统中,将过热值同样设定为sh
set
=24,直接控制实际的有机朗肯循环系统。
[0048]
控制效果如图5所示,根据在代理模型和实物上控制效果的偏差调整奖励设置,继续用ppo算法进行训练调参,经过少量episode训练后强化学习智能体能够在实际有机朗肯循环系统快速消除误差,使过热值达到设定要求。
[0049]
以上所述的实施例对本发明的技术方案和有益效果进行了详细说明,应理解的是以上所述仅为本发明的具体实施例,并不用于限制本发明,凡在本发明的原则范围内所做的任何修改、补充和等同替换,均应包含在本发明的保护范围之内。
再多了解一些

本文用于创业者技术爱好者查询,仅供学习研究,如用于商业用途,请联系技术所有人。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献