一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种基于强化学习的换热过程重要参数控制方法

2022-07-13 22:08:19 来源:中国专利 TAG:


1.本发明涉及能源利用技术领域,特别是涉及一种基于强化学习的换热过程重要参数控制方法。


背景技术:

2.目前,换热过程广泛存在于能源、化工、动力等工业中,是工业生产中一个十分重要的环节。
3.换热过程对整个系统的稳态和动态性能,都有至关重要的影响作用,因此,为保证系统安全和高效地运行,需要对换热器内的某些重要参数,如流体的温度和压力进行有效的控制。然而,由于实际换热过程中的边界条件经常发生变化,特别是一些剧烈频繁的变化,例如用于回收车用内燃机烟气余热的换热器就存在烟气波动频繁剧烈的情况,这就给参数的控制带来了很大的挑战。
4.传统的pid控制(即比例积分微分控制)在面对这种剧烈波动的边界条件时,往往不能表现出令人满意的控制效果,存在控制精度较差的问题。
5.因此,目前急需开发一种技术,能够对换热器在换热过程中的重要参数进行精确可靠的控制,提高在剧烈频繁波动的边界条件下的换热过程参数控制精度。


技术实现要素:

6.本发明的目的是针对现有技术存在的技术缺陷,提供一种基于强化学习的换热过程重要参数控制方法。
7.为此,本发明提供了一种基于强化学习的换热过程重要参数控制方法,包括以下步骤:
8.第一步,使用强化学习的算法框架,将换热过程参数的控制器作为强化学习的智能体,智能体输出的动作即控制变量;
9.第二步,以换热器边界条件控制信号或者直接影响换热器边界条件的执行器控制信号作为智能体输出的动作,以换热过程的重要状态参数作为智能体的观察量,以越接近控制目标即时奖励越大构建奖励函数,通过强化学习算法的不断训练,使得智能体的输出动作朝着奖励函数最大的方向收敛,最终得到一个能够精确控制换热过程重要状态参数变化的智能体。
10.优选地,在第二步中,当换热器是蒸发器时,智能体输出的动作如果采用蒸发器的边界条件控制信号,则为蒸发器冷流体的入口流量;如果采用直接影响边界条件的执行器控制信号,则为泵的转速信号。
11.优选地,在第二步中,换热过程的重要状态参数,作为智能体的观察量,具体包括冷流体和热流体的温度和压力,以及冷流体和热流体的温度和压力的变化率,以及冷流体和热流体的流量以及被控的换热过程的重要状态参数的控制误差。
12.优选地,在第二步中,控制目标,具体为:换热过程的重要状态参数的目标值;
13.当换热器是蒸发器时,则是蒸发器冷流体出口的过热度目标值。
14.优选地,在第二步中,预先构建的奖励函数,是由被控换热器参数的实际值和控制参考值之间直接相减获得的误差所构成的函数;
15.误差越小,奖励函数的值越大;
16.被控换热器参数,即是所述换热过程的重要状态参数。
17.优选地,当被控的换热过程的重要状态参数是蒸发器出口工质过热度时,预先构建的奖励函数如下所述:
[0018][0019]
在公式(1)中,e代表过热度和目标值的误差,a代表动作,sup代表过热度,下标t代表时间。
[0020]
由以上本发明提供的技术方案可见,与现有技术相比较,本发明提供了一种基于强化学习的换热过程重要参数控制方法,其设计科学,解决了换热过程在瞬态波动的条件下参数控制精度差的问题,本发明能够对换热器在换热过程中的重要参数进行精确可靠的控制,提高在剧烈频繁波动的边界条件下的换热过程参数控制精度,具有重大的实践意义。
附图说明
[0021]
图1为本发明提供的一种基于强化学习的换热过程重要参数控制方法的流程图;
[0022]
图2a为本发明提供的一种基于强化学习的换热过程重要参数控制方法,在实施例中采用的第一种控制结构的原理示意图,即以边界条件控制信号(换热器边界条件控制信号)作为智能体动作的控制原理图;
[0023]
图2b为本发明提供的一种基于强化学习的换热过程重要参数控制方法,在实施例中采用的第二种控制结构的原理示意图,即以执行器控制信号(直接影响换热器边界条件的执行器信号)作为智能体动作的控制原理图
[0024]
图3为本发明采用附图2a的控制结构,在训练后的智能体在波动的热源下控制效果示意图;
[0025]
图4为ddpg算法框架的示意图。
具体实施方式
[0026]
为了使本技术领域的人员更好地理解本发明方案,下面结合附图和实施方式对本发明作进一步的详细说明。
[0027]
参见图1至图4,本发明提供了一种基于强化学习的换热过程重要参数控制方法,包括以下步骤:
[0028]
第一步,使用强化学习的算法框架,将换热过程参数的控制器(当换热器是朗肯循环中的蒸发器时,则是蒸发器的冷流体温度控制器)作为强化学习的智能体,智能体输出的动作(即智能体的动作)即控制变量;
[0029]
需要说明的是,当换热过程参数的控制器是朗肯循环中的蒸发器时(即以朗肯循环中蒸发器的冷流体出口过热度的控制为例时),本发明提供的基于强化学习的换热过程
重要参数控制方法,即是基于强化学习的过热度控制方法。
[0030]
第二步,以换热器(例如蒸发器)边界条件控制信号(如冷热流体的流量的控制信号)或者直接影响换热器边界条件的执行器控制信号(如泵的转速控制信号)作为智能体输出的动作,以换热过程的重要状态参数作为智能体的观察量,以越接近控制目标即时奖励越大构建奖励函数,通过强化学习算法的不断训练,使得智能体的输出动作朝着奖励函数最大的方向收敛,最终得到一个能够精确控制换热过程重要状态参数变化的智能体,或者可称为智能控制器。
[0031]
在第二步中,具体实现上,控制目标,具体可以为:换热过程的重要状态参数的目标值;当换热器是朗肯循环中的蒸发器时,则是蒸发器冷流体出口的过热度目标值。
[0032]
需要说明的是,对于本发明,本发明的控制方法使用强化学习的算法框架,即将强化学习的智能体作为换热过程参数(例如蒸发器的冷流体过热度)的控制器,其输出的动作即控制变量,智能体通过观察环境状态(即以换热过程的重要状态参数作为观察量,例如以冷流体的重要状态参数作为观察量)并输出动作,然后根据构建的奖励函数,得到即时奖励,以此与环境(即换热过程)不断交互,并不断向着奖励大的方向收敛,最终训练得到一个可精确控制参数的智能体,或者可称为智能控制器。
[0033]
对于本发明,通过强化学习算法,不断地学习最优控制策略。鉴于强化学习算法,特别是深度强化学习算法在其他领域已被证实的强大优化决策能力,该控制方法会在换热过程的参数控制上取得超过传统控制方法的效果。
[0034]
在第二步中,具体实现上,当换热器是朗肯循环中的蒸发器时,智能体输出的动作(即控制变量)如果采用蒸发器的边界条件控制信号,则为蒸发器冷流体的入口流量,控制结构如图2a;如果采用直接影响边界条件的执行器(例如工质泵)控制信号,则为泵的转速信号,控制结构如图2b。
[0035]
在本发明中,具体实现上,需要控制的换热过程重要参数,具体包括热流体或冷流体的温度,压力等参数,例如可以是蒸发器的冷流体的出口过热度。
[0036]
具体实现上,换热器的边界条件,是冷热流体的进出口流量,和进口温度。例如,边界条件可以是蒸发器中冷流体(工质)和热流体(热源)的进口温度和流量,以及出口流量,是换热过程所必须的参数。
[0037]
需要说明的是,冷流体入口流量是在蒸发器冷流体入口处的流量,冷流体出口流量是指在蒸发器冷流体出口处的流量。热流体(即热源)的流量,是在蒸发器热流体入口处的流量,热流体出口流量是指在蒸发器热流体出口处的流量。
[0038]
在本发明中,如图2b所示,具体实施例中,当换热器是蒸发器时,直接影响边界条件的执行器只有工质泵,工质泵的作用是改变冷流体流量这一边界条件。
[0039]
需要说明的是,在第二步中,智能体的输出动作,是可以改变被控参数的换热器边界条件的控制信号(换热器边界条件控制信号),或者直接影响换热器边界条件的执行器信号。如调整冷热流体的流量(反映在执行器上就是改变相应流体泵转速),可以改变换热后的流体温度。
[0040]
需要说明的是,在本发明中,换热器边界条件控制信号,就是其变化信号,比如边界条件流量的变化信号。而控制这些边界条件需要用到相应的执行器,比如流量控制需要用执行器泵,所以需要给泵控制信号,来调整泵的转速,从而达到控制边界条件流量的目
的。
[0041]
在本发明中,换热器边界条件控制信号和直接影响换热器边界条件的执行器控制信号,它们的作用是影响换热过程参数。例如,参见图2a、图2b所示,当换热器是蒸发器时,控制的边界条件是冷流体流量,而控制边界条件需要通过控制泵转速来达到,所以工质泵转速的控制信号直接影响边界条件冷流体流量。
[0042]
在本发明中,换热器边界条件控制信号,是智能体提供,即是换热过程参数的控制器(当换热器是朗肯循环中的蒸发器时,则是蒸发器的冷流体温度控制器)提供。可以通过数字信号传输,第一类控制结构将换热器边界条件控制信号传输给pid控制器,第二类将直接影响换热器边界条件的执行器控制信号传输给泵(例如工质泵)。
[0043]
在第二步中,具体实现上,如果智能体输出动作是换热器边界条件控制信号,而不是直接影响边界条件的执行器控制信号,那么,还包括一个控制执行器,用于跟踪智能体输出的动作;
[0044]
控制执行器,例如可以采用pid控制器(比例-积分-微分控制器)。
[0045]
需要说明的是,在本发明中,当换热器是蒸发器时,智能体输出的边界条件(即输出动作)即流量控制信号,需要通过改变泵的转速来实现流量的改变,因此把这个信号作为泵的跟踪信号,从而通过调整泵转速跟踪这个流量。泵的流量就是蒸发器进口的工质流量。pid控制器(比例-积分-微分控制器)具有跟踪参考信号的功能,即流量信号给泵的pid控制器作为参考信号,pid接受参考流量信号后,给泵输入控制信号调整泵的转速,使其流量按照流量控制信号变化。
[0046]
需要说明的是,在第二步中,采用边界条件的控制信号作为智能体输出的动作,适合于执行器与被控换热器之间还存在很多其他过程(即其他改变流体温度的换热过程)的情况,这样直接用边界条件控制信号作为动作,可以不受其他过程的影响,在训练时不需要带上其他过程一起作为环境,节省了训练成本。如果这时直接采用执行器控制信号(即直接影响换热器边界条件的执行器控制信号)作为智能体输出的动作,因为这些过程会影响执行器的动作效果,因此训练时必须要带上其他过程作为环境。如果执行器与被控换热器之间无其他过程(即没有其他改变流体温度的换热过程),则适用于直接采用执行器控制信号(即直接影响换热器边界条件的执行器控制信号)作为智能体输出的动作。
[0047]
在第二步中,具体实现上,以预设高精度的换热器动态仿真模型或者实际的换热过程,作为强化学习智能体的交互环境。
[0048]
需要说明的是,与智能体交互的环境为换热过程,既包括实际的换热过程,也包括换热过程的高精度动态仿真模型。智能体对环境的观察量是换热过程的重要状态量,包括冷流体和热流体的温度和压力,以及它们(即冷流体和热流体的温度和压力)的变化率,还有冷流体和热流体的流量以及被控换热器参数的控制误差。其中,例如,压力就是冷热流体在蒸发器内的压力。
[0049]
在本发明中,与智能体交互的环境,即是被控过程,用以和智能体进行交互。
[0050]
在本发明中,预设高精度的换热器动态仿真模型,是数学模型,可以通过现有的数学机理,通过现有的常规方式建模获得,用于模拟实际的换热过程。
[0051]
对于本发明,智能体通过获得的奖励,用来评价所执行动作的好坏,奖励通过一个奖励函数来计算,其特点是如果该动作使得被控参数越接近目标值,那么这个动作获得的
奖励就越大。在智能体的训练过程中,智能体对环境每次输入一个动作,环境就会马上产生相应的输出,并返回给智能体一个即时奖励来评价该动作的好坏。在智能体大量的动作输出探索过程中,强化学习的训练算法会使得智能体的动作越来越向着奖励变大的方向发展,即控制精度变高的方向发展。经过多次的训练,最终就获得了一个可以精确控制参数(即换热过程重要状态参数)变化的智能体,或者说智能控制器。
[0052]
在第二步中,具体实现上,换热过程的重要状态参数,作为智能体的观察量,具体包括冷流体和热流体的温度和压力,以及它们(即冷流体和热流体的温度和压力)的变化率,以及冷流体和热流体的流量以及被控换热器参数(即换热过程的重要状态参数)的控制误差。
[0053]
在第二步中,具体实现上,预先构建的奖励函数,是由被控换热器参数(即换热过程的重要状态参数)的实际值和控制参考值之间直接相减获得的误差(即被控换热器参数的控制误差)所构成的函数。奖励函数的特点是,误差越小,奖励函数的值越大。
[0054]
需要说明的是,被控换热器参数(即换热过程的重要状态参数)的实际值,是换热过程中的测得的值,可以通过模型计算或者实际测量获得;
[0055]
被控换热器参数(即换热过程的重要状态参数)的控制参考值是专业术语,即是指目标值,是人为给定的目标值。
[0056]
需要说明的是,被控换热器参数(即换热过程的重要状态参数)的实际值和控制参考值之间的误差,通过被控换热器参数的实际值与控制参考值直接相减获得。
[0057]
需要说明的是,奖励函数没有通用公式,但是具有通用特征,即被控换热器参数的实际值、控制参考值之间的误差越大,奖励越小。
[0058]
在第二步中,具体实现上,当被控的换热器参数(即换热过程的重要状态参数)是蒸发器出口工质过热度时,预先构建的奖励函数如下所述:
[0059][0060]
在公式(1)中,e代表过热度和目标值的误差,a代表动作,sup代表过热度,下标t代表时间。
[0061]
在公式(1)中,前五项用于判断参考跟踪的表现,跟踪误差小,奖励就大。第六项是为了避免泵转速过于频繁的波动。第七项表示如果过热度低于下限或高于上限,则停止训练以节省训练时间,并返回一个较大的惩罚值。
[0062]
在本发明中,具体实现上,本发明的控制方法是通过强化学习算法来训练的,且可以包括各类强化学习算法,如深度强化学习算法。
[0063]
为了更加清楚地理解本发明的技术方案,下面通过具体实施例来说明本发明的技术方案。
[0064]
实施例。
[0065]
以朗肯循环中的蒸发器的冷流体出口过热度的控制为例。在本实施例中,环境采用的是蒸发器的动态仿真模型(该模型是数学模型,通过现有的数学机理,通过现有的常规方式建模获得,用于模拟实际的换热过程)。
[0066]
模型的边界条件是冷流体(即工质)和热流体(即热源)的进口温度和流量,以及出
口流量。进口温度(即入口温度)和流量一般都可以主动调控,因此可以直接给定数据,或者作为控制变量。
[0067]
在本实施例中,冷热流体的进口温度和热流体的温度采用人为赋值,而冷流体的进口流量作为控制变量,由泵的转速直接控制,因此本实施例中的环境模型包括泵的模型(该模型是数学模型,通过泵性能曲线,通过现有的常规方式建模获得,用于计算通过泵的流量)。
[0068]
在蒸发器的工质出口接膨胀机,因此可以用一个膨胀阀模型(该模型是数学模型,通过阀门性能曲线,通过现有的常规方式建模获得,用于计算通过阀门的流量),来计算工质出口流量的变化。热流体(即热源)是开口系统,压力约等于大气压,因此可以通过入口流量,计算其出口的流量。
[0069]
需要说明的是,热源进出口流量是人为给定的,冷源进口流量由泵模型计算,出口流量由阀门模型计算。
[0070]
在本发明中,换热器(例如蒸发器)的模型,可以采用传统的有限体积法建立,至此智能体的交互环境模型建立完成。
[0071]
如上所述,冷流体(即工质)的流量为控制变量,而本实施例中冷流体(即工质)的流量是通过改变工质泵的转速来改变的。如果采用工质流量的控制信号(即是换热器边界条件控制信号)为智能体输出的动作,则采用附图2a的控制结构;如果直接采用工质泵的转速控制信号(即是直接影响换热器边界条件的执行器控制信号)作为智能体输出的动作,则采用附图2b的控制结构。
[0072]
智能体的观察量为冷流体(即工质)的出口压力和温度,以及它们(即冷流体的出口压力和温度)的变化率,还有它的流量以及被控换热器参数的实际值和目标值的误差(即被控换热器参数的控制误差)。
[0073]
按照被控换热器参数(即蒸发器出口工质过热度)越接近目标值,那么奖励就越大的原则,该实例中构建了如下面公式(1)所示的奖励函数。
[0074][0075]
在公式(1)中,e代表过热度和目标值的误差,a代表动作,sup代表过热度,下标t代表时间。
[0076]
在公式(1)中,前五项用于判断参考跟踪的表现,跟踪误差小,奖励就大。第六项是为了避免泵转速过于频繁的波动。第七项表示如果过热度低于下限或高于上限,则停止训练以节省训练时间,并返回一个较大的惩罚值。
[0077]
在本实施例中,将有机朗肯循环中蒸发器出口工质过热度的控制,视为一个连续问题,并采用了强化学习算法中的ddpg(deep deterministic policy gradient,ddpg)算法。ddpg是一种基于策略的深度强化学习算法,这种方法的目的是直接优化策略(行动者),并训练评论者来评估动作价值。行动者选择行动,评论者告诉行动者这个行动是否合适。在此过程中,行动者进行连续迭代以获得最优的动作策略,评论者进行连续迭代以提高值函数逼近的准确性。行动者和评论者都采用深度神经网络来代表。
[0078]
ddpg算法框架如附图4所示,行动者网络μ(s|θ
μ
)以观测值s为输入,输出使长期回
报最大化的相应动作。批判网络q(s,a|ωq)以观测s和动作a为输入,输出动作价值。为了提高训练优化过程的稳定性,ddpg智能体又创建了另外两个网络μ’(s|θ
μ’)和q’(s,a|ω
q’),并称为目标行动者和目标批评者。θ
μ
andωq是网络参数,训练过程包括优化θ
μ
和ωq。分别根据θ
μ
和ωq最新值更新θ
μ’和ω
q’。具体训练过程如下:
[0079]
以同样的随机参数ω0初始化批评者网络q(s,a|ωq)和q’(s,a|ω
q’)。以同样的随机参数θ0初始化行动者网络μ(s|θ
μ
)和μ’(s|θ
μ’)。
[0080]
对于训练的每一步重复以下步骤:
[0081]
1.对于当前观测值s,即工质的出口压力和温度,以及它们(即工质的出口压力和温度)的变化率,还有被控参数的实际值和目标值的误差以及误差的积累量,采取泵转速变化动作a=μ(s) nm,其中,nm为随机噪声模型。蒸发器仿真模型执行动作a,返回下一组观察值s’并通过奖励函数公式(1)计算返回即时奖励。将经验(s,a,r,s’)存储在回放记忆缓冲区中。训练数据的每个样本表示为(si,ai,ri,s
i 1
)。
[0082]
2.从回放记忆缓冲区中随机取n个样本,通过最小化损失函数l来更新批评参数ωq。公式(2)中,γ为计算长期奖励的折扣因子。
[0083][0084]
yi=ri γq

(si 1,μ

(s
i 1

μ

)|ωq′
),
ꢀꢀ
公式(3)
[0085]
3.用公式(4)至公式(6)中的策略梯度更新行动者网络参数θ
μ
,使预期折现报酬最大化。
[0086][0087][0088][0089]
4.根据公式(7)和(8),更新目标行动者网络和目标批评者网络的θ
μ’和ω
q’值。
[0090]
θq′
=τθq (1-τ)θq′

ꢀꢀ
公式(7);
[0091]
θ
μ

=τθ
μ
(1-τ)θ
μ


ꢀꢀ
公式(8);
[0092]
对每个训练片段重复这个过程,直到行动者网络和批评者网络收敛,此时完成智能体控制器的训练。采用附图2a的控制结构,训练后的智能体在波动的热源下控制效果如图3所示。在图3中,将所述控制方法与传统pid控制方法的控制效果进行了比较,显然本发明的控制方法对目标过热度的跟随效果远高于传统pid,控制性能优异。
[0093]
综上所述,与现有技术相比较,本发明提供的一种基于强化学习的换热过程重要参数控制方法,其设计科学,解决了换热过程在瞬态波动的条件下参数控制精度差的问题,本发明能够对换热器在换热过程中的重要参数进行精确可靠的控制,提高在剧烈频繁波动的边界条件下的换热过程参数控制精度,具有重大的实践意义。
[0094]
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献