一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种基于改进多目标DDPG的插电式混动汽车能量管理方法

2022-12-19 21:49:07 来源:中国专利 TAG:

一种基于改进多目标ddpg的插电式混动汽车能量管理方法
技术领域
1.本发明涉及混动汽车能量管理领域,尤其涉及一种基于改进多目标ddpg的插电式混动汽车能量管理方法。


背景技术:

2.插电式混合动力汽车(phev)兼具纯电动汽车和混合动力汽车的优点,既解决了纯电动汽车续航里程短、基础设施不完善等缺点,又能进一步挖掘发动机作为驱动装置的潜能,已成为现阶段各大传统汽车厂商在电动化转型过程中研发的主流方向。phev的结构复杂,具有多种驱动模式,因此,如何合理分配发动机和电机功率需求,合理地进行模式切换和挡位切换,实现能量的最优管理,是phev的一项关键技术。目前,phev的能量管理策略可以分为基于规则和基于优化两种。然而,现有的能量管理策略普遍存在实时性不强、计算复杂、适应性不强、优化性能不理想等缺点,此外,电池的寿命也是制约phev发展的关键技术。因此,综合考虑phev的经济性和电池的寿命,开展兼具实时性、适应性和最优性的phev能量管理策略的研究具有重要的研究价值和应用价值。
3.随着人工智能的普及和发展,基于深度强化学习算法的能量管理策略因兼具实时性和适应性等特点,引起了研究者广泛关注。但目前存在的phev的深度强化学习能量管理策略都是采用将多个目标(如燃油消耗和soc偏离程度)通过权重因子整合为单个目标作为奖励函数,而且大多未将电池的寿命考虑在内。
4.专利cn114801897a公开了一种基于ddpg算法的燃料电池混合动力系统能量管理方法,针对双堆燃料电池和锂电池的混合动力系统,建立ddpg算法模型,将算法模型和动力学模型进行参数匹配;设置算法模型的状态、动作和奖励;对混合动力系统构建基于行驶成本最优目标函数,降低燃料电池和锂电池损耗,延长其寿命。该方法存在以下不足:
5.(1)将货运卡车的各项成本耦合为目标函数,降低了目标函数的多样性。
6.(2)将氢消耗、燃料电池损耗、锂电池退化和soc变化四个目标通过权重因子耦合为一个目标,增加了确定权重因子的计算成本。同时,根据不同的模型和不同的目标函数,权重因子需重新制定,效率低的同时,降低了算法的适应性。
7.(3)多目标优化的最优解往往并不唯一,而是由多个互相支配的最优解组成的解集,因此,将多个目标耦合为一个目标,并不能实现全局多目标寻优,降低了解的最优性。


技术实现要素:

8.本发明要解决的技术问题就在于:提出一种phev能量管理策略,在一定程度上综合实时性、适应性和最优性,基于连续动作,在实现phev燃油经济性最优和soc不产生较大偏移的同时,将电池的寿命考虑在内,实现多目标的phev能量管理。
9.针对现有技术存在的技术问题,本发明提供一种基于改进多目标ddpg的插电式混动汽车能量管理方法,综合考虑燃油经济性和电池寿命,在保证实时性的同时,提高策略的最优性和普适性。
10.为解决上述技术问题,本发明提出的技术方案为:
11.一种基于改进多目标ddpg的插电式混动汽车能量管理方法,包括以下步骤:
12.建立插电式混动汽车的能量管理系统模型,包括整车纵向动力学模型、发动机燃油消耗模型、电池等效电路模型、电池寿命模型和驱动/发电机模型;
13.获取插电式混动汽车在实际行驶中的状态信息,并将所述状态信息输入所述能量管理系统模型;
14.将所述能量管理系统模型作为imddpg的智能体,根据发动机的累计油耗、电池soc的偏移程度和电池健康状况的变化配置imddpg的奖励函数,将插电式混动汽车的车速、加速度和电池soc作为imddpg的状态变量,将插电式混动汽车的需求功率作为imddpg的动作变量,用imddpg对所述能量管理系统模型进行多目标寻优,得到训练好的强化学习模型;
15.将初始的状态信息和行驶工况输入所述强化学习模型,得到行驶中的能量管理策略。
16.进一步的,用imddpg对所述能量管理系统模型进行多目标寻优包括以下步骤:
17.获取所述能量管理系统模型的状态信息s
t
输入到actor评价网络中,得到对应的动作a
t
并输入所述能量管理系统模型,在环境的影响下得到对应奖励r(s
t
,a
t
)和下一个状态信息s
t 1
,将当前样本数据e
t
=(s
t
,a
t
,r(s
t
,a
t
),s
t 1
)储存至经验池,重复本步骤直到经验池中样本数据数量满足要求;
18.从经验池中随机选取样本,将被选取样本的状态信息s
t
输入到actor评价网络中,得到对应的动作a
t
,将状态信息s
t
和对应的动作a
t
输入critic评价网络中,求解pareto最优前沿得到被选取样本对应的累计奖励q(s
t
,a
t
|θ),计算累计奖励q(s
t
,a
t
|θ)的期望得到损失函数并反向传播,利用梯度上升法更新actor评价网络中的参数;
19.将被选取样本的状态信息s
t
输入到更新后的actor评价网络中,得到更新后的对应的动作a
t
,将状态信息s
t
和更新后的对应的动作a
t
输入critic评价网络中,求解pareto最优前沿得到更新后的被选取样本对应的累计奖励q(s
t
,a
t
|θ);
20.将被选取样本的下一个状态信息s
t 1
输入到actor目标网络中,得到对应的动作a
t 1
,将状态信息s
t 1
和对应的动作a
t 1
输入critic目标网络中,求解pareto最优前沿得到被选取样本在状态信息s
t 1
和动作a
t 1
下的累计奖励q(s
t 1
,a
t 1
|θ'),计算累计奖励q(s
t 1
,a
t 1
|θ')的均方误差得到损失函数并反向传播,利用梯度下降法更新critic评价网络中的参数;
21.将actor评价网络和critic评价网络的参数更新到actor目标网络和critic目标网络中,返回获取所述能量管理系统模型的状态信息s
t
输入到actor评价网络中的步骤,直到循环次数满足要求。
22.进一步的,将actor评价网络和critic评价网络的参数更新到actor目标网络和critic目标网络中之前,还判断本次循环的次数与上一次更新时的循环次数之差是否达到预设步长,是则将actor评价网络和critic评价网络的参数更新到actor目标网络和critic目标网络中,否则执行返回获取所述能量管理系统模型的状态信息s
t
输入到actor评价网络中的步骤。
23.进一步的,求解pareto最优前沿的步骤包括:根据状态信息s
t
和对应的动作a
t
求解关于最优动作价值函数q
*
(s
t
,a
t
)的pareto最优前沿,并在pareto最优前沿随机选取一个最
优动作价值函数作为最大累计奖励,或者选取目标最小的最优动作价值函数作为最大累计奖励。
24.进一步的,最优动作价值函数q
*
(s
t
,a
t
)的表达式如下:
[0025][0026]
其中,r
t
为带折扣的累计奖励,γ为折扣因子,γ∈[0,1],ri为i时刻的奖励函数,i∈[t,t],t为终止时间。
[0027]
进一步的,所述整车纵向动力学模型表达式如下:
[0028][0029]
其中,fd为驱动力,pd为驱动功率,td为驱动转矩,v为车速,fr、fa、fg、fa分别为车辆行驶中的滚动阻力、空气阻力、坡度阻力和加速阻力,a为车辆的迎风面积,cd为空气阻力系数,ρ为空气密度,cr为滚动阻力系数,m为车辆的总质量,g为重力加速度,θ为道路坡度,δ为车辆旋转质量换算系数,为行驶加速度,r为车轮半径;
[0030][0031]
其中,t
en
、t
em1
和t
em2
分别为插电式混动汽车的发动机、em1电机和em2电机的转矩,ω
en
、ω
em1
和ω
em2
分别为插电式混动汽车发动机、em1电机和em2电机的转速,t
out
为变速器的输出扭矩,k1、k2分别为插电式混动汽车的pg1和pg2的环形齿轮和太阳齿轮的齿轮比,i为主减速器齿轮传动比。
[0032]
进一步的,所述发动机燃油消耗模型表达式如下:
[0033][0034]
其中,为发动机的瞬时燃油消耗,mf为发动机的累计油耗,t
en
、ω
en
分别为插电式混动汽车的发动机的转矩和转速。
[0035]
进一步的,所述电池等效电路模型表达式如下:
[0036][0037]
其中,u
bat
为电池端电压,i
bat
为电池电流,u
oc
为开路电流,r
bat
为电池内阻,p
bat
为电
池功率,soc(0)为soc初始值,q
bat
为电池容量。
[0038]
进一步的,所述电池寿命模型表达式如下:
[0039][0040]
其中,q
loss
为电池容量衰减,α和β为常数项,ea为活化能,r为摩尔气体常数,tk为环境的热力学温度,ah为安时通量,z为幂指数因子,q
bat
为电池容量,i
bat
为电池电流,eol为电池寿命终止,n为循环总数,soh为电池的健康状况,soc为电池的荷电状态。
[0041]
进一步的,所述驱动/发电机模型表达式如下:
[0042]
η
em
=f(t
em

em
)
[0043]
其中,t
em
为电机转矩,ω
em
为电机转速,η
em
为对应下的电机效率;
[0044][0045]
其中,p
em
为电机机械功率,p
bat,em
为电池传递给电机的功率。
[0046]
与现有技术相比,本发明的优点在于:
[0047]
(1)本发明综合考虑了插电式混合动力汽车的经济性和电池的寿命,实现了对插电式混合动力汽车能量管理策略的多目标寻优。
[0048]
(2)本发明基于实际行驶中的连续动作使用imddpg对插电式混合动力汽车的能量管理策略寻优,克服了基于离散动作的能量管理策略难以做到最优的缺点,更加符合实际行驶的特点。
[0049]
(3)基于imddpg的能量管理策略,通过不断学习,在保证实时性的同时,提高策略的最优性和普适性,摆脱了先前能量管理策略对行驶工况的依赖性,保证了标准测试工况下的最优性以及实际行驶工况下的最优性,提高了策略的自适应性。
附图说明
[0050]
图1为本发明实施例的流程图。
[0051]
图2为插电式混合动力汽车的动力系统结构示意图。
[0052]
图3为imddpg流程图。
具体实施方式
[0053]
以下结合说明书附图和具体优选的实施例对本发明作进一步描述,但并不因此而限制本发明的保护范围。
[0054]
ddpg为单目标强化学习算法,只能将多个目标通过权重因子等效为单个目标,首先权重因子的确定即需要先验知识或者大量工作,且理论上无法实现全局最优,因此ddpg算法在解决多目标优化的实际问题中存在很多问题,故我们提出改进多目标ddpg算法——imddpg。
[0055]
假设智能体的连续状态集合为s,连续动作序列为a,当智能体的当前状态为s
t
∈s,采取动作为a
t
∈a时,在环境的作用下智能体的状态转移为新的状态s
t 1
∈s,产生的即时奖励为r(s
t
,a
t
)。
[0056]
深度强化学习通过最大化累计奖励的形式选择智能体的动作,即综合考虑即时奖励和未来奖励,不断改进策略π使得获得的累计奖励最大,最大累计奖励对应的策略即为最佳策略π
*
(a|s)。其中,策略π为智能体从开始到终止采取的一系列动作。
[0057]
智能体状态为s
t
、采取动作为a
t
的最优动作价值函数q
*
(s
t
,a
t
)为:
[0058][0059]
其中,r
t
为带折扣的累计奖励,γ为折扣因子,γ∈[0,1],ri为i时刻的奖励,i∈[t,t],t为终止时间。最优动作价值函数q
*
(s
t
,a
t
)遵循贝尔曼方程:
[0060]q*
(s
t
,a
t
)=e[r(s
t
,a
t
) γq
*
(s
t 1
,a
t 1
)|s
t
,a
t
]
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(2)
[0061]
如图1所示,imddpg算法的主要流程如下所示:
[0062]
(1)如图1中虚线框

所示,将智能体的当前状态信息s
t
输入到actor评价网络中,输出为对应的动作(即利用),或者随机生成一个动作(即探索),记作a
t
,将动作a
t
输入到环境,通过与环境的作用得到奖励r(s
t
,a
t
)和下一个状态信息s
t 1
。将当前状态信息s
t
、选择的动作a
t
、得到的奖励r(s
t
,a
t
)和下一个状态s
t 1
存储至经验池u。然后将状态信息s
t 1
输入到actor评价网络中,循环步骤(1),直到存储了一定数量的e
t
=(s
t
,a
t
,r(s
t
,a
t
),s
t 1
),在这个过程中actor评价网络中的参数并没有更新。其中,选择动作时采用ε-greedy算法来实现探索和利用之间的平衡,保证充分的探索以及合理的利用:
[0063][0064]
其中,ε∈[0,1]为探索率,ε-greedy算法以ε的概率选择探索,以1-ε的概率选择actor评价网络输出的动作。因此,为了保证深度强化学习算法的性能,防止陷入局部最优,ε一般设置较大的初始值以保证足够的探索能力,随着迭代的进行,ε取值逐渐减小以保证充分的利用,加快算法的收敛。
[0065]
(2)如图1中虚线框

所示,从经验池u中随机抽取一部分样本e,首先将e中的状态信息s
t
输入到actor评价网络中,得到对应的动作a
t
,然后将状态信息s
t
和对应的动作a
t
共同输入到critic评价网络中,得到在状态信息s
t
和动作a
t
下的累计奖励q(s
t
,a
t
|θ),θ表示critic评价网络的参数。通过求q(s
t
,a
t
|θ)的期望得到损失函数并反向传播,计算公式为:
[0066]
l
ω
=e
e~u
[q(s,a|θ)]
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(4)
[0067]
其中,q(s
t
,a
t
|θ)为状态信息s
t
和动作a
t
下的累计奖励,ω为actor评价网络的参数;
[0068]
利用梯度上升法用这些损失函数计算梯度来更新actor评价网络中的参数,即通过反向传播得到在状态s
t
下q(s
t
,a
t
|θ)期望值最大所对应的动作,先计算梯度:
[0069][0070]
其中,q(s
t
,a
t
|θ)为状态信息s
t
和动作a
t
下的累计奖励,为累计奖励函数q(s,a|θ)关于a的梯度,为动作函数a(sω)关于ω的梯度,a(sω)为actor评价网
络的参数为ω、输入为s时输出的动作函数;
[0071]
然后利用梯度上升法更新actor评价网络中的参数:其中,α
l
为actor评价网络参数更新的学习率。这一步中仅更新actor评价网络中的参数,critic评价网络的参数保持不变。
[0072]
由于单目标ddpg算法中的奖励函数r为一个数值,其累计奖励q也为一个数值,同样,累计奖励的期望值以及损失函数均为一个数值。而在将单目标ddpg算法改进为多目标ddpg算法时,通过结合pareto理论将奖励函数由单目标改进为多目标,即由一个数值改进为一个数组,数组内的每个数值即为奖励函数的一个目标。改进后涉及到两个问题需要解决,一个是如何选取最大累计奖励q,另一个是如何求损失函数并进行反向传播。
[0073]
首先,关于如何选取最大累计奖励q,即如何比较累计奖励q的大小,引入pareto最优前沿选取最大累计奖励q。
[0074]
pareto最优前沿是指,假设该多目标问题存在i个目标函数,a、b为其两个可行解,若解a的所有目标函数值均优于解b,则称解a优于解b,即解a支配解b;若解a只有部分目标函数优于解b,则称解a和解b无差别,即解a非支配解b。若在可行空间中,解a的目标函数值优于其他任何解,则称a为最优解;若在可行空间中,找不到其他的解更优于解a,则称解a为pareto最优解。对于多目标优化问题,一般不存在最优解,而是存在多个pareto最优解,所有pareto最优解组成pareto最优前沿。
[0075]
因此,在选取最大累计奖励q时,首先基于式(1)求解关于最优动作价值函数的pareto最优前沿,并在pareto最优前沿上制定一个规则来选取最大累计奖励q,比如随机选取一个q作为最大累计奖励,或者选取某个目标最小的q作为最大累计奖励等,需要指出的是,基于目标函数求解pareto最优前沿是本领域技术人员常用的方法,且本方案不涉及其具体计算过程的改进,因此不再赘述其具体计算过程。
[0076]
其次,关于如何求损失函数并进行反向传播。由于多个目标产生多个损失函数,因此根据多个损失函数计算梯度,并进行反向传播。
[0077]
(3)如图2中虚线框

所示,将(2)中采样的样本e中的状态信息s
t
输入到actor评价网络中,得到actor评价网络更新后对应的动作a
t
,然后将状态信息s
t
和对应的动作a
t
共同输入到critic评价网络中,得到actor评价网络更新后在状态信息s
t
和动作a
t
下的累计奖励q(s
t
,a
t
|θ)。
[0078]
(4)如图2中虚线框

所示,将(2)中采样的样本e中的下一步状态信息s
t 1
输入到actor目标网络中,得到对应的动作a
t 1
,然后将状态信息s
t 1
和对应的动作a
t 1
共同输入到critic目标网络中,按照步骤(2)所述的方法来求解pareto最优前沿,得到在状态信息s
t 1
和动作a
t 1
下的累计奖励q(s
t 1
,a
t 1
|θ'),其中,θ'为critic目标网络的参数。
[0079]
(5)如图2中虚线框

所示,损失函数loss反向传播,损失函数loss为均方误差(mse),计算公式为:
[0080][0081]
其中,e为从经验池u采样的样本e的个数,q(s
t 1
,a
t 1
|θ')为状态信息s
t 1
和动作a
t 1
下的累计奖励,q(s
t
,a
t
|θ)为状态信息s
t
和动作a
t
下的累计奖励,r(s
t
,a
t
)为状态信息s
t
下的奖励,γ为折扣因子。
[0082]
然后采用梯度下降法用这些损失函数计算梯度来更新critic评价网络中的参数,先计算梯度:
[0083][0084]
其中,e为从经验池u采样的样本e的个数,q(s
t 1
,a
t 1
|θ')为状态信息s
t 1
和动作a
t 1
下的累计奖励,q(s
t
,a
t
|θ)为状态信息s
t
和动作a
t
下的累计奖励,r(s
t
,a
t
)为状态信息s
t
下的奖励,γ为折扣因子,为累计奖励函数q(s,a|θ)关于θ的梯度,q(s,a|θ)为critic评价网络的参数为θ、输入状态为s、输入动作为a时输出的累计奖励函数;
[0085]
然后利用梯度下降法更新critic评价网络中的参数:其中,α
l
为critic评价网络参数更新的学习率。
[0086]
(6)循环步骤(1)-(5),每过c步后,将actor评价网络和critic评价网络的参数更新到actor目标网络和critic目标网络中。
[0087]
综上所述,imddpg算法结合pareto理论对奖励函数进行了改进,实现了算法的多目标学习。
[0088]
在此基础上,本实施例提出一种基于改进多目标ddpg的插电式混动汽车能量管理方法,如图2所示,包括以下步骤:
[0089]
s1)建立插电式混动汽车的能量管理系统模型,包括整车纵向动力学模型、发动机燃油消耗模型、电池等效电路模型、电池寿命模型和驱动/发电机模型;
[0090]
s2)获取插电式混动汽车在实际行驶中的状态信息,并将所述状态信息输入所述能量管理系统模型;
[0091]
s3)将所述能量管理系统模型作为imddpg的智能体,根据发动机的累计油耗、电池soc的偏移程度和电池健康状况的变化配置imddpg的奖励函数,将插电式混动汽车的车速、加速度和电池soc作为imddpg的状态变量,将插电式混动汽车的需求功率作为imddpg的动作变量,用imddpg对所述能量管理系统模型进行多目标寻优,得到训练好的强化学习模型;将初始的状态信息和行驶工况输入所述强化学习模型,即可得到行驶中的能量管理策略。
[0092]
对于步骤s1,插电式混动汽车的动力系统结构如图3所示,发动机通过传动机构驱动发电机em2以及驱动电机em1工作,发电机em2为电池充电,电池为驱动电机em1供电,传动机构还通过离合器c1、c2、齿轮组pg1、pg2、变速器和主减速器来为驱动轮提供动力。
[0093]
根据该结构,能量管理系统模型构建如下:
[0094]
(a)整车纵向动力学模型建立,表达式如下:
[0095][0096]
其中,fd为驱动力,pd为驱动功率,td为驱动转矩,v为车速,fr、fa、fg、fa分别为车辆行驶中的滚动阻力、空气阻力、坡度阻力和加速阻力,a为车辆的迎风面积,cd为空气阻力系数,ρ为空气密度,cr为滚动阻力系数,m为车辆的总质量,g为重力加速度,θ为道路坡度,δ为车辆旋转质量换算系数,为行驶加速度,r为车轮半径;
[0097][0098]
其中,t
en
、t
em1
和t
em2
分别为插电式混动汽车的发动机、em1电机和em2电机的转矩,ω
en
、ω
em1
和ω
em2
分别为插电式混动汽车发动机、em1电机和em2电机的转速,t
out
为变速器的输出扭矩,k1、k2分别为插电式混动汽车的pg1和pg2的环形齿轮和太阳齿轮的齿轮比,i为主减速器齿轮传动比。
[0099]
(b)发动机燃油消耗模型建立,通过试验数据的查表和修正来实现发动机燃油消耗模型的建立,发动机的瞬时燃油消耗可以看作发动机转矩和转速的函数,表达式如下:
[0100][0101]
其中,为发动机的瞬时燃油消耗,mf为发动机的累计油耗,t
en
、ω
en
分别为插电式混动汽车的发动机的转矩和转速。
[0102]
(c)电池等效电路模型建立,选择内阻模型,将电池模型等效为一个理想电压源和一个电阻串联的电路,表达式如下:
[0103][0104]
其中,u
bat
为电池端电压,i
bat
为电池电流,u
oc
为开路电流,r
bat
为电池内阻,p
bat
为电池功率,soc(0)为soc初始值,q
bat
为电池容量。
[0105]
(d)电池寿命模型建立,使用半经验模型建立电池寿命模型,假设电池组中的所有电池单元之间不存在差异,且电池工作的温度基本保持恒定,则电池寿命模型表达式如下:
[0106][0107]
其中,q
loss
为电池容量衰减,α和β为常数项,ea为活化能,r为摩尔气体常数,tk为环境的热力学温度,ah为安时通量,z为幂指数因子,q
bat
为电池容量,i
bat
为电池电流,eol为电池寿命终止,n为循环总数,soh为电池的健康状况,soc为电池的荷电状态。
[0108]
(e)驱动/发电机模型,驱动电机em1和发电机em2均为永磁同步电机,电机和逆变器的综合效率可以表示为电机转矩和转速的函数,表达式如下:
[0109]
η
em
=f(t
em

em
)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(13)
[0110]
其中,t
em
为电机转矩,ω
em
为电机转速,η
em
为对应下的电机效率。
[0111][0112]
其中,p
em
为电机机械功率,p
bat,em
为电池传递给电机的功率。
[0113]
对于步骤s2,状态信息主要包括车辆状态信息和电池状态信息两部分,其中:
[0114]
车辆状态信息主要包括了整车质量、迎风面积、道路坡度、环境温度、瞬时车速、电机转速、电机效率等。
[0115]
电池状态信息主要包括电池电流、电池电压、开路电压、内阻、soc(电池的荷电状态)、电池终止寿命等。
[0116]
对于步骤s3,imddpg的配置如下:
[0117]
奖励函数:本实施例中以插电式混合动力汽车的经济性和电池寿命为优化目标,由于imddpg算法通过最大化累计奖励进行寻优,插电式混合动力汽车电池soc的开始值和结束值保持相等,均为soc设定值,即soc
start
=soc
end
=soc
target
,则经济性指标为发动机的累计油耗mf和行驶结束后电池soc偏移设定值的程度d=(soc
end-soc
target
)2,电池寿命指标为电池健康状况的变化δsoh。
[0118]
在插电式混合动力汽车的能量管理中,发动机的累计油耗mf、电池soc的偏移程度d=(soc
end-soc
target
)2和电池健康状况的变化δsoh均为越小越好,因此,奖励函数为r=(-mf,-d,-δsoh)。
[0119]
状态变量:将插电式混合动力汽车的车速、加速度和电池soc作为状态变量,即s={v,acc,soc}。
[0120]
动作变量:插电式混合动力汽车能量管理策略的目的是根据需求功率实现合理的模式切换和挡位切换,关键在于确定插电式混合动力汽车的需求功率,因此,将需求功率pd作为动作变量,即a={pd}。
[0121]
基于上述配置,用imddpg对所述能量管理系统模型进行多目标寻优包括以下步骤:
[0122]
s31)如imddpg算法的步骤(1)所述,获取所述能量管理系统模型的状态信息s
t
输入到actor评价网络中,得到对应的动作a
t
并输入所述能量管理系统模型,在环境的影响下得到对应奖励r(s
t
,a
t
)和下一个状态信息s
t 1
,将当前样本数据e
t
=(s
t
,a
t
,r(s
t
,a
t
),s
t 1
)储存至经验池,重复本步骤直到经验池中样本数据数量满足要求;
[0123]
s32)如imddpg算法的步骤(2)所述,从经验池中随机选取样本,将被选取样本的状态信息s
t
输入到actor评价网络中,得到对应的动作a
t
,将状态信息s
t
和对应的动作a
t
输入critic评价网络中,求解pareto最优前沿得到被选取样本对应的累计奖励q(s
t
,a
t
|θ),计算累计奖励q(s
t
,a
t
|θ)的期望得到损失函数并反向传播,利用梯度上升法更新actor评价网络中的参数;
[0124]
s33)如imddpg算法的步骤(3)所述,将被选取样本的状态信息s
t
输入到更新后的actor评价网络中,得到更新后的对应的动作a
t
,将状态信息s
t
和更新后的对应的动作a
t
输入critic评价网络中,求解pareto最优前沿得到更新后的被选取样本对应的累计奖励q(s
t
,a
t
|θ);
[0125]
s34)如imddpg算法的步骤(4)所述,将被选取样本的下一个状态信息s
t 1
输入到actor目标网络中,得到对应的动作a
t 1
,将状态信息s
t 1
和对应的动作a
t 1
输入critic目标
网络中,求解pareto最优前沿得到被选取样本在状态信息s
t 1
和动作a
t 1
下的累计奖励q(s
t 1
,a
t 1
|θ'),如imddpg算法的步骤(5)所述,计算累计奖励q(s
t 1
,a
t 1
|θ')的均方误差得到损失函数并反向传播,利用梯度下降法更新critic评价网络中的参数;
[0126]
s35)如imddpg算法的步骤(6)所述,判断本次循环的次数与上一次更新时的循环次数之差是否达到预设步长;
[0127]
是则将actor评价网络和critic评价网络的参数更新到actor目标网络和critic目标网络中,然后返回获取所述能量管理系统模型的状态信息s
t
输入到actor评价网络中的步骤,直到循环次数满足要求;
[0128]
否则执行返回获取所述能量管理系统模型的状态信息s
t
输入到actor评价网络中的步骤,直到循环次数满足要求。
[0129]
对于训练好的强化学习模型,输入初始的状态信息和行驶工况后,模型会得到行驶中的一系列动作信息,即一系列对应的需求功率,从而根据需求功率实现合理的模式切换和挡位切换,实现phev能量管理策略的多目标优化,一系列动作信息即为行驶中的能量管理策略。
[0130]
综上所述,本实施例的基于改进多目标ddpg的插电式混动汽车能量管理方法建立了插电式混合动力汽车的能量管理系统模型,在对插电式混合动力汽车的经济性建模的同时,实现了对电池寿命的建模。并且基于实际行驶中的连续动作使用imddpg算法对插电式混合动力汽车能量管理策略进行了多目标寻优,摆脱了先前能量管理策略对行驶工况的依赖,通过智能体的不断学习实现对不同工况的自适应性,同时,在保证策略实时性的同时,实现了策略的最优性。
[0131]
上述只是本发明的较佳实施例,并非对本发明作任何形式上的限制。虽然本发明已以较佳实施例揭露如上,然而并非用以限定本发明。因此,凡是未脱离本发明技术方案的内容,依据本发明技术实质对以上实施例所做的任何简单修改、等同变化及修饰,均应落在本发明技术方案保护的范围内。
再多了解一些

本文用于创业者技术爱好者查询,仅供学习研究,如用于商业用途,请联系技术所有人。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献