一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

考虑动力电池衰退抑制的电动汽车能量管理方法及系统与流程

2022-08-02 22:49:31 来源:中国专利 TAG:


1.本发明涉及电动汽车能量管理领域,特别是涉及一种考虑动力电池衰退抑制的电动汽车能量管理方法及系统。


背景技术:

2.电动汽车以其多样的能量来源形式、长的续驶里程、高的燃油经济及较低的碳排放等特点,成为当前研究热点之一;然而,在行驶过程中,动力电池需要频繁地充、放电来满足车辆瞬时功率的需求,这将加剧动力电池的老化。基于当前三分之一的电动汽车的整体成本都来自于动力电池这一客观事实,电动汽车在电池成本方面面临巨大挑战,尤其在当前动力电池循环寿命和价格未取得突破性行业进展的前提下,动力电池的寿命衰退成本将极大地提高车辆的综合行驶成本。因此,如何抑制电动汽车的动力电池的衰退是电动汽车行业亟须解决的痛点问题之一。
3.随着机器学习领域各种算法跨类别的交叉、融合不断加深,以及硬件进步带来的计算机算力的提升,以深度强化学习为代表的学习类算法发展迅速,并在众多类型问题域中展现出良好的应用效果。并且在以动力电池-发动机为双能量供给源的混合动力为代表的电动汽车能量管理领域,根据不同的混合能量源的耦合形式设定深度强化学习的动作空间和选取具体种类的深度强化学习算法已取得一些成功的应用实例:

串联式混合动力电动汽车,其发动机工作状态与行驶工况完全解耦,驱动电机端的工作状态与路况完全耦合,发动机能量借助发电机完全转为电能,用于动力电池充电或为驱动电机提供电能。为提升燃油效率,此时发动机通常设定工作在最优燃油曲线上,给定发动机功率这一动作量即可唯一确定整车的工作状态。为简化网络结构,提升运算效率,动作空间被设为离散型,可借助深度q网络dqn(deepq-networks)算法解决。

并联式混合动力电动汽车,发动机在部分工况下将直接与驱动电机一起驱动整车。此时,发动机、启动/发电一体电机、驱动电机同轴运转,驱动轴转速直接耦合于路面行驶车速。将发动机的输出转矩、启动/发电一体电机的输出转矩等变量设为动作量,能够唯一确定整车的工作状态。对于此类连续动作空间问题,深度确定性策略梯度ddpg(deepdeterministicpolicygradient)算法已得到较好的应用。
4.然而,对于如图1所示的同轴混联式混合动力电动汽车的车型,其兼具了串联式和并联式两种车型的特点,即:当离合器闭合时,整车可视为并联式车型;离合器断开时,车辆工作在串联型工作模式。因此,针对该车型的基于学习的能量管理策略求解问题属于混合动作空间问题。直接应用深度网络dqn(deepq-networks)算法和深度确定性策略梯度ddpg(deepdeterministic policygradient)算法求取最优控制策略时并不能得到理想的结果。
5.基于上述问题,亟需一种新的电动汽车能量管理方法或系统,以解决涉及混合动作空间的同轴混联式混合动力车型的能量管理问题。


技术实现要素:

6.本发明的目的是提供一种考虑动力电池衰退抑制的电动汽车能量管理方法及系
统,能够解决混合动作空间的同轴混联式混合动力车型的能量管理问题,综合提升电动汽车的等效经济性。
7.为实现上述目的,本发明提供了如下方案:
8.一种考虑动力电池衰退抑制的电动汽车能量管理方法,包括:
9.确定动作空间;所述动作空间包括:离合器状态和相应的动作变量值;所述动作变量值包括:发动机功率变化量、发动机输出转矩、启动/发电一体电机的输出转矩以及机械制动转矩占需求转矩的比例;所述离合器状态包括:离合器分离和离合器闭合;
10.根据电动汽车的状态数据确定状态空间;所述状态数据包括:当前行驶车速、历史车速、整车加速度、车辆需求转矩、车辆需求功率、发动机状态、动力电池荷电状态以及动力电池功率;
11.根据动力电池荷电状态的实时误差和动力电池的衰退程度构建奖赏函数;
12.根据所述动作空间和所述状态空间以及奖赏函数确定训练好的深度q网络;所述训练好的深度q网络包括:actor动作网络和critic评价网络;所述actor动作网络以所述状态空间中的状态数据为输入,以所述动作变量值为输出;所述critic评价网络以所述状态空间中的状态数据和动作变量值为输入,以离合器状态为输出;
13.根据状态空间中的实时状态数据,采用训练好的深度q网络确定实时动作变量值,进而根据所述实时动作变量值进行电动汽车的功率分配控制。
14.可选地,所述确定动作空间,具体包括以下公式:
15.w={0,{δp
engine
,i
brake
}}∪{1,{t
engine
,t
isg
,i
brake
}};
16.其中,w为动作空间,0为离合器分离,1为离合器闭合,δp
engine
为发动机功率变化量,i
brake
为机械制动转矩占需求转矩的比例,t
engine
为发动机输出转矩,t
isg
为启动/发电一体电机的输出转矩。
17.可选地,所述根据电动汽车的状态数据确定状态空间,之后还包括:
18.利用公式s∈s对状态空间中的状态数据进行标准化处理;
19.其中,为标准化后的单个状态数据,s为单个状态数据,s表示状态空间,u为各状态数据的平均值,σ为各状态数据的标准差。
20.可选地,所述根据动力电池荷电状态的实时误差和动力电池的衰退程度构建奖赏函数,具体包括:
21.利用公式r=-α
·
(p1·
δsoc
ref
p2·mfuel
p3·
loss
battery
)确定奖赏函数;
22.其中,soc
ref
(t)为t时刻的动力电池荷电状态参考轨迹,soc
ref
(t)=soc
0-λ
·
d(t),soc0为初始时刻的车载传感器直接测得动力电池荷电状态的初始值,socf为最后时刻基于动态规划的全局寻优方法确定的动力电池荷电状态的最终值,d(t)和d
total
分别为整车的当前行驶距离和行驶总里程数,δsoc
ref
为动力电池荷电状态的实时误差,δsoc
ref
(t)=soc(t)-soc
ref
(t),soc(t)为t时刻的车载传感器直接测得动力电池荷电状态的当前值,m
fuel
为发动机油耗,m
fuel
=map
power
(δp
engine
,n
engine
)=map
torque
(t
engine
,n
engine
),map
power
(δp
engine
,n
engine
)为由发动机功率变化量δp
engine
及发动机转速n
engine
查燃油消耗map图确定的m
fuel
与δp
engine
和n
engine
之间的关系,map
torque
(t
engine
,nengine
)为由发动机功率t
engine
及发动机转速n
engine
查燃油消耗map图确定的m
fuel
与t
engine
和n
engine
之间的关系,q
loss
为动力电池的归一化容量损失,a为前系数因子,为常量;t
battery
为动力电池温度,基于车载动力电池管理系统中的温度传感器测得,c
rate
为动力电池的充/放电倍率,q0为动力电池额定容量,对于确定的电动汽车为定值,为正常量,i
battery
为动力电池的充/放电电流,为动力电池功率p
battery
与输出电压u
battery
的比值,动力电池的输出电压u
battery
基于车载动力电池管理系统中的电压传感器测得;b为补偿因子,为常数;ea为动力电池的激活能量,对于确定种类的动力电池,取值为定值,且为正常量;r为气体常数,为确定的正常量;ah为动力电池的安时吞吐量,z为指数因子,e为自然对数,loss
battery
为动力电池的衰退程度,α为缩放系数,p1,p2,p3分别为权重系数,r为奖赏函数。
23.可选地,所述根据所述动作空间和所述状态空间以及奖赏函数确定训练好的深度q网络,具体包括:
24.分别构建actor动作网络和critic评价网络,并分别获取actor动作网络的参数集和critic评价网络的参数集;
25.根据actor动作网络和critic评价网络确定深度q网络;
26.将所述深度q网络分别作为目标神经网络和评估神经网络;
27.采用adam梯度下降法和奖赏函数,分别进行目标神经网络和评估神经网络中参数集的训练,确定训练好的深度q网络。
28.一种考虑动力电池衰退抑制的电动汽车能量管理系统,包括:
29.动作空间确定模块,用于确定动作空间;所述动作空间包括:离合器状态和相应的动作变量值;所述动作变量值包括:发动机功率变化量、发动机输出转矩、启动/发电一体电机的输出转矩以及机械制动转矩占需求转矩的比例;所述离合器状态包括:离合器分离和离合器闭合;
30.状态空间确定模块,用于根据电动汽车的状态数据确定状态空间;所述状态数据包括:当前行驶车速、历史车速、整车加速度、车辆需求转矩、车辆需求功率、发动机状态、动力电池荷电状态以及动力电池功率;
31.奖赏函数构建模块,用于根据动力电池荷电状态的实时误差和动力电池的衰退程度构建奖赏函数;
32.训练好的深度q网络确定模块,用于根据所述动作空间和所述状态空间以及奖赏函数确定训练好的深度q网络;所述训练好的深度q网络包括:actor动作网络和critic评价网络;所述actor动作网络以所述状态空间中的状态数据为输入,以所述动作变量值为输出;所述critic评价网络以所述状态空间中的状态数据和动作变量值为输入,以离合器状态为输出;
33.功率分配控制模块,用于根据状态空间中的实时状态数据,采用训练好的深度q网络确定实时动作变量值,进而根据所述实时动作变量值进行电动汽车的功率分配控制。
34.可选地,所述动作空间确定模块具体包括以下公式:
35.w={0,{δp
engine
,i
brake
}}∪{1,{t
engine
,t
isg
,i
brake
}};
36.其中,w为动作空间,0为离合器分离,1为离合器闭合,δp
engine
为发动机功率变化量,i
brake
为机械制动转矩占需求转矩的比例,t
engine
为发动机输出转矩,t
isg
为启动/发电一体电机的输出转矩。
37.可选地,还包括:
38.标准化处理模块,用于利用公式s∈s对状态空间中的状态数据进行标准化处理;
39.其中,为标准化后的单个状态数据,s为单个状态数据,s表示状态空间,u为各状态数据的平均值,σ为各状态数据的标准差。
40.可选地,所述奖赏函数构建模块具体包括:
41.奖赏函数构建单元,用于利用公式r=-α
·
(p1·
δsoc
ref
p2·mfuel
p3·
loss
battery
)确定奖赏函数;
42.其中,soc
ref
(t)为t时刻的动力电池荷电状态参考轨迹,soc
ref
(t)=soc
0-λ
·
d(t),soc0为初始时刻的车载传感器直接测得动力电池荷电状态的初始值,socf为最后时刻基于动态规划的全局寻优方法确定的动力电池荷电状态的最终值,d(t)和d
total
分别为整车的当前行驶距离和行驶总里程数,δsoc
ref
为动力电池荷电状态的实时误差,δsoc
ref
(t)=soc(t)-soc
ref
(t),soc(t)为t时刻的车载传感器直接测得动力电池荷电状态的当前值,m
fuel
为发动机油耗,m
fuel
=map
power
(δp
engine
,n
engine
)=map
torque
(t
engine
,n
engine
),map
power
(δp
engine
,n
engine
)为由发动机功率变化量δp
engine
及发动机转速n
engine
查燃油消耗map图确定的m
fuel
与δp
engine
和n
engine
之间的关系,map
torque
(t
engine
,n
engine
)为由发动机功率t
engine
及发动机转速n
engine
查燃油消耗map图确定的m
fuel
与t
engine
和n
engine
之间的关系,q
loss
为动力电池的归一化容量损失,a为前系数因子,为常量;t
battery
为动力电池温度,基于车载动力电池管理系统中的温度传感器测得,c
rate
为动力电池的充/放电倍率,q0为动力电池额定容量,对于确定的电动汽车为定值,为正常量,i
battery
为动力电池的充/放电电流,为动力电池功率p
battery
与输出电压u
battery
的比值,动力电池的输出电压u
battery
基于车载动力电池管理系统中的电压传感器测得;b为补偿因子,为常数;ea为动力电池的激活能量,对于确定种类的动力电池,取值为定值,且为正常量;r为气体常数,为确定的正常量;ah为动力电池的安时吞吐量,z为指数因子,e为自然对数,loss
battery
为动力电池的衰退程度,α为缩放系数,p1,p2,p3分别为权重系数,r为奖赏函数。
43.可选地,所述训练好的深度q网络确定模块具体包括:
44.参数集获取单元,用于分别构建actor动作网络和critic评价网络,并分别获取
actor动作网络的参数集和critic评价网络的参数集;
45.深度q网络确定单元,用于根据actor动作网络和critic评价网络确定深度q网络;
46.目标神经网络和评估神经网络确定单元,用于将所述深度q网络分别作为目标神经网络和评估神经网络;
47.训练好的深度q网络确定单元,用于采用adam梯度下降法和奖赏函数,分别进行目标神经网络和评估神经网络中参数集的训练,确定训练好的深度q网络。
48.根据本发明提供的具体实施例,本发明公开了以下技术效果:
49.本发明所提供的一种考虑动力电池衰退抑制的电动汽车能量管理方法及系统,根据动力电池荷电状态的实时误差和动力电池的衰退程度构建奖赏函数;根据所述动作空间和所述状态空间以及奖赏函数确定训练好的深度q网络;根据状态空间中的实时状态数据,采用训练好的深度q网络确定实时动作变量值,进而根据所述实时动作变量值进行电动汽车的功率分配控制,解决了涉及混合动作空间的同轴混联式混合动力车型的能量管理问题。并且考虑了动力电池的衰退抑制,对综合提升以同轴混联式混合动力为代表的电动汽车的等效经济性具有较大的应用前景。
附图说明
50.为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
51.图1为同轴混联式混合动力电动汽车结构示意图;
52.图2为本发明所提供的一种考虑动力电池衰退抑制的电动汽车能量管理方法流程示意图;
53.图3为soc跟随结果示意图;
54.图4为功率分配结果示意图;
55.图5为动力电池电力消耗、燃油消耗及动力电池损耗结果示意图;
56.图6为本发明所提供的一种考虑动力电池衰退抑制的电动汽车能量管理系统结构示意图。
具体实施方式
57.下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
58.本发明的目的是提供一种考虑动力电池衰退抑制的电动汽车能量管理方法及系统,能够解决混合动作空间的同轴混联式混合动力车型的能量管理问题,综合提升电动汽车的等效经济性。
59.为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
60.图2为本发明所提供的一种考虑动力电池衰退抑制的电动汽车能量管理方法流程示意图,如图2所示,本发明所提供的一种考虑动力电池衰退抑制的电动汽车能量管理方法,包括:
61.s201,确定动作空间;所述动作空间包括:离合器状态和相应的动作变量值;所述动作变量值包括:发动机功率变化量、发动机输出转矩、启动/发电一体电机的输出转矩以及机械制动转矩占需求转矩的比例;所述离合器状态包括:离合器分离和离合器闭合;
62.将决定混合动力电动汽车的发动机是否直接参与整车驱动的离合器状态设定为离散动作变量a(1);在离合器分离时,a(1)=0,此时根据所确定发动机工作状态即可确定整车的运行状态。为充分发挥串联式混合动力电动汽车构型的优势,提升发动机燃油效率,将发动机工作点限制在最优燃油工作曲线上。此时,给定发动机输出功率p
engine
,则可以唯一确定发动机输出转矩和转速。因此,选取发动机功率变化量δp
engine
为连续型动作变量a(2)∈[-δp
engine,max
, δp
engine,max
],δp
engine,max
为发动机功率变化的最大值,为一正常量。当离合器闭合时,a(1)=1,动力源(发动机、驱动电机)转速同路面耦合,各动力部件转矩关系则满足式:t
deman
d=t
engine
t
isg
t
motor
。式中,t
demand
车辆需求转矩;t
engine
,t
isg
和t
motor
分别表示发动机、启动/发电一体电机和驱动电机的输出转矩。当t
isg
和t
motor
为负值时,表示此时的启动/发电一体电机和驱动电机处于发电模式。需求端功率t
demand
已知,给定供给端t
engine
,t
isg
和t
motor
三者中任意两个即可确定整车的功率分配状态。因此在该模式下,选择发动机转矩输出t
engine
和启动/发电一体电机的输出转矩分别为连续型动作变量a(3)∈[t
engine,min
,t
engine,max
],t
engine,min
和t
engine,max
分别表示发动机输出转矩的t
isg
最小值和最大值,a(4)∈[t
isg,min
,t
isg,max
],t
isg,min
和t
isg,max
分别表示启动/发电一体电机输出转矩的最小值和最大值。此外,针对以上两种车辆的运行模式,都需要设置制动能量回收比例,这与动力电池的老化和燃油消耗紧密相关。车辆的制动系统需要消耗掉不回收的那部分制动能量,因此,设置机械制动转矩占需求转矩的比例i
brake
为连续型动作变量a(5)。即:
[0063]
w={0,{δp
engine
,i
brake
}}∪{1,{t
engine
,t
isg
,i
brake
}};
[0064]
具体表示为:
[0065]
w={0,{δp
engine
,i
brake
}}∪{1,{t
engine
,t
isg
,i
brake
}};
[0066]
其中,w为动作空间,0为离合器分离,1为离合器闭合,δp
engine
为发动机功率变化量,i
brake
为机械制动转矩占需求转矩的比例,t
engine
为发动机输出转矩,t
isg
为启动/发电一体电机的输出转矩。
[0067]
s202,根据电动汽车的状态数据确定状态空间;所述状态数据包括:当前行驶车速、历史车速、整车加速度、车辆需求转矩、车辆需求功率、发动机状态、动力电池荷电状态以及动力电池功率;历史车速具体为历史3秒的车速v-1
,v-2
,v-3

[0068]
即选取当前行驶车速v,历史3秒车速v-1
,v-2
,v-3
,整车加速度a,车辆需求转矩t
demand
,车辆需求功率p
demand
,发动机状态s
engine
,动力电池荷电状态soc,动力电池功率p
battery
构成如下状态空间:
[0069]
s={v,v-1
,v-2
,v-3
,a,t
demand
,p
demand
,s
engine
,soc,p
battery
};
[0070]
s202之后还包括:
[0071]
利用公式s∈s对状态空间中的状态数据进行标准化处理;
[0072]
其中,为标准化后的单个状态数据,s为单个状态数据,s表示状态空间,u为各状态数据的平均值,σ为各状态数据的标准差。
[0073]
s203,根据动力电池荷电状态的实时误差和动力电池的衰退程度构建奖赏函数;即抑制了动力电池衰退的同时降低了整车的等效燃油消耗成本。
[0074]
s203具体包括:
[0075]
利用公式r=-α
·
(p1·
δsoc
ref
p2·mfuel
p3·
loss
battery
)确定奖赏函数;
[0076]
其中,soc
ref
(t)为t时刻的动力电池荷电状态参考轨迹,soc
ref
(t)=soc
0-λ
·
d(t),soc0为初始时刻的车载传感器直接测得动力电池荷电状态的初始值,socf为最后时刻基于动态规划的全局寻优方法确定的动力电池荷电状态的最终值,d(t)和d
total
分别为整车的当前行驶距离和行驶总里程数,δsoc
ref
为动力电池荷电状态的实时误差,δsoc
ref
(t)=soc(t)-soc
ref
(t),soc(t)为t时刻的车载传感器直接测得动力电池荷电状态的当前值,m
fuel
为发动机油耗,m
fuel
=map
power
(δp
engine
,n
engine
)=map
torque
(t
engine
,n
engine
),map
power
(δp
engine
,n
engine
)为由发动机功率变化量δp
engine
及发动机转速n
engine
查燃油消耗map图确定的m
fuel
与δp
engine
和n
engine
之间的关系,map
torque
(t
engine
,n
engine
)为由发动机功率t
engine
及发动机转速n
engine
查燃油消耗map图确定的m
fuel
与t
engine
和n
engine
之间的关系,q
loss
为动力电池的归一化容量损失,a为前系数因子,为常量;t
battery
为动力电池温度,基于车载动力电池管理系统中的温度传感器测得,c
rate
为动力电池的充/放电倍率,q0为动力电池额定容量,对于确定的电动汽车为定值,为正常量,i
battery
为动力电池的充/放电电流,为动力电池功率p
battery
与输出电压u
battery
的比值,动力电池的输出电压u
battery
基于车载动力电池管理系统中的电压传感器测得;b为补偿因子,为常数;ea为动力电池的激活能量,对于确定种类的动力电池,取值为定值,且为正常量;r为气体常数,为确定的正常量;ah为动力电池的安时吞吐量,z为指数因子,e为自然对数,loss
battery
为动力电池的衰退程度,α为缩放系数,p1,p2,p3分别为权重系数,r为奖赏函数。
[0077]
此外,发动机转速n
engine
与当前行驶车速v之间的关系为:式中r
roll
表示车轮半径,为一正常量,i0和ig分别表示主减速器传动比和当前档位的变速器传动比,为正常数。
[0078]ah
的具体计算过程为:在任一极小时间段[t,t 1]内,动力电池的充/放电倍率c
rate
可视为保持不变,则再基于归一化容量损失q
loss
对安时吞吐量ah的微
分的表达式为则任一极小时间段[t,t 1]内的动力电池容量损失式中δah表示在任一极小时间段[t,t 1]内的动力电池的安时吞吐量,其定义为最后根动力电池衰退程度loss
battery
可计算为
[0079]
s204,根据所述动作空间和所述状态空间以及奖赏函数确定训练好的深度q网络;所述训练好的深度q网络包括:actor动作网络和critic评价网络;所述actor动作网络以所述状态空间中的状态数据为输入,以所述动作变量值为输出;所述critic评价网络以所述状态空间中的状态数据和动作变量值为输入,以离合器状态为输出;
[0080]
s204具体包括:
[0081]
分别构建actor动作网络和critic评价网络,并分别获取actor动作网络的参数集θ和critic评价网络的参数集ω;
[0082]
根据actor动作网络和critic评价网络确定深度q网络;
[0083]
将所述深度q网络分别作为目标神经网络和评估神经网络;
[0084]
采用adam梯度下降法和奖赏函数,分别进行目标神经网络和评估神经网络中参数集的训练,确定训练好的深度q网络。
[0085]
actor动作网络:
[0086]
设置输入层神经元数量:根据2.中状态空间的表达式s={v,v-1
,v-2
,v-3
,a,t
demand
,p
demand
,s
engine
,soc,p
battery
}可知状态空间的共由v,v-1
,v-2
,v-3
,a,t
demand
,p
demand
,s
engine
,soc,p
battery
这10个状态量构成,其维度为10,故设置输入层神经元数量与状态空间维数等同,共10个;
[0087]
设置输出层神经元数量:根据1.中动作空间的表达式a={0,{δp
engine
,i
brake
}}∪{1,{t
engine
,t
isg
,i
brake
}}可知动作空间在离合器分离即a(1)=0时,其由δp
engine
,i
brake
这2个动作量构成;在离合器闭合即a(1)=1时,其由t
engine
,t
isg
,i
brake
这3个动作变量构成。基于这两种情况的数学关系取并集,故动作空间的维度为3,故设置输出层神经元数量与连续动作空间维数相同,共3个;
[0088]
设置输出层激活函数:输出层激活函数采用tanh函数(机器学习领域常见的现有激活函数,其表达式为y=(e
x-e-x
)/(e
x-e-x
),式中,x表示广义输入,y表示广义输出);
[0089]
设置隐藏层层数及每层神经元个数:设置位于输入、输出层之间的隐藏层个数为3,每层各设置100个神经元;
[0090]
设置隐藏层激活函数:3个隐藏层激活函数均采用relu函数(机器学习领域常见的现有激活函数,其表达式为y=max(0,x),式中,x表示广义输入,y表示广义输出,max表示最大值符号)
[0091]
至此,完成actor动作网络的所有设置,其参数集记为θ。
[0092]
critic评价网络:
[0093]
设置输入层神经元数量:critic评价网络基于前述actor动作网络的相关设置过程,可知状态空间维度为10及动作空间维度为3,二者求和,故设置critic评价网络的输入层神经元数量为13;
[0094]
设置输出层神经元数量:根据1.中所设置的离合器的状态包含分离及闭合2种状态,故设置critic评价网络的输出层神经元数量为2;
[0095]
设置输出层激活函数:输出层激活函数采用tanh;
[0096]
设置隐藏层层数及每层神经元个数:设置位于输入、输出层之间的隐藏层个数为3,每层各设置100个神经元;
[0097]
设置隐藏层激活函数:3个隐藏层激活函数均采用relu函数。
[0098]
至此,完成critic评价网络的所有设置,其参数集记为ω。
[0099]
神经网络的复制及更新:
[0100]
上述神经网络构建完毕后设其为targetnetwork目标神经网络,复制一份完全相同的网络设置为evaluationnetwork评估神经网络,基于adam梯度下降法(专有名词)交替完成目标神经网络参数集(ω
t

t
)与评估神经网络参数集(ωe,θe)的更新,其中目标神经网络参数集(ω
t

t
)由目标actor动作网络参数集θ
t
和目标critic评价网络参数集ω
t
组成,评估神经网络参数集(ωe,θe)由评估actor动作网络参数集θe和评估critic评价网络参数集ωe组成。
[0101]
具体地,记符号q(s,a)s∈s,a∈a表示状态-动作值函数,对于本发明所涉及混合动作空间的同轴混联式混合动力车型问题,其状态-动作值函数可记为q(s,k,xk)s∈s,k∈{0,1},xk∈{{δp
engine
,i
brake
},{t
engine
,t
isg
,i
brake
}},则符号q
t
(s,k,xk)和qe(s,k,xk)分别表示目标神经网络状态-动作值函数和评估神经网络状态-动作值函数。
[0102]
神经网络的参数集更新过程为:
[0103]
首先,在当前时刻t基于目标神经网络状态-动作值函数q
t
(s,k,xk)计算目标状态动作值y
targe
t,式中r(t)表示在当前时刻t时的奖赏函数的值,γ为一可调参数,s(t-1)表示前一时刻t-1时的状态量的值,由于神经网络短时记忆性,其值可直接从整车控制单元的存储模块中获取,k(t)表示当前时刻t时离散动作变量k的取值,表示在当前时刻t目标神经网络参数集为(ω
t
(t),θ
t
(t))时的连续动作变量的取值。
[0104]
接着,计算当前时刻t的由目标actor动作网络参数集θ
t
(t)决定的目标神经网络损失量和由目标critic评价网络参数集ω
t
(t)决定的目标神经网络损失量
[0105][0106][0107]
式中表示在当前时刻t目标critic评价网络参数集为ω
t
(t)时的连续动作变量的取值,表示在当前时刻t目标actor动作网络参数集θ
t
(t)时的连续动作变量
的取值。
[0108]
进一步地,计算当前时刻t评估神经网络参数集更新梯度,记为进一步地,计算当前时刻t评估神经网络参数集更新梯度,记为
[0109][0110]
两式中表示在前一时刻t-1时当评估神经网络参数集为(ωe(t-1),θe(t-1))时连续动作变量的取值。
[0111]
进一步地,计算当前时刻t评估神经网络参数集(ωe(t),θe(t)):
[0112][0113][0114]
最后,完成目标神经网络参数集的更新:
[0115][0116]
至此,完成了目标神经网络和评估神经网络的双网络参数集更新。
[0117]
设定神经网络参数集稳定阈值,当更新至目标神经网络和评估神经网络的双网络参数集(ω
t

t
)、(ωe,θe)均阈值范围内保持稳定时,停止更新,将此时的双网络参数最优集(ω
*t

*t
)、(ω
*e

*e
)储存与整车控制器中的数据记录模块中。
[0118]
s205,根据状态空间中的实时状态数据,采用训练好的深度q网络确定实时动作变量值,进而根据所述实时动作变量值进行电动汽车的功率分配控制。
[0119]
基于车速传感器所测量得到的当前时刻t车速v(t)及加速度传感器所测量得到的当前时刻加速度a(t),通过下式
[0120][0121][0122]fr
(t)=m(t)
·g·f[0123]fg
(t)=m(t)
·g·
θ
[0124]
式中,p
demand
(t)表示整车需求功率,v(t)表示当前时刻车辆的速度,fa(t)表示当前时刻车辆所受的空气阻力,fr(t)表示车辆当前时刻所受的滚动阻力,fg(t)表示车辆当前时刻所受的坡度阻力,η
motor
表示电机的效率,m(t)表示当前车辆的总质量,cd表示车辆风阻系数,a表示迎风面积,f表示滚动阻力系数,θ表示坡度阻力系数,g表示重力加速度,单位为m/s2。
[0125]
车辆运行过程中,短时间内其质量变化主要是由于燃料被消耗掉部分,故质量变化忽略不计,即将m(t)视为常量,故上式变化为:
[0126]
式中符号同上所述。
[0127]
基于整车需求转矩t
demand
(t)与需求功率p
demand
(t)的关系r
roll
表示车轮半径,为一正常量,确定当前时刻t的整车需求转矩t
demand
(t)。
[0128]
发动机状态s
engine
能够由发动机总成中的节气门位置传感器获得,动力电池荷电状态soc能够由车载动力电池管理系统bms实时反馈,动力电池功率p
battery
(t)也能够由动力电池管理系统bms所采集的实时电压u
battery
(t)和电流i
battery
(t),基于式p
battery
(t)=u
battery
(t)
·ibattery
(t)计算所得。
[0129]
历史前3秒车速v-1
,v-2
,v-3
能够基于整车控制器中的数据记录模块中的储存值直接读取。
[0130]
基于上述各个状态量的值及双网络参数最优集,整车控制器即能够输出动作变量的值,实现了整车运行时最优的功率分配控制,即达到了考虑动力电池衰退抑制的同时实现了整车的最优能量管理,综合提升整车经济性。
[0131]
通过以下实施例,对本发明进行进一步的说明。某一同轴混联式混合动力电动汽车,其参数如表1所示:
[0132]
表1
[0133]
[0134][0135]
soc跟随结果如图3所示,发动机、动力电池功率分配结果如图4所示,整车的动力电池电力消耗、燃油消耗及动力电池损耗各成本结果如图5所示,基于本发明考虑动力电池的衰退抑制的能量管理策略,从而实现了整车运行时最优的功率分配控制,综合提升整车经济性。
[0136]
图6为本发明所提供的一种考虑动力电池衰退抑制的电动汽车能量管理系统结构示意图,如图6所示,本发明所提供的一种考虑动力电池衰退抑制的电动汽车能量管理系统,包括:
[0137]
动作空间确定模块601,用于确定动作空间;所述动作空间包括:离合器状态和相应的动作变量值;所述动作变量值包括:发动机功率变化量、发动机输出转矩、启动/发电一体电机的输出转矩以及机械制动转矩占需求转矩的比例;所述离合器状态包括:离合器分离和离合器闭合;
[0138]
状态空间确定模块602,用于根据电动汽车的状态数据确定状态空间;所述状态数据包括:当前行驶车速、历史车速、整车加速度、车辆需求转矩、车辆需求功率、发动机状态、动力电池荷电状态以及动力电池功率;
[0139]
奖赏函数构建模块603,用于根据动力电池荷电状态的实时误差和动力电池的衰退程度构建奖赏函数;
[0140]
训练好的深度q网络确定模块604,用于根据所述动作空间和所述状态空间以及奖赏函数确定训练好的深度q网络;所述训练好的深度q网络包括:actor动作网络和critic评价网络;所述actor动作网络以所述状态空间中的状态数据为输入,以所述动作变量值为输出;所述critic评价网络以所述状态空间中的状态数据和动作变量值为输入,以离合器状态为输出;
[0141]
功率分配控制模块605,用于根据状态空间中的实时状态数据,采用训练好的深度q网络确定实时动作变量值,进而根据所述实时动作变量值进行电动汽车的功率分配控制。
[0142]
所述动作空间确定模块601具体包括以下公式:
[0143]
w={0,{δp
engine
,i
brake
}}∪{1,{t
engine
,t
isg
,i
brake
}};
[0144]
其中,w为动作空间,0为离合器分离,1为离合器闭合,δp
engine
为发动机功率变化量,i
brake
为机械制动转矩占需求转矩的比例,t
engine
为发动机输出转矩,t
isg
为启动/发电一体电机的输出转矩。
[0145]
本发明所提供的一种考虑动力电池衰退抑制的电动汽车能量管理系统,还包括:
[0146]
标准化处理模块,用于利用公式s∈s对状态空间中的状态数据进行标准化处理;
[0147]
其中,为标准化后的单个状态数据,s为单个状态数据,s表示状态空间,u为各状态数据的平均值,σ为各状态数据的标准差。
[0148]
所述奖赏函数构建模块603具体包括:
[0149]
奖赏函数构建单元,用于利用公式r=-α
·
(p1·
δsoc
ref
p2·mfuel
p3·
loss
battery
)确定奖赏函数;
[0150]
其中,soc
ref
(t)为t时刻的动力电池荷电状态参考轨迹,soc
ref
(t)=soc
0-λ
·
d(t),soc0为初始时刻的车载传感器直接测得动力电池荷电状态的初始值,socf为最后时刻基于动态规划的全局寻优方法确定的动力电池荷电状态的最终值,d(t)和d
total
分别为整车的当前行驶距离和行驶总里程数,δsoc
ref
为动力电池荷电状态的实时误差,δsoc
ref
(t)=soc(t)-soc
ref
(t),soc(t)为t时刻的车载传感器直接测得动力电池荷电状态的当前值,m
fuel
为发动机油耗,m
fuel
=map
power
(δp
engine
,n
engine
)=map
torque
(t
engine
,n
engine
),map
power
(δp
engine
,n
engine
)为由发动机功率变化量δp
engine
及发动机转速n
engine
查燃油消耗map图确定的m
fuel
与δp
engine
和n
engine
之间的关系,map
torque
(t
engine
,n
engine
)为由发动机功率t
engine
及发动机转速n
engine
查燃油消耗map图确定的m
fuel
与t
engine
和n
engine
之间的关系,q
loss
为动力电池的归一化容量损失,a为前系数因子,为常量;t
battery
为动力电池温度,基于车载动力电池管理系统中的温度传感器测得,c
rate
为动力电池的充/放电倍率,q0为动力电池额定容量,对于确定的电动汽车为定值,为正常量,i
battery
为动力电池的充/放电电流,为动力电池功率p
battery
与输出电压u
battery
的比值,动力电池的输出电压u
battery
基于车载动力电池管理系统中的电压传感器测得;b为补偿因子,为常数;ea为动力电池的激活能量,对于确定种类的动力电池,取值为定值,且为正常量;r为气体常数,为确定的正常量;ah为动力电池的安时吞吐量,z为指数因子,e为自然对数,loss
battery
为动力电池的衰退程度,α为缩放系数,p1,p2,p3分别为权重系数,r为奖赏函数。
[0151]
所述训练好的深度q网络确定模块604具体包括:
[0152]
参数集获取单元,用于分别构建actor动作网络和critic评价网络,并分别获取actor动作网络的参数集和critic评价网络的参数集;
[0153]
深度q网络确定单元,用于根据actor动作网络和critic评价网络确定深度q网络;
[0154]
目标神经网络和评估神经网络确定单元,用于将所述深度q网络分别作为目标神经网络和评估神经网络;
[0155]
训练好的深度q网络确定单元,用于采用adam梯度下降法和奖赏函数,分别进行目标神经网络和评估神经网络中参数集的训练,确定训练好的深度q网络。
[0156]
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的系统而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
[0157]
本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处。综上所述,本说明书内容不应理解为对本发明的限制。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献