一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种变时域预测能量管理方法及装置

2022-06-15 23:33:55 来源:中国专利 TAG:


1.本公开涉及一种车辆预测能量管理方法,具体地,涉及一种变时域预测能量管理方法及装置。


背景技术:

2.在车辆控制中需要对车辆的能量进行预测管理,传统的预测能量管理研究中,预测时域的长度与预测的精度直接相关,因此不同的预测时域长度会直接影响优化效果和计算成本。通常预测时域长度的选择是根据在离线条件下测试不同预测时域长度下的能耗,选择能耗最小的预测时域。因此预测时域是固定值,是无法根据不同工况而变化的。传统方法的固定预测时域不能适应工况的变化,因此预测精度不高,优化效果和计算成本受限。变时域预测则可以很好的解决这个问题。
3.目前广泛使用的变时域预测方法有最佳δsoc逼近的变时域预测方法。虽然在一定程度能够根据当前车辆状态选择合适的预测时域,但受限于样本数量、工况类型、以及最佳δsoc预测精度等因素,预测精度不高,效果有限。变时域预测能量管理面临的最大挑战是缩短计算过程和提高适应性。


技术实现要素:

4.基于此,本发明提出一种变时域能量预测管理方法,使车辆可以自主学习能量管理策略,以适应不同工况,不仅提高能量预测精度,降低成本,而且更加节能。
5.为了实现上述目的,本发明的技术方案为:
6.一方面,本发明提出了一种变时域预测能量管理方法,所述方法包括下述步骤:
7.s100、获取当前车辆的状态量及其对应的时域,获得下一时刻的最佳预测时域,所述最佳预测时域长度能够不固定;
8.s200、根据所述最佳预测时域,预测车速;
9.s300、基于最佳预测时域,采用动态规划算法获得车辆的最优控制序列,从而实现变时域的能量管理;
10.s400、在车辆执行控制序列对应的控制指令后,进入新的状态;
11.所述车辆的状态量包括动力电池荷电状态、车辆当前位置、当前车速、上一时刻预测车速。
12.优选地,在所述方法中,所述最佳预测时域通过dqn网络模型获得;所述dqn网络模型实现下述动作价值函数:
13.q(t)=r(sta
t
,act
t
) βmax q(sta
t
,act
t
;θ)
14.式中:
15.q表示工况t下的动作价值函数值;r表示奖励函数;sta
t
表示车辆在工况t下的状态量;act
t
表示车辆在工况t下的时域;θ为dqn网络模型的权值参数,β表示最大动作价值所占的权重。
16.优选地,在所述方法中,所述车速采用双向长短期记忆模型(bi-directional long short-term memory,bilstm)进行预测。
17.优选地,在所述方法中,所述dqn网络模型通过下述步骤进行训练:
18.s101、获取车辆的当前工况状态量及其对应时域,选择具有最大动作价值的时域;
19.s102、根据选择的时域,进行车速预测,在模型预测框架下依据奖励函数计算奖励值和下一工况状态量;
20.s103、在经验池中存储当前时刻信息组,所述信息组包括当前状态量、当前状态量对应时域、奖励值、下一时刻状态量;
21.s104、在经验池中随机取出n个信息组,n为大于1的自然数;
22.s105、对每一个信息组,计算实际动作价值,根据实际动作价值和最大动作价值的差的平方,采用梯度下降算法更新dqn网络模型参数;
23.s106、将下一工况作为当前工况,返回s101。
24.优选地,在所述方法中,所述奖励函数如下:
[0025][0026]
式中:
[0027]efc
为燃料电池系统的能耗;e
elec
为动力电池的能耗,δp
fc
为燃料电池系统的输出功率变化率,γ、λ、δ分别为权重系数。
[0028]
另一方面,本发明提出一种变时域预测能量管理装置,所述装置包括下述智能体模块和环境模块;
[0029]
所述智能体模块获取当前车辆的状态量及其对应的时域,获得下一时刻的最佳预测时域,所述最佳预测时域长度能够不固定;
[0030]
所述环境模块接收智能体模块的最佳预测时域,先根据所述最佳预测时域,预测车速;然后基于最佳预测时域,采用动态规划算法获得车辆的最优控制序列,从而实现变时域的能量管理;最后在车辆执行控制序列对应的控制指令后,进入新的状态;
[0031]
所述车辆的状态量包括动力电池荷电状态、车辆当前位置、当前车速、上一时刻预测车速。
[0032]
优选地,在所述装置中,所述最佳预测时域通过dqn网络模型获得;所述dqn网络模型实现下述动作价值函数:
[0033]
q(t)=r(sta
t
,act
t
) βmax q(sta
t
,act
t
;θ)
[0034]
式中:
[0035]
q表示工况t下的动作价值函数值;r表示奖励函数;sta
t
表示车辆在工况t下的状态量;act
t
表示车辆在工况t下的时域;θ为dqn网络模型的权值参数,β表示最大动作价值所占的权重。
[0036]
优选地,在所述装置中,所述车速采用双向长短期记忆模型(bi-directional long short-term memory,bilstm)进行预测。
[0037]
优选地,在所述装置中,所述dqn网络模型通过下述步骤进行训练:
[0038]
s101、获取车辆的当前工况状态量及其对应时域,选择具有最大动作价值的时域;
[0039]
s102、根据选择的时域,进行车速预测,在模型预测框架下依据奖励函数计算奖励
值和下一工况状态量;
[0040]
s103、在经验池中存储当前时刻信息组,所述信息组包括当前状态量、当前状态量对应时域、奖励值、下一时刻状态量;
[0041]
s104、在经验池中随机取出n个信息组,n为大于1的自然数;
[0042]
s105、对每一个信息组,计算实际动作价值,根据实际动作价值和最大动作价值的差的平方,采用梯度下降算法更新dqn网络模型参数;
[0043]
s106、将下一工况作为当前工况,返回s101。
[0044]
优选地,在所述装置中,所述奖励函数如下:
[0045][0046]
式中:
[0047]efc
为燃料电池系统的能耗;e
elec
为动力电池的能耗,δp
fc
为燃料电池系统的输出功率变化率,γ、λ、δ分别为权重系数。
[0048]
与现有技术相比,本发明具有下述有益效果:
[0049]
(1)本发明的方法和/或装置能够根据车辆状态和当前工况所在时域长度,预测下一工况的最佳预测时域,该最佳预测时域与当前状态所在时域长度不一定相同,从而提高预测能量管理的效果。
[0050]
(2)采用dqn网络模型进行强化学习,能够不受限于样本数量、工况类型等限制,从而根据车辆状态选择更为合适的时域,以实现更加节能的变时域能量管理效果。
[0051]
(3)在对dqn网络模型进行训练时,通过建立经验池,并从经验池中随机获取样本,从而提高了强化学习算法的应用性能和泛化能力。
[0052]
(4)将车辆能耗和燃料电池的输出功率作为dqn网络模型的训练时收敛值判断的一部分,当dqn网络模型收敛时,体现的意义是预测的时域更加节能。
附图说明
[0053]
为了更清楚地说明本技术实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
[0054]
图1、本发明一个实施例中方法流程示意图;
[0055]
图2、本发明一个实施例中装置的结构示意图。
具体实施方式
[0056]
下面结合附图,将本发明所述的一种基于深度强化学习的最佳变时域车速预测能量管理方法进行清楚、完整地描述。
[0057]
在实施例1中,采用一种变时域预测能量管理方法,方法流程示意图如图1所示,所述方法主要包括下述步骤:
[0058]
s100、获取当前车辆的状态量及其对应的时域,获得下一时刻的最佳预测时域,所述最佳预测时域长度能够不固定;
[0059]
s200、根据所述最佳预测时域,预测车速;
[0060]
s300、基于最佳预测时域,采用动态规划算法获得车辆的最优控制序列,从而实现变时域的能量管理;
[0061]
s400、在车辆执行控制序列对应的控制指令后,进入新的状态。
[0062]
在上述实施例中,优选地,所述车辆的状态量包括动力电池荷电状态、车辆当前位置、当前车速、上一时刻预测车速。
[0063]
在传统模型预测框架下的混合动力系统预测能量管理策略研究中,预测时域长度直接影响车速预测精度,进而影响整车优化效果和计算成本,在预测阶段通常根据离线条件下测试不同预测时域下的能耗,选择最节能的预测时域作为最后的预测时域,因此预测时域也都是固定值,无法根据工况变化调整。实施例1中提出考虑驾驶信息的变时域预测能量管理策略。所提出的变时域预测能够根据车辆状态、运行工况等自适应选择预测时域,即:所述最佳预测时域长度可以不固定,以此提高预测能量管理的效果。比如用act代表可选择的预测时域集合,其中的时域元素为{5,10,15,20},通过限定预测时域的选择范围,以提高计算效率。
[0064]
在方法使用过程中,在s400之后,进一步执行下述步骤:
[0065]
判断行程是否结束;若行程未结束,则将新的状态作为当前车辆状态,返回s100。
[0066]
在上述实施例中,当前最佳预测时域的获得,是基于当前车辆的状态量以及其对应的时域确定的一个判断值,通过使判断值最大,确定下一工况的时域,进而确定下一工况车辆的状态量。
[0067]
一种判断值的获取方式是用动作价值函数,如下:
[0068]
q(t)=r(sta
t
,act
t
) βmax q(sta
t
,act
t
;θ)
[0069]
式中:
[0070]
q表示工况t下的动作价值函数值;r表示奖励函数;sta
t
表示车辆在工况t下的状态量;act
t
表示车辆在工况t下的时域;θ为dqn网络模型的权值参数,β表示最大动作价值所占的权重。
[0071]
优选的,通过dqn网络模型直接基于当前车辆的状态量以及其对应的时域,获得判断值。用dqn网络模型实现上述动作价值函数,从而直接获得最佳预测时域。
[0072]
在获得最佳预测时域后,在基于mpc的预测能量管理时,首先根据最佳预测时域对车速进行预测,优选采用双向长短期记忆模型(bi-directional long short-term memory,bilstm)进行速度预测,然后将预测的车速传递给一个优化模块。在优化模块中,采用动态规划算法在给定的预测时域长度内搜索局部最优解,从而获得最优控制序列。
[0073]
将最优控制序列对应的控制指令发送给研究对象——燃料电池混合动力客车,该客车执行控制指令转移到新的状态,从而获得该客车的新的状态量,若将其作为当前车辆的状态量,返回s100,直至完成车辆行程。
[0074]
在这个过程中,通过实施变时域预测,车辆的工况是根据当前车辆的状态、运行工况是自适应变化调整的,因此有利于提高车速的预测精度和减少花费的时间,进而有利于优化预测能量管理,有效降低能量消耗。
[0075]
在上述实施例中,在使用dqn网络模型进行预测前,通过下述步骤进行训练:
[0076]
s101、获取车辆的当前工况状态量及其对应时域,选择具有最大动作价值的时域;
[0077]
s102、根据选择的时域,进行车速预测,在模型预测框架下依据奖励函数计算奖励值和下一工况状态量;
[0078]
s103、在经验池中存储当前时刻信息组,所述信息组包括当前状态量、当前状态量对应时域、奖励值、下一时刻状态量;
[0079]
s104、在经验池中随机取出n个信息组,n为大于1的自然数;
[0080]
s105、对每一个信息组,计算实际动作价值,根据实际动作价值和最大动作价值的差的平方,采用梯度下降算法更新dqn网络模型参数;
[0081]
s106、将下一工况作为当前工况,返回s101。
[0082]
在训练时,可对状态量进行归一化处理,以便快速收敛。
[0083]
对于初始没有预测时域,可采用随机选择的方式获得预测时域。
[0084]
通过设置经验池,从经验池中随机选出一组数据传递给dqn网络模型进行深度动作价值函数的拟合,可保证训练的收敛性和高效性。为了保证时域选的独立性,每一次都将状态-时域-奖励状态的转移过程都存储在经验池中。通过设置经验池长度,控制经验池的大小和里面信息组的更新。所述信息组包括当前状态量、当前状态量对应时域、奖励值、下一时刻状态量。若经验池中存储的信息组超过设定长度,则删除经验池早期数据。此时,训练过程中涉及的n的大小不超过经验池长度。
[0085]
上述训练dqn网络模型时,计算实际动作价值和最大动作价值的差的平方,采用梯度下降算法更新dqn网络模型参数。在收敛判断中,将车辆能耗和燃料电池的输出功率作为dqn网络模型的训练时收敛值判断的一部分,也就是当dqn网络模型收敛时,预测时域时不仅快而且在预测时域下的工况,车辆电池能耗能减少。奖励函数设置可设置为:
[0086][0087]
式中:
[0088]efc
为燃料电池系统的能耗;e
elec
为动力电池的能耗,δp
fc
为燃料电池系统的输出功率变化率,γ、λ、δ分别为权重系数。
[0089]
在实施例2中,采用的是一种变时域预测能量管理装置。一种优选地的装置结构示意图如图2所示。所述装置包括下述智能体模块和环境模块;所述智能体模块获取当前车辆的状态量及其对应的时域,获得下一时刻的最佳预测时域,所述最佳预测时域长度能够不固定;所述环境模块接收智能体模块的最佳预测时域,先根据所述最佳预测时域,预测车速;然后基于最佳预测时域,采用动态规划算法获得车辆的最优控制序列,从而实现变时域的能量管理;最后在车辆执行控制序列对应的控制指令后,进入新的状态;所述车辆的状态量包括动力电池荷电状态、车辆当前位置、当前车速、上一时刻预测车速。
[0090]
在所述装置中,所述最佳预测时域通过dqn网络模型获得;所述dqn网络模型实现下述动作价值函数:
[0091]
q(t)=r(sta
t
,act
t
) βmax q(sta
t
,act
t
;θ)
[0092]
式中:
[0093]
q表示工况t下的动作价值函数值;r表示奖励函数;sta
t
表示车辆在工况t下的状态量;act
t
表示车辆在工况t下的时域;θ为dqn网络模型的权值参数,β表示最大动作价值所占的权重。
[0094]
在所述装置中,所述dqn网络模型的训练方法、以及涉及到的奖励函数与方法相同,在此不再赘述。
[0095]
在所述装置中,所述车速优选采用双向长短期记忆模型(bi-directional long short-term memory,bilstm)进行预测。
[0096]
在所述装置中,通过设置经验池长度,控制经验池的大小和里面信息组的更新。所述信息组包括当前状态量、当前状态量对应时域、奖励值、下一时刻状态量。若经验池中存储的信息组超过设定长度,则删除经验池早期数据。为了保证时域选的独立性,每一次都将当前信息组存储在经验池中。
[0097]
通过以上的实施方式的描述,所属领域的技术人员可以清楚地了解到本公开方法和/或装置可借助软件加必需的通用硬件的方式来实现,当然也可以通过专用硬件包括专用集成电路、专用cpu、专用存储器、专用元器件等来实现。一般情况下,凡由计算机程序完成的功能都可以很容易地用相应的硬件来实现,而且,用来实现同一功能的具体硬件结构也可以是多种多样的,例如模拟电路、数字电路或专用电路等。但是,对本公开而言更多情况下,软件程序实现是更佳的实施方式。
[0098]
尽管以上结合附图对本发明的实施方案进行了描述,但本发明并不局限于上述的具体实施方案和应用领域,上述的具体实施方案仅仅是示意性的、指导性的,而不是限制性的。本领域的普通技术人员在本说明书的启示下和在不脱离本发明权利要求所保护的范围的情况下,还可以做出很多种的形式,这些均属于本发明保护之列。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献