一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

基于强化学习的新能源车充电站选择及自适应导航方法

2022-05-11 11:45:09 来源:中国专利 TAG:


1.本发明属于新能源汽车充电技术领域,特别涉及一种基于强化学习的新能源车充电站选择及自适应导航方法。


背景技术:

2.在倡导绿色节能的大环境下汽车产业正在向智能化、新能源化、轻量化、共享化方向蓬勃发展。因此研究一种高效可行的充电站点选择与自适应路径导航方法,以高效利用有限充电站点、缓解交通压力、满足新能源汽车庞大充电需求、提升充电舒适度具有十分重要的意义。
3.目前,国内外对新能源汽车充电导航的主要研究方向在于对传统路径规划算法的优化,以提高算法的可行性。但是此类方法单纯以行驶路径最短为优化目标,评判标准过于单一,忽略了真实环境下的动态车流变化、交通灯等待时间、充电时间以及充电站点可用性等关键因素。因此基于此类方法的导航方案无法有效避免交通拥堵,难以提高充电效率。


技术实现要素:

4.本发明的目的在于提出一种基于强化学习的新能源车充电站选择及自适应导航方法,能够改善电动汽车充电体验,提高充电站利用率及充电效率,节约能源。
5.解决本发明目的的技术解决方案为:一种基于强化学习的新能源车充电站选择及自适应导航方法,根据车辆行驶时间、充电时间、充电舒适度以及行驶能量消耗选择备选充电站点,并结合备选充电站点的最优路径选出最终充电方案,其具体步骤为:
6.步骤1,获取道路信息以及附近的充电站点信息;
7.步骤2,根据目前车辆剩余电量筛选出所有可到达充电站点;
8.步骤3,基于可到达充电站点,根据车辆行驶时间、充电时间、充电舒适度以及行驶能量消耗选出最优的充电站点及导航路线;
9.步骤4,据步骤3的导航路线前往目标充电站点,并在途中根据交通情况使用强化学习自适应更新导航路线。
10.进一步地,所述步骤3包括如下步骤:
11.步骤3.1,根据车辆行驶时间和行驶能量消耗采用强化学习方法选择当前时间点至各可到达充电站点的最优行驶路线;
12.步骤3.2,根据当前可到达充电站点的最优行驶路线、充电时间、充电舒适度以及行驶能量消耗确定最优充电站点。
13.进一步地,所述步骤3.1包括如下步骤:
14.步骤3.1.1,根据现有路况信息构建城市道路图结构模型,并定义奖励函数;
15.步骤3.1.2,依据状态转换值构建状态转换概率函数;
16.步骤3.1.3,基于贝尔曼方程构建适应于路径规划的强化学习更新策略方程;
17.步骤3.1.4,根据当时道路交通信息和随机初始化状态,重复步骤3.1.2和3.1.3迭
代更新q值,得到该时段的q值表;
18.步骤3.1.5,根据q值表中数值最高的路线移动,得到当前最优路径。
19.进一步地,所述步骤3.2具体包括如下步骤:
20.步骤3.2.1,根据等待红灯时间以及车辆移动时间推断出车辆行驶时间;
21.步骤3.2.2,分情况推断出恒流恒压两步充电策略下的充电时间;
22.步骤3.2.3,根据充电等待时间与充电站点位置计算出充电舒适度;
23.步骤3.2.4,根据电机传动效率和汽车平均行驶速度计算出行驶能量消耗;
24.步骤3.2.5,根据所述车辆行驶时间、充电时间、充电舒适度、以及能量消耗计算出各充电站点的可行性并选出最优充电站点。
25.本发明与现有技术相比,其显著效果为:
26.(1)本发明综合考虑路况信息、充电站点等待时间和充电舒适度等情况选择充电站点,并且使用强化学习方法根据交通情况实时调整前往充电站的路径;有效避免了充电排队时间过长,前往途中的交通拥堵等影响用户体验,同时动态调整路径使得用户可以更快的到达充电站点;
27.(2)本发明充分挖掘现有交通情况以及充电站点信息,动态选择导航路线,可以合理地为新能源车辆用户进行调度,有效缩进用户充电时间,提升用户充电舒适度。
附图说明
28.图1为本发明实施例方法所设计的框架设计图。
29.图2为本发明实施例方法的动态路径规划流程图。
30.图3为本发明实施例方法的最优充电站点选择流程图。
31.图4为本发明实施例方法的路径规划结构模型简图。
具体实施方式
32.为更好地理解本发明地目的、技术方案以及技术效果,以下结合附图对本发明进行进一步的讲解说明。
33.本发明充分考虑动态车流信息、交通灯等待时间、充电时间、车辆行驶时间以及能量消耗等因素构建站点选择与路径规划模型,更加符合新能源汽车的真实充电场景;此外,利用实时交通流信息,本发明提出一种强化学习方法的自适应路径导航机制,有效减少了用户前往充电站点的能量消耗和行驶时间,其实施流程结合图1和图2,具体包括如下详细步骤:
34.s1,通过蜂窝网络/车联网获取道路信息以及附近的充电站点信息;通过蜂窝网络或者车联网技术从交通系统调度机构、充电站运营商处获得各个交通道路的实时通行速度、各充电桩的空闲余额等信息。
35.s2,根据目前车辆剩余电量选出所有可到达的充电站点;获取附近可用充电站点后,通过比对当前车辆剩余里程和充电站点的距离挑选出所有可用充电站点。
36.s3,根据车辆行驶时间、充电时间、充电舒适度以及行驶能量消耗选出最优的充电站点;根据确定好的最优路径,确定每个备选充电站点的车辆行驶时间、充电时间、充电舒适度以及行驶能量消耗,计算出各个站点的可行性指标,选择可行性最好的充电站点作为
最终的充电站点。
37.s4,根据步骤s3预测的导航路线前往目标充电站点,并在途中根据交通情况使用强化学习自适应更新导航路线。
38.步骤s3具体包括以下步骤:
39.s3.1,根据车辆行驶时间和能量消耗使用强化学习方法选择当前时间点各备选站点的最优行驶路线;
40.s3.2,根据当前最优路径、充电时间、充电舒适度选出最优充电站点。
41.具体的,s3.1包括如下步骤:
42.s3.1.1,根据现有路况信息构建城市道路图结构模型,并定义奖励函数:将城市道路抽象为图g(e),e表示路段集,城市路段由{e1,
…ei
,
…ej
}组成,ei∈e,j表示城市环境中的道路总数,定义状态转移函数gs(s,a)表示在当前状态s下采取a行动时将会转移到下一状态,奖励函数gr(s,a)表示为:
[0043][0044]
其中es代表充电站点所在路段,当在s状态下采用a行动可以得到es状态则奖励值为100否则为零。
[0045]
s3.1.2,依据状态转换值构建状态转换概率函数:
[0046][0047]
其中q(s,a)表示在状态s下采取a行动时所得到的可行性数值,称为q值;a(s)表示在状态s下所有可以采取状态的集合,n(a(s))表示s下状态下可采取行动的总数,ε是一个随时间推移而逐渐减小的参数,ε∈(0,1),p(a|s)表示在状态s下采取a行动的概率。
[0048]
s3.1.3,构基于贝尔曼方程构建适应于路径规划的强化学习更新策略方程:
[0049][0050]
其中表示学习率,γ是一个与行驶时间和能量消耗有关的参数,a

为在经过gs(s,a)之后的状态所采取的行动。
[0051]
s3.1.4,根据当时道路交通信息和随机初始化状态,重复步骤s3.1.2和s3.1.3迭代更新q值,最终使所有q值稳定得到时段的q值表:
[0052]
s3.1.5,根据q值表中数值最高的路线移动到目标充电站点,得到当前最优路径:从当前位置出发,一直沿着q值最大的路线到达目标充电站点的路线既是当前时段最优路径。
[0053]
具体的结合图3,步骤s3.2包括如下步骤:
[0054]
s3.2.1,根据等待红灯时间以及车辆移动时间推断出车辆行驶时间,将道路信息分段提取,分别计算每段道路的车辆行驶时间,车辆行驶时间由如下公式获得:
[0055]
[0056]
其中l(ei)代表ei段的长度,vk(ei)代表ei段的平均速度,η(ei)∈{0,1}代表ei路段是否有交通灯,p(ei)表示汽车在ei路段遇到红灯的可能性,δ(ei)代表ei路段等待红灯的平均时间。
[0057]
s3.2.2,分情况推断出恒流恒压两步充电策略下的充电时间:分阶段充电,将充电分为恒流和恒压两步,为需要充电车辆设置soc(当前电量百分比)阈值soc
th
∈(0,1),当需要充电车辆低于阈值时采用恒流充电,反之则采用恒压充电。充电功率的计算方法为:
[0058][0059]
其中pw(tc)代表充tc时间的电功率;tc代表当前时间,tf代表充满时间,t
th
代表达到阈值时间,σ代表充电参数。
[0060]
充电时间与soc的关系为:
[0061][0062]
其中soce代表充电终止时的电量百分比,socs代表充电开始时的电量百分比,te代表充电结束时的时间,ts代表充电开始时的时间,c代表电池最大容量,
[0063]
当socs《soce<soc
th
时:充电时间tc为:
[0064][0065]
当socs<soc
th
《soce时:充电时间tc为:
[0066][0067]
当soc
th
《socs《soce时:充电时间tc为:
[0068][0069]
s3.2.3,根据等待时间和充电充电站点所剩余的可用停车位使用如下公式计算充电舒适度:
[0070][0071]
其中cm(slk)表示在充电站点slk处的充电舒适度,t
cw
(slk)表示在在充电站点slk处的等待时间,表示各备选充电站点的最大等待时间,nf(slk)代表当前时间点充电站点slk处的空闲充电位,n
max
表示每个充电站点拥有充电位置的最大值,χ={0,1},如果t
cw
(slk)=0则χ=0否则χ=1。
[0072]
s3.2.4,根据电机传动效率和汽车平均行驶速度汽车行驶时间所消耗的能量由如下公式获得:
[0073]
[0074]
其中表示从位置v到达位置k所消耗的能量,参数其中mv表示速度权重;g表示重力加速度;f表示滚动阻力系数,sv代表了平均速度,η
t
、η
mc
以及ηq分别表示传动系统效率、电机和控制器的效率以及电池放电效率,代表了从位置v到位置k的距离。
[0075]
s3.2.5,根据所述车辆行驶时间、充电时间、充电舒适度、以及能量消耗使用如下公式决定目标充电充电站点:
[0076][0077]
其中g(slk)代表目标充电站点的可行性,和分别表示四个因素的权重值,tr(slk)和ec(slk)表示从当前位置到达目标停车点slk的时间以及能量消耗,tc(slk)和cm(slk)表示在目标停车点slk的充电时间和充电舒适度。
[0078]
依据该实施方法,导航效果如图4所示,在t时刻最佳路径为e1→
e2→
e5→
e8→
e9。但是在t δu时刻,根据此时的路况信息得到此时在e5处出发的最佳路径为e5→
e6→
e9,因此最终导航路径为e1→
e2→
e5→
e6→
e9。
[0079]
步骤s4具体实施方法为:确定s3.2选定的充电站点为最终目标,按照当前时刻s3.1所生成的q值表中数值最大的路径行驶,在行驶途中实时接收交通信息并进入重复执行步骤s3.1.2和s3.1.3更新q值表,自适应地动态调节导航路线。
[0080]
综上所述,本发明提出一种基于强化学习的充电站点选择及自适应导航方案,融合了实施动态的路况信息、充电服务信息,在保证新能源汽车能够到达充电站点的情况下,选取舒适性最高的充电站点。不断优化路径导航方案和引导策略的,减少了新能源用户的充电时间成本,提高充电舒适度。
[0081]
以上所述仅是本发明的一种实施方案,应该指出:对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提之下,还可以做出若干改进和微调,这些改进和微调也应视为本发明的保护范围。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献