一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种基于Shap算法分析电动车续航里程影响因素的方法与流程

2023-01-02 14:53:19 来源:中国专利 TAG:

一种基于shap算法分析电动车续航里程影响因素的方法
技术领域
1.本发明涉及电动汽车技术领域及车联网技术领域,更具体地说,涉及一种基于shap算法分析电动车续航里程影响因素的方法。


背景技术:

2.中国汽研、汽车之家及中国新能源汽车评价规程(ceve)联合出版的《中国汽车技术发展与消费者洞察研究报告-新能源汽车篇》中指出,在制约用户考虑购买新能源汽车的因素中,续航里程和换电成本以及充电便利问题成为阻碍用户购买新能源汽车的三座大山。2021年10月12日,中国质量协会(caq)在北京发布2021年中国新能源汽车行业用户满意度指数(nev-cacsi)测评结果,数据显示,续航里程不正常衰减是纯电动汽车用户抱怨的主要故障和问题之一。
3.车载的数据采集设备可以获取动力电池的电流、电压、温度等数据,车辆的行驶速度、档位等数据,然后上传至云端大数据平台,较为全面的囊括了电池基础信息、用户用车行为、电池充放电行为、车辆工作环境等影响电动车续航里程的因素。通过建立续航里程模型,分析和量化影响车辆续航里程的因素,车主可以知道提升续航里程有效方法,尽可能避免里程焦虑;车企可以优化电池管理系统(bms)的管理策略、调整车身驾驶辅助系统、辅助车型开发、应对车主的续航里程投诉、给与车主个性化的续航里程优化建议等。因此,研究续航里程的影响因素。是目前电动汽车领域亟待解决的问题。


技术实现要素:

4.本发明要解决的技术问题在于,针对上述技术方案存在的不足,提供一种能够为车企指导用户优化驾驶行为,提升服务质量的基于shap算法分析电动车续航里程影响因素的方法。
5.本发明提供一种基于shap算法分析电动车续航里程影响因素的方法,所述方法包括以下步骤:s1,获取车联网平台的每日报文数据,并对每日报文数据进行预处理,其中每日报文数据包括电压数据、驱动电机温度数据、电流数据、soc数据、车速数据、行驶里程数据;s2,截取行驶状态下的车辆报文数据,根据上下报文数据的间隔时间划分一个完整行程片段;s3,对行程片段进行筛选,并去除存在异常的行驶片段;s4,根据筛选出的行驶片段,构建影响车辆续航里程的行程片段特征;s5,将每soc数据变化的行驶里程数据作为模型训练的目标变量,并计算每soc数据的行驶里程数据进行模拟行驶状态下的车辆的续航里程;s6,根据步骤s4构建的行程片段特征以及步骤s5中定义的目标变量,通过catboost算法构建特征和目标变量之间的关系模型;s7,通过shap算法获取续航里程影响因素值;根据shap算法对训练好的关系模型
进行计算得到每个样本的每个特征对预测结果的贡献程度后,获取每个样本的驾驶行为影响因素的具体值;s8,基于shap算法获取单次行程的单个因素的具体影响值,并利用shap算法的可加性获取按天的续航里程影响因素,通过里程加权的方法获取以天为单位的多个行程片段的影响因素;s9,将目标变量进行排序,选取目标变量前10%的车主作为优秀车主后利用shap算法的可加性得到优秀车主的影响因素的均值,将非优秀车主影响因素的值和优秀车主的影响因素的均值进行对比,将非优秀车主影响因素的值与对应的优秀车主的影响因素的均值生成每个非优秀车主的个性化续航里程优化建议报告。
6.本发明所述的基于shap算法分析电动车续航里程影响因素的方法中;在所述步骤s1中预处理包括以下步骤:s11,通过对当前的车联网平台的报文数据进行数据偏移操作,获得正常范围的报文数值,然后对超出规定阈值的报文字段进行置空操作; s12,当车联网平台出现报文数据补发的情况时,需要按照时间戳对每辆车进行排序,并将时间戳重复的报文数据删除; s13,当存在跳变的报文数据时进行直接删除,当报文数据出现50%以上均为空值时进行直接删除,否则使用上下条报文数据的均值进行填充,其中上下条报文数据的时间间隔不超过5分钟,如果超过五分钟则直接使用前向填充或者后向填充。
7.本发明所述的基于shap算法分析电动车续航里程影响因素的方法中;所述步骤s4还包括以下子步骤:s41,对行程片段内的数据进行筛选,并去除行驶片段时间过短或者较长的异常行驶片段。
8.本发明所述的基于shap算法分析电动车续航里程影响因素的方法中;所述步骤s4还包括以下子步骤:s42,对行程片段内的数据进行筛选,并去除行驶里程数据较短或较长的行程片段。
9.本发明所述的基于shap算法分析电动车续航里程影响因素的方法中;所述步骤s4还包括以下子步骤:s43,根据目标变量的数据分布情况选取数据集中较多的范围,并使用高斯分布的3-sigma准则进行数据筛选,将目标变量超出均值上下三倍标准差异常的行程片段去除;s44,对行程片段内的数据进行筛选,并去除soc数据过高或过低的行程片段。
10.本发明所述的基于shap算法分析电动车续航里程影响因素的方法中;在所述步骤s5中目标变量定义公式为:其中,表示soc的变化量,表示车辆行驶里程的变化量。
11.本发明所述的基于shap算法分析电动车续航里程影响因素的方法中;在所述步骤s5中,构建行程特征包括驾驶行为特征、外部环境特征、用车需求特征、车辆老化特征与车
辆属性特征。
12.本发明所述的基于shap算法分析电动车续航里程影响因素的方法中;在所述步骤s8中里程加权的方法获取以天为单位的多个行程片段的影响因素的公式为:其中,表示单个特征的续航里程影响因素值,表示为当天单次行程的行驶里程。
13.本发明的基于shap算法分析电动车续航里程影响因素的方法通过使用车联网数据,使用catboost构建车辆续航水平的模型,然后使用shap算法对影响车辆续航水平的影响因素进行量化,并充分发挥企业现有的车联网数据平台的优势,针对当下企业和车主关心的续航里程的问题,将shap算法引入续航里程分析,并针对车主的用车行为生成个性化的优化续航里程报告,为车企指导用户优化驾驶行为,提升服务质量以及为车企指导优化bms管理策略等具有重要意义。
附图说明
14.图1是本发明基于shap算法分析电动车续航里程影响因素的方法实施例的流程示意图;图2是本发明基于shap算法分析电动车续航里程影响因素的方法实施例中每soc行驶里程的分布图;图3是本发明基于shap算法分析电动车续航里程影响因素的方法实施例中行程片段行驶里程分布图;图4是本发明基于shap算法分析电动车续航里程影响因素的方法实施例中行驶片段时间过短或者较长的异常行驶片段的分布图;图5是本发明基于shap算法分析电动车续航里程影响因素的方法实施例中行驶里程数据较短或较长的行程片段的分布图;图6是本发明基于shap算法分析电动车续航里程影响因素的方法实施例中soc数据过高或过低的行程片段的分布图。
具体实施方式
15.为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
16.需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品
或设备固有的其它步骤或单元。
17.如图1-3所示,图1是本发明基于shap算法分析电动车续航里程影响因素的方法实施例的流程示意图。提供一种基于shap算法分析电动车续航里程影响因素的方法,包括以下步骤:在步骤s1中,获取车联网平台的每日报文数据,并对每日报文数据进行预处理,其中每日报文数据包括电压数据、驱动电机温度数据、电流数据、soc数据、车速数据、行驶里程数据;每日报文数据包括电压数据、驱动电机温度数据、电流数据、soc数据、车速数据、行驶里程数据采集的时间频率为10秒,由于在数据采集、传输以及解析的过程中均可能存在差错,所以需要进行数据预处理,具体的通过对车联网平台的获取每日报文数据的异常数据进行处理,优化模型输入数据质量;在步骤s2中,截取行驶状态下的车辆报文数据,根据上下报文数据的间隔时间划分一个完整行程片段;具体的为降低模型的输入数据量以及提取包含驾驶行为在内的用车特征,需要进行行程片段的划分,即从报文数据中获取车主的一次驾驶行为。截取行驶状态下的车辆报文数据,根据上下报文的间隔时间划分一个完整行程片段。间隔时间可根据实际情况进行调整,其中本技术的间隔时间定义为5分钟。
18.在步骤s3中,对行程片段进行筛选,并去除存在异常的行驶片段;目的是为了获取高质量行驶片段,提升模型输入数据的有效性,需要对行程片段内的数据进行数据进行筛选,去除可能存在异常的行驶片段。
19.在步骤s4中,根据筛选出一的行驶片段,构建影响车辆续航里程的行程片段特征;在步骤s5中,将每soc数据变化的行驶里程数据作为模型训练的目标变量,并计算每soc数据的行驶里程数据进行模拟行驶状态下的车辆的续航里程;由于实测续航里程较为费时和困难,需采用一种数据指标用于衡量车辆当前的续航表现,本发明采用soc数据的变化和行驶里程数据变化作为模型训练的目标变量。通过计算每soc的行驶里程,可以有效模拟当前状态下的车辆的续航里程。
20.在步骤s6中,根据步骤s4构建的行程片段特征以及步骤s5中定义的目标变量,通过catboost算法构建特征和目标变量之间的关系模型;具体的针对使用步骤s4构建的行程片段特征以及步骤s5中定义的目标变量,使用catboost算法构建特征和目标变量之间的关系模型,训练流程包括将步骤s5构建的特征数据集输入到catboost的基学习器中,这些基学习器以串联的方式结合在一起,每个基学习器都是拟合上一个基学习器的残差,直至误差在设定接受的范围内或者到达设定的基学习器数量(迭代次数),总体训练步骤和其他boost算法类似,但是catboost算法包含四个特征:对离散特征,如车辆状态、充电状态等,使用order ts策略进行编码。order ts是ts编码策略的优化,在ts的基础之上随机打乱样本,然后使用每个样本前面的样本集计算编码值。ts的公式见公式:其中,是一个大于0的参数,用来控制先验概率的影响程度;p是先验概率,即样
本为正类的概率,计算方式是正类样本数除以样本总数。
21.对离散特征,如车辆状态、充电状态等,进行特征组合。特征组合将离散特征两两结合构建新的特征,catboost在构建决策树的过程中第一次节点分裂的时候不使用特征组合,而后的决策树节点分裂的过程中将所有的类别型特征与之前建树过程中已使用的特征进行两两组合。每颗子树的训练样本顺序打乱,即ordered boosting策略。catboost训练的每一颗子树,都使用的是其中一个随机排序过后的数据集,对于单个样本,只使用顺序在它前面的样本训练子树,然后用模型来计算样本上的一阶梯度和二阶梯度来构建后面的树。使用对称树作为catboost的基学习器。对称树左右两侧节点相同,分裂的特征相同。
22.其中,步骤s5的构建方式为对于离散特征统计变化频次和持续时间,如持续时长;对于连续值需要计算统计量,统计量表示为最大值、最小值、均值、方差、差值、90分位数、95分位数、开始值和结束值、数据条数。
23.在步骤s7中,通过shap算法获取续航里程影响因素值;根据shap算法对训练好的关系模型进行计算得到每个样本的每个特征对预测结果的贡献程度后,获取每个样本的驾驶行为影响因素的具体值;在步骤s8中,基于shap算法获取单次行程的单个因素的具体影响值,并利用shap算法的可加性获取按天的续航里程影响因素,通过里程加权的方法获取以天为单位的多个行程片段的影响因素;在步骤s9中,将目标变量进行排序,选取目标变量前10%的车主作为优秀车主后利用shap算法的可加性得到优秀车主的影响因素的均值,将非优秀车主影响因素的值和优秀车主的影响因素的均值进行对比,将非优秀车主影响因素的值与对应的优秀车主的影响因素的均值生成每个非优秀车主的个性化续航里程优化建议报告。
24.在一实施例中,在步骤s1中预处理包括以下步骤:在步骤s11中,通过对当前的车联网平台的报文数据进行数据偏移操作,获得正常范围的报文数值,然后对超出规定阈值的报文字段进行置空操作;根据电动汽车远程服务与管理系统技术规范(gb/t 32960)第三部分的通信协议及数据格式中规定的数据偏移量和数值范围,对当前的车联网平台的报文数据进行数据偏移操作,获得正常范围的报文数值,然后对超出规定阈值的报文字段进行置空操作。
25.在步骤s12中,当车联网平台出现报文数据补发的情况时,需要按照时间戳对每辆车进行排序,并将时间戳重复的报文数据删除;在步骤s13中,当存在跳变的报文数据时进行直接删除,当报文数据出现50%以上均为空值时进行直接删除,否则使用上下条报文数据的均值进行填充,其中上下条报文数据的时间间隔不超过5分钟,如果超过五分钟则直接使用前向填充或者后向填充。具体的行驶里程数据、soc数据等字段的变化单位应该为1,其中上下条报文的时间间隔不应该超过5分钟,如果超过五分钟直接使用前向填充或者后向填充。其中部分(gb/t 32960)的数据格式见表1:表1
在一实施例中,步骤s4还包括以下子步骤:如图4所示,在步骤s41中,对行程片段内的数据进行筛选,并去除行驶片段时间过短或者较长的异常行驶片段。对于行驶片段时间过短或者较长的行驶片段直接删除,可能是车主的短距离行驶或者数据传输错误,本次实施例中行驶片段时间定义为5分钟到12小时。其中本技术中行驶片段时间过短为10,行驶片段时间较长为120分钟。x轴表示时间长度,单位是分钟,y轴表示x轴的时间区间范围内的行程次数。
26.在一实施例中,步骤s4还包括以下子步骤:如图5所示,在步骤s42中,对行程片段内的数据进行筛选,并去除行驶里程数据较短或较长的行程片段。对于车主的短距离行驶,行驶里程数据和soc数据等字段的变化较小,存在soc数据或者行驶里程数据可能刚好要变化的情况,行程数据质量不高。或行驶距离太长可能存在里程异常变化情况,本次实施例中行驶里程数据为5到100公里。其中,本技术中行驶里数据较短的行程片段为5公里,行驶里数据较长的行程片段为100公里。具体的横轴为行驶的里程,纵轴为行程次数。
27.在一实施例中,步骤s4还包括以下子步骤:在步骤s43中,根据目标变量的数据分布情况选取数据集中较多的范围,并使用高斯分布的3-sigma准则进行数据筛选,将目标变量超出均值上下三倍标准差异常的行程片段去除;如图6所示,在步骤s44中,对行程片段内的数据进行筛选,并去除soc数据过高或过低的行程片段。当动力电池处于较高或者较低soc数据下的数值难以估算准确,需要将其去除,本次实施例中soc数据的取值范围在30和98之间。其中,本技术中soc数据过低为30,
soc数据过高为90。具体的,横轴为soc数据的区间,纵轴为该soc数据区间内的行程次数。
28.在一实施例中,在步骤s5中目标变量定义公式为:其中,表示soc的变化量,表示车辆行驶里程的变化量。
29.在一实施例中,在步骤s5中,构建行程特征包括驾驶行为特征、外部环境特征、用车需求特征、车辆老化特征与车辆属性特征。当车主的驾驶行为会影响经济性表现,如频繁的加速、减速会在很大程度上加大能量消耗的水平。当温度对于电池续航的影响主要表现在电池工作温度的适应区间上,如果在过高或者过低的温度下工作,电池内部材料的活性降低,续航表现会有所降低。用车需求表现在夜间行驶、行驶区域、行驶时长等因素上。当汽车零部件的老化、电池活性物质的衰减等各种客观存在的车辆老化特征会逐渐降低车辆的续航里程;当整车的基本设计参数和配置信息、以及电池的容量、电池的输出功率、电池内阻,以及车辆的能量回收策略等车辆的基本属性特征对于车辆续航也有较大的影响。
30.驾驶行为特征如表2所示:表2在一实施例中,在步骤s8中里程加权的方法获取以天为单位的多个行程片段的影响因素的公式为:其中,表示单个特征的续航里程影响因素值,表示为当天单次
行程的行驶里程。
31.本发明实施例提供的一种基于shap算法分析电动车续航里程影响因素的方法的有益效果至少在于:1、本发明使用shap算法量化每个特征对于续航里程的影响因素,相较于特征重要性,粒度更细,shap值相较于特征重要性具有实际意义;2、本发明使用shap量化之后的影响程度,划分优秀车主,然后和非优秀车主进行对比,在指导用户优化驾驶行为更具有说服力;3、本发明使用catboost优化离散变量在构建模型中贡献;4、本发明使用的shap算法,将模型解释性算法引入续航里程分析,对于企业探索车辆续航影响因素以及其他方面的应用有重要意义;5、能够量化车主驾驶行为以及外部环境和电池构造等因素对于续航里程的影响,并且根据生成的影响因素值生成针对每个车主的个性化的续航里程优化报告建议,对于企业优化电池构造、加强用户服务、提升车辆续航水平有重要意义。
32.需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明并不受所描述的动作顺序的限制,因为依据本发明,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本发明所必须的。
33.通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如 rom/ram、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
34.因此,以上所述,仅为本发明较佳的具体实施方式,本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内,本发明的保护范围应该以权利要求的保护范围为准。
再多了解一些

本文用于创业者技术爱好者查询,仅供学习研究,如用于商业用途,请联系技术所有人。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献