一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

用于车辆的奖励函数的制作方法

2023-02-10 18:20:35 来源:中国专利 TAG:

技术特征:
1.一种计算机实现的方法,包括:由处理设备接收车辆的当前状态;由处理设备使用人工智能模型的输出,至少部分地基于车辆的当前状态来预测车辆的未来状态;由处理设备使用可调奖励函数来计算与车辆的未来状态相关联的奖励,可调奖励函数包括多个可调系数;和由处理设备至少部分基于奖励来训练人工智能模型。2.根据权利要求1所述的计算机实现的方法,其中,多个可调系数之一是车辆的速度从期望的行驶速度的幅度的可调系数。3.根据权利要求1所述的计算机实现的方法,其中,多个可调系数之一是车辆的速度从期望的行驶速度衰减的可调系数。4.根据权利要求1所述的计算机实现的方法,其中,多个可调系数之一是由车辆的速度变化引起的加加速度的幅度的可调系数。5.根据权利要求1所述的计算机实现的方法,其中,多个可调系数之一是可调折扣因子。6.根据权利要求1所述的计算机实现的方法,其中,多个可调系数之一是移交成功的幅度的可调系数。7.根据权利要求1所述的计算机实现的方法,其中,可调奖励函数奖励完全成功和部分成功两者。8.根据权利要求1所述的计算机实现的方法,其中,可调奖励函数考虑效率和舒适度之间的权衡。9.根据权利要求1所述的计算机实现的方法,其中,可调奖励函数是车辆的当前状态s、动作a和车辆的未来状态s'的函数,其中,所述可调奖励函数表示为:其中c
speed
是速度的可调系数;v
h
是车辆的实际速度;v
desired
是车辆的期望行驶速度;c
temp
是车辆的速度从期望的行驶速度衰减的可调系数;c
jerk
是加加速度的幅度的可调系数;j2是加加速度的平方量;γ是可调折扣因子;i是指标函数;以及c
handoff
是移交成功的幅度的可调系数。10.根据权利要求1所述的计算机实现的方法,其中,可调奖励函数支持驾驶员在环功能。

技术总结
本文描述的示例提供了一种计算机实现的方法,该方法包括由处理设备接收车辆的当前状态。该方法还包括由处理设备使用人工智能模型的输出,至少部分地基于车辆的当前状态来预测车辆的未来状态。该方法还包括由处理设备使用可调奖励函数来计算与车辆的未来状态相关联的奖励,该可调奖励函数包括多个可调系数。该方法还包括由处理设备至少部分地基于奖励来训练人工智能模型。训练人工智能模型。训练人工智能模型。


技术研发人员:R.雷谢夫
受保护的技术使用者:通用汽车环球科技运作有限责任公司
技术研发日:2022.05.11
技术公布日:2023/2/6
再多了解一些

本文用于创业者技术爱好者查询,仅供学习研究,如用于商业用途,请联系技术所有人。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献