一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种车载高清地图数据源选择方法及装置

2022-04-13 15:04:50 来源:中国专利 TAG:

技术特征:
1.一种车载高清地图数据源选择方法,其特征在于,包括:构建车载高清地图数据源选择网络,所述车载高清地图数据源选择网络包括离线训练网络和在线选择网络;利用现有的不同车载高清地图数据源的状态信息作为训练数据集,对所述离线训练网络进行训练,训练完成后将所述离线训练网络的网络参数应用于所述在线选择网络中;自动驾驶车辆行驶过程中,将实时接收的多个车载高清地图数据源的状态信息输入训练完成的所述在线选择网络中,输出结果即为对车载高清地图数据源的选择结果。2.根据权利要求1所述的车载高清地图数据源选择方法,其特征在于,所述车载高清地图数据源选择网络的离线训练网络和在线选择网络采用ddqn神经网络;其中,对所述离线训练网络进行训练的步骤包括:通过所述离线训练网络的收集器收集车载高清地图数据源并提取状态信息,划分训练集和测试集,作为所述离线训练网络的训练数据;构建所述离线训练网络;所述离线训练网络包括两个强化学习网络dqn,对两个强化学习网络dqn进行同步训练;将所述训练集输入两个强化学习网络dqn中进行训练,优化更新第一强化学习网络dqn的参数,在所述第一强化学习网络dqn找出具有最大q值的动作,并利用第二强化学习网络dqn计算满足要求的q值;构建离线训练网络的损失函数,表征实时学习的q值与目标q值之间的差异,在损失函数最小时判定所述离线训练网络训练完成,并将测试集输入训练完成的离线训练网络中验证训练的准确性。3.根据权利要求2所述的车载高清地图数据源选择方法,其特征在于,在离线训练网络训练完成后,将离线训练网络的网络参数应用于所述在线选择网络;所述在线选择网络对车载高清地图数据源进行数据源选择后,生成经验信息并发送至离线训练网络,以供所述离线训练网络训练迭代。4.根据权利要求1所述的车载高清地图数据源选择方法,其特征在于,实时接收多个车载高清地图数据源的状态信息的步骤包括:自动驾驶车辆向外发送探测兴趣包,以寻找潜在车载高清地图数据源及状态信息;在接收到车载高清地图数据源后,通过线选择网络的过滤器进行筛选,得到车载高清地图数据源集合,作为在线选择网络的输入。5.根据权利要求2所述的车载高清地图数据源选择方法,其特征在于,所述第一强化学习网络dqn寻找最大q值的动作公式表示为:a
max
(s

,ω)=argmax
a

q(s

,a,ω)
ꢀꢀꢀꢀ
(1)其中,s表示状态,a表示行动,ω为权重参数;使用动作a
max
(s

,ω)在第二强化学习网络dqn中进行计算,得到目标q值,公式表示为:y=r γq

(s

,argmax
a

q(s

,a,ω),ω-)
ꢀꢀꢀꢀ
(2)其中,γ表示折扣因子,r表示奖励。6.根据权利要求2所述的车载高清地图数据源选择方法,其特征在于,离线训练网络的损失函数公式表示为:
其中,m表示训练次数;利用平衡更新方法更新第二强化学习网络dqn的权重,平滑更新计算如公式(4)所示:ω-←
l*ω (1-l)ω-ꢀꢀꢀꢀꢀꢀ
(4)其中,l表示更新率,l<<1,ω-为第二强化学习网络dqn的权重参数。7.根据权利要求1所述的车载高清地图数据源选择方法,其特征在于,在进行车载高清地图数据源选择之前,包括触发车载高清地图数据源选择的步骤;判断触发车载高清地图数据源选择的原因至少包括:车辆在进行初始化时为自动驾驶车辆选择数据源;或者连接的链路质量变差或者断开连接时为自动驾驶车辆选择新数据源;判定是否因为连接的链路质量变差或者断开连接时,计算当前自动驾驶车辆连接数据源的丢包率,以当前时间戳为随机种子,使用随机函数计算命中切换概率,表示为:通过rand()函数产生100以内的随机数,如果则表示概率命中执行切换数据源;公式表示为:其中,h表示数据源切换判断标志,p
max
表示最大丢包率,即当链路丢包率大于最大丢包率后则不再使用概率计算方式进行切换判断,直接进行数据源切换。8.根据权利要求4所述的车载高清地图数据源选择方法,其特征在于,在接收到车载高清地图数据源后,通过线选择网络的过滤器进行筛选的步骤中,包括:过线选择网络的选择器接收t时刻的第i个数据源的状态信息s
t,i
=(n
t,i
,m
t,i
,v
t,i
,d
t,i
),其中n
t,i
表示第个i数据源在t时刻的数据源和车辆之间的往返时间rtt;m
t,i
表示第个i数据源发送数据包的时间间隔;v
t,i
表示第个i数据在t时刻的行驶速度;d
t,i
表示第个i数据源在t时刻与发送请求车辆的距离;n
t,i
表示平滑rtt值,rtt越小表示数据源往返时延越小,网络性能越好;当多次获取到从同一个数据源的rtt值,对其做rtt平滑处理可信度更高,可以通过jacobson/karels算法中平滑方法,计算公式如下:n
t,i
=u*n
t-1,i
e*(r
t,i-n
t-1,i
)
ꢀꢀꢀ
(7)其中,r
t,i
表示当前观察到的瞬时rtt值,u=1,e=0.125;m
t,i
表示平滑间隔时间,在带宽相同的情况下,此间隔越大,则数据源越空闲,剩余可用带宽越大;相反此间隔越小,数据源剩余可用带宽越小,计算公式为:m
t,i
=(1-σ)*m
t-1,i
σ*(data
t,i-data
t-1,i
)
ꢀꢀꢀꢀ
(8)其中,σ=0.5,data
t,i
表示当前状态信息数据发送时刻,data
t-1,i
表示上一个状态信息数据发送时刻,两者相减即为时间间隔;v
t,i
表示车辆行驶速度,v
t,i
>0表示对应数据源与请求自动驾驶车辆同向行驶,v
t,i
<0表示对应数据源与请求自动驾驶车辆相向行驶;速度越低,数据源越稳定;d
t,i
表示第个i数据源在t时刻与发送请求的自动驾驶车辆的距离,d
t,i
>0表示对应数
据源在自动驾驶车辆前方,d
t,i
<0表示对应数据源在自动驾驶车辆后方;距离越近数据源的稳定性越高;依次使用包含的不同状态信息作为依据进行排序,筛选具有最佳状态的数据源;4个状态分别能选出一个最佳数据源,4个最佳数据源一共含有4组共16个状态信息数据,作为在线选择网络输入。9.根据权利要求8所述的车载高清地图数据源选择方法,其特征在于,在依次使用包含的不同状态信息作为依据进行排序,筛选具有最佳状态的数据源的步骤中,包括:计算每个状态的最优值,即计算在执行动作a
t
时选择数据源的评分:其中,max{g
t,i
}表示在s
t
状态下执行a
t
动作时选择的数据源i的最高评分;通过调整在线选择网络的网络参数对状态参数进行归一化,调整动作参数的取值范围,构建数据源和状态参数值之间的映射关系,确定评分最高的数据源,作为最终选择结果。同时包括设定对应数据源的奖励的步骤;奖励函数表示为:其中,表示链路吞吐量,表示链路持续时间,表示当前连接数据源rtt值,通过n
t,i
计算平滑rtt;其它指标系数取值范围为1<<ρ≤2、0<<φ≤0.5。10.一种车载高清地图数据源选择装置,其特征在于,包括:网络构建模块:用于构建车载高清地图数据源选择网络,所述车载高清地图数据源选择网络包括离线训练网络和在线选择网络;网络训练模块,用于利用现有的不同车载高清地图数据源的状态信息作为训练数据集,对所述离线训练网络进行训练,训练完成后将所述离线训练网络的网络参数应用于所述在线选择网络中;数据源选择模块,用于自动驾驶车辆行驶过程中,将实时接收的多个车载高清地图数据源的状态信息输入训练完成的所述在线选择网络中,输出结果即为对车载高清地图数据源的选择结果。

技术总结
本发明提出一种车载高清地图数据源选择方法及装置,该方法结合强化学习方法构建异步数据源选择框架,该框架分为离线训练和在线选择部分,离线部分负责使用深度强化学习算法进行神经网络模型的训练,同时在线部分使用从离线部分同步过来的神经网络参数进行数据源的选择,实现数据源选择、经验轨迹采集和模型训练的并行执行。通过本发明,能够避免数据源传输过程中造成的吞吐量降低的问题,避免频繁的数据源切换,有效选定最佳的车载高清地图数据源。源。源。


技术研发人员:吴帆 任炬 张尧学
受保护的技术使用者:清华大学
技术研发日:2021.11.19
技术公布日:2022/4/12
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献