一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种车载高清地图数据源选择方法及装置

2022-04-13 15:04:50 来源:中国专利 TAG:


1.本发明涉及深度学习技术领域,尤其涉及一种车载高清地图数据源选择方法及装置。


背景技术:

2.随着信息基础设施的广泛部署和车载传感技术的快速发展,自动驾驶已成为彻底改变当前汽车技术的一个有希望的方向。自动驾驶是智能技术的未来发展趋势,它利用大量传感器组成感知系统,感知车辆周围的环境信息。根据感知系统获得的道路结构、车辆位置、障碍物状态等信息,实施自动电控系统控制车辆行驶速度和方向,使其在道路上安全可靠地行驶。与传统的电子地图不同,自动驾驶汽车需要高清(hd)地图来支持车道级导航。高清地图是专题地图,可以分为三层:道路模型层、车道模型层和定位模型层。具体来说,道路模型用于导航规划;车道模型用于基于感知当前道路和交通状况进行路线规划;定位模型用于在地图中定位车辆,车道模型只有在车辆准确定位在地图上时才能辅助车辆感知。要实现自动驾驶,高清地图是必不可少的组成部分,但与传统电子地图相比,高清地图的数据量相对较大。因此,在车上存储全部高清地图是不切实际的,并且道路信息和交通信息是实时变化的,高清地图应该实时分发,低延迟和高可靠性。
3.传统的高清地图选择和分发方式是采用rtt指标判断数据源的方法,但是随着覆盖范围内车辆数量增加,传统方案通过使用通信模型(车对基础设施(v2i)或车对车(v2v))来选择数据源,其中吞吐量将显着降低;此外,传统方案仅通过测量数据源和车辆之间的往返时间(rtt)来选择数据源,在这种情况下,车辆状态是实时变化的,尤其是在复杂的移动场景下,由于没有考虑其他类型的车辆信息(例如速度、方向),rtt的度量不能保证最佳的数据源选择结果;再者,由于移动性问题,实施传统方案的方法,会出现频繁的数据源切换,导致频繁的rtt更新和低效的数据传输。总之,现有方案无法有效判断当前选择的数据源质量,并且随着车辆的频繁移动导致rtt测量不准确和低效率数据传输。


技术实现要素:

4.本发明提供一种车载高清地图数据源选择方法及装置,旨在为车辆自动驾驶选择最优的车载高清地图数据源。
5.为此,本发明的第一个目的在于提出一种车载高清地图数据源选择方法,包括:
6.构建车载高清地图数据源选择网络,所述车载高清地图数据源选择网络包括离线训练网络和在线选择网络;
7.利用现有的不同车载高清地图数据源的状态信息作为训练数据集,对所述离线训练网络进行训练,训练完成后将所述离线训练网络的网络参数应用于所述在线选择网络中;
8.自动驾驶车辆行驶过程中,将实时接收的多个车载高清地图数据源的状态信息输入训练完成的所述在线选择网络中,输出结果即为对车载高清地图数据源的选择结果。
9.其中,车载高清地图数据源选择网络的离线训练网络和在线选择网络采用ddqn神经网络;其中,对所述离线训练网络进行训练的步骤包括:
10.通过所述离线训练网络的收集器收集车载高清地图数据源并提取状态信息,划分训练集和测试集,作为所述离线训练网络的训练数据;
11.构建所述离线训练网络;所述离线训练网络包括两个强化学习网络dqn,对两个强化学习网络dqn进行同步训练;
12.将所述训练集输入两个强化学习网络dqn中进行训练,优化更新第一强化学习网络dqn的参数,在所述第一强化学习网络dqn找出具有最大q值的动作,并利用第二强化学习网络dqn计算满足要求的q值;
13.构建离线训练网络的损失函数,表征实时学习的q值与目标q值之间的差异,在损失函数最小时判定所述离线训练网络训练完成,并将测试集输入训练完成的离线训练网络中验证训练的准确性。
14.其中,在离线训练网络训练完成后,将离线训练网络的网络参数应用于所述在线选择网络;所述在线选择网络对车载高清地图数据源进行数据源选择后,生成经验信息并发送至离线训练网络,以供所述离线训练网络训练迭代。
15.其中,实时接收多个车载高清地图数据源的状态信息的步骤包括:
16.自动驾驶车辆向外发送探测兴趣包,以寻找潜在车载高清地图数据源及状态信息;
17.在接收到车载高清地图数据源后,通过线选择网络的过滤器进行筛选,得到车载高清地图数据源集合,作为在线选择网络的输入。
18.其中,第一强化学习网络dqn寻找最大q值的动作公式表示为:
19.a
max
(s

,ω)=argmaxa′
q(s

,a,ω)
ꢀꢀꢀꢀ
(1)
20.其中,s表示状态,a表示行动,ω为权重参数;
21.使用动作a
max
(s

,ω)在第二强化学习网络dqn中进行计算,得到目标q值,公式表示为:
22.y=r γq

(s

,argmaxa′
q(s

,a,ω),ω-)
ꢀꢀꢀꢀ
(2)
23.其中,γ表示折扣因子,r表示奖励。
24.其中,离线训练网络的损失函数公式表示为:
[0025][0026]
其中,m表示训练次数;
[0027]
利用平衡更新方法更新第二强化学习网络dqn的权重,平滑更新计算如公式(4)所示:
[0028]
ω-←
l*ω (1-l)ω-ꢀꢀ
(4)
[0029]
其中,l表示更新率,l<<1,ω-为第二强化学习网络dqn的权重参数。
[0030]
其中,在进行车载高清地图数据源选择之前,包括触发车载高清地图数据源选择的步骤;判断触发车载高清地图数据源选择的原因至少包括:车辆在进行初始化时为自动驾驶车辆选择数据源;或者连接的链路质量变差或者断开连接时为自动驾驶车辆选择新数据源;
[0031]
判定是否因为连接的链路质量变差或者断开连接时,计算当前自动驾驶车辆连接数据源的丢包率,以当前时间戳为随机种子,使用随机函数计算命中切换概率,表示为:
[0032][0033]
通过rand()函数产生100以内的随机数,如果,则表示概率命中执行切换数据源;公式表示为:
[0034][0035]
其中,h表示数据源切换判断标志,p
max
表示最大丢包率,即当链路丢包率大于最大丢包率后则不再使用概率计算方式进行切换判断,直接进行数据源切换。
[0036]
其中,在接收到车载高清地图数据源后,通过线选择网络的过滤器进行筛选的步骤中,包括:
[0037]
过线选择网络的选择器接收t时刻的第i个数据源的状态信息s
t,i
=(n
t,i
,m
t,i
,v
t,i
,d
t,i
),其中n
t,i
表示第个i数据源在t时刻的数据源和车辆之间的往返时间rtt;m
t,i
表示第个i数据源发送数据包的时间间隔;v
t,i
表示第个i数据在t时刻的行驶速度;d
t,i
表示第个i数据源在t时刻与发送请求车辆的距离;
[0038]nt,i
表示平滑rtt值,rtt越小表示数据源往返时延越小,网络性能越好;当多次获取到从同一个数据源的rtt值,对其做rtt平滑处理可信度更高,可以通过jacobson/karels算法中平滑方法,计算公式如下:
[0039]nt,i
=u*n
t-1,i
e*(r
t,i-n
t-1,i
)
ꢀꢀ
(7)
[0040]
其中,r
t,i
表示当前观察到的瞬时rtt值,u=1,e=0.125;
[0041]mt,i
表示平滑间隔时间,在带宽相同的情况下,此间隔越大,则数据源越空闲,剩余可用带宽越大;相反此间隔越小,数据源剩余可用带宽越小,计算公式为:
[0042]mt,i
=(1-σ)*m
t-1,i
σ*(data
t,i-data
t-1,i
)
ꢀꢀꢀꢀ
(8)
[0043]
其中,σ=0.5,data
t,i
表示当前状态信息数据发送时刻,data
t-1,i
表示上一个状态信息数据发送时刻,两者相减即为时间间隔;
[0044]vt,i
表示车辆行驶速度,v
t,i
>0表示对应数据源与请求自动驾驶车辆同向行驶,v
t,i
<0表示对应数据源与请求自动驾驶车辆相向行驶;速度越低,数据源越稳定;
[0045]dt,i
表示第个i数据源在t时刻与发送请求的自动驾驶车辆的距离,d
t,i
>0表示对应数据源在自动驾驶车辆前方,d
t,i
<0表示对应数据源在自动驾驶车辆后方;距离越近数据源的稳定性越高;
[0046]
依次使用包含的不同状态信息作为依据进行排序,筛选具有最佳状态的数据源;4个状态分别能选出一个最佳数据源,4个最佳数据源一共含有4组共16个状态信息数据,作为在线选择网络输入。
[0047]
其中,在依次使用包含的不同状态信息作为依据进行排序,筛选具有最佳状态的数据源的步骤中,包括:
[0048]
计算每个状态的最优值,即
[0049]
[0050]
计算在执行动作a
t
时选择数据源的评分:
[0051][0052]
其中,max{g
t,i
}表示在s
t
状态下执行a
t
动作时选择的数据源i的最高评分;
[0053]
通过调整在线选择网络的网络参数对状态参数进行归一化,调整动作参数的取值范围,构建数据源和状态参数值之间的映射关系,确定评分最高的数据源,作为最终选择结果。
[0054]
其中,生成经验信息并发送至离线训练网络,以供所述离线训练网络训练迭代的步骤之后,还包括设定对应数据源的奖励的步骤;奖励函数表示为:
[0055][0056]
其中,表示链路吞吐量,表示链路持续时间,表示当前连接数据源rtt值,通过n
t,i
计算平滑rtt;其它指标系数取值范围为1<<ρ≤2、0<<φ≤0.5。
[0057]
本发明的第二个目的在于提出一种车载高清地图数据源选择装置,包括:
[0058]
网络构建模块:用于构建车载高清地图数据源选择网络,所述车载高清地图数据源选择网络包括离线训练网络和在线选择网络;
[0059]
网络训练模块,用于利用现有的不同车载高清地图数据源的状态信息作为训练数据集,对所述离线训练网络进行训练,训练完成后将所述离线训练网络的网络参数应用于所述在线选择网络中;
[0060]
数据源选择模块,用于自动驾驶车辆行驶过程中,将实时接收的多个车载高清地图数据源的状态信息输入训练完成的所述在线选择网络中,输出结果即为对车载高清地图数据源的选择结果。
[0061]
区别于现有技术,本发明提供的车载高清地图数据源选择方法,利用ndn架构的内容分发机制和转发策略,并结合强化学习方法构建异步数据源选择框架,该框架分为离线训练和在线选择部分,离线部分负责使用深度强化学习算法进行神经网络模型的训练,同时在线部分使用从离线部分同步过来的神经网络参数进行数据源的选择,实现数据源选择、经验轨迹采集和模型训练的并行执行。通过本发明,能够避免数据源传输过程中造成的吞吐量降低的问题,避免频繁的数据源切换,有效选定最佳的车载高清地图数据源。
附图说明
[0062]
本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
[0063]
图1是本发明提供的一种车载高清地图数据源选择方法的流程示意图。
[0064]
图2是本发明提供的一种车载高清地图数据源选择方法中车载高清地图数据源选择网络的结构示意图。
[0065]
图3是本发明提供的一种车载高清地图数据源选择方法中探索兴趣包和data包的包结构示意图。
[0066]
图4是本发明提供的一种车载高清地图数据源选择装置的结构示意图。
具体实施方式
[0067]
下面详细描述本发明的实施例,实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本发明,而不能理解为对本发明的限制。
[0068]
本发明提出了一种车载高清地图数据源选择方法,采用深度强化学习算法根据收集到的经验数据学习训练神经网络,以生成数据源选择的选择策略本发明基于深度强化学习(drl)构建车载高清地图选择网络,由四个主要部分组成,即状态信息、动作、策略和奖励。为了模拟车辆场景的动态,使用车速、车辆行驶方向、间隔时间和平滑的rtt来表示数据源的状态信息。为了评估所选数据源的动作性能,定义将链路吞吐量、链路持续时间和rtt考虑在内的奖励函数。为了运行车载高清地图选择网络,提出一种离线训练和在线决策机制,以在车载场景中找到合适的数据源,意味着神经网络训练过程通过使用收集的经验数据离线执行并迭代更新以辅助在线选择。在离线训练和在线决策机制中,设计基于异步强化学习的算法,将轨迹采集和神经网络训练解耦,实现数据源选择、经验轨迹采集和模型训练的并行执行。具体如下:
[0069]
图1为本发明实施例所提供的一种车载高清地图数据源选择方法的流程示意图。该方法包括以下步骤:
[0070]
步骤101,构建车载高清地图数据源选择网络,所述车载高清地图数据源选择网络包括离线训练网络和在线选择网络。
[0071]
为了支持实时数据源选择,本发明构建的车载高清地图选择网络包括离线训练网络和在线选择网络,如图2所示。其目的主要是解耦数据采集和模型训练,使得在线算法可以实时进行数据源选择和数据采集,离线算法同步进行模型训练和迭代。在离线部分,使用收集器从选择器和环境之间的交互中收集经验信息,然后将其存储在重放缓冲区库中。此外,训练器使用深度q网络从收集的经验集中训练策略。在线部分,选择器通过观察环境获取数据源信息作为状态,并通过策略采取行动。每完成一次迭代,选择器将经验分享给离线部分的收集器,并同步策略神经网络的权重。
[0072]
具体的,本发明构建的网络模型结构如下:
[0073]
智能体(agent):需要进行地图更新的自动驾驶车辆上用来执行数据源选择与切换决策的智能体。触发选择后将收集处理数据源状态信息,然后从神经网络获得输出后执行相应选择动作,并等待获取奖励,智能体通过与环境交互的方式来进行学习。
[0074]
状态(s
t
):由于数据源的异构性(rsu或者车辆),可以获取到多种数据源的状态信息,本发明专利采用了4种参数来代表数据源当前状态信息。智能体使用状态s
t,i
表示时刻t触发数据源选择时获得到的第i个数据源的状态,即s
t,i
=(n
t,i
,m
t,i
,v
t,i
,d
t,i
)。其中,n
t,i
表示第i个数据源在t时刻的rtt值;m
t,i
表示第个i数据源发送数据包的时间间隔;v
t,i
表示第i个数据在t时刻的行驶速度;d
t,i
表示第i个数据源在t时刻与发送请求车辆的距离,具体计算方式后续将展开。
[0075]
动作(a
t
):a
t
表示智能体在t时刻执行的动作。在本发明设计中,a
t
不直接选择具体数据源,而是为智能体提供选择方法,即神经网络需要确定具体动作参数动作参数为离散集合,然后再将具体的动作映射为对应的数据源选择,具体计算方法后续将展开。
[0076]
奖励(r
t
):当智能体执行完动作a
t
以后,如果在t 1时刻再次触发数据源选择,同时获取到当前数据源状态s
t 1
,智能体可以根据链路的状态计算出上一个动作获得的奖赏r(s
t
,a
t
)。智能体要做的就是最大化累积奖赏,即期望称为γ折扣累积奖赏,折扣因子γ∈(0,1],时间越靠后奖赏权重越低,是全部随机变量的期望。累积奖赏能够判断某个策略的优劣,越优秀的策略累积奖赏越高,具体计算方法和奖赏函数定义后续将展开。
[0077]
策略(π):智能体需要通过与环境不断进行交互来学习一个达到较好效果的策略π,并以此指导智能体下一步动作选择。策略的好坏使用上文中提到的累积奖赏进行判断。本发明中使用确定性策略作为策略搜索方法,即π(s
t
)=a
t
,表示智能体识别到状态s
t
时会执行动作a
t
,因此数据源选择的过程可以表示为一系列数据源状态与动作的映射关系对,然后通过这些映射关系对,智能体就能在相应状态下选择最佳的动作。本发明使用深度强化学习算法,无需建立映射表格,使用图1动作选择神经网络表示策略。动作选择神经网络可以很方便的处理输入状态和输出动作参数集合。
[0078]
步骤102:利用现有的不同车载高清地图数据源的状态信息作为训练数据集,对所述离线训练网络进行训练,训练完成后将所述离线训练网络的网络参数应用于所述在线选择网络中。
[0079]
车载高清地图数据源选择网络的离线训练网络和在线选择网络采用ddqn神经网络;其中,对所述离线训练网络进行训练的步骤包括:
[0080]
通过所述离线训练网络的收集器收集车载高清地图数据源并提取状态信息,划分训练集和测试集,作为所述离线训练网络的训练数据;
[0081]
构建所述离线训练网络;所述离线训练网络包括两个强化学习网络dqn,对两个强化学习网络dqn进行同步训练;
[0082]
将所述训练集输入两个强化学习网络dqn中进行训练,优化更新第一强化学习网络dqn的参数,在所述第一强化学习网络dqn找出具有最大q值的动作,并利用第二强化学习网络dqn计算满足要求的q值;
[0083]
构建离线训练网络的损失函数,表征实时学习的q值与目标q值之间的差异,在损失函数最小时判定所述离线训练网络训练完成,并将测试集输入训练完成的离线训练网络中验证训练的准确性。
[0084]
在线训练部分,本发明利用ddqn算法作为强化学习方法来训练基于q-learning的模型,以减少过估计现象。q-learning的核心有两个:异策略(offpolicy)和时间差分(temporal difference,td)。异策略即选择动作的策略和更新q值的策略不是同一个策略,选择动作的策略为贪心策略,更新q值的策略为确定性策略,即选择q值最大的动作。而时间差分是指利用td目标来更新当前值函数。td目标是带有衰减的未来获益的总和。首先为了提高算法的收敛性,本发明设计两个神经网络来进行同步训练,利用当前神经网络q(权重参数ω)来负责更新模型的权重参数;并利用目标神经网络q

(权重参数ω-)来负责计算q值。另外,为了减少由值迭代或参数更新引起的过估计现象(即估计的函数值比真值函数大,最终导致模型偏差),本发明首先在当前神经网络q中找出具有最大q值的动作,计算方法如下:
[0085]amax
(s

,ω)=argmaxa′
q(s

,a,ω)
ꢀꢀꢀꢀ
(1)
[0086]
然后,使用动作a
max
(s

,ω)在目标神经网络q

中进行计算,最后得到满足要求的目标q值y,计算方法如下:
[0087]
y=r γq

(s

,argmaxa′
q(s

,a,ω),ω-ꢀꢀꢀꢀ
(2)
[0088]
其中,γ表示折扣因子,r表示奖励。
[0089]
在离线训练部分,经验回放库保存着过往的经验组记录了每次迭代的过去经验,这对于实时车载网络中的模型训练至关重要。对于每次迭代,当前网络通过从经验回放库中随机采样m组的经验来训练,并且这些m组之间没有时间相关性。损失函数(l)的目标是最小化学习到的q值和目标q值之间的差异,计算如下:
[0090][0091]
另外,本发明利用平衡更新方法更新目标网络q

的权重ω-,以提高目标网络q

的稳定性,平滑更新计算如下:
[0092]
ω-←
l*ω (1-l)ω-ꢀꢀ
(4)
[0093]
其中,l表示更新率,l<<1。
[0094]
在线选择部分,车辆中运行过程中过观察现实世界车辆场景中的环境状态来采取行动,将经验收集到收集器进行离线模型训练。另外,选择策略网络结构与离线部分的神经网络结构相同,输入环境状态,输出为动作值。每次发起数据源获取与切换请求时选择器先从应用层的训练器中获取当前神经网络q训练出的权重ω,然后同步给动作选择神经网络a(权重参数为ωa)。一旦数据选择机制被触发,用户首先发送探测兴趣包来发现潜在的数据源和状态信息,选择器中的过滤器会对数据源及其状态进行筛选,将不满足要求的数据源剔除,得到数据源集合ds={ds1,ds2,ds3,ds4}。对于每个动作选择,选择策略网络a输出动作值后需要使用∈~greedy算法进行判断是否进行随机探索,即(1-∈)的概率选取值函数最大的动作,另外有∈的概率随机选择动作。在初始阶段这种方法可以对动作做出探索,避免陷入局部最优。随着训练与探索的进行,我们不在需要频繁的探索,通过利用δ因子(缩小比例)减少探索次数。随着探索率∈的降低,将有助于离线训练算法的收敛,其中∈=∈-δ*∈。选择器在状态s
t
下采取动作a
t
后,选择器可以获得奖励r
t
和下一个状态s
t 1
,并将经验信息{s
t
,a
t
,r
t
,s
t 1
,end}同步给离线部分的经验回放库。另外,在线选择器还需要在网络层执行具体数据请求动作和获取相应奖赏。离线训练和在线选择异步算法设计能提高算法训练的效率。
[0095]
s103:自动驾驶车辆行驶过程中,将实时接收的多个车载高清地图数据源的状态信息输入训练完成的所述在线选择网络中,输出结果即为对车载高清地图数据源的选择结果。
[0096]
在本发明中,触发车辆进行数据源选择有以下两方面的原因:1)车辆在进行初始化时必须为车辆选择数据源(默认以rtt最小为选择的依据);2)当连接的链路质量变差或者断开连接时。将整个数据传输过程划分为连续且长度相等的时间周期,其周期采用ieee802.11协议beacon帧间隔时间,即100ms为一个周期。链路的丢包率是判断该链路质量的最直接方式,但如果一旦发生丢包就进行数据源切换则会导致数据源频繁的切换并影响链路吞吐量,因此本发明设计一种基于丢包率的周期性概率触发方案,其目的是通过丢包
率来判断是否进行数据源切换,使得车辆能在链路质量较差时切换到新的数据源,同时避免数据源频繁切换带来额外开销。在每个周期中,首先计算当前车辆至连接数据源的丢包率p,然后以unix系统当前时间戳(timestamp)作为随机种子,使用随机函数计算命中切换概率
[0097][0098]
通过rand()函数产生100以内的随机数。如果则表示概率命中执行切换数据源。
[0099][0100]
其中,h表示数据源切换判断标志,p
max
表示最大丢包率(默认为30%),即当链路丢包率大于最大丢包率后则不再使用概率计算方式进行切换判断,直接进行数据源切换。
[0101]
如果选择机制被触发,车辆将发送探测兴趣包,选择器通过接收包收集状态信息。这意味着激活了数据源选择机制。选择器将收集状态作为网络输入,选择的数据源作为动作输出,最终获取并记录车辆中相应的奖励。对于每个周期,选择器的目的是选择当前环境中最好的数据源。如果不触发选择机制,选择器将不会选择新的数据源并继续从数据源传输当前数据,这意味着基于数据源选择方法不会被激活。
[0102]
每当成功触发数据源选择时,请求的车辆将首先广播探测兴趣包。数据源的存储位置为其他车辆或沿交通路线上设置的基础设施。在发送探测兴趣包的过程中,原始链路没有中断。但是,一旦选择新的数据源,原始链路将断开并切换到新的数据源。当数据源收到探测兴趣包时,数据源会在返回的数据包中添加额外的状态信息(即单跳标签、间隔时间、距离和速度)。探测兴趣包发出后,请求的车辆设置等待定时器(默认为50ms),定时器超时后会触发选择器进行数据源选择。因此,本发明在现有的探测兴趣包和data包的基础上扩展了一些新的状态来收集信息,如图3所示。对于探测兴趣包,车辆将发送带有附加信息的探测包,即位置和行驶方向。当数据源响应车辆时,数据源会首先计算出它与请求车辆的距离,以及返回数据包的附加信息,即间隔时间和速度。
[0103]
在接收到车载高清地图数据源后,通过线选择网络的过滤器进行筛选的步骤中,包括:
[0104]
过线选择网络的选择器接收t时刻的第i个数据源的状态信息s
t,i
=(n
t,i
,m
t,i
,v
t,i
,d
t,i
),其中n
t,i
表示第个i数据源在t时刻的数据源和车辆之间的往返时间rtt;m
t,i
表示第个i数据源发送数据包的时间间隔;v
t,i
表示第个i数据在t时刻的行驶速度;d
t,i
表示第个i数据源在t时刻与发送请求车辆的距离;
[0105]nt,i
表示平滑rtt值,rtt越小表示数据源往返时延越小,网络性能越好;当多次获取到从同一个数据源的rtt值,对其做rtt平滑处理可信度更高,可以通过jacobson/karels算法中平滑方法,计算公式如下:
[0106]nt,i
=u*n
t-1,i
e*(r
t,i-n
t-1,i
)
ꢀꢀ
(7)
[0107]
其中,r
t,i
表示当前观察到的瞬时rtt值,u=1,e=0.125;
[0108]mt,i
表示平滑间隔时间,在带宽相同的情况下,此间隔越大,则数据源越空闲,剩余
可用带宽越大;相反此间隔越小,数据源剩余可用带宽越小,计算公式为:
[0109]mt,i
=(1-σ)*m
t-1,i
σ*(data
t,i-data
t-1,i
)
ꢀꢀꢀꢀ
(8)
[0110]
其中,σ=0.5,data
t,i
表示当前状态信息数据发送时刻,data
t-1,i
表示上一个状态信息数据发送时刻,两者相减即为时间间隔;
[0111]vt,i
表示车辆行驶速度,v
t,i
>0表示对应数据源与请求自动驾驶车辆同向行驶,v
t,i
<0表示对应数据源与请求自动驾驶车辆相向行驶;速度越低,数据源越稳定;
[0112]dt,i
表示第个i数据源在t时刻与发送请求的自动驾驶车辆的距离,d
t,i
>0表示对应数据源在自动驾驶车辆前方,d
t,i
<0表示对应数据源在自动驾驶车辆后方;距离越近数据源的稳定性越高;
[0113]
数据源状态作为神经网络的输入,其输入数量必须固定,但每次可能探测到的数据源数量并不固定,导致数据源的状态数目也不固定。本发明采取的方法是先对数据源进行一次筛选,依次使用每种状态作为依据进行排序。具有最佳状态的数据源可以通过筛选(例如:数据源ds1 rtt最小,通过筛选),4个状态分别能选出一个最佳数据源。4个最佳数据源一共含有4组共16个状态,选择器将这16个状态作为输入。如果选出的数据源不足4个,此时将随机选取数据源作为输入的补充。例如,某辆车只获取到一个数据源,选择器会将此数据源的4个状态复制4次作为16个状态进行输入。使用这种方式主要目的是将输入状态的数量固定下来。
[0114]
数据源选择动作设计。即使只有两种类型的数据源(即基础设施rsu和车辆),但由于车辆的移动,车辆在作为数据源时可能会导致动态变化。这意味着在不同的车辆场景中动作空间不是固定的。然而,数据源的数量受到链路持续时间内车辆和rsu的覆盖范围的限制。因此本发明采用排序的思想对动作进行定义,基于之前的状态定义,我们首先计算每个状态的最优值,即
[0115][0116]
然后通过计算在执行动作a
t
时选择数据源的评分如下:
[0117][0118]
其中,max{g
t,i
}表示在s
t
状态下执行a
t
动作时选择的数据源i的最高评分。为了评估选择数据源i的动作评分g
t
,通过调整相应的参数值来对状态参数进行归一化(β
t
,θ
t
,μ
t
表示相应状态参数,即动作参数)。
[0119]
在本发明中动作参数的取值范围设置为β
t
∈{0,0.2,0.8}和θ
t
,μ
t
∈{0,0.5},在这种情况下,随着每个状态的动作参数的变化,这四个集合共有64个组合,这意味着有64个动作可供智能体选择。然后,通过选择神经网络的输出结果构建数据源和动作参数值之间的映射关系。最后,当车辆在s
t
状态下执行动作a
t
时,选择的数据源i是最高评分g
t,i
。选择神经网络输出动作参数,然后计算可以选择数据源的评分g
t,i
,并映射到数据源集合ds={ds1,ds2,ds3,ds4},最终选择具体的数据源。
[0120]
奖励函数设计:为确保网络可以从过去的经验中学习,每次执行动作后都会返回相应的奖励,代表了智能体遵循策略的整体收益。为了理解数据源的奖励,本发明考虑如下设计原则:1)尽可能增加吞吐量。吞吐量是地图数据传输最基本的指标,意味着车辆可以快
速高效地获取地图数据;2)延长链接的持续时间。目的是避免车辆频繁切换数据源带来的额外开销,保持链路稳定可以增加吞吐量;3)减少传输延迟。在自动驾驶场景下,高清地图数据分发对传输时延的要求更高。低延迟意味着数据源可以快速响应车辆的请求,减少数据包排队时间。因此,本发明设计如下奖励函数:
[0121][0122]
其中,表示链路吞吐量,表示链路持续时间,表示当前连接数据源rtt值,通过n
t,i
计算平滑rtt。其它指标系数取值范围为1<<ρ≤2、0<<φ≤0.5。
[0123]
本发明设计奖励函数的目的是最大化预期的累积折扣奖励,计算方法即期望称为γ折扣累积奖赏。折扣因子γ∈(0,1],它决定了奖励的时间尺度。时间越靠后奖赏权重越低,是全部随机变量的期望。
[0124]
为了实现上述实施例,本发明还提出一种车载高清地图数据源选择装置,如图4所示,包括:
[0125]
网络构建模块310,用于构建车载高清地图数据源选择网络,所述车载高清地图数据源选择网络包括离线训练网络和在线选择网络;
[0126]
网络训练模块320,用于利用现有的不同车载高清地图数据源的状态信息作为训练数据集,对所述离线训练网络进行训练,训练完成后将所述离线训练网络的网络参数应用于所述在线选择网络中;
[0127]
数据源选择模块330,用于自动驾驶车辆行驶过程中,将实时接收的多个车载高清地图数据源的状态信息输入训练完成的所述在线选择网络中,输出结果即为对车载高清地图数据源的选择结果。
[0128]
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
[0129]
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
[0130]
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现定制逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本发明的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本发明的实施例所属技术领域的技术人员所理解。
[0131]
在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用
于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用,或结合这些指令执行系统、装置或设备而使用。就本说明书而言,

计算机可读介质

可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(ram),只读存储器(rom),可擦除可编辑只读存储器(eprom或闪速存储器),光纤装置,以及便携式光盘只读存储器(cdrom)。另外,计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序,然后将其存储在计算机存储器中。
[0132]
应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。如,如果用硬件来实现和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(pga),现场可编程门阵列(fpga)等。
[0133]
本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。
[0134]
此外,在本发明各个实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。
[0135]
上述提到的存储介质可以是只读存储器,磁盘或光盘等。尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献