一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种融合驾驶风格博弈的智能车交叉口直行速度决策方法

2022-11-19 10:07:09 来源:中国专利 TAG:


1.本发明属于智能汽车驾驶行为决策技术领域,尤其涉及一种融合驾驶风格 博弈的智能车交叉口直行速度决策方法。


背景技术:

2.随着科学技术水平的进步,汽车智能化程度也在不断提高,由此带来的交 通安全隐患也愈加严重。城市结构化道路交叉口是道路交通中最拥堵、最复杂 的场景,同时也是最容易发生交通事故的场景。据统计全世界平均在交叉口处 发生的交通事故是事故总数的30%~35%。在国内,交叉口处发生的道路交通事 故占比更是在50%以上。而无信号灯的交叉口由于缺乏信号灯的指引,智能车 辆的通行问题也更为复杂,相互之间存在大量的干扰和冲突,其事故发生率比 有信号灯的路口更高,事故程度也更加严重。
3.由此可见,在无信号灯交叉口直行场景下,要想使得智能车在沿着既定的 宏观路径下安全高效地通过路口,研究自动驾驶车辆之间的交互决策至关重要。 以往针对这一问题的研究中,用到的方法或多或少都有些不尽人意的地方。例 如基于规则的决策方法需要对研究对象建模,以线性表示的方法对驾驶规则进 行抽象,这一过程忽略了较多信息,模型相对复杂且所涉及的约束条件较多; 基于效用理论的决策方法,只考虑了选择最大收益来决定采取哪种通行策略而 忽视了通行过程中多车交互行为所带来的影响;基于深度强化学习的决策方法 虽然适应性较强,但其采样效率差,训练周期长,奖励函数设计较为困难。
4.并且以往对自动驾驶决策的研究通常只关注了驾驶策略安全性等指标,少 有研究考虑驾驶风格的差异。而对于智能车内不同乘客而言,单一的驾驶风格 无法满足所有乘客的个性化需求。因此,智能汽车在无信号灯交叉口的通行交 互决策中使其体现出带有驾驶风格特征的驾驶行为,对模拟交通环境的真实性 和多样性具有重要意义。


技术实现要素:

5.本发明的目的在于提供一种融合驾驶风格博弈的智能车交叉口直行速度决 策方法,旨在解决基于规则的决策方法模型复杂,约束条件较多;基于效用理 论的决策方法忽视多车交互行为所带来的影响;基于深度强化学习的决策方法 采样效率差,训练周期长,奖励函数设计较为困难,且均没有考虑驾驶风格差 异影响的问题。
6.本发明是这样实现的,一种融合驾驶风格博弈的智能车交叉口直行速度决 策方法,所述融合驾驶风格博弈的智能车交叉口直行速度决策方法包括如下步 骤:
7.s1、当各车到达路口前实线时,采集周围车辆的行驶状态信息并识别车辆 自身及周围车辆的驾驶风格;
8.s2、对车辆驾驶风格类型进行分析记录,建立融合驾驶风格的路口直行车 辆非合作动态博弈收益矩阵;
9.s3、依据可能碰撞时间ttc对动态博弈中每轮阶段博弈的所有参与者的决 策先后
顺序进行实时调整;
10.s4、通过逆向归纳法求解出每轮阶段博弈的子博弈精炼纳什均衡解,决策 出本轮各车应采取的最优加速度策略;
11.s5、更新车辆状态及环境信息并开始下轮阶段博弈,重复执行上述所有步 骤,直到各智能车安全通过交叉口而退出博弈。
12.优选地,所述步骤s1中,通过加速度的变化率识别驾驶风格并将驾驶风格 划分为激进型、正常型及保守型;
13.提出驾驶风格识别系数s
vehicle
定义为:
[0014][0015][0016]
其中,j(t)为智能车单位时间内加速度的变化率,sj为驾驶风格识别周期 内加速度变化率的标准差,为识别周期内加速度变化率的平均值,v(t)为智能 车辆行驶速度;
[0017]
具体划分标准为:s
vehicle
≥1时该车辆驾驶风格为激进型,0.5<s
vehicle
<1时 该车辆驾驶风格为正常型,s
vehicle
≤0.5时该车辆驾驶风格为保守型。
[0018]
优选地,所述步骤s2中建立的车辆非合作动态博弈收益矩阵,包括:考虑 驾驶风格的安全性收益p
safe
、考虑驾驶风格的行车效率收益p
eff
、考虑乘客体验 的舒适度收益p
com
和考虑燃油消耗的经济性收益p
eco

[0019]
车辆i头部到达冲突区域时间为:
[0020][0021]
其中,为上一阶段博弈结束时车辆i的速度或当前阶段博弈开始时车辆 i的速度,为当前阶段博弈车辆i可能从加速度候选集中采取的加速度策略, di为当前车辆i头部到冲突区域近端边缘的距离;
[0022]
车辆i尾部刚驶离冲突区域时间为:
[0023][0024]
其中,li为车辆i的长度,w为车道宽度;
[0025]
车辆i与j的绝对安全时间差为:
[0026]
δt
ij
=t
i-τj或δt
ij
=t
j-τi;
[0027]
优选地,所述δt
ij
大于0,用于根据安全性门槛将加速度候选集中,使绝对 安全时间差为负的加速度策略对排除。
[0028]
考虑驾驶风格的安全性收益定义为:
[0029]
车辆i为激进型时:
[0030]
车辆i为正常型时:
[0031]
车辆i为保守型时:
[0032]
其中,δt
max
为绝对安全时间差的上限值。
[0033]
考虑驾驶风格的行车效率收益定义为:
[0034][0035]
其中,0<θ<1,v
max
为路口限制的最大速度,为当前阶段博弈车辆i可 能采取的加速度策略所对应的速度,v
ibest
为车辆i的驾驶风格下所对应的最优 速度;
[0036]
车速收益在车速较低时迅速增加,在高速时呈指数形式饱和。
[0037]
考虑乘客体验的舒适度收益定义为:
[0038][0039]
其中,为当前阶段博弈中可能采取的加速度,为上一阶段博弈决策 出的最优加速度,a
max
、a
min
为限定的最大加速度和最大减速度。
[0040]
燃油消耗率由速度函数表出:
[0041][0042][0043]
其中,为当前阶段博弈车辆的平均速度,为当前阶段博弈开始时车辆 i的速度,t为阶段博弈周期,a、e、f、g为常量系数;
[0044]
所述考虑燃油消耗的经济性收益定义为:
[0045][0046]
其中,e
min
、e
max
分别代表经济性指标的参考下界和上界。
[0047]
总收益矩阵由四个收益指标及其相应权重系数构建而成:
[0048][0049]
σ1 σ2 σ3 σ4=1
[0050][0051][0052]
其中,σ1、σ2、σ3、σ4分别表示车辆对安全性需求、效率性需求、舒适 性需求和经济性需求的权重系数,四项权重总和等于1,同时,设定路口通行时 车辆最大加减速度以及最大速度等约束,a
max
和a
min
分别表示车辆的最大加速度 和最大减速度,车辆最小速度为0,v
max
表示道路限速条件。
[0053]
优选地,所述步骤s3中本发明依据可能碰撞时间ttc对动态博弈中每轮 阶段博弈的所有参与者的决策先后顺序进行实时调整;
[0054]
具有冲突的两车的可能碰撞时间表示为:两车都以当前时刻的速度和加速 度行驶以到达路口冲突区域的时间差,具体公式定义如下:
[0055][0056]
分别为车辆i、j以上一阶段博弈结束时的速度和上一阶段博弈决策 出的最优加速度行驶,路口四车可能碰撞时间依次为t
ab
,t
bc
,t
cd
,t
da

[0057]
确定序贯规则为:首先找出四个可能碰撞时间中的最小值,即 min{t
ab
,t
bc
,t
cd
,t
da
},例如若t
ab
最小,则优先决策者将在a车和b车之 间考虑;在此基础上进一步比较与a车和b车有关的t
da
和t
bc
的大小,若 t
da
》t
bc
,则b车为第一决策者,a车为第二决策者,c车为第三决策者,d
[0058]
优选地,所述步骤s4中的纳什均衡解定义为:
[0059]
在博弈策略g={a1,a2…an
;u1,u2…
un}中,有n个博弈参与者,a1,a2…an
表示参与者1,2,

n的行为策略集合,u1,u2…
un为各个参与者的行为收益, 每个博弈参与者的任意一个策略相互之间组成一个策略组合(a1*,a2*
…an
*), 如果对于任意博弈方i,策略ai*都是在给定其他参与者策略(a1*,a2*
…ai-1
*,a
i 1
*
…ꢀan-1
*an*)情况下i的最优应对策略,即:ui(a1*,a2*
…ai-1
*,a
i 1
*
…an
*)≥ui(a1*,a2*
…ai-1
*,ak*,a
i 1
*
…an-1
*an*);
[0060]
对于任意的ak∈ai均成立,则称该策略组合(a1*,a2*
…an
*)为博弈g的一 个纳什均衡解;
[0061]
本发明通过逆向归纳法求解每轮阶段博弈的子博弈精炼纳什均衡解,从动 态博弈树末端的最后一个阶段或最后一个子博弈开始,根据收益大小依次倒推 向前删去每个
可选策略分支中作为劣势策略的动作;逐层递进实现在每一个子 博弈中的纳什均衡;
[0062]
在下轮阶段博弈开始时更新自身车辆和周围车辆的状态参数信息及道路环 境信息,以进行新一轮的滚动博弈交互决策,并重复执行步骤一至步骤四,直 到所有车辆安全顺利地通过交叉口而退出博弈,并以退出时刻的速度匀速行驶。
[0063]
本发明实施例提供的一种融合驾驶风格博弈的智能车交叉口直行速度决策 方法,具有以下有益效果:
[0064]
1.针对交通情况复杂的无信号灯道路交叉口,能在无需识别他车行驶意图的 前提下,通过博弈交互充分考虑他车的动态性和不确定性,实现智能车辆沿着 既定路径行驶时安全有效的速度决策。
[0065]
2.考虑自动驾驶决策个性化方面的需求,将驾驶风格融入博弈决策算法中, 使得驾驶收益既有理性的最优选择,也有根据自身驾驶习惯风格做出的感性判 断,从而在保证驾驶安全性的前提下有效地消除了交叉口通行冲突并明确路权, 同时也能满足各车对于高效性和舒适性等要求,提高了智能车在路口决策的流 畅度和拟人程度。
[0066]
3.考虑动态博弈参与者博弈顺序对解的影响,依据可能碰撞时间ttc对参 与者的行动顺序进行调整,符合人类驾驶员在遭遇路口冲突时对于碰撞紧迫度 的先后反应顺序,使得每轮博弈中各车所做决策的收益值更真实可靠,更加切 合实际道路交通场景。
附图说明
[0067]
图1为本发明实施例提供的融合驾驶风格博弈的智能车交叉口直行速度决 策流程图;
[0068]
图2为本发明实施例提供的融合驾驶风格博弈的智能车交叉口直行速度决 策的结构原理图;
[0069]
图3为本发明实施例提供的两车安全无碰撞地通过交叉口的一种情况示意 图;
[0070]
图4为本发明实施例提供的两车安全无碰撞地通过交叉口的另一种情况示 意图;
[0071]
图5为本发明实施例提供的以可能碰撞时间ttc确定各车决策顺序原理图;
[0072]
图6为本发明实施例提供的动态博弈树示意图;
[0073]
图7为本发明实施例提供的逆向归纳法求解原理图;
[0074]
图8为本发明实施例提供的无信号灯道路交叉口直行车道内各智能车辆之 间交互及冲突区域示意图。
具体实施方式
[0075]
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实 施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅 仅用以解释本发明,并不用于限定本发明。
[0076]
以下结合具体实施例对本发明的具体实现进行详细描述。
[0077]
如图1所示,本发明实施例提供一种融合驾驶风格博弈的智能车交叉口直 行速度决策方法,用于智能汽车在无信号灯交叉路口直行时,在满足安全性等 指标的前提下可执行的最优决策。
[0078]
如图2所示,感知系统通过获取本车和周围车辆的状态信息并根据获取到 的信息
辨识出相应的驾驶风格,然后将获取到的车辆信息作为非合作动态博弈 决策系统的输入;通过模型计算及收益最大原则选取并输出各车的最优加速度 策略,并在下一时刻更新本车和周车的相关信息,重复循环执行以上操作,当 该车已安全通过交叉路口的所有冲突区域时自动退出博弈并恢复正常驾驶模 式。
[0079]
具体包括以下工作步骤:
[0080]
s1、当各车到达路口前实线时,采集周围车辆的行驶状态信息并识别车辆 自身及周围车辆的驾驶风格;
[0081]
当车辆到达路口前实线起始点处时开始进入博弈,自身车辆感知系统可根 据v2v系统或车载摄像头、毫米波雷达、测速测距传感器等获取周围车辆的行 驶状态信息,同时将本车自身的行驶状态信息一同传输到决策系统,这些参数 信息包括相对于大地坐标系下的横纵位置、车辆纵向速度、车辆纵向加速度、 与冲突区域距离、周围驾驶环境等;
[0082]
此外本发明对于获取到的纵向加速度信息,通过加速度变化率识别驾驶风 格,将驾驶风格类型划分为激进型、正常型及保守型;
[0083]
提出驾驶风格识别系数s
vehicle
定义为:
[0084][0085][0086]
其中,j(t)为智能车单位时间内加速度的变化率,sj为驾驶风格识别周期 内加速度变化率的标准差,j为识别周期内加速度变化率的平均值,v(t)为智能 车辆行驶速度;
[0087]
具体划分标准为:s
vehicle
≥1时该车辆驾驶风格为激进型,0.5<s
vehicle
<1时 该车辆驾驶风格为正常型,s
vehicle
≤0.5时该车辆驾驶风格为保守型。
[0088]
s2、对车辆驾驶风格类型进行分析记录,建立融合驾驶风格的路口直行车 辆非合作动态博弈收益矩阵;
[0089]
本发明将智能车辆驾驶风格与动态博弈相结合,建立融合驾驶风格的动态 博弈收益矩阵,包括:考虑驾驶风格的安全性收益,考虑驾驶风格的行车效率 收益,考虑乘客体验的舒适度收益和考虑燃油消耗的经济性收益,总收益矩阵 由四个收益指标及其相应权重系数构建而成;
[0090]
所述考虑驾驶风格的安全性收益表示:用于衡量可能具有冲突的两车是否 存在碰撞风险或无碰撞风险的可靠程度,模拟不同驾驶风格对待路权和绝对安 全时间差之间的侧重度。激进型风格面对潜在冲突时更想抢得路权,保守型风 格则更想让出路权,因此这两种风格对待路权的优先级高于绝对安全时间差; 正常型风格不看重路权,因此只注重绝对安全时间差的大小。
[0091]
将具有潜在冲突的两车所在车道的道路边线分别向交叉口延伸,所交汇形 成的方形区域即为冲突区域;
[0092]
为保证两车通过交叉口的安全性,其充要条件为先到车辆的尾部已完全通 过冲突区域,而后到车辆的头部刚刚到达冲突区域,即如图3、图4所示,展现 了两车安全无碰撞地通过交叉口的两种情况;
[0093]
车辆i头部到达冲突区域时间为:
[0094][0095]
其中,为上一阶段博弈结束时车辆i的速度或当前阶段博弈开始时车辆 i的速度,为当前阶段博弈车辆i可能从加速度候选集中采取的加速度策略,di为当前车辆i头部到冲突区域近端边缘的距离;
[0096]
车辆i尾部刚驶离冲突区域时间为:
[0097][0098]
其中,li为车辆i的长度,w为车道宽度;
[0099]
车辆i与j的绝对安全时间差为:
[0100]
δt
ij
=t
i-τj或δt
ij
=t
j-τi;
[0101]
优选地,所述δt
ij
大于0,用于根据安全性门槛将加速度候选集中,使绝对 安全时间差为负的加速度策略对排除。
[0102]
考虑驾驶风格的安全性收益定义为:
[0103]
车辆i为激进型时:
[0104]
车辆i为正常型时:
[0105]
车辆i为保守型时:
[0106]
其中,δt
max
为绝对安全时间差的上限值。
[0107]
考虑驾驶风格的行车效率收益定义为:
[0108][0109]
其中,0<θ<1,v
max
为路口限制的最大速度,为当前阶段博弈车辆i可 能采取的加速度策略所对应的速度,v
ibest
为车辆i的驾驶风格下所对应的最优 速度;
[0110]
车速收益在车速较低时迅速增加,在高速时呈指数形式饱和。
[0111]
考虑乘客体验的舒适度收益定义为:
[0112][0113]
其中,为当前阶段博弈中可能采取的加速度,为上一阶段博弈决策 出的最优加速度,a
max
、a
min
为限定的最大加速度和最大减速度;
[0114]
所述考虑燃油消耗的经济性收益表示:当前阶段博弈可能采取的加速度策 略达到的对应速度对于燃油消耗大小的影响,从经济成本角度表示节约能源带 来的收益;
[0115]
燃油消耗率可以表示为速度的函数:
[0116][0117][0118]
其中,为当前阶段博弈车辆的平均速度,为当前阶段博弈开始时车辆 i的速度,t为阶段博弈周期,a、e、f、g为常量系数,取a=

0.67944,e=0.029665, f=

0.00028,g=0.00000149;
[0119]
考虑燃油消耗的经济性收益定义为:
[0120][0121]
其中,e
min
、e
max
分别代表经济性指标的参考下界和上界。
[0122]
总收益矩阵由四个收益指标及其相应权重系数构建而成:
[0123][0124]
σ1 σ2 σ3 σ4=1
[0125][0126][0127]
其中,σ1、σ2、σ3、σ4分别表示车辆对安全性需求、效率性需求、舒适 性需求和经济性需求的权重系数,四项权重总和等于1,同时,设定路口通行时 车辆最大加减速度以及最大速度等约束,a
max
和a
min
分别表示车辆的最大加速度 和最大减速度,车辆最小速度为0,v
max
表示道路限速条件。
[0128]
s3、依据可能碰撞时间ttc对动态博弈中每轮阶段博弈的所有参与者的决 策先后顺序进行实时调整;
[0129]
步骤s3中本发明依据可能碰撞时间ttc对动态博弈中每轮阶段博弈的所 有参与者的决策先后顺序进行实时调整;
[0130]
由于动态博弈参与者的先后博弈顺序会对最优解存在较大影响,因此本发 明依
据可能碰撞时间ttc对动态博弈中每轮阶段博弈的所有参与者的决策先后 顺序进行实时调整,确保整个博弈决策的有序进行;
[0131]
具有冲突的两车的可能碰撞时间表示为:两车都以当前时刻的速度和加速 度行驶以到达路口冲突区域的时间差,具体公式定义如下:
[0132][0133]
分别为车辆i、j以上一阶段博弈结束时的速度和上一阶段博弈决策 出的最优加速度行驶,头部到达冲突区域的时间,路口四车可能碰撞时间依次 为t
ab
,t
bc
,t
cd
,t
da

[0134]
确定序贯规则为:首先找出四个可能碰撞时间中的最小值,即 min{t
ab
,t
bc
,t
cd
,t
da
},例如若t
ab
最小,则优先决策者将在a车和b车之 间考虑;在此基础上进一步比较与a车和b车有关的t
da
和t
bc
的大小,若 t
da
》t
bc
,则b车为第一决策者,a车为第二决策者,c车为第三决策者,d 车为第四决策者,整体决策顺序为:b
→a→c→
d;若t
da
《t
bc
,则a车为第 一决策者,b车为第二决策者,d车为第三决策者,c车为第四决策者,整体 决策顺序为:a
→b→d→
c,其他不同顺序情况均可通过该规则进行确定。
[0135]
如图5所示,以可能碰撞时间ttc确定各车决策顺序共有8种情况,均可 通过该规则进行确定;
[0136]
s4、通过逆向归纳法求解出每轮阶段博弈的子博弈精炼纳什均衡解,决策 出本轮各车应采取的最优加速度策略;
[0137]
建立各车的加速度候选集合:设定a
max
=4m/s,a
min
=-4m/s,集合精度 δa=0.4;
[0138]
如图6所示,通过收益矩阵计算候选集中每组加速度策略组合所对应的各 车收益,并根据各车先后顺序生成动态博弈树;
[0139]
在博弈策略g={a1,a2…an
;u1,u2…
un}中,有n个博弈参与者,a1,a2…an
表示参与者1,2,

n的行为策略集合,u1,u2…
un为各个参与者的行为收益, 每个博弈参与者的任意一个策略相互之间组成一个策略组合(a1*,a2*
…an
*), 如果对于任意博弈方i,策略ai*都是在给定其他参与者策略(a1*,a2*
…ai-1
*,a
i 1
*
…ꢀan-1
*an*)情况下i的最优应对策略,即:ui(a1*,a2*
…ai-1
*,a
i 1
*
…an
*)≥ui(a1*,a2*
…ꢀai-1
*,ak*,a
i 1
*
…an-1
*an*);
[0140]
对于任意的ak∈ai均成立,则称该策略组合(a1*,a2*
…an
*)为博弈g的一 个纳什均衡解;
[0141]
动态博弈中先行动的参与者,在前面阶段选择策略时必然会考虑后行动参 与者在后面阶段中的策略选择,只有在最后一阶段的参与者才能不受其他参与 者的制约而直接做出选择,而当后面阶段参与者的选择确定后,前一阶段参与 者的策略也就此确定;
[0142]
如图7所示,本发明通过逆向归纳法求解每轮阶段博弈的子博弈精炼纳什 均衡解,从动态博弈树末端的最后一个阶段或最后一个子博弈开始,根据由后 往前的参与者收益大小,在每一分支中以选取自身收益最大化为原则,依次倒 推向前删去每个可选策略分支中作为劣势策略的动作;逐层递进实现在每一个 子博弈中的纳什均衡;
[0143]
子博弈精炼纳什均衡解将纳什均衡中包含不可置信威胁的纳什均衡剔除, 使得
均衡策略中不再包含不可置信威胁,从而在考虑实际交通环境下决策出本 轮各车应采取的最优加速度策略;
[0144]
s5、更新车辆状态及环境信息并开始下轮阶段博弈,重复执行上述所有步 骤,直到各智能车安全通过交叉口而退出博弈。
[0145]
在下轮阶段博弈开始时更新自身车辆和周围车辆的状态参数信息及道路环 境信息,以进行新一轮的滚动博弈交互决策,并重复执行步骤一至步骤四,直 到所有车辆安全顺利地通过交叉口而退出博弈,并以退出时刻的速度匀速行驶。
[0146]
每辆智能车均会通过两个冲突区域,因此将车辆退出博弈的条件设定为当 该车已完全通过第二个冲突区域时即可退出博弈,即此时可视为该车对其他智 能车辆的行驶安全性没有影响;
[0147]
本发明实施例中所适用场景如图8所示,受道路交通标识限制,当前路口 只允许车辆直行不允许车辆左右转弯,车辆路口直行时保持中间车道行驶;
[0148]
交叉口直行车道内a,b,c,d四车的未来行驶轨迹之间存在冲突区域;
[0149]
每辆车均需经过两个冲突区域,即均有两辆车与其具有潜在的碰撞影响;
[0150]
特殊地,a车与c车之间无冲突关系,b车与d车之间无冲突关系;
[0151]
每辆车需要获取到的参数信息向量表示为
[0152]
本发明提出了一种融合驾驶风格博弈的智能车交叉口直行速度决策方法, 用于解决智能车辆在复杂的无信号灯交叉口开放场景下的通行问题。将车辆驾 驶风格类型考虑到动态博弈过程中,进行基于驾驶风格的博弈收益矩阵设计, 求解动态博弈来得到各车的最优行为策略,从而使智能车既安全流畅地通过路 口,也更加符合人类驾驶员的操作习惯。
[0153]
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发 明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明 的保护范围之内。
再多了解一些

本文用于创业者技术爱好者查询,仅供学习研究,如用于商业用途,请联系技术所有人。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献