一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种混合自动驾驶决策方法、设备及计算机存储介质与流程

2021-10-20 00:13:00 来源:中国专利 TAG:驾驶 混合 决策 特别 计算机


1.本发明涉及自动驾驶技术领域,特别涉及一种混合自动驾驶决策方法、设备及计算机存储介质。


背景技术:

2.从驾驶员辅助系统到自动驾驶,这一直是业界和学术界广泛研究的热门话题。在可预见的未来,联网自动驾驶汽车(cav)将越来越多地允许人们在驾驶和被驾驶之间进行选择,这开辟了新的出行场景。通常,实现自动驾驶需要六个基本逻辑部分,即感知、定位和地图绘制、路径规划、决策和车辆控制。决策算法将根据传感数据将决策结果输出到车辆控制器,这将进一步影响驾驶行为。因此,决策算法需要处理的主要挑战之一是如何实现自动驾驶所需的高安全性和准确性。
3.目前,在cav决策的研究和应用中,基于专家系统(es)和机器学习的方法已引起关注。专家系统基于独立的预定义知识库(例如,地图和交通规则),允许输入条件产生相应的动作或结论(例如,转向和制动)。这种类型的算法直观、易于推理和理解,易于应用并且具有许多成功的实现方式,例如用于高速公路自动驾驶的智能导航功能、城市自动驾驶推理框架、以及基于模糊规则的移动导航控制策略。基于es的决策算法具有严格的逻辑规则,其中环境决策与行为决策之间的因果关系非常清晰,从而使决策系统具有很高的可解释性。但是,对于基于es的系统,通常很难获得新知识并扩展现有知识库。因此,其有限的知识库可能不适用于新问题,从而难以实现高自动驾驶性能。


技术实现要素:

4.本发明的目的在于针对上述现有技术的不足,提出一种结合了机器学习和专家系统的混合驾驶决策方法,该决策方法利用两种现有策略相辅相成,以克服单个策略的缺点,从而使之有效针对不同驾驶场景的决策。
5.一种混合自动驾驶决策方法,包括:
6.获取当前时刻下,自动驾驶车辆在行驶过程中的实时交通环境信息;
7.基于所述交通环境信息建立本地自动驾驶决策模型;
8.基于所述本地自动驾驶决策模型,使用基于深度强化学习的方法来学习自动驾驶车辆的驾驶行为,并提取驾驶规则;
9.共享所述驾驶规则;
10.扩充已有专家系统知识库;
11.判断是否存在紧急情况,若是,则采用机器学习模型进行决策;若否,基于扩充后已有专家系统知识库对机器学习模型进行调整,由所述机器学习模型进行决策。
12.优选的,基于马尔可夫决策过程模型来构建本地自动驾驶决策模型;所述马尔可夫决策过程模型包括:车辆模型、行人模型和障碍物模型;所述车辆模型表示为:cavv={v1,v2,

,v
nc
},其中nc是cav的总数;
13.所述行人模型表示为:p={p1,p2,

,p
np
},其中np是行人总数;
14.所述障碍物模型表示为:o={o1,o2,

,o
no
},其中no是障碍物的总数。
15.优选的,基于if

then规则来提取驾驶规则中的特定位置、目的地、当前状态和所需的动作;所述if

then规则满足如下关系:
16.if the cav reaches position p*
17.and its driving destination is d*
18.and the state is s*
19.then perform action a*
20.其中,cav为自动驾驶车辆,p*为特定位置,d*为目的地,s*为当前状态,a*为所需的动作。
21.优选的,所述a*包括:加速动作和转向动作;
22.所述加速动作满足如下关系:
[0023][0024]
其中,为加速动作,a
a
为直行加速度;
[0025]
所述转向动作满足如下关系:
[0026][0027]
其中,为转向动作,a
s
为转向加速度。
[0028]
优选的,所述共享所述驾驶规则包括:
[0029]
上载请求消息到节点;所述请求消息包括:
[0030][0031]
其中r
j
和分别为cav
j
的公钥,驾驶规则和私钥;h(block
t
‑1)为最新块的哈希,mecn
i
为区块链中附近的节点。
[0032]
优选的,所述扩充已有专家系统知识库包括:
[0033]
下载驾驶规则集r={r1,r2,...,r
j
,...,r
m
},(m<nc)来扩展已有专家系统知识库;所述驾驶规则集满足如下关系:
[0034]
k=(u,at=c∪d,v,p)
[0035]
其中u是整个对象;at是一组有限的非空属性,分为两部分,其中c是条件属性的集合,包括位置属性和状态属性,而d是决策属性的集合;v是属性的范围;p是一个信息功能。
[0036]
优选的,所述判断是否存在紧急情况包括:利用主观安全距离模型判断是否存在紧急情况;
[0037]
所述主观安全距离模型满足如下关系:
[0038][0039]
其中s
h
(t)代表车辆和主要交通参与者的纵向空间前进距离;s
bp
表示ov的制动距离;x
lt
表示主要交通参与者的纵向位移;s
fd
表示最终跟随距离。
[0040]
优选的,所述基于扩充后已有专家系统知识库对机器学习模型进行调整包括:
[0041]
使用扩充后已有专家系统知识库组合当前本地自动驾驶决策模型以生成总体动作空间,所述总体动作空间包括:加速动作、减速动作和转弯动作。
[0042]
一种混合自动驾驶决策设备,包括:
[0043]
存储器,用于存储计算机程序;
[0044]
处理器,用于执行所述计算机程序时实现上述混合混合自动驾驶决策方法的步骤。
[0045]
一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机程序,所述计算机程序被处理器执行时实现上述混合自动驾驶决策方法的步骤。
[0046]
本技术提供的一种混合自动驾驶决策方法,获取当前时刻下,自动驾驶车辆在行驶过程中的实时交通环境信息;基于所述交通环境信息建立本地自动驾驶决策模型;基于所述本地自动驾驶决策模型,使用基于深度强化学习的方法来学习自动驾驶车辆的驾驶行为,并提取驾驶规则;共享所述驾驶规则;扩充已有专家系统知识库;判断是否存在紧急情况,若是,则采用机器学习模型进行决策;若否,基于扩充后已有专家系统知识库对机器学习模型进行调整,由所述机器学习模型进行决策。该决策方法利用两种现有策略相辅相成,以克服单个策略的缺点,从而使之有效针对不同驾驶场景的决策。
附图说明
[0047]
为了更清楚地说明本技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本技术的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
[0048]
图1为本技术实施例提供的一种混合自动驾驶决策方法的流程图。
[0049]
图2为本技术实施例提供的一种混合自动驾驶决策设备的结构示意图。
[0050]
图3为本技术实施例提供的一种混合自动驾驶决策设备的另一结构示意图。
具体实施方式
[0051]
下面将结合本技术实施例中的附图,对本技术实施例中的技术方案进行清楚、完
整地描述,显然,所描述的实施例仅仅是本技术一部分实施例,而不是全部的实施例。基于本技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本技术保护的范围。
[0052]
请参阅图1,图1为本技术实施例提供的一种混合自动驾驶决策方法的流程图。
[0053]
本技术实施例提供的一种混合自动驾驶决策方法,可以包括以下步骤:
[0054]
步骤s101:获取当前时刻下,自动驾驶车辆在行驶过程中的实时交通环境信息。
[0055]
实际应用中,在自动驾驶过程中,需要根据当前的交通环境信息预测自动驾驶车辆的下一步驾驶动作,所以可以先获取当前时刻下,自动驾驶车辆在行驶过程中的实时交通环境信息,实时交通环境信息的类型可以根据实际需要确定,比如可以借助摄像头、全球定位系统、惯性测量单元、毫米波雷达、激光雷达等车载传感器装置,获取行车环境状态,如天气数据、交通信号灯、交通拓扑信息,自动驾驶车辆、其他交通参与者的位置、运行状态等信息,摄像头获取的直接原始图像数据等原始交通环境信息来直接作为实时交通环境信息,还可以通过refinenet等模型对原始交通环境信息处理得到的深度图和语义分割图作为实时交通环境信息等。
[0056]
步骤s102:基于交通环境信息建立本地自动驾驶决策模型。具体应用场景中,基于马尔可夫决策过程模型来构建本地自动驾驶决策模型;马尔可夫决策过程模型包括:车辆模型、行人模型和障碍物模型;
[0057]
车辆模型表示为:cavv={v1,v2,

,v
nc
},其中nc是cav的总数;
[0058]
行人模型表示为:p={p1,p2,

,p
np
},其中np是行人总数;
[0059]
障碍物模型表示为:o={o1,o2,

,o
no
},其中no是障碍物的总数。
[0060]
步骤s103:基于本地自动驾驶决策模型,使用基于深度强化学习的方法来学习自动驾驶车辆的驾驶行为,并提取驾驶规则。
[0061]
实际应用中,单个车辆所能涉及的交通场景有限,当遇到新的情况时,可能无法做出正确的决策。对于基于es的系统,知识获取存在瓶颈,因此通常难以扩充现有的知识库。对于基于机器学习的方法,则存在训练数据的限制和方法不透明的缺陷。因此,对于不断变化的交通场景,其有限的知识库难以实现高自动驾驶性能。综上,为了扩展自动驾驶车辆知识库的环境适应性,需要设计一种知识库扩充策略。该策略利用多个cav,通过驾驶规则提取、规则共享和知识库扩充的步骤,来扩展每一辆cav的知识库。
[0062]
可以使用基于深度强化学习的方法来学习cav的驾驶行为,并将其用作驾驶规则提取和共享的基础。因此,接下来分别完善动作空间,状态空间和奖励函数。
[0063]
1)动作空间:在行驶过程中,每个cav(包括目标车辆ov)主要控制车辆的加速度和转向角,以实现沿既定路线的安全正确驾驶。因此,时间t的动作空间a(t)由加速度a
a
(t)和转向a
s
(t)组成,可以表示为:
[0064]
a(t)={a
a
(t),a
s
(t)}
[0065]
考虑到驾驶舒适性,加速度选择范围是[

4,2]m/s2。此外,cav通过从[

40,40]度中选择转向角来执行转向操作,该转向角与车辆的最小转弯半径,车辆的轴距和轮胎的偏移量有关。
[0066]
2)状态空间:对于场景中的所有交通参与者,其时间t的状态可以用速度v(t),位置p(t)和行车方向α(t)。对于障碍物(例如路障和道路事故),由于位置固定,它们在时间t
的状态可以通过位置po(t)和大小(即,长度l和宽度w表示)。因此,状态空间可以表示为:
[0067]
s(t)={s
ov
(t),s
vi
(t),s
pj
(t),s
ok
(t)}
[0068]
其中s
ov
(t),s
vi
(t),s
pj
(t)和s
ok
(t)代表ov的状态、其他cav、行人和障碍物;参数i,j和k分别代表交通场景中的第i个cav,第j个行人和第k个障碍物。具体来说,每个时间t的状态可以分解为:
[0069][0070]
考虑到交通参与者之间的相互作用,在给定当前状态s(t)和所选动作a(t)的情况下,转移概率可以表示为:
[0071]
p(s(t 1)|s(t),a(t))=p(s
ov
(t 1)|s
ov
(t),a(t))
[0072]
p(s
vi
(t 1)|s(t))
[0073]
p(s
pj
(t 1)|s(t))
[0074]
车辆ov的动作选择主要基于设计的奖励函数。对于其他cav和行人,有必要遵守基本交通规则(例如cav需要屈服于行人)并确定行为是否安全。因此,其他cav和行人的行为取决于其各自的状态和环境状态。转移概率可以通过cav和行人的动态函数获得,状态变量可以通过传感系统获得。
[0075]
3)奖励函数:在强化学习中,指导cav学习的特定任务奖励功能是重要的组成部分。为了简化学习过程,根据日常驾驶行为设计了一个相对简单的奖励函数,用于奖励或惩罚驾驶中的cav。奖励功能由以下部分组成,即行驶方向的正确性,行驶的安全性和变道的必要性。
[0076]
根据交通法规,车辆的行驶方向必须与道路方向一致。否则,逆行的cav会受到处罚。
[0077]
r1(t)=cosα(t)

sinα(t)
[0078]
其中,α>0表示车辆的行驶方向与道路方向之间的角度。
[0079]
驾驶安全非常重要,因此,如果在驾驶过程中发生事故,cav将受到处罚。特别是,如果在驾驶过程中造成了事故情况,则此事件将结束。
[0080]
r2(t)=

(v(t)2 δ)||{collsion}
[0081]
其中δ>0是权重参数。术语{collsion}表示如果发生碰撞,则值为1,否则为0。另外,行驶速度越高,事故将越严重。
[0082]
在正常情况下,频繁的换道会影响交通效率,甚至会导致交通事故。因此,不主张不必要地改变车道。考虑到驾驶过程中频繁换道的不利影响,当前方x米内没有车辆且当前道路可以行驶到目的地时,将对换道行为进行处罚:
[0083][0084]
其中sh(t)表示前车在同一车道上行驶的空间。
[0085]
最终的奖励函数是三个奖励函数的的加权总和,可以表示为:
[0086][0087]
其中w
i
是权重参数。
[0088]
具体应用场景中,基于if

then规则来提取驾驶规则中的特定位置、目的地、当前状态和所需的动作;if

then规则满足如下关系:
[0089]
if the cav reaches position p*
[0090]
and its driving destination is d*
[0091]
and the state is s*
[0092]
then perform action a*
[0093]
其中,cav为自动驾驶车辆,p*为特定位置,d*为目的地,s*为当前状态,a*为所需的动作。
[0094]
具体应用场景中,a*包括:加速动作和转向动作;
[0095]
加速动作满足如下关系:
[0096][0097]
其中,为加速动作,a
a
为直行加速度;
[0098]
转向动作满足如下关系:
[0099][0100]
其中,为转向动作,a
s
为转向加速度。
[0101]
步骤s104:共享驾驶规则。
[0102]
实际应用中,提取驾驶规则后,相应的cav会将驾驶规则上载到附近的移动边缘计算节点(mecn)进行共享。在规则共享过程中,cav可能会提供不正确的信息或由于各种原因而受到攻击,并且mecn可能不会被完全信任。为了解决规则共享过程中用户隐私和数据安全的问题,采用区块链网络。
[0103]
具体应用场景中,共享驾驶规则包括:
[0104]
上载请求消息到节点;请求消息包括:
[0105][0106]
其中r
j
和分别为cav
j
的公钥,驾驶规则和私钥;h(block
t
‑1)为最新块的哈希,mecn
i
为区块链中附近的节点。
[0107]
mecn
i
将上载驾驶规则添加到新消息中,新消息为:
[0108][0109]
mecn
i
的公钥和私钥分别是和然后,为了验证其有效性,mecn会将记录广播到其他充当验证节点的mecn。在一定时期内,生产者将来自所有cav的汇总记录打包为块。使用带有拜占庭容错的委托股权证明bft

dpos)共识算法达成共识后,此区块将添加到区块链的末尾。
[0110]
步骤s105:扩充已有专家系统知识库。
[0111]
具体应用场景中,扩充已有专家系统知识库:
[0112]
下载驾驶规则集r={r1,r2,...,r
j
,...,r
m
},(m<nc)来扩展已有专家系统知识库;驾驶规则集满足如下关系:
[0113]
k=(u,at=c∪d,v,p)
[0114]
其中u是整个对象;at是一组有限的非空属性,分为两部分,其中c是条件属性的集合,包括位置属性和状态属性,而d是决策属性的集合;v是属性的范围;p是一个信息功能。
[0115]
扩展知识库时,将按以下方式测试提取的驾驶规则:
[0116]
冗余测试:合并具有相同结论但属性不同的驾驶规则。
[0117]
分歧测试:对于具有相同属性和不同结论的驾驶规则,驾驶规则的选择和决策模型的更新均基于当前大多数cav的结论,因此保留了正确的结论。
[0118]
完整性测试:决策模型仅通过完整的驾驶规则来扩展,即驾驶规则具有条件和结论。结果,删除缺少c或d的规则。
[0119]
在提取并测试了上述驾驶规则后,将每个驾驶规则添加到决策模型中,以实现驾驶规则学习的全过程。
[0120]
步骤s106:判断是否存在紧急情况,若是,则采用机器学习模型进行决策;若否,基于扩充后已有专家系统知识库对机器学习模型进行调整,由机器学习模型进行决策。
[0121]
具体应用场景中,基于主观安全距离模型来判断是否存在紧急情况;主观安全距离模型满足如下关系:
[0122][0123]
其中s
h
(t)代表车辆和主要交通参与者的纵向空间前进距离;s
bp
表示ov的制动距离;x
lt
表示主要交通参与者的纵向位移;s
fd
表示最终跟随距离。
[0124]
具体应用场景中,基于扩充后已有专家系统知识库对机器学习模型进行调整包括:
[0125]
使用扩充后已有专家系统知识库组合当前本地自动驾驶决策模型以生成总体动作空间,总体动作空间包括:加速动作、减速动作和转弯动作。
[0126]
其中,cav(指的是ov)到达某个位置p*,使用下载的最新驾驶规则集并扩展已有决策模型组合当前本地自动驾驶决策模型以生成总体动作空间a
*
,其中包括是否加速/减速以及是否转弯。假设ac(t)是当前选定动作,有以下两种情况:
[0127]
如果ac(t)在a
*
中,则ov(dqn代理)的驱动策略与已有决策模型的驱动策略基本相同。选定的动作可以根据以下公示进行更新:
[0128]
a(t)=wa
c
(t) (1

w)a
*
[0129]
如果a
c
(t)不在a
*
中,则ov(dqn代理)的驱动策略与已有决策模型的驱动策略不一致。造成这种情况的主要原因有两个。一方面,可能是ov的性能不足或导航信息未更新,从而导致代理选择了不合适的操作。另一方面,道路环境可能会发生变化,例如清除了临时路障,并且尚未更新已有决策模型在这种情况下,有必要确定原因。
[0130]
对于第一种情况,根据已有决策模型选择操作。对于第二种情况,ov需要根据交通环境做出自己的决策。
[0131]
本技术提供的一种混合自动驾驶决策方法,获取当前时刻下,自动驾驶车辆在行驶过程中的实时交通环境信息;基于所述交通环境信息建立本地自动驾驶决策模型;基于所述本地自动驾驶决策模型,使用基于深度强化学习的方法来学习自动驾驶车辆的驾驶行为,并提取驾驶规则;共享所述驾驶规则;扩充已有专家系统知识库;判断是否存在紧急情况,若是,则采用机器学习模型进行决策;若否,基于扩充后已有专家系统知识库对机器学习模型进行调整,由所述机器学习模型进行决策。该决策方法利用两种现有策略相辅相成,以克服单个策略的缺点,从而使之有效针对不同驾驶场景的决策。同时利用区块链网络进行规则的共享,能够防止cav可能会提供不正确的信息或由于各种原因而受到攻击,并且mecn可能不会被完全信任的情况。
[0132]
请参阅图2,本技术实施例提供的一种混合自动驾驶设备,包括存储器101和处理器102,存储器101中存储有计算机程序,处理器102执行计算机程序时实现如下步骤:
[0133]
获取当前时刻下,自动驾驶车辆在行驶过程中的实时交通环境信息;
[0134]
基于交通环境信息建立本地自动驾驶决策模型;
[0135]
基于本地自动驾驶决策模型,使用基于深度强化学习的方法来学习自动驾驶车辆的驾驶行为,并提取驾驶规则;
[0136]
共享驾驶规则;
[0137]
扩充已有专家系统知识库;
[0138]
判断是否存在紧急情况,若是,则采用机器学习模型进行决策;若否,基于扩充后已有专家系统知识库对机器学习模型进行调整,由机器学习模型进行决策。
[0139]
本技术实施例提供的一种混合自动驾驶设备,包括存储器101和处理器102,存储器101中存储有计算机程序,处理器102执行计算机程序时实现如下步骤:
[0140]
基于马尔可夫决策过程模型来构建本地自动驾驶决策模型;马尔可夫决策过程模型包括:车辆模型、行人模型和障碍物模型;
[0141]
车辆模型表示为:cavv={v1,v2,

,v
nc
},其中nc是cav的总数;
[0142]
行人模型表示为:p={p1,p2,

,p
np
},其中np是行人总数;
[0143]
障碍物模型表示为:o={o1,o2,

,o
no
},其中no是障碍物的总数。
[0144]
本技术实施例提供的一种混合自动驾驶设备,包括存储器101和处理器102,存储器101中存储有计算机程序,处理器102执行计算机程序时实现如下步骤:
[0145]
基于if

then规则来提取驾驶规则中的特定位置、目的地、当前状态和所需的动作;if

then规则满足如下关系:
[0146]
if the cav reaches position p*
[0147]
and its driving destination is d*
[0148]
and the state is s*
[0149]
then perform action a*
[0150]
其中,cav为自动驾驶车辆,p*为特定位置,d*为目的地,s*为当前状态,a*为所需的动作。
[0151]
a*包括:加速动作和转向动作;
[0152]
加速动作满足如下关系:
[0153][0154]
其中,为加速动作,a
a
为直行加速度;
[0155]
转向动作满足如下关系:
[0156][0157]
其中,为转向动作,a
s
为转向加速度。
[0158]
本技术实施例提供的一种混合自动驾驶设备,包括存储器101和处理器102,存储器101中存储有计算机程序,处理器102执行计算机程序时实现如下步骤:
[0159]
上载请求消息到节点;请求消息包括:
[0160][0161]
其中r
j
和分别为cav
j
的公钥,驾驶规则和私钥;h(block
t
‑1)为最新块的哈希,mecn
i
为区块链中附近的节点。
[0162]
本技术实施例提供的一种混合自动驾驶设备,包括存储器101和处理器102,存储器101中存储有计算机程序,处理器102执行计算机程序时实现如下步骤:
[0163]
下载驾驶规则集r={r1,r2,...,r
j
,...,r
m
},(m<nc)来扩展已有专家系统知识库;驾驶规则集满足如下关系:
[0164]
k=(u,at=c∪d,v,p)
[0165]
其中u是整个对象;at是一组有限的非空属性,分为两部分,其中c是条件属性的集合,包括位置属性和状态属性,而d是决策属性的集合;v是属性的范围;p是一个信息功能。
[0166]
本技术实施例提供的一种混合自动驾驶设备,包括存储器101和处理器102,存储器101中存储有计算机程序,处理器102执行计算机程序时实现如下步骤:
[0167]
利用主观安全距离模型判断是否存在紧急情况;
[0168]
主观安全距离模型满足如下关系:
[0169][0170]
其中s
h
(t)代表车辆和主要交通参与者的纵向空间前进距离;s
bp
表示ov的制动距离;x
lt
表示主要交通参与者的纵向位移;s
fd
表示最终跟随距离。
[0171]
本技术实施例提供的一种混合自动驾驶设备,包括存储器101和处理器102,存储器101中存储有计算机程序,处理器102执行计算机程序时实现如下步骤:
[0172]
使用扩充后已有专家系统知识库组合当前本地自动驾驶决策模型以生成总体动作空间,总体动作空间包括:加速动作、减速动作和转弯动作。
[0173]
请参阅图3,本技术实施例提供的另一种混合自动驾驶设备中还可以包括:与处理器102连接的输入端口103,用于传输外界输入的命令至处理器102;与处理器102连接的显示单元104,用于显示处理器102的处理结果至外界;与处理器102连接的通信模块105,用于实现自动驾驶设备与外界的通信。显示单元104可以为显示面板、激光扫描使显示器等;通信模块105所采用的通信方式包括但不局限于移动高清链接技术(hml)、通用串行总线(usb)、高清多媒体接口(hdmi)、无线连接:无线保真技术(wifi)、蓝牙通信技术、低功耗蓝牙通信技术、基于ieee802.11s的通信技术。
[0174]
本技术实施例提供的一种计算机可读存储介质,计算机可读存储介质中存储有计算机程序,计算机程序被处理器执行时实现如下步骤:
[0175]
获取当前时刻下,自动驾驶车辆在行驶过程中的实时交通环境信息;
[0176]
基于交通环境信息建立本地自动驾驶决策模型;
[0177]
基于本地自动驾驶决策模型,使用基于深度强化学习的方法来学习自动驾驶车辆的驾驶行为,并提取驾驶规则;
[0178]
共享驾驶规则;
[0179]
扩充已有专家系统知识库;
[0180]
判断是否存在紧急情况,若是,则采用机器学习模型进行决策;若否,基于扩充后已有专家系统知识库对机器学习模型进行调整,由机器学习模型进行决策。
[0181]
本技术实施例提供的一种计算机可读存储介质,计算机可读存储介质中存储有计算机程序,计算机程序被处理器执行时实现如下步骤:
[0182]
基于马尔可夫决策过程模型来构建本地自动驾驶决策模型;马尔可夫决策过程模型包括:车辆模型、行人模型和障碍物模型;
[0183]
车辆模型表示为:cavv={v1,v2,

,v
nc
},其中nc是cav的总数;
[0184]
行人模型表示为:p={p1,p2,

,p
np
},其中np是行人总数;
[0185]
障碍物模型表示为:o={o1,o2,

,o
no
},其中no是障碍物的总数。
[0186]
本技术实施例提供的一种计算机可读存储介质,计算机可读存储介质中存储有计算机程序,计算机程序被处理器执行时实现如下步骤:
[0187]
基于if

then规则来提取驾驶规则中的特定位置、目的地、当前状态和所需的动作;if

then规则满足如下关系:
[0188]
if the cav reaches position p*
[0189]
and its driving destination is d*
[0190]
and the state is s*
[0191]
then perform action a*
[0192]
其中,cav为自动驾驶车辆,p*为特定位置,d*为目的地,s*为当前状态,a*为所需的动作。
[0193]
a*包括:加速动作和转向动作;
[0194]
加速动作满足如下关系:
[0195][0196]
其中,为加速动作,a
a
为直行加速度;
[0197]
转向动作满足如下关系:
[0198]
[0199]
其中,为转向动作,a
s
为转向加速度。
[0200]
本技术实施例提供的一种计算机可读存储介质,计算机可读存储介质中存储有计算机程序,计算机程序被处理器执行时实现如下步骤:
[0201]
上载请求消息到节点;请求消息包括:
[0202][0203]
其中r
j
和分别为cav
j
的公钥,驾驶规则和私钥;h(block
t
‑1)为最新块的哈希,mecn
i
为区块链中附近的节点。
[0204]
本技术实施例提供的一种计算机可读存储介质,计算机可读存储介质中存储有计算机程序,计算机程序被处理器执行时实现如下步骤:
[0205]
下载驾驶规则集r={r1,r2,...,r
j
,...,r
m
},(m<nc)来扩展已有专家系统知识库;驾驶规则集满足如下关系:
[0206]
k=(u,at=c∪d,v,p)
[0207]
其中u是整个对象;at是一组有限的非空属性,分为两部分,其中c是条件属性的集合,包括位置属性和状态属性,而d是决策属性的集合;v是属性的范围;p是一个信息功能。
[0208]
本技术实施例提供的一种计算机可读存储介质,计算机可读存储介质中存储有计算机程序,计算机程序被处理器执行时实现如下步骤:
[0209]
利用主观安全距离模型判断是否存在紧急情况;
[0210]
主观安全距离模型满足如下关系:
[0211][0212]
其中s
h
(t)代表车辆和主要交通参与者的纵向空间前进距离;s
bp
表示ov的制动距离;x
lt
表示主要交通参与者的纵向位移;s
fd
表示最终跟随距离。
[0213]
本技术实施例提供的一种计算机可读存储介质,计算机可读存储介质中存储有计算机程序,计算机程序被处理器执行时实现如下步骤:
[0214]
使用扩充后已有专家系统知识库组合当前本地自动驾驶决策模型以生成总体动作空间,总体动作空间包括:加速动作、减速动作和转弯动作。
[0215]
本技术所涉及的计算机可读存储介质包括随机存储器(ram)、内存、只读存储器(rom)、电可编程rom、电可擦除可编程rom、寄存器、硬盘、可移动磁盘、cd

rom、或技术领域内所公知的任意其它形式的存储介质。
[0216]
本技术实施例提供的混合自动驾驶设备及计算机可读存储介质中相关部分的说明请参见本技术实施例提供的混合自动驾驶决策方法中对应部分的详细说明,在此不再赘
述。另外,本技术实施例提供的上述技术方案中与现有技术中对应技术方案实现原理一致的部分并未详细说明,以免过多赘述。
[0217]
还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个
……”
限定的要素,并不排除在包括要素的过程、方法、物品或者设备中还存在另外的相同要素。
[0218]
对所公开的实施例的上述说明,使本领域技术人员能够实现或使用本技术。对这些实施例的多种修改对本领域技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本技术的精神或范围的情况下,在其它实施例中实现。因此,本技术将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文章

  • 日榜
  • 周榜
  • 月榜