一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

复杂场景下的无人驾驶汽车决策系统及决策方法

2022-08-13 10:19:54 来源:中国专利 TAG:


1.本发明属于无人驾驶汽车的技术领域,具体涉及一种复杂场景下的无人驾驶汽车决策系统及决策方法。


背景技术:

2.目前,无人驾驶汽车仍很难落地于真实场景。当下,无人驾驶汽车中的决策系统或方法大多基于数据驱动,且仅在少量高频场景下进行模拟和测试,对其他大量低频的陌生场景或未经训练测试的场景,现有决策系统和方法往往难以做到有效的训练类型覆盖,导致无人车决策系统适应能力较差。
3.现有的无人驾驶汽车的决策系统和方法大多数基于深度学习,为了能够适应不同场景深度学习网络需要做出妥协,无法有针对性进行最优决策,导致出现灾难性遗忘引起安全问题。此外,尽管基于元强化学习的方法在深度学习中被广泛应用,但元强化学习的方法只能够有效应对已训练场景和部分近似场景,而对驾驶场景的“长尾效应”显然无法应对,特别是与训练场景相似度较低的陌生复杂场景难以进行识别决策。


技术实现要素:

4.为了克服现有技术存在的一个或者多个缺陷与不足,本发明的第一目的在于提供一种复杂场景下的无人驾驶汽车决策系统,第二目的在于提供一种复杂场景下的无人驾驶汽车决策方法,从而有效应对与训练场景相似度较低的陌生复杂无人驾驶场景。
5.为了达到上述目的,本发明采用以下的技术方案。
6.一种复杂场景下的无人驾驶汽车决策系统,包括决策模块、自学习模块;
7.决策模块、自学习模块均分别为神经网络,决策模块与自学习模块相互连接;决策模块与自学习模块的输入均分别为无人驾驶场景的环境分层特征,输出均分别为相应无人驾驶的决策动作;
8.决策模块用于对已经训练过的无人驾驶场景的环境分层特征进行学习得到相应无人驾驶的决策动作;
9.自学习模块用于对没有训练过的无人驾驶场景的环境分层特征进行训练得到相应无人驾驶的决策动作,并将训练过程中产生的与环境分层特征对应的权重参数更新到决策模块;
10.环境分层特征包括无人驾驶场景的静态特征、软约束特征、动态特征,权重参数包括静态权重、软约束权重、动态权重,决策动作包括目标车速、目标位置。
11.优选地,决策模块包括元网络、强化学习决策网络;
12.元网络与强化学习决策网络相互连接;
13.元网络用于学习已经训练过的无人驾驶场景的环境分层特征得到相应的权重参数,并将权重参数作为强化学习决策网络进行学习的约束条件;
14.强化学习决策网络用于根据环境分层特征,在约束条件下学习得到相应无人驾驶
场景的决策动作。
15.进一步地,元网络包括静态权重网络、软约束权重网络、动态权重网络;
16.静态权重网络、软约束权重网络、动态权重网络均分别为多层全连接神经网络,静态权重网络、软约束权重网络、动态权重网络分别与强化学习决策网络连接;
17.静态权重网络用于根据已经训练过的无人驾驶场景的静态特征学习得到静态权重;
18.软约束权重网络用于根据已经训练过的无人驾驶场景的软约束特征学习得到软约束权重;
19.动态权重网络用于根据已经训练过的无人驾驶场景的动态特征学习得到动态权重。
20.进一步地,强化学习决策网络包括动作网络和评价网络;
21.动作网络与元网络连接,评价网络与动作网络连接,动作网络和评价网络均分别为多层全连接的神经网络;
22.动作网络用于根据已经训练过的无人驾驶场景的环境分层特征在约束条件下进行学习得到初始的决策动作;
23.动作网络包括静态层网络、软约束层网络、动态层网络;静态层网络、软约束层网络、动态层网络分别与元网络连接;静态层网络、软约束层网络、动态层网络依次连接,静态层网络、软约束层网络、动态层网络的输入分别为静态特征、软约束特征、动态特征,静态层网络、软约束层网络、动态层网络的约束条件分别为静态权重、软约束权重、动态权重;
24.评价网络用于对动作网络学习得到的初始的决策动作进行评价得到最终的决策动作。
25.优选地,自学习模块包括孪生元网络、孪生强化学习决策网络、已学习场景库;
26.已学习场景库与孪生元网络连接;已学习场景库用于识别没有训练过的无人驾驶场景的环境分层特征与已经训练过的无人驾驶场景的环境分层特征之间的差异特征;
27.孪生元网络与孪生强化学习决策网络相互连接,孪生元网络与元网络相互连接;
28.孪生元网络用于学习差异特征得到相应的权重参数,并将权重参数作为孪生强化学习决策网络进行学习的约束条件,同时将权重参数输入决策模块中更新元网络的权重参数;
29.孪生强化学习决策网络用于根据没有训练过的无人驾驶场景的环境分层特征,在约束条件下学习得到相应无人驾驶场景的决策动作。
30.进一步地,孪生元网络包括孪生静态权重网络、孪生软约束权重网络、孪生动态权重网络;
31.孪生静态权重网络、孪生软约束权重网络、孪生动态权重网络均分别为多层全连接神经网络,孪生静态权重网络、孪生软约束权重网络、孪生动态权重网络分别与孪生强化学习决策网络连接;
32.孪生静态权重网络用于根据没有训练过的无人驾驶场景的静态特征学习得到静态权重;
33.孪生软约束权重网络用于根据没有训练过的无人驾驶场景的软约束特征学习得到软约束权重;
34.孪生动态权重网络用于根据没有训练过的无人驾驶场景的动态特征学习得到动态权重。
35.进一步地,孪生强化学习决策网络包括孪生动作网络和孪生评价网络;
36.孪生动作网络与孪生元网络连接,孪生评价网络与孪生动作网络连接,孪生动作网络和孪生评价网络均分别为多层全连接的神经网络;
37.孪生动作网络用于根据没有训练过的无人驾驶场景的环境分层特征在约束条件下进行学习得到初始的决策动作;
38.孪生动作网络包括孪生静态层网络、孪生软约束层网络、孪生动态层网络;孪生静态层网络、孪生软约束层网络、孪生动态层网络分别与孪生元网络连接;孪生静态层网络、孪生软约束层网络、孪生动态层网络依次连接,孪生静态层网络、孪生软约束层网络、孪生动态层网络的输入分别为静态特征、软约束特征、动态特征,孪生静态层网络、孪生软约束层网络、孪生动态层网络的约束条件分别为静态权重、软约束权重、动态权重;
39.孪生评价网络用于对孪生动作网络学习得到的初始的决策动作进行评价得到最终的决策动作。
40.进一步地,自学习模块还包括模拟环境模块;
41.模拟环境模块分别与孪生动作网络、孪生评价网络连接;
42.模拟环境模块用于根据孪生动作网络输出的初始的决策动作进行训练得到即时奖励,并向孪生评价网络输入即时奖励。
43.一种复杂场景下的无人驾驶汽车决策方法,包括前述任一项的复杂场景下的无人驾驶汽车决策系统,具体步骤如下:
44.区分已经训练过的无人驾驶场景和没有训练过的无人驾驶场景各自的环境分层特征;
45.将已经训练过的无人驾驶场景的环境分层特征输入决策模块中,由决策模块进行学习得到相应的决策动作;
46.将没有训练过的无人驾驶场景的环境分层特征输入自学习模块中,由自学习模块进行训练得到相应的决策动作,并将训练过程的权重参数更新到决策模块中。
47.本发明技术方案与现有技术相比,具有如下有益效果:
48.决策模块、自学习模块分别通过对环境特征进行分层学习的方式,避免传统强化学习方法在不同无人驾驶场景任务中所存在的相互制约情况,不同分层特征对应的权重参数输入到强化学习决策网络和孪生强化学习决策网络中增强了网络的泛化能力,对复杂场景的适应性和灵活性,能够针对不同无人驾驶场景进行单独优化,在面对无人驾驶场景的“长尾效应”时,自学习模块中以分层迁移的神经网络结构方式,有效利用已学习过的决策经验,单独对陌生复杂无人驾驶场景中具有差异的环境特征部分进行学习并反馈给决策模块,大幅降低需要重新学习的网络节点数量,减少重复学习的过程。通过环境特征分层和异步更新,提升了学决策效率。
附图说明
49.图1为本发明的一种复杂场景下的无人驾驶汽车决策系统的总体结构框架示意图;
50.图2为决策模块的结构框架示意图;
51.图3为自学习模块的结构框架示意图;
52.图4为本发明的一种复杂场景下的无人驾驶汽车决策方法的流程示意图。
具体实施方式
53.为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
54.实施例
55.如图所示,本实施例的一种复杂场景下的无人驾驶汽车决策系统,基于神经网络进行系统构建。
56.本实施例的复杂场景下的无人驾驶汽车决策系统具体包括决策模块和自学习模块,决策模块与自学习模块相互连接。决策模块包括元网络和强化学习决策网络,自学习模块包括孪生元网络和孪生强化学习决策网络。元网络分别与强化学习决策网络、孪生元网络连接,孪生元网络与孪生强化学习决策网络连接。
57.在进行决策时,将环境特征作为输入决策模块中的元网络,然后以元网络学习到的各类型参数权重作为输出,由决策模块中的强化学习决策网络进行接收,从而使元网络与强化学习决策网络结合成当前最优决策器。由强化学习决策网络进行决策训练后,将当前的最优目标车速和目标位置作为决策模块的输出。当遇到决策模块与训练场景相似度较低的陌生复杂无人驾驶场景时,自学习模块开始启动自学习过程,对比与之最接近的已训练场景之间的特征差异;自学习模块对相应的层次特征进行自我学习训练,并将学习完后对应孪生元网络的各类型参数权重传送到决策模块中,替换更新元网络中的各类型参数权重。
58.元网络由三个多层全连接神经网络构成,以避免不同层次的环境特征之间在训练时产生相互影响。元网络的三个多层全连接神经网络分别为静态权重网络、软约束权重网络、动态权重网络,不同网络之间也以全连接的形式组成,三个多层全连接神经网络的层的数量或结构可根据实际的决策需求进行设计。静态权重网络、软约束权重网络、动态权重网络各自分别对应的输入环境分层特征为静态特征s1、软约束特征s2、动态特征s3,元网络将前述接收的分层特征表示为总的环境特征s=[s1,s2,s3],静态权重网络、软约束权重网络、动态权重网络各自分别输出对应的权重参数类型为静态权重w1、软约束权重w2、动态权重w3,元网络将前述的权重参数表示为强化学习决策网络的参数权重w=[w1,w2,w3]。由此,可将元网络学习过程表示为下式:
[0059]
w=f(s)
ꢀꢀꢀ
(1)
[0060]
其中,f()表示元网络的环境特征学习过程。
[0061]
对于不同的无人驾驶场景来说可以分解为不同的静态特征s1、软约束特征s2、动态特征s3,因此元网络以静态权重网络、软约束权重网络、动态权重网络的结构组成就可以适应多种无人驾驶场景。通过元网络使强化学习网络具备静态权重w1、软约束权重w2、动态权重w3的参数。由于元网络的多层全连接神经网络结构的输出是连续的,从而会向强化学习决策网络输出多套权重参数的组合,使静态权重w1、软约束权重w2、动态权重w3的泛化能力
增强,提升后续强化学习网络对复杂场景的适应性和灵活性。
[0062]
将静态权重w1、软约束权重w2、动态权重w3输入强化学习决策网络中作为权重参数使用,分层特征中的静态特征s1、软约束特征s2、动态特征s3均为强化学习决策网络的输入环境特征。
[0063]
强化学习决策网络由动作网络和评价网络组成,动作网络与评价网络也为多层全连接对神经网络的结构,动作网络根据环境状态输出对应的决策动作,评价网络对当前的决策动作进行评价。动作网络连接元网络,用于利用输入的分层特征进行学习输出对应的决策动作。动作网络包括依次连接的静态层网络、软约束层网络、动态层网络,静态层网络、软约束层网络、动态层网络分别用于接收静态特征s1、软约束特征s2、动态特征s3,静态层网络、软约束层网络、动态层网络均分别为多层连接的卷积神经网络。静态层网络、软约束层网络、动态层网络分别与静态权重网络、软约束权重网络、动态权重网络连接。静态特征s1、软约束特征s2、动态特征s3分别在静态层网络、软约束层网络、动态层网络进行特征提取,静态特征s1输入静态层网络训练得到的输出与软约束特征s2一起作为软约束层网络的输入,软约束层网络的输出与动态特征s3一起作为动态层网络的输入。
[0064]
静态层网络、软约束层网络、动态层网络分别在静态权重w1、软约束权重w2、动态权重w3的约束下进行学习,输出对应初始的决策动作(即初始决策的目标车速、目标位置)。动作网络通过利用随机噪声增加决策动作的探索性与随机性,动作网络的学习过程如下式:
[0065]at
=π(s
t
) uo(u,θ,σ)
ꢀꢀꢀ
(2)
[0066]
其中,a表示决策动作,t表示当前的时刻,a
t
表示t时刻对应的决策动作,s
t
表示t时刻对应的环境特征,π()表示决策过程,u表示噪声增益,u表示噪声分布均值,θ表示噪声自相关系数,σ表示噪声分布方差,o()表示噪声分布。
[0067]
评价网络用于以当前的静态特征s1、软约束特征s2、动态特征s3为参考,以动作网络输出初始的决策动作为输入,对动作网络输出的决策动作进行训练得到评价q。当评价q满足设定阈值时,说明评价网络认为决策动作合理,最后输出最终的决策动作所对应的目标车速、目标位置。
[0068]
决策模块的训练与传统强化学习的训练不同,在没有标签数据的情况下决策模块无法直接进行训练,因此,在本实施例中,决策模块的元网络通过静态权重w1、软约束权重w2、动态权重w3的变化进行训练,元网络的损失函数表示为mse(w
init
,w
rl
),其中init表示初始时刻,rl表示强化学习决策网络,w
init
表示初始状态的元网络所学习到的权重参数,w
rl
表示强化学习决策网络所接收的权重参数,mse()表示均方差。
[0069]
在遇到决策模块无法应对的无人驾驶场景时,特别是与训练场景相似度较低的陌生无人驾驶场景,尽管现有技术依靠规则演绎的方法暂时完成了车辆脱困,然而这种次优的方法仍无法有效满足无人驾驶的需要。由于不同环境特征之间有前后依赖的关系,因此,如果一个特征发生变化,现有技术将不可避免的重新进行自学习。因此,为了实现最优决策同时再次发挥数据驱动的学习优势,本实施例采用了对环境特征进行分层实现场景迁移的自学习模块。基于分层迁移学习的方式,能够充分利用已经训练好的数据。不同场景之间并非毫无关联,将分层特征与孪生强化学习决策网络相匹配,利用场景之间的关联避免需要从头开始训练的问题,提高效率减少重复学习。当存在n个场景需要训练时,对应地会出现n个强化学习决策过程,强化学习决策过程训练到收敛,然后把收敛的权重参数结果反馈回
元网络对损失函数进行bp训练以修正元网络的损失函数。为了避免不同场景训练过程的干涉,当一个强化学习决策过程训练完成后,即时对元网络进行反馈和更新,并获取新权重进行下一轮训练,不需要等待n个强化学习过程进行同步反馈和更新,从而实现异步更新的功能,提高训练效率。为避免强化学习决策过程发散,根据下式对元网络的损失函数进行重要性修正以实现异步更新的功能:
[0070][0071]
其中,mse

()表示修正后的损失函数,f
init
()表示初始状态的元网络的修正系数,f
cur
()表示当前状态的元网络的修正系数,cur表示当前时刻。
[0072]
自学习模块包括已学习场景库、模拟环境模块、孪生元网络、孪生强化学习决策网络,孪生元网络、孪生强化学习决策网络均分别由三个多层全连接的神经网络组成。已学习场景库、模拟环境模块、孪生强化学习决策网络的输入均分别为静态特征s1、软约束特征s2、动态特征s3,已学习场景库与孪生元网络连接,模拟环境模块与孪生强化学习决策网络连接,孪生元网络与孪生强化学习决策网络连接。孪生元网络与元网络的结构相同,孪生元网络与元网络相互连接。孪生强化学习决策网络与强化学习决策网络的结构相同。
[0073]
已学习场景库的输入为没经过训练的陌生的无人驾驶场景的环境特征,已学习场景库用于存储已经通过决策模块训练的无人驾驶场景的环境特征并以其为参照,比较两个场景间的三类分层特征的差异,然后训练得到陌生的无人驾驶场景的环境特征。
[0074]
模拟环境模块用于进行环境重建、设置动力模型、生成即时奖励。环境重建为在环境仿真平台中重构环境特征,设置动力模型为根据不同车辆的型号和大小分配预设的车辆对应的动力模型,生成即时奖励r的因素包括车辆的安全性、快速性、舒适性。
[0075]
孪生元网络的输入为已学习场景库训练得到的环境特征,该环境特征可对应分层为静态特征差异s
′1、软约束特征差异s
′2、动态特征差异s
′3。孪生元网络由孪生静态权重网络、孪生软约束权重网络、孪生动态权重网络组成,孪生静态权重网络、孪生软约束权重网络、孪生动态权重网络均分别为多层全连接神经网络,分别对应训练静态特征差异s
′1、软约束特征差异s
′2、动态特征差异s
′3。孪生元网络根据环境特征训练,输出陌生的无人驾驶场景的三类权重参数,然后将权重参数返回元网络中对应地更新静态权重w1、软约束权重w2、动态权重w3,同时将陌生的无人驾驶场景这三个权重参数输入到孪生强化学习决策网络中。
[0076]
孪生强化学习决策网络包括孪生动作网络和孪生评价网络。孪生动作网络与孪生评价网络相连接。
[0077]
孪生动作网络连接孪生元网络,用于利用输入的分层特征进行学习输出对应的决策动作。孪生动作网络包括依次连接的孪生静态层网络、孪生软约束层网络、孪生动态层网络,孪生静态层网络、孪生软约束层网络、孪生动态层网络分别用于接收静态特征差异s
′1、软约束特征差异s
′2、动态特征差异s
′3,孪生静态层网络、孪生软约束层网络、孪生动态层网络均分别为多层连接的卷积神经网络。孪生静态层网络、孪生软约束层网络、孪生动态层网络分别与孪生静态权重网络、孪生软约束权重网络、孪生动态权重网络连接。静态特征差异s
′1、软约束特征差异s
′2、动态特征差异s
′3分别在孪生静态层网络、孪生软约束层网络、孪生动态层网络进行特征提取,静态特征差异s
′1输入孪生静态层网络训练得到的输出与软
约束特征s
′2一起作为孪生软约束层网络的输入,孪生软约束层网络的输出与动态特征s
′3一起作为孪生动态层网络的输入。孪生静态层网络、孪生软约束层网络、孪生动态层网络分别在对应的三类权重参数的约束下进行学习,输出初始的决策动作(即目标车速、目标位置)。孪生动作网络初始的决策动作还同时作为模拟环境模块的一项输入内容。孪生动作网络通过利用随机噪声增加决策动作的探索性与随机性。
[0078]
孪生评价网络用于以孪生动作网络输出的决策动作为输入,以模拟环境模块输出下个状态的即时奖励r为参考,对孪生动作网络输出的决策动作进行训练,最后输出最终的决策动作对应的目标车速、目标位置。
[0079]
孪生动作网络根据评价q进行更新,孪生评价网络使用下列式(4)的bellman方程,评价q定义为在对应状态下采取动作a
t
后,持续执行决策动作所获得的即时奖励r的期望值:
[0080]
q(s
t
,a
t
)=e{r(s
t
,a
t
) γq
π
(s
t 1
,π(s
t 1
))}
ꢀꢀꢀ
(4)
[0081]
其中,t表示时刻,t 1表示下一时刻,s
t
表示t时刻的环境特征,a
t
表示t时刻的决策动作,r()表示获取即时奖励的过程,π()表示获取决策动作的过程,qπ()表示获取评价q的过程,γ表示折扣因子。
[0082]
本实施例的目标是在环境特征s中找出最优的决策动作p(s),在经过上个系统特征分层模型的提取与聚类之后,将场景分为三个不同类型的特征层表示,同时根据条件概率将强化学习网络分为静态层、软约束层、动态层。在每次启动自学习时根据当时输入的各层环境特征建立模拟场景,然后分层模型的聚类特征与场景库里的已训练场景进行特征对比,根据差异特征的对应层次进行有目的性、自上而下的自学习过程。假设相似度较低的陌生无人驾驶场景与之前学习过的场景之间仅动态特征s
′3出现变化,则由式(5)动作网络的决策动作学习过程进行对照,可知仅需针对动态特征s
′3根据式(6)重新学习最优的决策动作:
[0083]
p(s1,s2,s3)=p(s1)p(s2|s1)p(s3|s1,s2)
ꢀꢀꢀ
(5)
[0084]
p(s1,s2,s
′3)=p(s1)p(s2|s1)p(s
′3|s1,s2)
ꢀꢀꢀ
(6)
[0085]
由此可见,本实施例在面对单一的特征变化时,可以在保留未发生变化的特征所对应的网络节点输出对应的权重参数,从而减少需要重新自学习的网络节点数,提高了自学习效率。
[0086]
本实施例的复杂场景下的无人驾驶汽车决策系统与现有技术相比,其有益效果在于:
[0087]
决策模块、自学习模块分别通过元网络、孪生元网络中对环境特征进行分层学习的方式,避免传统强化学习方法在不同无人驾驶场景任务中所存在的相互制约情况,通过元网络、孪生元网络得到不同分层特征对应的权重参数并输入到强化学习决策网络和孪生强化学习决策网络中对决策过程进行约束,增强强化学习决策网络和孪生强化学习决策网络的泛化能力,提升强化学习网络和孪生强化学习决策网络对复杂场景的适应性和灵活性,实现在训练时将不同无人驾驶场景学习过程分开的功能,能够针对不同无人驾驶场景进行单独优化。在面对无人驾驶场景的“长尾效应”出现的与训练场景相似度较低的陌生复杂无人驾驶场景时,自学习模块中让孪生元网络结合孪生强化学习决策网络,以分层迁移的神经网络结构方式,有效利用已学习过的决策经验,单独对陌生复杂无人驾驶场景中具
有差异的环境特征部分进行学习并反馈给决策模块新的权重参数,大幅降低需要重新学习的网络节点数量,减少重复学习的过程,使得自学习模块训练得到的对应陌生复杂无人驾驶场景的权重参数能够及时反馈到决策模块并为元网络更新使用。
[0088]
实施例2
[0089]
本实施例提供一种复杂场景下的无人驾驶汽车决策方法,该方法使用前述实施例的复杂场景下的无人驾驶汽车决策系统来执行,具体包括步骤如下:
[0090]
s1、将无人驾驶场景进行分类;对与训练场景相似度低的陌生无人驾驶场景,在复杂场景下的无人驾驶汽车决策系统中执行步骤s5-s8;对与训练场景相似度高的无人驾驶场景,在复杂场景下的无人驾驶汽车决策系统中执行步骤s2-s4:
[0091]
s2、将无人驾驶场景三个环境分层特征:静态特征s1、软约束特征s2、动态特征s3,分别对应输入元网络中的静态权重网络、软约束权重网络、动态权重网络;
[0092]
静态权重网络、软约束权重网络、动态权重网络针对所输入的分层特征,各自分别学习得出分层特征对应的静态权重w1、软约束权重w2、动态权重w3;
[0093]
s3、将步骤s2学习得到的静态权重w1、软约束权重w2、动态权重w3分别作为强化学习决策模块的动作网络中静态层网络、软约束层网络、动态层网络的学习约束条件;
[0094]
将静态特征s1、软约束特征s2、动态特征s3分别输入静态层网络、软约束层网络、动态层网络在约束条件下进行学习,得到初始的目标车速和目标位置;
[0095]
s4、将步骤s3得出初始的决策动作输入强化学习决策模块的评价网络中,在静态特征s1、软约束特征s2、动态特征s3的参照下进行学习,最后得出最终的目标车速和目标位置,输出对与训练场景相似度高的无人驾驶场景的决策动作;
[0096]
s5、将陌生无人驾驶场景的三个环境分层特征,与自学习模块的已学习场景库中经过学习的无人驾驶场景分别进行比对得出差异特征;
[0097]
s6、将步骤s5得到的差异特征输入孪生元网络中,经过孪生元网络学习得到相应的权重参数;
[0098]
s7、将步骤s6得到的权重参数输入孪生强化学习决策网络进行异步更新学习,采用多个孪生强化学习网络在模拟环境中不断学习,直到孪生强化学习决策网络收敛,孪生元网络输出收敛时所对应的权重参数到元网络进行对应的更新,不孪生强化学习网络采用异步的方式对孪生元网络进行更新,并根据下式:
[0099][0100]
针对其中出现的偏差进行修正;
[0101]
s8、决策模块根据更新后的权重参数,对与训练场景相似度低的陌生无人驾驶场景进行学习,最终得出相应的决策动作。
[0102]
本实施例的复杂场景下的无人驾驶汽车决策方法与现有技术相比,其有益效果在于:
[0103]
把陌生复杂无人驾驶场景的学习过程与学习过的无人驾驶场景的决策过程分开,避免了单一强化学习方法在多场景决策中无法进行针对性优化的缺点,提升在不同场景中的最优决策效率,解决了强化学习决策网络在学习过程中数据低效的问题,能够针对不同
层次的环境特征进行学习,有效避免重复学习的困境。
[0104]
上述实施例为本发明较佳的实施方式,但本发明的实施方式并不受上述实施例的限制,其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献