基于乘员风险认知的车辆行驶策略的确定方法和装置

2023-03-28 17:42:45 来源：中国专利 TAG：

1.本技术涉及智能汽车技术领域，特别是涉及一种基于乘员风险认知的车辆行驶策略的确定方法、装置、车辆设备、存储介质和计算机程序产品。

背景技术：

2.智能汽车是一个集成环境感知、规划决策和车辆控制功能于一体的复杂系统。因智能汽车运行场景条件的复杂性和未知性，自动驾驶功能即使满足设计要求，仍可能存在大量的安全运行风险。预期功能不足或性能限制在触发条件下会发生预期功能安全事故。例如，自动驾驶系统的感知算法将白色卡车车厢误判为一朵白云，导致车辆并没有采取避让措施而发生交通事故。如何避免预期功能不足或性能限制引起的潜在危险行为是智能汽车研发与商业化的最大难题之一。
3.然而，现有的车辆行驶策略的确定方法仅考虑在正常行驶情况下的车辆行驶安全，缺乏对预期功能不足或性能限制的考虑。因此，在特定的场景下，现有的车辆行驶策略的确定方法存在预期功能安全事故隐患，安全性低。

技术实现要素：

4.基于此，有必要针对上述技术问题，提供一种能够提高在特定的场景下的安全性的基于乘员风险认知的车辆行驶策略的确定方法、装置、车辆设备、计算机可读存储介质和计算机程序产品。
5.第一方面，本技术提供了一种基于乘员风险认知的车辆行驶策略的确定方法。所述方法包括：
6.将目标车辆的车辆状态信息和所述目标车辆的周围环境信息输入至预先训练的车辆初始决策模型，得到所述目标车辆的初始决策结果；
7.根据所述目标车辆的车辆状态信息、所述目标车辆的乘员脑氧信息、所述目标车辆的周围环境信息和预先构建的综合风险预测算法，确定所述目标车辆的综合风险预测结果；
8.根据所述综合风险预测结果，在预设的综合风险预测结果与决策约束结果的对应关系中，查询所述目标车辆的决策约束结果；所述决策约束结果用于约束车辆的决策；
9.根据所述初始决策结果、所述决策约束结果和预设的车辆决策规则，确定所述目标车辆的车辆行驶策略。
10.在其中一个实施例中，所述根据所述目标车辆的车辆状态信息、所述目标车辆的乘员脑氧信息、所述目标车辆的周围环境信息和预先构建的综合风险预测算法，确定所述目标车辆的综合风险预测结果包括：
11.根据所述目标车辆的乘员脑氧信息和预设的显在风险熵计算规则，计算所述目标车辆的显在风险熵；所述显在风险熵用于预测历史时刻的行驶场景对车辆安全已经产生的、且乘员感知到的风险；
12.根据所述目标车辆的车辆状态信息、所述目标车辆的周围环境信息和预设的潜在风险熵计算规则，计算所述目标车辆的潜在风险熵；所述潜在风险熵用于预测当前时刻的行驶场景对车辆安全的预期风险；
13.根据所述显在风险熵和所述潜在风险熵进行加权计算，得到所述目标车辆的综合风险预测结果。
14.在其中一个实施例中，所述根据所述目标车辆的乘员脑氧信息和预设的显在风险熵计算规则，计算所述目标车辆的显在风险熵包括：
15.根据所述目标车辆的乘员脑氧信息和风险概率系数，计算所述目标车辆的显在风险概率；
16.根据所述显在风险概率和预设的显在风险熵计算规则，计算所述目标车辆的显在风险熵。
17.在其中一个实施例中，所述根据所述目标车辆的车辆状态信息、所述目标车辆的周围环境信息和预设的潜在风险熵计算规则，计算所述目标车辆的潜在风险熵包括：
18.根据所述目标车辆的车辆状态信息和所述目标车辆的周围环境信息，计算所述目标车辆的先验碰撞概率；
19.根据所述先验碰撞概率和预设的潜在风险熵计算规则，计算所述目标车辆的潜在风险熵。
20.在其中一个实施例中，所述方法还包括：
21.根据所述车辆行驶策略，更新所述车辆状态信息；
22.根据更新后的所述车辆状态信息，在预设的车辆状态信息和奖励值的映射关系中，查询所述车辆行驶策略对应的奖励值；
23.根据所述车辆行驶策略和所述车辆行驶策略对应的奖励值，更新所述车辆初始决策模型。
24.在其中一个实施例中，所述决策约束结果为多个子决策结果组成的集合；所述根据所述初始决策结果、所述决策约束结果和预设的车辆决策规则，确定所述目标车辆的车辆行驶策略包括：
25.若所述决策约束结果包含的子决策结果中，存在与所述初始决策结果相同的子决策结果，则将所述初始决策结果，作为所述目标车辆的车辆行驶策略；
26.若所述决策约束结果包含的子决策结果中，不存在与所述初始决策结果相同的子决策结果，则将与所述初始决策结果最接近的子决策结果，作为所述目标车辆的车辆行驶策略。
27.第二方面，本技术还提供了一种基于乘员风险认知的车辆行驶策略的确定装置。所述装置包括：
28.初始决策模块，用于将目标车辆的车辆状态信息和所述目标车辆的周围环境信息输入至预先训练的车辆初始决策模型，得到所述目标车辆的初始决策结果；
29.综合风险预测模块，用于根据所述目标车辆的车辆状态信息、所述目标车辆的乘员脑氧信息、所述目标车辆的周围环境信息和预先构建的综合风险预测算法，确定所述目标车辆的综合风险预测结果；
30.第一查询模块，用于根据所述综合风险预测结果，在预设的综合风险预测结果与
决策约束结果的对应关系中，查询所述目标车辆的决策约束结果；所述决策约束结果用于约束车辆的决策；
31.确定模块，用于根据所述初始决策结果、所述决策约束结果和预设的车辆决策规则，确定所述目标车辆的车辆行驶策略。
32.在其中一个实施例中，所述综合风险预测模块，具体用于：
33.根据所述目标车辆的乘员脑氧信息和预设的显在风险熵计算规则，计算所述目标车辆的显在风险熵；所述显在风险熵用于预测历史时刻的行驶场景对车辆安全已经产生的、且乘员感知到的风险；
34.根据所述目标车辆的车辆状态信息、所述目标车辆的周围环境信息和预设的潜在风险熵计算规则，计算所述目标车辆的潜在风险熵；所述潜在风险熵用于预测当前时刻的行驶场景对车辆安全的预期风险；
35.根据所述显在风险熵和所述潜在风险熵进行加权计算，得到所述目标车辆的综合风险预测结果。
36.在其中一个实施例中，所述综合风险预测模块，具体用于：
37.根据所述目标车辆的乘员脑氧信息和风险概率系数，计算所述目标车辆的显在风险概率；
38.根据所述显在风险概率和预设的显在风险熵计算规则，计算所述目标车辆的显在风险熵。
39.在其中一个实施例中，所述综合风险预测模块，具体用于：
40.根据所述目标车辆的车辆状态信息和所述目标车辆的周围环境信息，计算所述目标车辆的先验碰撞概率；
41.根据所述先验碰撞概率和预设的潜在风险熵计算规则，计算所述目标车辆的潜在风险熵。
42.在其中一个实施例中，所述装置还包括：
43.第一更新模块，用于根据所述车辆行驶策略，更新所述车辆状态信息；
44.第二查询模块，用于根据更新后的所述车辆状态信息，在预设的车辆状态信息和奖励值的映射关系中，查询所述车辆行驶策略对应的奖励值；
45.第二更新模块，用于根据所述车辆行驶策略和所述车辆行驶策略对应的奖励值，更新所述车辆初始决策模型。
46.在其中一个实施例中，所述决策约束结果为多个子决策结果组成的集合；所述确定模块，具体用于：
47.若所述决策约束结果包含的子决策结果中，存在与所述初始决策结果相同的子决策结果，则将所述初始决策结果，作为所述目标车辆的车辆行驶策略；
48.若所述决策约束结果包含的子决策结果中，不存在与所述初始决策结果相同的子决策结果，则将与所述初始决策结果最接近的子决策结果，作为所述目标车辆的车辆行驶策略。
49.第三方面，本技术还提供了一种车辆设备。所述车辆设备包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现上述第一方面所述的步骤。
50.第四方面，本技术还提供了一种计算机可读存储介质。所述计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述第一方面所述的步骤。
51.第五方面，本技术还提供了一种计算机程序产品。所述计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现上述第一方面所述的步骤。
52.上述基于乘员风险认知的车辆行驶策略的确定方法、装置、车辆设备、存储介质和计算机程序产品，采用基于在预期功能安全场景下乘员的脑氧交换信息与场景风险的对应关系建立的综合风险预测算法，根据目标车辆的车辆状态信息、目标车辆的乘员脑氧信息和目标车辆的周围环境信息，预测目标车辆的综合风险，并根据目标车辆的综合风险，确定目标车辆的决策约束结果，以约束车辆决策结果，利用乘员脑氧信息预测目标车辆的风险，将反映人对风险感知的乘员脑氧信息引入车辆行驶策略的确定，构建在预期功能安全场景下乘员风险认知在环路的智能安全决策机制，从人的角度出发，弥补自动驾驶系统在特定环境条件下的性能不足，降低预期功能不足或性能限制引起的潜在危险行为，减少预期功能安全事故，提高车辆行驶策略在预期功能安全场景下的安全性。
附图说明
53.图1为一个实施例中基于乘员风险认知的车辆行驶策略的确定方法的流程示意图；
54.图2为一个实施例中确定目标车辆的综合风险预测结果步骤的流程示意图；
55.图3为一个实施例中计算目标车辆的显在风险熵步骤的流程示意图；
56.图4为一个实施例中计算目标车辆的潜在风险熵步骤的流程示意图；
57.图5为一个实施例中车辆初始决策模型的训练过程的流程示意图；
58.图6为一个实施例中确定目标车辆的车辆行驶策略步骤的流程示意图；
59.图7为一个实施例中基于乘员风险认知的车辆行驶策略的确定装置的结构框图；
60.图8为一个实施例中车辆设备的内部结构图。
具体实施方式
61.为了使本技术的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本技术进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本技术，并不用于限定本技术。
62.在一个实施例中，如图1所示，提供了一种基于乘员风险认知的车辆行驶策略的确定方法，本实施例以该方法应用于终端进行举例说明，可以理解的是，该方法也可以应用于服务器，还可以应用于包括终端和服务器的系统，并通过终端和服务器的交互实现。其中，终端可以但不限于是各种工控机和物联网设备，物联网设备可为智能车载设备等。服务器可以用独立的服务器或者是多个服务器组成的服务器集群来实现。本实施例中，该方法包括以下步骤：
63.步骤101，将目标车辆的车辆状态信息和目标车辆的周围环境信息输入至预先训练的车辆初始决策模型，得到目标车辆的初始决策结果。
64.在本技术实施例中，车辆初始决策模型用于对目标车辆的行驶进行初始决策。车辆初始决策模型可以为强化学习网络。车辆状态信息为车辆的行驶状态信息。目标车辆的
周围环境信息为在目标车辆的预设的范围内的环境信息。目标车辆的周围环境信息包括目标车辆的周围障碍物信息和道路信息。障碍物可以为车辆，也可以为非车辆，例如，障碍物可以为石头。初始决策结果包括油门初始决策结果、刹车初始决策结果和方向盘初始决策结果。
65.终端预先训练并存储车辆初始决策模型。终端通过采集设备采集目标车辆的车辆状态信息和目标车辆的周围环境信息。然后，终端将目标车辆的车辆状态信息和目标车辆的周围环境信息输入至预先训练的车辆初始决策模型，得到目标车辆的初始决策结果。其中，采集设备可以包括车辆采集设备和环境采集设备。车辆采集设备和环境采集设备可以为传感器。
66.步骤102，根据目标车辆的车辆状态信息、目标车辆的乘员脑氧信息、目标车辆的周围环境信息和预先构建的综合风险预测算法，确定目标车辆的综合风险预测结果。
67.在本技术实施例中，综合风险预测算法用于预测目标车辆行驶的综合风险。综合风险预测算法基于在预期功能安全场景下乘员的脑氧交换信息与场景风险的对应关系建立。预期功能安全是指预期功能不足或性能限制在触发条件下发生的安全问题。该特定触发条件就是预期功能安全场景。典型的预期功能安全场景可以是十字路口抢红灯、紧急刹车和城市巡航的前车切入。综合风险包括算法检测到的第一类风险和算法难以检测到、且人能够感知到的第二类风险。综合风险预测结果用于表示目标车辆行驶的综合风险。综合风险预测结果可以为综合风险预测值。目标车辆的乘员脑氧信息为目标车辆内乘员的脑氧信息。目标车辆的乘员脑氧信息可以包括目标车辆内乘员大脑前额皮层的氧含血红蛋白的浓度变化量和脱氧血红蛋白的浓度变化量，也可以为目标车辆内乘员的脑氧交换量。
68.终端预先建立综合风险预测算法。然后，终端通过采集设备采集目标车辆的乘员脑氧信息。然后，终端根据目标车辆的车辆状态信息、目标车辆的乘员脑氧信息、目标车辆的周围环境信息和预先构建的综合风险预测算法，确定目标车辆的综合风险预测结果。其中，采集设备还包括乘员采集设备。乘员采集设备可以为血氧监测设备。例如，乘员采集设备可以为artinis的octamon 八通道实时无线血氧监测设备。
69.在一个示例中，终端根据目标车辆的车辆状态信息、目标车辆的乘员脑氧信息、目标车辆的周围环境信息和预先构建的综合风险预测算法，计算目标车辆的综合风险预测结果。
70.在一个示例中，综合风险预测算法为机器学习算法。终端预先通过综合风险训练数据集，训练目标机器学习算法。然后，终端将训练完成的目标机器学习算法，作为综合风险预测模型。然后，终端将目标车辆的车辆状态信息、目标车辆的乘员脑氧信息和目标车辆的周围环境信息输入至综合风险预测模型，得到目标车辆的综合风险预测结果。其中，综合风险训练数据集包括多个综合风险训练样本。综合风险训练样本包含样本车辆状态信息、样本乘员脑氧信息、样本周围环境信息和综合风险样本结果。
71.步骤103，根据综合风险预测结果，在预设的综合风险预测结果与决策约束结果的对应关系中，查询目标车辆的决策约束结果。
72.其中，决策约束结果用于约束车辆的决策。
73.在本技术实施例中，终端预设综合风险预测结果与决策约束结果的对应关系。然后，终端根据综合风险预测结果，在预设的综合风险预测结果与决策约束结果的对应关系
中，查询目标车辆的决策约束结果。
74.步骤104，根据初始决策结果、决策约束结果和预设的车辆决策规则，确定目标车辆的车辆行驶策略。
75.在本技术实施例中，车辆决策规则用于对目标车辆的行驶进行决策。车辆行驶策略用于控制目标车辆行驶。车辆行驶策略包括油门策略、刹车策略和方向盘策略。终端预设车辆决策规则。然后，终端根据初始决策结果、决策约束结果和预设的车辆决策规则，确定目标车辆的车辆行驶策略。
76.上述基于乘员风险认知的车辆行驶策略的确定方法中，采用基于在预期功能安全场景下乘员的脑氧交换信息与场景风险的对应关系建立的综合风险预测算法，根据目标车辆的车辆状态信息、目标车辆的乘员脑氧信息和目标车辆的周围环境信息，预测目标车辆的综合风险，并根据目标车辆的综合风险，确定目标车辆的决策约束结果，以约束车辆的决策结果，考虑预期功能安全场景下的车辆行驶安全，利用乘员脑氧信息预测目标车辆的风险，将反映人对风险的感知的乘员脑氧信息引入车辆行驶策略的确定，构建在预期功能安全场景下乘员风险认知在环路的智能安全决策机制，从人的角度出发，弥补自动驾驶系统在特定环境条件下的性能不足，规避预期功能不足或性能限制引起的潜在危险行为，减少预期功能安全事故，提高车辆行驶策略在预期功能安全场景下的安全性。
77.在一个实施例中，如图2所示，根据目标车辆的车辆状态信息、目标车辆的乘员脑氧信息、目标车辆的周围环境信息和预先构建的综合风险预测算法，确定目标车辆的综合风险预测结果的具体方程包括以下步骤：
78.步骤201，根据目标车辆的乘员脑氧信息和预设的显在风险熵计算规则，计算目标车辆的显在风险熵。
79.其中，显在风险熵用于预测历史时刻的行驶场景对车辆安全已经产生的、且乘员感知到的风险。
80.在本技术实施例中，显在风险熵用于预测目标车辆行驶的显在风险。显在风险熵可以为一个数值。显在风险为历史时刻的行驶场景对车辆安全已经产生、且算法难以检测到、且乘员感知到的风险。即显在风险为第二类风险。显在风险包括但不限于其他车辆的不安全驾驶行为、路面突然变光滑和遇到侧风。
81.终端预设显在风险熵计算规则。然后，终端根据目标车辆的乘员脑氧信息和预设的显在风险熵计算规则，计算目标车辆的显在风险熵。
82.步骤202，根据目标车辆的车辆状态信息、目标车辆的周围环境信息和预设的潜在风险熵计算规则，计算目标车辆的潜在风险熵。
83.其中，潜在风险熵用于预测当前时刻的行驶场景对车辆安全的预期风险。
84.在本技术实施例中，潜在风险熵用于预测目标车辆行驶的潜在风险。潜在风险熵可以为一个数值。潜在风险为当前时刻的行驶场景对车辆安全将来可能产生的风险。潜在风险为第一类风险，能够被算法检测到。例如，潜在风险可以为目标车辆和其他车辆均保持当前行驶状态在将来时刻发生碰撞的概率。
85.终端预设潜在风险熵计算规则。然后，终端根据目标车辆的车辆状态信息、目标车辆的周围环境信息和预设的潜在风险熵计算规则，计算目标车辆的潜在风险熵。
86.步骤203，根据显在风险熵和潜在风险熵，进行加权计算，得到目标车辆的综合风
险预测结果。
87.在本技术实施例中，终端预设显在风险熵对应的第一权重和潜在风险熵对应的第二权重。然后，终端根据显在风险熵、潜在风险熵、显在风险熵对应的第一权重和潜在风险熵对应的第二权重，进行加权计算，得到目标车辆的综合风险预测结果。具体的，终端将显在风险熵和显在风险熵对应的第一权重相乘，得到显在风险预测结果。同时，终端将潜在风险熵和潜在风险熵对应的第二权重相乘，得到潜在风险预测结果。然后，终端将显在风险预测结果和潜在风险预测结果相加，得到目标车辆的综合风险预测结果。其中，第一权重与第二权重可以相等，也可以不相等。例如，第二权重可以大于第一权重。这样，在兼顾显在风险和潜在风险的同时，仍将潜在风险作为更主要风险，更加切合实际，能够进一步提高车辆行驶策略的安全性。
88.在一个实施例中，终端根据显在风险熵、潜在风险熵、显在风险熵对应的第一权重和潜在风险熵对应的第二权重，加权计算目标车辆的综合风险预测结果，可以表示为：
89.e＝k1e1 k2e290.其中，e为目标车辆的综合风险预测结果，e1为显在风险熵，e2为潜在风险熵，k1为显在风险熵对应的第一权重，k2为潜在风险熵对应的第二权重，k1和k2可以为常数。
91.上述基于乘员风险认知的车辆行驶策略的确定方法中，根据目标车辆的乘员脑氧信息和预设的显在风险熵计算规则，计算目标车辆的显在风险熵；根据目标车辆的车辆状态信息、目标车辆的周围环境信息和预设的潜在风险熵计算规则，计算目标车辆的潜在风险熵；根据显在风险熵和潜在风险熵，进行加权计算，得到目标车辆的综合风险预测结果。这样，分别计算用于预测历史时刻的行驶场景对车辆安全已经产生、且算法难以检测到、且乘员感知到的风险的显在风险熵和用于预测当前时刻的行驶场景对车辆安全将来可能产生的风险的潜在风险熵，不仅对算法能够检测到的风险进行预测，还对算法难以检测到、但人能够感知到的风险进行预测，利用乘员脑氧信息预测目标车辆的风险，将反映人对风险感知的乘员脑氧信息引入车辆行驶策略的确定，从人的角度出发，弥补自动驾驶系统在特定环境条件下的性能不足，规避预期功能不足或性能限制引起的潜在危险行为，减少预期功能安全事故，提高车辆行驶策略在预期功能安全场景下的安全性。
92.在一个实施例中，如图3所示，根据目标车辆的乘员脑氧信息和预设的显在风险熵计算规则，计算目标车辆的显在风险熵的具体过程包括以下步骤：
93.步骤301，根据目标车辆的乘员脑氧信息和风险概率系数，计算目标车辆的显在风险概率。
94.在本技术实施例中，终端预设风险概率系数。然后，终端根据目标车辆的乘员脑氧信息，计算目标车辆的乘员脑氧交换量。然后，终端将目标车辆的乘员脑氧交换量与风险概率系数的比值，作为目标车辆的显在风险概率。
95.在一个示例中，目标车辆的乘员脑氧信息包括目标车辆内乘员大脑前额皮层的氧含血红蛋白的浓度变化量和脱氧血红蛋白的浓度变化量。终端计算目标车辆内乘员大脑前额皮层的氧含血红蛋白的浓度变化量和目标车辆内乘员大脑前额皮层的脱氧血红蛋白的浓度变化量的差值。然后，终端将得到的差值作为目标车辆的乘员脑氧交换量。
96.在一个实施例中，目标车辆的乘员脑氧信息为目标车辆的乘员脑氧交换量。终端根据目标车辆的乘员脑氧信息和风险概率系数，计算目标车辆的显在风险概率，可以表示
为：
[0097][0098]
其中，p1为目标车辆的显在风险概率，δth为目标车辆的乘员脑氧交换量，m为风险概率系数。
[0099]
步骤302，根据显在风险概率和预设的显在风险熵计算规则，计算目标车辆的显在风险熵。
[0100]
在本技术实施例中，终端预设显在风险熵计算规则。然后，终端根据显在风险概率和预设的显在风险熵计算规则，计算目标车辆的显在风险熵。
[0101]
在一个实施例中，终端根据显在风险概率和预设的显在风险熵计算规则，计算目标车辆的显在风险熵，可以表示为：
[0102]
e1＝p1lnp1 (1-p1)ln(1-p1)
[0103]
其中，e1为目标车辆的显在风险熵，p1为目标车辆的显在风险概率。
[0104]
上述基于乘员风险认知的车辆行驶策略的确定方法中，根据目标车辆的乘员脑氧信息和风险概率系数，计算目标车辆的显在风险概率；根据显在风险概率和预设的显在风险熵计算规则，计算目标车辆的显在风险熵。这样，根据目标车辆的乘员脑氧信息计算显在风险概率，再根据显在风险概率计算显在风险熵，以实现利用乘员脑氧信息预测目标车辆的风险，将反映人对风险感知的乘员脑氧信息引入车辆行驶策略的确定，从人的角度出发，进一步弥补自动驾驶系统在特定环境条件下的性能不足，进一步规避预期功能不足或性能限制引起的潜在危险行为，进一步减少预期功能安全事故，进一步提高车辆行驶策略在预期功能安全场景下的安全性。
[0105]
在一个实施例中，如图4所示，根据目标车辆的车辆状态信息、目标车辆的周围环境信息和预设的潜在风险熵计算规则，计算目标车辆的潜在风险熵的具体过程包括以下步骤：
[0106]
步骤401，根据目标车辆的车辆状态信息和目标车辆的周围环境信息，计算目标车辆的先验碰撞概率。
[0107]
在本技术实施例中，先验碰撞概率为在一定时空内，各交通参与者保持当前状态情况下的最大时空重叠率。先验碰撞概率用于对目标车辆有可能面对的潜在碰撞风险进行预测。终端根据目标车辆的车辆状态信息和目标车辆的周围环境信息，计算目标车辆的先验碰撞概率。
[0108]
步骤402，根据先验碰撞概率和预设的潜在风险熵计算规则，计算目标车辆的潜在风险熵。
[0109]
在本技术实施例中，终端预设潜在风险熵计算规则。然后，终端根据先验碰撞概率和预设的潜在风险熵计算规则，计算目标车辆的潜在风险熵。
[0110]
在一个实施例中，终端根据先验碰撞概率和预设的潜在风险熵计算规则，计算目标车辆的潜在风险熵，可以表示为：
[0111]
e2＝p2lnp2 (1-p2)ln(1-p2)
[0112]
其中，e2为目标车辆的潜在风险熵，p2为先验碰撞概率。
[0113]
上述基于乘员风险认知的车辆行驶策略的确定方法中，根据目标车辆的车辆状态
信息和目标车辆的周围环境信息，计算目标车辆的先验碰撞概率；根据先验碰撞概率和预设的潜在风险熵计算规则，计算目标车辆的潜在风险熵。这样，根据目标车辆的车辆状态信息和目标车辆的周围环境信息，计算各交通参与者保持当前状态情况下的最大时空重叠率，即先验碰撞概率，再根据先验碰撞概率计算潜在风险熵，将当前行驶环境可能对目标车辆未来时刻造成的危险，也作为预测风险的一部分，兼顾未来的风险，进一步提高车辆行驶策略的安全性。
[0114]
在一个实施例中，如图5所示，基于乘员风险认知的车辆行驶策略的确定方法还包括：
[0115]
步骤501，根据车辆行驶策略，更新车辆状态信息。
[0116]
在本技术实施例中，终端根据目标车辆的决策前的车辆状态信息和车辆行驶策略，确定目标车辆决策后的车辆状态信息。然后，终端将目标车辆决策后的车辆状态信息，作为目标车辆更新后的车辆状态信息。
[0117]
步骤502，根据更新后的车辆状态信息，在预设的车辆状态信息和奖励值的映射关系中，查询车辆行驶策略对应的奖励值。
[0118]
在本技术实施例中，终端预先设定车辆状态信息和奖励值的映射关系。终端根据更新后的车辆状态信息，在车辆状态信息和奖励值的映射关系中，查询车辆行驶策略对应的奖励值。
[0119]
步骤503，根据车辆行驶策略和车辆行驶策略对应的奖励值，更新车辆初始决策模型。
[0120]
在本技术实施例中，终端根据车辆行驶策略和车辆行驶策略对应的奖励值，更新车辆初始决策模型。
[0121]
上述基于乘员风险认知的车辆行驶策略的确定方法中，根据车辆行驶策略，更新车辆状态信息，再根据更新后的车辆状态信息和预设的车辆状态信息和奖励值的映射关系，确定车辆行驶策略对应的奖励值，并根据车辆行驶策略和车辆行驶策略对应的奖励值，更新车辆初始决策模型，实现在车辆行驶策略的确定过程中，车辆初始决策模型仍旧根据实际情况不断更新，进一步提高车辆初始决策模型和初始决策结果的准确性，从而进一步提高车辆行驶策略在预期功能安全场景下的安全性。不仅如此，在应用的过程中初始决策模型会依据综合风险预测结果进行相应微小的模型参数更新，而综合风险预测结果是根据乘员脑氧信息得到的，初始决策模型的更新进一步将反映人对风险的感知的乘员脑氧信息引入车辆行驶策略的确定，进一步从人的角度出发，弥补自动驾驶系统在特定环境条件下的性能不足，规避预期功能不足或性能限制引起的潜在危险行为，减少预期功能安全事故，进一步提高车辆行驶策略在预期功能安全场景下的安全性。
[0122]
在一个实施例中，如图6所示，决策约束结果为多个子决策结果组成的集合。
[0123]
根据初始决策结果、决策约束结果和预设的车辆决策规则，确定目标车辆的车辆行驶策略的具体过程包括以下步骤：
[0124]
步骤601，若决策约束结果包含的子决策结果中，存在与初始决策结果相同的子决策结果，则将初始决策结果，作为目标车辆的车辆行驶策略。
[0125]
在本技术实施例中，终端判断决策约束结果包含的子决策结果中，是否存在与初始决策结果相同的子决策结果。若决策约束结果包含的子决策结果中，存在与初始决策结
果相同的子决策结果，则终端将初始决策结果，作为目标车辆的车辆行驶策略。其中，子决策结果可以包括：油门子决策结果、刹车子决策结果和方向盘子决策结果。
[0126]
步骤602，若决策约束结果包含的子决策结果中，不存在与初始决策结果相同的子决策结果，则将与初始决策结果最接近的子决策结果，作为目标车辆的车辆行驶策略。
[0127]
在本技术实施例中，若决策约束结果包含的子决策结果中，不存在与初始决策结果相同的子决策结果，则终端将与初始决策结果最接近的子决策结果，作为目标车辆的车辆行驶策略。具体的，针对每一个子决策结果，终端计算该子决策结果与初始决策结果之间的差距。然后，终端将各子决策结果对应的差距进行比较，得到差距最小的子决策结果。然后，终端将该差距最小的子决策结果，作为目标车辆的车辆行驶策略。
[0128]
上述基于乘员风险认知的车辆行驶策略的确定方法中，若决策约束结果包含的子决策结果中，存在与初始决策结果相同的子决策结果，则将初始决策结果，作为目标车辆的车辆行驶策略。若决策约束结果包含的子决策结果中，不存在与初始决策结果相同的子决策结果，则将与初始决策结果最接近的子决策结果，作为目标车辆的车辆行驶策略。这样，通过决策约束结果对车辆决策结果进行约束，构造乘员风险认知在环路的智能决策机制，提出预期功能安全场景下乘员风险认知在环路的高级别智能汽车安全决策策略，从人的角度出发，弥补自动驾驶系统在特定环境条件下的性能不足，规避预期功能不足或性能限制引起的潜在危险行为，进一步减少预期功能安全事故，进一步提高车辆行驶策略在预期功能安全场景下的安全性。
[0129]
在一个实施例中，车辆初始决策模型的训练过程包括以下步骤：针对每一个训练场景，将该训练场景的周围环境信息和该训练场景下的车辆状态信息输入至目标强化学习网络，得到该训练场景的初始决策结果；根据该训练场景的初始决策结果，更新该训练场景的周围环境信息和该训练场景下的车辆状态信息；根据更新后的该训练场景下的车辆状态信息，在预设的车辆状态信息和奖励值的映射关系中，查询该初始决策结果对应的奖励值；根据该初始决策结果和该初始决策结果对应的奖励值，更新目标强化学习网络的参数，得到更新后的目标强化学习网络，并返回将该训练场景的周围环境信息和该训练场景下的车辆状态信息输入至目标强化学习网络，得到该训练场景的初始决策结果步骤；当满足预设的训练条件时，将得到的更新后的目标强化学习网络，作为目标模型，并根据目标模型，确定车辆初始决策模型。
[0130]
在本技术实施例中，训练场景为进行车辆初始决策模型的训练的场景，可以为预期功能安全场景。训练场景可以为一个或多个。目标强化学习网络的结构为演员-评论家(actor-critic)网络结构，目标强化学习网络包含演员(actor)网络和评论家(critic)网络。训练条件用于衡量目标强化学习网络是否训练完成。训练条件可以为达到目标强化学习网络的训练次数。当完成一个训练场景的训练，目标强化学习网络的训练次数加1。
[0131]
终端可以通过车辆仿真平台，建立训练场景。然后，针对每一个训练场景，终端将该训练场景的周围环境信息和该训练场景下的车辆状态信息输入至目标强化学习网络，得到该训练场景的初始决策结果。然后，终端根据该训练场景的初始决策结果，更新该训练场景的周围环境信息和该训练场景下的车辆状态信息。然后，终端根据更新后的该训练场景下的车辆状态信息，在预设的车辆状态信息和奖励值的映射关系中，查询该初始决策结果对应的奖励值。然后，终端根据该初始决策结果和该初始决策结果对应的奖励值，更新目标
强化学习网络的参数，得到更新后的目标强化学习网络。然后，终端返回将该训练场景的周围环境信息和该训练场景下的车辆状态信息输入至目标强化学习网络，得到该训练场景的初始决策结果步骤。当满足预设的训练条件时，终端将得到的更新后的目标强化学习网络，作为目标模型。然后，终端根据目标模型，确定车辆初始决策模型。
[0132]
在一个示例中，终端将训练得到目标模型，作为车辆初始决策模型。
[0133]
上述基于乘员风险认知的车辆行驶策略的确定方法中，通过构建预期功能安全场景，对目标强化学习网络进行训练，并根据训练完成的目标强化学习网络，确定车辆初始决策模型，为确定基于乘员风险认知的车辆行驶策略提供决策基础。此外，通过构建预期功能安全场景对目标强化学习网络进行训练，能够避免通过大量的试错交互产生最优策略的巨大代价，提高了获得车辆初始决策模型的效率。
[0134]
在一个实施例中，终端可以根据预设的筛选条件，在预期功能安全场景库中，选取典型的预期功能安全场景。然后，终端可以基于测试平台和利用驾驶仿真软件构建典型的预期功能安全场景对应的测试场景，对目标模型进行测试。然后，终端将测试完得到的模型作为车辆初始决策模型(车辆初始决策模型可以为本实例中经过测试完之后得到的模型，也可以直接为上一个实例中训练完之后得到模型)。具体的，终端可以采用硬件在环(hardware-in-the-loop，hil)平台，对目标模型进行测试，确定车辆初始决策模型。其中，驾驶仿真软件可以为德国vire s公司开发的用于驾驶辅助系统，主动安全和自动驾驶的完整模块化仿真工具虚拟试驾(virtual test drive，vtd)软件。
[0135]
在一个实施例中，在预期功能安全场景下乘员的脑氧交换信息与场景风险的对应关系的确定过程中可以采用医学试验的方式确定，具体包括以下步骤：确定试验目标；确定试验设备；搭建预期功能安全场景；采集乘员的脑氧信息；对乘员的脑氧信息进行数据分析，确定在预期功能安全场景下乘员的脑氧交换信息与场景风险的对应关系。
[0136]
应该理解的是，虽然如上所述的各实施例所涉及的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，如上所述的各实施例所涉及的流程图中的至少一部分步骤可以包括多个步骤或者多个阶段，这些步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。
[0137]
基于同样的发明构思，本技术实施例还提供了一种用于实现上述所涉及的基于乘员风险认知的车辆行驶策略的确定方法的基于乘员风险认知的车辆行驶策略的确定装置。该装置所提供的解决问题的实现方案与上述方法中所记载的实现方案相似，故下面所提供的一个或多个基于乘员风险认知的车辆行驶策略的确定装置实施例中的具体限定可以参见上文中对于基于乘员风险认知的车辆行驶策略的确定方法的限定，在此不再赘述。
[0138]
在一个实施例中，如图7所示，提供了一种基于乘员风险认知的车辆行驶策略的确定装置700，包括：初始决策模块710、综合风险预测模块720、第一查询模块730和确定模块740，其中：
[0139]
初始决策模块710，用于将目标车辆的车辆状态信息和所述目标车辆的周围环境信息输入至预先训练的车辆初始决策模型，得到所述目标车辆的初始决策结果；
[0140]
综合风险预测模块720，用于根据所述目标车辆的车辆状态信息、所述目标车辆的乘员脑氧信息、所述目标车辆的周围环境信息和预先构建的综合风险预测算法，确定所述目标车辆的综合风险预测结果；
[0141]
第一查询模块730，用于根据所述综合风险预测结果，在预设的综合风险预测结果与决策约束结果的对应关系中，查询所述目标车辆的决策约束结果；所述决策约束结果用于约束车辆的决策；
[0142]
确定模块740，用于根据所述初始决策结果、所述决策约束结果和预设的车辆决策规则，确定所述目标车辆的车辆行驶策略。
[0143]
可选的，所述综合风险预测模块720，具体用于：
[0144]
根据所述目标车辆的乘员脑氧信息和预设的显在风险熵计算规则，计算所述目标车辆的显在风险熵；所述显在风险熵用于预测历史时刻的行驶场景对车辆安全已经产生的、且乘员感知到的风险；
[0145]
根据所述目标车辆的车辆状态信息、所述目标车辆的周围环境信息和预设的潜在风险熵计算规则，计算所述目标车辆的潜在风险熵；所述潜在风险熵用于预测当前时刻的行驶场景对车辆安全的预期风险；
[0146]
根据所述显在风险熵和所述潜在风险熵进行加权计算，得到所述目标车辆的综合风险预测结果。
[0147]
可选的，所述综合风险预测模块720，具体用于：
[0148]
根据所述目标车辆的乘员脑氧信息和风险概率系数，计算所述目标车辆的显在风险概率；
[0149]
根据所述显在风险概率和预设的显在风险熵计算规则，计算所述目标车辆的显在风险熵。
[0150]
可选的，所述综合风险预测模块720，具体用于：
[0151]
根据所述目标车辆的车辆状态信息和所述目标车辆的周围环境信息，计算所述目标车辆的先验碰撞概率；
[0152]
根据所述先验碰撞概率和预设的潜在风险熵计算规则，计算所述目标车辆的潜在风险熵。
[0153]
可选的，所述装置700还包括：
[0154]
第一更新模块，用于根据所述车辆行驶策略，更新所述车辆状态信息；
[0155]
第二查询模块，用于根据更新后的所述车辆状态信息，在预设的车辆状态信息和奖励值的映射关系中，查询所述车辆行驶策略对应的奖励值；
[0156]
第二更新模块，用于根据所述车辆行驶策略和所述车辆行驶策略对应的奖励值，更新所述车辆初始决策模型。
[0157]
可选的，所述决策约束结果为多个子决策结果组成的集合；所述确定模块740，具体用于：
[0158]
若所述决策约束结果包含的子决策结果中，存在与所述初始决策结果相同的子决策结果，则将所述初始决策结果，作为所述目标车辆的车辆行驶策略；
[0159]
若所述决策约束结果包含的子决策结果中，不存在与所述初始决策结果相同的子决策结果，则将与所述初始决策结果最接近的子决策结果，作为所述目标车辆的车辆行驶
策略。
[0160]
上述基于乘员风险认知的车辆行驶策略的确定装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于车辆设备中的处理器中，也可以以软件形式存储于车辆设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。
[0161]
在一个实施例中，提供了一种车辆设备。可以理解的是，该车辆设备为计算机设备。该车辆设备可以是终端，其内部结构图可以如图8所示。该车辆设备包括处理器、存储器、输入/输出接口、通信接口、显示单元和输入装置。其中，处理器、存储器和输入/输出接口通过系统总线连接，通信接口、显示单元和输入装置通过输入/输出接口连接到系统总线。其中，该车辆设备的处理器用于提供计算和控制能力。该车辆设备的存储器包括非易失性存储介质和内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该车辆设备的输入/输出接口用于处理器与外部设备之间交换信息。该车辆设备的通信接口用于与外部的终端进行有线或无线方式的通信，无线方式可通过wifi、移动蜂窝网络、nfc(近场通信)或其他技术实现。该计算机程序被处理器执行时以实现一种基于乘员风险认知的车辆行驶策略的确定方法。该车辆设备的显示单元用于形成视觉可见的画面，可以是显示屏、投影装置或虚拟现实成像装置。显示屏可以是液晶显示屏或者电子墨水显示屏，该车辆设备的输入装置可以是显示屏上覆盖的触摸层，也可以是车辆设备外壳上设置的按键、轨迹球或触控板，还可以是外接的键盘、触控板或鼠标等。
[0162]
本领域技术人员可以理解，图8中示出的结构，仅仅是与本技术方案相关的部分结构的框图，并不构成对本技术方案所应用于其上的车辆设备的限定，具体的车辆设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。
[0163]
在一个实施例中，提供了一种车辆设备，包括存储器和处理器，存储器中存储有计算机程序，该处理器执行计算机程序时实现上述各方法实施例中的步骤。
[0164]
在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现上述各方法实施例中的步骤。
[0165]
在一个实施例中，提供了一种计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现上述各方法实施例中的步骤。
[0166]
需要说明的是，本技术所涉及的用户信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于分析的数据、存储的数据、展示的数据等)，均为经用户授权或者经过各方充分授权的信息和数据，且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。
[0167]
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本技术所提供的各实施例中所使用的对存储器、数据库或其它介质的任何引用，均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(read-only memory，rom)、磁带、软盘、闪存、光存储器、高密度嵌入式非易失性存储器、阻变存储器(reram)、磁变存储器(magnetoresistive random access memory，mram)、铁电存储器
(ferroelectric random access memory，fram)、相变存储器(phase change memory，pcm)、石墨烯存储器等。易失性存储器可包括随机存取存储器(random access memory，ram)或外部高速缓冲存储器等。作为说明而非局限，ram可以是多种形式，比如静态随机存取存储器(static random access memory，sram)或动态随机存取存储器(dynamic random access memory，dram)等。本技术所提供的各实施例中所涉及的数据库可包括关系型数据库和非关系型数据库中至少一种。非关系型数据库可包括基于区块链的分布式数据库等，不限于此。本技术所提供的各实施例中所涉及的处理器可为通用处理器、中央处理器、图形处理器、数字信号处理器、可编程逻辑器、基于量子计算的数据处理逻辑器等，不限于此。
[0168]
以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。
[0169]
以上所述实施例仅表达了本技术的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本技术专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本技术构思的前提下，还可以做出若干变形和改进，这些都属于本技术的保护范围。因此，本技术的保护范围应以所附权利要求为准。

再多了解一些

1/2 1 2 下一页尾页

本文用于创业者技术爱好者查询，仅供学习研究，如用于商业用途，请联系技术所有人。

上一篇：返回列表
下一篇：用于渣土车的速度监测装置的制作方法

基于乘员风险认知的车辆行驶策略的确定方法和装置

相关文献

最热文献