一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

车载单元、协作驾驶的方法、模型确定单元、确定机器学习通信模型的方法与流程

2021-10-24 05:14:00 来源:中国专利 TAG:单元 模型 方法 协作 驾驶

车载单元、协作驾驶的方法、模型确定单元、确定机器学习通信模型的方法


背景技术:

1.本发明涉及车载单元、用于协作驾驶的方法、模型确定单元、用于确定机器学习通信模型的方法、系统、方法、车辆以及用户设备。
2.车辆对x(v2x)通信的许多用例都受益于协作机动协调,该协作机动协调由协商共同的联合机动的附近车辆组成,其关于使每个车辆独立制定其自己的机动而优化了车辆交通流量、驾驶舒适性和道路利用效率。
3.其中预期机动协调会带来巨大收益的典型用例是高速公路并入坡道、市区或乡村道路的交叉口(尤其是对于左转机动)、交通拥堵排和超车机动。
4.例如从de 10 2018 109 885 a1或de 10 2018 109 883 a1中已知机动协调。


技术实现要素:

5.现有技术的问题通过根据权利要求1的车载单元、根据从属权利要求的用于协作驾驶的方法、根据进一步的从属权利要求的模型确定单元、根据进一步的从属权利要求的用于确定机器学习通信模型的方法、根据进一步的从属权利要求的系统、根据进一步的从属权利要求的方法、根据进一步的从属权利要求的车辆以及根据进一步的从属权利要求的用户设备得到解决。
6.说明书的一方面涉及一种用于道路使用者的协作驾驶的车载单元,其中,该车载单元包括:环境确定单元,其被配置成确定表示该道路使用者所参与的交通状况的交通状况数据;通信方案确定单元,其被配置成使用机器学习通信模型依赖于所确定的交通状况数据来确定至少一个通信参数;以及协调单元,其被配置成经由通过无线电信道传输的至少一个协调消息,依赖于至少一个通信参数与另外的道路使用者的至少一个进一步的车载单元进行通信。
7.车载单元选取确定如何传输协调消息的最佳通信参数。更进一步地,最佳参数化取决于由交通状况数据表示的多个不同的环境参数,比如车辆动力学、驾驶环境和进一步的条件。机器学习通信模型考虑这些不同的环境参数,以便影响周围的车辆,从而在减少无线电使用和成功解决交通状况的意义上达到最佳结果。
8.因此,该方法解决了道路使用者之间的机动协调处理的最佳参数化问题。利用该方法,基于对例如过去的协作机动协调处理的结果的观察来优化通信参数。因此,车载单元能够快速确定对每种交通状况的最佳反应。
9.总之,提供了用于优化机动协调处理的解决方案,以处置表示交通状况的环境参数、通信参数与交通状况结果之间的复杂依赖性。
10.根据有利的示例,协调单元被配置成依赖于至少一个通信参数来确定至少一个协调消息的有效载荷。
11.有利地,通过使用机器学习通信模型来构建至少一个协调消息。因此,所使用的机器学习通信模型关于机动结果以可比的方式将过去的良好经验应用于当前交通状况。特别
地,确定协调消息的大小和结构。
12.特别地,至少一个协调消息的有效载荷包括:道路使用者的车载单元提供给其他车辆的其他车载单元的多条轨迹。
13.根据有利的示例,协调单元被配置成经由无线电信道依赖于至少一个通信参数传输至少一个协调消息。
14.有利地,至少一个协调消息的传输由机器学习通信模型管理。因此,所使用的机器学习模型关于机动结果以可比的方式来将过去的良好经验应用于当前交通状况。特别地,确定协调消息的无线电传输参数。
15.根据有利的示例,协调单元被配置成经由无线电信道依赖于至少一个通信参数来接收至少一个协调消息。
16.在该情况下,由机器学习通信模型来确定至少一个rx参数,以根据当前的交通状况来配置车载单元的无线电接口。有利地,rx无线电接口因此被配置成使得建立适配于当前交通状况的无线电信道监听。
17.根据有利的示例,机器学习模型是高斯过程模型、贝叶斯神经网络或贝叶斯非线性回归模型。
18.说明书的另一方面涉及一种用于道路使用者的协作驾驶的方法,其中,该方法包括:确定表示道路使用者所参与的交通状况的交通状况数据;使用机器学习通信模型依赖于所确定的交通状况数据来确定至少一个通信参数;以及经由通过无线电信道传输的至少一个协调消息,依赖于至少一个通信参数与另外的道路使用者的至少一个进一步的车载单元进行通信。
19.根据有利的示例,该方法适配于操作所描述的车载单元。
20.说明书的进一步的方面涉及一种模型确定单元,该模型确定单元用于确定用于道路使用者的协作驾驶的机器学习通信模型,其中,该模型确定单元包括:协调评分单元,其被配置成依赖于交通状况结果来确定协调评分;以及训练单元,其被配置成依赖于协调评分利用多个训练集来训练通信模型,其中,每个训练集包括交通状况数据、至少一个通信参数和交通状况结果。
21.在涉及多个道路使用者的机动之后,可以通过测量多个评估度量来判断机动执行的成功,所述评估度量关于过去的类似机动被聚合成协调评分。以该方式,确定需要所选择的至少一个通信参数如何被适配用于将来的机动。有利地,机动评分可以适配于oem的偏好和/或可以基于车辆的驾驶模式,例如,舒适驾驶模式或运动驾驶模式。
22.因此,机器学习被用来对交通状况、通信参数与评分之间的关系进行建模。在道路上,这允许快速确定对每种交通状况的最佳反应,这使针对给定场景的评估度量最大化。
23.根据有利的示例,模型确定单元包括:训练子集选择器,其被配置成依赖于选择策略从训练集的池中选择训练集,其中,选择策略基于协调评分(例如,诸如机器学习模型的预测方差之类的准则);并且训练单元被配置成利用所选择的训练集来训练通信模型。
24.预期所选择的种子训练集将为学习通信模型提供最有用的信息。所确定的种子训练子集适用于提高通信模型的准确性。在所确定的训练数据的种子训练子集上进行工作可以在具有更少计算、并且在没有显著妥协的准确性的情况下减少训练时间。
25.根据有利的示例,模型确定单元包括:环境单元,其被配置成依赖于协调评分来确
定奖励,并且被配置成依赖于代理动作来确定环境的状态,其中,状态包括交通状况数据;以及代理单元,其被配置成依赖于奖励并且依赖于状态来确定代理动作,其中,代理动作包括至少一个通信参数。
26.因此,模型确定单元应用强化学习,其中,代理与真实环境或模拟环境进行交互,以便确定具有有利协调评分的训练集。代理的动作可以是试错动作,或者可以基于策略。如果使用定义明确的模拟,则代理可以与环境自由互动,以便确定有利的训练集。
27.根据有利的示例,权重单元被配置成将不同的权重应用于交通状况结果的度量。
28.有利地,用于机动结果的度量的不同权重的方案可以适配于oem的偏好,或者可以基于车辆的驾驶模式,例如,舒适驾驶模式或运动驾驶模式。这使得有可能根据车辆的优选驾驶模式来适配道路使用者的反应。
29.根据有利的示例,模型确定单元包括特征选择器,其被配置成从多种类型的交通状况数据中选择子集。
30.结果,利用表示环境的最相关的交通状况数据完成了机器学习。有利地,交通状况数据的类型的子集选择使输入空间最小化,并且因此就存储器和处理时间而言降低了模型和训练复杂性。另一方面,交通状况数据总体上可以包括从模型训练的角度来看携带了相同信息的不同类型的数据。
31.根据有利的示例,模型确定单元进一步包括:安全单元,其被配置成依赖于交通状况数据来确定安全指示符;以及训练单元,如果安全指示符指示所请求的交通状况或驾驶状况至少对于道路使用者而言是安全的,则训练单元被配置成训练通信模型。换句话说,安全关键在于获得不安全的交通状况的协调评分。这就是为什么仅在安全的交通状况下允许请求协调评分的原因,该安全的交通状况由安全指示符指示。
32.有利地,训练被约束为仅请求协调评分,这不会损害驾驶安全性。换句话说,如果潜在的训练数据导致对至少一名道路使用者的道路安全产生负面影响,则不会为此训练数据请求协调评分。因此,安全指示符表示对优化问题的约束,并且(例如,针对正值)指示安全运行。
33.根据有利的示例,安全单元被配置成使用进一步的机器学习模型依赖于交通状况数据来确定安全指示符。
34.进一步的机器学习模型将交通状况数据映射到安全指示符,并且经过专门训练以检测车辆行为的异常。这些异常反映在安全指示符中,以便确定和拒绝损害驾驶安全的道路使用者行为,以用于学习机器学习通信模型。换句话说,进一步的机器学习模型能够在概率安全约束的意义上确定安全指示符。所以,通过仅针对那些不损害道路安全的潜在训练数据请求协调评分,来避免车辆的安全关键行为。
35.根据有利的示例,机器学习通信模型和/或进一步的机器学习模型是高斯过程模型、贝叶斯神经网络或贝叶斯非线性回归模型。
36.说明书的进一步的方面涉及一种用于确定用于道路使用者的协作驾驶的机器学习通信模型的方法,其中,该方法包括:依赖于交通状况结果来确定协调评分;以及利用多个训练集依赖于协调评分来训练通信模型,其中,每个训练集包括交通状况数据、至少一个通信参数和交通状况结果。
37.根据有利的示例,该方法适配于操作模型确定单元。
38.说明书的进一步的方面涉及一种包括车载单元和模型确定单元的系统。
39.说明书的进一步的方面涉及一种包括车载单元和/或模型确定单元的车辆。
40.根据有利的示例,环境确定单元包括:至少一个传感器,其被配置成提供交通状况数据的一部分,并且其中,车辆包括至少一个致动器,该至少一个致动器被配置成依赖于轨迹进行控制,该轨迹已经经由车载单元与另一车辆的至少另一个车载单元之间的至少一条协调消息商定。
41.说明书的进一步的方面涉及一种包括车载单元和/或确定单元的用户设备。
附图说明
42.在各图中:图1描绘了道路使用者的两个车载单元;图2示意性地描绘了道路状况;图3描绘了序列图;图4示意性地描绘了模型确定单元;图5示意性地描绘了代理单元和环境单元;图6示意性地描绘了基于代理的学习;图7示意性地描绘了神经网络;以及图8示意性地描绘了神经网络的学习处理。
具体实施方式
43.图1描绘了道路使用者的两个车载单元obu1、obu2。车载单元obu1、obu2被配置成使得能够实现道路使用者(例如,车辆或人员)的协作驾驶。
44.环境确定单元102、112被配置成确定表示道路使用者所参与的交通状况的交通状况数据tsd。交通状况数据tsd的参数由参与机动协调的车辆v1、v2从其环境模型获得。例如,传感器的测量结果或来自相同车辆v1、v2的其他车载单元的结果被用作当前交通状况的一部分。更进一步地,经由无线电接收的信息成为交通状况的一部分。因此,交通状况数据tsd包括多个当前参数,所述参数表示车载单元obu1、obu2的道路使用者所参加的交通状况。交通状况数据tsd包括以下参数中的至少一个:

在发起当前机动协调之前的当前v2x信道负载,

其他车辆的当前位置,

当前的车辆间距离,

所涉及的车辆的当前驾驶自动化程度,

当前的车辆动力学,例如,绝对和相对速度和加速度,

道路或高速公路的类型,

道路拓扑,例如,交叉口、高速公路入口,

车道数量,

配备v2x和不配备v2x车辆密度,

弱势道路使用者的存在,例如,骑自行车者、行人,

当前的天气状况,

计划的机动类型,例如,并线、超车、交叉口、环状交叉口、紧急车辆驶近。
45.通信方案确定单元104、114被配置成使用机器学习通信模型110、120依赖于所确定的交通状况数据tsd来确定至少一个通信参数cp。
46.协调单元106、116被配置成经由通过无线电信道rch传输的至少一个协调消息cm,依赖于至少一个通信参数cp与另外的道路使用者的至少一个进一步的车载单元obu2、obu1进行通信。
47.协调单元106、116被配置成依赖于至少一个通信参数cp来确定至少一个协调消息cm的有效载荷。对于至少一个通信参数cp的有效载荷确定,包括以下各项中的至少一个:

协调消息cm的有效载荷的最小大小,

协调消息cm的有效载荷的最大大小,

协调消息cm的有效载荷的参考大小,

所述至少一个协调消息cm中包含的最小轨迹数量,

所述至少一个协调消息cm中包含的最大轨迹数量,

所述至少一个协调消息cm中包含的参考轨迹数量,

所述至少一个协调消息cm中包含的轨迹的最小轨迹长度,

所述至少一个协调消息cm中包含的轨迹的最大轨迹长度,

所述至少一个协调消息cm中包含的轨迹的参考轨迹长度,

所述至少一个协调消息cm中包含的轨迹的最小轨迹分辨率,

所述至少一个协调消息cm中包含的轨迹的最大轨迹分辨率,

所述至少一个协调消息cm中包含的轨迹的参考轨迹分辨率,以及

所述协调消息cm中的一系列轨迹。
48.协调单元106、116被配置成依赖于至少一个通信参数cp,经由无线电信道rch传输至少一个协调消息cm。所述至少一个通信参数cp由车载单元obu1、obu2单独选取。
49.例如,通信参数包括:tx参数,以至少针对协调消息cm来配置车载单元obu1、obu2的无线电接口。所确定的通信参数cp例如被移交给联网和传输层。
50.所述至少一个通信参数cp包括以下各项中的至少一个:

用于传输协调消息cm的至少一个参考无线电信道rch,

所述至少一个协调消息cm的最小qos值,

所述至少一个协调消息cm的最大qos值,

所述至少一个协调消息cm的参考qos值,

所述至少一个协调消息cm的最小传输频率,

所述至少一个协调消息cm的最大传输频率,

所述至少一个协调消息cm的参考传输频率,

所述至少一个协调消息cm的计划的传输开始时间,

所述至少一个协调消息cm的最小传输功率,

所述至少一个协调消息cm的最大传输功率,

所述至少一个协调消息cm的参考传输功率,

活动传输队列的最小数量,

活动传输队列的最大数量,

活动传输队列的参考数量,

用于至少一个协调消息cm的传输的最小数据速率,

用于至少一个协调消息cm的传输的最大数据速率,

用于至少一个协调消息cm的传输的参考数据速率,

所述至少一个控制消息cm的最小传输优先级,

所述至少一个控制消息cm的最大传输优先级,

所述至少一个控制消息cm的参考传输优先级,

所述至少一个协调消息cm的最小到期时间,

所述至少一个协调消息cm的最大到期时间,

所述至少一个协调消息cm的参考到期时间,

所述至少一个协调消息cm的最小重复次数,

所述至少一个协调消息cm的最大重复次数,以及

所述至少一个协调消息cm的参考重复次数。
51.协调单元116、106被配置成依赖于至少一个通信参数cp经由无线电信道rch接收至少一个协调消息cm。所述至少一个通信参数cp包括以下各项中的至少一个:

所述至少一个协调消息cm的最小qos值,

所述至少一个协调消息cm的最大qos值,

所述至少一个协调消息cm的参考qos值,

用于协调消息cm的接收的至少一个参考无线电信道rch,

用于接收至少一个进一步的协调消息cm的最小接收器灵敏度,

用于接收至少一个进一步的协调消息cm的最大接收器灵敏度,

用于接收至少一个进一步的协调消息cm的参考接收器灵敏度,以及

最小信噪比。
52.至少一个通信参数cp的示例包括:替代轨迹和请求轨迹的数量,以及它们有多频繁地被每辆协作车辆传输。
53.交通状况结果tso由多个度量表示。这些度量被用来判断机动的成功。交通状况结果tso的度量包括以下各项中的至少一个,其中包括部分学习目标:

执行机动的总时间,

机动后的平均车速:越大越好,

与速度限制或驾驶员设置的目标速度相比的增量值:越低越好,

机动期间的最大车辆加速或制动:越低越好,

车辆能耗:越低越好,

机动期间任何两辆车辆之间在机动期间的每个时间瞬间的最小车辆间距离:越高越好,

刹车和/或轮胎的磨损:越低越好,

其协作需求被满足的车辆的数量:越高越好,

公平性,例如,在交叉口等待更长时间的车辆被允许协作,

机动协作期间的平均v2x信道负载。
54.由于由每个车载单元obu1、obu2提供的v2x机动协调服务需要与其他通信服务共
享有限的v2x信道容量,因此存在所传输轨迹的数量之间的权衡,这导致交通状况结果的质量以及信道负载。该权衡由机器学习模型110、120表示。
55.根据示例,机器学习模型110、120是人工神经网络,尤其是贝叶斯神经网络。通信方案确定单元104、114被配置成通过经训练的神经网络来传播交通状况数据tsd,其中,在经训练的神经网络的输入部分中提供输入数据作为输入参数,并且其中,在经训练的神经网络的输出部分中,提供至少一个通信参数cp。例如,在经训练的神经网络的输出部分中,提供至少一个通信参数的至少一个置信值,并且其中,协调单元106被配置成如果至少一个置信值处于预定义的置信区间内的话,则仅依赖于所确定的至少一个通信参数cp进行通信。有利地,置信值指示针对其训练了神经网络的状况,这意味着对输出值具有足够的置信度。
56.在进一步的示例中,机器学习模型110、120是高斯过程模型,或贝叶斯非线性回归模型。c.e. rasmussen和c. k. i. williams的“gaussian processes for machine learning(用于机器学习的高斯过程)”(麻省理工学院出版社,2006,isbn 026218253x)中描述了高斯过程。在yarin gal的“uncertainty in deep learning(深度学习中的不确定性)”(博士学位论文,剑桥大学,2016)中描述了贝叶斯神经网络。
57.机动协调处理的结果包括:交通状况数据tsd、至少一个通信参数cp和交通状况结果tso。结果由车载单元obu1、obu2发送到中央位置并存储在那里。
58.图2示意性地描绘了道路状况。以机动车辆v1和v2形式的道路使用者必须在车辆v1进入所示的两车道道路时协调其未来轨迹。当然,非机动车辆也可以配备有本文中所述的车载单元。以人per的形式的道路使用者正走在道路旁边,并且正在携带用户设备ue。
59.车载单元obu1、obu2和obu3是无线电通信网络rcn的一部分或建立了无线电通信网络rcn。车载单元obu1、obu2和obu3之间的受调度通信或分布式通信是可能的。车载单元obu1、obu2和obu3中的每一个均包括至少互连处理器p1、p2、p3、存储器m1、m2、m3和无线电通信模块c1、c2、c3的数据总线。无线电通信模块c1、c2、c3被配置成用于根据无线电通信网络rcn来传输和接收无线电信号。网络节点,车载单元obu1、obu2和obu3,是路侧网络节点,这意味着这些网络节点安装在车辆v1或v2、道路基础设施或用户设备ue中。在存储器m1、m2、m3的每一个上存储有计算机程序co1、co2、co3,当在对应的处理器p1、p2、p3上执行时,所述计算机程序实现了本说明书中公开的方法。可替代地或附加地,处理器p1、p2、p3被实现为asic。
60.无线电通信模块c1、c2、c3中的每一个被连接到天线a1、a2、a3。
61.例如,无线电通信网络rcn提供无线电信道rch作为自组无线电信道。对应的无线电信道rch是自组无线电信道,并且表示无线介质的实例,用于在两个或更多个车载单元obu1、obu2和obu3之间传递物理层phy、协议数据单元pdu的目的。
62.车载单元obu1、obu2和obu3中的每一个均例如根据ieee 802.11p标准、尤其是2010年7月15日发布的ieee 802.11p

2010来配置,该标准通过引用并入。ieee 802.11p phy和mac为美国专用短程通信dsrc和欧洲its协作c

its的上层协议提供服务。车载单元obu1、obu2和obu3经由免执照频率范围内的自组无线电信道直接与彼此通信。由无线电通信模块c1、c2和c3中的每一个经由csma/ca(载波侦听多路访问/冲突避免)协议对自组无线电信道进行仲裁。
63.通过引用并入本文中的文档“etsi en 302 663 v1.2.0(2012

11)”描述了its

g5技术(its g5:在5 ghz频带上操作的智能运输系统)的两个最下层,物理层和数据链路层。无线电通信模块c1、c2和c3例如根据“etsi ts 102 687 v1.1.1(2011

07)”实现了这两个最下层以及对应的功能,以便使用自组无线电信道。在欧洲,以下免执照频带可用于自组无线电信道的使用,它们是免执照频带nlfb的一部分:1)its

g5a,用于在5.875 ghz至5.905 ghz频率范围内的安全相关应用;2)its

g5b,用于在5,855 ghz至5,875 ghz频率范围内的非安全相关应用;以及3)its

g5d,用于在5.055 ghz至5.925 ghz频率范围内的its应用的操作。its

g5允许在基站上下文之外的车载单元obu1、obu2和obu3之间的通信。its

g5使得能够实现数据帧的立即交换,并且避免了在建立网络时使用的管理开销。
64.通过引用并入本文中的文档“etsi ts 102 687 v1.1.(2011

07)”针对its

g5描述了“分散式拥塞控制机制”。除其他事项外,自组无线电信道ahch还用于交换交通安全和交通效率数据。无线电通信模块c1、c2和c3实现例如文档“etsi ts 102 687 v1.1.1(2011

07)”中所描述的功能。its

g5中的应用和服务基于在无线电通信网络rcn意义上构成车辆自组网络的路边网络节点的协作行为。自组网络使得能够实现时间关键的道路交通应用,所述道路交通应用需要快速的信息交换以在适当的时候警告和辅助驾驶员和/或车辆。为了确保自组网络的正常起作用,“分散式拥塞控制机制”(dcc)被用于its

g5的自组无线电信道。dcc具有驻留在its架构的多个层上的特征。dcc机制基于有关信道的知识。信道状态信息是通过信道探测获得的。信道状态信息可以通过方法tpc(传输功率控制)、trc(传输速率控制)和tdc(传输数据速率控制)获得。该方法响应于来自检测到的分组的接收到的信号水平阈值或前导信息来确定信道状态信息。当然,也可以使用比如lte

v2x模式3/4或5g nr的其他技术来实现v2x通信。
65.机动车辆v1;v2包括车载单元obu1、obu2。在进一步的示例中,机动车辆还包括用于确定或更新机器学习模型的模型确定单元。
66.根据进一步的示例,机动车辆v1、v2包括至少一个传感器202、212。传感器202、212被配置成将交通状况数据tsd的至少一部分提供给图1的环境确定单元102、112,例如,车辆周围环境的测量。车辆v1、v2包括至少一个致动器204;214,所述致动器204;214被配置成依赖于轨迹进行控制,所述轨迹已经经由车载单元obu1;obu2与另外的车辆v2;v1的至少另一个车载单元obu2;obu1之间的至少一条协调消息商定。
67.用户设备ue包括:车载单元obu3,其与车载单元obu1;obu2和/或确定单元类似地被配置。具有用户设备ue的行人不参与图2中的机动协调。将行人描绘为说明协作驾驶功能的参与者不必是汽车,而可以是任何道路使用者。
68.车载单元obu1、obu2确定当前计划的参考轨迹tr_v1、tr_v2。不同于当前计划的参考轨迹,车载单元obu1、obu2确定替代轨迹tr1和tr2、tr3和tr4。
69.图3描绘了经由示例性地示出的协调协议的示例性机动协调处理的序列图。参照图2中描绘的用例车道合并。
70.车载单元obu2在步骤302中确定车辆v1将有可能进入机动车辆v2当前正在行驶的车道。每当车载单元obu2、obu1标识出机动协调可能在其中有用的状况,obu1就会激活其机动协调协议。所以,在步骤302中,车载单元obu2确定机动车辆v1、v2的两个车载单元obu1和obu2之间的协调需求。车载单元obu2计算车辆v2的替代轨迹tr3、tr4。经由第一协调消息cm
(1)向车载单元obu1发送对于协调的请求,其中,第一协调消息cm(1)包括替代轨迹tr3、tr3及其成本。所述至少一个通信参数cp的示例是,作为有可能需要离开其正在行驶的车道的车辆一部分的车载单元obu2发起协调处理。
71.根据步骤304,车载单元obu1确定两条替代轨迹tr1和tr2,其经由第二协调消息cm(2)朝向车载单元obu2传输。此外,当前轨迹tr_v1可以经由第二协调消息cm(2)被传输。更进一步地,确定并传输每个替代轨迹tr1、tr2的成本。例如,在协调消息cm(2)的情况下,所述至少一个通信参数cp包括所确定的轨迹tr1、tr2的特性(比如长度和分辨率),以及协调消息cm(2)的传输频率。
72.根据步骤306,车载单元obu2确定对接收到的轨迹tr1、tr2的响应。第三协调消息cm(3)包括轨迹tr4作为机动车辆v2的新的参考轨迹。此外,协调消息cm(3)可以进一步包括参考轨迹tr4的成本。例如,在协调消息cm(3)的情况下,所述至少一个通信参数cp包括所确定的轨迹tr4的特性(比如长度和分辨率),以及协调消息cm(3)的传输频率。
73.在步骤308中,车载单元obu1选择轨迹tr1作为机动车辆v1的新的轨迹。第四协调消息cm(4)将选择轨迹tr1的决策携带到第二车载单元obu2。在该情况下,通信参数cp可以包括第四协调消息cm(4)的传输频率。
74.在步骤310、312中,车载单元obu1、obu2确定致动器信号,以便控制比如车辆v1、v2的转向系统、马达和制动器之类的致动器,以便沿着轨迹tr1、tr4驾驶。
75.所述至少一个通信参数的确定可以在协调开始时进行,例如,在步骤302和针对第一车载单元obu1的未示出的对应步骤中。在机动协调处理期间,在协调开始时确定的通信参数cp可以是固定的或可变的。
76.在另一示例中,在协调处理期间多次确定所述至少一个通信参数。还是在该情况下,直到下次确定通信参数为止,所确定的通信参数cp可以是固定的或可变的。
77.图4示意性地描绘了模型确定单元400,该模型确定单元用于根据图1确定用于图2中所描绘的道路使用者之一的协作驾驶的机器学习通信模型110、120。
78.每个当前的交通状况的特征在于交通状况数据tsd=。车载单元obu1、obu2的每个反应的特征在于所述至少一个通信参数。协调处理的所得到的评分s由交通状况结果tso的评估度量标示。
79.对于(在模拟、试驾中、或在现场中的)前几种交通状况,随机或试探性地选取以所述至少一个通信参数cp形式的反应,以观察(x,y)元组。基于这些初始观察,训练模型110、120以描述从x到y的映射,其被标示为。
80.为了建立机器学习通信模型110、120,使用了多个训练集ts。训练集ts包括:

以交通状况数据tsd形式的观察到的环境参数,

以至少一个通信参数cp形式的动态参数,以及

以交通状况结果tso形式的来自机动协调处理的评估度量。
81.交通情况结果例如从模拟、试驾或(在部署系统之后)从实际的协调处理中获得。训练集ts被收集在由聚合器单元430所表示的中心位置处。
82.模型确定单元400至少包括:协调评分单元402,其被配置成依赖于交通状况结果tso来确定协调评分s;以及训练单元404,其被配置成依赖于协调评分s利用多个训练集ts来训练图1的通信模型110、120,其中,每个训练集ts包括交通状况数据tsd、至少一个通信
参数cp和交通状况结果tso。
83.训练子集选择器410被配置成依赖于选择策略sp从训练集的池pts中选择训练集ts,其中,选择策略sp基于协调评分s。因此,训练单元404被配置成利用所选择的训练集ts_sel来训练通信模型110、120。
84.选择策略sp包括例如从训练集的池pts中仅选择排名最高的训练集作为种子训练集,例如如下训练集:

具有高不确定性的训练集ts,这意味着协调评分s在协调评分的预期最大值与预期最小值之间的中间,或者

混合,例如90%的排名最高的训练集和10%的随机训练集,或者

40%的排名最高的训练集、40%的高不确定性训练集和20%的随机拾取的训练集。
85.权重单元406被配置成将不同的权重w1、w2应用于交通状况结果tso的度量。先验地确定不同的权重w1、w2,以便最大化或强调学习目标。这是通过调整权重w1、w2减少或增加度量的影响来实现的。评分s可以通过对评估度量进行组合来确定,例如,通过加权和、加权乘积,或这些的组合来确定,其中,w
i
表示权重,所述权重由权重单元406调整以确保度量值根据每个度量的重要性可进行比较。
86.特征选择器408被配置成从多种类型的交通状况数据tsd中选择子集。根据特征选择器的示例,应用主动学习来选取对于学习映射而言最能提供信息的反应。
87.安全单元412被配置成依赖于交通状况数据tsd来确定安全指示符g。训练单元400被配置成:如果安全指示符g指示至少对于道路使用者而言是安全的交通状况,则请求协调评分以用于训练通信模型110、120。安全单元412被配置成使用进一步的机器学习模型420依赖于交通状况数据tsd来确定安全指示符g。机器学习通信模型420可以与通信模型110、120一起训练。
88.为防所述至少一个通信参数cp的某些选择可能导致道路使用者的安全关键行为,例如,当无法使用或传输非常少的轨迹时。因此,向优化问题添加约束将其修改为:其中g是正值指示安全运行的安全指示符。因此,安全单元412提供安全指示符g,并且判定是否针对所考虑的x记录训练数据。只在安全的情况下,它才可以被记录下来,并且在它被记录的情况下,就可以一直使用它。
89.如果该安全指示符g未知且不可导出,但是存在来自系统的关于它的一些反馈,则安全单元412被不同地配置。例如,除了评分s之外,还确定了进一步的针对安全的评分z。模型420被确定成获得概率安全约束。这将导致约束优化问题其中α是风险裕度。
90.机器学习通信模型110、120和/或进一步的机器学习模型420是高斯过程模型、贝叶斯神经网络或贝叶斯非线性回归模型。
91.高斯过程适用于尚不知道其特殊模型函数的问题。它具有机器学习方法的特性,使得能够基于观察进行自动建模。高斯过程捕捉系统的典型行为,其可以被用来导出问题的最佳插值。结果是可能的插值函数的概率分布以及具有最高概率的解。
92.高斯过程是函数的概率分布,其满足所有,这意味着对于所有环境参数和通信参数:其中具有高斯分布n、高斯的均值m以及被用来构建协方差的内核k。
93.根据高斯过程示例,交通状况数据tsd和所述至少一个通信参数cp这两者都是模型110、120的输入参数,而交通状况结果tso是其输出参数。该模型110、120从输入参数映射到输出参数。模型110、120被用来解决混合线性整数问题,以便计算最优的所述至少一个通信参数cp。该问题描述了通过选取当前机动的最佳通信参数cp利用交通状况结果tso测量的机动成功的最大化。该步骤的结果是针对至少一个通信参数cp的最优值,然后将其用于机动的协调。
94.在高斯过程中,以熵测量的信息与预测方差有关,所以根据下式来确定反应其中是高斯过程的预测不确定性。
95.然后,所确定的通信模型110、120被传递到机动车辆或用户设备的各个车载单元。然后,车载单元能够通过确定经优化的所述至少一个通信cp来优化机动协调。
96.因此,当通过模型确定单元400利用来自许多车辆的数据在中央服务器上学习函数f时,将其部署到车辆或用户设备的每个车载单元。现在,遇到具有交通状况数据的交通状况的每个车辆通过求解下式来优化其反应。
97.在使用主动学习来收集数据用于进行模型训练时,选取具有最高预测方差的数据。一旦模型被训练,优化问题就是不一样的问题,即,通过通信参数cp优化评分s。
98.如果街道状况改变(由于建筑工地等原因),则人们总是只能使用百分之β的数据(x,y)元组的来学习f的模型。然后,模型确定单元400将定期更新模型f,并且将其部署到车辆。
99.模型f允许我们确定由导致较差评分s的交通状况数据表示的交通状况。这些可以被进一步(手动)分析以便找到解决方案。
100.数据收集也可以基于贝叶斯优化而不是主动学习来构建。区别:代替于学习在整
个输入空间上的函数f,人们将仅尝试在最佳的通信参数cp集合的意义上找到最佳点。与主动学习相比,这需要更少数据。
101.代替于将所确定的函数f传递给车辆并且在那里进行优化,可以由模型确定单元400针对所选择的交通状况数据tsd来执行该优化。然后,仅需要将固定的查找表传递到车载单元。
102.收集观察到的机动的参数的聚合单元430和/或模型确定单元400可以例如是位于云中或车载单元中的服务器。
103.图5示意性地描绘了代理单元504和环境单元502。环境单元502被配置成依赖于协调评分s来确定奖励r,并且被配置成依赖于代理动作a来确定环境的状态st,其中,状态st包括交通状况数据tsd。代理单元504被配置成依赖于奖励r并且依赖于状态st来确定代理动作a,其中,代理动作a包括所述至少一个通信参数cp。
104.图6示意性地描绘了基于代理的学习。环境单元502确定车辆v2的动作,该动作反映在当前状态st(t)中。代理单元504必须响应于状态st(t)来确定包括通信参数cp的动作a(t 1)。环境单元502取决于动作a(t 1)来确定下一状态st(t 1)。虚线指示车辆v1可以采取不同的动作,但是已经选取了动作a(t 1)、a(t 2)作为对其环境的适当反应。
105.代理单元504就其应用于环境单元502的动作a获得奖励r。依赖于奖励r,代理单元504的聚合器单元430聚合包括所述至少一个通信参数cp的正向奖励动作a,并且利用模型确定单元400来训练通信模型。
106.图7描绘了用于基于由张量e
i
所表示的交通状况数据tsd、经由表示先前各图的通信模型110、120的神经网络nn来确定表示所述至少一个通信参数cp的张量y'
i
的示意性布置。因此,神经网络nn将交通状况数据tsd映射到所述至少一个通信参数cp。在图8中示出了用于经由图4的训练单元404进行训练的布置。首先,参考训练。
107.训练集ts的交通状况数据tsd由输入接口702以输入数据id的形式提供。该布置包括具有输入层的人工神经网络nn。对于时间步i,将输入数据id的输入张量传递到输入层。输入层是输入部分的一部分。对于输入数据id,以预测的形式确定输出o或事先知道输出o。在时间步i中,从输出o确定具有观测值的张量o
i训练
,将其分派给张量e
i训练
的观测值。输出o包括所述至少一个通信参数cp。将输入数据id的时间序列中的每一个分派给三个输入节点之一。在人工神经网络nn的前向路径中,输入层之后是至少一个隐藏层。在该示例中,所述至少一个隐藏层的节点数量大于输入节点的数量。该数字要被视为超参数。在该示例中,在隐藏层中提供了四个节点。例如,以反向传播的形式通过梯度下降方法来学习神经网络nn。因此,对神经网络nn的训练是有监督的。
108.在该示例中的前向路径中,在至少一个隐藏层之后提供输出层704。预测值在神经网络nn的输出部分的输出层704处输出。在该示例中,将输出节点分派给每个预测值。
109.在每个时间步i中,确定张量o'
i训练
,其中包含针对该时间步i的预测值。在该示例中,这连同所述至少一个通信参数cp的观测值的列向量o
i训练
被馈送给训练函数800。在该示例中,训练函数800被设计成借助于损失函数loss、特别是借助于均方误差来确定预测误差,并且利用该预测误差且借助于优化器(例如,adam优化器)来训练模型。在该示例中,损耗函数loss是取决于来自观测值的张量o
i训练
和预测值的张量o'
i训练
的值的偏差、特别是均方误差来确定的。
110.一旦达到固定准则,训练就结束。在该示例中,如果损失在几个时间步中没有减少,即,特别是均方误差没有减少,则中止训练。
111.然后将测试数据输入以该方式进行训练的模型中。通过利用训练数据td的训练来生成该模型。利用测试数据对模型进行评估,以便确定测试误差,特别是关于平均值
µ
和协方差σ的测试误差,以了解模型表现得如何。
112.根据图7所示的布置,以神经网络nn形式的经训练的机器学习模型被用来提供针对所述至少一个通信参数cp的预测。执行与针对训练数据相同的数据预处理步骤。例如,进行对输入和输出数据的缩放和确定。在该示例中,该确定在图1或图2的车载单元obu1、obu2、obu3的操作期间,即,在机动车辆或用户设备的操作期间进行。
113.输入数据id被输入到经训练的人工神经网络nn中。取决于此,确定预测值。确定评分是取决于此来确定的。
114.如针对训练所描述的,将列向量e
i
传递到针对输入数据id的输入层。然后将列向量传递到输入层。此后,与训练相反,确定设备400取决于预测值y'i来确定通信参数cp。
115.特别地,提供实现所描述的卷积神经网络nn的计算机程序的指令来用于实现所描述的过程。还可以提供专用硬件,在该专用硬件中映射经训练的模型。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献

  • 日榜
  • 周榜
  • 月榜