用于车辆的奖励函数的制作方法

2023-02-10 18:20:35 来源：中国专利 TAG：

1.本公开涉及车辆并且更具体地涉及用于车辆的奖励函数(reward function)。

背景技术：

2.现代车辆(例如，轿车、摩托车、船或任何其他类型的汽车)可以配备有便于车辆和其他实体之间的不同类型通信的车辆通信系统。例如，车辆通信系统可以提供车辆到基础设施(v2i)、车辆到车辆(v2v)、车辆到行人(v2p)和/或车辆到电网(grid)(v2g)的通信。总的来说，这些可以称为车辆到一切(v2x)通信，它能够将信息从车辆通信到任何其他合适的实体。各种应用程序(例如，v2x应用程序)可以使用v2x通信来发送和/或接收安全消息、维护消息、车辆状态消息等。
3.现代车辆还可以包括一个或多个摄像头(camera)，这些摄像头提供倒车辅助、拍摄车辆驾驶员的图像以确定驾驶员的困倦或注意力、在车辆行驶时提供道路图像以用于避免碰撞的目的、提供结构识别，例如道路标志等。例如，车辆可以配备多个摄像头，并且可以使用来自多个摄像头(称为“环视摄像头”)的图像来创建车辆的“环绕”或“鸟瞰”视图。一些摄像头(称为“远程摄像头”)可用于捕获远程图像(例如，用于避免碰撞的对象检测、结构识别等)。
4.这样的车辆还可以配备有传感器，例如雷达设备、lidar设备等，用于执行目标跟踪。目标跟踪包括识别目标对象并随着目标对象相对于观察目标对象的车辆移动而随时间跟踪目标对象。来自车辆的一个或多个摄像头的图像也可用于执行目标跟踪。
5.这些通信协议、摄像头和/或传感器可用于自主车辆操作。

技术实现要素：

6.在一个示例性实施例中，提供了一种计算机实现的方法。该方法包括由处理设备接收车辆的当前状态。该方法还包括由处理设备使用人工智能模型的输出，至少部分地基于车辆的当前状态来预测车辆的未来状态。该方法还包括由处理设备使用可调奖励函数计算与车辆的未来状态相关联的奖励，该可调奖励函数包括多个可调系数。该方法还包括由处理设备至少部分地基于奖励来训练人工智能模型。
7.在另外的示例中，多个可调系数之一是车辆的速度从期望的驱动速度的幅度的可调系数。
8.在另外的示例中，多个可调系数之一是车辆的速度从期望的行驶速度衰减的可调系数。
9.在另外的示例中，多个可调系数之一是由车辆速度的变化引起的加加速度(jerk)的幅度的可调系数。
10.在另外的示例中，多个可调系数之一是可调折扣因子。
11.在另外的示例中，多个可调系数之一是移交成功的幅度的可调系数。
12.在另外的示例中，可调奖励函数奖励完全成功和部分成功两者。
13.在另外的示例中，可调奖励函数考虑当前奖励与未来奖励。
14.在另外的示例中，可调奖励函数奖励效率。
15.在另外的示例中，可调奖励函数奖励舒适度。
16.在另外的示例中，可调奖励函数考虑效率和舒适度之间的权衡(tradeoff)。
17.在另外的示例中，可调奖励函数是车辆的当前状态s、动作a和车辆的未来状态s'的函数。
18.在另外的示例中，可调奖励函数表示为：
[0019][0020]
其中c
speed
是速度的可调系数；vh是车辆的实际速度；v
desired
是车辆的期望行驶速度；c
temp
是车辆的速度从期望行驶速度衰减的可调系数；c
jerk
是加加速度的幅度的可调系数；j2是加加速度的平方量；γ是可调折扣因子；i是指标(indicator)函数；以及c
handoff
是移交成功的幅度的可调系数。
[0021]
在另外的示例中，该方法还包括：至少部分地基于人工智能模型来控制车辆。
[0022]
在另外的示例中，可调奖励函数支持驾驶员在环功能。
[0023]
在另一个示例性实施例中，一种系统包括具有计算机可读指令的存储器。该系统还包括用于执行计算机可读指令的处理设备，计算机可读指令控制处理设备以执行操作。操作包括接收车辆的当前状态。操作进一步包括使用人工智能模型的输出，至少部分地基于车辆的当前状态来预测车辆的未来状态。该操作还包括使用可调奖励函数来计算与车辆的未来状态相关联的奖励，该可调奖励函数包括多个可调系数。操作进一步包括至少部分基于奖励训练人工智能模型。
[0024]
在另外的示例中，可调奖励函数是车辆的当前状态s、动作a和车辆的未来状态s'的函数。
[0025]
在另外的示例中，可调奖励函数表示为：
[0026][0027]
其中c
speed
是速度的可调系数；vh是车辆的实际速度；v
desired
是车辆的期望行驶速度；c
temp
是车辆速度从期望行驶速度衰减的可调系数；c
jerk
是加加速度的幅度的可调系数；j2是加加速度的平方量；γ是可调折扣因子；i是指标函数；以及c
handoff
是移交成功的幅度的可调系数。
[0028]
在另外的示例中，操作进一步包括：至少部分地基于人工智能模型来控制车辆。
[0029]
在又一示例性实施例中，提供了一种计算机可读存储介质，其中包含有程序指令，程序指令可由处理器执行以使处理器执行操作。操作包括接收车辆的当前状态。操作进一
步包括使用人工智能模型的输出，至少部分地基于车辆的当前状态来预测车辆的未来状态。该操作还包括使用可调奖励函数来计算与车辆的未来状态相关联的奖励，该可调奖励函数包括多个可调系数。操作进一步包括至少部分基于奖励训练人工智能模型。
[0030]
当结合附图进行以下详细描述时，本公开的上述特征和优点以及其他特征和优点是显而易见的。
附图说明
[0031]
其他特征、优点和细节仅作为示例出现在以下详细描述中，详细描述参考附图，在附图中：
[0032]
图1描绘了根据本文描述的一个或多个实施例的包括传感器和处理系统的车辆；
[0033]
图2描绘了根据本文描述的一个或多个实施例的使用人工智能模型和可调奖励函数来支持自主车辆操作的架构；
[0034]
图3描绘了根据本文描述的一个或多个实施例的用于实现自主车辆操作的奖励函数的方法的流程图；和
[0035]
图4描绘了根据示例性实施例的用于实现本文描述的技术的处理系统的框图。
具体实施方式
[0036]
以下说明本质上仅是示例性的，无意限制本发明及其应用或用途。应当理解，在所有附图中，相应的附图标记表示相同或相应的部件和特征。如这里所使用的，术语模块指的是处理电路，其可以包括专用集成电路(asic)、电子电路、执行一个或多个软件或固件程序的处理器(共享、专用或组)和存储器、组合逻辑电路和/或提供所述功能的其他合适的部件。
[0037]
本文所述的技术解决方案为自主车辆(av)操作提供了可调的奖励函数。具体而言，本文描述的一个或多个实施例为驾驶员在环(driver-in-the-loop)的自动驾驶应用提供了奖励(或“成本”)函数的稳健且全面的设计。“驾驶员在环”指的是驾驶员(例如，车辆的操作员)取得对自主车辆的控制的能力。驾驶员取得对av的控制可以通过驾驶员有意接管控制或av将控制交给驾驶员(例如，av知道它不能再很好地控制车辆)而发生。
[0038]
控制自主车辆的自主驾驶代理需要一致地评估不同的操纵并计划实现安全、舒适和高效的行驶。为此，各种规划方法通过基于感兴趣的标准评估潜在的操纵来优化运动计划，以便可以找到/近似最大奖励(或最小成本)计划。本文描述的一个或多个实施例提供了一种综合和通用的奖励函数设计，该设计考虑了驾驶员在环标准并且可以被各种优化算法使用以生成用于自主驾驶的合适的av驾驶策略。av驾驶策略规定了自主车辆如何操作。av驾驶策略编码并提取有关与决策相关的自主车辆环境的信息。该信息用于构建自主车辆要执行的行为/运动计划。可以从自主车辆(称为“目标车辆”)和/或其他周围车辆(也可以是或不是自主的)(称为“另一车辆”或“其他车辆”)收集信息。
[0039]
本文所述的一个或多个实施例通过提供反映av代理的期望行为的奖励函数来解决现有技术的这些和其他缺点，所述奖励函数包括效率、舒适度和任务完成的标准。这三个标准之间的权衡可以调整/个性化。此外，本文描述的一个或多个实施例支持通过用部分任务完成奖励增加奖励函数来奖励驾驶员“移交”的驾驶员在环系统。本文描述的一个或多个
实施例提供了一种用于优化自主驾驶计划的奖励函数的设计和调整方法，适用于驾驶员在环应用程序，可以由任何基于效用(utility)的方法使用，例如在线-搜索或学习方法(例如强化学习)以生成优化的驾驶计划。
[0040]
图1描绘了根据本文所述的一个或多个实施例的包括传感器和处理系统110的车辆100。在图1的示例中，车辆100包括处理系统110、摄像头120、121、122、123、摄像头130、131、132、133、雷达传感器140和激光雷达传感器141。车辆100可以是轿车、卡车、货车、公共汽车、摩托车、船、飞机或其他合适的车辆100。
[0041]
摄像头120-123为全景摄像头，可捕捉车辆100外部和附近的图像。由摄像头120-123捕获的图像一起形成车辆100的环绕视图(有时称为“俯视图”或“鸟瞰图”)。这些图像对于操作车辆(例如，停车、倒车等)是有用的)。摄像头130-133是远程摄像头，其捕获车辆外部的图像，并且比摄像头120-123更远离车辆100。例如，这些图像可用于对象检测和避免。应当理解，尽管示出了八个摄像头120-123和130-133，但是在各种实施例中可以实现更多或更少的摄像头。
[0042]
可在显示器(未示出)上显示捕获的图像，以向车辆100的驾驶员/操作员提供车辆100的外部视图。捕获的图像可以显示为实时图像、静止图像或它们的某种组合。在一些示例中，图像可以被组合以形成合成视图，例如环绕视图。
[0043]
雷达传感器140通过发射电磁波并用传感器测量反射波来测量到目标对象的距离。该信息对于确定目标对象相对于车辆100的距离/位置是有用的。
[0044]
lidar(光检测和测距)传感器141通过用脉冲激光照射目标并用传感器测量反射脉冲来测量到目标对象(例如，其他车辆154)的距离。该信息对于确定目标对象相对于车辆100的距离/位置是有用的。
[0045]
从摄像头120-123、130-133、雷达传感器140和/或lidar传感器141生成的数据可用于检测和/或跟踪相对于车辆100的目标对象。目标对象的示例包括其他车辆(例如，其他车辆154)、易受伤害的道路使用者(vru)，例如行人、自行车、动物、坑洼、道路表面上的油、道路表面上的碎片、雾、洪水等。
[0046]
处理系统110可以通信地联接到远程处理系统150，远程处理系统150可以是作为边缘处理环境的一部分的边缘处理节点、作为云处理环境的一部分的云处理节点等。处理系统110还可以通信地联接到一个或多个其他车辆(例如，其他车辆154)。在一些示例中，处理系统110直接通信联接到处理系统150和/或其他车辆154(例如，使用v2v通信)，而在其他示例中，处理系统110间接地通信联接到处理系统150并且/或其他车辆154，例如通过网络。例如，处理系统110可以包括网络适配器(未示出)(参见例如图4的网络适配器426)。网络适配器使处理系统110能够将数据传输到其他源和/或从其他源接收数据，例如其他处理系统、数据存储库等，包括远程处理系统150和其他车辆154。作为示例，处理系统110可以直接和/或经由网络152向远程处理系统150发送数据和/或从远程处理系统150接收数据。
[0047]
网络152代表任何一种或不同类型的合适的通信网络的组合，例如有线网络、公共网络(例如因特网)、专用网络、无线网络、蜂窝网络或任何其他合适的私人和/或公共网络。此外，网络152可以具有与其相关联的任何合适的通信范围并且可以包括例如全球网络(例如，互联网)、城域网(man)、广域网(wan)、局域网(lan)、或个域网(pan)。此外，网络152可以包括可以承载网络流量的任何类型的介质，包括但不限于同轴电缆、双绞线、光纤、混合光
纤同轴(hfc)介质、微波地面收发器、射频通信介质、卫星通信介质或它们的任何组合。根据本文所述的一个或多个实施例，远程处理系统150、另一车辆154和处理系统110经由车辆对基础设施(v2i)、车辆对车辆(v2v)、车辆对行人(v2p)和/或车辆到电网(v2g)通信进行通信。
[0048]
本文进一步描述了处理系统110的组件的特征和功能性。车辆100的处理系统110有助于在自主车辆操作的背景下做出决策，这可以包括使用如本文所述的奖励函数。特别地，处理系统110包括数据/通信引擎112、自主代理引擎114和控制引擎116。数据/通信引擎112接收/收集数据，例如来自与车辆100相关联的传感器的数据，和/或从诸如远程处理系统150和/或其他车辆154的其他源接收数据。自主代理引擎114用作以至少某种程度的自主执行操作的智能代理。例如，自主代理引擎114自主地操作车辆100以实现目标。目标可以是从位置a导航到位置b。自主代理引擎114可以利用机器学习功能来完成目标，这在本文中进一步描述。控制引擎116控制车辆100，例如执行驾驶操纵(例如，改变车道、改变速度等)。尽管未示出，但处理系统110可以包括其他组件、引擎、模块等，例如处理器(例如，中央处理单元、图形处理单元、微处理器等)、存储器(例如，随机存取存储器、只读存储器等)、数据存储(例如，固态驱动器、硬盘驱动器等)、输入和/或输出设备(例如，显示器、触摸板、麦克风、扬声器等)等。
[0049]
本公开的各方面可以利用机器学习功能来完成这里描述的各种操作。更具体地，本文描述的一个或多个实施例可以结合并利用基于规则的决策作出和人工智能(ai)推理来完成本文描述的各种操作。“机器学习”一词广泛地描述了从数据中学习的电子系统的功能。机器学习系统、模块或引擎(例如，自主代理引擎114)可以包括可训练的机器学习算法，例如在外部云环境中可以训练该机器学习算法以学习当前未知的输入和输出之间的功能关系，并且得到的模型可用于确定代理计算机程序的使用。在一个或多个实施例中，机器学习功能可以使用人工神经网络(ann)来实现，该人工神经网络(ann)具有被训练以执行当前未知功能的能力。在机器学习和认知科学中，ann是一系列统计学习模型，其灵感来自动物的生物神经网络，尤其是大脑。ann可用于估计或近似依赖于大量输入的系统和函数。
[0050]
ann可以体现为互连处理器元件的所谓“神经形态”系统，其充当模拟“神经元”并在彼此之间以电子信号的形式交换“消息”。类似于在生物神经元之间传递信息的突触神经递质连接的所谓“可塑性”，在模拟神经元之间传递电子消息的ann中的连接被提供了与给定连接的强弱相对应的数字权重。权重可以根据经验进行调节和调整，使ann适应输入并能够学习。例如，用于手写识别的ann由一组输入神经元定义，这些输入神经元可以由输入图像的像素激活。在通过网络设计者确定的函数进行加权和转换后，这些输入神经元的激活然后传递给其他下游神经元，这些神经元通常被称为“隐藏”神经元。重复此过程，直到激活输出神经元。激活的输出神经元决定读取哪个字符。
[0051]
一种类型的机器学习是强化学习，其处理代理(例如，自主代理引擎114)如何采取动作来实现期望的目标，同时最大化奖励。强化学习使用状态-动作对形式的数据，目标是在多个时间步长上最大化未来奖励。在强化学习中，代理(例如，自主代理引擎114)被称为处于状态s，这是代理感知的情况。代理采取动作a
t
，其代理在时间t在环境中可以做出的移动。在采取动作a
t
之后，环境以在时间t 1的状态变化s
t 1
的形式将观察结果发送回代理。代理还会收到一奖励r
t
，它是衡量在时间t代理动作a
t
成功或故障的反馈。强化学习对于自主
车辆操作环境中的决策作出是有用的。
[0052]
本文描述的一个或多个实施例提供了一种用于奖励函数的设计和调整方法，该奖励函数用于优化使用强化学习生成的自主驾驶计划。所提出的可调整奖励函数适用于驾驶员在环应用程序，并且可以被任何基于效用的方法使用，例如在线搜索或诸如强化学习的学习方法，以生成优化的驾驶计划。
[0053]
当满足三个成功标准，即任务完成、效率和舒适/一致性时，可以认为驾驶策略是可接受的。任务完成标准通常反映为到达某个期望的目的地/条件。效率标准是在某些环境限制内以最快可能的方式完成任务。舒适性/一致性标准基于在实现其目标的过程中的果断性和执行平稳和舒适的操纵序列。为了实现这三个标准，提出了以下可调奖励函数：
[0054][0055]
其中c
speed
是速度的可调系数；vh是车辆的实际速度；v
desired
是车辆的期望行驶速度；c
temp
是车辆速度从期望行驶速度衰减的可调系数；c
jerk
是加加速度幅度的可调系数，其是加速度(或瞬时变化)的导数，其是车辆实际速度的导数；j2是加加速度的平方量，即加速度的瞬时变化；γ是可调折扣因子；i是指标函数(例如，当它的谓词为假时返回0，当它为真时返回1)，其谓词(条件)由使用者定义并且可以是特定于场景的，i
success
对应于成功条件，i
handoff
对应于移交事件；以及c
handoff
是移交事件的可调幅度系数。
[0056]
可调奖励函数是环境状态s、动作a和环境未来状态s'的函数。第一项是“保实时(alive)”密集奖励(在每一步)，主要用于标准化。第二项是由乘数和温度系数参数化的速度偏差惩罚项。第三项是对运动的平方加加速度(和/或其任何导数或伪影)的积分。第四和第五项是任务完成项，奖励全部和部分(移交)成功。应该理解，奖励函数的以下分量是可调的：c
speed
,c
temp
,c
jerk
,γ；和c
handoff
。
[0057]
可调奖励函数奖励全部和部分成功。假设在某些计划下，自主代理(例如，自主代理引擎114)可能无法实现其目标。这种故障通常会导致高昂的奖励成本。为避免这种情况，自主代理具有的选择是将驾驶控制“移交”给人类操作员/驾驶员(例如，在驾驶员在环系统中，如l2/3高级驾驶员辅助系统(adas))，或者替代地，负责的人类操作员/驾驶员可以选择主动超越自主代理，以避免出现不希望的情况。可调奖励函数包括用于奖励“完全成功”或“部分成功”的指标组件，以及一个或多个部分成功组件以表示移交结果(由驾驶员或代理触发)。例如，c
handoff
系数权衡可用性与故障风险。也就是说，较高的可用性将是低c
handoff
结果，而较低的故障(failure)风险将是高c
handoff
的结果。最终使用者可以定义指标函数背后的逻辑以实现灵活性，这可能取决于场景。
[0058]
可调奖励函数还考虑何时奖励：现在或将来。例如，在计划领域，使用折扣因子γ设计折扣奖励函数是广泛接受的。可调奖励函数采用折扣因子γ并通过将其用于可调奖励函数的归一化来放大其效果。隐含的假设是成功后的未来奖励将是最大的，因此负数(第2和第3个奖励项)将为零，非零密集奖励将包括 1“保实时”项。遵循这个假设，并且在相同的γ折扣制度下，“任务完成”项(第4和第5)被1/1-γ乘数放大，该乘数反映了无限未来 1几
何级数的总和。有了这个，可以重复使用相同的γ参数来控制折扣(discount)的未来，以及贪婪与长期计划，这是高度相关的计划概念。
[0059]
可调奖励函数也奖励效率。效率项(第2项)测量与某些所需行驶速度的偏差(例如，最大速度限制、驾驶人员的反馈等)。为简单起见(并且不失一般性)，可以假设行驶速度等于或小于期望速度，导致在[0,1]范围内的项对偏离期望速度进行惩罚。该项的大小和衰减分别由系数c
speed
和c
temp
参数化。这两个系数的初步调整对反映低速行驶的影响是有用的。
[0060]
可调奖励函数还奖励舒适度。可以假设自主代理倾向于收敛并在其大部分行程中保持在某个任意速度。在这样的假设下，任何对行驶速度的变化都会在短时间内应用加速或减速并收敛回零。因此，为了最小化过度使用加速和减速，以及对这些的变化(其已知会导致乘客不适)，可调奖励函数通过使用c
jerk
系数的奖励函数对评估下的运动计划的平方加加速度分量的总和进行惩罚。此外，该最小化的任何其他人为因素(artifact)都可以插入到该项中(例如，处理加加速度曲线(profile)的非微分部分等)。这里，再次，可以对不同舒适相关项之间的相互关系执行初步调整。
[0061]
可调奖励函数还考虑了效率和舒适度之间的权衡。例如，奖励函数的第2项和第3项分别代表效率和舒适度。这种权衡可以经由加权c
speed
与c
jerk
来控制。
[0062]
图2描绘了根据本文描述的一个或多个实施例的支持使用人工智能模型210和可调奖励函数来训练自主代理(例如，自主代理引擎114)以用于自主车辆操作的架构200。在该示例中，逻辑204生成人工智能模型210的输入211。逻辑204和人工智能模型210一起形成自主代理引擎114。架构200使用人工智能模型210(例如，强化学习模型、在线搜索模型等)的输出215以使用模拟器220模拟车辆100的动作。
[0063]
例如，车辆100和车辆201a、201b正在沿着道路202行驶。车辆201a、201b是图1的其他车辆154的示例并且统称为“车辆201”。应当理解，车辆201中的一个或多个可以被配置为类似于如图1所示和如本文所述的车辆100，或者在一些示例中车辆201中的每一个可以被配置为不同于车辆100。
[0064]
车辆100、201中的每一个收集关于其自身的数据并将其传输到处理系统以进行处理(例如，使用数据/通信引擎112)。根据示例，车辆201收集关于它们自己的数据并将数据传输到车辆100的处理系统110以供自主代理114处理。根据另一个示例，车辆100、201收集关于它们自己的数据并将数据传输到远程处理系统150。
[0065]
车辆201提供的数据(即，信息)可以指示车辆在环境中的感知，并且可以产生车辆201的估计运动状态、车道分配、车辆意图(例如，行驶方向、意图合并/改变车道等)，和/或任何其他对决策作出有用的信息。
[0066]
车辆100具有当前状态s(也称为“感知状态”)。车辆100的自主代理引擎114评估可能的动作，例如跟随在车辆201a后面、在车辆201b前面并入以及在车辆201b后面并入。为了评估这些可能的动作，自主代理引擎114使用所示的人工智能模型210。人工智能模型210将关于车辆100、车辆201a、201b的数据和任何其他相关数据(例如，关于道路202的数据、关于周围环境的数据等)作为输入211。人工智能模型210通过评估当前状态s、多个动作a1…an
和未来状态s'来学习策略π。人工智能模型210基于其关于可调奖励函数的它们的预期未来奖励的估计来学习对多个动作a1
…
an进行排名/评分。来自可调奖励函数的事实上的样本用
于为上述估计提供监督，并通过考虑动作的未来结果来确定哪些动作可能比其他动作是更期望的或不那么期望的。以此方式，训练人工智能模型210。人工智能模型210可以依赖于输入层212、隐藏层213(其可以是一个或多个隐藏层)和产生输出215(例如策略)的输出层214。
[0067]
模拟器220接收来自自主代理引擎114(由逻辑204和人工智能模型210表示)关于接下来要应用哪个动作a的输出。然后，模拟器220将其环境状态推进到下一个状态s'，并将其与使用可调奖励函数计算的中间奖励r一起返回给自主代理引擎114。在下一步中，自主代理引擎114使用之前的状态s'，它现在变成当前状态s(例如，环境的更新的当前状态)，并通过人工智能模型210对其进行处理，以再次获得下一个要应用的动作a。在根据(s,a,r,s')的元组(tuple)存储大部分这种交互之后，人工智能模型210在r为整个代理模拟器交互中的每个状态-动作选择提供的监督下更新。
[0068]
更具体地说，模拟器220(经由人工智能模型210)从自主代理引擎114中做出决定(动作a)并在车辆100周围的环境中推进动作者(例如，车辆201a、201b)(不推进车辆100)。然后模拟器220基于动作a模拟环境随时间的前进，并且使用动作a来控制(例如，使用控制引擎116)车辆100。控制输入(例如，加速度、轨迹等)被输入回模拟器220，模拟器220生成新状态s'并将其发送回逻辑204，如箭头221所示。到一次迭代模拟完成时，s'成为环境的当前状态s，然后逻辑204将环境的新状态s作为输入，将其转换为数字的输入向量(例如，输入211)，其然后输入到人工智能模型210。人工智能模型210输出数字215的输出向量，其代表奖励的最大分数的指数(index)。模拟器220然后将动作映射到轨迹。现在，模拟器220知道如何在下一个时间步长上推进车辆100。通过在逻辑204、人工智能模型210和模拟器220之间迭代该过程来生成数据集(set)。对于每次迭代，生成以下内容：当前状态s、采取的动作a、未来状态s'、和中间奖励r。一旦构建了数据集(其可以表示为(s,a,r,s')的元组)，人工智能模型210可以基于收集的数据进行改进，以便最大化总奖励，从而使人工智能模型210做出更好的决策(例如，随着时间的推移最大化r)。
[0069]
图3描绘了根据本文描述的一个或多个实施例的用于实现自主车辆操作的奖励函数的方法300的流程图。方法300可以由任何合适的系统或设备执行，例如图1的处理系统110、远程处理系统150、图4的处理系统400，或任何其他合适的处理系统和/或处理设备(例如，处理器)。现在参考图1和/或2的元件描述方法300，但不限于此。
[0070]
在框302处，处理系统110的自主代理引擎114接收车辆的当前状态。在框304处，处理系统110的自主代理引擎114使用人工智能模型(例如，人工智能模型210)的输出，至少部分地基于车辆100的当前状态来预测车辆100的未来状态。在框306处，处理系统110的自主代理引擎114使用可调奖励函数计算与车辆100的未来状态相关联的奖励。可调奖励函数包括如本文所述的多个可调系数。例如，如本文所描述的，可调的系数可以被调整以基于效率、舒适度和任务完成来细化奖励。
[0071]
在框308处，至少部分地基于奖励来训练和/或更新人工智能模型。也就是说，学习和/或更新输入(初始状态和动作)和输出(基于初始状态和动作的未来状态和奖励)之间的关联。
[0072]
在一些示例中，处理系统110的控制引擎116至少部分地基于人工智能模型来控制车辆100。例如，自主代理引擎114至少部分地基于人工智能模型210和包装它的一些补充的
预编程逻辑(称为“驾驶策略”)做出驾驶决策。然后通过实施驾驶策略来控制车辆100。例如，驾驶策略可以向车辆100提供命令以使车辆加速、减速、转向等以实施动作以实现目标。该动作可以从多个动作之一中选择。这通过为车辆100的乘员提供安全、舒适和高效的乘坐来改进车辆操作。这使得车辆100更有效地操作，为其乘员提供更好的乘坐体验，并且以更安全的方式。
[0073]
本文描述的奖励函数可以用于不同类型的人工智能，例如强化学习、在线搜索等。在一些实施例中，例如在强化学习期间，奖励函数在离线训练过程期间使用。在其他实施例中，例如在在线搜索期间，奖励函数在实时(或接近实时)推理期间直接在线使用。
[0074]
还可以包括额外的过程，并且应该理解，图3中描绘的过程代表说明并且可以添加其他过程或者可以移除、修改或重新布置现有过程而不背离范围和精神本公开的内容。
[0075]
应当理解，本公开能够结合现在已知或以后开发的任何类型的计算环境来实施。例如，图4描绘了用于实现本文描述的技术的处理系统400的框图。在示例中，处理系统400具有一个或多个中央处理单元(处理器)421a、421b、421c等(统称为处理器421和/或处理设备)。在本公开的方面，每个处理器421可以包括精简指令集计算机(risc)微处理器。处理器421通过系统总线433联接到系统存储器(例如，随机存取存储器(ram)424)和各种其他组件。只读存储器(rom)422联接到系统总线433并且可以包括基本输入/输出系统(bios)，它控制处理系统400的某些基本功能。
[0076]
进一步描绘的是输入/输出(i/o)适配器427和联接到系统总线433的网络适配器426。i/o适配器427可以是与硬盘423和/或存储设备425或任何其他类似组件通信的小型计算机系统接口(scsi)适配器。i/o适配器427、硬盘423和存储设备425在本文中统称为大容量存储器434。用于在处理系统400上执行的操作系统440可以存储在大容量存储器434中。网络适配器426将系统总线433与外部网络436互连，使处理系统400能够与其他这样的系统进行通信。
[0077]
显示器(例如，显示监视器)435通过显示适配器432连接到系统总线433，显示适配器432可以包括用于提高图形密集型应用程序的性能的图形适配器和视频控制器。在本公开的一方面，适配器426、427和/或432可以连接到一个或多个i/o总线，这些i/o总线经由中间总线桥(未示出)连接到系统总线433。用于连接外围设备(例如硬盘控制器、网络适配器和图形适配器)的合适i/o总线通常包括通用协议，例如外围组件互连(pci)。附加的输入/输出设备被示为经由使用者接口适配器428和显示适配器432连接到系统总线433。键盘429、鼠标430和扬声器431(或其他合适的输入和/或输出，例如信息娱乐系统的触摸屏)可以经由使用者接口适配器428互连到系统总线433，使用者接口适配器428可以包括例如将多个设备适配器集成到单个集成电路中的超级i/o芯片。一个或多个摄像头120-123、130-133也连接到系统总线433。
[0078]
在本公开的一些方面，处理系统400包括图形处理单元437。图形处理单元437是专门的电子电路，其被设计为操纵和改变存储器以加速帧缓冲器中图像的创建，该帧缓冲器用于输出到一显示器。一般地，图形处理单元437在操纵计算机图形和图像处理方面非常有效，并且具有高度并行结构，这使其在并行处理大块数据的算法中比通用cpu更有效。
[0079]
因此，如本文所配置的，处理系统400包括处理器421形式的处理能力、包括系统存储器(例如ram 424)和大容量存储器434的存储能力、诸如键盘429和鼠标430的输入装置，
以及包括扬声器431和显示器435的输出能力。在本公开的一些方面，系统存储器(例如ram 424)和大容量存储器434的一部分共同存储操作系统440以协调处理系统400中所示的各种组件的功能。
[0080]
已经出于说明的目的呈现了本公开的各种示例的描述，但不旨在穷举或限制于所公开的实施例。在不脱离所描述技术的范围和精神的情况下，许多修改和变化对于本领域普通技术人员将是显而易见的。选择本文使用的术语以最好地解释本技术的原理、实际应用或对市场中发现的技术的技术改进，或使本领域的其他普通技术人员能够理解本文公开的技术。
[0081]
虽然已经参考示例性实施例描述了上述公开，但是本领域技术人员将理解，可以进行各种改变并且可以用等效物代替其元件而不背离其范围。此外，可以进行许多修改以使特定情况或材料适应本公开的教导而不背离本公开的基本范围。因此，旨在本技术不限于所公开的特定实施例，而是将包括落入本技术范围内的所有实施例。

再多了解一些

1/2 1 2 下一页尾页

本文用于创业者技术爱好者查询，仅供学习研究，如用于商业用途，请联系技术所有人。

上一篇：返回列表
下一篇：信息处理装置、信息处理方法及存储介质与流程

用于车辆的奖励函数的制作方法

相关文献

最热文献