用于标记图像之间的空间关系的强化学习模型的制作方法

2022-11-19 14:35:39 来源：中国专利 TAG：

1.本发明涉及用于标记图像之间的空间关系的强化学习模型(reinforcement learning model)。

背景技术：

2.已经开发了计算机视觉技术，使计算机系统能够解释图像并了解其内容。例如，已经开发了估计图像之间的空间关系的技术。作为一个示例，已经开发了估计时间上在两个时刻拍摄的两个图像中检测到的特征之间的光流的技术。作为另一示例，已经开发了基于场景的双目或多视点立体图像对之间的差异来确定深度的技术。这些技术采用估计不同图像中像素之间对应关系的算法。然而，估计像素之间的对应关系会消耗大量的计算时间和资源，尤其是在采用穷举或随机搜索方法时。因此，存在提高对应关系估计效率的技术挑战，从而在执行这些类型的计算机视觉操作时降低总体计算成本。

技术实现要素：

3.根据本公开的一个方面，提供了一种计算系统，包括被配置为接收第一图像的标记映射的处理器。标记映射可以指示在包括在第一图像中的第一感兴趣区域和包括在第二图像中的第二感兴趣区域之间的空间关系。在经训练的强化学习模型中，处理器可以进一步被配置为至少基于标记映射、第一图像和第二图像来生成第一图像的经更新的标记映射。
4.提供本概述以简化形式介绍一些概念，这些概念将在下面的“详细描述”中进一步描述。本发明内容并非旨在识别所要求保护的主题的关键特征或基本特征，也不旨在用于限制所要求保护的主题的范围。此外，要求保护的主题不限于解决在本公开的任何部分中指出的任何或所有缺点的实施方式。
附图说明
5.[图1]图1示意性地示出了根据本公开的一个实施例的包括处理器的示例计算系统，该处理器被配置为在运行时执行经训练的强化学习模型，以估计在图像流的一对输入图像之间的空间关系，并将这些空间关系记录在经更新的标记映射中。
[0006]
[图2]图2示意性地示出了在图1的计算系统的经训练的强化学习模型中使用的示例卷积神经网络。
[0007]
[图3]图3示意性地示出了可以由图1的计算系统处理的图像流的第一示例，用于光流处理。
[0008]
[图4]图4示意性地示出了可以由图1的计算系统处理的图像流的第二示例，用于双目或多视点立体成像。
[0009]
[图5]图5示意性地示出了根据图1的实施例的当训练时被配置为训练和生成经训练的强化学习模型的处理器。
[0010]
[图6]图6示出了在生成如图5的示例所示的经训练的强化学习模型时可能发生的第一参数更新循环和第二参数更新循环。
[0011]
[图7]图7示出了根据图1的实施例的多个标记映射更新循环。
[0012]
[图8]图8示出了根据图1的实施例的当处理器为视差图生成运行时标记更新动作时的示例数据流。
[0013]
[图9]图9示出了根据图1的实施例的当处理器为光流图生成运行时标记更新动作时的示例数据流。
[0014]
[图10a]图10a示出了根据图1的实施例的示例成像配置，其中第一相机、第二相机和第三相机被配置为同时对相同的物理环境进行成像。
[0015]
[图10b]图10b示出了当处理器至少部分地通过使用从图10a的第一相机、第二相机和第三相机接收的相应图像为深度图生成运行时标记更新动作时的示例数据流。
[0016]
[图11a]图11a示出了根据图1的实施例的示例视差图。
[0017]
[图11b]图11b示出了根据图1的实施例的示例光流图。
[0018]
[图11c]图11c示出了根据图1的实施例的第一示例深度图和第二示例深度图。
[0019]
[图12a]图12a示出了根据图1的实施例的与计算系统一起使用以生成经更新的标记映射的示例方法的流程图。
[0020]
[图12b]图12b示出了图12a的方法的附加步骤，通过这些步骤可以生成经训练的强化学习模型。
[0021]
[图12c]图12c示出了当执行图12b的方法时可以在一些实施例中执行的附加步骤。
[0022]
[图12d]图12d示出了当执行图12b的方法时可以在一些实施例中执行的附加步骤。
[0023]
[图13]图13示出了可以实施图1的计算系统的示例计算环境的示意图。
具体实施方式
[0024]
为了解决上述挑战，提供了一种计算系统10，如图1所示。虽然用于确定一对图像之间的空间关系(例如光流、视差和深度)的现有方法通常依赖于确定性算法来解决它们，但计算系统10采用基于机器学习的方法，具体是基于强化学习的方法。这种方法训练机器学习模型来预测空间关系，通常在图像对之间以逐像素(pixelwise)为基础。空间关系的逐像素预测存储在标记映射中，该标记映射使用强化学习技术进行更新和优化，如下所述。通过采用这样的方法，相信可以提高计算图像之间的对应关系估计的效率。
[0025]
搜索像素对应关系的先前方法包括执行穷举搜索；执行预限定的标记子集的搜索；并通过随机扰动其当前分配的标记生成候选标记并测试像素的新标记以确定新标记是否是更准确的匹配。然而，这些先前的方法通常在计算上效率低下。相比之下，本方法利用强化学习，例如，可以利用强化学习来提供调整到不同时间尺度的注意力机制。这样做的潜在好处是实现对像素对应关系搜索更智能，从而实现更高效的计算。
[0026]
其他现有的标记方法，如lucas-kanade，包括随着时间的推移逐步更新分配的标记。例如，这些现有方法可以使用梯度下降。然而，这些方法只考虑了迭代之间标记准确性的短期改进，因此很可能陷入局部最优。相比之下，下面讨论的系统和方法可以考虑更长的
和多尺度的时间间隔，从而实现标记准确性的改进。
[0027]
计算系统10可以包括被配置为执行程序指令的处理器12。此外，计算系统10可以包括存储器14，其可以存储可由处理器12执行的指令。存储器14可以包括易失性存储装置和/或非易失性存储装置。当存储器14包括非易失性存储装置时，存储器14可以进一步存储除程序指令之外的其他数据。在一些实施例中，计算系统10可以包括一个或多个相应的输入设备16，如键盘、鼠标、触摸屏、触控板、麦克风、光学传感器、加速度计或一些其他类型的输入设备16。计算系统10还可以包括一个或多个相应的输出设备18，如显示器、扬声器、触觉反馈设备或一些其他类型的输出设备18。
[0028]
在一些实施例中，计算系统10的功能可以分布在通信耦接的多个物理计算设备上。例如，计算系统10可以包括一个或多个服务器计算设备，其被配置为通过网络与一个或多个客户端计算设备通信。在一些实施例中，计算系统10可以包括位于数据中心中的多个通信耦接的服务器计算设备。
[0029]
处理器12可以被配置为将下面讨论的技术至少应用于第一图像20和第二图像30。例如，第一图像20和第二图像30可以是视频中的连续帧。作为另一示例，第一图像20和第二图像30可以是由位于不同位置的各个相机拍摄的相同三维环境的图像。因此，第一图像20和第二图像30可以是从不同的角度拍摄的。第一图像20和第二图像30可以各自包括相应的多个像素，每个像素具有相应的颜色值。在一些实施例中，下面描述的技术可以应用于三个以上图像。
[0030]
第一图像20和第二图像30可以分别包括第一感兴趣区域(region of interest，受关注区域)22和第二感兴趣区域32。第一感兴趣区域22和第二感兴趣区域32可以各自包括相应的多个空间上连续的像素。在一些实施例中，第一感兴趣区域22和/或第二感兴趣区域32可以是整个图像。或者，第一感兴趣区域22和/或第二感兴趣区域32可以是包括在图像中的多个像素的子集。在这样的实施例中，第一感兴趣区域22和/或第二感兴趣区域32可以通过手动或程序图像分割来选择。在一种特定的方法中，如图2所示，感兴趣区域roi可以通过在经训练的强化学习模型50的卷积神经网络(cnn)内布置一个或多个卷积层来选择。例如，第一卷积层中的节点可以被配置为接收来自3
×
3像素网格的输入，第二卷积层中的节点可以被配置为接收来自第一卷积层中的九个节点的输入，从而在输入图像中的9
×
9像素网格上执行卷积。以这种方式，强化学习模型50的卷积层内的节点的拓扑可以限定感兴趣区域。尽管图2图示了包括感兴趣区域的一个示例9
×
9像素网格，但是应当理解，整个图像将由多个感兴趣区域组成，这些感兴趣区域由卷积层内的各个节点同时并行处理。卷积层的输出是二维特征向量。此外，在一些实施例中，由卷积层形成的神经网络可以被预训练以识别图像中的视觉特征，如角、边缘等。
[0031]
返回图1，处理器12可以被配置为接收第一图像20的标记映射40。在图像对序列中的第一图像对上，标记映射40可以被设置为初始值状态。初始值状态可以随机选择、设置为零或一些其他预定值等。在每次通过图1的处理循环时，更新标记映射40的值。标记映射40可以指示包括在第一图像20中的第一感兴趣区域22和包括在第二图像30中的第二感兴趣区域32之间的空间关系。在一些实施例中，标记映射40可以是在第一图像20的第一感兴趣区域22和第二图像30的第二感兴趣区域32中分别包括的像素之间的多个光流值45的光流图44。在第一图像20和第二图像30是例如在时间t0和t1拍摄的视频的连续帧的实施例中，
可以使用光流图44。在这样的实施例中，每个光流值45可以是包括在t0捕获的第一感兴趣区域22中的像素与包括在t1捕获的第二感兴趣区域32中的对应像素之间的二维位移向量。可以通过使用例如卷积神经网络层识别由像素和可能的周围像素表示的视觉特征，来确定像素之间的对应关系。通过使用卷积神经网络层确定在t0捕获的第一图像中此类特征的点云，并跟踪构成第一图像中的点云的特征在t1捕获的第二图像中的移动位置，可以在两个图像之间确定逐像素的光流向量场。确定光流的常规方法包括，例如，使用确定性算法，例如lucas-kanade和horn-schunk方法。与此类确定性算法相比，本文公开的实施例使用强化学习来训练模型50以计算将第二图像校正为第一图像的变换t，然后最小化校正后的第二图像与第一图像之间的失准。图3图示了用于光流图像处理的示例图像流。应当理解，在处理期间，输入图像对的第一图像和第二图像由滚动窗口选择，该滚动窗口继续通过该系列图像。因此，第一图像和第二图像可以包括在第一次通过图1的处理循环时的输入图像对，并且第二图像和第三图像可以包括在第二次通过处理循环时的输入图像对，等等。
[0032]
返回图1，可替换地，标记映射40可以是在第一图像20的第一感兴趣区域22和第二图像30的第二感兴趣区域32中分别包括的像素之间的多个像素视差值47的视差图46。尽管光流示例中的第一图像和第二图像通常是在不同的时间点捕获的，但是该示例中的第一图像和第二图像通常是在相同(或几乎相同)的时间捕获的，尽管对于静止场景来说这不是必要因素。例如，视差图46可以用在立体视觉配置中，其中第一图像20和第二图像30是通常同时从不同视角拍摄的相同三维场景的图像。视差图中的每个像素都分配有值，该值表示第一图像中该像素与第二图像中含有或包含在相同视觉特征中的对应像素之间的距离。该值可以可视化为像素强度，范围从黑色(零视差/零强度)到白色(最大视差/最大强度)。应当理解，由于立体成像系统中每个相机(例如，右相机、左相机)的不同相机姿态的视差效应，成像场景的前景中的对象倾向于具有更高的视差，并因此在视觉上以较轻的强度表示，而该距离中的对象将倾向于具有较低的视差，因此以较暗的强度表示。换句话说，对于第一感兴趣区域22中的每个像素，视差图46可以通过该像素的强度值指示该像素与第二感兴趣区域32中的对应像素之间的像素位置的差异(即视差)。应当理解，可以使用视差图来确定图像中像素的深度，例如通过使用关系深度＝基线*焦点/视差。
[0033]
继续图1，作为又一替代，标记映射40可以是在第一图像20的第一感兴趣区域22和第二图像30的第二感兴趣区域32中分别包括的像素的多个空间深度值49的深度图48。像素的空间深度值49可以是为该像素计算的标量深度坐标值。在一些实施例中，深度图48可以基于第一图像20和第二图像30两者来计算。例如，在处理器12从三个以上相应的图像传感器接收相同三维场景的三个以上图像的实施例中，可以使用深度图48。在这样的实施例中，处理器12可以被配置为接收对应于图像对的多个标记映射48。图4示出了在如上所述的双目或多视点立体成像中使用的示例输入流。在该示例中，在同一时刻捕获的一对或三个(或更多)图像的元组包括输入图像。
[0034]
返回图1，在接收到第一图像20、第二图像30和标记映射40之后，处理器12可以进一步被配置为至少基于标记映射40、第一图像20和第二图像30生成第一图像20的更新的标记映射60。经更新的标记映射60可以在经训练的强化学习模型50处生成。更新的标记映射60可以是已经由经训练的强化学习模型50更新的标记映射40的版本，以更准确地反映标记映射40指示的第一感兴趣区域22和第二感兴趣区域32的空间关系，例如，强化学习模型50
在如下描述的事件内循环。经训练的强化学习模型50包括代理模块110和环境模块130，如下文进一步描述。代理模块110可以采取多种形式，并且通常包括一个或多个神经网络，每个神经网络具有输入层、一个或多个隐藏层、和输出层。输入层、输出层和一个或多个隐藏层中的每一者可以包括一个或多个神经元，这些神经元通过相应的神经元权重连接到其它层中的神经元。权重本身可以在训练期间通过梯度下降反向传播或其它技术计算。
[0035]
在图1中，作为一个示例，代理模块110被示为配置为视差图更新代理。视差图更新代理在图8中更详细地显示，包括右图像ir(参考图像)、左图像i
l
和当前学习图lt的三个输入通道。类似经训练的特征提取cnn对右图像和左图像的每个图像作为输入进行操作并产生各自的特征向量f
l
和fr，其例如可以是在每个像素位置中识别的视觉特征的二维阵列。通过使用当前标记映射l
t
对fr执行变换，用f
l
校正特征向量fr(即，使每个向量中的特征的逐像素级位置对应)，从而产生校正的特征向量f'r。单独的cnn接收学习图l
t
作为输入，并产生特征向量f
lt
。这三个特征向量被级联并作为输入馈送到第四个cnn，该cnn输出动作向量a
t
，该动作向量被传递到环境模块130的转换模块131，该模块依次对当前标记映射l
t
执行动作以产生l
t 1
，这里称为经更新的标记映射60。下面结合图8描述视差图更新代理的其它细节。或者，代理模块110可以被配置为如图9所示的光流图更新代理、如图10a和图10b所示的多立体视图深度图更新代理，或其它类型的空间关系图更新代理。
[0036]
可以用于经训练的强化学习模型50的强化学习模型的示例类型包括深度q网络(dqn)、异步actor-critic(a2c)、异步优势actor-critic(a3c)、近端策略优化(ppo)。其它强化学习模型类型或上述类型的组合可替代地用作经训练的强化学习模型50。
[0037]
在已经生成更新的标记映射60之后，处理器12可以进一步被配置为输出更新的标记映射60。该输出可以到存储器位置以供另一软件程序使用，或通过一个或多个输出设备18。输出通常发生在处理过程中的适当时间，如在强化学习阶段结束之后。通常，在强化学习阶段的每个阶段，经更新的标记映射60被设置为当前标记映射40以用于下一个处理循环，如图所示。一旦阶段已经结束，可以输出经更新的标记映射60。作为输出的示例形式，经更新的标记映射60的输出可以是文件或数据结构，其通常经由在存储器位置处的存储装置被传输到下游软件程序，该下游软件程序在处理中利用经更新的标记映射60，以对参考输入图像中每个像素计算深度、视差或光流的值。下游软件程序可以是计算机视觉程序，其被配置为分析来自相机的实时图像，或被配置为分析存储的图像。附加地或替代地，处理器12可以被配置为生成经更新的标记映射60的图形表示并且输出该图形表示以用于在图形用户界面(gui)上显示。此外，在计算系统10包括一个或多个服务器计算设备的实施例中，处理器12可以进一步被配置为将经更新的标记映射传送到一个或多个客户端计算设备和/或其它服务器计算设备。
[0038]
处理器12可以被配置为训练经训练的强化学习模型50，如图6所示。可以使用多个训练图像104来训练经训练的强化学习模型50。每个训练图像104可以具有一个或多个相应的感兴趣训练区域105，其可以在训练经训练的强化学习模型50之前手动或编程识别。当训练经训练的强化学习模型50时，对于多个训练图像104中的每一者，处理器12可以被配置为将该训练图像104输入到代理模块110中。代理模块110可以进一步被配置为接收候选标记映射102，该候选标记映射指示在第一训练图像104的一个或多个感兴趣的训练区域105与附加训练图像106的一个或多个对应的附加感兴趣训练区域107之间的候选空间关系。例
如，候选标记映射102可以是光流图、视差图或深度图。
[0039]
在代理模块110，处理器12可以进一步被配置为确定与训练图像104相关联的候选标记映射102的候选标记更新动作118。候选标记更新动作118可以是对候选标记映射102的修改。处理器12可以被配置为至少部分地通过将具有一个或多个代理参数114的策略函数112应用于候选标记映射102、训练图像104和附加训练图像108来确定候选标记更新动作118。策略函数112可以编码机器学习模型中包括的神经元的层结构和神经元权重，因为它正处于被训练的过程中。
[0040]
在评估模块120处，处理器12可以进一步被配置为确定用于候选标记映射102的评估度量值122。当确定评估度量值122时，训练图像104和/或附加训练图像106可以另外用作评估模块120的输入。例如，当候选标记映射102是视差图时，评估度量值122可以由以下等式给出：
[0041]
[等式1]
[0042][0043]
在这个等式中，e是评估度量值122，l
t
是当前候选标记映射102，i
l
和ir是分别包含左图像和右图像的像素值阵列的图像，p是包含在候选感兴趣区域105中的像素。ir'是通过将候选标记映射l
t
应用于右图像ir以将右图像ir中的特征位置与左图像i
l
中这些特征的相应位置对齐而生成的变换或校正的右图像。
[0044]
在候选标记映射是深度图而不是视差图的实施例中，上述等式可以用深度值代替像素视差值来使用。当生成深度图时，无需进行下游处理以单独将视差图转换为深度图。在候选标记映射是光流图的实施例中，上述等式可以与光流向量一起使用来代替像素视差值。
[0045]
在一些实施例中，在评估模块120处，处理器12可以进一步被配置为接收手动生成的标记映射124。处理器12可以进一步被配置为至少部分地基于候选标记映射102和手动生成的标记映射124之间的差异来确定评估度量值122。例如，可以使用评估度量值122的以下等式：
[0046]
[等式2]
[0047][0048]
在这个等式中，l*是手动生成的标记映射124。上式中的l
t
和l*的值在标记映射是视差图时可以是视差值，或者当标记映射是深度图时可以是深度值。当标记映射是光流图时，l
t
和l*的值可以是光流向量。
[0049]
评估度量值122的上述等式各自指示候选标记映射102中的相应误差量。在其它实施例中，可以使用除了上面提供的两个示例之外的用于评估度量值122的等式。
[0050]
处理器12可以进一步被配置为在环境模块130处，至少基于候选标记映射102和候选标记更新动作118来确定经更新的候选标记映射132。处理器12可以通过将候选标记更新动作118应用于候选标记映射102来做出该确定。例如，在候选标记映射102和候选标记更新动作118都表示为矩阵的实施例中，处理器12可以被配置为将候选标记更新动作118添加到候选标记映射102或使用候选标记更新动作118或候选标记映射102执行一些其它操作。可
替代地，处理器12可以被配置为将候选标记更新动作118乘以候选标记映射102以获得经更新的候选标记映射132。
[0051]
在其它实施例中，处理器12可替代地被配置为确定经更新的候选标记映射132而不参考候选标记映射102。例如，如果策略函数112将连续视差输出为
[0052]
a＝p(x)，其中p(x)＝cnn(x) x是当前视差图46与在cnn处估计的残差图之和，处理器12可以在环境模块130处确定a，而不使用候选标记映射。
[0053]
在环境模块130处，处理器12可以进一步被配置为基于候选标记更新动作118和评估度量值122来确定奖励值134。例如，奖励值134可以等于候选标记映射102的评估度量值122和为经更新的候选标记映射132计算的更新的评估度量值之间的差。例如，更新的评估度量值可以使用用于计算评估度量值122的相同等式来计算。
[0054]
在更新器模块140处，处理器12可以进一步被配置为至少部分地基于候选标记映射102、候选标记更新动作118、经更新的候选标记映射132和奖励值134来修改代理模块110的一个或多个代理参数114。因此，对于每个训练图像104，候选标记映射102、候选标记更新动作118、经更新的候选标记映射132和奖励值134可以形成由策略函数112指示的神经元权重被更新的经验元组。
[0055]
在一些实施例中，处理器12可以进一步被配置为确定期望累积奖励值152。图6示出了第一参数更新循环150a，其中基于候选标记映射102a、训练图像104a和附加训练图像106a来更新代理模块110a。在图6的示例中，代理模块110a具有策略函数112a。在代理模块110a处，处理器12被配置为通过将训练图像104a、附加训练图像106a和候选标记映射102a输入到策略函数112a中来生成候选标记更新动作118a。此外，在评估模块120处，处理器12进一步被配置为至少基于候选标记映射102a来确定评估度量值122a。基于候选标记更新动作118a和评估度量值122a，处理器12可以进一步被配置为确定奖励值134a。此外，在环境模块130处，处理器12可以进一步被配置为确定经更新的候选标记映射132a。
[0056]
在更新器模块140处，处理器12可以进一步被配置为通过对每个奖励值134求和来跟踪期望累积奖励值152a。在更新器模块处，处理器12可以进一步配置为确定一个或多个更新的代理参数114a，利用该参数至少部分地基于期望累积奖励值152a来更新策略函数112a。如上面参考图5所讨论的，一个或多个更新的代理参数114a可以进一步基于候选标记映射102a、候选标记更新动作118a和经更新的候选标记映射132a。
[0057]
图6进一步示出了第二参数更新循环150b。第二参数更新循环150b使用与第一参数更新循环150a中使用的不同的训练图像104b、附加训练图像106b和候选标记映射102b来执行。在第二参数更新循环150b中使用的代理模块110b具有在第一参数更新循环150a期间生成的更新代理参数114a，其被包括在策略函数112b中。代理模块110b被配置为基于训练图像104b、附加训练图像106b和候选标记映射102b生成候选标记更新动作118b。此外，在评估模块120处，处理器12可以进一步被配置为至少基于候选标记映射102b来生成评估度量值122b。基于候选标记更新动作118b和评估度量值122b，处理器12可以进一步被配置为确定奖励值134b。此外，在环境模块130处，处理器12可以进一步被配置为确定经更新的候选标记映射132b。
[0058]
在更新器模块140处，处理器12可以进一步被配置为通过将奖励值134b与来自第一参数更新循环150a的期望累积奖励值152a相加来确定期望累积奖励值152b。在更新器模
块140处，处理器12可进一步被配置为生成一个或多个更新的代理参数114b，其可以进一步用于更新策略函数112b。因此，在对应于多个训练图像104的多个参数更新循环150a、150b内，处理器12可以基于在这些参数更新循环150a、150b中的环境模块130处确定的相应奖励值134，来确定期望累积奖励值152。在一些实施例中，处理器12可以进一步被配置为选择一个或多个代理参数114的相应参数值，其在当前参数更新循环150a、150b中增加期望累积奖励值152。处理器12可以由此为代理模块110选择代理参数114，该代理参数114允许代理模块110生成越来越准确的经更新的候选标记映射132。当训练完成时(例如，当已经为多个训练图像104中的每个训练图像104执行了参数更新循环时)，代理模块110可以用作经训练的强化学习模型50。
[0059]
返回图5，经训练的强化学习模型50可以是包括多个代理模型110的多代理强化学习模型。在经训练的强化学习模型50是多代理强化学习模型的实施例中，处理器12可以被配置为使用多个训练图像104来训练每个代理模块110。每个代理模块110可以具有不同的策略函数112。在一些实施例中，可以通过分布式学习在分立的计算设备处训练多个代理模块110。在运行时，处理器12可以被配置为顺序地应用代理模块110以更新标记映射40，如下文进一步详细讨论的。
[0060]
在一些实施例中，如图7所示，处理器12可以进一步被配置为在多个标记映射更新循环内，在经训练的强化学习模型50处迭代地更新经更新的标记映射60。在图7所示的第一标记映射更新循环70a中，将第一图像20、第二图像30和标记映射40输入到经训练的强化学习模型50中。从这些输入，经训练的强化学习模型生成第一经更新的标记映射60a。在第二标记映射更新循环70b中，第一图像20、第二图像30和第一更新标记映射60a被用作经训练的强化学习模型50的输入，其生成第二更新标记映射60b。在第三标记映射更新循环70c中，第一图像20、第二图像30和第二更新标记映射60b被用作经训练的强化学习模型50的输入，其生成第三更新标记映射60c。也可以执行一个或多个附加标记映射更新循环。通过重复更新标记映射40，处理器12可以针对给定的强化学习阶段增加最终经更新的标记映射60的准确性。在一些实施例中，处理器12可以被配置为使用具有不同策略函数112的多个不同代理模型110以在对应的标记映射更新循环中更新标记映射40。对正在处理的图像系列中的每一对输入图像或输入图像元组重复该循环。
[0061]
图8示出了当处理器12生成运行时标记更新动作218时的示例数据流200，通过该动作可以更新标记映射40。在图8的示例中，标记映射40是视差图246。视差图246指示在双目视觉配置中由左相机拍摄的左参考图像202和由右相机拍摄的右参考图像204之间的多个像素坐标差。在图8的示例中，处理器12被配置为在一个或多个卷积层处生成第一感兴趣区域22的第一特征映射220和第二感兴趣区域32的第二特征映射222。在图8的示例中，第一感兴趣区域22是整个左侧参考图像202并且第二感兴趣区域32是整个右侧参考图像204。第一特征映射220在第一cnn的多个第一卷积层210处产生，第二特征映射222在第二cnn的多个第二卷积层212处产生。第一特征映射220可以指示包括多个像素的一个或多个特征并且可以进一步指示左参考图像202中的那些特征的相应位置。例如，一个或多个特征可以是边缘、角或纹理元素，并且通常但不一定是比例不变的。
[0062]
第二特征映射222可以至少部分地在一个或多个第二卷积层212处生成。生成第二特征映射222可以进一步包括使用视差图246变换一个或多个第二卷积层212的输出。该变
换可以是线性变换，该线性变换将在一个或多个第二卷积层212处检测到的右参考图像204中的一个或多个特征的一个或多个相应位置映射到在一个或多个第一卷积层210处检测的左参考图像202中的一个或多个特征的一个或多个相应位置。
[0063]
处理器12可以进一步被配置为在第三cnn的一个或多个第三卷积层214处为视差图246生成视差特征映射224。例如，视差特征映射224可以指示左参考图像202或右参考图像204的一个或多个被遮挡区域。视差特征映射224可以附加地或替代地指示从视差图246提取的边界粘附信息、平滑度或噪声水平或其它特征信息。基于第一特征映射220、第二特征映射222和视差特征映射224，处理器12可以进一步被配置为生成级联特征映射230。级联特征映射230可以指示包括在第一特征映射220、第二特征映射222和视差特征映射224中的每个特征。
[0064]
在第四cnn的多个第四卷积层232处，处理器12可以进一步被配置为从级联特征映射230生成运行时标记更新动作218。在一些实施例中，运行时标记更新动作218可以是具有与标记映射40相同的输出变量空间的函数。在其它实施例中，运行时标记更新动作218可以被配置为输出分类变量值。例如，对于包括在第一感兴趣区域22中的每个像素，运行时标记更新动作218可以输出从集合{0，1，2}中选择的值。在该示例中，0可以是保持像素常数的视差值的指令，1可以是将像素的视差值增加1的指令，2可以是从像素的视距值减去1的指令。在其它实施例中，其它分类变量可以用作运行时标记更新动作218的输出。在一些实施例中，多个连续或分类变量或其某种组合的级联可以是运行时标记更新动作218的输出。
[0065]
图9示出了另一个示例数据流300，当标记映射40是光流图344时，处理器12可以通过该数据流产生运行时标记更新动作318。在图9的示例中，第一图像20和第二图像30是作为视频的连续帧的第一帧图像302和第二帧图像304。如在图8的示例中，可以在第一cnn的第一卷积层310处从第一帧图像302生成第一特征映射320。此外，第二帧图像304可以输入到第二cnn的第二卷积层312中，第二卷积层312的输出可以通过光流图344进行变换以生成第二特征映射322。还可以在第三cnn的一个或多个第三卷积层314处从光流图344生成光流特征映射324。处理器12可以进一步被配置为从第一特征映射320、第二特征映射322和包括在这些特征映射中的每个特征映射中指示的特征的光流特征映射324生成级联特征映射330。然后处理器12可以将级联特征映射330输入到第四cnn的一个或多个第四卷积层332中以生成运行时标记更新动作318。
[0066]
图10a示出了示例成像配置400，其中第一相机16a、第二相机16b和第三相机16c同时从不同视角对相同物理环境450进行成像。第一相机16a被配置为将第一图像402输出到处理器12，第二相机16b被配置为将第二图像404输出到处理器12，并且第三相机16c被配置为将第三图像406输出到处理器12。第一相机16a、第二相机16b和第三相机16c中的每个相机可以是rgb相机、红外相机、深度相机或任何其它合适类型的相机。
[0067]
处理器12可以进一步配置为确定指示第二相机16b相对于第一相机16a的位置和方向的第一姿态矩阵403，以及指示第三相机16c相对于第一相机16a的位置和方向的第二姿态矩阵405。在一些实施例中，可以基于从位于相机附近的一个或多个相应附加传感器接收的数据来确定相机的相应位置和方向。例如，一个或多个附加传感器可以包括陀螺仪、加速度计、全球定位传感器、磁场传感器或一些其它类型的位置或方向传感器中的一者或多者。
[0068]
附加地或替代地，处理器12可以被配置为基于在图像中检测到的一个或多个特征来生成第一姿态矩阵403和/或第二姿态矩阵405。在这样的实施例中，第一姿态矩阵403和/或第二姿态矩阵405可以基于标记映射40来估计。在处理器12被配置为通过多个标记映射更新循环迭代地更新标记映射40的实施例中，处理器12可以进一步被配置为更新其对第一姿态矩阵403和/或第二姿态矩阵405的估计。
[0069]
如下文进一步详细讨论的，处理器12可以被配置为在生成经更新的标记映射60时使用第一图像402、第二图像404、第三图像406、第一姿态矩阵403和第二姿态矩阵405作为输入60。此外，处理器12可以进一步使用相机参数矩阵408作为输入。相机参数矩阵408可以指示相机的一个或多个固有属性，其可以包括焦距、偏斜系数和要点。在图10a的示例中，第一相机16a、第二相机16b和第三相机16c具有基本相同的固有属性，它们由相同的相机参数矩阵408表示。在其它实施例中，每个相机可以具有对应的相机参数矩阵408。
[0070]
图10b示出了当处理器12为深度图448生成运行时标记更新动作418时的示例数据流440，该深度图指示位于在图10a的第一图像402、第二图像404和第三图像406中描绘的物理环境450中的一个或多个对象的多个深度值。在第一cnn的一个或多个第一卷积层410处，处理器12可以被配置为为第一图像402生成第一特征映射420。处理器12可以进一步被配置为使用第二图像404、第一姿态矩阵403和相机参数矩阵408作为第二cnn的一个或多个第二卷积层412的输入。处理器12可以进一步被配置为用深度图448变换一个或多个第二卷积层412的输出以生成第二特征映射422。类似地，处理器12可以进一步被配置为使用第三图像406、第二姿态矩阵405和相机参数矩阵408作为第三cnn的一个或多个第三卷积层414的输入。处理器12可以进一步被配置为利用深度图448变换一个或多个第三卷积层414的输出以生成第三特征映射424。处理器12可以进一步被配置为在第四cnn的一个或多个第四卷积层416处生成深度特征映射426。根据第一特征映射420、第二特征映射422、第三特征映射424和深度特征映射426，处理器12还可以被配置为生成级联特征映射430，该级联特征映射包括生成级联特征映射的特征映射中指示的每个特征。然后可以将级联特征映射430输入到第五cnn的一个或多个第五卷积层432中，在该第五卷积层432中处理器12可以被配置为生成运行时标记更新动作418。
[0071]
图11a示出了分别为左图像和右图像的第一图像20和第二图像30的示例视差图240。例如，第一图像20和第二图像30可以是图8的左参考图像202和右参考图像204。在图11a的示例视差图240中，第一图像20包括左图像第一特征244a和左图像第二特征246a。类似地，第二图像30包括右图像第一特征244b和右图像第二特征246b。图11a的示例中的每个特征包括多个像素。视差图240指示左图像第一特征244a和右图像第一特征246b之间的第一空间关系242a，在图11a中示出为从包括在左图像第一特征244a中的像素指向包括在右图像第一特征244b中的对应像素的多个向量。此外，视差图240指示左图像第二特征246a和右图像第二特征246b之间的第二空间关系242b。在图11a的示例中，第一空间关系242a和第二空间关系242b是它们相应特征的左移。第一空间关系242a和第二空间关系242b是每个euclidean距离值(即，所描绘的向量的标量值)，表示图像对中的左右图像中每个图像的对应像素之间的euclidean距离。例如，这些euclidean距离值可以通过对应的逐像素强度值在视觉上表示，较暗的强度值表示较小的视差，较亮的值表示较大的视差。
[0072]
图11b示出了分别为视频的第一帧和视频的第二帧的第一图像20和第二图像30的
示例光流图340。例如，第一图像20和第二图像30可以是图9所示的第一帧图像302和第二帧图像304。在图11b的示例光流图340中，第一图像20包括第一帧第一特征344a和第一帧第二特征346a。第二图像30包括第二帧第一特征344b和第二帧第二特征346b。示例光流图340指示第一帧第一特征344a和第二帧第一特征344b之间的第一空间关系342a以及第一帧第二特征346a和第二帧第二特征346b之间的第二空间关系342b。第一空间关系342a和第二空间关系342b可各自包括第一图像20中的像素与第二图像30中的对应像素之间的多个光流向量。
[0073]
图11c示出了用于第一图像402和第二图像404的第一深度图440a以及用于第一图像402和第三图像406的第二深度图440b。第一深度图440a可以指示第二图像404中包括的每个像素的相应深度值，其可以基于第二图像404中的那些像素相对于第一图像402的相应位移来计算。类似地，第二深度图440b可以指示包括在第三图像406中的像素的相应深度值，其可以基于第三图像406中的那些像素相对于第一图像402的相应位移来计算。第一图像402包括第一图像第一特征444a和第一图像第二特征446a，第二图像404包括第二图像第一特征444b和第二图像第二特征446b，第三图像406包括第三图像第一特征444c和第二图像446c。第一深度图440a指示第一图像第一特征444a和第二图像第一特征444b之间的第一空间关系442a以及第一图像第二特征446a和第二图像第二特征446b之间的第二空间关系442b。此外，第二深度图440b指示第一图像第一特征444a和第三图像第一特征444c之间的第三空间关系442c以及第一图像第二特征446a和第三图像第二特征446c之间的第四空间关系442d。这些空间关系中的每个空间关系表示第一图像的相应像素与第二图像或第三图像的对应像素之间的位置差异。
[0074]
图12a示出了根据一个示例实施例的与计算系统一起使用的方法500的流程图。执行方法500的计算系统可以是图1的计算系统10。在步骤502，方法500可以包括接收第一图像的标记映射。标记映射可以指示在包括在第一图像中的第一感兴趣区域和包括在第二图像中的第二感兴趣区域之间的空间关系。第一感兴趣区域和第二感兴趣区域可以各自包括相应的多个空间上连续的像素。第一感兴趣区域和第二感兴趣区域各自可以分别是第一图像和第二图像的全部或部分。在一些实施例中，标记映射可以是分别包括在第一图像的第一感兴趣区域和第二图像的第二感兴趣区域中的像素之间的多个光流值的光流图。在其它实施例中，标记映射可以是分别包括在第一图像的第一感兴趣区域和第二图像的第二感兴趣区域中的像素之间的多个像素位置视差的视差图。在其它实施例中，标记映射可以是分别包括在第一图像的第一感兴趣区域和第二图像的第二感兴趣区域中的像素的多个空间深度值的深度图。
[0075]
在步骤504，方法500可以进一步包括至少基于标记映射、第一图像和第二图像为第一图像生成经更新的标记映射。经更新的标记映射可以在经训练的强化学习模型中生成。可用于生成经更新的标记映射的强化学习模型的示例类型包括深度q网络(dqn)、异步actor-critic(a2c)、异步优势actor-critic(a3c)和近端策略优化(ppo)。可以附加地或替代地使用其它强化学习技术。
[0076]
在一些实施例中，在步骤506，方法500可以进一步包括在多个标记映射更新循环内在经训练的强化学习模型处迭代地更新经更新的标记映射。在第一标记映射更新循环之后的每个标记映射更新循环中，来自先前标记映射更新循环的经更新的标记映射可以与第
一图像和第二图像一起用作经训练的强化学习模型的输入。因此，经更新的标记映射可以在强化学习阶段内的多个标记映射更新循环内变得更加准确。在一些实施例中，经训练的强化学习模型可以是包括多个代理模块的多代理强化学习模型。在这样的实施例中，一个或多个标记映射更新循环可以在多个代理模块中的不同代理模块处执行。
[0077]
图12b示出了可以在步骤502之前执行的方法500的附加步骤，以便用多个训练图像来训练经训练的机器学习算法。可以对包括在多个训练图像中的每个训练图像执行图12b中所示的步骤，以在多个参数更新循环内迭代地更新代理模块的参数，如下面参考图12d所讨论的。在步骤508，方法500可以进一步包括为与训练图像相关联的候选标记映射确定候选标记更新动作。步骤508可以在代理模块处执行。可以至少部分地通过将具有一个或多个代理参数的策略函数应用于候选标记映射、训练图像和多个训练图像的附加训练图像，来确定候选标记更新动作。
[0078]
在步骤510，方法500可以进一步包括确定候选标记映射的评估度量值。步骤510可以在评估模块处执行。例如，当地面真值标记可用时，评估度量可以是深度(当候选标记映射是深度图时)或视差(当候选标记映射是视差图时)的估计值和地面真值之间的差异。另一方面，当地面真值标记不可用时，评估度量可能是，例如，两个标记映射之间的像素强度差异或值差异，即所谓的一致性损失。更具体地，当标记映射为视差图时，评估度量值可以是视差图中指示的像素视差值与地面真值视差图中对应像素的像素视差值的之间像素视差差的绝对值之和。作为另一示例，当地面真值标记可用并且标记映射是深度图时，评估度量值可以是深度图中指示的相应深度值和地面真值深度图中的相应像素的深度值之间的像素深度差的绝对值之和。作为另一示例，当标记映射是光流图时，评估度量可以是光流图中指示的光流值与地面真值光流图中的相应像素指示的光流值之间的光流差向量的绝对值之和。其它评估度量，例如像素强度差或一致性损失，可替代地用于其它实施例中，如上所述，例如当地面真值标记不可用时。
[0079]
在步骤512，方法500可以进一步包括在环境模块处，至少基于候选标记映射和候选标记更新动作来确定经更新的候选标记映射。步骤512可以包括将候选标记更新动作应用于候选标记映射。例如，候选标记更新动作可以是添加到候选标记映射的矩阵。或者，候选标记更新动作可以是与候选标记映射相乘以获得经更新的候选标记映射的矩阵。在其它实施例中，可以基于候选标记更新动作确定经更新的候选标记映射，而不参考候选标记映射。
[0080]
在步骤514，方法500可以进一步包括在环境模块处基于候选标记更新动作和评估度量值确定奖励值。在一些实施例中，确定奖励值可以包括为经更新的候选标记映射确定更新的评估度量值。在这样的实施例中，奖励值可以例如等于经更新的评估度量值和评估度量值之间的差。因此，在这样的实施例中，奖励可以是当候选标记映射被更新时减少发生的错误的量度。可替代地使用计算奖励值的其它方法。
[0081]
在步骤516，方法500可以进一步包括至少部分地基于候选标记映射、候选标记更新动作、经更新的候选标记映射和奖励值，来修改代理模块的一个或多个代理参数。该修改可以在更新器模块处执行。修改一个或多个代理参数可以包括修改代理模块中包括的一个或多个相应神经元的一个或多个神经元权重。
[0082]
图12c示出了在一些实施例中当训练如图12b所示的经训练的机器学习模型时可
以执行的方法500的附加步骤。在步骤518，方法500可以进一步包括在评估模块处接收手动生成的标记映射。手动生成的标记映射可以用作地面真值标记映射，在训练期间将经更新的候选标记映射与其进行比较。在步骤520，方法500可以进一步包括至少部分地基于候选标记映射和手动生成的标记映射之间的差异来确定评估度量值。作为步骤510的一部分，可以在评估模块处执行步骤520。
[0083]
图12d示出了可以在方法500循环通过多个参数更新循环的实施例中执行的方法500的附加步骤。在步骤522，方法500可以进一步包括确定在对应于多个训练图像的多个参数更新循环内的期望累积奖励值。可以基于在那些参数更新循环中在环境模块处确定的相应奖励值来确定期望累积奖励值。因此，可以在训练经训练的强化学习模型的处理中跟踪期望累积奖励值。在步骤524，方法500可以进一步包括选择在当前参数更新循环中的期望累积奖励值增加的一个或多个代理参数的相应参数值。当在更新器模块处执行步骤516时，可以执行步骤524。
[0084]
在应用上述强化学习技术来解决在计算机视觉中确定像素对应关系的技术挑战期间，可以结合调整到不同时间尺度的注意力机制。以这种方式，当通过上述强化学习算法获得积极结果时，可以独立评估和奖励仅在短期、中期和长期时间尺度上观察到的特征。因此，设想可以实现对像素对应关系的更智能和计算效率更高的搜索。
[0085]
在一些实施例中，本文描述的方法和处理可以应用于一个或多个计算设备的计算系统。具体地，这样的方法和处理可以实现为计算机应用程序或服务、应用编程接口(api)、库和/或其它计算机程序产品。
[0086]
图13示意性地示出了计算系统600的非限制性实施例，其可以实施上述方法和处理中的一者或多者。计算系统600以简化形式示出。计算系统600可以体现为上述和图1图示的计算系统10。计算系统600可以采取一个或多个个人计算机、服务器计算机、平板计算机、家庭娱乐计算机、网络计算设备、游戏设备、移动计算设备、移动通信设备(例如，智能电话)和/或其它计算设备和可穿戴计算设备的形式，例如智能手表和头戴式增强现实设备。
[0087]
计算系统600包括逻辑处理器602、易失性存储器604和非易失性存储设备606。计算系统600可以可选地包括显示子系统608、输入子系统610、通信子系统612和/或图13中未示出的其它组件。
[0088]
逻辑处理器602包括一个或多个被配置为执行指令的物理设备。例如，逻辑处理器可以被配置为执行作为一个或多个应用程序、程序、例程、库、对象、组件、数据结构或其它逻辑构造的一部分的指令。此类指令可被实施以执行任务、实施数据类型、变换一个或多个组件的状态、实现技术效果或以其它方式达到期望的结果。
[0089]
逻辑处理器可以包括被配置为执行软件指令的一个或多个物理处理器(硬件)。附加地或替代地，逻辑处理器可以包括一个或多个硬件逻辑电路或固件设备，其被配置为执行硬件实现的逻辑或固件指令。逻辑处理器602的处理器可以是单核或多核，并且在其上执行的指令可以被配置用于顺序、并行和/或分布式处理。逻辑处理器的各个组件可选地可以分布在两个以上单独的设备之间，这些设备可以远程定位和/或配置用于协调处理。逻辑处理器的各方面可以由配置为云计算配置的远程可访问的联网计算设备虚拟化和执行。在这种情况下，这些虚拟化方面运行在各种不同机器的不同物理逻辑处理器上，这是可以理解的。
[0090]
非易失性存储设备606包括一个或多个物理设备，该物理设备被配置为保存可由逻辑处理器执行以实施本文所述的方法和处理的指令。当实施这样的方法和处理时，非易失性存储设备606的状态可以被变换(例如，以保存不同的数据)。
[0091]
非易失性存储设备606可以包括可移动和/或内置的物理设备。非易失性存储设备606可以包括光学存储器(例如，cd、dvd、hd-dvd、蓝光光盘等)、半导体存储器(例如，rom、eprom、eeprom、闪存等)和/或磁存储器(例如，硬盘驱动器、软盘驱动器、磁带驱动器、mram等)或其它大容量存储设备技术。非易失性存储设备606可以包括非易失性、动态、静态、读/写、只读、顺序访问、位置可寻址、文件可寻址和/或内容可寻址设备。应当理解，非易失性存储设备606被配置为即使在非易失性存储设备606断电时也保持指令。
[0092]
易失性存储器604可以包括物理设备，该物理设备包括随机存取存储器。易失性存储器604通常被逻辑处理器602用于在处理软件指令期间临时存储信息。应当理解，当对易失性存储器604断电时，易失性存储器604通常不继续存储指令。
[0093]
逻辑处理器602、易失性存储器604和非易失性存储设备606的方面可以一起集成到一个或多个硬件逻辑组件中。此类硬件逻辑组件可能包括现场可编程门阵列(fpga)、程序和应用专用集成电路(pasic/asic)、程序和应用专用标准产品(pssp/assp)、片上系统(soc)和复杂可编程逻辑器件(cpld)。
[0094]
术语“模块”、“程序”和“引擎”可以被用于描述计算系统600的一个方面，该计算系统通常由处理器在软件中实现，以使用易失性存储器的部分执行特定功能，该功能涉及变换处理，具体是配置处理器以执行该功能。因此，模块、程序或引擎可以通过逻辑处理器602使用易失性存储器604的部分执行由非易失性存储设备606保持的指令来实例化。应当理解，不同的模块、程序和/或引擎可以从相同的应用程序、服务、代码块、对象、库、例程、api、函数等实例化。同样，相同的模块、程序和/或引擎可以由不同的应用程序、服务、代码块、对象、例程、api、函数等实例化。术语“模块”、“程序”和“引擎”可以包含单个或一组可执行文件、数据文件、库、驱动程序、脚本、数据库记录等。
[0095]
当包括时，显示子系统608可用于呈现由非易失性存储设备606保存的数据的视觉表示。视觉表示可以采用图形用户界面(gui)的形式。由于本文描述的方法和处理改变非易失性存储设备所保持的数据，从而变换非易失存储设备的状态，显示子系统608的状态同样可以被变换以可视地表示底层数据的变化。显示子系统608可以包括一个或多个使用几乎任何类型的技术的显示设备。这样的显示设备可以与共享外壳中的逻辑处理器602、易失性存储器604和/或非易失性存储设备606组合，或者这样的显示设备可以是外围显示设备。
[0096]
当包括时，输入子系统610可以包括一个或多个用户输入设备，例如键盘、鼠标、触摸屏或游戏控制器，或与其交互。在一些实施例中，输入子系统可以包括选定的自然用户输入(nui)组件或与选定的自然用户输入(nui)组件交互。这样的组件可以是集成的或外围的，并且输入动作的转换和/或处理可以在板上或板外处理。示例nui组件可以包括用于语音和/或语音识别的麦克风；用于机器视觉和/或手势识别的红外、彩色、立体和/或深度相机；用于运动检测和/或意图识别的头部跟踪器、眼球跟踪器、加速度计和/或陀螺仪；以及用于评估大脑活动的电场感应组件；和/或任何其它合适的传感器。
[0097]
当包括时，通信子系统612可以被配置为将本文描述的各种计算设备彼此通信耦接，并且与其它设备通信耦接。通信子系统612可以包括与一种或多种不同通信协议兼容的
有线和/或无线通信设备。作为非限制性示例，通信子系统可以被配置用于经由无线电话网络、或有线或无线局域网或广域网(例如通过wi-fi连接的hdmi)进行通信。在一些实施例中，通信子系统可以允许计算系统600经由诸如互联网的网络向其它设备发送和/或接收消息。
[0098]
以下段落描述了本公开的几个方面。根据本公开的一个方面，提供了一种计算系统，包括被配置为接收第一图像的标记映射的处理器。标记映射可以指示在包括在第一图像中的第一感兴趣区域和包括在第二图像中的第二感兴趣区域之间的空间关系。在经训练的强化学习模型中，处理器可以进一步被配置为至少基于标记映射、第一图像和第二图像来生成第一图像的经更新的标记映射。
[0099]
根据该方面，可以使用多个训练图像来训练经训练的强化学习模型。当训练经训练的强化学习模型时，对于多个训练图像中的每一个，处理器可以被配置为在代理模块处，至少部分地通过将具有一个或多个代理参数的策略函数应用于候选标记映射、训练图像和多个训练图像中的附加训练图像，确定与训练图像相关联的候选标记映射的候选标记更新动作。处理器可以进一步被配置为在评估模块处确定候选标记映射的评估度量值。处理器可以进一步被配置为在环境模块处，至少基于候选标记映射和候选标记更新动作来确定经更新的候选标记映射。在环境模块处，处理器可以进一步被配置为基于候选标记更新动作和评估度量值来确定奖励值。处理器可以进一步被配置为在更新器模块处至少部分地基于候选标记映射、候选标记更新动作、经更新的候选标记映射和奖励值来修改代理模块的一个或多个代理参数。
[0100]
根据该方面，候选标记映射可以指示训练图像的感兴趣训练区域与附加训练图像的附加感兴趣训练区域之间的候选空间关系。
[0101]
根据该方面，在评估模块处，处理器可以进一步被配置为接收手动生成的标记映射并且至少部分地基于候选标记映射和手动生成的标记映射之间的差异来确定评估度量值。
[0102]
根据该方面，在更新器模块处，处理器可以进一步被配置为在对应于多个训练图像的多个参数更新循环内，基于在那些参数更新循环中在环境模块处确定的相应奖励值来确定期望累积奖励值。处理器可以进一步被配置为选择一个或多个代理参数的增加当前参数更新循环中的期望累积奖励值的相应参数值。
[0103]
根据该方面，标记映射可以是分别包括在第一图像的第一感兴趣区域和第二图像的第二感兴趣区域中的像素之间的多个光流值的光流图。
[0104]
根据该方面，标记映射可以是分别包括在第一图像的第一感兴趣区域和第二图像的第二感兴趣区域中的像素之间的多个像素位置视差的视差图。
[0105]
根据该方面，标记映射可以是分别包括在第一图像的第一感兴趣区域和第二图像的第二感兴趣区域中的像素的多个空间深度值的深度图。
[0106]
根据该方面，处理器可以进一步被配置为在一个或多个卷积层处生成第一感兴趣区域的第一特征映射和第二感兴趣区域的第二特征映射。
[0107]
根据该方面，第一感兴趣区域和第二感兴趣区域可以各自包括相应的多个空间上连续的像素。
[0108]
根据该方面，处理器可以进一步被配置为在多个标记映射更新循环内在经训练的
强化学习模型处迭代地更新经更新的标记映射。
[0109]
根据该方面，经训练的强化学习模型可以是多代理强化学习模型。
[0110]
根据本公开的另一方面，提供了一种与计算系统一起使用的方法。该方法可以包括接收第一图像的标记映射，其中标记映射指示包括在第一图像中的第一感兴趣区域和包括在第二图像中的第二感兴趣区域之间的空间关系。该方法可以进一步包括，在经训练的强化学习模型处，至少基于标记映射、第一图像和第二图像为第一图像生成经更新的标记映射。
[0111]
根据该方面，该方法可以进一步包括至少部分地通过在代理模块处使用多个训练图像来训练经训练的机器学习模型，至少部分地通过将具有一个或多个代理参数的策略函数应用于候选标记映射、训练图像和多个训练图像的附加训练图像，来确定与所述训练图象相关联的候选标记映射的候选标记更新动作。训练经经训练的机器学习模型可以进一步包括在评估模块处确定候选标记映射的评估度量值。训练经训练的机器学习模型可以进一步包括在环境模块处至少基于候选标记映射和候选标记更新动作来确定经更新的候选标记映射。训练经训练的机器学习模型可以进一步包括在环境模块处基于候选标记更新动作和评估度量值确定奖励值。训练经训练的机器学习模型可以进一步包括在更新器模块处，至少部分地基于候选标记映射、候选标记更新动作、经更新的候选标记映射和奖励值来修改代理模块的一个或多个代理参数。
[0112]
根据该方面，该方法可以进一步包括，在评估模块处，接收手动生成的标记映射并且至少部分地基于候选标记映射和手动生成的标记映射之间的差异来确定评估度量值。
[0113]
根据该方面，该方法可以进一步包括，在更新器模块处，在对应于多个训练图像的多个参数更新循环内，基于在这些参数更新循环中在环境模块处确定的相应奖励值来确定期望累积奖励值。该方法可以进一步包括选择一个或多个代理参数的增加当前参数更新循环中的期望累积奖励值的相应参数值。
[0114]
根据该方面，标记映射可以是分别包括在第一图像的第一感兴趣区域和第二图像的第二感兴趣区域中的像素之间的多个光流值的光流图。
[0115]
根据该方面，标记映射可以是分别包括在第一图像的第一感兴趣区域和第二图像的第二感兴趣区域中的像素之间的多个像素位置视差的视差图。
[0116]
根据该方面，标记映射可以是分别包括在第一图像的第一感兴趣区域和第二图像的第二感兴趣区域中的像素的多个空间深度值的深度图。
[0117]
根据本公开的另一方面，提供了一种计算系统，包括一个或多个处理器，该处理器被配置为使用多个训练图像来生成经训练的强化学习模型。处理器可以被配置为至少部分地通过对于每个训练图像，至少部分地通过将具有一个或多个代理参数的策略函数应用于候选标记映射、训练图像和多个训练图像的附加训练图像，来确定与所述训练图象相关联的候选标记映射的候选标记更新动作，在代理模块处生成经训练的强化学习模型。处理器可以被配置为至少部分地通过在评估模块处确定候选标记映射的评估度量值来生成经训练的强化学习模型。处理器可以被配置为至少部分地通过在环境模块处，至少基于候选标记映射和候选标记更新动作来确定经更新的候选标记映射，以生成经训练的强化学习模型。处理器可以被配置为至少部分地通过在环境模块处，基于候选标记更新动作和评估度量值确定奖励值，以生成经训练的强化学习模型。处理器可以被配置为至少部分地通过在
更新器模块处，至少部分地基于候选标记映射、候选标记更新动作、经更新的候选标记映射和奖励值来修改代理模块的一个或多个代理参数，以生成经训练的强化学习模型。在运行时，处理器可以进一步被配置为接收第一图像的标记映射。标记映射可以指示在包括在第一图像中的第一感兴趣区域和包括在第二图像中的第二感兴趣区域之间的空间关系。标记映射可以是光流图、视差图或深度图。在经训练的强化学习模型中，处理器可以进一步被配置为至少基于标记映射、第一图像和第二图像来生成第一图像的经更新的标记映射。
[0118]
应当理解，本文描述的配置和/或方法本质上是示例性的，并且这些特定实施例或示例不应被认为具有限制意义，因为许多变化是可能的。本文描述的特定例程或方法可以代表任意数量的处理策略中的一者或多者。这样，图示和/或描述的各种动作可以以所示和/或描述的顺序、以其它顺序、并行或省略来执行。同样，可以改变上述处理的顺序。
[0119]
本公开的主题包括各种处理、系统和配置以及本文公开的其它特征、功能、动作和/或特性的所有新颖和非显而易见的组合和子组合，以及其任何和所有等同物。

再多了解一些

1/2 1 2 下一页尾页

本文用于创业者技术爱好者查询，仅供学习研究，如用于商业用途，请联系技术所有人。

上一篇：返回列表
下一篇：基于治污设备用电数据的预警分析方法和系统与流程

用于标记图像之间的空间关系的强化学习模型的制作方法

相关文献

最热文献