使用关系属性从输入数据中识别对象的方法与流程

2022-02-24 20:16:38 来源：中国专利 TAG：

1.本发明涉及一种使用关系属性从输入数据中识别对象的方法。本发明还涉及一种对象检测设备。本发明还涉及一种计算机程序产品。

背景技术：

2.已知的对象检测算法为输入数据（例如以图像的形式）提供检测集合。检测通常由围绕对象的矩形（边界框）和标量检测质量代表。所述代表的替代形式，例如所谓的要点（例如诸如头部、左/右臂等各个身体部位的位置），在人员检测器的情况下是已知的。在对象识别时的问题是识别布置在一个组内并且被该组的其他对象部分覆盖的对象。这尤其是在跟踪对象（例如人群中的人）或从车辆驾驶员的角度观察道路交通的交通量时令人感兴趣。

技术实现要素：

3.本发明的任务特别是在于：提供一种借助于输入数据改进地识别对象的方法。
4.根据第一方面，该任务通过一种用于从输入数据中识别对象的方法来解决，具有以下步骤：a)执行原始检测，其中确定至少两个对象；b)为所确定的至少两个对象确定至少一个关系属性，其中所述至少一个关系属性定义在步骤a)中确定的至少两个对象之间的关系；以及c)在考虑所述至少一个关系属性的条件下来确定待识别的对象。
5.通过这种方式，实现了使用以所谓的“关系属性”形式的特殊属性类别的对象识别。关系属性不再仅与单个对象相关，而是与一个或多个其他对象相关，并且因此定义了至少两个不同对象之间的关系。关系属性是描述检测到的对象与其他对象之间关系的检测属性。作为关系属性例如可以是检测到的对象周围特定半径内的对象数量。所描述的关系是图像空间中对象的空间相邻性。此外，作为关系属性可以是对象之间的交互。例如，检测a中识别出的人可以与另一个识别出的人b交谈。该交谈是关系属性。由此可以有利地执行改进的对象识别，并且结果可以由此生成例如用于物理系统（例如车辆）的有效控制信号。通过使用关系属性的对象识别，可以为所确定的对象例如确定至少部分被所确定的对象覆盖的对象的数量。这可以作为用于所确定的对象的附加信息得到进一步处理。由此，例如可以识别先后行驶的车辆或先后行走的行人或先后行驶的自行车或摩托车。
6.在本技术的意义上，原始检测是检测到的对象，这些对象用至少一个属性来预测。所述至少一个属性可以由至少部分地包括所述检测到的对象的定界元素（即边界框）给定。此外，可以将置信度值作为其他属性分配给原始检测。置信度值在此说明了边界框与检测到的对象之间的一致程度。此外，原始检测可以具有附加属性，然而这些附加属性在本技术的意义上仅与检测到的对象有关，并且因此与关系属性的区别在于，通过原始检测的属性不能做出关于可能被原始检测的检测到的对象至少部分覆盖的其他对象的任何结论。
7.根据第二方面，提供了一种在考虑环境传感器数据的条件下控制自主驾驶车辆的
方法，其中所述方法包括以下步骤：经由所述车辆的至少一个环境传感器记录环境传感器数据；在考虑至少一个关系属性的条件下基于输入数据形式的所记录的环境传感器数据来识别对象；在考虑所识别的对象的条件下确定所述车辆的环境状态，其中在所述环境状态中描述了所述车辆的包括所识别的对象在内的至少一种交通状况；通过车辆控制器的控制模块生成机动决策，其中所述机动决策基于所确定的环境状态；基于所述机动决策，通过所述车辆控制器的控制系统来引发控制机动。
8.所述机动决策可以包括所述车辆的制动或加速和/或转向。由此可以为自主车辆提供改进的控制方法，所述控制方法基于改进的对象识别。
9.根据第三方面，该任务通过一种对象检测设备来解决，该对象检测设备被设置为执行所提出的方法。
10.根据第四方面，该任务通过一种包括指令的计算机程序来解决，当计算机程序由计算机执行时，所述指令促使所述计算机执行所提出的方法，或所述计算机程序存储在计算机可读存储介质上。
11.该方法的优选扩展是从属权利要求的主题。
12.该方法的另一有利扩展的特征在于，所述关系属性是以下之一：至少两个对象的交互、对象被至少一个其他对象遮蔽。通过这种方式提供了定义至少两个不同对象之间的功能关系的关系属性的有用形式。由此可以识别两个或更多个对象之间的明确关系，使得可以评估原始检测中包含多少个可能部分被覆盖的对象。
13.该方法的其他有利扩展的特征在于，作为用于定位所述对象的属性确定所述对象的定界元素或要点。由此有利地提供了用于借助于输入数据定义或定位所述对象的不同可能性。
14.该方法的另一有利扩展的特征在于，将定界元素形式的属性细分为子定界元素，其中为每个子定界元素确定二进制值，该二进制值对子定界元素内对象的存在进行编码。通过这种方式有利地提供了其他类型的关系属性，其在某些情况下可以提供进一步改进的场景分辨率。
15.该方法的另一有利扩展的特征在于，该方法利用以下至少一种类型的输入数据来执行：图像数据、雷达数据、激光雷达数据、超声数据。通过这种方式可以有利地利用不同类型的输入数据来执行所提出的方法。通过这种方式有利地支持所提出的方法的改进的多样化或可用性。
16.该方法的另一有利扩展的特征在于，使用神经网络来确定所述关系属性，其中借助于卷积核至少在子区域中通常以定义的方式卷积输入数据的图像。通过这种方式，可以有利地仅以略微增加的计算耗费来确定所述关系属性。在所使用的神经网络中，可以至少以所述神经网络的描述所述关系属性的附加输出神经元的形式考虑所述关系属性。所述神经网络在先前的训练方法中对应地进行了训练，以便在所述附加输出神经元上输出所述关系属性。
17.该方法的另一有利扩展的特征在于，待识别对象的确定与非极大值抑制一起执
行。由此，还可以结合非极大值抑制来使用所述关系属性，由此还可以进一步改进对象识别。
18.该方法的另一有利扩展的特征在于，根据识别出的对象来产生用于控制物理系统、特别是车辆的控制信号。结果，由此支持更好地感知环境，由此可以改进地控制物理系统（例如车辆）。例如，由此在识别出多辆前方行驶的车辆后，可以改进地控制车辆的超车机动。
19.根据一种实施方式，控制机动是回避机动和/或超车机动，并且其中特别是所述回避机动和/或超车机动适合于使所述车辆从识别出的对象旁经过。
附图说明
20.下面利用其他特征和优点基于多个图详细描述本发明。相同或功能相同的元素在此具有相同的附图标记。
21.公开的方法特征类似地从对应公开的设备特征中得到，并且反之亦然。这特别是意味着，涉及所提出的方法的特征、技术优点和实施方案以类似的方式从涉及所提出的对象检测设备的对应实施方案、特征和优点中得到，并且反之亦然。
22.在附图中：图1示出了所提出的方法的原理流程；图2示出了所提出的对象检测设备的框图；图3示出了所提出的方法的作用方式的原理图；图4示出了所提出的用于训练关系属性的训练方法的原理流程；图5示出了借助于神经网络确定关系属性的示例；以及图6示出了所提出的方法的实施方式的原理流程。
具体实施方式
23.已知预测特定于对象的属性，如检测与检测到的对象实例的重叠程度，或预测对象特性，例如场景中对象的定向。这例如在redmon、joseph等人的“you only look once: unified, real-time object detection（只看一次：统一的实时对象检测）”，proceedings of the ieee conference on computer vision and pattern recognition，2016年公开或在braun、markus等人的“pose-rcnn: joint object detection and pose estimation using 3d object proposals（姿势-rcnn：使用3d对象提议的联合对象检测和姿势估计）”，ieee itsc，2016年中公开。
24.所提出方法的核心思想是预测所谓的关系属性，特别是与对象检测相关的关系属性。所提出的关系属性描述与检测到的对象环境中的一个或多个其他对象相关的关系或特性。这还包括对象检测之后的算法，所述算法例如响应于对象建议而评估属性存在。在下文中，这些属性称为“关系属性”。传统的属性仅与检测到的对象的特性相关。因此，这种以传统方式检测到的对象被孤立地观察，因此潜在重要的上下文信息没有供后处理所用。
25.关系属性的一个简单示例是图像空间中与检测到的对象交叠的对象的数量。例如，对于车辆而言可以预测该车辆覆盖前面行驶的另外两个车辆，所述另外两个车辆由于覆盖而在图像中只有一小部分是可见的。
26.通过这种方式，可以使用所提出的方法显著改进对场景的理解，或者可以支持随后的算法，其方式是例如通知下游的非极大值抑制（nms）特定区域内必须输出多少原始检测。替代地，所确定的对象的所确定的关系属性也可以用作关于所确定的对象的用于改进对象识别的附加信息。从而例如可以基于识别出的对象的关系属性，将识别出的对象识别为属于一组对象的对象。从而例如从车辆的驾驶员的角度来看，布置在该车辆前面的其他车辆可以被识别为属于先后布置的一组其他车辆。由此可以确定先后行驶的车辆序列，其中可以为每个识别出的车辆分配该序列内的位置，其方式是确定至少部分被相应车辆覆盖的车辆数量。这可以对于有计划的超车过程来说特别令人感兴趣，在该过程中对于超车车辆而言必须考虑是只需要超过直接布置在超车车辆前面的车辆还是必须超过其他先后行驶的车辆序列。对应地，可以由车辆的控制器考虑相关属性的信息。
27.所提出的方法的其他可想到的应用可能性是：例如，可以通过预测身体部位的遮蔽信息来支持用于识别人或识别动作的算法，以便将注意力集中在正确的对象上。一种由对象检测器支持地跟踪视频序列中对象的跟踪算法可以有利地通过附加预测的遮蔽信息而能够正确地做出困难的算法决策，例如从各个检测出发打开新的轨道，以便通过这种方式例如改进对人群的跟踪行为。
28.图1示出了所提出的方法的原理流程。可以识别出对象检测设备100，例如具有处理装置20a...20n（未示出），例如相机数据、激光雷达数据、雷达数据、超声数据、车辆环境形式的输入数据d被输送给所述处理装置。在此，可以在2d或3d网格中以类似于图像的形式显示输入数据d。
29.提出：在原始检测的情况下，确定以至少一个关系属性1a...1n的形式的属性1a...1n，所述关系属性定义了所确定的对象与至少一个所确定的其他对象之间的关系。
30.因此，以这种方式执行的原始检测要么用作第一对象检测od，要么可以可选地传递给下游的非极大值抑制，所述非极大值抑制借助于抑制装置110来执行。结果，由此在抑制装置110的输出端处提供具有识别出的对象的第二对象检测od1。借助于非极大值抑制（英语：non-maximum-suppression，nms），每个目标对象产生的大量检测可以减少到唯一检测。通过考虑所确定的关系属性，可以确定是仅识别一个对象还是一组部分相互覆盖的对象。这可以在非极大值抑制时得到考虑，以便通过一个或多个边界框形式的定界元素实现识别出的一个或多个对象的尽可能明确的表示。
31.借助于对象检测设备100，从输入数据d中执行原始检测，其中确定所分配的属性1a...1n（例如定界元素、置信度、对象分类等）。用于从输入数据d来定义对象的属性1a...1n可以例如以对象的定界元素（边界框）的形式存在，所述定界元素作为一种矩形将对象包围。
32.替代地可以规定，从输入数据d以要点的形式定义对象，其中每个要点对对象的单个组件（例如人的头部、右/左臂等）的位置进行编码。因此使用所提出的方法执行了改进的属性化原始检测，其中为每个要点考虑至少一个附加属性（例如遮蔽）。在下文中示例性描述了可以如何执行这种改进的属性化原始检测的两个变型。因此以语义分割的形式，可以将各个组件分配给每个识别出的对象。例如，可以将识别出的各个身体部位作为要点分配给识别出的人。对象的各个组件的这种分配可以通过被训练成为对对象进行语义分割和分类的神经网络来实现。按照从现有技术中已知的用于语义分割和对象识别的训练过程进行
对应的训练过程。为此可以将所述神经网络例如构造为卷积神经网络。
33.在图2中示意性地示出了所提出的对象检测设备100的实施方式。识别出多个传感器装置10a...10n（例如激光雷达、雷达传感器、超声传感器、相机等），它们例如安装在车辆中并且用于提供输入数据d。有利地，利用所提出的方法运行的技术系统可以通过这种方式提供不同类型的输入数据d，例如以相机数据、雷达数据、激光雷达数据、超声数据的形式。
34.可以针对单个传感器装置10a...10n的输入数据d或针对多个传感器装置10a...10n的输入数据d确定所提到的关系属性1a...1n，其中在后一种情况下，传感器装置10a...10n应当彼此校准。
35.在每个传感器装置10a...10n的下游，识别出分别分配的处理装置20a...20n，该处理装置可以包括经过训练的神经网络（例如区域候选网络、卷积神经网络），该神经网络借助于所提出的方法处理由传感器装置10a...10n提供的输入数据d并接着将其输送到融合装置30。借助于融合装置30，从处理装置20a...20n的个体结果中执行对象识别。
36.车辆的致动器装置40连接到融合装置30的输出端，根据所执行的对象识别的结果对所述致动器装置进行操控，以便例如启动车辆的超车过程、制动过程、转向机动等。如上所述，改进的对象识别使得可以在考虑识别出的对象的对应关系属性的条件下改进地和更精确地控制车辆。
37.下面提到了关系属性1a...1n及其应用的若干示例：-原始检测可以用以定界元素（边界框）的形式的属性1a
…
1n来代表。除了所述定界元素之外，作为每个对象的关系属性1a...1n预测有多少对象与所述定界元素相交。虽然预测的定界元素仅与单个对象相关，但所述关系属性说明了可以在后处理中有利地使用的附加信息，例如在已经提到的非极大值抑制中有利地使用的附加信息。-原始检测也可以用以对象要点的形式的属性1a
…
1n来代表。与一个、多个或所有要点一起定义关系属性1a
…
1n，该关系属性说明所述要点是否遮蔽了另一个对象。与前面的示例类似，该信息可以有利地在后处理中使用，所述后处理还可以更精细化。
38.图3示出了所提出的关系属性1a...1n的示例。在图3的左侧部分中表明，对象检测设备100分别借助于定界元素1a、1b、1c各识别出一个人p1、p2、p3。附加地，针对每个定界元素1a、1b、1c预测或确定在该对象定界元素中存在多少对象来作为关系属性。
39.结果由此表明有多少人看起来位于相应的定界元素内。这意味着在定界元素1a的情况下作为关系属性说明总共三个人位于定界元素1a内。在定界元素1b的情况下，作为关系属性说明总共有两个人位于定界元素1b内。在定界元素1c的情况下说明总共有两个人位于定界元素1c内。由此可以更精确地将定界元素分配给识别出的对象并且与此相关联地改进对象识别。
40.例如，可以以数值的形式对所提到的关系属性进行编码。这意味着对于定界元素1a对数值3编码，对于定界元素1b对数值2编码，对于定界元素1c同样对数值2编码。
41.在图3的右侧部分中表明，借助于对象检测设备100识别出不是通过定界元素（如图3的左侧部分中）而是分别通过以要点1a
…
1n、2a
…
2n的形式的属性代表的两个人p4、p5。对于每个所提到的要点1a
…
1n、2a
…
2n，作为关系属性预测该要点是否遮蔽了另一个对象。示例性地，人p4的两个要点1f、1g以图形方式突出显示，对于该人p4这是适用的。因此，人p4利用要点1f、1g至少部分地遮蔽了所确定的人p5。
42.可以想到的但未在图中示出的选项是，将定界元素形式的属性1a...1n细分为多个子定界元素，其中在这些子定界元素中对相应子定界元素中是否存在对象进行编码。例如，所述编码可以用零或一以二进制方式进行，其中“1”编码成在子定界元素中存在另外的对象，并且其中“0”编码成在相应的子定界元素中没有另外的元素。例如，以整数形式的编码可以说明在子定界元素中存在多于一个的对象。
43.图4示出了具有关系属性1a...1n的附加预测的对象检测设备100的示例性推理过程。在此类似于预测以相对于锚点（上述现有技术文献中的预定义框）的定界元素的形式的属性1a...1n那样进行，其方式是针对每个锚点借助于每个关系属性的过滤器核23a...23n确定锚点值的预测。如果根据预测的类别置信度在锚点位置处不存在对象，则丢弃该预测结果。
44.图4也可以理解为对象检测设备100（未示出）的处理装置20a...20n（未示出）的神经网络的训练场景，其中这种情况下的神经网络可以被构造为faster rcnn。识别出多个具有输入数据d的特征图（英语：feature map）21a...21n。识别出逐步使用第一卷积核22a...22n以及然后使用第二卷积核23a...23n来处理特征图21a...21n。以这种方式卷积的输入数据d的图像是原始图像的通过这种方式抽象的表示。特别是用卷积核23a...23n来确定所提出的附加关系属性1a...1n。
45.在所述神经网络的输出端输出利用卷积核22a...22n、23a...23n来卷积特征图的结果。以这种方式确定的相关属性1a...1n然后类似于以定界元素的形式的属性1a...1n的坐标进行处理。
46.在所述神经网络的训练阶段，附加关系属性1a...1n的生成例如可以通过人类注释者手动进行或以算法方式进行。为此，所述注释者可以在所述神经网络的相应训练数据中注释对应的关系属性。例如，注释者可以在表示图像记录的训练数据中标示出对象覆盖的区域。这些标示出的图像记录用作训练数据，以训练神经网络识别对象覆盖。作为训练数据例如可以使用从驾驶员的角度记录的图像记录，其例如表示先后行驶的车辆序列，在这些序列中可以标示出各个车辆的覆盖。
47.因此，完整的对象注释通过属性集合来描述在图像记录中出现的单个对象，所述属性例如是边界框、对象类别或适合于标示对象的其他属性。这些属性可以特别适合于使用非极大值抑制（non maximum suppression，nms）为检测到的对象将为对象检测创建的多个原始检测减少到使得能够最佳地表示检测到的对象的原始检测。在注释中可以对应地存储非极大值抑制中所需要的所有属性。可以在受监督的训练过程期间手动进行属性以及附加属性的这种注释。替代地，这种注释可以借助于对应的算法自动实现。
48.在神经网络的训练过程中，神经网络的自由参数（神经元的权重）通过优化方法确定。这是通过为神经网络所预测的每个属性定义目标函数来完成的，所述目标函数惩罚输出与训练注释的偏差。与此对应地，为关系属性定义了附加的目标函数。具体待选择的目标函数在此取决于关系属性的语义。
49.例如，如果已经存在具有以定界元素形式的属性1a...1n的对象注释，则可以自动确定描述对象与多少对象重叠的关系属性，其方式是计算该定界元素与场景中的所有其他定界元素的重叠。在此应该注意的是，在存在正确注释的情况下虽然可以在训练阶段自动计算该信息，但不能在对象检测设备100的应用时刻自动计算，因为经过训练的对象检测设
备100的输出可能伴有错误，并且因为特别是根据现有技术的对象检测器在应用nms之前产生了太多的检测。
50.对象检测设备100的神经网络可以针对每个关系属性至少配备有一个其他输出神经元，以考虑附加的关系属性。所述其他输出神经元输出对应于所述训练而设定的关系属性。
51.对象检测设备100的通过上述方式确定的关系属性1a...1n可以有利地与非极大值抑制组合。从而例如将关于一个对象遮蔽其他对象的信息用于在随后的非极大值抑制期间更好地将对象组分辨为第二对象检测od1。然而，所提出的关系属性1a...1n的使用有利地不限于与非极大值抑制的组合，而是也可以在没有非极大值抑制的情况下进行。
52.在此将关系属性定义为检测的属性，其描述了检测到的对象与所检测的场景中其他对象之间的关系。关系属性的示例是：-检测周围特定半径内的多个对象的数量。在此，所提到的关系是图像空间中对象的空间相邻性。-对象之间的交互，例如在原始检测a中识别的人与在原始检测b中识别的另一个人交谈。
53.为了实现所提出的方法，在对象检测设备100的训练阶段应当已经考虑了关系属性。在此基于训练数据集合来训练对象检测设备100。所述训练数据在此代表传感器数据（例如图像）的集合，其中每个数据都与对象注释列表关联。在此，对象注释通过属性1a...1n（例如，定界元素、对象类别、检测质量等）的集合描述出现在场景中的单个对象。将关系属性对应地添加到这些属性集合中。基于以待识别对象的场景表示的图像记录形式的配备有对象注释的这种训练数据，训练包括至少一个神经网络的对象检测设备，以识别对应的对象和分别注释的关系属性。
54.本发明有利地可应用于执行对象检测的产品，例如：-至少（部分）自动化车辆的“智能”相机。所述检测在此使得能够识别障碍物或更一般地解释场景和/或操控对应控制的致动器；-基于相机数据而避开障碍物的机器人（例如自主割草机）；-监视相机，利用所述监视相机例如可以估计特定区域中的人数；-一般的智能传感器，例如基于雷达数据或激光雷达数据的对象检测，所述对象检测在其他版本中例如使用由相机确定的属性。
55.所提出的方法可以特别有利地用于具有强烈重叠对象的场景，并且通过这种方式例如可以分辨人群中的各个人或在拥堵状况下分辨各个车辆。由此多个对象有利地不会错误地组合成唯一的检测。
56.由此可以有利地简化在对象检测下游的算法的工作，例如用于识别人的方法。在此，可以由对象检测器将各个人分离开，使得人识别自身实现了最佳结果。
57.图5示出了用于确定所提出的关系属性1a...1n的神经网络形式的装置。识别出，在对象检测的推理阶段将输入数据d输送给神经网络50，其中该神经网络例如执行根据图4的动作并且从输入数据d中确定关系属性1a...1n。
58.在此，关系属性1a...1n定义了对象检测的至少一个所确定的对象之间的关联或关系。
59.通过这种方式，使用至少一个神经网络、特别是卷积神经网络cnn来实现基于深度学习的对象检测，所述神经网络首先借助于卷积和非线性将输入数据变换为所谓的特征，以便基于这些特征利用专门布置的神经网络预测层（通常同样由卷积核组成，但有时也包括“完全连接的”神经元）尤其预测关系属性、对象类别、精确位置和必要时预测其他属性。
60.所提出的方法可以有利地例如与动作识别/预测、跟踪算法结合地应用于对象识别系统。
61.图6示出了所提出的方法的实施方式的原理流程图。
62.在步骤200中执行原始检测，其中确定至少两个对象。
63.在步骤210中，为所确定的至少两个对象确定至少一个关系属性，其中所述至少一个关系属性定义在步骤a)中确定的至少两个对象之间的关系。
64.在步骤220中，在考虑所述至少一个关系属性的条件下来确定待识别的对象。
65.所提出的方法优选地被构造为计算机程序，其具有用于在处理装置20a...20n上执行该方法的程序代码装置。所提出的方法可以有利地在硬件芯片上实现，其中借助于专门针对所提出方法的计算任务的芯片设计再现软件程序。
66.虽然以上基于具体的实施例对本发明进行了描述，但是本领域技术人员在不脱离本发明的核心的情况下也可以实现以上未公开或仅部分公开的实施方式。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：一种基于媒体平台网络的义务宣传辅导教育方法与流程

使用关系属性从输入数据中识别对象的方法与流程

相关文献

最热文献