一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

具有内容和位置敏感分类器的对象分类的制作方法

2021-11-20 02:40:00 来源:中国专利 TAG:


1.本发明涉及一种用于训练机器可学习模型的系统和计算机实现的方法,该机器可学习模型用于空间数据(诸如图像数据)中的对象分类。本发明进一步涉及一种用于使用机器学习模型对空间数据中的对象进行分类的系统和计算机实现的方法。本发明进一步涉及一种计算机可读介质,包括表示用于处理器系统执行所述计算机实现的方法中的一个或两者的指令的数据。


背景技术:

2.对象分类是诸如自主驾驶的各种技术应用领域中的关键使能器,其中对象分类可以用于检测和识别由集成到车辆中的一个或多个传感器获取的传感器数据中的对象。这样的分类也可以称为“识别”,因为分类涉及识别对象的类。例如,其他道路使用者(汽车、行人等)或者交通标志可以在相机传感器获取的图像数据中被识别。在一些情况下,对象分类的输出可以用于控制致动器、诸如涉及车辆转向和/或制动的致动器,例如以自主避免与其他道路使用者碰撞。对于对象分类存在各种其他用途,例如在机器人学中,它可以使得机器人识别其环境中的对象并相应地进行动作,但也可以用于使能字符识别、姿势识别、图像搜索等。
3.一般而言,对象可以在例如如由相机获取的图像数据中、但也可以在由其他类型的传感器获取的其他类型的空间数据中被分类。具体的示例是lidar数据中汽车和行人的分类。一般而言,空间数据可以是二维、三维或者甚至更高维的空间数据。
4.已知的是使用机器学习技术进行对象分类。这通常涉及利用大的训练数据集训练机器可学习模型、例如神经网络,所述训练数据类似于机器可学习模型要应用于的类型的传感器数据。所谓的深度神经网络(dnn)表示了图像分类1.‑
[4]中技术的当前状态。他们通过学习提取图像的区别特征来学习图像分类,所述区别特征对于给定手头训练数据的分类任务是高度优化的。然而,这些特征提取器是已知的,因为它们不能解开本身独立的因素,所述因素可以联合定义对象类。相反,他们经常通过仅关注不唯一定义对象类的个体特性而采取“捷径”。这可以例如导致经训练的dnn通过纹理而不通过形状来识别对象。另一个示例是,经训练的dnn可以仅关注诸如纹理、颜色、边的内容信息,而忽略诸如对象部分的绝对和/或相对位置的位置信息。
[0005]
这可能导致经训练的dnn对空间数据的实例生成高度自信但错误的预测,其中所谓的偏置因素(例如,前述的内容信息)不存在或者其中主要存在那些因素(例如,前述的位置信息),dnn已经有效地学习忽略那些因素(例如,前述的位置信息)。如果经训练的dnn被应用于位于训练数据分布之外——例如表示先前看不到的离群值——的空间数据的实例,则这特别可以发生。然而,在许多现实世界的应用中,此类离群值可能是不可避免的。
[0006]
已知的是极大地增加了训练数据的量,使得在训练期间遇到空间数据中对象的更多可能的实例,从而减少了在部署经训练的dnn之后遇到离群值的机会。然而,存在对训练数据中的此类增长的限制——既有实际的,又有内在的,因为在许多现实世界的应用中,将
仍然存在遇到离群值的可能性。参考文献[1]“efficientnet: rethinking model scaling for convolutional neural networks”,mingxing tan等人,[2]“identity mappings in deep residual networks”,kaiming he等人,[3]
ꢀ“
billion

scale semi

supervised learning for image classification”,i. zeki yalniz等人,[4]“drop an octave: reducing spatial redundancy in convolutional neural networks with octave convolution”,yunpeng chen等人,。


技术实现要素:

[0007]
将合期望的是能够训练机器可学习模型,并且使用机器学习的模型来进行对空间数据中的对象的分类,其针对离群值更稳健,并且其可以在没有过多量训练数据的情况下被训练。
[0008]
根据本发明的第一方面,如权利要求1和11限定的,提供了一种计算机实现的方法和对应的系统,用于训练用于空间数据中对象分类的机器可学习模型。根据本发明的另外方面,如权利要求8和12限定的,提供了一种计算机实现的方法和对应的系统,用于使用机器学习模型来进行对空间数据中的对象的分类。根据本发明的另外方面,如权利要求10限定的,提供了一种计算机可读介质,包括用于使得处理器系统执行权利要求1至9中任一项的方法的指令。
[0009]
上述措施基于如下认识:在空间数据中可能存在两个基本因素定义一个对象类,即组成对象的部分的存在及其空间布置。组成对象的部分的存在可以被理解为“内容”因素,并且在空间数据本身中通过某些纹理、颜色、边缘等的存在来表示。所述部分的空间布置可以被称为“位置”因素,并且可以在空间数据中由具有特定相对空间布置的对象部分来表示,并且在一些情况下,所述部分具有特定的绝对空间位置。发明人已经认识到,如果机器可学习模型仅关注于两个因素中的一个,例如,仅关注于内容或者仅关注于位置,或者如果在机器学习模型的决策中一个因素极大地超过另一个因素,则可能是有问题的。也就是说,这可能使机器学习模型容易受到离群值影响,其中两个因素中仅一个因素存在于空间数据中,或者其中两个因素中的一个因素具有与训练数据中的对象相匹配的特性(“内围值”),而另一个因素具有完全不同的特性(另一个“内围值”类或“离群值”),如也将在其他地方参考图3进行说明。
[0010]
这可能导致机器学习模型提供高度自信但错误的对象分类,其在现实生活的应用中可能是高度有问题的。例如,自主驾驶系统可以识别三角形建筑特征中的让路标志,其可能引起车辆无意地减速或突然制动。
[0011]
以上措施通过提供两个单独的分类部分来解决这些问题:其中一个部分关注于基于内容信息对对象进行分类,并且其中另一个部分关注于基于位置信息对对象进行分类。
为了该目的,可以在机器可学习模型中提供两个单独的分类部分,然后可以针对内容信息或针对位置信息对其进行具体地训练。
[0012]
更具体地,机器可学习模型可以包括卷积部分,该卷积部分可以从空间数据的实例生成一个或多个特征映射。此类卷积部分本身是已知的,并且可以包括一个或多个卷积层,但是也可以包括其他类型的层、诸如汇集层。一个或多个特征映射可以表示卷积部分的“激活”,该卷积部分可以像从其生成它们的空间数据一样,本身包含内容信息和位置信息。例如,特征映射可以具有空间维度,该空间维度可以表示空间数据的空间维度,而在特定位置的特征映射中的激活可以表示在特定位置处特征(例如,特定内容)的出现。
[0013]
内容分类部分可以在位置信息从其被移除的一个或多个特征映射的版本上训练。该版本也可以被称为内容信息特定的特征映射,并且可以省略或者至少在重要性方面极大地减少任何位置信息。内容分类部分因此可以被训练为对内容信息敏感并且对位置信息不变,并且在其他地方也可以被称为“内容敏感分类器”(csc)。同样,位置分类部分可以在从其移除了内容信息的一个或多个特征映射的版本上训练。该版本也可以被称为位置信息特定的特征映射,并且可以省略或者至少在重要性方面极大地减少任何内容信息。位置分类部分因此可以被训练为对位置信息敏感并且对内容信息不变,并且也可以被称为“位置敏感分类器”(lsc)。基于两个因素的分类的这样的分离可以避免总体分类器无意地仅偏向于两个因素中的一个并且提供高度自信的预测,例如从而指示一个对象类的存在,即使另一个因素缺失或指示不同的对象类。
[0014]
然而,基于这两个因素的分类分离可能不完全降低机器学习模型对离群值的敏感性。因此,作为机器可学习模型的一部分,可以提供离群检测部分,其可以在训练期间被训练以检测离群值。然而,为了避免必须在训练数据中提供明确的离群值并且从而必须增加训练数据的大小,离群检测部分可以在内围示例上被训练,而机器可学习模型的输入数据中实际离群值的存在可以在训练期间被模拟。为了该目的,一个或多个先前生成的特征映射——例如,如由卷积部分生成的,或者如针对内容分类部分或位置分类部分生成的——可以被修改以便模拟离群值的存在。因此,可能没有必要修改空间数据本身,在这种情况下可能难以创建真实的离群值,而是此类离群值可能在训练期间在特征映射中被生成;也就是说,与修改实际输入数据相比,通过特征操纵在机器可学习模型本身中生成空间离群值可能更容易。
[0015]
实际上,机器可学习模型可以提供内容敏感分类器、位置敏感分类器和至少一个离群检测器。这三个部分的组合可以提供空间数据中相对于离群值的更稳健的对象分类,而不必增加训练数据的大小。也就是说,对象分类现在可以相对于内容和位置分离,这可以允许对对象分类做出更明智的决策。也就是说,如果内容分类部分指示类a中对象的存在,而位置分类部分指示类b中对象的存在,则可以判定实际对象相对于训练数据可能表示离群值,并且因此总体分类可能不可靠。先前的图像分类可以简单地在分类器无意地偏向于内容信息的情况下指示类a的存在,或者在分类器偏向于位置信息的情况下指示类b的存在。基于内容和位置的单独分类因此可以有助于分类的可解释性和可解译性,随着机器可学习模型生长得更复杂并被用在更具安全意识的应用中,这可能变得越来越重要。
[0016]
更一般地说,两个分类器可以联合在空间数据中的对象是分布内还是边缘分布外之间进行区分。也就是说,在前一种情况下,两个分类器的分类输出可能一致,而在后一种
情况下,两个分类器的分类输出可能不一致。
[0017]
为了能够更好地检测和区分离群值,例如为了检测和区分更多类型的离群值和/或以更大的确定性来检测离群值,离群检测器可以明确地指示离群值是否存在。照此,只有当两个分类部分都将输入实例分类到同一类中,同时离群检测器指示输入实例不表示离群值时,才可以做出关于对象类中的分类的决策。因此,可以取决于在个体分类器和至少一个离群检测器之间的一致来进行对象的分类。如果未达成这样的一致,则可能无法对潜在对象进行分类,这在一些情况下可能涉及潜在对象被简单忽略,或者该对象可能被分类为未知对象,或者可能采取其他类型的动作。这可以为图像分类提供机器学习模型,该机器学习模型可以允许可解释和可解译的决策。分类器和(一个或多个)离群检测器的相应输出可以一起提供此类解释,如也将参考本说明书的具体实施方式中的各种表格进行阐明。
[0018]
因此,以上措施可以使分类网络能够学习对内容和位置因素特别敏感的特征表示,从而使得网络能够检测分布外的样本并提供其性质的解释。因此,与分布内样本共享共同内容和位置因素的离群值仍然可以被标识,即使所述因素是从不同的类混合而来的。至关重要的是,调查网络可能仅在分布内样本上进行训练,但却为针对先前看不到的离群值的可解译决策提供了明确的线索。
[0019]
可选地,机器可学习模型包括位置和内容离群检测部分,并且该方法包括通过修改包含在一个或多个先前生成的特征映射中并且与位置信息和内容信息二者相关联的特征信息来为位置和内容离群检测部分生成伪离群特征映射。作为离群检测器中的一个,或者作为唯一的离群检测器,机器可学习模型可以包括位置和内容离群检测部分,其在下文中也可以被称为联合边缘分布的离群检测(“odj”),指的是该离群检测器被训练来检测在训练数据的位置边缘分布和训练数据的内容边缘分布两者中都是内围值的样本,但是其在边缘分布之间的关联是不准确的,因为在空间和内容特征之间的关联是不正确的。换句话说,该离群检测器可以检测作为相对于训练数据中存在的类的位置和内容的联合边缘分布的离群值的样本。为了该目的,可以通过修改包含位置信息和内容信息的一个或多个先前生成的特征映射的特征信息来生成伪离群特征映射。例如,由卷积部分生成的一个或多个特征映射可以被修改以模拟机器可学习模型的输入数据中实际离群值的存在。轮廓检测器可以在(一个或多个)因此生成的伪离群特征映射上被训练,以将由(一个或多个)生成的伪离群特征映射表示的对象分类为离群值。
[0020]
可选地,机器可学习模型包括位置离群检测部分,并且该方法包括通过修改包含在一个或多个先前生成的特征映射中并且与位置信息相关联的特征信息来为位置离群检测部分生成伪离群特征映射。作为离群检测器中的一个,或者作为唯一的离群检测器,机器可学习模型可以包括位置离群检测部分,其在下文中也可以被称为位置边缘的离群检测(“odl”),指的是被训练来检测作为在训练数据的位置边缘分布中的离群值的样本的离群检测器。为了该目的,可以通过修改包含位置信息的一个或多个先前生成的特征映射的特征信息来生成伪离群特征映射。在一些示例中,可以修改主要包含或仅包含位置信息的(一个或多个)特征映射。例如,位置敏感分类器的位置信息特定特征映射可以被修改以模拟机器可学习模型的输入数据中实际离群值的存在。
[0021]
可选地,由位置分类部分通过向位置分类部分提供伪离群特征映射作为待学习的单独离群对象类的一部分来实现位置离群检测部分。代替将边缘位置的离群检测器实现为
单独的检测器,例如作为深度神经网络的单独头,该检测器也可以由位置敏感分类器本身来实现,即通过让位置敏感分类器学习从伪离群特征映射对离群值进行分类并将此类离群值归类为单独的类、例如用于机器可学习模型的类n 1,而被配置为对n个对象类进行分类。
[0022]
可选地,机器可学习模型包括内容离群检测部分,并且该方法包括通过修改包含在一个或多个先前生成的特征映射中并且与内容信息相关联的特征信息来为内容离群检测部分生成伪离群特征映射。作为离群检测器中的一个,或者作为唯一的离群检测器,机器可学习模型可以包括内容离群检测部分,其在下文中也可以被称为内容边缘的离群检测(“odc”),指的是被训练来检测作为在训练数据的内容边缘分布中的离群值的样本的离群检测器。为了该目的,可以通过修改包含内容信息的一个或多个先前生成的特征映射的特征信息来生成伪离群特征映射。在一些示例中,可以修改来自卷积部分的一个或多个特征映射,在此之后可以从(一个或多个)修改的特征映射移除位置信息,例如,通过空间聚集来获得伪离群特征映射,该伪离群特征映射省略了位置信息并且主要或仅包含内容信息。
[0023]
可选地,由卷积部分生成的一个或多个特征映射中的每一个都各自具有与位置信息相关联的至少两个空间维度,并且其中在每个空间坐标处的一个或多个特征映射的特征值一起形成表示在相应空间坐标处的内容信息的特征向量,其中:
‑ꢀ
从一个或多个特征映射中的一个移除位置信息包括在空间维度之上聚集一个或多个特征映射以形成包括一个特征向量的内容信息特定的特征映射;
‑ꢀ
从一个或多个特征映射中的一个移除内容信息包括在一个或多个特征映射之上聚集每个空间坐标的特征值,以形成具有至少两个空间维度和一个特征值通道的位置信息特定的特征映射。
[0024]
以上表示生成内容信息特定的特征映射和位置信息特定的特征映射的有利方式。在特定示例中,如果卷积部分生成大小为hxwxc的输出激活,其中h和w指代高度和宽度,并且从而指代空间维度,并且c指代多个通道,每个通道表示单独的特征(并且从而输出激活对应于每个hxwx1的c特征映射),则内容特定的特征映射可以通过聚集生成为1x1xc特征映射,而位置特定的特征映射可以通过聚集生成为hxwx1特征映射。
[0025]
可选地,修改一个或多个先前生成的特征映射包括以下各项中的至少一个:
‑ꢀ
从所述特征映射移除特征信息;
‑ꢀ
伪随机地混洗所述特征映射中的特征信息的位置;
‑ꢀ
在不同对象类的特征映射之间混合特征信息;
‑ꢀ
交换在所述特征映射中不同位置的特征信息。
[0026]
以上表示从为机器可学习模型的分类器生成的特征映射生成伪离群特征映射的有利方式。
[0027]
可选地,机器可学习模型是深度神经网络,其中卷积部分是深度神经网络的卷积部分,并且其中内容分类部分和位置分类部分是深度神经网络的相应分类头。在一些实施例中,相应分类器可以被实现为深度神经网络的不同头。在一些实施例中,至少一些离群检测器也可以被实现为深度神经网络的相应头。在其他实施例中,个体分类器和/或离群检测器可以被实现为单独的神经网络,该单独的神经网络可以在训练数据上被联合训练。在这方面,注意到使用内容敏感分类器、位置敏感分类器和至少一个离群检测器的有利效果也可以通过除深度神经网络之外的其他机器可学习模型来获得。例如,代替使用深度神经网
络进行分类和/或离群检测,机器可学习模型可以基于贝叶斯网络、隐马尔可夫模型等。
[0028]
可选地,被配置为对空间数据中的对象进行分类的系统的输入接口是到传感器的传感器接口,其中传感器被配置为获取空间数据。该系统因此可以例如实时或伪实时对传感器数据中的对象进行分类。例如,其中对象将被分类的传感器数据可以从图像传感器、激光雷达传感器等或者从此类传感器的组合获得。
[0029]
可选地,该系统是被配置为基于对象的所述分类来调整控制参数的控制系统。例如,控制参数可以链接到致动器,并且改变控制参数可以改变致动器的操作。因此,控制系统可以基于分类结果直接或间接控制致动器。例如,在(半)自主车辆中,控制系统可以控制制动和/或转向以避开检测到的行人。
[0030]
本领域技术人员将领会,可以用被认为有用的任何方式来组合本发明的以上提及的实施例、实现和/或可选方面中的两个或更多。
[0031]
可以由本领域技术人员在本描述的基础上实行任何系统、任何计算机实现的方法或任何计算机可读介质的修改和变型,其对应于所述实体中的另一个实体的所描述的修改和变型。
附图说明
[0032]
本发明的这些和其它方面将从实施例和附图中清楚,并且进一步参考实施例并且参考附图来被阐明,所述实施例在以下描述中作为示例被描述,在所述附图中图1示出了用于训练机器可学习模型以进行对空间数据中对象的分类的系统的示意表示;图2示出了用于训练机器可学习模型以进行对空间数据中对象的分类的方法的示意表示;图3图示了空间数据中的内容信息和位置信息与空间数据中的对象分类之间的关系;图4图示了在空间数据中对象分类中位置(x轴)和内容(y轴)因素的联合空间,其中在相应的轴处指示两个因素的边缘;图5示出了示例性分类框架的示意表示,其中输入实例被映射到两个因素敏感分类分支和三个离群分支上,并且其中在选择分支中移除了因素的信息,以在该分支中生成关于该因素的不变性;图6示出了在图5示例的三个离群分支中生成的伪离群值的示例,其中标记a、b、c、d指示中间网络状态中对关于元素的信息进行编码的位置,并且其中伪离群值是通过以四种不同方式扰动位置而获得的;图7示出了用于使用机器学习模型对空间数据中的对象进行分类的系统的示意表示;图8示出了用于使用机器学习模型对空间数据中的对象进行分类的方法的示意表示;图9示出了作为(半)自主车辆一部分的系统;和图10示出了包括数据的计算机可读介质。
[0033]
应当注意到,各图纯粹是图解性的并且不按比例绘制。在各图中,与已经描述的元
素相对应的元素可以具有相同的参考标号。
[0034]
参考标号列表提供以下参考标号列表是为了促进对附图的解译,并且不应被解释为限制权利要求。20
ꢀꢀꢀꢀꢀꢀ
传感器22
ꢀꢀꢀꢀꢀꢀ
相机40
ꢀꢀꢀꢀꢀꢀ
致动器42
ꢀꢀꢀꢀꢀꢀ
电动机60
ꢀꢀꢀꢀꢀꢀ
物理环境80
ꢀꢀꢀꢀꢀꢀ
(半)自主车辆100
ꢀꢀꢀꢀꢀ
用于训练机器可学习模型的系统160
ꢀꢀꢀꢀꢀ
处理器子系统180
ꢀꢀꢀꢀꢀ
数据存储接口190
ꢀꢀꢀꢀꢀ
数据存储装置192
ꢀꢀꢀꢀꢀ
训练数据194
ꢀꢀꢀꢀꢀ
机器可学习模型的数据表示196
ꢀꢀꢀꢀꢀ
机器学习模型的数据表示200
ꢀꢀꢀꢀꢀ
训练机器可学习模型的方法210
ꢀꢀꢀꢀꢀ
访问用于训练的训练数据220
ꢀꢀꢀꢀꢀ
提供机器可学习模型225
ꢀꢀꢀꢀꢀ
提供离群检测部分230
ꢀꢀꢀꢀꢀ
训练机器可学习模型240
ꢀꢀꢀꢀꢀ
生成内容信息特定的特征映射245
ꢀꢀꢀꢀꢀ
训练内容分类部分250
ꢀꢀꢀꢀꢀ
生成位置信息特定的特征映射255
ꢀꢀꢀꢀꢀ
训练位置分类部分260
ꢀꢀꢀꢀꢀ
生成伪离群特征映射265
ꢀꢀꢀꢀꢀ
训练离群检测部分212
ꢀꢀꢀꢀꢀ
访问用于推断的输入数据220
ꢀꢀꢀꢀꢀ
训练机器可学习模型222
ꢀꢀꢀꢀꢀ
使用用于推断的机器学习模型230
ꢀꢀꢀꢀꢀ
提供状态存储器240
ꢀꢀꢀꢀꢀ
提取先前的内部状态信息250
ꢀꢀꢀꢀꢀ
用当前内部状态更新状态存储器300
ꢀꢀꢀꢀꢀ
可按内容和位置信息分类的对象(人员)310
ꢀꢀꢀꢀꢀ
违反内容和位置信息320
ꢀꢀꢀꢀꢀ
以人员的面部布置的水果330
ꢀꢀꢀꢀꢀ
位置被置换的人脸的元素340
ꢀꢀꢀꢀꢀ
随机混洗的面部元素
400
ꢀꢀꢀꢀꢀ
位置(空间布置)边缘410
ꢀꢀꢀꢀꢀ
内容边缘420
ꢀꢀꢀꢀꢀ
分布内样本430
ꢀꢀꢀꢀꢀ
联合分布外样本440
ꢀꢀꢀꢀꢀ
边缘分布外样本450
ꢀꢀꢀꢀꢀ
完全分布外样本500
ꢀꢀꢀꢀꢀ
输入实例510
ꢀꢀꢀꢀꢀ
位置敏感分类器512
ꢀꢀꢀꢀꢀ
特征聚集514
ꢀꢀꢀꢀꢀ
hxwx1特征映射516
ꢀꢀꢀꢀꢀ
n 1类分类520
ꢀꢀꢀꢀꢀ
内容敏感分类器522
ꢀꢀꢀꢀꢀ
空间聚集524
ꢀꢀꢀꢀꢀ
1x1xc特征映射526
ꢀꢀꢀꢀꢀ
n类分类528
ꢀꢀꢀꢀꢀ
内容边缘分布的离群检测530
ꢀꢀꢀꢀꢀ
位置和内容离群检测部分532
ꢀꢀꢀꢀꢀ
平坦化534
ꢀꢀꢀꢀꢀ
hxwxc特征映射536
ꢀꢀꢀꢀꢀ
联合边缘分布的离群检测540
ꢀꢀꢀꢀꢀ
中间特征映射600
ꢀꢀꢀꢀꢀ
内围值的中间特征映射610
ꢀꢀꢀꢀꢀ
类a620
ꢀꢀꢀꢀꢀ
类b650
ꢀꢀꢀꢀꢀ
伪离群值的中间特征映射660
ꢀꢀꢀꢀꢀ
通过移除信息生成的特征映射670
ꢀꢀꢀꢀꢀ
通过随机位置混洗生成的特征映射680
ꢀꢀꢀꢀꢀ
通过类之间内容混合生成的特征映射690
ꢀꢀꢀꢀꢀ
通过位置交换生成的特征映射700
ꢀꢀꢀꢀꢀ
用于使用机器学习模型进行控制或监视的系统720
ꢀꢀꢀꢀꢀ
传感器数据接口722
ꢀꢀꢀꢀꢀ
传感器数据740
ꢀꢀꢀꢀꢀ
致动器接口742
ꢀꢀꢀꢀꢀ
控制数据760
ꢀꢀꢀꢀꢀ
处理器子系统780
ꢀꢀꢀꢀꢀ
数据存储接口790
ꢀꢀꢀꢀꢀ
数据存储装置800
ꢀꢀꢀꢀꢀ
对空间数据中的对象进行分类的方法810
ꢀꢀꢀꢀꢀ
访问机器学习模型
820
ꢀꢀꢀꢀꢀ
访问输入数据830
ꢀꢀꢀꢀꢀ
生成(一个或多个)特征映射840
ꢀꢀꢀꢀꢀ
生成内容信息特定的特征映射850
ꢀꢀꢀꢀꢀ
生成位置信息特定的特征映射860
ꢀꢀꢀꢀꢀ
生成基于内容的对象分类结果870
ꢀꢀꢀꢀꢀ
生成基于位置的对象分类结果880
ꢀꢀꢀꢀꢀ
生成离群检测结果890
ꢀꢀꢀꢀꢀ
对空间数据中的对象进行分类900
ꢀꢀꢀꢀꢀ
计算机可读介质910
ꢀꢀꢀꢀꢀ
非暂时性数据。
具体实施方式
[0035]
下面参考图1和图2提供用于训练机器可学习模型以对空间数据中的对象进行分类的系统和方法的示意概览,并且参考图7和图9提供用于使用所得的机器学习模型对空间数据中的对象进行分类的系统和方法的示意概览。机器可学习/学习模型及其训练和使用将参考图3到图6进一步解释,而图8涉及使用机器学习模型来控制或监视物理系统,该物理系统在该示例中是(半)自主车辆。图10涉及包括计算机程序的计算机可读介质。
[0036]
图1示出了用于训练机器可学习模型以进行对空间数据中对象的分类的系统100。给定这样的空间数据,例如,由人通过将包含在空间数据中的内容信息和位置信息组合,对象可以被可分类成不同的对象类。系统100可以包括输入接口,该输入接口用于访问用于机器可学习模型的训练数据192。训练数据192可以包括空间数据的实例,其中空间数据的实例包括属于不同对象类的对象。例如,空间数据可以是图像数据,并且每个实例可以是图像,该图像可以包括一个或多个对象。在特定的示例中,图像可以是道路图像,并且包含在图像中的对象可以是汽车、行人、骑自行车的人、道路标志、障碍物、道路本身等。
[0037]
如图1中所示,输入接口可以由数据存储接口180构成,数据存储接口180可以从数据存储装置190访问训练数据192。例如,数据存储接口180可以是:存储器接口或永久存储接口,例如硬盘或ssd接口;但也可以是个域网、局域网或广域网接口,诸如蓝牙、紫蜂或wi

fi接口或者以太网或光纤接口。数据存储装置190可以是系统100的内部数据存储装置——诸如硬盘驱动器或ssd,但也可以是外部数据存储装置——例如可通过网络访问的数据存储装置。
[0038]
在一些实施例中,数据存储装置190可以进一步包括机器可学习模型的未训练版本的数据表示194,其可以由系统100从数据存储装置190访问。然而,将领会,机器可学习模型的训练数据192和数据表示194也可以各自从不同的数据存储装置例如经由数据存储接口180的不同子系统访问。每个子系统可以具有如以上针对数据存储接口180描述的类型。在其他实施例中,机器可学习模型的未训练版本的数据表示194可以由系统100例如基于用于机器可学习模型的设计和/或架构参数在内部生成,并且因此可以不明确地存储在数据存储装置190中。
[0039]
系统100可以进一步包括处理器子系统160,该处理器子系统160可以被配置为:在系统100的操作期间并且作为机器可学习模型的训练的一部分,通过从一个或多个特征映
射移除位置信息并且在内容信息特定的特征映射上训练内容分类部分来生成内容信息特定的特征映射;通过从所述一个或多个特征映射移除内容信息并在位置信息特定的特征映射上训练位置分类部分来生成位置信息特定的特征映射;作为机器可学习模型的一部分,提供至少一个离群检测部分,用于检测机器可学习模型的输入数据中不配合训练数据分布的离群值;以及作为机器可学习模型的训练的一部分,通过修改为空间数据的实例生成的一个或多个先前生成的特征映射来生成伪离群特征映射,以模拟在机器可学习模型的输入数据中实际离群值的存在,并且在伪离群特征映射上训练离群检测部分。将领会,系统100的操作的这些方面将参考图3

6进一步解释。
[0040]
系统100可以进一步包括输出接口,该输出接口用于输出经训练的机器可学习模型的数据表示196,该模型也被称为机器“经学习的”模型,并且其数据也被称为经训练的模型数据196。例如,也如图中图示的,输出接口可以由数据存储接口180构成,其中在这些实施例中,所述接口是输入/输出(“io”)接口,经由所述接口,经训练的模型数据196可以存储在数据存储装置190中。例如,定义“未训练的”模型的数据表示194可以在训练期间或之后至少部分地被训练模型的数据表示196替换,因为模型的参数——诸如权重、超参数和模型的其他类型的参数——可以适于反映训练数据192上的训练。在其他实施例中,也如图1中所示,数据表示196可以与定义“未训练的”模型的数据表示194分离存储。在一些实施例中,输出接口可以与数据存储接口180分离,但是一般而言可以具有如以上针对数据存储接口180描述的类型。
[0041]
图2示出了用于训练机器可学习模型以进行对空间数据中对象的分类的计算机实现的方法200。方法200可以对应于图1的系统100的操作,但是不需要对应于图1的系统100的操作,因为它也可以对应于另一种类型的系统、装置或设备的操作,或者因为它可以对应于计算机程序。方法200被示为在题为“访问用于训练的训练数据”的步骤中包括访问210训练数据,以及在题为“提供机器可学习模型”的步骤中包括提供220机器可学习模型。方法200进一步被示为在题为“训练机器可学习模型”的训练230机器可学习模型的步骤中、在题为“生成内容信息特定的特征映射”的子步骤中包括生成240内容信息特定的特征映射,在题为“训练内容分类部分”的子步骤中包括在内容信息特定的特征映射上训练245内容分类部分,在题为“生成位置信息特定的特征映射”的子步骤中包括生成250位置信息特定的特征映射,以及在题为“训练位置分类部分”的子步骤中包括在位置信息特定的特征映射上训练255位置分类部分。方法200进一步被示为在题为“提供离群检测部分”的子步骤(该子步骤是提供220机器可学习模型的子步骤)中包括:作为机器可学习模型的一部分提供225至少一个离群检测部分,用于检测机器可学习模型的输入数据中不配合训练数据分布的离群值。方法200进一步被示为在题为“生成伪离群特征映射”的子步骤(这是训练230的子步骤)中包括:通过修改为空间数据的实例生成的一个或多个先前生成的特征映射来生成260伪离群特征映射,以模拟机器可学习模型的输入数据中实际离群值的存在;以及在题为“训练离群检测部分”的子步骤(作为训练230的子步骤)中包括在伪离群特征映射上训练265离群检测部分。
[0042]
下面利用图像示例描述空间数据中对象的分类。然而,将领会,下面描述的措施也可以应用于可能不直接被认为是图像的其他类型的空间数据。
[0043]
图3图示了空间数据中的内容信息和位置信息与空间数据中的对象分类之间的关
系,并且还用于图示例如深度神经网络的深度分类器当对对象进行分类时的缺点。也就是说,广义地说,可以基于如下两个基本因素在空间数据中对对象类可分类:内容,例如,组成对象的元素/部分的存在;和位置,例如,这些部分的空间放置和布置。图3以包含人脸的图像300的形式示出了现实生活的示例。人类观察者通常基于内容信息和位置信息将该人脸可分类为人脸,所述内容信息例如是表示诸如眼睛、鼻子、头发等特征的纹理和边,所述位置信息例如是眼睛、鼻子、头发等的空间布置。
[0044]
标准分类网络可以偏向元素的空间位置,并且因此也可以将第二图像320分类,从而将放置在第一图像300的面部布置中的水果示出为人脸。替代地,标准分类网络可能偏向元素本身、例如内容,并因此将具有混洗的面部元素的第三图像330分类为人脸。然而,对于人类观察者而言,这些图像不存在挑战。也就是说,虽然人类将在一定程度上使所有三个图像都识别为人脸,但是他们将识别出仅第一图像300示出真实的人脸,并且其他图像仅示出特定的面部属性。
[0045]
如在本说明书中描述的机器可学习/学习模型表示了分类框架,该分类框架可以能够模拟人类响应。也就是说,分类框架一方面可以识别真实的人脸,并且另一方面也可以检测离群人脸,并且例如通过包含真实的面部元素但在错误的位置中而提供其性质的解释。在执行分类时检测和解译离群值的该能力在许多应用中可能具有极大重要性,并且例如可以用于主动标记以改进网络泛化或用于制造工业中的质量控制。特别地,所描述的分类框架可以学习对内容和位置因素特别敏感的特征表示。除了标准分类之外,这可以在内容和位置方面提供关于图像模糊性的附加解释。
[0046]
图4图示了空间数据中对象分类中位置(或空间布置,x轴)和内容(y轴)因素的联合空间,因为位置和内容联合定义了两个对象类,即人脸和水果。该2d绘图中的每个点类似于这两个因素的联合分布的可能观察样本——在这种情况下是图像,这两个因素例如是放置在特定空间位置(x轴)的特定内容(y轴)。
[0047]
在该示例中,两个类(人脸和水果)要求内容和位置各自落入选择的边缘分布内,其中然后选择的边缘分布联合定义对象类。边缘分布在相应的轴处示意性地指示为相应的图,其中图400依据位置(空间布置)定义了两个边缘分布——即类人脸布置和垂直堆叠布置,并且其中图410依据内容定义了两个边缘分布——即人脸特征(例如,鼻子、耳朵、眼睛)和水果特征(例如,香蕉、苹果、樱桃)。贯穿本说明书,这两个因素都落入相应的边缘分布内并且然后联合定义对象类的样本将被称为“分布内”样本,参见参考标号420。这些内围值属于两个可能的对象类:其中内容信息落入“人脸特征”边缘分布内并且其中位置信息落入“类人脸布置”边缘分布内的人脸,以及其中内容信息落入“水果特征”边缘分布内并且其中位置信息落入“垂直堆叠布置”边缘分布内的水果。所有其他样本可以被称为“分布外样本”或“离群值”,参见参考标号430

450。作为一个组,分布外样本可以进一步分隔成三个不同的部分:1、这两个因素都在它们的边缘分布内但它们的关联是错误的联合分布外样本430,例如具有一个类的内容但具有另一个类的位置的样本(图4中用虚线边界的区域)。图3的第二图像320是其示例,其中水果被放置在面部布置中。2、一个因素在其边缘分布外并且另一个因素处于其边缘分布内的边缘分布外样本440(图4中的条纹区域)。图3中的第四图像340是其示例,其具有随机混洗的面部元素。
3、所有因素都在它们的边缘分布外的完全分布外样本450(图4中的虚线区域)。
[0048]
一般而言,分布外空间的结构可能更复杂,例如除了内容和位置之外,还具有更多因素,但是为了简单起见,考虑了两个因素的情况,这两个因素导致上述三种类型的离群值。
[0049]
如也将参考图5进行描述,为了确定给定样本落入这些分布外类型中的哪一种,可以提供两个单独的分类器:即一个对图像中存在的内容敏感并且对内容的位置/空间布置不敏感(不变),以及另一个对位置/空间布置敏感并且对图像中的内容不敏感(不变)。这可以通过有目的地移除或屏蔽相应分类器应该对其不变的信息(内容或位置)来实现。因此,分类器可以联合在分布内和边缘分布外的情况之间进行区分。也就是说,在前一种情况下,这两个分类器的分类输出可能一致,而在后一种情况下,这两个分类器的分类输出可能不一致。照此,虽然位置敏感和内容不变分类器可能对图3中的第二图像320进行错误分类为人脸,内容敏感和位置不变分类器可能将第二图像320错误分类为水果对象(其是错误分类,因为“水果”类可以被定义为放置成垂直堆叠布置的水果,也参见图4)。因为这两个分类器可能不一致,所以第二图像320可以被这两个分类器的分类结果标识为边缘分布外离群值。
[0050]
然而,这两个分类器可能无法区分其他两种分布外类型,即联合分布外和完全分布外样本。为了还区分联合分布外的情况,可以在分类框架中提供单独的离群检测器。为了训练该离群检测器,可以通过混合来自不同样本的信息在特征空间中生成硬阴性示例。该“联合”离群检测器现在可以检测内容和位置信息二者都是对于一个类的有效因素但是它们被错误地关联的样本。例如,图3中的第三图像330中的人脸具有人脸的所有元素,但其位置被置换了。
[0051]
上述分类器——也可以称为“边缘敏感”分类器——即使在完全分布外的情况下也可以提供高置信度的分类。为了解决此,可以为每个分类器添加另外的离群检测器。为了预测离群值,每个离群检测器可以以类似于相应分类器的方式训练,即通过从用作相应分类器的输入的内部表示中故意地移除或掩蔽某些信息,并通过修改内部表示来模拟机器可学习模型的输入中离群值的存在。离群检测器的输出可以用于在边缘敏感分类器的分类结果中在内围值和对应的边缘外离群值之间进行区分。值得注意的是,结合上述分类框架的机器可学习模型可以仅使用分布内样本来训练。
[0052]
在一些示例中,机器可学习模型因此可以包括至少两个分类器和三个离群检测器,它们一起提供关于图像的内容和位置因素的附加信息。更具体地,分类器和离群检测器中每一个的输出可以用于在不同类型的离群值之间进行区分,并为不明确的情况提供解释。此类输出例如可以被存记或输出给操作员,或者可以用于做出后续决策。下面简要总结了三个不同的离群检测器及其当被应用于不同类型的输入实例时的输出。可以看出,每种类型的输入实例都可以通过相应离群检测器的输出组合来唯一标识:
输入实例内容边缘的离群检测位置边缘离群检测联合边缘离群检测内围值没有离群值没有离群值没有离群值内容边缘中的离群值离群值没有离群值离群值位置边缘中的离群值没有离群值离群值离群值联合边缘中的离群值没有离群值没有离群值离群值
两个边缘中的离群值离群值离群值离群值
[0053]
图5示出了分类框架的示例的示意表示,其中输入实例500被映射到两个因素敏感分类器和三个离群检测器上。相应的分类器和离群值可以被认为表示框架的“分支”,其在一些实施例中可以由深度神经网络的不同头来实现。两个不同的分类器或分类分支510、520可以基于两个不同的边缘(例如,位置和内容)来提供它们的输出,这添加了对决策的可解译性。为了进一步增强可解译性,内容敏感分类器510和位置敏感分类器520二者都可以各自被提供有相应的离群检测器,以预测与相应的边缘分布不对准的离群值。位置敏感分类器510(lsc)的离群检测器可以检测相对于位置边缘的离群值,并且从而检测不配合已知空间位置分布的那些样本。类似地,内容敏感分类器520(csc)的离群检测器可以将未知或不完整的内容归类为离群值,而不管其空间位置如何。此外,可能合期望的是检测联合边缘分布上的离群值,并且从而检测在两个边缘中都是内围值但在边缘之间的关联不准确的那些样本。为了检测此类离群值,可以提供第三离群检测器,其也称为“联合边缘分布上的离群检测器”530(odj)。总体而言,具有三个离群检测器连同两个分类器的框架使得检测和提供离群值属于边缘分布外、联合分布外还是完全分布外的可解译性成为可能。在图5中描绘该框架,其中下面描述相应的部件。
[0054]
内容敏感分类器(csc,520):该分类器的决策可以基于对象元素/部分的内容,而独立于它们的空间位置。让csc分支520的输入特征映射f
输入 540的维度是h
×
w
×
c,其中h、w、c是特征映射的高度、宽度和通道。注意,空间分辨率h
×
w可以捕获空间信息,并且通道c可以编码特征表示,并且这样的h
×
w
×
c的输入特征映射也可以被认为表示h
×
w
×
1特征映射的c元组。当从通道移除空间信息时,内容敏感分类器可以被引导以响应在不同通道中被编码的特征,而不管它们的空间位置如何。为了该目的,空间信息h
×
w可以跨通道c被聚集522,以便移除空间信息并且允许分类器基于在具有1
×1×
c大小的空间聚集通道f
c 524中被编码的特征表示来做出其决策,其在其他地方也可以被称为内容信息特定的特征映射。f
输入
在通道k处的空间聚集可以公式化为:。
[0055]
内容边缘的离群检测(odc):给定csc 520可以将输入样本分类到对象类中的一个中,可能合期望的是提供离群检测器来标识内容位于边缘分布之外的离群值。当仅使用来自训练数据的内围样本时,可能期望的是检测在训练期间未被看到的离群值。下面解释了可以如何生成潜在的离群值,以及可以如何以自监督的方式训练离群检测器。也就是说,可以通过在空间聚集522之前扩充中间特征映射f
输入 540来生成离群值的硬阴性示例。这里,其中全部内容存在的样本可以被认为是内围值,而具有缺失、不完整和/或不匹配内容的样本可以被认为是离群值。通过移除一部分信息或将来自一个类的样本内容与来自另一个类的样本内容混合,可以在特征映射f
输入
中生成此类离群值。例如,可以通过用来自不同类f
输入
(不是类1)的特征映射的相同补片大小替换来自特征映射f
输入
(类1)的大小为h
×
w
×
c的补片来实现混合,其中且。例如,可以通过将补片中的所有值设置为0来移除信息。特征空间中的此类自生成的离群值可以被称为伪离群值f

。这些离群值集合可以在每次训练迭代中生成,并且离群检测器可以在内围和伪离群特征映射上训练。注意,csc可以仅在有效的内围训练数据上训练,并且伪离群值可以仅用于训练离群检测器(odc)。
[0056]
位置敏感分类器(lsc,510):该分类器的决策可以基于对象的部分/元素的空间位
置,而不是它们的内容。考虑具有维度h
×
w
×
c的lsc的输入特征映射f
输入 540。空间分辨率h
×
w可以包含空间信息,并且通道c可以对特征表示进行编码。可能期望仅捕获空间信息,并且从而可能地丢弃特征表示。类似于csc分支520中的空间聚集,特征聚集512可以被应用于中间特征映射f
输入 540,以整合出内容信息,从而产生具有维度h
×
w
×
1的特征映射514。在f
输入
中的每个位置i、j处的特征聚集可以公式化为(对于)。该特征聚集可能削弱内容表示,但不影响空间信息。具有该特征聚集作为部件的分类器分支(图5中的分支510)可以仅对用于决策的对象元素的空间位置敏感,而不管它们的确切内容如何。
[0057]
位置边缘的离群检测(odl):该离群检测器可以将具有未知或不完整的对象元素空间位置的样本归类为离群值,因为它们可能不对应于已知的位置边缘分布。类似于odc,离群检测可以以自监督的方式来训练。例如,可以从聚集特征映射514生成伪离群样本。如以上提及的,潜在离群值是具有未知或不完整的空间布置的样本。此类离群样本可以通过移除一部分信息或者随机地在特征映射中混洗位置而从特征映射生成。发现odl可能不需要被实现为单独的离群检测器,但是离群检测可以被实现为分类分支510中的附加类。假设学习空间布置可能比学习不同的特征表示“更容易”,并且因此前者可以作为附加的类包括在分类分支中,其在图5中示出作为与其他分类分支的n个类526相比的n 1个类516的分类。因此,内围值可以将它们的类值作为基础真值提供,而伪离群值可以被视为离群类。例如,标准交叉熵损失可以用于训练内围值,而伪离群样本的损失可以包括离群类上的标准交叉熵损失,同时此外,内围类上的伪离群样本的熵可以增加。在具体的示例中,离群分类损失可以如下:类损失可以如下:。这里,p 离群值
、p

是离群和内围类概率。在具体的示例中,可以被设置为0.05。将离群值视为附加的类并且计算以上损失可以改进离群检测。正如初始的经验证据显示的那样,这对于其他离群检测器可能不成立。
[0058]
联合边缘分布的离群检测(odj):该离群检测器可以将与训练数据共享相似属性的样本视为内围值,并且将其余样本视为离群值。类似于odc,伪离群值可以从具有维度h
×
w
×
c的中间特征映射540中生成。在odc中,伪离群值可能受到空间聚集522影响,并且这可能导致空间信息的损失。另一方面,odl可以从聚集的特征映射模拟伪离群值,并且可能没有内容信息的线索。与这两种情况不同,odj可能期望对内容和位置边缘二者都敏感。因此,在平坦化532之后,维度为h
×
w
×
c的整个特征映射540可以被用作对于离群检测的输入,使得内容和空间信息二者都持续存在。扩充策略可以类似于odc,其中可以移除一部分信息或者在类间特征之间混合信息。除了以上策略之外,具有补片大小h
×
w
×
c的两个位置中的任一个也可以在相同的特征映射内被交换。该附加的示例可以允许离群检测器对两个边缘中的任一个的改变敏感。
[0059]
图6示出了为图5示例的离群检测器生成的伪离群值的示例,其中标记a、b、c、d表示中间特征映射中的相应激活,并且其中伪离群值可以通过以四种不同方式扰动位置和/或内容来获得。更具体地,图6示出了对于类a 610以及对于类b 620的内围值的中间特征映射600。类a被示为包括在所描绘的空间布置中的标记a和b,而类b被示为包括在所描绘的空
间布置中的标记c和d。伪离群值可以通过修改一个或两个中间特征映射600来生成,以创建伪离群值的中间特征映射650。例如,可以通过从中间特征映射610移除信息——在这种情况下是标记b——来生成中间特征映射660。另一个示例是中间特征映射670,其可以通过随机地混洗标记的位置来生成,从而将标记a和标记b移动到新的位置。又一个示例是中间特征映射680,其可以通过混合类之间的内容来生成,例如通过用来自中间特征映射610的标记b替换中间特征映射620中的标记c。又一个示例是中间特征映射690,其可以通过交换中间特征映射610中标记a和标记b的位置来生成。
[0060]
关于训练,注意到来自训练数据的内围示例和任何生成的伪离群值可以用于训练离群检测器。所有三个离群检测器和两个分类器可以彼此独立地训练,但是可以在相同的训练时段中训练,例如在训练时段的相同或分离的迭代中。以下描述了训练参数和架构/网络参数的具体示例,但是所述示例仅仅是示例性的,并且完全是非限制性的。
[0061]
在具体的示例中,csc和odj二者都可以从学习率0.001开始在100个时期内进行训练,其中在80个时期之后学习率下降到0.1倍。发现可以在比其他分支少量的时期内训练lsc。在具体的示例中,仅以学习率0.001在25个时期内训练是足够的。在具体的示例中,可以使用批量大小128和没有权重衰减的adam优化器。在具体的示例中,可以利用xavier初始化来初始化网络权重。在具体的示例中,均方误差损失和tanh激活函数可以用于csc和odj二者中的离群检测。这里,标签也可以在每一批训练中以0.1的概率翻转,从而翻转内围样本的标签作为离群值,并且翻转自生成的离群样本作为内围值,以避免内围样本上的网络过拟合。
[0062]
在具体的示例中,对于csc,训练可以仅从分类损失开始,直到时期8,而之后包括离群检测的损失。这样的设置可以对权重进行预训练并且使离群检测的训练稳定化。类似于csc的分类器可以在odj分支中使用,以对权重进行预处理,直到时期8,并且之后使用分类损失以及还有离群检测损失二者来使剩余的训练稳定化。包括lsc中的离群类的分类器可以从头开始训练。
[0063]
在具体的示例中,lsc的架构细节可以如下:输入。卷积层的核大小可以分别为。这里,、、分别指代具有1个通道的输入、具有16个特征映射的卷积层和具有4个类(3个对象类 1个离群类)的分类器。在具体的示例中,csc的基本架构细节可以如下:csc的基本架构细节可以如下:。分类和离群值头如下:分类和离群值头如下:和。这里表示对于3类对象的分类器,并且指代离群检测神经元。在具体的示例中,odj的架构细节可以如下:。使odj的训练稳定化的分类损失可以如下:。
[0064]
在具体的示例中,为了在训练期间在所有三个离群分支中生成离群样本,可以选择3
×
3或5
×
5的补片大小来移除或混合来自另一个类的信息,或者交换特征映射内的位置,如本说明书中其他地方所讨论的。在具体的示例中,可以基于特征映射中的最高激活位
置来选择补片的中心,而不是以随机方式选择整个补片。大小为h
×
w
×
c的特征映射可以沿着通道聚集,以获得大小为h
×
w的特征映射,其然后可以在之间被归一化,以将其视为概率图来挑选具有概率p的位置。在csc和odj中,通道的聚集可以仅被执行以挑选具有高激活的位置,而不需要被视为网络中的任何输入,而特征映射可能已经在lsc中被聚集。在训练过程期间,该方案可以使能修改将潜在地导致离群值的最高激活位置。
[0065]
实验示出,通过仅(基本上)在来自训练数据的分布内样本上训练机器可学习模型,本说明书中描述的度量可以允许以高准确度检测内容边缘、位置边缘和联合边缘分布中的离群值。包括离群检测器连同分类器的框架可以为对看不见的离群样本进行可解译的决策提供明确的线索。下表通过几个示例说明了对于可解译决策的明确线索。如该表中所示,可能的是从离群检测器的输出以及来自分类器的类决策中解译离群样本的类型。当在新的输入数据上使用机器学习模型时,系统和/或方法可以提供最终推断作为输出,或者在其最终决策中使用最终推断。
输入示例odcodlodjcsclsc最终推断示例1不是离群值不是离群值不是离群值类a类a分布内示例2不是离群值不是离群值离群值类b类a联合分布外示例3离群值不是离群值离群值类a类a信息中的离群,位置中的内围
[0066]
图7示出了用于对空间数据中的对象进行分类的系统700。系统700可以包括输入接口780,该输入接口780用于访问表示机器学习模型的经训练的模型数据196,所述机器学习模型如可以由图1的系统100或图2的方法200或如其他地方所述生成。例如,也如图7中图示的,输入接口可以由数据存储接口780构成,数据存储接口780可以从数据存储装置790访问经训练的模型数据196。一般而言,输入接口780和数据存储装置790可以具有如参考图1针对输入接口180和数据存储装置190描述的相同类型。图7进一步示出了包括输入数据722的数据存储装置792,输入数据722包括空间数据的至少一个实例,其中空间数据的实例包括待分类的对象。例如,输入数据722可以是或可以包括从一个或多个传感器获得的传感器数据。在具体示例中,输入数据722可以表示基于传感器的观察的输出,所述基于传感器的观察例如是包含对象的环境的传感器测量,并且机器学习模型可以提供对象的分类。环境的示例是(半)自主车辆前方的道路、仓库内部、装配线等。在一些实施例中,作为输入数据722的传感器数据也可以例如经由传感器接口720或经由另一种类型的接口直接从传感器20接收,而不是经由数据存储接口780从数据存储装置790访问。在这样的实施例中,传感器数据可以例如实时的“现场”或伪实时接收。
[0067]
系统700可以进一步包括处理器子系统760,处理器子系统760可以被配置为在系统700的操作期间将机器学习模型的卷积部分应用于输入数据以生成一个或多个特征映射,通过从一个或多个特征映射中的一个移除位置信息来生成内容信息特定的特征映射,以及将内容分类部分应用于内容信息特定的特征映射以获得基于内容的对象分类结果。处理器子系统760可以进一步被配置为通过从一个或多个特征映射中的一个移除内容信息来生成位置信息特定的特征映射,以及将位置分类部分应用于位置信息特定的特征映射以获得基于位置的对象分类结果。处理器子系统760可以进一步被配置为将离群检测部分应用于为空间数据的实例生成的一个或多个先前生成的特征映射,以获得离群检测结果,以及根据基于内容的对象分类结果、基于位置的对象分类结果和离群检测结果对空间数据中的
对象进行分类,其中所述分类包括如果基于内容的对象分类结果和基于位置的对象分类结果都指示对象类,并且如果离群检测结果没有指示离群值的存在,则根据对象类对输入数据进行分类。
[0068]
一般而言,处理器子系统760可以被配置为执行如先前参考图3

6和其他地方所描述的任何功能。特别地,处理器子系统760可以被配置为应用如参考机器可学习/学习模型的训练所描述的类型的机器学习模型。将领会,与图1的处理器子系统160相同的考虑和实现选项适用于处理器子系统760。将进一步领会,与图1的系统100相同的考虑和实现选项一般而言可以适用于系统700,除非另有说明。
[0069]
图7进一步示出了系统700的各种可选部件。例如,在一些实施例中,系统700可以包括传感器数据接口720,该传感器数据接口720用于直接访问由环境60中的传感器20获取的传感器数据722。传感器20可以但不需要是系统700的一部分。传感器20可以具有任何合适的形式,诸如图像传感器、激光雷达传感器、雷达传感器等,或者一般而言是提供包含待分类对象的空间数据的任何个体传感器或传感器集合。传感器数据接口720可以具有在类型上对应于传感器类型的任何合适的形式,包括但不限于低级通信接口、电子总线或者如以上针对数据存储接口780描述的类型的数据存储接口。
[0070]
在一些实施例中,系统700可以包括致动器接口740,该致动器接口740用于向环境60中的致动器40提供控制数据742。这样的控制数据742可以由处理器子系统760生成,以基于分类结果来控制致动器40,这样的控制数据742当被应用于输入数据722时,如可以由机器学习模型生成。例如,致动器40可以是电动、液压、气动、热、磁和/或机械致动器。具体但非限制性的示例包括电动机、电活性聚集物、液压缸、压电致动器、气动致动器、伺服机构、螺线管、步进电动机等。这样类型的控制参考图8针对(半)自主车辆进行描述。
[0071]
在其他实施例中(图7中未示出),系统700可以包括到诸如显示器、光源、扬声器、振动马达等之类的呈现设备的输出接口,该呈现设备可以用于生成感觉可感知的输出信号,该输出信号可以基于机器学习模型的分类结果而生成。感觉可感知的输出信号可以直接指示机器学习模型的分类结果,但是也可以表示所导出的感觉可感知的输出信号,例如以供在物理系统的引导、导航或其他类型的控制中使用。
[0072]
一般而言,本说明书中描述的每个系统——包括但不限于图1的系统100和图7的系统700——可以体现为单个设备或装置或者被体现在单个设备或装置中,所述单个设备或装置诸如工作站或服务器。设备可以是嵌入式设备。设备或装置可以包括执行适当软件的一个或多个微处理器。例如,相应系统的处理器子系统可以通过单个中央处理单元(cpu)、而且还通过这样的cpu和/或其它类型的处理单元的系统或组合来体现。软件可能已被下载和/或存储在对应的存储器中,所述对应的存储器例如是诸如ram的易失性存储器,或诸如闪存的非易失性存储器。替代地,相应系统的处理器子系统可以以可编程逻辑的形式、例如作为现场可编程门阵列(fpga)而实现在设备或装置中。一般而言,可以以电路的形式实现相应系统的每个功能单元。相应系统也可以以分布式方式实现,例如涉及不同的设备或装置、诸如分布式的本地或基于云的服务器。在一些实施例中,系统700可以是车辆、机器人或类似物理实体的一部分,和/或可以表示被配置为控制物理实体的控制系统。
[0073]
图8示出了以上的示例,其中系统700被示为在环境60中操作的(半)自主车辆80的控制系统。自主车辆80可以是自主的,因为它可以包括自主驾驶系统或驾驶辅助系统,其中
后者也被称为半自主系统。自主车辆80可以例如结合系统700,以基于从集成到车辆80中的视频相机22获得的传感器数据来控制自主车辆的转向和制动。例如,系统700可以控制电动机42以在自主车辆80预期与行人碰撞的情况下执行(再生)制动。系统700可以控制转向和/或制动以避免与行人碰撞。为了该目的,系统700可以在从视频相机获得的传感器数据中对诸如行人的对象进行分类。如果车辆的状态——例如其相对于行人的位置——预期导致碰撞,则系统700可以采取对应的动作。
[0074]
图9示出了用于对空间数据中的对象进行分类的计算机实现的方法800。方法800可以对应于图7的系统700的操作,但是也可以使用或由任何其他系统、装置或设备来执行。
[0075]
方法800被示为在题为“访问机器学习模型”的步骤中包括访问810如在本说明书中其他地方所述的机器学习模型,并且在题为“访问输入数据”的步骤中包括访问820输入数据,该输入数据包括空间数据的实例,空间数据的实例包括待分类的对象。方法800进一步被示为在题为“生成(一个或多个)特征映射”的步骤中包括将机器学习模型的卷积部分应用于输入数据以生成830一个或多个特征映射,并且在题为“生成内容信息特定的特征”的步骤中包括通过从一个或多个特征映射中的一个移除位置信息来生成840内容信息特定的特征映射。方法800进一步被示为在题为“生成位置信息特定的特征”的步骤中包括通过从一个或多个特征映射中的一个移除内容信息来生成850位置信息特定的特征映射,并且在题为“生成基于内容的对象分类结果”的步骤中包括将内容分类部分应用860于内容信息特定的特征映射以获得基于内容的对象分类结果。方法800进一步被示为在题为“生成基于位置的对象分类结果”的步骤中包括将位置分类部分应用870于位置信息特定的特征映射以获得基于位置的对象分类结果,并且在题为“生成离群检测结果”的步骤中包括将离群检测部分应用880于为空间数据的实例生成的一个或多个先前生成的特征映射,以获得离群检测结果。方法800进一步被示为在题为“对空间数据中的对象进行分类”的步骤中包括根据基于内容的对象分类结果、基于位置的对象分类结果和离群检测结果对空间数据中的对象进行分类890,其中所述分类包括如果基于内容的对象分类结果和基于位置的对象分类结果都指示对象类,并且如果离群检测结果不指示离群值的存在,则根据对象类对输入数据进行分类。
[0076]
将领会,一般而言,图2和图9的计算机实现的方法200和800的操作或步骤分别可以以例如是连续地、同时地或其组合的任何合适的次序执行,其在适用的情况下服从例如由输入/输出关系所必需的特定次序。
[0077]
本说明书中描述的每个方法、算法或伪代码可以在计算机上实现为计算机实现的方法、专用硬件或二者的组合。还如图10中图示的,用于计算机的指令(例如,可执行代码)可以例如以一系列机器可读物理标志910的形式和/或作为一系列具有不同的电(例如磁性)或光学属性或值的元件而存储在计算机可读介质900上。可执行代码可以以暂时性或非暂时性的方式存储。计算机可读介质的示例包括存储器设备、光学存储设备、集成电路、服务器、在线软件等。图10示出了光盘910。在计算机可读介质900的替代实施例中,计算机可读介质可以包括定义机器学习模型的模型数据910,如在本说明书中的其他地方所述。
[0078]
示例、实施例或可选特征——无论是否被指示为非限制性的——都不要被理解为对如要求保护的本发明进行限制。
[0079]
根据说明书的摘要,注意到可以提供用于使用机器学习模型对空间数据中的对象
进行分类的系统和方法,以及用于训练机器学习模型的系统和方法。机器学习模型可以包括内容敏感分类器、位置敏感分类器和至少一个离群检测器。这两个分类器可以联合在空间数据中的对象是分布内还是边缘分布外之间进行区分。离群检测部分可以在来自训练数据的内围示例上被训练,而机器可学习模型的输入数据中实际离群值的存在可以在训练期间在机器可学习模型的特征空间中被模拟。这些部分的组合可以提供空间数据中相对于离群值的更稳健的对象分类,而不必增加训练数据的大小。
[0080]
应当注意到,以上提及的实施例说明而不是限制本发明,并且本领域技术人员将能够在不偏离所附权利要求书的范围的情况下设计许多替代的实施例。在权利要求书中,被置于括号之间的任何参考标记不应被解释为限制权利要求。对动词“包括”及其词形变化的使用不排除除了在权利要求中所陈述的那些元素或阶段之外的元素或阶段的存在。在元素之前的冠词“一”或“一个”不排除多个这样的元素的存在。诸如
“……
中的至少一个”之类的表述当在元素的列表或组之前时表示从该列表或组中选择全部元素或元素的任何子集。例如,表述“a、b和c中的至少一个”应当被理解为包括仅a、仅b、仅c、a和b两者、a和c两者、b和c两者或者全部a、b和c。本发明可以借助于包括若干不同元件的硬件、以及借助于合适编程的计算机来被实现。在列举了若干构件的设备权利要求中,这些构件中的若干个可以通过硬件的同一个项目来体现。仅有事实即在相互不同的从属权利要求中记载了某些措施不指示这些措施的组合不能被有利地使用。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献