一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

使用神经网络关联帧之间的对象检测的装置和方法与流程

2022-06-22 16:44:10 来源:中国专利 TAG:


1.本发明涉及跟踪视频中的对象,并且具体地涉及使用卷积神经网络将第一帧中的对象检测与第二帧中的对象检测相关联。


背景技术:

2.当跟踪视频中的多个对象时,可以使用卡尔曼滤波器或类似方法。在这样的方法中,基于帧中的对象检测,多个对象的跟踪逐帧被顺序地更新。为了更新跟踪,当前帧中的对象检测首先与先前帧中的现有跟踪相关联。当关联已经被执行时,基于当前帧中的关联的对象检测的位置更新先前帧的跟踪。
3.关联可以基于表示先前帧中的现有跟踪和当前帧中的对象检测是同一对象的可能性的概率来进行。这些概率可以基于卡尔曼滤波器状态变量。例如,卡尔曼滤波器状态变量可用于预测当前帧中的被跟踪对象的位置、速度等。然后,可以将被跟踪对象的预测位置、速度等与当前帧中的检测到的对象的位置、速度等进行比较,以查看被跟踪对象和检测到的对象中的每一个是同一对象的可能性。
4.在这样的方法中,关联有时会失败并且跟踪丢失。因此,跟踪中可能存在身份转换,使得跟踪首先跟随一个对象,并且然后错误地继续跟随另一对象。


技术实现要素:

5.本发明的目的是促进第一帧中的对象检测与第二帧中的对象检测的增强关联,以降低错误关联的风险。
6.根据第一方面,提供了一种使用卷积神经网络将第一帧中的对象检测与第二帧中的对象检测相关联的方法。卷积神经网络已经被训练以确定特征向量,使得与单独对象相关的对象检测的特征向量被排列在特征向量空间中的单独簇中。在该方法中,接收第一帧的与第一帧中的对象检测相对应的区域,并且通过训练的卷积神经网络确定与第一帧中的区域相关联的包括两个或更多个特征向量的特征向量集,从而确定包括两个或更多个特征向量的特征向量参考集。进一步接收第二帧的与第二帧中的多个对象检测中的相应对象检测相对应的多个区域。对于第二帧中的多个区域中的每一个,通过训练的卷积神经网络确定与第二帧中的该区域相关联的特征向量集,从而确定多个特征向量候选集。对于特征向量参考集的每个特征向量,在多个特征向量候选集的特征向量当中,识别在特征向量空间中与特征向量参考集的该特征向量具有最小距离的预定数量的特征向量,从而识别最接近特征向量集。对于多个特征向量候选集中的每个特征向量候选集,与特征向量参考集的接近度的度量被确定为属于该特征向量候选集的最接近特征向量集的比例。对于第二帧中的多个对象检测中的每一个,基于与该对象检测相对应的特征向量候选集的与特征向量参考集的所确定的接近度的度量来分配权重。基于分配的权重将第一帧中的对象检测与第二帧中的多个对象检测中的一个对象检测相关联。
7.如本文中所使用的,同一对象指代对象的相同实例(即同一物理对象)。
8.与单独对象相关的对象检测是指与对象的相同实例不相关的对象检测(即与不同的物理对象相关的对象检测)。例如,它可以是与同一对象类型的不同实例相关的对象检测。在存在多种不同对象类型的对象的情况下,也可以是与不同类型的对象相关的对象检测。
9.与单独对象相关的对象检测的特征向量被排列在特征向量空间中的单独簇中是指同一对象的特征向量之间的特征向量空间中的内部距离通常小于不同对象的特征向量之间的特征向量空间中的距离。然而,可能出现异常值,也就是说,对象的特征向量在向量空间中与对象的其他特征向量的距离可能比对象的其他特征向量之间的内部距离大得多。在这样的情况下,该特征向量与其他对象的一个或多个特征向量的距离可能小于到与其相关的对象的其他特征向量的距离。
10.根据第一方面的方法,通过确定每个候选集的接近度的度量,并且然后基于与相应对象检测相对应的候选集的所确定的接近度的度量为每个对象检测分配相应权重,实现了设置权重的有效方式,该权重指示第二帧中的每个对象检测与第一帧中的对象检测之间的相似性。这样的权重可以例如用于添加相对于与将第一帧中的对象检测与第二帧中的多个对象检测中的一个相关联的对象外观的属性相似性,并且因此增强算法,其中这样的关联是在另一个基础上(例如,基于第二帧中对象的预测状态)进行的。此外,由于权重基于接近度的度量,而接近度的度量又考虑了第一帧中的对象检测的所有特征向量,因此在分配的权重中考虑了第一帧中的对象检测的特征向量的空间变化。
11.通过选择在特征向量空间中具有最小距离的更高预定数量的特征向量,将减少对候选集的少数异常值的接近度的度量的影响,使得接近度的度量将在更大程度上取决于每个候选集的位于特征向量空间中更靠近该候选集中心的特征向量。另一方面,在特征向量空间中具有最小距离的特征向量的预定数目不应变得太高使得接近它变得接近所有候选集的特征向量的总数。
12.分配的权重可以使得对于第二帧中的多个对象检测中具有相同接近度的度量的任何两个对象检测,两个对象检测的所分配的权重相同,并且对于第二帧中的多个对象检测的具有比第二帧中的多个对象检测的另一对象检测更高的接近度的度量的任何对象检测,所述任何对象检测的所分配的权重高于所述另一对象检测的所分配的权重。这样,当接近度的度量不同时,权重会影响关联,而当接近度的度量相同时,权重不会影响关联。这是有利的,例如,当权重用于调整算法时,在另一个基础上(例如,基于第二帧中的对象的预测状态)进行关联。然后可以应用权重,使得它们将添加关联中对象外观的属性相似性,使得当权重指示第二帧中的对象检测具有更高的接近度的度量时,更有可能与该对象进行关联。另一方面,当两个不同对象的权重相同时,权重不会影响关联,并且关联将仅基于另一个基础(例如,基于预测状态)。
13.分配的权重可以使得对于第二帧中的多个对象检测中的每一个,所分配的权重与对应于该对象检测的特征向量候选集的与特征向量参考集的所确定的接近度的度量成比例。这是有利的,例如,当权重用于调整算法时,在另一个基础上(例如,基于第二帧中的对象的预测状态)进行关联。然后可以应用权重,使得它们将添加关联中对象外观的属性相似性,使得权重将按其尺寸成比例地影响关联。
14.分配的权重可以使得对于第二帧中的多个对象检测中的每一个,所分配的权重是
1加上该对象检测的接近度的度量与第二帧中多个对象检测的除该对象检测之外的对象检测的平均的接近度的度量之间的差。
15.对于第二帧中的多个对象检测中的每个对象检测,可以基于该对象检测的权重来计算关联分数,该关联分数指示第二帧中的对象检测与第一帧中的对象检测相关联的概率。
16.关联分数可以进一步基于第一帧中的对象检测的在第二帧中的预测状态。
17.预测状态可以包括预测尺寸、预测形状、预测位置、预测速度和预测加速度中的一个或多个。
18.可以将第一帧中的对象检测与第二帧中的多个对象检测中的具有最高关联分数的对象检测相关联。
19.第一帧中的对象检测可以与跟踪相关联,并且可以基于与第一帧中的对象检测相关联的第二帧中的对象检测来更新跟踪。通过将第一帧中的对象检测与第二帧中的多个对象检测中的一个对象检测的关联基于分配的权重,添加了对象外观的属性相似性,并且因此可以增强算法,其中在另一个基础上(例如,基于第二帧中对象的预测状态)进行这样的关联。因此,基于这样的关联更新跟踪将降低基于第二帧中的错误对象检测错误地更新跟踪的风险以及因此跟踪丢失或跟踪开始跟随另一个对象的风险。
20.通过所训练的卷积神经网络确定与第一帧中的区域相关联的特征向量集可以包括:通过所训练的卷积神经网络为第一图像帧的多个子区域确定第一多个特征向量;和识别与第一帧中的区域相关联的第一多个特征向量中的包括两个或更多个特征向量的特征向量集,从而确定包括两个或更多个特征向量的特征向量参考集。对于第二帧中的多个区域中的每一个,通过所训练的卷积神经网络确定与第二帧中的该区域相关联的特征向量集可以包括:通过所训练的卷积神经网络为第二图像帧的多个子区域确定第二多个特征向量;和对于第二帧中的多个区域中的每一个,识别与第二帧中的该区域相关联的特征向量集,从而确定多个特征向量候选集。
21.根据第二方面,提供了一种非暂时性计算机可读存储介质,其上存储有指令,该指令当由具有处理能力的装置上执行时,实现根据第一方面的方法。
22.根据第一方面的方法的上述特征在适用时也适用于该第二方面。为了避免不适当的重复,请参考上文。
23.根据第三方面,提供了一种使用经过训练以确定特征向量的卷积神经网络将第一帧中的对象检测与第二帧中的对象检测相关联使得与单独对象相关的对象检测的特征向量被排列在特征向量空间中的单独簇中的装置。该装置包括被配置成执行根据第一方面的方法的电路。
24.根据第一方面的方法的上述特征在适用时也适用于该第三方面。为了避免不适当的重复,请参考上文。
25.本发明的进一步适用范围将从下面给出的详细描述中变得明显。然而,应当理解,详细说明和具体实施例虽然指示了本发明的优选实施例,但仅以说明的方式给出,因为根据该详细描述,本领域技术人员将清楚在本发明范围内的各种变化和修改。
26.因此,应当理解,本发明不限于所描述的装置的特定组成部分或所描述的方法的动作,因为这样的装置和方法可以变化。还应理解,本文中使用的术语仅用于描述特定实施
例的目的,并不旨在进行限制。必须指出,在说明书和所附权利要求中使用的冠词“一”、“一个”、“该”和“所述”旨在表示存在一个或多个元件,除非上下文另有明确指示。因此,例如,对“单元”或“该(所述)单元”的引用可以包括多个装置等。此外,词语“包括”、“包含”、“含有”和类似词语不排除其他元件或步骤。
附图说明
27.现在将参照附图更详细地描述本发明的上述和其他方面。附图不应被认为是限制性的,而是用于解释和理解。
28.图1示出与使用卷积神经网络将第一帧中的对象检测与第二帧中的对象检测相关联的本公开的方法的实施例相关的流程图。
29.图2a示出包括对象的第一帧的图示。
30.图2b示出包括多个对象的第二帧的图示。
31.图3示出二维空间中与图2a中所图示的第一帧中的对象和图2b中所图示的第二帧中的多个对象相对应的特征向量的简化表示。
32.图4示出与使用卷积神经网络将第一帧中的对象检测与第二帧中的对象检测相关联的本公开的装置的实施例相关的示意图。
具体实施方式
33.现在将在下文中参照附图描述本发明,在附图中图示出了本发明的当前优选实施例。然而,本发明可以以许多不同的形式实施并且不应被解释为限于本文中所阐述的实施例。
34.本发明适用于第一帧中的对象检测与第二帧中的对象检测相关联的场景。例如,这样的场景是当跟踪帧序列中的对象时。在这样的跟踪中,与帧序列中的第一帧中的对象标识相关联的跟踪应该相对于包括多个对象检测的第二后续帧进行更新。在这样的情况下,重要的是第一帧中的对象检测与第二帧中的多个对象检测中的一个正确的对象检测相关联。
35.现在将相对于图1连同图2a和图2b以及图3一起描述使用卷积神经网络将第一帧中的对象检测与第二帧中的对象检测相关联的方法的实施例,图1示出流程图100,图2a和图2b示出包括对象210的第一帧200和包括多个对象(即第一对象230、第二对象240和第三对象250)的第二帧220的图示,并且图3示出二维空间中与图2a中所图示的第一帧200中的对象和图2b中所图示的第二帧220中的多个对象相对应的特征向量的简化表示。
36.可以针对帧序列执行关于图1所图示的方法的步骤。因此,该方法可以先前已经相对于作为第一帧的另一先前帧和作为第二帧的图2a的第一帧200来执行。类似地,该方法可以后续相对于作为第一帧的图2b的第二帧220和作为第二帧的另一后续帧来执行。
37.卷积神经网络已经被训练以确定特征向量,使得与单独对象相关的对象检测的特征向量被排列在特征向量空间中的单独簇中。与单独对象相关的对象检测是指与对象的相同实例不相关的对象检测。例如,单独对象可以是相同对象类型的不同实例或不同类型的对象。
38.可以首先通过为帧的多个子区域中的每个子区域确定一个特征向量来为帧确定
特征向量,其中多个子区域优选地一起形成完整的帧。例如,可以将帧划分为n
×
n像素的子区域的网格,其中n是非零正整数。例如,可以为帧中的每个像素确定一个特征向量,但通常特征向量的空间分辨率低于该空间分辨率(例如,每8
×
8像素一个特征向量)。在确定了整个帧的特征向量之后,然后可以通过识别在与对象检测相对应的区域内的帧的子区域的特征向量来确定帧的对象检测的特征向量。
39.训练可以通过实现卷积神经网络的期望特性的任何已知训练方法来完成,也就是说,与单独对象相关的对象检测的特征向量被排列在特征向量空间中的单独簇中。这样的训练可以例如基于鼓励卷积神经网络将帧的每个子区域映射到特征向量空间中的特征向量的损失函数(loss function),使得属于同一对象(即对象类型的相同实例)的子区域被映射到在特征向量空间中靠得很近的特征向量,而属于不同对象(即相同对象类型的不同实例或不同的对象类型)的子区域被映射到在特征向量空间中相距很远的特征向量。特征向量之间的距离可以例如限定为特征向量空间中的欧几里得距离。这样的损失函数可以包括多个训练帧中的每一个的所有子区域对的总和。总和的每一项可以例如包括属于同一对象的子区域对的第一子项和属于不同对象的子区域对的第二子项,第一子项对对应的特征向量之间的距离的低值提供小的贡献,而对对应的映射特征向量之间的距离的高值提供大的贡献,并且第二子项对对应的特征向量之间的距离的高值提供小的贡献,而对对应的特征向量之间的距离的低值提供大的贡献。总和的每一项可以进一步相对于相应训练图像中的像素的总数进行归一化,并通过相应像素和训练图像的像素对权重进行加权。美国加利福尼亚大学计算机科学系kong、shu等人于2017年12月22日在“recurrent pixel embedding for instance grouping”中提供了可以使用的神经网络的示例及其训练方式(arxiv:1712.08273v1)。de brabandere等人(esat-psi,ku leuven,belgium.)于2017年8月8日在“semantic instance segmentation with a discriminative loss function”中提供了可以使用的神经网络的另一示例(arxiv:1708.02551v1)。fathi等人,google inc.和美国加州大学洛杉矶分校于2017年3月30日在“semantic instance segmentation via deep metric learning”中提供了又一示例(arxiv:1703.10277v1)。就本技术而言,可以使用coco数据集(https://cocodataset.org/#home)进行训练。
40.对于存在不同对象类型的对象的实施例,卷积神经网络需要使用包括不同对象类型的对象的图像进行训练,并且使得属于不同对象类型的对象的像素被映射到特征向量空间中相距很远的特征向量。例如,这可以通过使用coco数据集训练上述任何神经网络来实现。
41.在该方法中,接收s110第一帧的与第一帧中的对象检测相对应的区域。例如,在图2a中所图示的第一帧200中,已经检测到对象210。与该对象检测相对应的区域是在第一帧200中具有特定尺寸、形状和位置的对象210的区域。对象检测可以例如通过提供关于对象检测的图像中的不同对象检测和位置的信息的用于对象实例分割的算法来确定。关于位置的信息可以采用掩码的形式,掩码可以用于掩蔽与对象检测相对应的区域。可以使用的对象实例分割算法的示例是在he等人于2018年1月14日发表的论文“mask r-cnn”中描述的掩码r-cnn(arxiv:17.03.06870v3)。该论文描述了掩码r-cnn的框架、它是如何训练的以及合适的训练数据。
42.特征向量参考集被确定s120为与第一帧中的接收区域相关联的特征向量的集合。
为此,可以使用上述训练的卷积神经网络。可以通过为帧的多个子区域中的每个子区域确定一个特征向量来为第一帧确定特征向量的完整集,其中多个子区域优选地一起形成完整的帧。然后,可以通过识别与定位于第一帧的接收区域内的子区域相关联的特征向量的完整集的特征向量来确定特征向量参考集。可替代地,对于第一帧,仅确定与接收区域相关联的特征向量就足够了。然后,可以通过确定位于第一帧的接收区域内的子区域的特征向量来确定特征向量参考集。相对于图2a中所图示的第一帧200中的对象210,特征向量参考集被确定为位于对象210的区域内的子区域的特征向量的集合。
43.特征向量参考集包括两个或更多个特征向量。这可以通过选择为其确定相应特征向量的子区域的尺寸来实现,使得与对象检测相对应的区域包括至少两个子区域。可替代地或附加地,仅允许关联相对于子区域的尺寸至少具有最小尺寸的对象,使得每个对象具有至少特定数量的特征向量。这是有益的,因为为了能够成功地进行关联(重新识别),对象需要具有合理的尺寸。此外,对象的特征向量越多,可以考虑的对象的空间变化就越多,并且用于关联的统计基础就越多。特征向量的特定数量可以是两个,但通常会比这更大。
44.进一步接收s130第二帧的与第二帧中的多个对象检测中的相应对象检测相对应的多个区域。例如,在图2b中所图示的第二帧220中,已经检测到对象230、240、250。与该多个对象检测相对应的多个区域是在第二帧220中具有特定尺寸、形状和位置的对象230、240、250的区域。这些对象检测也可以使用诸如上述掩码-rcnn的对象分割算法来确定。
45.然后,多个特征向量候选集被确定s140为与第二帧中接收到的多个区域相关联的多个特征向量集。为此,可以使用训练的卷积神经网络。如相对于第一帧所描述的,也可以为第二帧确定特征向量的完整集。然后,对于第二帧的多个对象检测中的每个对象检测,可以通过识别与位于与该对象检测相对应的区域内的子区域相关联的特征向量的完整集的特征向量来确定特征向量候选集。可替代地,对于第二帧,仅确定与接收到的多个区域相关联的特征向量就足够了。然后,对于接收到的多个区域中的每个区域,可以通过确定位于该接收区域内的子区域的特征向量来确定特征向量候选集。相对于图2b中所图示的第二帧220中的对象230、240、250,对于多个对象230、240、250中的每一个,多个特征向量候选集被确定为位于该对象的区域内的子区域的特征向量的集合。
46.然后,对于特征向量参考集的每个特征向量,通过识别多个特征向量候选集当中的预定数量的特征向量来识别s150最接近特征向量集,预定数量的特征向量在特征向量空间中与参考集的该特征向量具有最小距离。为此,可以使用在训练卷积神经网络时使用的相同距离度量,尽管可能还有其他选择。因此,对于参考集的每个特征向量,确定特征向量空间中与多个特征向量候选集中的每个特征向量的距离,并且多个特征向量候选集中的具有最小距离的预定数量的特征向量被包括在最接近特征向量集中。
47.特征向量的预定数量优选地小于或等于具有最少特征向量数量的候选集的特征向量的数量。例如,如果对每个对象的特征向量的数量设置了特定下限,则可以将预定数量设置为低于该特定下限。这是有利的,因为单个对象的所有特征向量可以在特征向量空间中最接近参考集的每个向量。
48.特征向量的预定数量可以设置为1,但是将其设置为更大的数量可能是有利的,因为这样可以减少异常值的影响,即,参考集和候选集的特征向量在特征向量空间中与相同参考集或候选集的其他特征向量相距较远距离的影响。例如,特征向量的预定数量可以被
设置为具有最少特征向量数量的候选集的特征向量的数量的特定百分比。
49.图3示出二维空间中与图2a中所图示的第一帧200中的对象210和图2b中所图示的第二帧220中的多个对象230、240、250相对应的特征向量的简化表示。特征向量被表示为二维空间中的点的不同几何形状。对于图2a中所图示的第一帧200中的对象210,已经确定了由四个特征向量组成的特征向量参考集。在图3中,由参考集的第一特征向量312、第二特征向量314、第三特征向量316和第四特征向量318组成的四个特征向量被表示为四个圆圈。对于图2b中所图示的第二帧220中的第一对象230,已经确定了由三个特征向量组成的特征向量的第一候选集。在图3中,由第一候选集的第一特征向量332、第二特征向量334、第三特征向量336和第四特征向量338组成的三个特征向量被表示为四个加号。对于图2b中所图示的第二帧220中的第二对象240,已经确定了由四个特征向量组成的特征向量的第二候选集。在图3中,由第二候选集的第一特征向量342、第二特征向量344、第三特征向量346和第四特征向量348组成的四个特征向量被表示为四个正方形。对于图2b中所图示的第二帧220中的第三对象250,已经确定了由四个特征向量组成的特征向量的第二候选集。在图3中,由第二候选集的第一特征向量352、第二特征向量354、第三特征向量356和第四特征向量358组成的四个特征向量被表示为四个三角形。参考集和每个候选集的特征向量的数量都是四个。这仅用于说明目的。通常,特征向量的数量可以是十个、数百个或更多。此外,参考集的特征向量的数量可以与候选集中的每一个的特征向量的数量不同,并且候选集之间的特征向量的数量可以不同。对于具有等于4的最小距离的预定数量的特征向量,并且距离是二维空间中的欧几里得距离,与参考集的每个特征向量距离最小的特征向量如下。对于参考集的第一特征向量312,候选集的四个最接近特征向量是第一候选集的第一特征向量332以及第二候选集的第一特征向量342、第二特征向量344和第三特征向量346。对于参考集的第二特征向量314,候选集的四个最接近特征向量是第二候选集的第一特征向量342和第二特征向量344以及第三候选集的第一特征向量352和第二特征向量354。对于参考集的第三特征向量316,候选集的四个最接近特征向量是第一候选集的第一特征向量332、第二候选集的第一特征向量342和第二特征向量344以及第三候选集的第一特征向量352。对于参考集的第四特征向量318,候选集的四个最接近特征向量是第二候选集的第一特征向量342、第二特征向量344、第三特征向量346和第四特征向量348。这总结在以下的表1中。
[0050][0051]
表1
[0052]
回到图1,对于多个特征向量候选集中的特征向量的每个候选集,确定s160与特征向量参考集的接近度的度量。接近度的度量被确定为属于该特征向量候选集的最接近特征
向量集的比例。
[0053]
从表1中可以看出,候选集的最接近特征向量集的特征向量总数是16。对于第一候选集,第一特征向量332被包括在最接近特征向量集中两次。因此,第一候选集的接近度的度量是2/16。对于第二候选集,第一特征向量342和第二特征向量344都被包括四次,第三特征向量346被包括两次,并且第四特征向量被包括在最接近特征向量集中一次。因此,第二候选集的接近度的度量是11/16。对于第三候选集,第一特征向量352被包括两次,并且第二特征向量354被包括在最接近特征向量集中一次。因此,第三候选集的接近度的度量是3/16。
[0054]
为第二帧中的多个对象检测中的每一个分配s170权重。基于对应于该对象检测的特征向量候选集的与特征向量参考集的所确定的接近度的度量来分配s170每个权重。因此,相对于图2b,分配给第一对象230的第一权重基于第一候选集的所确定的接近度的度量,分配给第二对象240的第二权重基于第二候选集的所确定的接近度的度量,并且分配给第三对象250的第三权重基于第三候选集的所确定的接近度的度量。
[0055]
由于分配的权重基于到与相应候选集的第一帧中的与第二帧中的对象检测相对应的对象检测相对应的参考集的接近度的度量以及确定接近度的度量的方式,因此分配的权重通常指示第一帧中的对象与第二帧中的每个对象之间的外观相似性度量。权重也可以被称为基于外观的权重。
[0056]
通过选择在特征向量空间中具有最小距离的更高预定数量的特征向量,将减少对候选集的少数异常值的接近度的度量的影响,使得接近度的度量将更大程度地取决于位于特征向量空间中更靠近候选集的中心的特征向量。
[0057]
分配的权重优选地使得,如果第二帧中的多个对象检测中的两个对象检测具有相同的接近度的度量,则分配给它们中的每一个的权重相同,并且如果第一对象检测具有比第二对象检测更高的接近度的度量,则第一对象检测的分配权重高于第二对象检测的分配权重。此外,分配给对象检测的权重可以与相应候选集的所确定的接近度的度量成比例。
[0058]
然后,基于分配的权重将第一帧中的对象检测与第二帧中的多个对象检测中的一个对象检测相关联s180。例如,分配的权重可以用于计算s175第二帧中的多个对象检测中的一个对象检测和第一帧中的对象检测的每个组合的关联分数。每个关联分数指示第二帧中的相关对象检测和第一帧中的对象检测涉及同一对象的概率,并且基于第二帧中的相关对象检测相对于第一帧中的对象检测的权重。然后,可以将第一帧中的对象检测与第二帧中的多个对象检测中的具有最高关联分数的对象检测相关联s180。
[0059]
例如,如果权重和关联分数仅基于第二帧中的多个对象中的每一个与第一帧中的对象之间的外观相似性,则可以将第二帧中的多个对象检测的每个对象检测的权重设置为等于该对象检测与第一帧的对象检测的接近度的度量。然后,可以将第二帧中的多个对象检测的每个对象检测相对于第一帧中的对象检测的关联分数设置为等于该对象检测的权重。
[0060]
对于图2b中所图示的第二帧220中的对象230、240、250以及基于表1确定的接近度的度量,第一对象230的权重和关联分数是2/16。第二对象240的权重和关联分数是11/16。第三对象250的权重和关联分数是3/16。
[0061]
关联分数中的每一个可以进一步基于第一帧中的对象检测的在第二帧中的预测
状态(例如,基于卡尔曼滤波器状态变量)。预测状态可以包括预测尺寸、预测形状、预测位置、预测速度和加速度中的一个或多个。第一帧中的对象检测的在第二帧中的预测状态通常基于第一帧中的对象检测所涉及的跟踪。在与对象检测关联之后,在每一帧中用所确定的状态更新跟踪。需要注意的是,关联后的所确定的状态不必与已进行关联的对象检测的特征相同。例如,所确定的状态可以在尺寸、形状、位置、速度和加速度中的一个或多个方面不同于关联的对象检测的状态。可以将第一帧中的对象检测的在第二帧中的预测状态与第二帧中的对象检测中的每一个进行比较,以确定第一帧中的该对象检测和第二帧中的相关对象检测涉及同一对象的概率。例如,距离dj可以确定为第一帧中的对象检测的在第二帧中的预测状态与第二帧中的第j对象检测之间的差。距离dj可以简单地是基于第一帧中的对象检测的在第二帧中的预测状态和第二帧中的第j对象检测的对象的中心点之间的距离,或者它可以基于对象的重叠,基于第一帧中的对象检测的在第二帧中的预测状态和第二帧中的第j对象检测,例如,如通过联合的交集所度量的。
[0062]
距离dj可以被转换成第一帧中的对象检测对应于第二帧中的第j对象检测的概率。例如,高斯曲线或随距离增加而衰减的其他曲线可以用于将距离转换成概率。通过示例的方式,第一帧中的对象检测对应于第二帧中的第j对象检测的概率pj可以根据以下等式来计算:
[0063][0064]
其中σ是预定常量。
[0065]
距离dj可以基于基于外观的权重wj来修改,基于外观的权重wj是基于接近度的度量计算的。例如,距离可以除以权重,并且可能通过常数重新缩放。基于距离的这样的修改,修改的概率或关联分数可以根据以下等式来计算:
[0066][0067]
其中α是用于管理基于外观的权重的影响的常数。
[0068]
当使用基于外观的权重来修改基于预测状态的概率时,对于第二帧中的多个对象检测中的每一个,分配的权重可以使得分配的权重是1加上该对象检测的接近度的度量与第二帧中的多个对象检测的除该对象检测之外的对象检测的平均的接近度的度量之间的差。因此,如果在第二帧中存在m个对象检测并且第二帧中的第j对象检测与第一帧中的对象检测的接近度的度量被表示为aj,则第j对象检测的权重wj根据以下等式来计算:
[0069][0070]
对于图2b中所图示的第二帧220中的对象230、240、250,以及基于表1确定的接近度的度量,根据等式2的第一对象230的权重w1是1 (2/16-1/2*(11/16 3/16))=22/32。根据等式1,第二对象240的权重w2是1 (11/16

1/2*(2/16 3/16))=49/32。根据等式1,第三对象250的权重w3是1 (3/16-1/2*(2/16 11/16))=25/32。
[0071]
然后,可以将第一帧中的对象检测与第二帧中的多个对象检测的具有最高修改概率(即最高关联分数)的对象检测相关联s180。
[0072]
关联可以例如用于基于第二帧中的多个对象检测来更新涉及第一帧中的对象检测的跟踪。然后,可以基于与第一帧中的对象检测相关联的第二帧中的对象检测来更新s185跟踪。
[0073]
上面已经描述了第一帧中的一个对象检测如何与第二帧中的多个对象检测中的一个对象检测相关联。然而,本公开的方法也适用于第一帧中的多个对象检测与第二帧中的多个对象检测相关联的情况。在这样的场景中,相对于第一帧中的多个对象检测的每个对象检测,将相应权重分配给第二帧中的多个对象检测的每个对象检测。
[0074]
然后,可以基于分配的权重将第一帧中的多个对象检测与第二帧中的多个对象检测中的相应对象检测相关联s180。例如,分配的权重可以用于计算s175第二帧中的多个对象检测中的一个对象检测和第一帧中的多个对象检测中的一个对象检测的每个组合的关联分数。每个关联分数指示第二帧中的相关对象检测和第一帧中的相关对象检测涉及同一对象的概率,并且基于第二帧中的相关对象检测相对于第一帧中的相关对象检测的权重。然后,关联分数可以在将第一帧中的多个对象检测中的每个对象检测与第二帧中的多个对象检测中的至多一个对象检测相关联的算法中使用,使得第二帧中的对象检测中的每个对象检测与第一帧中的多个对象检测中的至多一个对象检测相关联。例如,如果使用匈牙利算法将第一帧(先前帧)中的对象检测中的每一个与第二帧(当前帧)中的多个对象检测中的至多一个对象检测相关联,则匈牙利算法的输入是概率,概率表示对于第二帧中的多个检测中的每个对象检测,第一帧中的对象检测与第二帧中的该对象检测相关联(即,它们是同一对象)的可能性。因此,关联分数可以被计算为这样的概率。例如,如果权重和关联分数仅基于第二帧中的多个对象中的每一个与第一帧中的多个对象中的每一个之间的外观相似性,则第二帧中的多个对象检测的每个对象检测相对于第一帧中的多个对象检测的每个对象检测的权重可以被设置成等于第二帧中的多个对象检测的每个对象检测相对于第一帧中的多个对象检测的每个对象检测的接近度的对应的度量。然后,第二帧中的多个对象检测的每个对象检测相对于第一帧中的多个对象检测的每个对象检测的关联分数可以被设置成等于第二帧中的多个对象检测的每个对象检测相对于第一帧中的多个对象检测的每个对象检测的对应的权重。
[0075]
附加地,关联算法可以包括阈值,低于该阈值第一帧中的对象检测不与第二帧中的任何对象检测相关联。在这样的情况下,与第一帧中的对象检测相关的跟踪被称为失去跟踪。然后可以结束跟踪,或者可以使用超时,其中仅基于预测状态更新跟踪,而不使用第二帧中的任何关联对象检测来查看是否可以在后面的帧中进行关联。此外,算法可以进一步支持创建相对于不与第一帧中的任何对象检测相关联的第二帧中的对象检测的相应新跟踪。为了不基于仅出现在一帧或几帧中并且是由于噪声的第二帧中的对象检测创建新跟踪,可以使用延迟,使得仅当对象检测持续进行超过预定数量的帧时,才会创建新跟踪。
[0076]
关联分数中的每一个可以进一步基于第一帧中的多个对象检测中的相应对象检测的在第二帧中的预测状态(例如,基于卡尔曼滤波器状态变量)。预测状态可以包括预测尺寸、预测形状、预测位置、预测速度和加速度中的一个或多个。第一帧中的多个对象检测的相应对象检测的在第二帧中的预测状态通常基于第一帧中的多个对象检测的相应对象检测所涉及的跟踪。在与对象检测关联之后,在每一帧中用所确定的状态更新跟踪。需要注意的是,关联后的所确定的状态不必与已进行关联的对象检测的特征相同。例如,所确定的
状态可以在尺寸、形状、位置、速度和加速度中的一个或多个方面不同于关联的对象检测的状态。对于第一帧中的多个对象检测中的每个对象检测,可以将第一帧中的该对象检测的在第二帧中的预测状态与第二帧中的对象检测进行比较,以确定第一帧中的该对象检测和第二帧中的相关对象检测涉及同一对象的概率。例如,距离d
kj
可以确定为第一帧中的第k对象检测的在第二帧中的预测状态与第二帧中的第j对象检测之间的差。距离d
kj
可以简单地是基于第一帧中的第k对象检测的在第二帧中的预测状态和第二帧中的第j对象检测的对象的中心点之间的距离,或者它可以基于对象的重叠,基于第一帧中的第k对象检测的在第二帧中的预测状态和第二帧中的第j对象检测,例如,如通过联合的交集所度量的。
[0077]
距离d
kj
可以被转换成第一帧中的第k对象检测对应于第二帧中的第j对象检测的概率。例如,高斯曲线或随距离增加而衰减的其他曲线可以用于将距离转换成概率。通过示例的方式,第一帧中的第k对象检测对应于第二帧中的第j对象检测的概率p
kj
可以根据以下等式来计算:
[0078][0079]
其中σ是预定常量。
[0080]
距离d
kj
可以基于基于接近度的度量计算的基于外观的权重w
kj
来修改。例如,距离可以除以权重,并且可能通过常数重新缩放。基于距离的这样的修改,修改的概率或关联分数可以根据以下等式来计算:
[0081][0082]
其中α是用于管理基于外观的权重的影响的常数。
[0083]
当使用基于外观的权重来修改基于预测状态的概率时,第一帧中的多个对象检测的分配的权重均可以以如相对于与第一帧中的一个对象检测的分配的权重所描述的相同的方式来计算。例如,如果在第二帧中存在m个对象检测并且与第二帧中的第j对象检测与第一帧中的第k对象检测的接近度的度量被表示为a
kj
,则第一帧中的第k对象检测相对于第二帧中的第j对象检测的权重w
kj
根据以下等式来计算:
[0084][0085]
然后,可以将第一帧中的多个对象检测的每个对象检测与第二帧中的多个对象检测的具有最高关联分数的对象检测相关联s180。可替代地,然后,关联分数可以在将第一帧中的多个对象检测中的每个对象检测与第二帧中的多个对象检测中的至多一个对象检测相关联的算法中使用,使得第二帧中的对象检测中的每个对象检测与第一帧中的多个对象检测中的至多一个对象检测相关联。例如,如果使用匈牙利算法,则关联分数可以基于分配的权重和预测状态来确定,使得它们指示概率p
kj
,例如根据等式5,概率p
kj
指示第一帧中的第k对象检测与第二帧中的多个对象检测中的第j对象检测相关联(即它们是同一对象)的可能性。
[0086]
关联可以例如用于基于第二帧中的多个对象检测来更新涉及第一帧中的多个对
象检测的跟踪。对于第一帧中的多个对象检测中的每个对象检测,然后可以基于与第一帧中的对象检测相关联的第二帧中的对象检测来更新s185对应的跟踪。
[0087]
图4示出与使用卷积神经网络将第一帧中的对象检测与第二帧中的对象检测相关联的本公开的装置400的实施例相关的示意图。装置400包括电路410。电路410被配置成执行装置400的功能。电路410可以包括诸如中央处理单元(cpu)、微控制器或微处理器的处理器412。处理器412被配置成执行程序代码。程序代码可以例如被配置成执行装置400的功能。
[0088]
装置400可以进一步包括存储器430。存储器430可以是缓冲器、闪存、硬盘驱动器、可移动介质、易失性存储器、非易失性存储器、随机存取存储器(ram)或其他合适的装置中的一种或多种。在典型的布置中,存储器430可以包括用于长期数据存储的非易失性存储器和用作电路410的系统存储器的易失性存储器。存储器430可以通过数据总线与电路410交换数据。也可以存在存储器430与电路410之间的伴随的控制线和地址总线。
[0089]
图像处理装置400的功能可以以存储在装置400的非暂时性计算机可读介质(例如,存储器430)上并由电路400(例如,使用处理器412)执行的可执行逻辑例程(例如,代码行、软件程序等)的形式实施。此外,装置400的功能可以是独立的软件应用或形成执行与装置400相关的附加任务的软件应用的一部分。所描述的功能可以被认为是处理单元(例如,电路410的处理器412)被配置成执行的方法。另外,虽然所描述的功能可以在软件中实现,但是这样的功能也可以通过专用硬件或固件或者硬件、固件和/或软件的某种组合来实现。
[0090]
电路410被配置成执行第一区域接收功能431和参考集确定功能432,第一区域接收功能431被配置成接收第一帧的与第一帧中的对象检测相对应的区域,参考集确定功能432被配置成通过训练的卷积神经网络确定与第一帧中的区域相关联的包括两个或更多个特征向量的特征向量集,从而确定包括两个或更多个特征向量的特征向量参考集。
[0091]
电路410进一步被配置成执行第二区域接收功能433和候选集确定功能434,第二区域接收功能433被配置成接收第二帧的与第二帧中的多个对象检测的相应对象检测相对应的多个区域,候选集确定功能434被配置成对于第二帧中的多个区域中的每一个,通过训练的卷积神经网络确定与第二帧中的该区域相关联的特征向量集,从而确定多个特征向量候选集。
[0092]
电路410进一步被配置成执行最接近特征向量识别功能435,最接近特征向量识别功能435被配置成对于特征向量参考集的每个特征向量,在多个特征向量候选集的特征向量当中,识别在特征向量空间中与特征向量参考集的该特征向量具有最小距离的预定数量的特征向量,从而识别最接近特征向量集。
[0093]
电路410进一步被配置成执行接近度的度量确定功能436,接近度的度量确定功能436被配置成对于多个特征向量候选集中的每个特征向量候选集,将与特征向量参考集的接近度的度量确定为属于该特征向量候选集的最接近特征向量集的比例。
[0094]
电路410进一步被配置为执行权重分配功能437,权重分配功能437被配置成对于第二帧中的多个对象检测中的每一个,基于与该对象检测相对应的的特征向量候选集的与特征向量参考集的所确定的接近度的度量来分配权重。
[0095]
电路410进一步被配置成执行关联功能439,关联功能439被配置成基于分配的权重将第一帧中的对象检测与第二帧中的多个对象检测中的一个对象检测相关联。
[0096]
权重分配功能437可以被配置成分配权重,使得对于第二帧中的多个对象检测中的具有相同的接近度的度量的任何两个对象检测,分配的权重对于两个对象检测是相同的,并且对于第二帧中的多个对象检测中的比第二帧中的多个对象检测的另一对象检测具有更高的接近度的度量的任何对象检测,所述任何对象检测的分配的权重高于所述另一对象检测的分配的权重。
[0097]
电路410可以进一步被配置成执行关联分数计算功能438,关联分数计算功能438被配置成对于第二帧中的多个对象检测中的每个对象检测,基于该对象检测的权重来计算指示第二帧中的该对象检测与第一帧中的对象检测相关联的概率的关联分数。关联分数可以进一步基于第一帧中的对象检测的在第二帧中的预测状态。预测状态可以包括预测尺寸、预测形状、预测位置、预测速度和加速度中的一个或多个。
[0098]
关联功能439可以被配置成将第一帧中的对象检测与第二帧中的多个对象检测中的具有最高关联分数的对象检测相关联。
[0099]
第一帧中的对象检测可以与跟踪相关联,并且该电路可以进一步被配置成执行跟踪更新功能440,跟踪更新功能440被配置成基于第二帧中的与第一帧中的对象检测相关联的对象检测来更新跟踪。
[0100]
由电路410执行的功能可以进一步适用于关于图1、图2a和图2b以及图3描述的方法的实施例的对应的步骤。
[0101]
本领域技术人员可以理解,本发明不限于上述实施例。相反,在所附权利要求的范围内,许多修改和变化是可能的。通过研究附图、公开内容和所附权利要求,本领域技术人员在实践要求保护的本发明时可以理解和实现这样的修改和变化。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献