一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种基于卡尔曼滤波的视频标注方法及系统与流程

2021-10-24 04:00:00 来源:中国专利 TAG:标注 卡尔 滤波 视频 方法


1.本发明涉及视频标注技术领域,并且更具体地,涉及一种基于卡尔曼滤波的视频标注方法及系统。


背景技术:

2.在深度学习中,数据对于神经网络模型的预测结果起到了关键作用,数据就是神经网络学习的“知识”,通常需要大量的数据去训练神经网络才能看到明显的效果,数据标注是一件耗时耗力的事情,所以提升标注效率是一个关键点。
3.目前,在目标检测领域常用的数据标注软件有labelimg、cvat、标注精灵等。其中,labelimg和标注精灵只有基本的数据标注功能,cvat是一个比较全面的标注系统,支持视频标注,但是仍然有很多不足,比如不支持对常见物体进行预测、标注视频静态物体慢等,特别在遇到一幅图片中存在大量重复对象或者标注视频时,效率极低。
4.因此,需要一种能够快速准确地进行视频标注的方法。


技术实现要素:

5.本发明提出一种基于卡尔曼滤波的视频标注方法及系统,以解决如何快速准确地进行视频标注的问题。
6.为了解决上述问题,根据本发明的一个方面,提供了一种基于卡尔曼滤波的视频标注方法,所述方法包括:
7.步骤1,对卡尔曼滤波器的参数进行初始化设置;
8.步骤2,根据在预设帧数的图片上手动确定的待标注对象所在位置的起始框依次对所述卡尔曼滤波器的参数进行更新;
9.步骤3,利用更新后的卡尔曼滤波器预测在当前帧中所述待标注对象所在位置的预测框;
10.步骤4,利用选择性搜索算法查找当前帧的图片中所有的存在所述待标注对象的候选框;
11.步骤5,将所述待标注对象在当前帧图片所在的位置预测框和所有的候选框进行匹配,确定最匹配的候选框,并将所述最匹配的候选框作为所述待标注对象在当前帧图片中的目标框。
12.优选地,其中所述卡尔曼滤波器的参数,包括:卡尔曼滤波器在初始时刻的状态变量的最优估计卡尔曼滤波器在初始时刻的噪声协方差p0、卡尔曼滤波器的状态转移矩阵a和卡尔曼滤波器的噪声矩阵q。
13.优选地,其中所述根据在预设帧数的图片上手动确定的待标注对象所在位置的起始框依次对所述卡尔曼滤波器的参数进行更新,包括:
14.s21,计算k=1时刻时第1帧图片的状态变量的最优估计和噪声协方差p1,以用
于k=2时刻时第2帧图片的使用,包括:
15.s211,根据在第1帧图片上确定的待标注对象所在位置的起始框box1的信息得到k=1时刻的观测输入值z1=[u
z1
,v
z1
,s
z1
,r
z1
];其中,u
z1
,v
z1
,s
z1
,r
z1
分别为box1的横坐标、纵坐标、面积和长宽比;
[0016]
s212,将p0、a、q代入式(1)、(2),得出和p1‑

[0017]
s213,将p1‑
、r、h、h
t
代入式(3)得出k1;
[0018]
s214,将k1、z1、h代入式(4)得出
[0019]
s215,将k1、h、i代入式(5)得出p1;
[0020][0021][0022][0023][0024][0025]
其中,a为卡尔曼滤波器的状态转移矩阵,a的取值为:
[0026][0027]
其中,δt为间隔的时间或帧数;a
t
为a的转置矩阵;q为卡尔曼滤波器的噪声矩阵;为卡尔曼滤波器在k

1时刻的状态变量的最优估计;p
k
‑1为卡尔曼滤波器在k

1时刻的噪声协方差,表示各个状态变量之间的相互影响,p
k
‑1为7行7列的矩阵;为卡尔曼滤波器在k时刻的噪声协方差的初步预测值;为卡尔曼滤波器在k时刻的状态变量的初步估计,取值为:
[0028][0029]
其中,u
k
,v
k
,s
k
,r
k
分别为k时刻预测框中心位置的横坐标、纵坐标、面积和长宽比,分别为k时刻预测框横向、纵向和面积的变化速率,长宽比r
k
为定值;k
k
为k时刻的卡尔曼增益系数;为卡尔曼滤波器在k时刻的状态变量的最优估计;p
k
为卡尔曼滤波器在k时刻的噪声协方差的最优估计,用于下次迭代更新;为卡尔曼滤波器在k时刻的噪声协方差的初步预测值;z
k
为k时刻的观测输入值,z
k
=[u
zk
,v
zk
,s
zk
,r
zk
],u
zk
,v
zk
,s
zk
,r
zk
分别为k
时刻起始框中心位置的横坐标、纵坐标、面积和长宽比;h
t
为h的转置矩阵,h为观测函数;r为测量噪声,r=1000*i,i为4阶的单位矩阵;h的取值为:
[0030][0031]
s22,依次利用当前帧图片对应的状态变量的最优估计和噪声协方差计算得到下一帧图片对应的状态变量的最优估计和噪声协方差,直至完成k=n时刻对卡尔曼滤波器参数的迭代更新,以用于预测所述第n 1帧图片中所述待标注对象出现的位置;其中,n为预设帧数。
[0032]
优选地,其中所述利用更新后的卡尔曼滤波器预测在当前帧中所述待标注对象所在位置的预测框,包括:
[0033]
取当前帧数为k=n 1,将第n帧中的代入式(1)预测得到第n 1帧图片上所述待标注对象所在位置的预测框u
n 1
,v
n 1
,s
n 1
,r
n 1
分别为k=n 1时刻时第n 1帧图片上所述待标注对象所在位置的预测框的横坐标、纵坐标、面积和长宽比。
[0034]
优选地,其中所述利用选择性搜索算法查找当前帧的图片中所有的存在所述待标注对象的候选框,包括:
[0035]
输入阈值w至选择性搜索selective search算法,获取w个候选框,并将获取的w个候选框与上一帧图片中所述待标注对象所在位置的起始框box
n
进行遍历比对,以确定当前帧的图片中所有的存在所述待标注对象的候选框;其中,如果能找到满足预设条件的候选框,则所述候选框的数量即为该阈值w;否则,该阈值w自增1得到新阈值w 1,新阈值w 1继续在第n 1帧图片中进行遍历比对,直到找到满足预设条件的候选框为止,确定当前帧的图片中所有的存在所述待标注对象的候选框。
[0036]
优选地,其中所述预设条件,包括:
[0037]
iou1>k1ꢀꢀꢀꢀꢀꢀꢀ
(7)
[0038][0039]
其中,对于任一个候选框,iou1为候选框与box
n
的交并比,s
1交
为候选框与box
n
交集的面积,s
1并
为候选框与box
n
并集的面积,k1为第一交并比阈值;其中,若候选框满足iou1>k1,则确定候选框满足要求。
[0040]
优选地,其中所述将所述待标注对象在当前帧图片所在的位置预测框和所有的候选框进行匹配,确定最匹配的候选框,包括:
[0041]
计算所述待标注对象在当前帧图片所在的位置预测框和每个候选框的交并比;
[0042]
当仅存在一个候选框的交并比大于预设的第二交并比阈值时,选取该候选框为最匹配的候选框;
[0043]
当存在至少两个候选框的交并比大于预设的第二交并比阈值时,分别计算每个交并比大于预设的交并比阈值的候选框和所述待标注对象在当前帧图片所在的位置预测框
的相似度,并选取最大相似度对应的候选框为最匹配的候选框。
[0044]
优选地,其中所述方法还包括:
[0045]
利用所述待标注对象在当前帧图片中的目标框对所述卡尔曼滤波器进行更新,并返回步骤3重新计算,直至预测结果不满足预设的数据标注要求时,重新手动确定所述待标注对象所在位置的起始框,并使用重新手动确定的所述待标注对象所在位置的起始框按照预设的第三帧数阈值对所述卡尔曼滤波器进行更新,并返回步骤3重新计算,直至所有的帧被标注完成时停止。
[0046]
根据本发明的另一个方面,提供了一种基于卡尔曼滤波的视频标注系统,所述系统包括:
[0047]
初始化单元,用于对卡尔曼滤波器的参数进行初始化设置;
[0048]
第一更新单元,用于根据在预设帧数的图片上手动确定的待标注对象所在位置的起始框依次对所述卡尔曼滤波器的参数进行更新;
[0049]
预测单元,用于利用更新后的卡尔曼滤波器预测在当前帧中所述待标注对象所在位置的预测框;
[0050]
候选框确定单元,用于利用选择性搜索算法查找当前帧的图片中所有的存在所述待标注对象的候选框;
[0051]
标注单元,用于将所述待标注对象在当前帧图片所在的位置预测框和所有的候选框进行匹配,确定最匹配的候选框,并将所述最匹配的候选框作为所述待标注对象在当前帧图片中的目标框。
[0052]
优选地,其中所述卡尔曼滤波器的参数,包括:卡尔曼滤波器在初始时刻的状态变量的最优估计卡尔曼滤波器在初始时刻的噪声协方差p0、卡尔曼滤波器的状态转移矩阵a和卡尔曼滤波器的噪声矩阵q。
[0053]
优选地,其中所述第一更新单元,根据在预设帧数的图片上手动确定的待标注对象所在位置的起始框依次对所述卡尔曼滤波器的参数进行更新,包括:
[0054]
s21,计算k=1时刻时第1帧图片的状态变量的最优估计和噪声协方差p1,以用于k=2时刻时第2帧图片的使用,包括:
[0055]
s211,根据在第1帧图片上确定的待标注对象所在位置的起始框box1的信息得到k=1时刻的观测输入值z1=[u
z1
,v
z1
,s
z1
,r
z1
];其中,u
z1
,v
z1
,s
z1
,r
z1
分别为box1的横坐标、纵坐标、面积和长宽比;
[0056]
s212,将p0、a、q代入式(1)、(2),得出和p1‑

[0057]
s213,将p1‑
、r、h、h
t
代入式(3)得出k1;
[0058]
s214,将k1、z1、h代入式(4)得出
[0059]
s215,将k1、h、i代入式(5)得出p1;
[0060][0061][0062]
[0063][0064][0065]
其中,a为卡尔曼滤波器的状态转移矩阵,a的取值为:
[0066][0067]
其中,δt为间隔的时间或帧数;a
t
为a的转置矩阵;q为卡尔曼滤波器的噪声矩阵;为卡尔曼滤波器在k

1时刻的状态变量的最优估计;p
k
‑1为卡尔曼滤波器在k

1时刻的噪声协方差,表示各个状态变量之间的相互影响,p
k
‑1为7行7列的矩阵;为卡尔曼滤波器在k时刻的噪声协方差的初步预测值;为卡尔曼滤波器在k时刻的状态变量的初步估计,取值为:
[0068][0069]
其中,u
k
,v
k
,s
k
,r
k
分别为k时刻预测框中心位置的横坐标、纵坐标、面积和长宽比,分别为k时刻预测框横向、纵向和面积的变化速率,长宽比r
k
为定值;k
k
为k时刻的卡尔曼增益系数;为卡尔曼滤波器在k时刻的状态变量的最优估计;p
k
为卡尔曼滤波器在k时刻的噪声协方差的最优估计,用于下次迭代更新;为卡尔曼滤波器在k时刻的噪声协方差的初步预测值;z
k
为k时刻的观测输入值,z
k
=[u
zk
,v
zk
,s
zk
,r
zk
],u
zk
,v
zk
,s
zk
,r
zk
分别为k时刻起始框中心位置的横坐标、纵坐标、面积和长宽比;h
t
为h的转置矩阵,h为观测函数;r为测量噪声,r=1000*i,i为4阶的单位矩阵;h的取值为:
[0070][0071]
s22,依次利用当前帧图片对应的状态变量的最优估计和噪声协方差计算得到下一帧图片对应的状态变量的最优估计和噪声协方差,直至完成k=n时刻对卡尔曼滤波器参数的迭代更新,以用于预测所述第n 1帧图片中所述待标注对象出现的位置;其中,n为预设帧数。
[0072]
优选地,其中所述预测单元,利用更新后的卡尔曼滤波器预测在当前帧中所述待标注对象所在位置的预测框,包括:
[0073]
取当前帧数为k=n 1,将第n帧中的代入式(1)预测得到第n 1帧图片上所述待
标注对象所在位置的预测框u
n 1
,v
n 1
,s
n 1
,r
n 1
分别为k=n 1时刻时第n 1帧图片上所述待标注对象所在位置的预测框的横坐标、纵坐标、面积和长宽比。
[0074]
优选地,其中所述候选框确定单元,利用选择性搜索算法查找当前帧的图片中所有的存在所述待标注对象的候选框,包括:
[0075]
输入阈值w至选择性搜索selective search算法,获取w个候选框,并将获取的w个候选框与上一帧图片中所述待标注对象所在位置的起始框box
n
进行遍历比对,以确定当前帧的图片中所有的存在所述待标注对象的候选框;其中,如果能找到满足预设条件的候选框,则所述候选框的数量即为该阈值w;否则,该阈值w自增1得到新阈值w 1,新阈值w 1继续在第n 1帧图片中进行遍历比对,直到找到满足预设条件的候选框为止,确定当前帧的图片中所有的存在所述待标注对象的候选框。
[0076]
优选地,其中所述预设条件,包括:
[0077]
iou1>k1ꢀꢀꢀꢀꢀꢀꢀ
(7)
[0078][0079]
其中,对于任一个候选框,iou1为候选框与box
n
的交并比,s
1交
为候选框与box
n
交集的面积,s
1并
为候选框与box
n
并集的面积,k1为第一交并比阈值;其中,若候选框满足iou1>k1,则确定候选框满足要求。
[0080]
优选地,其中所述标注单元,将所述待标注对象在当前帧图片所在的位置预测框和所有的候选框进行匹配,确定最匹配的候选框,包括:
[0081]
计算所述待标注对象在当前帧图片所在的位置预测框和每个候选框的交并比;
[0082]
当仅存在一个候选框的交并比大于预设的第二交并比阈值时,选取该候选框为最匹配的候选框;
[0083]
当存在至少两个候选框的交并比大于预设的第二交并比阈值时,分别计算每个交并比大于预设的交并比阈值的候选框和所述待标注对象在当前帧图片所在的位置预测框的相似度,并选取最大相似度对应的候选框为最匹配的候选框。
[0084]
优选地,其中所述系统还包括:
[0085]
第二更新单元,用于利用所述待标注对象在当前帧图片中的目标框对所述卡尔曼滤波器进行更新,并进入预测单元重新计算,直至预测结果不满足预设的数据标注要求时,重新手动确定所述待标注对象所在位置的起始框,并使用重新手动确定的所述待标注对象所在位置的起始框按照预设的第三帧数阈值对所述卡尔曼滤波器进行更新,并进入预测单元重新计算,直至所有的帧被标注完成时停止。
[0086]
本发明提供了一种基于卡尔曼滤波的视频标注方法及系统,有效的利用了视频帧之间的存在的运动关系信息,并结合卡尔曼滤波器和选择性搜索性算法进行视频帧的标注,相比于传统的标注方式,极大的提高了视频标注效率,可以提高效率30%

80%,有效加快了标注速度。
附图说明
[0087]
通过参考下面的附图,可以更为完整地理解本发明的示例性实施方式:
[0088]
图1为根据本发明实施方式的基于卡尔曼滤波的视频标注方法100的流程图;
[0089]
图2为根据本发明实施方式的基于卡尔曼滤波的视频标注方法的流程图;
[0090]
图3为根据本发明实施方式的基于卡尔曼滤波的视频标注系统300的结构示意图。
具体实施方式
[0091]
现在参考附图介绍本发明的示例性实施方式,然而,本发明可以用许多不同的形式来实施,并且不局限于此处描述的实施例,提供这些实施例是为了详尽地且完全地公开本发明,并且向所属技术领域的技术人员充分传达本发明的范围。对于表示在附图中的示例性实施方式中的术语并不是对本发明的限定。在附图中,相同的单元/元件使用相同的附图标记。
[0092]
除非另有说明,此处使用的术语(包括科技术语)对所属技术领域的技术人员具有通常的理解含义。另外,可以理解的是,以通常使用的词典限定的术语,应当被理解为与其相关领域的语境具有一致的含义,而不应该被理解为理想化的或过于正式的意义。
[0093]
图1为根据本发明实施方式的基于卡尔曼滤波的视频标注方法100的流程图。如图1所示,本发明实施方式提供的基于卡尔曼滤波的视频标注方法,有效的利用了视频帧之间的存在的运动关系信息,并结合卡尔曼滤波器和选择性搜索性算法进行视频帧的标注,相比于传统的标注方式,极大的提高了视频标注效率,可以提高效率30%

80%,有效加快了标注速度。本发明实施方式提供的基于卡尔曼滤波的视频标注方法100,从步骤101处开始,在步骤101,对卡尔曼滤波器的参数进行初始化设置。
[0094]
优选地,所述卡尔曼滤波器的参数,包括:卡尔曼滤波器在初始时刻的状态变量的最优估计卡尔曼滤波器在初始时刻的噪声协方差p0、卡尔曼滤波器的状态转移矩阵a和卡尔曼滤波器的噪声矩阵q。
[0095]
在本发明中,初始化卡尔曼滤波器的参数具体为:
[0096]
(1)初始化卡尔曼滤波器在初始时刻的状态变量的最优估计:
[0097][0098]
初始化卡尔曼滤波器在初始时刻的噪声协方差:
[0099][0100]
(3)初始化卡尔曼滤波器的状态转移矩阵:
[0101]
[0102]
(4)初始化卡尔曼滤波器的噪声矩阵:
[0103][0104]
在步骤102,根据在预设帧数的图片上手动确定的待标注对象所在位置的起始框依次对所述卡尔曼滤波器的参数进行更新。
[0105]
优选地,所述根据在预设帧数的图片上手动确定的待标注对象所在位置的起始框依次对所述卡尔曼滤波器的参数进行更新,包括:
[0106]
s21,计算k=1时刻时第1帧图片的状态变量的最优估计和噪声协方差p1,以用于k=2时刻时第2帧图片的使用,包括:
[0107]
s211,根据在第1帧图片上确定的待标注对象所在位置的起始框box1的信息得到k=1时刻的观测输入值z1=[u
z1
,v
z1
,s
z1
,r
z1
];其中,u
z1
,v
z1
,s
z1
,r
z1
分别为box1的横坐标、纵坐标、面积和长宽比;
[0108]
s212,将p0、a、q代入式(1)、(2),得出和p1‑

[0109]
s213,将p1‑
、r、h、h
t
代入式(3)得出k1;
[0110]
s214,将k1、z1、h代入式(4)得出
[0111]
s215,将k1、h、i代入式(5)得出p1;
[0112][0113][0114][0115][0116][0117]
其中,a为卡尔曼滤波器的状态转移矩阵,a的取值为:
[0118][0119]
其中,δt为间隔的时间或帧数;a
t
为a的转置矩阵;q为卡尔曼滤波器的噪声矩阵;为卡尔曼滤波器在k

1时刻的状态变量的最优估计;p
k
‑1为卡尔曼滤波器在k

1时刻的噪声协方差,表示各个状态变量之间的相互影响,p
k
‑1为7行7列的矩阵;为卡尔曼滤波器在
k时刻的噪声协方差的初步预测值;为卡尔曼滤波器在k时刻的状态变量的初步估计,取值为:
[0120][0121]
其中,u
k
,v
k
,s
k
,r
k
分别为k时刻预测框中心位置的横坐标、纵坐标、面积和长宽比,分别为k时刻预测框横向、纵向和面积的变化速率,长宽比r
k
为定值;k
k
为k时刻的卡尔曼增益系数;为卡尔曼滤波器在k时刻的状态变量的最优估计;p
k
为卡尔曼滤波器在k时刻的噪声协方差的最优估计,用于下次迭代更新;为卡尔曼滤波器在k时刻的噪声协方差的初步预测值;z
k
为k时刻的观测输入值,z
k
=[u
zk
,v
zk
,s
zk
,r
zk
],u
zk
,v
zk
,s
zk
,r
zk
分别为k时刻起始框中心位置的横坐标、纵坐标、面积和长宽比;h
t
为h的转置矩阵,h为观测函数;r为测量噪声,r=1000*i,i为4阶的单位矩阵;h的取值为:
[0122][0123]
s22,依次利用当前帧图片对应的状态变量的最优估计和噪声协方差计算得到下一帧图片对应的状态变量的最优估计和噪声协方差,直至完成k=n时刻对卡尔曼滤波器参数的迭代更新,以用于预测所述第n 1帧图片中所述待标注对象出现的位置;其中,n为预设帧数。
[0124]
在本发明中,根据每一帧图片的起始框依次更新卡尔曼滤波器的参数的方法为:
[0125]
(1)计算k=1时刻即第1帧图片的p1,具体计算方法为:
[0126]
1.1)人为在第1帧图片上手动框选所述待标注对象的起始框box1,根据box1的信息可得到z1值,z1为k=1时刻的观测输入值,z1=[u
z1
,v
z2
,s
z3
,r
z4
],u
z1
,v
z1
,s
z1
,r
z1
分别为box1的横坐标、纵坐标、面积和长宽比;
[0127]
1.2),将p0、a、q代入式(1)、(2),得出和p1‑

[0128]
1.3,将p1‑
、r、h、h
t
代入式(3)得出k1;
[0129]
1.4),将k1、z1、h代入式(4)得出
[0130]
1.5),将k1、h、i代入式(5)得出p1;
[0131][0132][0133][0134][0135]
[0136]
式(1)、式(2)中,a为卡尔曼滤波器的状态转移矩阵,a的取值如下:
[0137][0138]
δt为间隔的时间或帧数;a
t
为a的转置矩阵;q为卡尔曼滤波器的噪声矩阵;为卡尔曼滤波器在k

1时刻的状态变量的最优估计;p
k
‑1为卡尔曼滤波器在k

1时刻的噪声协方差,表示各个状态变量之间的相互影响,p
k
‑1为7行7列的矩阵;为卡尔曼滤波器在k时刻的噪声协方差的初步预测值;为卡尔曼滤波器在k时刻的状态变量的初步估计,取值如下:
[0139][0140]
式(6)中,u
k
,v
k
,s
k
,r
k
分别为k时刻预测框中心位置的横坐标、纵坐标、面积和长宽比,分别为k时刻预测框横向、纵向、面积的变化速率,并假定长宽比r
k
始终保持不变;
[0141]
式(4)

式(6)中,k
k
为k时刻的卡尔曼增益系数;为卡尔曼滤波器在k时刻的状态变量的最优估计;p
k
为卡尔曼滤波器在k时刻的噪声协方差的最优估计,用于下次迭代更新;为卡尔曼滤波器在k时刻的噪声协方差的初步预测值;z
k
为k时刻的观测输入值,z
k
=[u
zk
,v
zk
,s
zk
,r
zk
],u
zk
,v
zk
,s
zk
,r
zk
分别为k时刻起始框中心位置的横坐标、纵坐标、面积和长宽比;h
t
为h的转置矩阵,h为观测函数;r为测量噪声,r=1000*i,h与i的取值如下:
[0142][0143][0144]
综上,计算可得p1,从而完成k=1时刻对卡尔曼滤波器参数的迭代更新,以供k=2时刻即第2帧图片使用;
[0145]
(2)同(1)计算方法,根据p1计算第2帧图片的p2;
[0146]
根据p2计算第3帧图片的p3;
……
;根据p
n
‑1计算第n帧图片的p
n
,从而对所述连续的前n帧图片操作完成,即完成k=n时刻对卡尔曼滤波器参数的迭代更新,以用于预测所述第n 1帧图片中所述待标注对象出现的位置。
[0147]
在步骤103,利用更新后的卡尔曼滤波器预测在当前帧中所述待标注对象所在位置的预测框。
[0148]
优选地,所述利用更新后的卡尔曼滤波器预测在当前帧中所述待标注对象所在位置的预测框,包括:
[0149]
取当前帧数为k=n 1,将第n帧中的代入式(1)预测得到第n 1帧图片上所述待标注对象所在位置的预测框u
n 1
,v
n 1
,s
n 1
,r
n 1
分别为k=n 1时刻时第n 1帧图片上所述待标注对象所在位置的预测框的横坐标、纵坐标、面积和长宽比。
[0150]
在本发明中,取k=n 1,将第n帧中的代入式(1.1)可预测得到第n 1帧图片上所述待标注对象的所述预测框的u
n 1
,v
n 1
,s
n 1
,r
n 1
分别为k=n 1时刻,即第n 1帧图片上所述待标注对象的所述预测框中心位置的横坐标、纵坐标、面积和长宽比。
[0151]
在步骤104,利用选择性搜索算法查找当前帧的图片中所有的存在所述待标注对象的候选框。
[0152]
优选地,其中所述利用选择性搜索算法查找当前帧的图片中所有的存在所述待标注对象的候选框,包括:
[0153]
输入阈值w至选择性搜索selective search算法,获取w个候选框,并将获取的w个候选框与上一帧图片中所述待标注对象所在位置的起始框box
n
进行遍历比对,以确定当前帧的图片中所有的存在所述待标注对象的候选框;其中,如果能找到满足预设条件的候选框,则所述候选框的数量即为该阈值w;否则,该阈值w自增1得到新阈值w 1,新阈值w 1继续在第n 1帧图片中进行遍历比对,直到找到满足预设条件的候选框为止,确定当前帧的图片中所有的存在所述待标注对象的候选框。
[0154]
优选地,所述预设条件,包括:
[0155]
iou1>k1ꢀꢀꢀꢀꢀꢀ
(7)
[0156][0157]
其中,对于任一个候选框,iou1为候选框与box
n
的交并比,s
1交
为候选框与box
n
交集的面积,s
1并
为候选框与box
n
并集的面积,k1为第一交并比阈值;其中,若候选框满足iou1>k1,则确定候选框满足要求。
[0158]
在本发明中,输入阈值w至selective search算法,得出w个候选框,将得出的w个候选框与box
n
进行遍历比对,如果能找到满足预设条件的候选框,则所述候选框的数量即为该阈值w;否则,该阈值w自增1得到新阈值w 1,新阈值w 1继续在第n 1帧图片中进行遍历比对,直到找到满足预设条件的候选框为止;其中,box
n
表示人为在第n帧图片上手动框选所述待标注对象的起始框,根据box
n
的信息可得到z
n
值,z
n
=[u
zn
,v
zn
,s
zn
,r
zn
],u
zn
,v
zn
,s
zn
,
r
zn
分别为box
n
的横坐标、纵坐标、面积和长宽比。
[0159]
可选地,所述预设条件为:iou1>k1,k1为0.7,交并比iou1的计算方法为:
[0160][0161]
其中,iou1为候选框与box
n
的交并比,s
1交
为候选框与box
n
交集的面积,s
1并
为候选框与box
n
并集的面积。
[0162]
在步骤105,将所述待标注对象在当前帧图片所在的位置预测框和所有的候选框进行匹配,确定最匹配的候选框,并将所述最匹配的候选框作为所述待标注对象在当前帧图片中的目标框。
[0163]
优选地,其中所述将所述待标注对象在当前帧图片所在的位置预测框和所有的候选框进行匹配,确定最匹配的候选框,包括:
[0164]
计算所述待标注对象在当前帧图片所在的位置预测框和每个候选框的交并比;
[0165]
当仅存在一个候选框的交并比大于预设的第二交并比阈值时,选取该候选框为最匹配的候选框;
[0166]
当存在至少两个候选框的交并比大于预设的第二交并比阈值时,分别计算每个交并比大于预设的交并比阈值的候选框和所述待标注对象在当前帧图片所在的位置预测框的相似度,并选取最大相似度对应的候选框为最匹配的候选框。
[0167]
优选地,其中所述方法还包括:
[0168]
利用所述待标注对象在当前帧图片中的目标框对所述卡尔曼滤波器进行更新,并返回步骤3重新计算,直至预测结果不满足预设的数据标注要求时,重新手动确定所述待标注对象所在位置的起始框,并使用重新手动确定的所述待标注对象所在位置的起始框按照预设的第三帧数阈值对所述卡尔曼滤波器进行更新,并返回步骤3重新计算,直至所有的帧被标注完成时停止。
[0169]
在本发明中,将kalman filtering预测的a物体框与selective search算法找出的所有候选框的框做匹配,找出最匹配的候选区作为新的预测框。另外,在匹配的过程中,计算所述待标注对象所在的位置预测框和每个存在所述待标注对象的候选框的交并比iou,包括:
[0170][0171]
其中,iou2为计算所述预测框与所有候选框的交并比,s
2交
为所述预测框与候选框交集的面积,s
2并
为所述预测框与候选框并集的面积。
[0172]
当交并比大于预设的交并比阈值0.8的个数小于等于预设的个数阈值时,选取该候选框为最匹配的候选框;当交并比大于预设的交并比阈值的个数大于预设的个数阈值时,分别计算每个交并比大于预设的交并比阈值的候选框和所述待标注对象所在的位置预测框的相似度,并选取最大相似度对应的候选框为最匹配的候选框。其中,预设的个数阈值可以根据需求设定。例如,可以设置为5。
[0173]
如果存在多个满足所述最匹配条件的目标框,则计算各个候选框与所述预测框之间的相似度,取相似度最大的候选框作为待标注对象在当前帧图片即第n 1帧图片上的目
标框,使用目标框更新卡尔曼滤波器的参数,用于供k=n 2时刻的图片在计算更新卡尔曼滤波器的参数时使用。
[0174]
另外,在对第n 2帧图片之后(含第n 2帧)连续的若干帧图片重复所述步骤103

105,直到预测结果不符合人为定义的数据标注要求后,在当前帧图片之后连续的m帧图片上手动框选待标注对象得到新起始框,以此循环,并根据新起始框依次更新卡尔曼滤波器的参数。所述m取值为2或3,此时既能保证后续预测结果的准确性,又不造成数据冗余。
[0175]
本发明的基于卡尔曼滤波的视频标注方法,有效的利用了视频帧之间的存在的运动关系信息,并结合卡尔曼滤波器和选择性搜索性算法进行视频帧的标注,相比于传统的标注方式,极大的提高了视频标注效率,可以提高效率30%

80%,有效加快了标注速度。
[0176]
如图2所示,本发明的基于卡尔曼滤波的视频标注方法,包括:
[0177]
步骤a、初始化卡尔曼滤波器的参数,包括:卡尔曼滤波器在初始时刻的状态变量的最优估计卡尔曼滤波器在初始时刻的噪声协方差p0、卡尔曼滤波器的状态转移矩阵a和卡尔曼滤波器的噪声矩阵q。
[0178]
步骤b、人为选取一个物体a作为待标注对象,分别在连续前n帧图片上手动框选物体a,得到物体a的起始框,并根据每一帧图片的起始框依次更新卡尔曼滤波器的参数和p
k
,具体如下:
[0179]
本发明实施例假设n=3=k,则:
[0180]
计算k=1时刻的p1,从而完成k=1时刻对卡尔曼滤波器参数的迭代更新,以供k=2时刻的图片使用,具体计算方法为:
[0181]
1.1)取k=1即第1帧图片,人为在第1帧图片上手动框选物体a的起始框box1,根据box1的信息可得到z1值,z1为k=1时刻的观测输入值,z1=[u
z1
,v
z1
,s
z1
,r
z1
],u
z1
,v
z1
,s
z1
,r
z1
分别为box1的横坐标、纵坐标、面积和长宽比。
[0182]
1.2)将p0、a、q代入上式(11)、(1),得出和p1‑

[0183]
1.3)将p1‑
、r、h、h
t
代入式(3)得出k1;
[0184]
1.4)将k1、z1、h代入式(4)得出
[0185]
1.5)将k1、h、i代入式(5)得出p1。
[0186]
综上,计算可得和p1,从而完成k=1时刻对卡尔曼滤波器参数的迭代更新,和p1用于供k=2时刻的图片在计算更新卡尔曼滤波器的参数和p2时使用。
[0187]
(2)取k=2即第2帧图片,人为在第2帧图片上手动框选物体a的起始框box2,根据box2的信息可得到z2值,z2=[u
z2
,v
z2
,s
z2
,r
z2
],[u
z2
,v
z2
,s
z2
,r
z2
]分别为box2的横坐标、纵坐标、面积和长宽比。同(1)计算方法,计算可得和p2,从而完成k=2时刻对卡尔曼滤波器参数的迭代更新,和p2用于供k=3时刻的图片在计算更新卡尔曼滤波器的参数和p3时使用。
[0188]
(3)取k=3即第3帧图片,人为在第3帧图片上手动框选物体a的起始框box3,根据box3的信息可得到z3值,z3=[u
z3
,v
z3
,s
z3
,r
z3
],u
z3
,v
z3
,s
z3
,r
z3
分别为box3的横坐标、纵坐标、面积和长宽比。同(1)计算方法,计算可得和p3,从而完成k=3时刻对卡尔曼滤波器参数的迭代更新,和p3用于供k=4时刻的图片在计算更新卡尔曼滤波器的参数和p4时使用。
[0189]
如此,对连续的前3帧图片操作完成,从而完成对k=3时刻卡尔曼滤波器参数的迭代更新,以用于预测第4帧图片中物体a出现的位置。
[0190]
步骤c、使用更新参数后的卡尔曼滤波器预测第n 1帧图片中物体a出现的位置,得到物体a的预测框,具体为:
[0191]
本发明实施例的第n 1帧图片为第4帧图片。
[0192]
取k=4,将第3帧中的代入式(1)可预测得到第4帧图片上物体a的预测框的u4,v4,s4,r4分别为k=4时刻,即第4帧图片上物体a的预测框中心位置的横坐标、纵坐标、面积和长宽比。
[0193]
为了保证预测框的准确性,执行步骤d和步骤e。
[0194]
步骤d、在第n 1帧图片中找出所有存在物体a的候选框,具体为:
[0195]
本发明实施例的第n 1帧图片为第4帧图片。
[0196]
本发明实施例使用selective search算法进行查找:输入阈值w=100至selective search算法,得出100个候选框,将得出的100个候选框与步骤b中box3进行遍历比对,如果能找到满足预设条件的候选框,则候选框的数量即为该阈值100;否则,该阈值100自增1得到新阈值101,新阈值101继续在第4帧图片中进行遍历比对,直到找到满足预设条件的候选框为止。预设条件为iou1>0.7。
[0197]
步骤e、将步骤c所得的预测框与步骤d中所有的候选框做匹配,找出最匹配的候选框作为物体a在第n 1帧图片上的目标框,具体为:
[0198]
本发明实施例的第n 1帧图片为第4帧图片,最匹配的判断标准为:iou2>0.8。如果存在多个满足上述最匹配条件的候选框,则计算各个候选框与预测框之间的相似度,取相似度最大的候选框作为物体a在第4帧图片上的目标框,使用目标框更新卡尔曼滤波器的参数,用于供k=5时刻的图片在计算更新卡尔曼滤波器的参数时使用,具体更新方法同步骤b,目标框即为预测结果。
[0199]
相似度计算方法采用现有技术进行计算,例如使用opencv模板匹配算法进行计算。
[0200]
步骤f、对第n 2帧图片之后(含第n 2帧)连续的若干帧图片重复步骤c、步骤d和步骤e,直到预测结果不符合人为定义的数据标注要求后,在当前帧图片之后连续的m帧图片上手动框选物体a得到新起始框,以此循环,并根据新起始框依次更新卡尔曼滤波器的参数,具体更新方法同步骤b。
[0201]
人为定义的数据标注如:预测框将物体a的边界完全包裹。
[0202]
经试验数据表明,m取值为2或3较合适,此时既能保证后续预测结果的准确性,又不造成数据冗余。
[0203]
步骤g、重复步骤f直到视频中所有的图片被标注完成为止。
[0204]
图3为根据本发明实施方式的基于卡尔曼滤波的视频标注系统300的结构示意图。如图3所示,本发明实施方式提供的基于卡尔曼滤波的视频标注系统300,包括:初始化单元301、第一更新单元302、预测单元303、候选框确定单元304和标注单元305。
[0205]
优选地,所述初始化单元301,用于对卡尔曼滤波器的参数进行初始化设置。
[0206]
优选地,其中所述卡尔曼滤波器的参数,包括:卡尔曼滤波器在初始时刻的状态变量的最优估计卡尔曼滤波器在初始时刻的噪声协方差p0、卡尔曼滤波器的状态转移矩阵a和卡尔曼滤波器的噪声矩阵q。
[0207]
优选地,所述第一更新单元302,用于根据在预设帧数的图片上手动确定的待标注对象所在位置的起始框依次对所述卡尔曼滤波器的参数进行更新。
[0208]
优选地,其中所述第一更新单元302,根据在预设帧数的图片上手动确定的待标注对象所在位置的起始框依次对所述卡尔曼滤波器的参数进行更新,包括:
[0209]
s21,计算k=1时刻时第1帧图片的状态变量的最优估计和噪声协方差p1,以用于k=2时刻时第2帧图片的使用,包括:
[0210]
s211,根据在第1帧图片上确定的待标注对象所在位置的起始框box1的信息得到k=1时刻的观测输入值z1=[u
z1
,v
z1
,s
z1
,r
z1
];其中,u
z1
,v
z1
,s
z1
,r
z1
分别为box1的横坐标、纵坐标、面积和长宽比;
[0211]
s212,将p0、a、q代入式(1)、(2),得出和p1‑

[0212]
s213,将p1‑
、r、h、h
t
代入式(3)得出k1;
[0213]
s214,将k1、z1、h代入式(4)得出
[0214]
s215,将k1、h、i代入式(5)得出p1;
[0215][0216][0217][0218][0219][0220]
其中,a为卡尔曼滤波器的状态转移矩阵,a的取值为:
[0221][0222]
其中,δt为间隔的时间或帧数;a
t
为a的转置矩阵;q为卡尔曼滤波器的噪声矩阵;
为卡尔曼滤波器在k

1时刻的状态变量的最优估计;p
k
‑1为卡尔曼滤波器在k

1时刻的噪声协方差,表示各个状态变量之间的相互影响,p
k
‑1为7行7列的矩阵;为卡尔曼滤波器在k时刻的噪声协方差的初步预测值;为卡尔曼滤波器在k时刻的状态变量的初步估计,取值为:
[0223][0224]
其中,u
k
,v
k
,s
k
,r
k
分别为k时刻预测框中心位置的横坐标、纵坐标、面积和长宽比,分别为k时刻预测框横向、纵向和面积的变化速率,长宽比r
k
为定值;k
k
为k时刻的卡尔曼增益系数;为卡尔曼滤波器在k时刻的状态变量的最优估计;p
k
为卡尔曼滤波器在k时刻的噪声协方差的最优估计,用于下次迭代更新;为卡尔曼滤波器在k时刻的噪声协方差的初步预测值;z
k
为k时刻的观测输入值,z
k
=[u
zk
,v
zk
,s
zk
,r
zk
],u
zk
,v
zk
,s
zk
,r
zk
分别为k时刻起始框中心位置的横坐标、纵坐标、面积和长宽比;h
t
为h的转置矩阵,h为观测函数;r为测量噪声,r=1000*i,i为4阶的单位矩阵;h的取值为:
[0225][0226]
s22,依次利用当前帧图片对应的状态变量的最优估计和噪声协方差计算得到下一帧图片对应的状态变量的最优估计和噪声协方差,直至完成k=n时刻对卡尔曼滤波器参数的迭代更新,以用于预测所述第n 1帧图片中所述待标注对象出现的位置;其中,n为预设帧数。
[0227]
优选地,所述预测单元303,用于利用更新后的卡尔曼滤波器预测在当前帧中所述待标注对象所在位置的预测框。
[0228]
优选地,其中所述预测单元303,利用更新后的卡尔曼滤波器预测在当前帧中所述待标注对象所在位置的预测框,包括:
[0229]
取当前帧数为k=n 1,将第n帧中的代入式(1)预测得到第n 1帧图片上所述待标注对象所在位置的预测框u
n 1
,v
n 1
,s
n 1
,r
n 1
分别为k=n 1时刻时第n 1帧图片上所述待标注对象所在位置的预测框的横坐标、纵坐标、面积和长宽比。
[0230]
优选地,所述候选框确定单元304,用于利用选择性搜索算法查找当前帧的图片中所有的存在所述待标注对象的候选框。
[0231]
优选地,其中所述候选框确定单元304,利用选择性搜索算法查找当前帧的图片中所有的存在所述待标注对象的候选框,包括:
[0232]
输入阈值w至选择性搜索selective search算法,获取w个候选框,并将获取的w个候选框与上一帧图片中所述待标注对象所在位置的起始框box
n
进行遍历比对,以确定当前帧的图片中所有的存在所述待标注对象的候选框;其中,如果能找到满足预设条件的候选
框,则所述候选框的数量即为该阈值w;否则,该阈值w自增1得到新阈值w 1,新阈值w 1继续在第n 1帧图片中进行遍历比对,直到找到满足预设条件的候选框为止,确定当前帧的图片中所有的存在所述待标注对象的候选框。
[0233]
优选地,其中所述预设条件,包括:
[0234]
iou1>k1ꢀꢀꢀꢀꢀꢀ
(7)
[0235][0236]
其中,对于任一个候选框,iou1为候选框与box
n
的交并比,s
1交
为候选框与box
n
交集的面积,s
1并
为候选框与box
n
并集的面积,k1为第一交并比阈值;其中,若候选框满足iou1>k1,则确定候选框满足要求。
[0237]
优选地,所述标注单元305,用于将所述待标注对象在当前帧图片所在的位置预测框和所有的候选框进行匹配,确定最匹配的候选框,并将所述最匹配的候选框作为所述待标注对象在当前帧图片中的目标框。
[0238]
优选地,其中所述标注单元305,将所述待标注对象在当前帧图片所在的位置预测框和所有的候选框进行匹配,确定最匹配的候选框,包括:
[0239]
计算所述待标注对象在当前帧图片所在的位置预测框和每个候选框的交并比;
[0240]
当仅存在一个候选框的交并比大于预设的第二交并比阈值时,选取该候选框为最匹配的候选框;
[0241]
当存在至少两个候选框的交并比大于预设的第二交并比阈值时,分别计算每个交并比大于预设的交并比阈值的候选框和所述待标注对象在当前帧图片所在的位置预测框的相似度,并选取最大相似度对应的候选框为最匹配的候选框。
[0242]
优选地,其中所述系统还包括:
[0243]
第二更新单元,用于利用所述待标注对象在当前帧图片中的目标框对所述卡尔曼滤波器进行更新,并进入预测单元重新计算,直至预测结果不满足预设的数据标注要求时,重新手动确定所述待标注对象所在位置的起始框,并使用重新手动确定的所述待标注对象所在位置的起始框按照预设的第三帧数阈值对所述卡尔曼滤波器进行更新,并进入预测单元重新计算,直至所有的帧被标注完成时停止。
[0244]
本发明的实施例的基于卡尔曼滤波的视频标注系统300与本发明的另一个实施例的基于卡尔曼滤波的视频标注方法100相对应,在此不再赘述。
[0245]
已经通过参考少量实施方式描述了本发明。然而,本领域技术人员所公知的,正如附带的专利权利要求所限定的,除了本发明以上公开的其他的实施例等同地落在本发明的范围内。
[0246]
通常地,在权利要求中使用的所有术语都根据他们在技术领域的通常含义被解释,除非在其中被另外明确地定义。所有的参考“一个/所述/该[装置、组件等]”都被开放地解释为所述装置、组件等中的至少一个实例,除非另外明确地说明。这里公开的任何方法的步骤都没必要以公开的准确的顺序运行,除非明确地说明。
[0247]
本领域内的技术人员应明白,本技术的实施例可提供为方法、系统、或计算机程序产品。因此,本技术可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本技术可采用在一个或多个其中包含有计算机可用程序代码的计算机
可用存储介质(包括但不限于磁盘存储器、cd

rom、光学存储器等)上实施的计算机程序产品的形式。
[0248]
本技术是参照根据本技术实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
[0249]
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
[0250]
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
[0251]
最后应当说明的是:以上实施例仅用以说明本发明的技术方案而非对其限制,尽管参照上述实施例对本发明进行了详细的说明,所属领域的普通技术人员应当理解:依然可以对本发明的具体实施方式进行修改或者等同替换,而未脱离本发明精神和范围的任何修改或者等同替换,其均应涵盖在本发明的权利要求保护范围之内。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献

  • 日榜
  • 周榜
  • 月榜