一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

用于提取视频关键帧的方法、装置及控制器与流程

2021-12-15 02:10:00 来源:中国专利 TAG:


1.本发明涉及混凝土搅拌站智能监控技术领域,具体地,涉及一种用于提取视频关键帧的方法、装置及控制器。


背景技术:

2.在混凝土领域中,需要对搅拌站进、卸料口对齐视频数据进行关键帧的提取。目前,针对固定视角的运动场景视频关键帧的选取策略是基于抽帧处理,即间隔一定时间选取一张视频帧作为关键帧。现有技术的抽帧处理无法区分前景视频帧和背景视频帧,导致后续需要花费大量人力进行前景视频帧和背景视频帧的区分,抽帧处理对样本间的差异性进行定量描述,容易遗漏高质量的关键帧,难以做到样本质量与样本数量的平衡,最终导致选取的关键帧质量较低。


技术实现要素:

3.本发明的目的是提供一种用于提取视频关键帧的方法、装置及控制器,用以解决现有技术的抽帧质量较低的问题。
4.为了实现上述目的,本发明第一方面提供一种用于提取视频关键帧的方法,该方法包括:
5.获取在时间上依次相邻的第一视频帧、第二视频帧和第三视频帧;
6.将第三视频帧确定为目标视频帧;
7.对第一视频帧和第二视频帧进行差值处理以得到第一相邻差值图;
8.对第二视频帧和目标视频帧进行差值处理以得到第二相邻差值图;
9.确定目标视频帧与第二视频帧的相似度;
10.根据第一相邻差值图和第二相邻差值图判断目标视频帧是否包含运动;
11.在目标视频帧包含运动且相似度小于第一设定值的情况下,确定目标视频帧为前景关键帧;
12.在目标视频帧不包含运动且相似度小于第二设定值的情况下,确定目标视频帧为背景关键帧。
13.在本发明的实施例中,该方法还包括:
14.分别对第一视频帧、第二视频帧和目标视频帧进行图像滤波;
15.分别对滤波后的第一视频帧、第二视频帧和目标视频帧进行图像锐化。
16.在本发明的实施例中,根据第一相邻差值图和第二相邻差值图判断目标视频帧是否包含运动包括:
17.分别对第一相邻差值图和第二相邻差值图进行二值化处理;
18.分别对二值化处理后的第一相邻差值图和第二相邻差值图进行形态学处理;
19.对形态学处理后的第一相邻差值图和第二相邻差值图进行与运算并滤除小面积连通区域以得到二值运动图像;
20.将二值运动图像中孤立的连通区域聚合成目标连通区域,并求出目标连通区域的外接矩形;
21.根据外接矩形的面积与目标视频帧的图像面积的比值判断目标视频帧是否包含运动。
22.在本发明的实施例中,分别对二值化处理后的第一相邻差值图和第二相邻差值图进行形态学处理包括:
23.分别对二值化处理后的第一相邻差值图和第二相邻差值图进行腐蚀处理和膨胀处理。
24.在本发明的实施例中,根据外接矩形的面积与目标视频帧的图像面积的比值判断目标视频帧是否包含运动包括:
25.计算外接矩形的面积与目标视频帧的图像面积的比值;
26.在外接矩形的面积与目标视频帧的图像面积的比值大于设定阈值的情况下,确定目标视频帧包含运动;
27.在外接矩形的面积与目标视频帧的图像面积的比值不大于设定阈值的情况下,确定目标视频帧不包含运动。
28.在本发明的实施例中,确定目标视频帧与第二视频帧的相似度包括:
29.利用结构相似性算法计算目标视频帧与第二视频帧的相似度。
30.在本发明的实施例中,相似度满足以下公式:
[0031][0032]
c1=(k1l)2;
[0033]
c2=(k2l)2;
[0034]
其中,ssim(x,y)为目标视频帧和第二视频帧的相似度;x和y分别为目标视频帧和第二视频帧;μ
x
和μ
y
分别为目标视频帧和第二视频帧的图像灰度矩阵的平均值;σ
x2
和σ
y2
分别为目标视频帧和第二视频帧的图像灰度矩阵的方差值;σ
xy
为目标视频帧和第二视频帧的图像灰度矩阵的协方差;c1和c2为用来维持稳定的常数;l为像素值的动态范围;k1=0.01;k2=0.03。
[0035]
在本发明的实施例中,该方法还包括:
[0036]
计算目标视频帧的帧号;
[0037]
判断目标视频帧的帧号是否满足抽帧规则;
[0038]
在目标视频帧包含运动且满足抽帧规则的情况下,判定目标视频帧为前景关键帧;
[0039]
在目标视频帧不包含运动且满足抽帧规则的情况下,判定目标视频帧为背景关键帧。
[0040]
本发明第二方面提供一种控制器,被配置成执行上述的用于提取视频关键帧的方法。
[0041]
本发明第三方面提供一种用于提取视频关键帧的装置,该装置包括:
[0042]
视频采集模块,用于采集固定视角的运动场景视频;
[0043]
上述的控制器。
[0044]
本发明第四方面提供一种混凝土机械设备,包括上述的用于提取视频关键帧的装置。
[0045]
通过上述技术方案,抽取三张时间上依次相邻的视频帧,判断目标视频帧是否包含运动以及目标视频帧与相邻视频帧的相似度,从而在抽帧的同时能够区分前景关键帧和背景关键帧,不需要后续花费大量人力进行区分,结合抽帧处理策略,可以保证本帧在一定冗余的情况下,提高了选取关键帧的效率与质量。
[0046]
本发明的其它特征和优点将在随后的具体实施例部分予以详细说明。
附图说明
[0047]
附图是用来提供对本发明的进一步理解,并且构成说明书的一部分,与下面的具体实施例一起用于解释本发明,但并不构成对本发明的限制。在附图中:
[0048]
图1是本发明一实施例提供的一种用于提取视频关键帧的方法的流程示意图;
[0049]
图2是本发明实施例提供的一种用于判断目标视频帧是否包含运动的方法的流程示意图;
[0050]
图3是本发明另一实施例提供的一种用于提取视频关键帧的方法的流程示意图;
[0051]
图4是本发明实施例提供的控制器的结构框图;
[0052]
图5是本发明实施例提供的一种用于提取视频关键帧的装置的结构示意图。
具体实施方式
[0053]
以下结合附图对本发明的具体实施例进行详细说明。应当理解的是,此处所描述的具体实施例仅用于说明和解释本发明,并不用于限制本发明。
[0054]
需要说明,若本发明实施例中有涉及方向性指示(诸如上、下、左、右、前、后
……
),则该方向性指示仅用于解释在某一特定姿态(如附图所示)下各部件之间的相对位置关系、运动情况等,如果该特定姿态发生改变时,则该方向性指示也相应地随之改变。
[0055]
另外,若本发明实施例中有涉及“第一”、“第二”等的描述,则该“第一”、“第二”等的描述仅用于描述目的,而不能理解为指示或暗示其相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。另外,各个实施例之间的技术方案可以相互结合,但是必须是以本领域普通技术人员能够实现为基础,当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在,也不在本技术要求的保护范围之内。
[0056]
图1是本发明一实施例提供的一种用于提取视频关键帧的方法的流程示意图。参见图1,本发明实施例提供一种用于提取视频关键帧的方法,该方法可以包括下列步骤:
[0057]
步骤s11、获取在时间上依次相邻的第一视频帧、第二视频帧和第三视频帧;
[0058]
步骤s12、将第三视频帧确定为目标视频帧;
[0059]
步骤s13、对第一视频帧和第二视频帧进行差值处理以得到第一相邻差值图;
[0060]
步骤s14、对第二视频帧和目标视频帧进行差值处理以得到第二相邻差值图;
[0061]
步骤s15、确定目标视频帧与第二视频帧的相似度;
[0062]
步骤s16、根据第一相邻差值图和第二相邻差值图判断目标视频帧是否包含运动;
[0063]
步骤s17、在目标视频帧包含运动且相似度小于第一设定值的情况下,确定目标视
频帧为前景关键帧;
[0064]
步骤s18、在目标视频帧不包含运动且相似度小于第二设定值的情况下,确定目标视频帧为背景关键帧。
[0065]
本发明实施例的用于提取视频关键帧的方法可以应用于混凝土机械设备,可以包括但不限于搅拌站搅拌车进、卸料口对齐视频关键帧选取等。在本发明的实施例中,视频都是由静止的画面组成的,这些静止的画面被称为帧。考虑计算效率、对运动检测敏感性以及算法的抗干扰能力,本发明实施例需要选择三帧帧差法进行运动检测,因此需要读入在时间上依次相邻的三帧视频,即第一视频帧、第二视频帧和第三视频帧。将第三视频帧确定为目标视频帧,基于目标视频帧和时间上相邻的前两帧视频,利用三帧差法运动检测。三帧差法是相邻两帧差分算法的一种改进算法,选取连续三帧视频图像进行差分运算,该算法的基本原理是先选取视频帧中连续三帧图像并分别计算相邻两帧的差分图像,将差分图像通过选取适当的阈值进行二值化处理,得到二值化图像,最后在相邻二值差值图进行逻辑与运算,获取共同部分,从而获得运动目标的轮廓信息。当视频中存在移动的物体时,相邻帧之间在灰度上会有差别,求取两帧图像灰度差的绝对值,则静止的物体在差值图像上表现出来全都是0,而移动的物体特别是移动物体的轮廓处由于存在灰度变化为非0,这样就能大致计算出移动物体的位置、轮廓和移动路径。
[0066]
在本发明的实施例中,分别在第一视频帧和第二视频帧之间以及第二视频帧和目标视频帧之间进行差值处理,得到两张相邻差值图,即第一相邻差值图和第二相邻差值图,以便根据两张相邻差值图判断目标视频帧是否包含运动。同时,计算目标视频帧与第二视频帧的相似度,从而根据目标视频帧是否包含运动,与对应的设定值进行比较,从而确定目标视频帧是不是可以提取的关键帧。
[0067]
在本发明的实施例中,确定目标视频帧与第二视频帧的相似度可以通过图像结构相似性(structural similarity,ssim)算法计算。ssim是一种衡量两幅图像相似度的指标,自然图像具有极高的结构性,表现图像的像素间存在着很强的相关性,尤其是在空间相似的情况下。这些相关性在视觉场景中携带着关于物体结构的重要信息,利用ssim算子计算目标视频帧与第二视频帧的相似度可以得到目标视频帧的差异性,使得视频帧间差异化可量化。在本发明的实施例中,前景关键帧即包含运动的关键帧,背景关键帧即不包含运动的关键帧。在目标视频帧包含运动的情况下,可以设定第一设定值,在相似度小于第一设定值的情况下,可以确定目标视频帧为前景关键帧。在目标视频帧不包含运动的情况下,可以设定第二设定值,在相似度小于第二设定值的情况下,可以确定目标视频帧为背景关键帧。
[0068]
通过上述技术方案,抽取三张时间上依次相邻的视频帧,判断目标视频帧是否包含运动以及目标视频帧与相邻视频帧的相似度,从而在抽帧的同时能够区分前景关键帧和背景关键帧,不需要后续花费大量人力进行区分,提高了选取关键帧的效率与质量。
[0069]
在本发明的实施例中,该方法还可以包括:
[0070]
分别对第一视频帧、第二视频帧和目标视频帧进行图像滤波;
[0071]
分别对滤波后的第一视频帧、第二视频帧和目标视频帧进行图像锐化。
[0072]
具体地,图像滤波即在尽量保留图像细节特征的条件下对目标图像的噪声进行控制,是图像预处理中不可缺少的操作,其处理效果的好坏将直接影响到后续图像处理和分析的有效性和可靠性。图像锐化是补偿图像的轮廓,增强图像的边缘及灰度跳变的部分,使
图像变得清晰,分为空间域处理和频域处理两类。图像锐化是为了突出图像上地物的边缘、轮廓,或某些线性目标要素的特征。这种滤波方法提高了地物边缘与周围像元之间的反差,因此也被称为边缘增强。通过对第一视频帧、第二视频帧和目标视频帧进行图像滤波和图像锐化,可以提取图像中用于认识和识别图像特征的参量,为图像识别准备数据。
[0073]
图2是本发明实施例提供的一种用于判断目标视频帧是否包含运动的方法的流程示意图。参见图2,步骤s16、根据第一相邻差值图和第二相邻差值图判断目标视频帧是否包含运动可以包括:
[0074]
s21、分别对第一相邻差值图和第二相邻差值图进行二值化处理;
[0075]
s22、分别对二值化处理后的第一相邻差值图和第二相邻差值图进行形态学处理;
[0076]
s23、对形态学处理后的第一相邻差值图和第二相邻差值图进行与运算并滤除小面积连通区域以得到二值运动图像;
[0077]
s24、将二值运动图像中孤立的连通区域聚合成目标连通区域,并求出目标连通区域的外接矩形;
[0078]
s25、根据外接矩形的面积与目标视频帧的图像面积的比值判断目标视频帧是否包含运动。
[0079]
在本发明的实施例中,判断目标视频帧是否包含运动可以根据第一相邻差值图和第二相邻差值图进行判断。在第一相邻差值图和第二相邻差值图相差太大的情况下,可以判定目标视频帧包含运动,在第一相邻差值图和第二相邻差值图的变化在变化阈值内,可以判定目标视频帧不包含运动。具体地,分别对第一相邻差值图和第二相邻差值图进行二值化处理,图像二值化是指将图像上的像素点的灰度值设置为0或255,也就是将整个图像呈现出明显的黑白效果的过程。在图像处理中,图像的二值化可以使图像中数据量大为减少,从而能凸显出目标视频帧的轮廓。
[0080]
二值化处理后,在分别对第一相邻差值图和第二相邻差值图进行形态学处理。形态学即数学形态学,是图像处理中应用最为广泛的技术之一,用于从图像中提取对表达和描绘区域形状有意义的图像分量,使得后续的识别工作能够抓住目标视频帧最为本质的形状特征。在本发明的实施例中,分别对二值化处理后的第一相邻差值图和第二相邻差值图进行形态学处理可以包括:分别对二值化处理后的第一相邻差值图和第二相邻差值图进行腐蚀处理和膨胀处理。腐蚀和膨胀是两种最基本也是最重要的形态学处理,其他大多数形态学处理也是基于腐蚀和膨胀两种基本运算复合而成。腐蚀处理可以消融物体的边界,而具体的腐蚀结果与图像本身和结构元素的形状有关。膨胀处理和腐蚀处理对子集合求补和反射运算是彼此对偶的。膨胀处理可以使得物体的边界扩大,具体的膨胀结果与图像本身和结构元素的形状有关。图像二值化之后,容易使一个连通的物体断裂为两个部分,这会给后续的图像分析造成困扰,因此需要借助膨胀桥接断裂的缝隙。
[0081]
形态学处理后,可以对第一相邻差值图和第二相邻差值图进行与运算,进一步滤除相关伪运动区域,并滤除小面积连通区域以得到二值运动图像。接着将最终的二值运动图像中各个孤立连通区域聚合成目标连通区域,并利用聚合后的目标连通区域求取其外接矩形。利用外接矩形与图像面积的比值作为判别目标视频帧是否包含运动。
[0082]
在本发明的实施例中,根据外接矩形的面积与目标视频帧的图像面积的比值判断目标视频帧是否包含运动可以包括:
[0083]
计算外接矩形的面积与目标视频帧的图像面积的比值;
[0084]
在外接矩形的面积与目标视频帧的图像面积的比值大于设定阈值的情况下,确定目标视频帧包含运动;
[0085]
在外接矩形的面积与目标视频帧的图像面积的比值不大于设定阈值的情况下,确定目标视频帧不包含运动。
[0086]
具体地,在外接矩形占比较大的情况下,表示目标视频帧包含运动,在外接矩形占比较小的情况下,表示目标视频帧不包含运动。
[0087]
通过上述技术方案,可以更加高效并且精确地判断出目标视频帧是否包含运动,为之后的区分前景关键帧和背景关键帧提供了有力依据。
[0088]
在本发明的实施例中,步骤s15、确定目标视频帧与第二视频帧的相似度可以包括:
[0089]
利用结构相似性算法计算目标视频帧与第二视频帧的相似度。
[0090]
在本发明的实施例中,相似度可以满足以下公式:
[0091][0092]
c1=(k1l)2;
[0093]
c2=(k2l)2;
[0094]
其中,ssim(x,y)为目标视频帧和第二视频帧的相似度;x和y分别为目标视频帧和第二视频帧;μ
x
和μ
y
分别为目标视频帧和第二视频帧的图像灰度矩阵的平均值;σ
x2
和σ
y2
分别为目标视频帧和第二视频帧的图像灰度矩阵的方差值;σ
xy
为目标视频帧和第二视频帧的图像灰度矩阵的协方差;c1和c2为用来维持稳定的常数;l为像素值的动态范围;k1=0.01;k2=0.03。
[0095]
具体地,ssim是一种衡量两幅图像相似度的指标,自然图像具有极高的结构性,表现图像的像素间存在着很强的相关性,尤其是在空间相似的情况下。这些相关性在视觉场景中携带着关于物体结构的重要信息,利用ssim算子计算目标视频帧与第二视频帧的相似度可以得到目标视频帧的差异性,使得计算效率更高。作为结构相似性理论的实现,结构相似度指数从图像组成的角度将结构信息定义为独立于亮度、对比度的,反映场景中物体结构的属性,并将失真建模为亮度、对比度和结构三个不同因素的组合。用均值作为亮度的估计,标准差作为对比度的估计,协方差作为结构相似程度的度量。使用ssim算法比较目标视频帧和第二视频帧的相似度,通过感知结构信息来评价失真更接近人眼。
[0096]
需要说明的是,本发明实施例中确定目标视频帧与第二视频帧的相似度的方法不限于上述的ssim算法,还可以是其他用于确定目标视频帧与第二视频帧的相似度的方法。
[0097]
图3是本发明另一实施例提供的一种用于提取视频关键帧的方法的流程示意图。参见图3,该方法还可以包括:
[0098]
步骤s31、计算目标视频帧的帧号;
[0099]
步骤s32、判断目标视频帧的帧号是否满足抽帧规则;
[0100]
步骤s33、在目标视频帧包含运动且满足抽帧规则的情况下,判定目标视频帧为前景关键帧;
[0101]
步骤s34、在目标视频帧不包含运动且满足抽帧规则的情况下,判定目标视频帧为
背景关键帧。
[0102]
在本发明的实施例中,如果只通过判断目标视频帧是否包含运动以及目标视频帧与相邻视频帧的相似度抽取前景关键帧和背景关键帧,可能会造成关键帧数量过少的情况。因此,本发明实施例还可以设定抽帧规则,例如,每间隔设定数目的视频帧抽取一张作为关键帧,这样,在目标视频帧包含运动的情况下,判断目标视频帧是否满足抽帧规则,在目标视频帧满足抽帧规则的情况下,判定为前景关键帧;在目标视频帧不包含运动的情况下,判断目标视频帧是否满足抽帧规则,在目标视频帧满足抽帧规则的情况下,判定为背景关键帧。通过上述技术方案,可以丰富视频关键帧的样本数目。
[0103]
图4是本发明实施例提供的控制器的结构框图。参见图4,本发明提供一种控制器,被配置成执行上述的用于提取视频关键帧的方法。在本技术的实施例中,该控制器可以包括处理器410和存储器420。存储器420可以存储有指令,该指令在被处理器410执行时可以使得处理器410执行之前实施例中描述的用于提取视频关键帧的方法。
[0104]
具体地,在本发明的实施例中,处理器410被配置成:
[0105]
获取在时间上依次相邻的第一视频帧、第二视频帧和第三视频帧;
[0106]
将第三视频帧确定为目标视频帧;
[0107]
对第一视频帧和第二视频帧进行差值处理以得到第一相邻差值图;
[0108]
对第二视频帧和目标视频帧进行差值处理以得到第二相邻差值图;
[0109]
确定目标视频帧与第二视频帧的相似度;
[0110]
根据第一相邻差值图和第二相邻差值图判断目标视频帧是否包含运动;
[0111]
在目标视频帧包含运动且相似度小于第一设定值的情况下,确定目标视频帧为前景关键帧;
[0112]
在目标视频帧不包含运动且相似度小于第二设定值的情况下,确定目标视频帧为背景关键帧。
[0113]
本发明实施例的用于提取视频关键帧的方法可以应用于混凝土机械设备,可以包括但不限于搅拌站搅拌车进、卸料口对齐视频关键帧选取等。在本发明的实施例中,视频都是由静止的画面组成的,这些静止的画面被称为帧。考虑计算效率、对运动检测敏感性以及算法的抗干扰能力,本发明实施例需要选择三帧帧差法进行运动检测,因此需要读入在时间上依次相邻的三帧视频,即第一视频帧、第二视频帧和第三视频帧。将第三视频帧确定为目标视频帧,基于目标视频帧和时间上相邻的前两帧视频,利用三帧差法运动检测。三帧差法是相邻两帧差分算法的一种改进算法,选取连续三帧视频图像进行差分运算,该算法的基本原理是先选取视频帧中连续三帧图像并分别计算相邻两帧的差分图像,将差分图像通过选取适当的阈值进行二值化处理,得到二值化图像,最后在相连二值差值图进行逻辑与运算,获取共同部分,从而获得运动目标的轮廓信息。当视频中存在移动的物体时,相邻帧之间在灰度上会有差别,求取两帧图像灰度差的绝对值,则静止的物体在差值图像上表现出来全都是0,而移动的物体特别是移动物体的轮廓处由于存在灰度变化为非0,这样就能大致计算出移动物体的位置、轮廓和移动路径。
[0114]
在本发明的实施例中,分别在第一视频帧和第二视频帧之间以及第二视频帧和目标视频帧之间进行差值处理,得到两张相邻差值图,即第一相邻差值图和第二相邻差值图,以便根据两张相邻差值图判断目标视频帧是否包含运动。同时,计算目标视频帧与第二视
频帧的相似度,从而根据目标视频帧是否包含运动,与对应的设定值进行比较,从而确定目标视频帧是不是可以提取的关键帧。
[0115]
在本发明的实施例中,确定目标视频帧与第二视频帧的相似度可以通过图像结构相似性(structural similarity,ssim)算法计算。ssim是一种衡量两幅图像相似度的指标,自然图像具有极高的结构性,表现图像的像素间存在着很强的相关性,尤其是在空间相似的情况下。这些相关性在视觉场景中携带着关于物体结构的重要信息,利用ssim算子计算目标视频帧与第二视频帧的相似度可以得到目标视频帧的差异性,使得视频帧间差异化可量化。在本发明的实施例中,前景关键帧即包含运动的关键帧,背景关键帧即不包含的关键帧。在目标视频帧包含运动的情况下,可以设定第一设定值,在相似度小于第一设定值的情况下,可以确定目标视频帧为前景关键帧。在目标视频帧不包含运动的情况下,可以设定第二设定值,在相似度小于第二设定值的情况下,可以确定目标视频帧为背景关键帧。
[0116]
通过上述技术方案,抽取三张时间上依次相邻的视频帧,判断目标视频帧是否包含运动以及目标视频帧与相邻视频帧的相似度,从而在抽帧的同时能够区分前景关键帧和背景关键帧,不需要后续花费大量人力进行区分,提高了选取关键帧的效率与质量。
[0117]
进一步地,处理器410还被配置成:
[0118]
分别对第一视频帧、第二视频帧和目标视频帧进行图像滤波;
[0119]
分别对滤波后的第一视频帧、第二视频帧和目标视频帧进行图像锐化。
[0120]
具体地,图像滤波即在尽量保留图像细节特征的条件下对目标图像的噪声进行控制,是图像预处理中不可缺少的操作,其处理效果的好坏将直接影响到后续图像处理和分析的有效性和可靠性。图像锐化是补偿图像的轮廓,增强图像的边缘及灰度跳变的部分,使图像变得清晰,分为空间域处理和频域处理两类。图像锐化是为了突出图像上地物的边缘、轮廓,或某些线性目标要素的特征。这种滤波方法提高了地物边缘与周围像元之间的反差,因此也被称为边缘增强。通过对第一视频帧、第二视频帧和目标视频帧进行图像滤波和图像锐化,可以提取图像中用于认识和识别图像特征的参量,为图像识别准备数据。
[0121]
进一步地,处理器410还被配置成:
[0122]
根据第一相邻差值图和第二相邻差值图判断目标视频帧是否包含运动可以包括:
[0123]
分别对第一相邻差值图和第二相邻差值图进行二值化处理;
[0124]
分别对二值化处理后的第一相邻差值图和第二相邻差值图进行形态学处理;
[0125]
对形态学处理后的第一相邻差值图和第二相邻差值图进行与运算并滤除小面积连通区域以得到二值运动图像;
[0126]
将二值运动图像中孤立的连通区域聚合成目标连通区域,并求出目标连通区域的外接矩形;
[0127]
根据外接矩形的面积与目标视频帧的图像面积的比值判断目标视频帧是否包含运动。
[0128]
在本发明的实施例中,判断目标视频帧是否包含运动可以根据第一相邻差值图和第二相邻差值图进行判断。在第一相邻差值图和第二相邻差值图相差太大的情况下,可以判定目标视频帧包含运动,在第一相邻差值图和第二相邻差值图的变化在变化阈值内,可以判定目标视频帧不包含运动。具体地,分别对第一相邻差值图和第二相邻差值图进行二值化处理,图像二值化是指将图像上的像素点的灰度值设置为0或255,也就是将整个图像
呈现出明显的黑白效果的过程。在图像处理中,图像的二值化可以使图像中数据量大为减少,从而能凸显出目标视频帧的轮廓。
[0129]
二值化处理后,在分别对第一相邻差值图和第二相邻差值图进行形态学处理。形态学即数学形态学,是图像处理中应用最为广泛的技术之一,用于从图像中提取对表达和描绘区域形状有意义的图像分量,使得后续的识别工作能够抓住目标视频帧最为本质的形状特征。在本发明的实施例中,分别对二值化处理后的第一相邻差值图和第二相邻差值图进行形态学处理可以包括:分别对二值化处理后的第一相邻差值图和第二相邻差值图进行腐蚀处理和膨胀处理。腐蚀和膨胀是两种最基本也是最重要的形态学处理,其他大多数形态学处理也是基于腐蚀和膨胀两种基本运算复合而成。腐蚀处理可以消融物体的边界,而具体的腐蚀结果与图像本身和结构元素的形状有关。膨胀处理和腐蚀处理对子集合求补和反射运算是彼此对偶的。膨胀处理可以使得物体的边界扩大,具体的膨胀结果与图像本身和结构元素的形状有关。图像二值化之后,容易使一个连通的物体断裂为两个部分,这会给后续的图像分析造成困扰,因此需要借助膨胀桥接断裂的缝隙。
[0130]
形态学处理后,可以对第一相邻差值图和第二相邻差值图进行与运算,进一步滤除相关伪运动区域,并滤除小面积连通区域以得到二值运动图像。接着将最终的二值运动图像中各个孤立连通区域聚合成目标连通区域,并利用聚合后的目标连通区域求取其外接矩形。利用外接矩形与图像面积的比值作为判别目标视频帧是否包含运动。
[0131]
进一步地,处理器410还被配置成:
[0132]
根据外接矩形的面积与目标视频帧的图像面积的比值判断目标视频帧是否包含运动可以包括:
[0133]
计算外接矩形的面积与目标视频帧的图像面积的比值;
[0134]
在外接矩形的面积与目标视频帧的图像面积的比值大于设定阈值的情况下,确定目标视频帧包含运动;
[0135]
在外接矩形的面积与目标视频帧的图像面积的比值不大于设定阈值的情况下,确定目标视频帧不包含运动。
[0136]
具体地,在外接矩形占比较大的情况下,表示目标视频帧包含运动,在外接矩形占比较小的情况下,表示目标视频帧不包含运动。
[0137]
通过上述技术方案,可以更加高效并且精确地判断出目标视频帧是否包含运动,为之后的区分前景关键帧和背景关键帧提供了有力依据。
[0138]
进一步地,处理器410还被配置成:
[0139]
确定目标视频帧与第二视频帧的相似度可以包括:
[0140]
利用结构相似性算法计算目标视频帧与第二视频帧的相似度。
[0141]
在本发明的实施例中,相似度可以满足以下公式:
[0142][0143]
c1=(k1l)2;
[0144]
c2=(k2l)2;
[0145]
其中,ssim(x,y)为目标视频帧和第二视频帧的相似度;x和y分别为目标视频帧和第二视频帧;μ
x
和μ
y
分别为目标视频帧和第二视频帧的图像灰度矩阵的平均值;σ
x2
和σ
y2

别为目标视频帧和第二视频帧的图像灰度矩阵的方差值;σ
xy
为目标视频帧和第二视频帧的图像灰度矩阵的协方差;c1和c2为用来维持稳定的常数;l为像素值的动态范围;k1=0.01;k2=0.03。
[0146]
具体地,ssim是一种衡量两幅图像相似度的指标,自然图像具有极高的结构性,表现图像的像素间存在着很强的相关性,尤其是在空间相似的情况下。这些相关性在视觉场景中携带着关于物体结构的重要信息,利用ssim算子计算目标视频帧与第二视频帧的相似度可以得到目标视频帧的差异性,使得计算效率更高。作为结构相似性理论的实现,结构相似度指数从图像组成的角度将结构信息定义为独立于亮度、对比度的,反映场景中物体结构的属性,并将失真建模为亮度、对比度和结构三个不同因素的组合。用均值作为亮度的估计,标准差作为对比度的估计,协方差作为结构相似程度的度量。使用ssim算法比较目标视频帧和第二视频帧的相似度,通过感知结构信息来评价失真更接近人眼。
[0147]
需要说明的是,本发明实施例中确定目标视频帧与第二视频帧的相似度的方法不限于上述的ssim算法,还可以是其他用于确定目标视频帧与第二视频帧的相似度的方法。
[0148]
进一步地,处理器410还被配置成:
[0149]
计算目标视频帧的帧号;
[0150]
判断目标视频帧的帧号是否满足抽帧规则;
[0151]
在目标视频帧包含运动且满足抽帧规则的情况下,判定目标视频帧为前景关键帧;
[0152]
在目标视频帧不包含运动且满足抽帧规则的情况下,判定目标视频帧为背景关键帧。
[0153]
在本发明的实施例中,如果只通过判断目标视频帧是否包含运动以及目标视频帧与相邻视频帧的相似度抽取前景关键帧和背景关键帧,可能会造成关键帧数量过少的情况。因此,本发明实施例还可以设定抽帧规则,例如,每间隔设定数目的视频帧抽取一张作为关键帧,这样,在目标视频帧包含运动的情况下,判断目标视频帧是否满足抽帧规则,在目标视频帧满足抽帧规则的情况下,判定为前景关键帧;在目标视频帧不包含运动的情况下,判断目标视频帧是否满足抽帧规则,在目标视频帧满足抽帧规则的情况下,判定为背景关键帧。通过上述技术方案,可以丰富视频关键帧的样本数目。
[0154]
处理器410的示例可以包括但不限于通用处理器、专用处理器、常规处理器、数字信号处理器(dsp)、多个微处理器、与dsp核心关联的一个或多个微处理器、控制器、微控制器、专用集成电路(asic)、现场可编程门阵列(fpga)电路、其他任何类型的集成电路(ic)以及状态机等等。处理器可以执行信号编码、数据处理、功率控制、输入/输出处理。
[0155]
存储器420的示例可以包括但不限于相变内存(pram)、静态随机存取存储器(sram)、动态随机存取存储器(dram)、其他类型的随机存取存储器(ram)、只读存储器(rom)、电可擦除可编程只读存储器(eeprom)、快闪记忆体或其他内存技术、只读光盘只读存储器(cd

rom)、数字多功能光盘(dvd)或其他光学存储、磁盒式磁带,磁带磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被处理器访问的信息。
[0156]
图5是本发明实施例提供的一种用于提取视频关键帧的装置的结构示意图。参见图5,本发明还提供一种用于提取视频关键帧的装置,该装置可以包括:
[0157]
视频采集模块51,用于采集固定视角的运动场景视频;
[0158]
上述的控制器52。
[0159]
在本发明的实施例中,视频采集模块51与控制器52电连接,视频采集模块采集固定视角的运动场景视频,将视频传输至控制器,控制器抽取三张时间上依次相邻的视频帧,判断目标视频帧是否包含运动以及目标视频帧与相邻视频帧的相似度,从而在抽帧的同时能够区分前景关键帧和背景关键帧,不需要后续花费大量人力进行区分,结合抽帧处理策略,可以保证本帧在一定冗余的情况下,提高了选取关键帧的效率与质量。
[0160]
本发明还提供一种混凝土机械设备,可以包括上述的用于提取视频关键帧的装置。
[0161]
以上结合附图详细描述了本发明的优选实施例,但是,本发明并不限于上述实施例中的具体细节,在本发明的技术构思范围内,可以对本发明的技术方案进行多种简单变型,这些简单变型均属于本发明的保护范围。
[0162]
另外需要说明的是,在上述具体实施例中所描述的各个具体技术特征,在不矛盾的情况下,可以通过任何合适的方式进行组合。为了避免不必要的重复,本发明对各种可能的组合方式不再另行说明。
[0163]
此外,本发明的各种不同的实施例之间也可以进行任意组合,只要其不违背本发明的思想,其同样应当视为本发明所公开的内容。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献