一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

视频深度特征提取优化的方法、系统、设备及存储介质与流程

2021-11-09 21:15:00 来源:中国专利 TAG:


1.本发明涉及计算机机器视觉技术领域,特别涉及基于特征空间筛选的视频深度特征提取优化方法、系统、设备及存储介质。


背景技术:

2.视频可以看成是时间上连续的视频帧(图像)序列,在实际编码过程中,为了消除帧与帧之间的冗余信息,常会采用关键帧加上帧间差分的形式只存取必要的内容以便降低存储的压力。视频为了更有层次地表达人物故事情节,往往会有意通过空镜头形成黑色或白色等纯色帧、或者过渡帧完成场景的过渡和转换。在实际的检测或者检索应用中,视频需要通过解码出来的视频帧序列进行后续的进一步处理。视频本身解码形成的视频帧序列存在大量冗余的信息,特别是一些运动信息不丰富的视频,帧间的差距非常小,我们直接剔除掉这些冗余帧,对视频的后续处理影响非常小。除此之外,一些纯色帧以及过渡帧这些没有特定涵义的帧不仅会造成计算资源的浪费,而且还会影响到后续的检索等视觉处理任务,这些帧我们称之为无效帧。基于视觉的深度学习特征提取方法目前普遍建立在卷积神经网络(convolutional neural network,cnn)的基础之上。cnn以提取纹理特征为基础,这就决定了一些纹理信息不丰富或分布单一的图像提取的特征往往不能满足要求,某些涉及到检索的应用场景下,这些提取特征的引入会造成大规模的误匹配现象。其原因是cnn学到的底层特征是纹理的分布,随着深度越来越深,上层可以认为是图像的一个分布式的语义描述(distributed representation)。不同语义描述的图像往往在特征上表现为不同维度上的权重差异很大,在特征空间上相距甚远,而纹理信息不丰富的图像提取的特征可以看成了大量纹理丰富的图像特征叠加生成的,在特征空间上可能跟很多图像的特征都比较接近,所以有必要在执行这些视觉处理任务之前对所提取的特征进行筛选,除了提高性能以外,也方便提高视觉处理任务的效果。
3.目前对视频中无效帧和冗余帧的筛选往往定义在原始的时空域,通过视频片段分割到镜头、场景,最后到视频帧,判断依据都是在视频帧所在的时空域进行处理。对于无效帧的筛选,基于视频帧所表现出来的亮度、对比度以及模糊程度等表观统计量,进行无效帧的判断,然后直接进行筛选。对于冗余帧的筛选,基于镜头分割得到每一个镜头内的视频帧序列,对视频帧序列进行聚类或者直接计算均值,然后计算聚类中心或者均值差异较小程度,直接进行冗余帧的判定,然后基于判定的结果进行筛选。发现在原始的时空域进行视频帧的筛选会出现如下问题:
4.对复杂场景的视频不够鲁棒。只能根据预设的表观特征阈值进行无效帧和冗余帧的筛选,比如在一些运动信息较少的视频中设定的无效帧阈值参数应用到运动信息较多的视频中会造成大量的帧被判定为无效帧。运动信息较丰富的视频常常每一帧自身的画面比较模糊,而依赖于模糊表观建立的阈值,则会被大量地判定为无效帧。基于聚类中心或者均值得到的冗余帧的判定也极易受噪声的影响。
5.视频帧筛选的过程与后续的深度特征提取任务是两个相对独立的阶段,这就造成
前面筛选与后面的任务出现了一定程度的脱节的现象,即前面筛选掉的无效帧和冗余帧可能对后面基于深度特征提取的检索有帮助,而前面没有筛选掉的帧反而不能使后面检索高效运行。


技术实现要素:

6.本发明提供了视频深度特征提取优化的方法、系统、设备及存储介质,用以解决现有技术对复杂场景的视频不够鲁棒的问题。
7.为达到上述目的,本发明提供以下技术方案:
8.第一部分,本发明实施例的一种视频深度特征提取优化的方法,包括下列步骤:s1、获取视频无效帧种子;s2、构建无效特征底库;s3、更新所述的无效特征底库,以及获取视频有效特征集合;s4、根据更新后的所述无效特征底库和所述视频有效特征集合训练帧有效性二分判别模型;s5、利用所述的帧有效性二分判别模型提取视频有效特征。
9.优选的,步骤s5中还包括:以提取的所述视频有效特征更新所述的视频有效特征集合;以及,利用所述的帧有效性二分判别模型提取无效特征,以所述提取的无效特征更新所述的无效特征底库。
10.优选的,步骤s5之后还包括步骤:s6、从所述的视频有效特征集合中筛除视频冗余特征,得到有效关键特征集合。
11.进一步的,步骤s6之后还包括步骤:s7、根据任务设定相应的阈值,对所述的有效关键特征集合进行优化。
12.优选的,步骤s1中所述的获取视频无效帧种子,具体是获取视频中的单色视频帧、全局模糊的视频帧、单一纹理视频帧,或者单一场景视频帧。
13.进一步的,所述获取视频中的单色视频帧,无参考图像集时具体包括:
14.将i
rgb
转换为i
gray

15.颜色均匀性指标通过如下k

l散度公式计算:
[0016][0017]
设定u
thresh
,如果uniformity(i
gray
||μ
gray
)≤u
thresh
,则判定为单色视频帧并将其获取;
[0018]
其中,i
rgb
表示原始视频帧、i
gray
表示灰度图像、hist(i
gray
)表示视频帧的归一化灰度直方图,b表示直方图的桶数,hist(μ
gray
)表示对应灰度均值均匀分布、u
thresh
表示单色视频帧的k

l散度阈值。
[0019]
进一步的,所述获取视频中的单色视频帧,有参考图像集时具体包括:计算所述参考图像集中各参考视频帧的归一化灰度直方图;按灰度降序排序;计算灰度在前x%桶内累计分布的定积分数值作为颜色均匀性阈值,筛选单色视频帧并将其获取,计算公式如下:
[0020][0021]
其中,i
gray
表示灰度图像、hist(i
gray
)表示视频帧的归一化灰度直方图、x表示设定的百分比数值。
[0022]
进一步的,所述获取视频中的全局模糊的视频帧,具体包括:将i
rgb
转换为i
gray
;通过锐度对原始视频帧进行选择,所述的锐度通过如下公式计算:
[0023][0024]
设定s
thresh
,如果sharpness(i
gray
)≤s
thresh
,则判定为全局模糊的视频帧并将其获取;
[0025]
其中,i
rgb
表示原始视频帧、i
gray
表示灰度图像、s
thresh
表示锐度阈值、δ
x
和δ
y
表示所述锐度的两个正交方向上的灰度梯度。
[0026]
进一步的,所述获取视频中的单一纹理视频帧,通过模拟生成具体包括:将原始视频帧或截取原始视频帧的一部分,通过平移、旋转或/和缩放进行变换,将变换后的图像放入单色图像中形成所述的单一纹理视频帧。
[0027]
进一步的,所述获取视频中的单一纹理视频帧,通过梯度分布直方图阈值筛选,包括:将i
rgb
转换为i
gray
;以i
gray
的任一轴为旋转轴,记旋转角度为a∈[0,180),则
[0028]
方向梯度的均值为:
[0029]
方向梯度的方差为:
[0030]
锐度为:
[0031]
如果sharpness(i
gray
)≥s
thresh
并且δ2(δi
gray
)≤δ
2thresh
,判定为单一纹理视频帧并将其获取;
[0032]
其中,i
rgb
表示原始视频帧、i
gray
表示灰度图像、s
thresh
表示锐度阈值、δ
2thresh
表示方向梯度方差阈值、δ
x
和δ
y
表示所述锐度的两个正交方向上的灰度梯度。
[0033]
进一步的,将原始视频帧或截取原始视频帧的一部分,通过平移、旋转或/和缩放进行变换,将变换后的图像放入单色图像中;通过公式4和公式5计算所述含有变换后图像的单色图像,得到所述δ2(δi
gray
);通过公式6计算所述含有变换后图像的单色图像,得到所述sharpness(i
gray
)。
[0034]
进一步的,所述获取视频中的单一场景视频帧,具体是通过在单色图像上模拟椒盐噪声来生成。
[0035]
优选的,步骤s1中对所述视频无效帧种子进行扩展操作,包括:亮度变换、高斯模糊、运动模糊、平移旋转变换或/和叠加椒盐噪声。
[0036]
进一步的,步骤s2中所述的构建无效特征底库,具体包括:通过特征提取模型提取扩展后的视频无效帧种子的特征,构建无效特征底库。
[0037]
优选的,步骤s3中所述的更新无效特征底库以及获取视频有效特征集合,具体包括:将待分析视频通过特征提取模型映射为候选特征集合;将所述候选特征集合中的特征与所述无效特征底库中的特征逐一进行相似度表示,如下述公式计算:
[0038][0039]
如果s
ij
>s1,则判定f
i
为无效特征,将其加入到所述无效特征底库中;如果s
ij
≤s2,则判定f
i
为有效特征,将其加入到所述视频有效特征集合中;
[0040]
其中,f
i
表示候选特征集合,v
j
表示无效特征底库中特征的集合,s1为相似度第一阈值,s2为相似度第二阈值。
[0041]
进一步的,如果s
ij
>s1,还将f
i
对应的原始视频帧列为所述的视频无效帧种子;如果s
ij
≤s2,还构建有效帧集合,并将f
i
对应的原始视频帧加入到所述有效帧集合中。
[0042]
进一步的,如果s2<s
ij
≤s1,则判定f
i
为候选有效特征,构建候选有效帧集合,并将f
i
对应的原始视频帧加入到所述候选有效帧集合中。
[0043]
进一步的,步骤s4中所述的根据更新后的无效特征底库和视频有效特征集合训练帧有效性二分判别模型,具体是将所述的各视频无效帧种子以及所述有效帧集合中的各有效帧送入二类分类模型,训练得到所述的帧有效性二分判别模型。
[0044]
进一步的,在将所述的各视频无效帧种子以及所述有效帧集合中的各有效帧输入二类分类模型之前,对所述各无效帧和有效帧进行扩展操作,包括:亮度变换、高斯模糊、运动模糊、平移旋转变换或/和叠加椒盐噪声。
[0045]
进一步的,将所述的候选有效帧集合输入所述帧有效性二分判别模型,并将判定的无效帧列为所述的视频无效帧种子,将判定的有效帧加入所述有效帧集合中。
[0046]
进一步的,经所述帧有效性二分判别模型判定的无效帧还经过特征提取模型后,将无效特征加入所述无效特征底库;经所述帧有效性二分判别模型判定的有效帧还经过特征提取模型后,将有效特征加入所述视频有效特征集合。
[0047]
优选的,对所述无效特征底库中的各特征进行聚类操作。
[0048]
进一步的,步骤s6中所述的从视频有效特征集合中筛除视频冗余特征,得到有效关键特征集合,具体包括:s61、将视频有效特征集合中当前特征与其后一时序的特征进行相似度比对;s62、如比对结果小于相似度第三阈值s3,则将当前特征标注为有效关键特征并加入有效关键特征集合,以及将其后一时序特征赋值为当前特征,返回s61;否则,转入s63;s63、如比对结果大于等于相似度第三阈值s3,则筛除其后一时序特征,并返回s61。
[0049]
第二部分,本发明实施例的一种视频深度特征提取优化的系统,包括:获取视频无效帧种子单元,用于获取视频无效帧种子;构建无效特征底库单元,用于构建无效特征底库;更新单元,用于更新所述的无效特征底库,以及获取视频有效特征集合;训练单元,用于根据更新后的所述无效特征底库和所述视频有效特征集合训练帧有效性二分判别模型;提取视频有效特征单元,利用所述的帧有效性二分判别模型提取视频有效特征。
[0050]
优选的,还包括:筛除视频冗余特征单元,用于从所述的视频有效特征集合中筛除视频冗余特征,得到有效关键特征集合。
[0051]
进一步的,还包括:优化单元,用于根据任务设定相应的阈值,对所述的有效关键特征集合进行优化。
[0052]
第三部分,本发明实施例的一种计算机设备,包括:存储器、处理器,以及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现本发明任意实施例所述的视频深度特征提取优化的方法。
[0053]
第四部分,本发明实施例的一种包含计算机可执行指令的存储介质,所述计算机可执行指令在由计算机处理器执行时用于执行本发明任意实施例所述的视频深度特征提取优化的方法。
[0054]
本发明的视频深度特征提取优化的方法、系统、设备及存储介质,是在特征向量空间而不是在原始视频帧的时空域去做筛选,能够针对性地去优化复杂场景的视频。
附图说明
[0055]
此处所说明的附图用来提供对本发明的进一步理解,构成本发明的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
[0056]
图1为本发明实施例1的视频深度特征提取优化的方法的流程图;
[0057]
图2为本发明实施例2的视频深度特征提取优化的方法的流程图;
[0058]
图3为本发明实施例3的视频深度特征提取优化的系统的结构示意图;
[0059]
图4为本发明实施例4的视频深度特征提取优化的系统的结构示意图;
[0060]
图5为本发明实施例5的计算机设备的结构示意图。
具体实施方式
[0061]
发明人经过研究提出了基于特征空间筛选的视频深度特征提取优化方法、系统、设备及存储介质,以下通过实施例具体详述。
[0062]
实施例1、本实施例的视频深度特征提取优化的方法,参见图1所示,包括下列主要步骤:
[0063]
110、获取视频无效帧种子。
[0064]
在本步骤中,视频无效帧种子具体是获取视频中的单色视频帧、全局模糊的视频帧、单一纹理视频帧,或者单一场景视频帧。
[0065]
其中,获取单色视频帧,比如白色、黑色、灰色以及其他颜色的视频帧,在视频中不表示任何涵义,可能仅仅只是在多个不同的镜头转换中间做切分之用,在电影这一类型的视频中常常出现。单色图像由于纹理信息丢失,会造成cnn模型提取特征的每个维度的权重比较一致,这种一致性在分类和检测任务中影响不大,因为分类和检测更加关注局部的信息,但是在检索这种更加关注全局信息的任务中,可能会造成精度的下降。
[0066]
假定原始视频帧使用irgb表示,转换为灰度图像
[0067]
i
gray
=0.299*ir 0.587*ig 0.114*ib;
[0068]
单色视频帧的判断有两种方法,一是基于无参考图像的方法,二是基于参考图像集的方法。
[0069]
无参考图像集时,定义颜色均匀性使用的是基于灰度均值均匀分布的k

l散度指标来计算,视频帧的归一化灰度直方图表示为hist(i
gray
),直方图的桶(bin)数为b,对应灰度均值均匀分布为hist(μ
gray
),则颜色均匀性指标可以通过如下k

l散度计算
[0070][0071]
单色视频帧的选择通过设定单色视频帧的k

l散度阈值来判断,其基本逻辑是根据经验设定阈值u
thresh
,如果uniformity(i
gray
||μ
gray
)≤u
thresh
,则认为该候选视频帧为单色视频帧种子,否则不是。
[0072]
基于参考图像集时,判断候选视频帧是否在参考图像集中相对颜色均匀性排序靠前的那部分,计算图像的相对颜色均匀性指标作为阈值以便完成单色视频帧的筛选。假设参考图像集合为某一批视频帧,首先计算这批参考图像的归一化灰度直方图,然后按灰度降序排序,本实施例中计算灰度在前5%桶内累计分布的定积分数值作为颜色均匀性阈值,以此作为有参考图像集的单色图像帧筛选依据。
[0073][0074]
其中,获取全局模糊的视频帧,比如视频的运动信息造成的模糊,摄像机在拍摄视频时由于对焦不准造成模糊等,这类视频帧可以通过某些方向的高斯滤波来模拟。与单色视频帧相比,这类视频帧保留了少部分纹理特征,但是总体而言仍然属于包含不丰富的纹理信息的视频帧,在视频中仍然应该被视为无效帧。
[0075]
通过梯度信息能发现全局模糊的视频帧,基于锐度指标对候选视频帧进行选择,其中锐度可以看成两个正交方向上比如x轴与y轴灰度梯度的平方和,δ
x
和δ
y
表示锐度的两个正交方向上的灰度梯度。
[0076][0077]
能够筛选出来全局模糊的视频帧,设置阈值s
thresh
,当锐度sharpness(i
gray
)≤s
thresh
,则被认为是全局模糊的视频帧。但是较高的锐度值也可能反应的全局单一的纹理信息,比如前面提到的纯文字、树林、沙地等,所以有必要进行单一纹理视频帧的选择。
[0078]
其中,获取单一纹理视频帧,比如视频中的纯字幕场景帧,或者视频被弹幕文字完全覆盖的帧,以及全图的树叶、沙地等,这一类往往纹理信息比较单一,可以通过单一局部图像重复变换模拟,会造成一些检测任务在涉及场景中局部区域涉及文字等的误检测。
[0079]
单一纹理视频帧的选择有两种方法,一种是模拟生成图像方法,另外一种是梯度分布直方图阈值筛法。前者是单个目标或者截取真实图像的一部分,然后通过平移、旋转、缩放等操作,将变换后的目标或者部分图像放到空白或者单色图像中,形成单一纹理视频帧的方法。后者则是通过公式进行选择,本实施例中假定以图像(可以是经过平移、旋转、缩放等操作后的图像)的x轴为旋转轴(以图像的任一轴为旋转轴均可),记逆时针旋转角度为a∈[0,180),则方向梯度的均值和方差分别为:
[0080][0081][0082][0083]
锐度较大但是方向梯度方差较小的视频帧是单一纹理视频帧的可能性比较大。在实际应用中,首先基于平移、旋转、缩放等操作,生成一部分单一纹理视频帧,然后计算这一批单一纹理视频帧的锐度和方向梯度的方差两个指标,以这两个指标为参考,作为真实视频单一纹理视频帧的筛选阈值。如果不构造模拟方案,可以设定锐度和方向梯度方差的阈值作为筛选的方案,例如:锐度sharpness(i
gray
)≥0.8并且方向梯度方差δ2(δi
gray
)≤0.1。在实际应用中,通常采用第一种方案,即模拟生成一批单一纹理视频帧集合,然后统计这一批视频帧的锐度和方向梯度的方差的均值作为参考,进行真实视频单一纹理帧的选择。
[0084]
其中,获取单一场景视频帧,比如某些视频中某些黑夜中满天繁星、点点灯光等场景非常单一的帧,这些视频帧部分可以通过单色图像叠加椒盐噪声来模拟。这类视频帧同样的有纹理信息较少且单一的问题,在cnn模型中卷积的处理下,这些椒盐样的噪声会被部分滤掉,从而转成跟单色视频帧类似的情况,提取的特征每个维度的权重相对比较近似,影
响后续的检索任务,造成检索中精度下降。再比如某些视频存在固定的片头片尾,实际不表达特定的涵义,仅仅作为品牌标识,也应该放入无效帧种子中。
[0085]
在具体实现中,单一场景视频帧可以通过在单色图像上模拟椒盐噪声来生成,比如蓝天白云可以用天蓝色图像加上扩散的盐噪声模拟得到、黑夜中的繁星漫天的场景可以通过黑色图像叠加白色的盐噪声得到。考虑到这部分单一场景可能会在前面的处理流程中被选择到,且经过cnn模型后得到的特征与单色视频帧特征比较相似,所以在实际应用中,这部分可以选择少量视频帧样例放到视频无效帧种子里。一些视频的片头片尾涉及的语义比较高层,用底层指标可能很难衡量,可以直接采集对应的片头片尾帧作为单一场景视频帧种子。
[0086]
综上,获取视频无效帧种子的基本原则是要挑选那些纹理信息单一或者不丰富的视频帧,避免接下来特征提取过程提取的视频特征对后续任务的影响,通过无效特征的筛选优化最终得到的特征。经过以上的获取过程,得到了一批视频无效帧种子。进一步还可以对视频无效帧种子进行扩展操作,包括但不限于:亮度变换、高斯模糊、运动模糊、平移旋转变换或/和叠加椒盐噪声,使得视频无效帧种子可适应更为复杂的视频环境,增加了视频无效帧种子的数量,模型对有效帧、还是无效帧的特征提取能力都能得到保障。接下来基于这一批视频无效帧种子构建无效特征底库,并在实际筛选过程中进行无效特征底库的更新操作,最后筛选出视频的有效特征。
[0087]
120、构建无效特征底库。
[0088]
发明人考虑到,在具体实现中可以直接训练一个有效性判别的分类模型,但是至本步骤只有一批视频无效帧种子,数量较少,如扩大批次,则须耗费大量的资源,另外也没有有效帧的样本数据。因此,本实施例中是基于半监督学习的思想,基于已有的特征提取模型先提取已有的视频无效帧种子的特征,构成无效特征底库,之后有新视频帧被提取特征时,通过特征相似度的计算,得到跟无效特征相似的视频帧特征,将相似的视频帧特征加入到无效特征底库中完成更新,并将对应的视频帧列为视频无效帧种子,以便为判别模型准备数据样本,等到数据样本的规模达到一定程度,即可训练并更新有效性判别模型,然后基于有效性判别模型筛选掉无效的特征,选择视频的有效特征。
[0089]
基于上述思考,先构建无效特征底库。视频无效帧种子是一系列的视频帧,这些视频帧在表观上千差万别,但是在纹理上普遍不丰富和分布单一。为了能够适应视频无效帧特征提取,训练cnn特征提取模型之前,需要对视频无效帧种子进行扩展增强操作,至少需要能够适应视频无效帧种子提取过程中涉及到的明暗变化、高斯模糊、运动模糊、平移旋转变换以及叠加椒盐噪声等增强流程,这样才能更好地得到视频无效帧种子的特征。无效特征底库的构建流程如下:
[0090]
假定cnn提取模型的输入是任意图像irgb,输出是图像的特征表示v∈rk,其中k为提取的特征维度,则cnn提取特征的过程可以用如下的映射f表示:
[0091]
f:i
rgb

v
ꢀꢀ
公式107;
[0092]
假定视频无效帧种子集合为经过映射变换之后的无效特征集合为{v
j
:j=1,

,m},这些无效特征集合构成初始的无效特征底库。
[0093]
130、更新无效特征底库,以及获取视频有效特征集合。
[0094]
视频经过解码后得到的解码帧序列,经过cnn特征提取模型给出的映射f,得到候
选特征集合{f
i
=1,2,

,n},假定候选特征集合为{f
i
=1,2,

,n},其中n为视频的总帧数。候选特征与无效特征底库中的特征的相似度可以用两者之间的余弦相似度表示:
[0095][0096]
本实施例中定义无效特征比对相似度第一阈值s1=0.9,当s
ij
>s1时,判定候选特征f
i
为无效特征,将其加入到无效特征底库中,并将候选特征f
i
对应的原始视频帧列为视频无效帧种子。本实施例中定义有效特征比对相似度第二阈值为s2=0.5,当s
ij
≤s2时,判定候选特征f
i
为有效特征,将其加入到视频有效特征集合中,以及将其对应的原始视频帧放入到有效帧集合中。如果s2<s
ij
≤s1,判定该特征为候选有效特征,其对应的原始视频帧为候选有效帧,放入到候选有效帧集合中,等待后续训练的判别模型的二次确认。
[0097]
140、根据更新后无效特征底库和视频有效特征集合训练帧有效性二分判别模型。
[0098]
假定视频无效帧种子和有效帧集合的规模达到一定程度,比如可以设定为p≥10000,即可训练一个帧有效性二分判别模型来完成视频有效特征筛选过程。视频无效帧种子对应的图像集为负样本集,确认的有效帧集合为正样本集,经过至少亮度变换、高斯模糊、运动模糊、平移旋转变换以及叠加椒盐噪声等数据增强操作,然后送入到cnn二类分类模型(比如resnet50,输出层修改为两类输出),训练得到帧有效性二分判别模型:
[0099]
m
p
:i
rgb

label∈{0,1}
ꢀꢀ
公式109;
[0100]
然后基于帧有效性二分判别模型,进一步输入需要二次确认的候选有效帧集合,并将判定的无效帧列为视频无效帧种子,无效帧还经过特征提取模型后,将无效特征加入无效特征底库;将判定的有效帧加入有效帧集合中,有效帧还经过特征提取模型后,将有效特征加入视频有效特征集合。
[0101]
150、利用帧有效性二分判别模型提取视频有效特征。
[0102]
随着数据集规模p的增加,模型m
p
能够增量地训练更新,利用帧有效性二分判别模型提取的视频有效特征更新视频有效特征集合,提取无效特征更新无效特征底库。随着数据的更新,当无效特征底库的规模m增大后,新的待判别视频候选帧特征集合(集合大小为n)的全部特征与无效特征底库中的所有特征比较,这样的计算量往往比较大,复杂度为,由于特征的维度k为确定值,可以基于已有的无效特征底库进行聚类操作,在经过良好的聚类训练后,有效帧筛选的复杂度可以降低到,能大大提高有效特征筛选的速度。
[0103]
本实施例的方法,选择有代表性的无效帧加入到视频无效帧种子,通过深度特征提取方法构建无效特征底库,经过无效特征底库的相似度阈值筛选,能显著降低无效帧对后续影响,其原因是深度模型提取的特征本身具有比较明显的抵抗噪声的能力,如果针对性地对深度学习模型过程中的训练数据加上代表性的噪声模型进行对比学习,无效帧的影响将降到更低。
[0104]
实施例2、本实施例的视频深度特征提取优化的方法,参见图2所示,包括下列主要步骤:
[0105]
210、获取视频无效帧种子。
[0106]
在本步骤中,视频无效帧种子具体是获取视频中的单色视频帧、全局模糊的视频
帧、单一纹理视频帧,或者单一场景视频帧。
[0107]
其中,获取单色视频帧,比如白色、黑色、灰色以及其他颜色的视频帧,在视频中不表示任何涵义,可能仅仅只是在多个不同的镜头转换中间做切分之用,在电影这一类型的视频中常常出现。单色图像由于纹理信息丢失,会造成cnn模型提取特征的每个维度的权重比较一致,这种一致性在分类和检测任务中影响不大,因为分类和检测更加关注局部的信息,但是在检索这种更加关注全局信息的任务中,可能会造成精度的下降。
[0108]
假定原始视频帧使用i
rgb
表示,转换为灰度图像
[0109]
i
gray
=0.299*ir 0.587*ig 0.114*ib;
[0110]
单色视频帧的判断有两种方法,一是基于无参考图像的方法,二是基于参考图像集的方法。
[0111]
无参考图像集时,定义颜色均匀性使用的是基于灰度均值均匀分布的k

l散度指标来计算,视频帧的归一化灰度直方图表示为hist(i
gray
),直方图的桶(bin)数为b,对应灰度均值均匀分布为hist(μ
gray
),则颜色均匀性指标可以通过如下k

l散度计算
[0112][0113]
单色视频帧的选择通过设定单色视频帧的k

l散度阈值来判断,其基本逻辑是根据经验设定阈值u
thresh
,如果uniformity(i
gray
||μ
gray
)≤u
thresh
,则认为该候选视频帧为单色视频帧种子,否则不是。
[0114]
基于参考图像集时,判断候选视频帧是否在参考图像集中相对颜色均匀性排序靠前的那部分,计算图像的相对颜色均匀性指标作为阈值以便完成单色视频帧的筛选。假设参考图像集合为某一批视频帧,首先计算这批参考图像的归一化灰度直方图,然后按灰度降序排序,本实施例中计算灰度在前5%桶内累计分布的定积分数值作为颜色均匀性阈值,以此作为有参考图像集的单色图像帧筛选依据。
[0115][0116]
其中,获取全局模糊的视频帧,比如视频的运动信息造成的模糊,摄像机在拍摄视频时由于对焦不准造成模糊等,这类视频帧可以通过某些方向的高斯滤波来模拟。与单色视频帧相比,这类视频帧保留了少部分纹理特征,但是总体而言仍然属于包含不丰富的纹理信息的视频帧,在视频中仍然应该被视为无效帧。
[0117]
通过梯度信息能发现全局模糊的视频帧,基于锐度指标对候选视频帧进行选择,其中锐度可以看成两个正交方向上比如x轴与y轴灰度梯度的平方和,δ
x
和δ
y
表示锐度的两个正交方向上的灰度梯度。
[0118][0119]
能够筛选出来全局模糊的视频帧,设置阈值s
thresh
,当锐度sharpness(i
gray
)≤s
thresh
,则被认为是全局模糊的视频帧。但是较高的锐度值也可能反应的全局单一的纹理信息,比如前面提到的纯文字、树林、沙地等,所以有必要进行单一纹理视频帧的选择。
[0120]
其中,获取单一纹理视频帧,比如视频中的纯字幕场景帧,或者视频被弹幕文字完全覆盖的帧,以及全图的树叶、沙地等,这一类往往纹理信息比较单一,可以通过单一局部
图像重复变换模拟,会造成一些检测任务在涉及场景中局部区域涉及文字等的误检测。
[0121]
单一纹理视频帧的选择有两种方法,一种是模拟生成图像方法,另外一种是梯度分布直方图阈值筛法。前者是单个目标或者截取真实图像的一部分,然后通过平移、旋转、缩放等操作,将变换后的目标或者部分图像放到空白或者单色图像中,形成单一纹理视频帧的方法。后者则是通过公式进行选择,本实施例中假定以图像(可以是经过平移、旋转、缩放等操作后的图像)的x轴为旋转轴(以图像的任一轴为旋转轴均可),记逆时针旋转角度为a∈[0,180),则方向梯度的均值和方差分别为:
[0122][0123][0124][0125]
锐度较大但是方向梯度方差较小的视频帧是单一纹理视频帧的可能性比较大。在实际应用中,首先基于平移、旋转、缩放等操作,生成一部分单一纹理视频帧,然后计算这一批单一纹理视频帧的锐度和方向梯度的方差两个指标,以这两个指标为参考,作为真实视频单一纹理视频帧的筛选阈值。如果不构造模拟方案,可以设定锐度和方向梯度方差的阈值作为筛选的方案,例如:锐度sharpness(i
gray
)≥0.8并且方向梯度方差δ2(δi
gray
)≤0.1。在实际应用中,通常采用第一种方案,即模拟生成一批单一纹理视频帧集合,然后统计这一批视频帧的锐度和方向梯度的方差的均值作为参考,进行真实视频单一纹理帧的选择。
[0126]
其中,获取单一场景视频帧,比如某些视频中某些黑夜中满天繁星、点点灯光等场景非常单一的帧,这些视频帧部分可以通过单色图像叠加椒盐噪声来模拟。这类视频帧同样的有纹理信息较少且单一的问题,在cnn模型中卷积的处理下,这些椒盐样的噪声会被部分滤掉,从而转成跟单色视频帧类似的情况,提取的特征每个维度的权重相对比较近似,影响后续的检索任务,造成检索中精度下降。再比如某些视频存在固定的片头片尾,实际不表达特定的涵义,仅仅作为品牌标识,也应该放入无效帧种子中。
[0127]
在具体实现中,单一场景视频帧可以通过在单色图像上模拟椒盐噪声来生成,比如蓝天白云可以用天蓝色图像加上扩散的盐噪声模拟得到、黑夜中的繁星漫天的场景可以通过黑色图像叠加白色的盐噪声得到。考虑到这部分单一场景可能会在前面的处理流程中被选择到,且经过cnn模型后得到的特征与单色视频帧特征比较相似,所以在实际应用中,这部分可以选择少量视频帧样例放到视频无效帧种子里。一些视频的片头片尾涉及的语义比较高层,用底层指标可能很难衡量,可以直接采集对应的片头片尾帧作为单一场景视频帧种子。
[0128]
综上,获取视频无效帧种子的基本原则是要挑选那些纹理信息单一或者不丰富的视频帧,避免接下来特征提取过程提取的视频特征对后续任务的影响,通过无效特征的筛选优化最终得到的特征。经过以上的获取过程,得到了一批视频无效帧种子。进一步还可以对视频无效帧种子进行扩展操作,包括但不限于:亮度变换、高斯模糊、运动模糊、平移旋转变换或/和叠加椒盐噪声,使得视频无效帧种子可适应更为复杂的视频环境,增加了视频无效帧种子的数量,模型对有效帧、还是无效帧的特征提取能力都能得到保障。接下来基于这一批视频无效帧种子构建无线特征底库,并在实际筛选过程中进行无效特征底库的更新操
作,最后筛选出视频的有效特征。
[0129]
220、构建无效特征底库。
[0130]
发明人考虑到,在具体实现中可以直接训练一个有效性判别的分类模型,但是至本步骤只有一批视频无效帧种子,数量较少,如扩大批次,则须耗费大量的资源,另外也没有有效帧的样本数据。因此,本实施例中是基于半监督学习的思想,基于已有的特征提取模型先提取已有的视频无效帧种子的特征,构成无效特征底库,之后有新视频帧被提取特征时,通过特征相似度的计算,得到跟无效特征相似的视频帧特征,将相似的视频帧特征加入到无效特征底库中完成更新,并将对应的视频帧列为视频无效帧种子,以便为判别模型准备数据样本,等到数据样本的规模达到一定程度,即可训练并更新有效性判别模型,然后基于有效性判别模型筛选掉无效的特征,选择视频的有效特征。
[0131]
基于上述思考,先构建无效特征底库。视频无效帧种子是一系列的视频帧,这些视频帧在表观上千差万别,但是在纹理上普遍不丰富和分布单一。为了能够适应视频无效帧特征提取,训练cnn特征提取模型之前,需要对视频无效帧种子进行扩展增强操作,至少需要能够适应视频无效帧种子提取过程中涉及到的明暗变化、高斯模糊、运动模糊、平移旋转变换以及叠加椒盐噪声等增强流程,这样才能更好地得到视频无效帧种子的特征。无效特征底库的构建流程如下:
[0132]
假定cnn提取模型的输入是任意图像irgb,输出是图像的特征表示v∈rk,其中k为提取的特征维度,则cnn提取特征的过程可以用如下的映射f表示:
[0133]
f:i
rgb

v
ꢀꢀ
公式207;
[0134]
假定视频无效帧种子集合为经过映射变换之后的无效特征集合为{v
j
:j=1,

,m},这些无效特征集合构成初始的无效特征底库。
[0135]
230、更新无效特征底库,以及获取视频有效特征集合。
[0136]
视频经过解码后得到的解码帧序列,经过cnn特征提取模型给出的映射f,得到候选特征集合{f
i
=1,2,

,n},假定候选特征集合为{f
i
=1,2,

,n},其中n为视频的总帧数。候选特征与无效特征底库中的特征的相似度可以用两者之间的余弦相似度表示:
[0137][0138]
本实施例中定义无效特征比对相似度第一阈值s1=0.9,当s
ij
>s1时,判定候选特征f
i
为无效特征,将其加入到无效特征底库中,并将候选特征f
i
对应的原始视频帧列为视频无效帧种子。本实施例中定义有效特征比对相似度第二阈值为s2=0.5,当s
ij
≤s2时,判定候选特征f
i
为有效特征,将其加入到视频有效特征集合中,以及将其对应的原始视频帧放入到有效帧集合中。如果s2<s
ij
≤s1,判定该特征为候选有效特征,其对应的原始视频帧为候选有效帧,放入到候选有效帧集合中,等待后续训练的判别模型的二次确认。
[0139]
240、根据更新后无效特征底库和视频有效特征集合训练帧有效性二分判别模型。
[0140]
假定视频无效帧种子和有效帧集合的规模达到一定程度,比如可以设定为p≥10000,即可训练一个帧有效性二分判别模型来完成视频有效特征筛选过程。视频无效帧种子对应的图像集为负样本集,确认的有效帧集合为正样本集,经过至少亮度变换、高斯模糊、运动模糊、平移旋转变换以及叠加椒盐噪声等数据增强操作,然后送入到cnn二类分类模型(比如resnet50,输出层修改为两类输出),训练得到帧有效性二分判别模型:
[0141]
m
p
:i
rgb

label∈{0,1}
ꢀꢀ
公式209;
[0142]
然后基于帧有效性二分判别模型,进一步输入需要二次确认的候选有效帧集合,并将判定的无效帧列为视频无效帧种子,无效帧还经过特征提取模型后,将无效特征加入无效特征底库;将判定的有效帧加入有效帧集合中,有效帧还经过特征提取模型后,将有效特征加入视频有效特征集合。
[0143]
250、利用帧有效性二分判别模型提取视频有效特征。
[0144]
随着数据集规模p的增加,模型m
p
能够增量地训练更新,利用帧有效性二分判别模型提取的视频有效特征更新视频有效特征集合,提取无效特征更新无效特征底库。随着数据的更新,当无效特征底库的规模m增大后,新的待判别视频候选帧特征集合(集合大小为n)的全部特征与无效特征底库中的所有特征比较,这样的计算量往往比较大,复杂度为由于特征的维度k为确定值,可以基于已有的无效特征底库进行聚类操作,在经过良好的聚类训练后,有效帧筛选的复杂度可以降低到能大大提高有效特征筛选的速度。
[0145]
260、从视频有效特征集合中筛除视频冗余特征,得到有效关键特征集合。
[0146]
发明人考虑到,视频存在大量的冗余信息,特别是同一个场景下相邻帧之间往往存在极高的相似性。这在后续的分类或者检索任务时往往是不必要的,一方面消耗了计算资源,降低了处理性能;另一方面也可能由于某些误匹配造成精度的下降。传统的基于时空域的方法一般直接计算帧间差,小于一定的阈值后就认为存在冗余的帧,但是容易受噪声的干扰。本实施例中基于cnn提取的特征在特征空间筛选冗余特征,能够充分利用cnn模型特点以及在训练过程中的数据增强操作提高对原始空间噪声的鲁棒性。
[0147]
具体的,将视频有效特征集合中当前特征与其后一时序的特征进行相似度比对,如比对结果小于相似度第三阈值s3,则将当前特征标注为有效关键特征并加入有效关键特征集合,以及将其后一时序特征赋值为当前特征,否则,筛除其后一时序特征,直至该视频有效特征集合中的所有特征全部完成上述操作。
[0148]
在具体实现中,例如:经过有效性特征筛选过后的候选特征集变为{f
t
:t=1,2...,t},其中下标t表示时序序号,这个序号只表示时序上的先后,不表示原始的帧序号,经过有效帧筛选后,有些帧特征被判定为无效特征从而丢弃了。基于视频帧间特征相似度计算的冗余特征筛选过程如下:
[0149]
计算
[0150]
其中p=1,

t

1,q=1,

,t,定义帧间特征相似度第三阈值为s3,如果s
pq
≥s3,表明时序为p与其后时序为q的特征相似度较高,时序为q的特征与前面时序为p的特征存在冗余,剔除掉后面冗余的帧特征,q

q 1;否则将时序为p的特征标记为有效关键特征,同时将当前特征后面的q赋值给p,即p

q,重新执行上述操作,直到p达到时序的末尾t。在实际使用中。基于上述得到了有效关键特征集合,在后续具体的应用要求中完成关键特征的优化。
[0151]
270、根据任务设定相应的阈值,对有效关键特征集合进行优化。
[0152]
以上流程中所有涉及的阈值超参数,可以根据有效关键特征最后应用的具体任务指标得到。通过网格搜索(grid search),将阈值参数按照可能的取值范围,基于网格划分,
然后基于网格划分的超参数,得到对应视频的关键特征组合,最后统计基于具体任务比如分类、检测、检索等,然后判断对应任务的指标,对视频特征筛选和最后有效关键特征进行优化选择,以便选择到最适合具体任务的超参数,从而筛选出最优的有效关键特征。
[0153]
本实施例的方法,相比直接在原始的时空域进行无效帧和冗余帧的筛选,选择有代表性的无效帧加入到视频无效帧种子,通过深度特征提取方法构建无效特征底库,经过无效特征底库的相似度阈值筛选,能显著降低无效帧对后续影响,其原因是深度模型提取的特征本身具有比较明显的抵抗噪声的能力,如果针对性地对深度学习模型过程中的训练数据加上代表性的噪声模型进行对比学习,无效帧的影响将降到更低。在特征空间做冗余帧的筛选,能够与后续特征所要求的检索任务统一起来,这样能够实现联合优化,使得冗余帧的筛选过程与具体任务相结合,有针对性地提高检索的效果。
[0154]
实施例3、本实施例的频深度特征提取优化的系统,参见图3所示,包括:获取视频无效帧种子单元310、构建无效特征底库单元320、更新单元330、训练单元340和提取视频有效特征单元350。
[0155]
获取视频无效帧种子单元310,用于获取视频无效帧种子。具体的,视频无效帧种子是获取视频中的单色视频帧、全局模糊的视频帧、单一纹理视频帧,或者单一场景视频帧。
[0156]
其中,获取单色视频帧,比如白色、黑色、灰色以及其他颜色的视频帧,在视频中不表示任何涵义,可能仅仅只是在多个不同的镜头转换中间做切分之用,在电影这一类型的视频中常常出现。单色图像由于纹理信息丢失,会造成cnn模型提取特征的每个维度的权重比较一致,这种一致性在分类和检测任务中影响不大,因为分类和检测更加关注局部的信息,但是在检索这种更加关注全局信息的任务中,可能会造成精度的下降。
[0157]
假定原始视频帧使用irgb表示,转换为灰度图像
[0158]
i
gray
=0.299*ir 0.587*ig 0.114*ib;
[0159]
单色视频帧的判断有两种方法,一是基于无参考图像的方法,二是基于参考图像集的方法。
[0160]
无参考图像集时,定义颜色均匀性使用的是基于灰度均值均匀分布的k

l散度指标来计算,视频帧的归一化灰度直方图表示为hist(i
gray
),直方图的桶(bin)数为b,对应灰度均值均匀分布为hist(μ
gray
),则颜色均匀性指标可以通过如下k

l散度计算:
[0161][0162]
单色视频帧的选择通过设定单色视频帧的k

l散度阈值来判断,其基本逻辑是根据经验设定阈值u
thresh
,如果uniformity(i
gray
||μ
gray
)≤u
thresh
,则认为该候选视频帧为单色视频帧种子,否则不是。
[0163]
基于参考图像集时,判断候选视频帧是否在参考图像集中相对颜色均匀性排序靠前的那部分,计算图像的相对颜色均匀性指标作为阈值以便完成单色视频帧的筛选。假设参考图像集合为某一批视频帧,首先计算这批参考图像的归一化灰度直方图,然后按灰度降序排序,本实施例中计算灰度在前5%桶内累计分布的定积分数值作为颜色均匀性阈值,以此作为有参考图像集的单色图像帧筛选依据。
[0164][0165]
其中,获取全局模糊的视频帧,比如视频的运动信息造成的模糊,摄像机在拍摄视频时由于对焦不准造成模糊等,这类视频帧可以通过某些方向的高斯滤波来模拟。与单色视频帧相比,这类视频帧保留了少部分纹理特征,但是总体而言仍然属于包含不丰富的纹理信息的视频帧,在视频中仍然应该被视为无效帧。
[0166]
通过梯度信息能发现全局模糊的视频帧,基于锐度指标对候选视频帧进行选择,其中锐度可以看成两个正交方向上比如x轴与y轴灰度梯度的平方和,δ
x
和δ
y
表示锐度的两个正交方向上的灰度梯度。
[0167][0168]
能够筛选出来全局模糊的视频帧,设置阈值s
thresh
,当锐度sharpness(i
gray
)≤s
thresh
,则被认为是全局模糊的视频帧。但是较高的锐度值也可能反应的全局单一的纹理信息,比如前面提到的纯文字、树林、沙地等,所以有必要进行单一纹理视频帧的选择。
[0169]
其中,获取单一纹理视频帧,比如视频中的纯字幕场景帧,或者视频被弹幕文字完全覆盖的帧,以及全图的树叶、沙地等,这一类往往纹理信息比较单一,可以通过单一局部图像重复变换模拟,会造成一些检测任务在涉及场景中局部区域涉及文字等的误检测。
[0170]
单一纹理视频帧的选择有两种方法,一种是模拟生成图像方法,另外一种是梯度分布直方图阈值筛法。前者是单个目标或者截取真实图像的一部分,然后通过平移、旋转、缩放等操作,将变换后的目标或者部分图像放到空白或者单色图像中,形成单一纹理视频帧的方法。后者则是通过公式进行选择,本实施例中假定以图像(可以是经过平移、旋转、缩放等操作后的图像)的x轴为旋转轴(以图像的任一轴为旋转轴均可),记逆时针旋转角度为a∈[0,180),则方向梯度的均值和方差分别为:
[0171][0172][0173][0174]
锐度较大但是方向梯度方差较小的视频帧是单一纹理视频帧的可能性比较大。在实际应用中,首先基于平移、旋转、缩放等操作,生成一部分单一纹理视频帧,然后计算这一批单一纹理视频帧的锐度和方向梯度的方差两个指标,以这两个指标为参考,作为真实视频单一纹理视频帧的筛选阈值。如果不构造模拟方案,可以设定锐度和方向梯度方差的阈值作为筛选的方案,例如:锐度sharpness(i
gray
)≥0.8并且方向梯度方差δ2(δi
gray
)≤0.1。在实际应用中,通常采用第一种方案,即模拟生成一批单一纹理视频帧集合,然后统计这一批视频帧的锐度和方向梯度的方差的均值作为参考,进行真实视频单一纹理帧的选择。
[0175]
其中,获取单一场景视频帧,比如某些视频中某些黑夜中满天繁星、点点灯光等场景非常单一的帧,这些视频帧部分可以通过单色图像叠加椒盐噪声来模拟。这类视频帧同样的有纹理信息较少且单一的问题,在cnn模型中卷积的处理下,这些椒盐样的噪声会被部分滤掉,从而转成跟单色视频帧类似的情况,提取的特征每个维度的权重相对比较近似,影
响后续的检索任务,造成检索中精度下降。再比如某些视频存在固定的片头片尾,实际不表达特定的涵义,仅仅作为品牌标识,也应该放入无效帧种子中。
[0176]
在具体实现中,单一场景视频帧可以通过在单色图像上模拟椒盐噪声来生成,比如蓝天白云可以用天蓝色图像加上扩散的盐噪声模拟得到、黑夜中的繁星漫天的场景可以通过黑色图像叠加白色的盐噪声得到。考虑到这部分单一场景可能会在前面的处理流程中被选择到,且经过cnn模型后得到的特征与单色视频帧特征比较相似,所以在实际应用中,这部分可以选择少量视频帧样例放到视频无效帧种子里。一些视频的片头片尾涉及的语义比较高层,用底层指标可能很难衡量,可以直接采集对应的片头片尾帧作为单一场景视频帧种子。
[0177]
综上,获取视频无效帧种子的基本原则是要挑选那些纹理信息单一或者不丰富的视频帧,避免接下来特征提取过程提取的视频特征对后续任务的影响,通过无效特征的筛选优化最终得到的特征。经过以上的获取过程,得到了一批视频无效帧种子。进一步还可以对视频无效帧种子进行扩展操作,包括但不限于:亮度变换、高斯模糊、运动模糊、平移旋转变换或/和叠加椒盐噪声,使得视频无效帧种子可适应更为复杂的视频环境,增加了视频无效帧种子的数量,模型对有效帧、还是无效帧的特征提取能力都能得到保障。接下来基于这一批视频无效帧种子构建无线特征底库,并在实际筛选过程中进行无效特征底库的更新操作,最后筛选出视频的有效特征。
[0178]
构建无效特征底库单元320,用于构建无效特征底库。发明人考虑到,在具体实现中可以直接训练一个有效性判别的分类模型,但是当前只有一批视频无效帧种子,数量较少,如扩大批次,则须耗费大量的资源,另外也没有有效帧的样本数据。因此,本实施例中是基于半监督学习的思想,基于已有的特征提取模型先提取已有的视频无效帧种子的特征,构成无效特征底库,之后有新视频帧被提取特征时,通过特征相似度的计算,得到跟无效特征相似的视频帧特征,将相似的视频帧特征加入到无效特征底库中完成更新,并将对应的视频帧列为视频无效帧种子,以便为判别模型准备数据样本,等到数据样本的规模达到一定程度,即可训练并更新有效性判别模型,然后基于有效性判别模型筛选掉无效的特征,选择视频的有效特征。
[0179]
基于上述思考,先构建无效特征底库。视频无效帧种子是一系列的视频帧,这些视频帧在表观上千差万别,但是在纹理上普遍不丰富和分布单一。为了能够适应视频无效帧特征提取,训练cnn特征提取模型之前,需要对视频无效帧种子进行扩展增强操作,至少需要能够适应视频无效帧种子提取过程中涉及到的明暗变化、高斯模糊、运动模糊、平移旋转变换以及叠加椒盐噪声等增强流程,这样才能更好地得到视频无效帧种子的特征。无效特征底库的构建流程如下:
[0180]
假定cnn提取模型的输入是任意图像irgb,输出是图像的特征表示v∈rk,其中k为提取的特征维度,则cnn提取特征的过程可以用如下的映射f表示:
[0181]
f:i
rgb

v
ꢀꢀ
公式307;
[0182]
假定视频无效帧种子集合为经过映射变换之后的无效特征集合为{v
j
:j=1,

,m},这些无效特征集合构成初始的无效特征底库。
[0183]
更新单元330,用于更新无效特征底库,以及获取视频有效特征集合。具体的,视频经过解码后得到的解码帧序列,经过cnn特征提取模型给出的映射f,得到候选特征集合{f
i
=1,2,

,n},假定候选特征集合为{f
i
=1,2,

,n},其中n为视频的总帧数。候选特征与无效特征底库中的特征的相似度可以用两者之间的余弦相似度表示:
[0184][0185]
本实施例中定义无效特征比对相似度第一阈值s1=0.9,当s
ij
>s1时,判定候选特征f
i
为无效特征,将其加入到无效特征底库中,并将候选特征f
i
对应的原始视频帧列为视频无效帧种子。本实施例中定义有效特征比对相似度第二阈值为s2=0.5,当s
ij
≤s2时,判定候选特征f
i
为有效特征,将其加入到视频有效特征集合中,以及将其对应的原始视频帧放入到有效帧集合中。如果s2<s
ij
≤s1,判定该特征为候选有效特征,其对应的原始视频帧为候选有效帧,放入到候选有效帧集合中,等待后续训练的判别模型的二次确认。
[0186]
训练单元340,用于根据更新后的无效特征底库和视频有效特征集合训练帧有效性二分判别模型。具体的,假定视频无效帧种子和有效帧集合的规模达到一定程度,比如可以设定为p≥10000,即可训练一个帧有效性二分判别模型来完成视频有效特征筛选过程。视频无效帧种子对应的图像集为负样本集,确认的有效帧集合为正样本集,经过至少亮度变换、高斯模糊、运动模糊、平移旋转变换以及叠加椒盐噪声等数据增强操作,然后送入到cnn二类分类模型(比如resnet50,输出层修改为两类输出),训练得到帧有效性二分判别模型:
[0187]
m
p
:i
rgb

label∈{0,1}
ꢀꢀ
公式309;
[0188]
然后基于帧有效性二分判别模型,进一步输入需要二次确认的候选有效帧集合,并将判定的无效帧列为视频无效帧种子,无效帧还经过特征提取模型后,将无效特征加入无效特征底库;将判定的有效帧加入有效帧集合中,有效帧还经过特征提取模型后,将有效特征加入视频有效特征集合。
[0189]
提取视频有效特征单元350,利用帧有效性二分判别模型提取视频有效特征。随着数据集规模p的增加,模型m
p
能够增量地训练更新,利用帧有效性二分判别模型提取的视频有效特征更新视频有效特征集合,提取无效特征更新无效特征底库。随着数据的更新,当无效特征底库的规模m增大后,新的待判别视频候选帧特征集合(集合大小为n)的全部特征与无效特征底库中的所有特征比较,这样的计算量往往比较大,复杂度为由于特征的维度k为确定值,可以基于已有的无效特征底库进行聚类操作,在经过良好的聚类训练后,有效帧筛选的复杂度可以降低到能大大提高有效特征筛选的速度。
[0190]
本实施例的系统,选择有代表性的无效帧加入到视频无效帧种子,通过深度特征提取构建无效特征底库,经过无效特征底库的相似度阈值筛选,能显著降低无效帧对后续影响,其原因是深度模型提取的特征本身具有比较明显的抵抗噪声的能力,如果针对性地对深度学习模型过程中的训练数据加上代表性的噪声模型进行对比学习,无效帧的影响将降到更低。
[0191]
实施例4、本实施例的频深度特征提取优化的系统,参见图4所示,包括:获取视频无效帧种子单元410、构建无效特征底库单元420、更新单元430、训练单元440、提取视频有效特征单元450、筛除视频冗余特征单元460和优化单元470。
[0192]
获取视频无效帧种子单元410,用于获取视频无效帧种子。具体的,视频无效帧种
子是获取视频中的单色视频帧、全局模糊的视频帧、单一纹理视频帧,或者单一场景视频帧。
[0193]
其中,获取单色视频帧,比如白色、黑色、灰色以及其他颜色的视频帧,在视频中不表示任何涵义,可能仅仅只是在多个不同的镜头转换中间做切分之用,在电影这一类型的视频中常常出现。单色图像由于纹理信息丢失,会造成cnn模型提取特征的每个维度的权重比较一致,这种一致性在分类和检测任务中影响不大,因为分类和检测更加关注局部的信息,但是在检索这种更加关注全局信息的任务中,可能会造成精度的下降。
[0194]
假定原始视频帧使用irgb表示,转换为灰度图像
[0195]
i
gray
=0.299*ir 0.587*ig 0.114*ib;
[0196]
单色视频帧的判断有两种方法,一是基于无参考图像的方法,二是基于参考图像集的方法。
[0197]
无参考图像集时,定义颜色均匀性使用的是基于灰度均值均匀分布的k

l散度指标来计算,视频帧的归一化灰度直方图表示为hist(i
gray
),直方图的桶(bin)数为b,对应灰度均值均匀分布为hist(μ
gray
),则颜色均匀性指标可以通过如下k

l散度计算:
[0198][0199]
单色视频帧的选择通过设定单色视频帧的k

l散度阈值来判断,其基本逻辑是根据经验设定阈值u
thresh
,如果uniformity(i
gray
||μ
gray
)≤u
thresh
,则认为该候选视频帧为单色视频帧种子,否则不是。
[0200]
基于参考图像集时,判断候选视频帧是否在参考图像集中相对颜色均匀性排序靠前的那部分,计算图像的相对颜色均匀性指标作为阈值以便完成单色视频帧的筛选。假设参考图像集合为某一批视频帧,首先计算这批参考图像的归一化灰度直方图,然后按灰度降序排序,本实施例中计算灰度在前5%桶内累计分布的定积分数值作为颜色均匀性阈值,以此作为有参考图像集的单色图像帧筛选依据。
[0201][0202]
其中,获取全局模糊的视频帧,比如视频的运动信息造成的模糊,摄像机在拍摄视频时由于对焦不准造成模糊等,这类视频帧可以通过某些方向的高斯滤波来模拟。与单色视频帧相比,这类视频帧保留了少部分纹理特征,但是总体而言仍然属于包含不丰富的纹理信息的视频帧,在视频中仍然应该被视为无效帧。
[0203]
通过梯度信息能发现全局模糊的视频帧,基于锐度指标对候选视频帧进行选择,其中锐度可以看成两个正交方向上比如x轴与y轴灰度梯度的平方和,δ
x
和δ
y
表示锐度的两个正交方向上的灰度梯度。
[0204][0205]
能够筛选出来全局模糊的视频帧,设置阈值s
thresh
,当锐度sharpness(i
gray
)≤s
thresh
,则被认为是全局模糊的视频帧。但是较高的锐度值也可能反应的全局单一的纹理信息,比如前面提到的纯文字、树林、沙地等,所以有必要进行单一纹理视频帧的选择。
[0206]
其中,获取单一纹理视频帧,比如视频中的纯字幕场景帧,或者视频被弹幕文字完
全覆盖的帧,以及全图的树叶、沙地等,这一类往往纹理信息比较单一,可以通过单一局部图像重复变换模拟,会造成一些检测任务在涉及场景中局部区域涉及文字等的误检测。
[0207]
单一纹理视频帧的选择有两种方法,一种是模拟生成图像方法,另外一种是梯度分布直方图阈值筛法。前者是单个目标或者截取真实图像的一部分,然后通过平移、旋转、缩放等操作,将变换后的目标或者部分图像放到空白或者单色图像中,形成单一纹理视频帧的方法。后者则是通过公式进行选择,本实施例中假定以图像(可以是经过平移、旋转、缩放等操作后的图像)的x轴为旋转轴(以图像的任一轴为旋转轴均可),记逆时针旋转角度为a∈[0,180),则方向梯度的均值和方差分别为:
[0208][0209][0210][0211]
锐度较大但是方向梯度方差较小的视频帧是单一纹理视频帧的可能性比较大。在实际应用中,首先基于平移、旋转、缩放等操作,生成一部分单一纹理视频帧,然后计算这一批单一纹理视频帧的锐度和方向梯度的方差两个指标,以这两个指标为参考,作为真实视频单一纹理视频帧的筛选阈值。如果不构造模拟方案,可以设定锐度和方向梯度方差的阈值作为筛选的方案,例如:锐度sharpness(i
gray
)≥0.8并且方向梯度方差δ2(δi
gray
)≤0.1。在实际应用中,通常采用第一种方案,即模拟生成一批单一纹理视频帧集合,然后统计这一批视频帧的锐度和方向梯度的方差的均值作为参考,进行真实视频单一纹理帧的选择。
[0212]
其中,获取单一场景视频帧,比如某些视频中某些黑夜中满天繁星、点点灯光等场景非常单一的帧,这些视频帧部分可以通过单色图像叠加椒盐噪声来模拟。这类视频帧同样的有纹理信息较少且单一的问题,在cnn模型中卷积的处理下,这些椒盐样的噪声会被部分滤掉,从而转成跟单色视频帧类似的情况,提取的特征每个维度的权重相对比较近似,影响后续的检索任务,造成检索中精度下降。再比如某些视频存在固定的片头片尾,实际不表达特定的涵义,仅仅作为品牌标识,也应该放入无效帧种子中。
[0213]
在具体实现中,单一场景视频帧可以通过在单色图像上模拟椒盐噪声来生成,比如蓝天白云可以用天蓝色图像加上扩散的盐噪声模拟得到、黑夜中的繁星漫天的场景可以通过黑色图像叠加白色的盐噪声得到。考虑到这部分单一场景可能会在前面的处理流程中被选择到,且经过cnn模型后得到的特征与单色视频帧特征比较相似,所以在实际应用中,这部分可以选择少量视频帧样例放到视频无效帧种子里。一些视频的片头片尾涉及的语义比较高层,用底层指标可能很难衡量,可以直接采集对应的片头片尾帧作为单一场景视频帧种子。
[0214]
综上,获取视频无效帧种子的基本原则是要挑选那些纹理信息单一或者不丰富的视频帧,避免接下来特征提取过程提取的视频特征对后续任务的影响,通过无效特征的筛选优化最终得到的特征。经过以上的获取过程,得到了一批视频无效帧种子。进一步还可以对视频无效帧种子进行扩展操作,包括但不限于:亮度变换、高斯模糊、运动模糊、平移旋转变换或/和叠加椒盐噪声,使得视频无效帧种子可适应更为复杂的视频环境,增加了视频无效帧种子的数量,模型对有效帧、还是无效帧的特征提取能力都能得到保障。接下来基于这
一批视频无效帧种子构建无线特征底库,并在实际筛选过程中进行无效特征底库的更新操作,最后筛选出视频的有效特征。
[0215]
构建无效特征底库单元420,用于构建无效特征底库。发明人考虑到,在具体实现中可以直接训练一个有效性判别的分类模型,但是当前只有一批视频无效帧种子,数量较少,如扩大批次,则须耗费大量的资源,另外也没有有效帧的样本数据。因此,本实施例中是基于半监督学习的思想,基于已有的特征提取模型先提取已有的视频无效帧种子的特征,构成无效特征底库,之后有新视频帧被提取特征时,通过特征相似度的计算,得到跟无效特征相似的视频帧特征,将相似的视频帧特征加入到无效特征底库中完成更新,并将对应的视频帧列为视频无效帧种子,以便为判别模型准备数据样本,等到数据样本的规模达到一定程度,即可训练并更新有效性判别模型,然后基于有效性判别模型筛选掉无效的特征,选择视频的有效特征。
[0216]
基于上述思考,先构建无效特征底库。视频无效帧种子是一系列的视频帧,这些视频帧在表观上千差万别,但是在纹理上普遍不丰富和分布单一。为了能够适应视频无效帧特征提取,训练cnn特征提取模型之前,需要对视频无效帧种子进行扩展增强操作,至少需要能够适应视频无效帧种子提取过程中涉及到的明暗变化、高斯模糊、运动模糊、平移旋转变换以及叠加椒盐噪声等增强流程,这样才能更好地得到视频无效帧种子的特征。无效特征底库的构建流程如下:
[0217]
假定cnn提取模型的输入是任意图像irgb,输出是图像的特征表示v∈rk,其中k为提取的特征维度,则cnn提取特征的过程可以用如下的映射f表示:
[0218]
f:i
rgb

v
ꢀꢀ
公式407;
[0219]
假定视频无效帧种子集合为,经过映射变换之后的无效特征集合为{v
j
:j=1,

,m},这些无效特征集合构成初始的无效特征底库。
[0220]
更新单元430,用于更新无效特征底库,以及获取视频有效特征集合。具体的,视频经过解码后得到的解码帧序列,经过cnn特征提取模型给出的映射f,得到候选特征集合{f
i
=1,2,

,n},假定候选特征集合为{f
i
=1,2,

,n},其中n为视频的总帧数。候选特征与无效特征底库中的特征的相似度可以用两者之间的余弦相似度表示:
[0221][0222]
本实施例中定义无效特征比对相似度第一阈值s1=0.9,当s
ij
>s1时,判定候选特征f
i
为无效特征,将其加入到无效特征底库中,并将候选特征f
i
对应的原始视频帧列为视频无效帧种子。本实施例中定义有效特征比对相似度第二阈值为s2=0.5,当s
ij
≤s2时,判定候选特征f
i
为有效特征,将其加入到视频有效特征集合中,以及将其对应的原始视频帧放入到有效帧集合中。如果s2<s
ij
≤s1,判定该特征为候选有效特征,其对应的原始视频帧为候选有效帧,放入到候选有效帧集合中,等待后续训练的判别模型的二次确认。
[0223]
训练单元440,用于根据更新后的无效特征底库和视频有效特征集合训练帧有效性二分判别模型。具体的,假定视频无效帧种子和有效帧集合的规模达到一定程度,比如可以设定为p≥10000,即可训练一个帧有效性二分判别模型来完成视频有效特征筛选过程。视频无效帧种子对应的图像集为负样本集,确认的有效帧集合为正样本集,经过至少亮度变换、高斯模糊、运动模糊、平移旋转变换以及叠加椒盐噪声等数据增强操作,然后送入到
cnn二类分类模型(比如resnet50,输出层修改为两类输出),训练得到帧有效性二分判别模型:
[0224]
m
p
:i
rgb

label∈{0,1}
ꢀꢀ
公式409;
[0225]
然后基于帧有效性二分判别模型,进一步输入需要二次确认的候选有效帧集合,并将判定的无效帧列为视频无效帧种子,无效帧还经过特征提取模型后,将无效特征加入无效特征底库;将判定的有效帧加入有效帧集合中,有效帧还经过特征提取模型后,将有效特征加入视频有效特征集合。
[0226]
提取视频有效特征单元450,利用帧有效性二分判别模型提取视频有效特征。随着数据集规模p的增加,模型m
p
能够增量地训练更新,利用帧有效性二分判别模型提取的视频有效特征更新视频有效特征集合,提取无效特征更新无效特征底库。随着数据的更新,当无效特征底库的规模m增大后,新的待判别视频候选帧特征集合(集合大小为n)的全部特征与无效特征底库中的所有特征比较,这样的计算量往往比较大,复杂度为由于特征的维度k为确定值,可以基于已有的无效特征底库进行聚类操作,在经过良好的聚类训练后,有效帧筛选的复杂度可以降低到能大大提高有效特征筛选的速度。
[0227]
筛除视频冗余特征单元460,用于从视频有效特征集合中筛除视频冗余特征,得到有效关键特征集合。发明人考虑到,视频存在大量的冗余信息,特别是同一个场景下相邻帧之间往往存在极高的相似性。这在后续的分类或者检索任务时往往是不必要的,一方面消耗了计算资源,降低了处理性能;另一方面也可能由于某些误匹配造成精度的下降。传统的基于时空域的方案一般直接计算帧间差,小于一定的阈值后就认为存在冗余的帧,但是容易受噪声的干扰。本实施例中基于cnn提取的特征在特征空间筛选冗余特征,能够充分利用cnn模型特点以及在训练过程中的数据增强操作提高对原始空间噪声的鲁棒性。
[0228]
具体的,将视频有效特征集合中当前特征与其后一时序的特征进行相似度比对,如比对结果小于相似度第三阈值s3,则将当前特征标注为有效关键特征并加入有效关键特征集合,以及将其后一时序特征赋值为当前特征,否则,筛除其后一时序特征,直至该视频有效特征集合中的所有特征全部完成上述操作。
[0229]
在具体实现中,例如:经过有效性特征筛选过后的候选特征集变为{f
t
:t=1,2...,t},其中下标t表示时序序号,这个序号只表示时序上的先后,不表示原始的帧序号,经过有效帧筛选后,有些帧特征被判定为无效特征从而丢弃了。基于视频帧间特征相似度计算的冗余特征筛选过程如下:
[0230]
计算
[0231]
其中p=1,

t

1,q=1,

,t,定义帧间特征相似度第三阈值为s3,如果s
pq
≥s3,表明时序为p与其后时序为q的特征相似度较高,时序为q的特征与前面时序为p的特征存在冗余,剔除掉后面冗余的帧特征,q

q 1;否则将时序为p的特征标记为有效关键特征,同时将当前特征后面的q赋值给p,即p

q,重新执行上述操作,直到p达到时序的末尾t。在实际使用中。基于上述得到了有效关键特征集合,在后续具体的应用要求中完成关键特征的优化。
[0232]
优化单元470,用于根据任务设定相应的阈值,对有效关键特征集合进行优化。本实施例中所有涉及的阈值超参数,可以根据有效关键特征最后应用的具体任务指标得到。
通过网格搜索(grid search),将阈值参数按照可能的取值范围,基于网格划分,然后基于网格划分的超参数,得到对应视频的关键特征组合,最后统计基于具体任务比如分类、检测、检索等,然后判断对应任务的指标,对视频特征筛选和最后有效关键特征进行优化选择,以便选择到最适合具体任务的超参数,从而筛选出最优的有效关键特征。
[0233]
本实施例的系统,相比直接在原始的时空域进行无效帧和冗余帧的筛选,选择有代表性的无效帧加入到视频无效帧种子,通过深度特征提取构建无效特征底库,经过无效特征底库的相似度阈值筛选,能显著降低无效帧对后续影响,其原因是深度模型提取的特征本身具有比较明显的抵抗噪声的能力,如果针对性地对深度学习模型过程中的训练数据加上代表性的噪声模型进行对比学习,无效帧的影响将降到更低。在特征空间做冗余帧的筛选,能够与后续特征所要求的检索任务统一起来,这样能够实现联合优化,使得冗余帧的筛选过程与具体任务相结合,有针对性地提高检索的效果。
[0234]
实施例5、本实施例的计算机设备,参见图5所示,显示的计算机设备500仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
[0235]
如图5所示,计算机设备500以通用计算设备的形式表现。计算机设备500的组件可以包括但不限于:一个或者多个处理器或者处理单元501,系统存储器502,连接不同系统组件(包括系统存储器502和处理单元501)的总线503。
[0236]
总线503表示几类总线结构中的一种或多种,包括存储器总线或者存储器控制器,外围总线,图形加速端口,处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说,这些体系结构包括但不限于工业标准体系结构(isa)总线,微通道体系结构(mac)总线,增强型isa总线、视频电子标准协会(vesa)局域总线以及外围组件互连(pci)总线。
[0237]
计算机设备500典型的包括多种计算机系统可读介质。这些介质可以是任何能够被计算机设备500访问的可用介质,包括易失性和非易失性介质,可移动的和不可移动的介质。
[0238]
系统存储器502可以包括易失性存储器形式的计算机系统可读介质,例如随机存取存储器(ram)504和/或高速缓存505。计算机设备500可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例,存储系统506可以用于读写不可移动的、非易失性磁介质(图5未显示,通常称为“硬盘驱动器”)。尽管图5中未示出,可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器,以及对可移动非易失性光盘(例如cd

rom,dvd

rom或者其它光介质)读写的光盘驱动器。在这些情况下,每个驱动器可以通过一个或者多个数据介质接口与总线503相连。系统存储器502可以包括至少一个程序产品,该程序产品具有一组(例如至少一个)程序模块,这些程序模块被配置以执行本发明各实施例的功能。
[0239]
具有一组(至少一个)程序模块507的程序/实用工具508,可以存储在例如系统存储器502中,这样的程序模块507包括但不限于操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块507通常执行本发明所描述的实施例中的功能和/或方法。
[0240]
计算机设备500也可以与一个显示器510或多个外部设备509(例如键盘、指向设备、等)通信,还可与一个或者多个使得用户能与该计算机设备500交互的设备通信,和/或与使得该计算机设备500能与一个或多个其它计算设备进行通信的任何设备(例如网卡,调
制解调器等等)通信。这种通信可以通过输入/输出(i/o)接口511进行。并且,计算机设备500还可以通过网络适配器512与一个或者多个网络(例如局域网(lan),广域网(wan)和/或公共网络,例如因特网通信。如图5所示,网络适配器512通过总线503与计算机设备500的其它模块通信。应当明白,尽管图中未示出,可以结合计算机设备500使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、raid系统、磁带驱动器以及数据备份存储系统等。
[0241]
处理单元501通过运行存储在系统存储器502中的程序,从而执行各种功能应用以及数据处理,例如实现本发明实施例所提供的视频深度特征提取优化的方法,包括下列主要步骤:获取视频无效帧种子;构建无效特征底库;更新所述的无效特征底库,以及获取视频有效特征集合;根据更新后的所述无效特征底库和所述视频有效特征集合训练帧有效性二分判别模型;利用所述的帧有效性二分判别模型提取视频有效特征。
[0242]
实施例6、本实施例的包含计算机可执行指令的存储介质,其内部存储有计算机程序,该程序被处理器执行时实现如本发明实施例所提供的视频深度特征提取优化的方法,包括下列主要步骤:获取视频无效帧种子;构建无效特征底库;更新所述的无效特征底库,以及获取视频有效特征集合;根据更新后的所述无效特征底库和所述视频有效特征集合训练帧有效性二分判别模型;利用所述的帧有效性二分判别模型提取视频有效特征。
[0243]
本实施例的包含计算机可执行指令的存储介质,可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(ram)、只读存储器(rom)、可擦式可编程只读存储器(eprom或闪存)、光纤、便携式紧凑磁盘只读存储器(cd

rom)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本实施例中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
[0244]
计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于无线、电线、光缆、rf等等,或者上述的任意合适的组合。可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如java、smalltalk、c ,还包括常规的过程式程序设计语言—诸如“c”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(lan)或广域网(wan)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
[0245]
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献