一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

基于双流卷积神经网络的深度视频帧率上转换检测装置的制作方法

2022-03-09 05:42:50 来源:中国专利 TAG:


1.本发明涉及视频信息安全技术领域,具体涉及一种基于双流卷积神经网络的深度视频帧率上转换检测装置。


背景技术:

2.视频帧率上转换方法根据已有视频帧信息,在相邻帧之间生成插值帧提高原始视频的帧率,增加原始视频的运动连续性,为用户提供了更高质量的观感体验。假设原始视频帧率为15帧/秒,当篡改2倍、4倍至帧率为30帧/秒、60帧/秒时,本质上是以2倍速、4倍速来播放,所以,为使新视频流畅播放,需要通过技术手段增加视频的帧数,即视频插帧技术,也称作视频帧率上转换技术。对原始视频进行帧率上转换,保证在不同的场景下,即使后续视频帧中的环境发生显著变化,插值帧与相邻的两帧也应该保持时域的一致性和空域的一致性,使得视频帧率上转换后的视频依然自然、流畅,让观察者无法直接察觉曾经插值的痕迹。它最初的目的是提高低帧率视频的视觉质量,消除低帧率带来的停滞感。实际上,随着监控视频成为重要证据,不法分子可以通过上转换技术消除截断视频中画面的跳跃感,让检查者忽视篡改痕迹。它也可能被用于恶意目的,如伪造高帧率视频,拼接不同帧率的视频。显然,如果恶意篡改的虚假视频被传播到互联网,将可能误导社会舆论和影响司法公正等,产生负面的,甚至严重的后果。它的实现主要包含两种,一种是传统的视频帧率上转换被动取证方法,典型的算法有基于残差序列的算法、基于帧间相似度分布的算法、基于边缘密度的算法、基于平均纹理变化的算法和基于运动效应的算法;另一种是基于深度学习的视频插值被动取证方法。
3.现阶段,大多数视频帧率上转换的被动取证都是围绕传统的视频帧率上转换方法开展的,也就是传统典型的算法用于视频帧率上转换的取证。文献[1]采用基于残差序列的算法,利用相邻帧对上转换后的视频的每一帧计算估计帧与当前帧的差值,构造均分误差特征,利用该特征在篡改视频中的周期性,根据归一化频域中的第一个尖峰信息计算原始帧率。但是,对于采用帧平均、帧复制算法篡改的视频,该方法检测准精度不高,容易误判。文献[2]的作者分别对原始视频相似度和篡改视频相似度进行分析,得出经验化参数,作为区分原始帧与插值帧的阈值,而缺点是,且仅采用帧复制方式,算法的检测范围单一,针对其他篡改手段的检测效果没有合理保障;文献[3]发现,帧率上转换篡改行为会破坏连续帧边缘密度在时域上的一致性,而不同插值帧的边缘密度特征并不相同,引入kaufman自适应移动均值方法综合考虑边缘密度的特征信息,形成自适应阈值曲线,区分插值帧和原始帧;文献[4]作者提出了一种基于帧级平均纹理变化分析(atv)的深度视频帧率上转换检测方法。首先计算每一帧的atv值,得到候选视频的atv曲线。其次,对atv曲线进行进一步处理,突出其周期性,表明存在帧率上转换操作,并进一步估计原始帧率。文献[5]的团队提出了一种新的检测算法,基于运动轨迹周期性的检测,首先针对第t帧计算第t-1帧和第t帧之间运动向量mv1与第t帧和第t 1帧之间的运动向量mv2,然后利用运动修剪模块剔除异常运动向量对,最后利用运动向量的周期性实现上转换检测。实验发现,当帧率24帧/秒上转换至
25帧/秒时,该方法检测准确率急剧降低。文献[6]首先通过光流估计从给定的输入中学习导致模糊的像素级运动,然后通过将解码的特征与估计的流扭曲来预测多个帧;文献[7]结合了估计光流和通过混合相关像素和附近的像素直接产生rgb值的优点来生成中间帧;文献[8]将输入帧输入cnn,输出插值运动向量场和遮挡图的块估计。将其一起传递到帧插值模块中合成中间帧。这些合成方法合成的虚假视频都很难肉眼直接识别。目前,针对视频帧率上转换的取证还鲜有出现。
[0004]
文献[1]-[8]具体信息如下:
[0005]
[1]bestagini p,battaglia s,milani s,et al.detection of temporal interpolation in video sequences[c]//2013ieee international conference on acoustics,speech and signal processing.ieee,2013:3033-3037。
[0006]
[2]bian s,luo w,huang j.detecting video frame-rate up-conversion based on periodic properties of inter-frame similarity[j].multimedia tools&applications,2014,72(1):437-451。
[0007]
[3]yao y,yang g,sun x.detecting video frame-rate up-conversion based on periodic properties of edge-intensity[j].journal of information security&applications,2016,26(c):39-50。
[0008]
[4]xia m,yang g,li l,et al.detecting video frame rate up-conversion based on frame-level analysis of average texture variation[j].multimedia tools and applications,2017,76(6):8399-8421。
[0009]
[5]jung d j,lee h k.frame-rate conversion detection based on periodicity of motion artifact[j].multimedia tools&applications,2017(1):1-22。
[0010]
[6]argaw d m,kim j,rameau f,et al.motion-blurred video interpolation and extrapolation[c]//aaai conference on artificial intelligence.2021。
[0011]
[7]qian s,zhou z,lai s.frame interpolation using deep pyramid flow[c]//2018 26th international conference on geoinformatics.ieee,2018:1-5。
[0012]
[8]peleg t,szekely p,sabo d,et al.im-net for high resolution video frame interpolation[c]//proceedings of the ieee/cvf conference on computer vision and pattern recognition.2019:2398-2407。


技术实现要素:

[0013]
本发明的目的在于提供一种基于双流卷积神经网络的深度视频帧率上转换检测装置及方法,其从空时域残差角度抑制视频内容的影响,捕捉篡改视频中遗留的微弱篡改痕迹,再采用卷积层组提取可识别特征,最后利用全连接层实现对样本的分类检测,从而可以解决背景技术中涉及的技术问题。
[0014]
本发明的技术方案为:
[0015]
一种基于双流卷积神经网络的深度视频帧率上转换检测装置,其特征在于,包括:
[0016]
残差特征提取模块,用于抑制时序上连续的两帧中的相同内容,加强对运动区域的关注,获得稳定的rgb和噪声残差特征;
[0017]
时空特征提取模块,用于接收多域残差,经过点卷积、批标准化层、激活函数和深
度可分离卷积获取时空特征;
[0018]
高级特征提取模块,用于将获取的时空特征分别经过点卷积和深度可分离卷积,将获得的特征图在通道上拼接获得高级特征;
[0019]
特征聚合模块,用于将获得的残差特征、时空特征、高级特征进行连接,然后进行双线性池化,输入到全连接层,以实现对样本的分类。
[0020]
作为本发明的一种优选改进,所述残差特征提取模块由三个结构相同的第一模块、第二模块以及第三模块并联而成,其中,
[0021]
所述第一模块包括三个用于提取每个残差输入帧的帧内特征的分组卷积与三个所述分组卷积连接并用于缓解过拟合的可能性的bn层,其中,所述第一模块组数设为5,步长和填充都设为1,包含一个卷积核,且卷积核尺寸为3
×
3;
[0022]
所述第二模块包含两个卷积核,且卷积核尺寸为3
×
3;
[0023]
所述第三模块包含三个卷积核,且卷积核尺寸为3
×
3。
[0024]
作为本发明的一种优选改进,所述时空特征提取模块由三个结构相同的第四模块、第五模块以及第六模块并联而成,其中,
[0025]
所述第四模块包含一个点卷积、两个深度可分离卷积和连接所述点卷积和第一个深度可分离卷积的bn层,其中,
[0026]
所述点卷积的卷积核尺寸为1
×
1,步长为1,填充为0,组数设为1;
[0027]
所述深度可分离卷积为一个分组卷积连接一个所述点卷积组成,该分组卷积的卷积核大小为3
×
3,步长和填充为1,组数设置为1;
[0028]
所述第五模块包含两个卷积核,且卷积核尺寸为3
×
3;
[0029]
所述第六模块包含三个卷积核,且卷积核尺寸为3
×
3。
[0030]
作为本发明的一种优选改进,所述高级特征提取模块由三个结构相同的第七模块、第八模块以及第九模块并联而成,其中,
[0031]
所述第七模块包含第一部分和第二部分,其中,
[0032]
所述第一部分使用一个步长为2,卷积核尺寸为1
×
1,填充为0的点卷积和一个下采样并执行逐元素加法的bn层;
[0033]
所述第二部分由两个卷积核尺寸为3
×
3、深度可分离卷积、bn层、relu和平均池化操作组成,其中,池化层的步长为2,填充为1,卷积核尺寸为3
×
3,通过下采样减少特征图的尺寸;
[0034]
所述第八模块的深度可分离卷积中的分组卷积包含两个卷积核,且卷积核尺寸为3
×
3;
[0035]
所述第九模块的深度可分离卷积中的分组卷积包含两个卷积核,且卷积核尺寸为3
×
3。
[0036]
作为本发明的一种优选改进,所述特征聚合模块由一个深度可分离卷积、bn层以及全局平均池化组成,其中,
[0037]
所述深度可分离卷积的卷积核尺寸为3
×
3,步长为1,组数设为1;
[0038]
所述全局平均池化对提取的特征图的每个通道进行均值化。
[0039]
作为本发明的一种优选改进,所述第一模块至所述第九模块均采用relu作为激活函数。
[0040]
作为本发明的一种优选改进,经过残差特征提取模块的特征图的通道数为30。
[0041]
作为本发明的一种优选改进,经过时空特征提取模块的特征图的通道数为60。
[0042]
作为本发明的一种优选改进,经过高级特征提取模块的特征图的通道数为90。
[0043]
本发明的有益效果如下:
[0044]
1、本发明残差特征提取模块采用分组卷积实现对rgb和噪声残差信息提取,有效的抑制视频帧内容;为稳定预测残差,采用一次卷积后特征图与原特征图级联,获取稳定的残差,为后续的时空特征提取、高级特征提取和特征聚合提供重要的保证;
[0045]
2、时空特征提取模块采用点卷积、深度可分离卷积、bn层和relu激活函数,学习了时空特征,预防了过拟合,也避免了梯度消失;
[0046]
3、高级特征提取模块上采样点卷积和深度可分离卷积进行级联,平均池化针对时空特征提取模块缩小了分辨率,有效的提取可识别特征;
[0047]
4、特征聚合模块将rgb和噪声残差的输出结果分别进行连接进行双线性池化以获得双流的综合特征,同时也设置crossentropyloss损失函数以保证网络在训练中以较快的速度稳定收敛;
[0048]
5、本发明可以对深度帧率上转换篡改进行有效的检测,可以满足视频真实性和完整性的验证要求,为深度视频帧率上转换的检测发展提供新的检测装置。
附图说明
[0049]
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图,其中:
[0050]
图1为本发明基于双流卷积神经网络的深度视频帧率上转换检测装置的结构框图;
[0051]
图2为本发明基于双流卷积神经网络的深度视频帧率上转换检测装置的网络模型图。
具体实施方式
[0052]
下面将结合本发明实施例对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本发明的一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
[0053]
请参阅图1所示,本发明提供一种基于双流卷积神经网络的深度视频帧率上转换检测装置,包括残差特征提取模块1、时空特征提取模块2、高级特征提取模块3以及特征聚合模块4。再结合图2所示,该网络模型包括残差特征提取模块1、时空特征提取模块2、高级特征提取模块3以及特征聚合模块4四部分,且该网络模型是上下对称结构的,上半部分与下半部分具有相同的网络结构。
[0054]
所述残差特征提取模块1用于抑制时序上连续的两帧中的相同内容,加强对运动区域的关注,获得稳定的rgb和噪声残差特征。
[0055]
具体的,所述残差特征提取模块1由三个结构相同的第一模块11、第二模块12以及第三模块13并联而成。
[0056]
所述第一模块11包括三个用于提取每个残差输入帧的帧内特征的分组卷积与三个所述分组卷积连接并用于缓解过拟合的可能性的bn层,relu作为激活函数。其中,所述第一模块组数设为5,步长和填充都设为1,包含一个卷积核,且卷积核尺寸为3
×
3。
[0057]
所述第二模块12包含两个卷积核,且卷积核尺寸为3
×
3。
[0058]
所述第三模块13包含三个卷积核,且卷积核尺寸为3
×
3。
[0059]
经过残差特征提取模块的特征图的通道数为30。
[0060]
为了获得稳定的残差,遵循densenet的特征重用思想,执行一次卷积后特征图与并联连接后的特征图级联,获得较为稳定的残差。该过程能抑制视频帧中的内容从而获得稳定的预测残差。之后再传入时空特征提取模块2。
[0061]
所述时空特征提取模块2用于接收多域残差,经过点卷积、批标准化层(bn层)、激活函数和深度可分离卷积获取时空特征。
[0062]
具体的,所述时空特征提取模块2由三个结构相同的第四模块21、第五模块22以及第六模块23并联而成。
[0063]
所述第四模块21包含一个点卷积、两个深度可分离卷积和连接所述点卷积和第一个深度可分离卷积的bn层,relu作为激活函数。其中,所述点卷积的卷积核尺寸为1
×
1,步长为1,填充为0,组数设为1。
[0064]
所述深度可分离卷积为一个分组卷积连接一个所述点卷积组成,该分组卷积的卷积核大小为3
×
3,步长和填充为1,组数设置为1。
[0065]
所述第五模块22包含两个卷积核,且卷积核尺寸为3
×
3。
[0066]
所述第六模块23包含三个卷积核,且卷积核尺寸为3
×
3。
[0067]
经过时空特征提取模块2的特征图的通道数为60。
[0068]
所述高级特征提取模块3用于将获取的时空特征分别经过点卷积和深度可分离卷积,将获得的特征图在通道上拼接获得高级特征。
[0069]
具体的,所述高级特征提取模块3由三个结构相同的第七模块31、第八模块32以及第九模块33并联而成。
[0070]
所述第七模块31包含第一部分和第二部分,其中,所述第一部分使用一个步长为2,卷积核尺寸为1
×
1,填充为0的点卷积和一个下采样并执行逐元素加法的bn层。
[0071]
所述第二部分由两个卷积核尺寸为3
×
3、深度可分离卷积、bn层、relu和平均池化操作组成,其中,池化层的步长为2,填充为1,卷积核尺寸为3
×
3,通过下采样减少特征图的尺寸。
[0072]
所述第八模块32的深度可分离卷积中的分组卷积包含两个卷积核,且卷积核尺寸为3
×
3。
[0073]
所述第九模块33的深度可分离卷积中的分组卷积包含两个卷积核,且卷积核尺寸为3
×
3。
[0074]
经过高级特征提取模块的特征图的通道数为90。
[0075]
所述特征聚合模块4用于将获得的残差特征、时空特征、高级特征进行连接,然后进行双线性池化,输入到全连接层,以实现对样本的分类。
[0076]
具体的,所述特征聚合模块4由一个深度可分离卷积、bn层以及全局平均池化组成。
[0077]
所述深度可分离卷积的卷积核尺寸为3
×
3,步长为1,组数设为1。
[0078]
所述全局平均池化对提取的特征图的每个通道进行均值化;即一个feature map输出一个值。使用全局平均池化的原因是因为全局平均池化层不需要参数,避免在该层产生过拟合,对空间信息进行聚合,对输入的空间变化的鲁棒性更强。
[0079]
下面以具体实施例1对本发明提供的基于双流卷积神经网络的深度视频帧率上转换检测装置进行实验验证。
[0080]
实施例1
[0081]
构建测试集:
[0082]
首先,筛选大规模视频集合ucf101,该数据集共有13320个视频,总时长达27个小时,视频类别101种,涵盖了人与物交互,单纯的肢体动作,人与人交互,演奏乐器,体育运动共5大类动作,平均每个视频持续7.29s。为了让数据集尽可能丰富,从101个文件夹种挑选出了100个文件夹,从每个文件夹种挑选出4个视频,共400个数据集用于网络的训练和测试。其次,将经过筛选的400个原始视频送入深度视频帧率上转换方法,例如adacof算法,进行视频帧率上转换篡改。训练集和测试集按照9:1的比例进行划分,即360个视频作为训练集,40个视频作为测试集。为了提高模型训练的时间,将视频中各帧进行灰度化处理,帧尺寸从320
×
240转换成100
×
100。为了获得视频间的时序信息,网络输入利用时序上完全连续的6帧获得5组帧差,将帧差进行拼接后作为rgb流的输入,帧差经过srm模型的第二个滤波器获得噪声残差作为噪声流的输入。
[0083]
实验过程:
[0084]
将五个连续的帧差作为一组训练数据,训练集中共有127776组数据用于训练,测试集中共有15836组数据进行测试。训练的过程中采用crossentropyloss作为损失函数,检测精度为86.7%。
[0085]
为测试双流网络合适的输入,通过rgb残差,噪声残差和光流设计三种不同的配置方案。第一个方案,以rgb残差和光流作为网络的输入;第二个方案,采用噪声残差和光流作为网络的输入;第三个方案,采用本发明的输入,即rgb残差和噪声残差作为输入,结果如表1所示。
[0086]
表1不同配置的检测精度(%)
[0087]
方案第一方案第二方案第三方案(本发明)检测精度81.779.286.7
[0088]
从表1中,可以看到本发明选择的输入能有效的提升检测精度,而且本发明的配置组合获得最高的检测精度。这也说明本发明可以对深度帧率上转换篡改进行有效的检测,可以满足视频真实性和完整性的验证要求,为深度视频帧率上转换的检测发展提供新的检测装置。
[0089]
本发明的有益效果如下:
[0090]
1、本发明残差特征提取模块采用分组卷积实现对rgb和噪声残差信息提取,有效的抑制视频帧内容;为稳定预测残差,采用一次卷积后特征图与原特征图级联,获取稳定的残差,为后续的时空特征提取、高级特征提取和特征聚合提供重要的保证;
[0091]
2、时空特征提取模块采用点卷积、深度可分离卷积、bn层和relu激活函数,学习了时空特征,预防了过拟合,也避免了梯度消失;
[0092]
3、高级特征提取模块上采样点卷积和深度可分离卷积进行级联,平均池化针对时空特征提取模块缩小了分辨率,有效的提取可识别特征;
[0093]
4、特征聚合模块将rgb和噪声残差的输出结果分别进行连接进行双线性池化以获得双流的综合特征,同时也设置crossentropyloss损失函数以保证网络在训练中以较快的速度稳定收敛;
[0094]
5、本发明可以对深度帧率上转换篡改进行有效的检测,可以满足视频真实性和完整性的验证要求,为深度视频帧率上转换的检测发展提供新的检测装置。
[0095]
在本说明书的描述中,参考术语“一个实施例”、“本实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
[0096]
以上是对本发明的较佳实施进行了具体说明,但本发明并不限于所述实施例,熟悉本领域的技术人员在不违背本发明精神的前提下还可做作出种种的等同变形或替换,这些等同的变形或替换均包含在本技术权利要求所限定的范围内。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献