一种基于光流法的深度伪造视频检测方法和系统与流程

2022-02-24 14:15:48 来源：中国专利 TAG：

1.本发明涉及伪造视频检测的技术领域，尤其是一种基于光流法的深度伪造视频检测方法和系统。

背景技术：

2.深度伪造技术，指利用深度学习相关技术对视频、音频、图像等进行篡改或者生成。有别于传统伪造技术，深度伪造具有易泛化、肉眼难以分辨等特点，且普通人获取深度伪造模型后进行伪造的门槛较低，因此近两年发展迅速，针对深度伪造视频的鉴别手段也应运而生。由于目前的深度伪造视频往往由多帧伪造图像拼接而成，针对这一特性，主流的深度伪造视频鉴别方法可分为两种，一种基于帧内人为视觉效果(visual artifacts within frame)，另一种基于帧间时间特性(temporal feature across frames)。
3.基于帧内人为视觉效果的检测方法主要利用视频抽帧技术，将视频帧当做独立的图像，使用传统图像取证技术和深度学习的检测技术进行分析。例如基于人脸合成相关先验，判断图像是否存在人脸伪造痕迹；基于不同伪造网络的特定特征对图像进行特定特征提取检测等。考虑到视频相对图像而言拥有额外的时序信息，将时序作为另一维度的信息补充可以帮助算法更有效的对深度伪造视频进行检测，由此衍生出基于帧间时间特性的检测方法。例如通过检测视频人脸的眨眼频率进行判别，以人脸检测为先验通过循环神经网络进行判别等。
4.目前针对深度伪造视频检测算法大多为帧内检测，算法只对单张视频帧进行判断，为了提升网络的泛化能力，这些算法大部分都引入了强先验。如认为深度伪造视频中的易出现伪影(artifact)、牙齿缺乏建模、人眼无镜面反射等现象，通过算法捕获这些伪造缺陷从而进行伪造判断。然而这些方法只能够解决深度伪造技术发展初期之时算法生成的伪造视频，随着技术的发展，伪造缺陷逐步被解决，这些基于生物特征不一致的检测方法也将渐渐失去效力。另一种思路是通过对不同的深度伪造算法进行逐一分析，获取每个算法的生成特征，再利用这些特征和视频进行匹配，以判断视频是否经过该算法伪造。显而易见的是这种方法需要大量的资源支撑，并且需要长期维护才能保证算法有效性。帧间检测算法则大部分对前置算法例如人脸检测、人眼检测有强依赖，需要在前置算法准确无误的情况下才能生效，这在一定程度上会影响深度伪造检测算法的泛化能力。
5.深度伪造技术在影视制作等娱乐文化交流产业有着广泛的应用前景，但与此同时该技术也同样可以被应用于舆论误导、诈骗、网络安全攻击等场景，极易对社会造成严重的不良影响。因此在该技术快速发展的同时，针对深度伪造进行伪造检测的技术也亟需发展。

技术实现要素：

6.为了解决现有技术中基于生物特征不一致的检测方法失效、帧间检测算法对前置算法有强依赖，影响深度伪造检测算法的泛化能力的技术问题，本发明提出了一种基于光流法的深度伪造视频检测方法和系统，以解决上述技术问题。
7.根据本发明的一个方面，提出了一种基于光流法的深度伪造视频检测方法，该方法包括：
8.s1：收集经过不同方式篡改后的深度伪造视频和原始视频分别构建训练集和验证集；
9.s2：对训练集和验证集中的视频进行抽帧处理获得每个视频的每帧图像，利用光流计算模型提取光流特征；
10.s3：按时序分别对每帧图像和光流特征进行拼接，并输入神经网络模型训练至损失收敛；
11.s4：对待验证视频进行步骤s2和s3中的抽帧处理、光流计算和图像拼接，并取部分图像送入神经网络模型，将获取到的输出通过神经网络的激活函数获得输出结果均值，若输出结果均值不小于预设阈值，则待验证视频为深度伪造视频。
12.在一些具体的实施例中，步骤s1中按10:1的比例构建训练集合验证集。
13.在一些具体的实施例中，步骤s2中利用光流计算模型提取光流特征具体采用递归全场变换光流计算模型获取光流特征。
14.在一些具体的实施例中，步骤s3中具体包括将获取的抽帧图像和光流图像分别使用双线性插值尺度变换到固定大小，并按时序分别将抽帧图像和光流图像进行拼接。
15.在一些具体的实施例中，固定大小为(128，128)，以10帧为一个拼接单位，每个拼接单位之间的拼接步长为3帧。
16.在一些具体的实施例中，神经网络模型包括一个卷积神经网络和一个循环神经网络，卷积神经网络接受(n，n*p，6)的输入，n为输入图像的高度，n*p为输入图像的宽度，6为通道大小，通道包括获取的光流拼接图像和抽帧拼接图像经过通道；循环神经网络接受卷积神经网络提取的特征作为输入，进一步提取特征之间的时序信息，通过一个全连接层作为分类器，输出一个一维的特征值。通过该神经网络模型弱化了检测算法对前置算法的高度依赖性，在有限的资源条件下对多种深度伪造算法生成的深度伪造视频均有良好的泛化能力。
17.在一些具体的实施例中，神经网络模型采用交叉熵损失在一些具体的实施例中，神经网络模型采用交叉熵损失其中，y为样本真实标签，为网络推理出来的预测标签。
18.在一些具体的实施例中，神经网络的激活函数采用sigmoid函数，预设阈值为0.5。
19.根据本发明的第二方面，提出了一种计算机可读存储介质，其上存储有一或多个计算机程序，该一或多个计算机程序被计算机处理器执行时实施上述任一项的方法。
20.根据本发明的第三方面，提出了一种基于光流法的深度伪造视频检测系统，该系统包括：
21.样本收集单元，配置用于收集经过不同方式篡改后的深度伪造视频和原始视频分别构建训练集和验证集；
22.光流特征提取单元，配置用于对训练集和验证集中的视频进行抽帧处理获得每个视频的每帧图像，利用光流计算模型提取光流特征；
23.训练单元：配置用于按时序分别对每帧图像和光流特征进行拼接，并输入神经网络模型训练至损失收敛；
24.验证单元：配置用于对待验证视频进行抽帧处理、光流计算和图像拼接，并取部分图像送入神经网络模型，将获取到的输出通过神经网络的激活函数获得输出结果均值，若输出结果均值不小于预设阈值，则待验证视频为深度伪造视频。
25.在一些具体的实施例中，按10:1的比例构建训练集合验证集。
26.在一些具体的实施例中，利用光流计算模型提取光流特征具体采用递归全场变换光流计算模型获取光流特征。
27.在一些具体的实施例中，将获取的抽帧图像和光流图像分别使用双线性插值尺度变换到固定大小，并按时序分别将抽帧图像和光流图像进行拼接，固定大小为(128，128)，以10帧为一个拼接单位，每个拼接单位之间的拼接步长为3帧。
28.在一些具体的实施例中，神经网络模型包括一个卷积神经网络和一个循环神经网络，卷积神经网络接受(n，n*p，6)的输入，n为输入图像的高度，n*p为输入图像的宽度，6为通道大小，通道包括获取的光流拼接图像和抽帧拼接图像经过通道；循环神经网络接受卷积神经网络提取的特征作为输入，进一步提取特征之间的时序信息，通过一个全连接层作为分类器，输出一个一维的特征值，神经网络模型采用交叉熵损失其中，y为样本真实标签，为网络推理出来的预测标签。
29.本发明提出了一种基于光流法的深度伪造视频检测方法和系统，以视频光流为特征补充，结合视频帧图像，利用卷积神经网络捕获图像特征，循环神经网络捕获帧间信息和时序特征。该算法能够降低深度伪造检测算法对前置算法的强依赖性，同时能够有效的对多种深度伪造视频进行检测，提升算法泛化能力。
附图说明
30.包括附图以提供对实施例的进一步理解并且附图被并入本说明书中并且构成本说明书的一部分。附图图示了实施例并且与描述一起用于解释本发明的原理。将容易认识到其它实施例和实施例的很多预期优点，因为通过引用以下详细描述，它们变得被更好地理解。通过阅读参照以下附图所作的对非限制性实施例所作的详细描述，本技术的其它特征、目的和优点将会变得更明显：
31.图1是本技术的一个实施例的基于光流法的深度伪造视频检测方法的流程图；
32.图2是本技术的一个具体的实施例的光流拼接图像和抽帧拼接图像的示意图；
33.图3是本技术的一个具体的实施例的神经网络模型结构图；
34.图4是本技术的一个具体的实施例的基于光流法的深度伪造视频检测方法的流程图；
35.图5是本技术的一个实施例的基于光流法的深度伪造视频检测系统的框架图；
36.图6是适于用来实现本技术实施例的电子设备的计算机系统的结构示意图。
具体实施方式
37.下面结合附图和实施例对本技术作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释相关发明，而非对该发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与有关发明相关的部分。
38.需要说明的是，在不冲突的情况下，本技术中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本技术。
39.根据本技术的一个实施例的基于光流法的深度伪造视频检测方法，图1示出了根据本技术的实施例的基于光流法的深度伪造视频检测方法的流程图。如图1所示，该方法包括：
40.s101：收集经过不同方式篡改后的深度伪造视频和原始视频分别构建训练集和验证集。
41.在具体的实施例中，收集样本,构建训练集与验证集。收集网络上各类经过不同方式篡改后的深度伪造视频与真实视频。所有视频按一定比例构建训练集与验证集，优选的，本技术中使用比例为10：1。
42.s102：对训练集和验证集中的视频进行抽帧处理获得每个视频的每帧图像，利用光流计算模型提取光流特征。
43.在具体的实施例中，对步骤s101中收集到的所有视频进行抽帧处理，保存每个视频的每帧图像。对步骤s102中抽帧后的图像，使用光流计算模型提取其光流特征。光流法基本约束方程为：i
x
u iyv i
t
＝0，其中，x,y代表坐标维度，t代表所在的时间维度，分别代表图像中像素点的灰度沿x，y，t方向的偏导数，分别代表光流沿x轴与y轴的速度矢量。光流特征可使用不同光流计算模型获取，优选的，本发明使用递归全对场变换光流计算模型获取所需光流特征。
44.s103：按时序分别对每帧图像和光流特征进行拼接，并输入神经网络模型训练至损失收敛。
45.在具体的实施例中，将步骤s102中获取的抽帧图像使用双线性插值尺度变换到固定大小(n，n)，优选的，本技术中使用大小为(128，128)，按照时序将抽帧图像进行拼接，设定以p帧为一个拼接单位，每个拼接单位之间的拼接步长为s帧。优选的，本技术中使用p＝10，s＝3。同理，对步骤s102中获取到的光流图像进行相同操作。具体示例如图2所示，上一行拼接图片为光流拼接图像示意，下方为抽帧拼接图像示意。
46.在一个具体的实施例中，搭建如图3中示出的神经网络模型，如图3所示，该模型主干网络由一个卷积神经网络与一个循环神经网络组成，卷积网络接受(n，n*p，6)的输入，其中n为输入图像的高度，n*p为输入图像的宽度，6为通道大小，由步骤s103获取的光流拼接图像与抽帧拼接图像经过通道合并组成；循环神经网络接受卷积神经网络提取的特征作为输入，进一步提取特征之间的时序信息，最后通过一个全连接层作为分类器，输出一个一维的特征值。该神经网络模型采用交叉熵损失：的特征值。该神经网络模型采用交叉熵损失：其中y为样本真实标签，为网络推理出来的预测标签。
47.s104：对待验证视频进行步骤s102和s103中的抽帧处理、光流计算和图像拼接，并取部分图像送入神经网络模型，将获取到的输出通过神经网络的激活函数获得输出结果均值，若输出结果均值不小于预设阈值，则待验证视频为深度伪造视频。
48.在具体的实施例中，将待验证视频依次经过上述图像预处理(抽帧处理、光流计算和图像拼接)，获取多个拼接图像，从中抽取i个送入步骤六中得到的模型，将获取到的输出
经过sigmoid函数：得到输出结果tt1，t2，
…
ti}，求其均值t，若满足t≥θ则判定该视频为深度伪造视频，否则为真实视频，其中θ为可调整的阈值，优选的，本技术中该阈值设定为0.5。
49.上述整体流程如图4中所示的一个具体的实施例的基于光流法的深度伪造视频检测方法的流程图，通过对输入视频抽帧，并以视频光流为特征补充，结合视频帧图像，利用卷积神经网络捕获图像特征，循环神经网络捕获帧间信息和时序特征。该方法降低了深度伪造检测算法对前置算法的强依赖性，同时能够有效的对多种深度伪造视频进行检测，提升算法泛化能力。
50.继续参考图5，图5示出了根据本发明的实施例的基于光流法的深度伪造视频检测系统的框架图。该系统具体包括样本收集单元501、光流特征提取单元502、训练单元503和验证单元504，其中，样本收集单元501配置用于收集经过不同方式篡改后的深度伪造视频和原始视频分别构建训练集和验证集；光流特征提取单元502配置用于对训练集和验证集中的视频进行抽帧处理获得每个视频的每帧图像，利用光流计算模型提取光流特征；训练单元503配置用于按时序分别对每帧图像和光流特征进行拼接，并输入神经网络模型训练至损失收敛；验证单元504配置用于对待验证视频进行抽帧处理、光流计算和图像拼接，并取部分图像送入神经网络模型，将获取到的输出通过神经网络的激活函数获得输出结果均值，若输出结果均值不小于预设阈值，则待验证视频为深度伪造视频。
51.下面参考图6，其示出了适于用来实现本技术实施例的电子设备的计算机系统600的结构示意图。图6示出的电子设备仅仅是一个示例，不应对本技术实施例的功能和使用范围带来任何限制。
52.如图6所示，计算机系统600包括中央处理单元(cpu)601，其可以根据存储在只读存储器(rom)602中的程序或者从存储部分608加载到随机访问存储器(ram)603中的程序而执行各种适当的动作和处理。在ram 603中，还存储有系统600操作所需的各种程序和数据。cpu 601、rom 602以及ram 603通过总线604彼此相连。输入/输出(i/o)接口605也连接至总线604。
53.以下部件连接至i/o接口605：包括键盘、鼠标等的输入部分606；包括诸如液晶显示器(lcd)等以及扬声器等的输出部分607；包括硬盘等的存储部分608；以及包括诸如lan卡、调制解调器等的网络接口卡的通信部分609。通信部分609经由诸如因特网的网络执行通信处理。驱动器610也根据需要连接至i/o接口605。可拆卸介质611，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器610上，以便于从其上读出的计算机程序根据需要被安装入存储部分608。
54.特别地，根据本公开的实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本公开的实施例包括一种计算机程序产品，其包括承载在计算机可读存储介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信部分609从网络上被下载和安装，和/或从可拆卸介质611被安装。在该计算机程序被中央处理单元(cpu)601执行时，执行本技术的方法中限定的上述功能。需要说明的是，本技术的计算机可读存储介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以
是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(ram)、只读存储器(rom)、可擦式可编程只读存储器(eprom或闪存)、光纤、便携式紧凑磁盘只读存储器(cd-rom)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本技术中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本技术中，计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读存储介质，该计算机可读存储介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读存储介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：无线、电线、光缆、rf等等，或者上述的任意合适的组合。
55.可以以一种或多种程序设计语言或其组合来编写用于执行本技术的操作的计算机程序代码，程序设计语言包括面向对象的程序设计语言—诸如java、smalltalk、c ，还包括常规的过程式程序设计语言—诸如“c”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络——包括局域网(lan)或广域网(wan)—连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
56.附图中的流程图和框图，图示了按照本技术各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。
57.描述于本技术实施例中所涉及到的模块可以通过软件的方式实现，也可以通过硬件的方式来实现。
58.作为另一方面，本技术还提供了一种计算机可读存储介质，该计算机可读存储介质可以是上述实施例中描述的电子设备中所包含的；也可以是单独存在，而未装配入该电子设备中。上述计算机可读存储介质承载有一个或者多个程序，当上述一个或者多个程序被该电子设备执行时，使得该电子设备：收集经过不同方式篡改后的深度伪造视频和原始视频分别构建训练集和验证集；对训练集和验证集中的视频进行抽帧处理获得每个视频的每帧图像，利用光流计算模型提取光流特征；按时序分别对每帧图像和光流特征进行拼接，并输入神经网络模型训练至损失收敛；对待验证视频进行上述步骤中抽帧处理、光流计算
和图像拼接，并取部分图像送入神经网络模型，将获取到的输出通过神经网络的激活函数获得输出结果均值，若输出结果均值不小于预设阈值，则待验证视频为深度伪造视频。
59.以上描述仅为本技术的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解，本技术中所涉及的发明范围，并不限于上述技术特征的特定组合而成的技术方案，同时也应涵盖在不脱离上述发明构思的情况下，由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本技术中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

一种基于光流法的深度伪造视频检测方法和系统与流程

相关文献

最热文献