融合标题信息的伪造人物视频检测方法及装置

2022-08-17 09:55:02 来源：中国专利 TAG：

1.本发明属于视频处理、网络信息安全技术领域，具体涉及一种融合标题信息的伪造人物视频检测方法及装置。

背景技术：

2.近年来，学术界和工业界的研究人员纷纷对这类含人脸的重要人物伪造视频检测开展研究，基于深度学习提出了一系列的检测模型，根据这类伪造视频通常通过换脸或换唇等局部替换方式生成的原理，这些检测模型通常都将伪造视频的检测转换为对伪造视频中伪造人脸区域的检测。但是由于深度伪造技术的发展日新月异，伪造线索日益隐秘，所以导致这些伪造检测模型普遍存在泛化能力差，无法检测未知类别伪造视频的不足。
3.相对于普通大众，国家政要、公众人物、文体明星等这些重点目标人物的音视频信息更易于通过公开手段获取，并且一旦发表通常会带来更好的传播效果，所以他们是被伪造的重点目标。与此同时，相对于一般的伪造视频，这些重点目标的伪造视频一旦传播开来，会造成更恶劣的影响。
4.为此，本发明针对国家政要、公众人物、文体明星这些重点人物的伪造人物视频检测技术展开研究，对于发布的视频标题中带重点人物姓名的这类视频提供一种引入先验知识的真伪判别的解决思路。

技术实现要素：

5.针对发布标题中带伪造目标对象姓名的伪造人物视频，本发明提出一种融合标题信息的伪造人物视频检测方法及装置，基于标题信息从互联网上获取目标对象的真实人脸图像作为先验知识，对伪造视频的真伪进行精准检测。
6.为解决上述技术问题，本发明采用以下的技术方案：
7.本发明提供了一种融合标题信息的伪造人物视频检测方法，包含以下步骤：
8.步骤1，创建人物名字词典，基于文本规则匹配的方式从带标题的含人脸的待检测视频的标题中提取人物的姓名信息，如果匹配成功，返回人物姓名，进入步骤2，否则，设置参考人脸图像为空，进入步骤3；
9.步骤2，将从视频标题中提取的人物姓名作为关键词输入到互联网中进行搜索，如果没有搜索到相应人物的词条，则设置参考人脸图像为空，进入步骤3；否则，进入相应人物的词条，提取人物的图像，再采用人脸检测模型定位人脸，将人脸区域保存为参考人脸图像；
10.步骤3，逐帧提取待检测视频中的视频帧，采用人脸检测模型定位人脸，将人脸区域保存为待检测人脸图像；将待检测人脸图像和步骤2的参考人脸图像或者设置为空的参考人脸图像输入到事先训练好的检测模型m中，如果m输出为1，则标记当前视频帧为伪造，否则判定为真实；
11.步骤4，统计待检测视频中所有视频帧的检测结果，如果判别为伪造的视频帧数目
大于判别为真实的视频帧数目，则输出待检测视频为伪造视频，否则，输出待检测视频为真实视频。
12.进一步地，所述人脸检测模型为retinaface模型。
13.进一步地，所述检测模型m包括人脸识别模型m1和伪造检测模型m2，所述人脸识别模型m1用于检测视频帧中的待检测人脸图像与要伪造对象的参考人脸图像是否是同一个人，所述伪造检测模型m2用于检测视频帧中的待检测人脸图像是否存在伪造痕迹。
14.进一步地，利用人脸识别模型m1进行是否是同一个人的检测包括：
15.将从待检测视频中截取的人脸图像和参考图像中截取的人脸图像输入到人脸识别模型m1后，分别基于两个alnexnet网络进行输入图像的特征提取，对于每个人脸图像先分别提取到1000维的特征，然后将两个人脸图像的特征拼接成2000维的特征，再将这2000维的特征通过一个全连接层转换成一个2维向量输出，分别对应这两个人脸图像是同一个人和不是同一个人的概率，最终输出第1维的数值反映两张人脸的相似度。
16.进一步地，对人脸识别模型m1的训练过程包括：
17.收集i个人的人脸图像，采用retinaface模型把这些人脸图像中的人脸区域裁剪出来，每人2张人脸区域图像{f
i(j)
}，其中i表示人物的id编号，j表示人脸图像的编号，j的取值范围是1-2；
18.将同一个人的两张人脸图像组成正向样本对：{f
i(1)
,f
i(2)
}，共得到i对正向样本对；将编号为i的人的第一张人脸图像和编号为i 1的人的第一张人脸图像组成负向样本对：共得到i个负向样本对；
19.将上述i个正向样本对和负向样本对送入人脸识别模型m1中进行训练，其中正向样本对的输出为1，负向样本对的输出为0；
20.人脸识别模型m1输出值r1的范围是[0,1]，该值越大说明待检测视频中人脸图像与要伪造对象的参考人脸图像越像。
[0021]
进一步地，利用伪造检测模型m2对待检测人脸图像进行真伪检测包括：
[0022]
将从待检测视频中截取的人脸图像输入到伪造检测模型m2后，基于 alnexnet网络进行输入图像的特征提取，对于每个人脸图像提取到1000维的特征，然后将这1000维的特征通过一个全连接层转换成一个2维向量输出，分别对应这个人脸图像是真实和伪造的概率，最终输出第1维的数值作为该图像是真实图像的概率。
[0023]
进一步地，对伪造检测模型m2的训练过程包括：
[0024]
收集i个真实的人脸图像和i个基于深度伪造生成的人脸图像，采用 retinaface模型把这些人脸图像中的人脸区域裁剪出来，得到正向样本集 p＝{p1,p2,
…
,pi}和负向样本集n＝{n1,n2,
…
,ni}，将p和n输入到伪造检测模型m2中进行训练，其中正向样本集中每个样本的输出为1，负向样本集中每个样本的输出为0；伪造检测模型m2输出值r2的范围是[0,1]，该值越大说明待检测视频中人脸图像是真实人脸图像的概率越大。
[0025]
进一步地，待检测视频中人脸图像的真假得分r＝(r1 r2)/2，如果r大于预先设置的门限，就判定待检测人脸图像为真实人脸，否则为伪造人脸。
[0026]
本发明还提供了一种融合标题信息的伪造人物视频检测装置，包括：
[0027]
视频标题中人物姓名提取模块，用于创建人物名字词典，基于文本规则匹配的方
式从带标题的含人脸的待检测视频的标题中提取人物的姓名信息，如果匹配成功，返回人物姓名，否则，设置参考人脸图像为空；
[0028]
参考人脸图像提取模块，用于将从视频标题中提取的人物姓名作为关键词输入到互联网中进行搜索，如果没有搜索到相应人物的词条，则设置参考人脸图像为空；否则，进入相应人物的词条，提取人物的图像，再采用人脸检测模型定位人脸，将人脸区域保存为参考人脸图像；
[0029]
单帧视频帧真伪判定模块，用于逐帧提取待检测视频中的视频帧，采用人脸检测模型定位人脸，将人脸区域保存为待检测人脸图像；将待检测人脸图像和参考人脸图像或者设置为空的参考人脸图像输入到事先训练好的检测模型m 中，如果m输出为1，则标记当前视频帧为伪造，否则判定为真实；
[0030]
待检测视频真伪判定模块，用于统计待检测视频中所有视频帧的检测结果，如果判别为伪造的视频帧数目大于判别为真实的视频帧数目，则输出待检测视频为伪造视频，否则，输出待检测视频为真实视频。
[0031]
进一步地，所述人脸检测模型为retinaface模型；所述检测模型m包括人脸识别模型m1和伪造检测模型m2，所述人脸识别模型m1用于检测视频帧中的待检测人脸图像与要伪造对象的参考人脸图像是否是同一个人，所述伪造检测模型m2用于检测视频帧中的待检测人脸图像是否存在伪造痕迹。
[0032]
与现有技术相比，本发明具有以下优点：
[0033]
本发明的融合标题信息的伪造人物视频检测方法，基于视频标题信息提取人物姓名，并从互联网上获取该目标对象的真实人脸图像作为先验知识，以此作为对伪造人脸进行像不像的判决依据，再结合对待检测人脸图像的真伪检测，从“像不像”和“真不真”两个角度对伪造视频的真伪进行检测，提高了对带伪造对象姓名作为先验信息的伪造视频人脸检测精度。
附图说明
[0034]
为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。
[0035]
图1是本发明实施例的融合标题信息的伪造人物视频检测方法的流程示意图；
[0036]
图2是本发明实施例的单帧视频帧进行真伪判别的流程示意图；
[0037]
图3是本发明实施例的人脸识别模型m1对图像处理的流程示意图；
[0038]
图4是本发明实施例的alnexnet网络的结构示意图；
[0039]
图5是本发明实施例的伪造检测模型m2对图像处理的流程示意图；
[0040]
图6是本发明实施例的融合标题信息的伪造人物视频检测装置的结构框图；
[0041]
图7是本发明实施例的从待检测视频中提取人脸图像和人物姓名的过程示意图。
具体实施方式
[0042]
为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例
中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例，基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。
[0043]
针对带标题的含人脸的待检测视频v，本实施例给出一种融合标题信息的伪造人物视频检测方法，如图1所示，该方法包含以下步骤：
[0044]
步骤s11，事先创建好名人名字词典，基于文本规则匹配的方式从待检测视频v的标题中提取人物的姓名信息，如果匹配成功，返回名人的姓名n，进入步骤s12，否则，设置参考人脸图像i为空，进入步骤s13。
[0045]
步骤s12，将从视频标题中提取的姓名n作为关键词输入到百度百科中进行搜索，如果没有搜索到相应人物的词条，则设置参考人脸图像i为空，进入步骤s13；否则，进入相应人物的词条，提取人物的图像，再采用人脸检测模型定位人脸，将人脸区域保存为参考人脸图像i。
[0046]
步骤s13，逐帧提取待检测视频v中的视频帧，采用人脸检测模型定位人脸，将人脸区域保存为待检测人脸图像fi；将待检测人脸图像fi和步骤s12的参考人脸图像i或者设置为空的参考人脸图像(空参考人脸图像可能来自步骤 s11，也可能来自步骤s12)输入到事先训练好的检测模型m中，如果m输出为1，则标记当前视频帧为伪造，否则判定为真实。
[0047]
步骤s14，统计待检测视频v中所有视频帧的检测结果，如果判别为伪造的视频帧数目大于判别为真实的视频帧数目，则输出待检测视频为伪造视频，否则，输出待检测视频为真实视频。
[0048]
优选的，所述人脸检测模型采用经典的retinaface模型；如图2所示，所述检测模型m包括人脸识别模型m1和伪造检测模型m2，所述人脸识别模型 m1用于检测视频帧中的待检测人脸图像fi与要伪造对象的参考人脸图像i是否是同一个人，即像不像，所述伪造检测模型m2用于检测视频帧中的待检测人脸图像fi是否存在伪造痕迹，即真不真；最后综合m1和m2的结果进行判决，对于没有从百度百科检索到参考人脸图像i的待检测视频，直接采用m2的检测结果。
[0049]
利用人脸识别模型m1进行是否是同一个人的检测包括：
[0050]
如图3所示，将从待检测视频中截取的人脸图像和参考图像中截取的人脸图像输入到人脸识别模型m1后，分别基于两个alnexnet网络(网络结构如图 4所示)进行输入图像的特征提取，对于每个人脸图像先分别提取到1000维的特征，然后将两个人脸图像的特征拼接成2000维的特征，再将这个2000维的特征通过一个全连接层(fc)转换成一个2维向量输出，分别对应这两个人脸图像是同一个人和不是同一个人的概率，最终输出第1维的数值反映两张人脸的相似度。
[0051]
图4中fc表示全连接层，pool表示池化层，conv表示卷积层。卷积层后的第1个参数表示卷积核的个数，第2个参数表示卷积的步长，例如：第1个卷积层的卷积核个数是96，步长是4，11
×
11表示卷积核的矩阵大小；第2个卷积层的卷积核个数是256，默认步长是1。全连接层后的参数表示操作后输出的维度。
[0052]
具体的，对人脸识别模型m1的训练过程包括：
[0053]
收集100个人的人脸图像，采用retinaface模型把这些人脸图像中的人脸区域裁剪出来，每人2张人脸区域图像{f
i(j)
}，其中i表示人物的id编号，取值范围是1-100，j表示
人脸图像的编号，取值范围是1-2。
[0054]
将同一个人的两张人脸图像组成正向样本对：{f
i(1)
,f
i(2)
}，共得到100对正向样本对；将编号为i的人的第一张人脸图像和编号为i 1的人的第一张人脸图像组成负向样本对：当i＝100时，其构造的负向样本对为共得到100个负向样本对。
[0055]
将上述100个正向样本对和负向样本对送入人脸识别模型m1中进行训练，其中正向样本对的输出为1，负向样本对的输出为0。
[0056]
人脸识别模型m1输出值r1的范围是[0,1]，该值越大说明待检测视频中人脸图像fi与要伪造对象的参考人脸图像i越像。
[0057]
利用伪造检测模型m2对待检测人脸图像进行真伪检测包括：
[0058]
如图5所示，将从待检测视频中截取的人脸图像输入到伪造检测模型m2 后，基于alnexnet网络(网络结构如图4所示)进行输入图像的特征提取，对于每个人脸图像提取到1000维的特征，然后将这个1000维的特征通过一个全连接层(fc)转换成一个2维向量输出，分别对应这个人脸图像是真实和伪造的概率，最终输出第1维的数值作为该图像是真实图像的概率。
[0059]
具体的，对伪造检测模型m2的训练过程包括：
[0060]
收集100个真实的人脸图像和100个基于深度伪造生成的人脸图像，采用 retinaface模型把这些人脸图像中的人脸区域裁剪出来，得到正向样本集 p＝{p1,p2,
…
,pi}和负向样本集n＝{n1,n2,
…
,ni}，将p和n输入到伪造检测模型m2中进行训练，其中正向样本集中每个样本的输出为1，负向样本集中每个样本的输出为0；伪造检测模型m2输出值r2的范围是[0,1]，该值越大说明待检测视频中人脸图像fi是真实人脸图像的概率越大。
[0061]
最终，待检测视频中人脸图像fi的真假得分r＝(r1 r2)/2，如果r大于预先设置的门限，就判定待检测人脸图像为真实人脸，否则为伪造人脸。在实际应用中，门限t可以设置为0.5。
[0062]
与上述融合标题信息的伪造人物视频检测方法相应地，如图6所示，本实施例还提出一种融合标题信息的伪造人物视频检测装置，包括：
[0063]
视频标题中人物姓名提取模块61，用于创建人物名字词典，基于文本规则匹配的方式从带标题的含人脸的待检测视频的标题中提取人物的姓名信息，如果匹配成功，返回人物姓名，否则，设置参考人脸图像为空。
[0064]
参考人脸图像提取模块62，用于将从视频标题中提取的人物姓名作为关键词输入到互联网中进行搜索，如果没有搜索到相应人物的词条，则设置参考人脸图像为空；否则，进入相应人物的词条，提取人物的图像，再采用人脸检测模型定位人脸，将人脸区域保存为参考人脸图像。
[0065]
单帧视频帧真伪判定模块63，用于逐帧提取待检测视频中的视频帧，采用人脸检测模型定位人脸，将人脸区域保存为待检测人脸图像；将待检测人脸图像和参考人脸图像或者设置为空的参考人脸图像输入到事先训练好的检测模型m中，如果m输出为1，则标记当前视频帧为伪造，否则判定为真实。
[0066]
待检测视频真伪判定模块64，用于统计待检测视频中所有视频帧的检测结果，如
果判别为伪造的视频帧数目大于判别为真实的视频帧数目，则输出待检测视频为伪造视频，否则，输出待检测视频为真实视频。
[0067]
优选的，所述人脸检测模型为retinaface模型；所述检测模型m包括人脸识别模型m1和伪造检测模型m2，所述人脸识别模型m1用于检测视频帧中的待检测人脸图像与要伪造对象的参考人脸图像是否是同一个人，所述伪造检测模型m2用于检测视频帧中的待检测人脸图像是否存在伪造痕迹。
[0068]
下面给出一个具体的实例，以便更好地理解本发明。
[0069]
现在要检测一段标题为“某某最新演讲”的视频的真假，依次提取这个视频中的视频帧进行真假检测，对每个视频帧的检测过程如下：
[0070]
首先，对标题文本的正则匹配，使用创建好的名人名字词典。
[0071]
然后，将从标题中提取的视频中主人公的名字“某某”输入到百度百科中进行搜索，进入相关的词条，从上述词条中提取相关人物“某某”的人脸图像作为参考人脸图像。
[0072]
对于图7中从待检测视频中提取的人脸图像和参考人脸图像，基于alnexnet 网络提取人脸的特征，输入到训练好的人脸识别模型m1中，m1检测两张人脸相似度的过程如步骤s21-s29：
[0073]
步骤s21，对于输入图像，首先重新规整为227
×
227
×
3的大小，然后送入第1个卷积层，该层有96个卷积核，每个卷积核的大小是11
×
11
×
3，步长是4，因为(227-11)/4 1＝55，所以卷积后的输出为55
×
55
×
96，然后对这些输出值用relu 进行过滤，relu后的数据维度也是55
×
55
×
96，然后送入max pool，max pool 采用3
×
3的池化核，步长为2，max pool后的数据维度为27
×
27
×
96，最后采用 lrn(local response normalization，局部响应归一化)进行归一化，得到维度为 27
×
27
×
96的输出。
[0074]
步骤s22，上述27
×
27
×
96的输出作为第2个卷积层的输入，第2个卷积层有256个卷积核，每个卷积核的大小为5
×
5，步长为1，卷积后的维度为27
×
27
ꢀ×
256，然后对这些输出值用relu进行过滤，relu后的数据维度也是27
×
27
×
256， max pool采用3
×
3的池化核，步长为2，max pool后的数据维度为13
×
13
×
256，最后采用lrn(local response normalization，局部响应归一化)进行归一化，得到维度为13
×
13
×
256的输出。
[0075]
步骤s23，上述13
×
13
×
256的输出作为第3个卷积层的输入，第3个卷积层有384个卷积核，每个卷积核的大小为3
×
3，步长为1，卷积后的维度为13
×ꢀ
13
×
384，然后对这些输出值用relu进行过滤，relu后的数据维度也是13
×
13
×
384 作为该层的输出。
[0076]
步骤s24，上述13
×
13
×
384的输出作为第4个卷积层的输入，第4个卷积层有384个卷积核，每个卷积核的大小为3
×
3，步长为1，卷积后的维度为13
×ꢀ
13
×
384，然后对这些输出值用relu进行过滤，relu后的数据维度也是13
×
13
×
384 作为该层的输出。
[0077]
步骤s25，上述13
×
13
×
384的输出作为第5个卷积层的输入，第5个卷积层有256个卷积核，每个卷积核的大小为3
×
3，步长为1，卷积后的维度为13
×ꢀ
13
×
256，然后对这些输出值用relu进行过滤，relu后的数据维度也是13
×
13
×
256， max pool采用3
×
3的池化核，步长为2，max pool后的数据维度为6
×6×
256，最后采用lrn(local response normalization，局部响应归一化)进行归一化，得到维度为6
×6×
256的输出。
[0078]
步骤s26，上述6
×6×
256的输出送入第6层的全连接层中，线性映射成4096
ꢀ×
1维的输出，然后经过relu和drop out，输出4096
×
1维的结果。
[0079]
步骤s27，上述4096
×
1的输出送入第7层的全连接层中，线性映射成4096
ꢀ×
1维的输出，然后经过relu和drop out，输出4096
×
1维的结果。
[0080]
步骤s28，上述4096
×
1的输出送入第8层的全连接层中，线性映射成1000
ꢀ×
1维的输出。
[0081]
步骤s29，将提取的待检测人脸图像和参考人脸图像的1000维特征拼接成 2000维的特征，送入最后的全连接层，取输出的第1维的数据，得到m1的输出r1＝0.8。
[0082]
将图7中从待检测视频中提取的人脸图像输入到训练好的伪造检测模型m2 中，提取特征，处理流程如上述步骤s21-28，不过m2中alexnet网络的参数和 m1中alexnet网络的参数是不同的，得到m2的输出r2＝0.6。
[0083]
最终，上述视频帧的得分为(r1 r2)/2＝(0.8 0.6)/2＝0.7，因为0.7＞0.5，所以该视频帧判为真实视频帧。
[0084]
每帧视频帧均重复以上步骤，统计待检测视频中所有视频帧的检测结果，如果判别为伪造的视频帧数目大于判别为真实的视频帧数目，则输出待检测视频为伪造视频，否则，输出待检测视频为真实视频。
[0085]
需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。
[0086]
最后需要说明的是：以上所述仅为本发明的较佳实施例，仅用于说明本发明的技术方案，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所做的任何修改、等同替换、改进等，均包含在本发明的保护范围内。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：交互数据的流转监控方法及装置、存储介质及电子装置与流程

融合标题信息的伪造人物视频检测方法及装置

相关文献

最热文献