人脸检测方法、人脸检测模型的训练方法及装置与流程

2022-06-25 09:00:41 来源：中国专利 TAG：

1.本公开的实施方式涉及计算机技术领域，更具体地，本公开的实施方式涉及人脸检测方法、人脸检测模型的训练方法、人脸检测装置及人脸检测模型的处理装置、计算机可读存储介质及电子设备。

背景技术：

2.本部分旨在为权利要求中陈述的本公开的实施方式提供背景或上下文，此处的描述不因为包括在本部分中就承认是现有技术。
3.随着计算机技术领域的发展，基于人工智能的人脸伪造技术通过在生成的图片或视频中使用用户未做过的表情，来欺骗人脸识别系统和人眼。由人脸伪造技术引发的安全风险和“黑灰产”问题与日俱增。
4.相关技术中，通过人脸识别技术，从包含真脸和人脸伪造的图片或视频中识别出存在人脸伪造特征的图像，然而相关技术的人脸检测方法，不能充分利用各种伪造方法伪造的视频的共性特征，影响人脸检测的准确度。

技术实现要素：

5.在本上下文中，本公开的实施方式期望提供一种人脸检测方法、人脸检测模型的训练方法、人脸检测装置、人脸检测模型的处理装置、计算机可读存储介质及电子设备。
6.根据本公开实施方式的第一方面，提供一种人脸检测方法，包括：获取待检测视频的多个视频帧，将每个所述视频帧划分为多个图像块，所述视频帧为包含人脸信息的图像；针对每个所述视频帧，将所述多个图像块输入至预训练的人脸检测模型，所述预训练的人脸检测模型包括第一自注意力模型和与所述第一自注意力模型级联的第二自注意力模型，通过所述第一自注意力模型对所述多个图像块进行预测运算，得到每个所述视频帧的第一预测信息；将各所述视频帧的第一预测信息输入至所述第二自注意力模型进行预测运算，得到第二预测信息；融合各所述视频帧的第一预测信息与所述第二预测信息，生成融合预测信息，所述融合预测信息用于表征所述待检测视频是否存在人脸伪造图像的情况。
7.根据本公开实施方式的第二方面，提供一种人脸检测模型的训练方法，所述人脸检测模型包括第一自注意力模型以及与所述第一自注意力模型级联的第二自注意力模型，所述方法包括：获取第一样本集，所述第一样本集中的样本为视频帧样本，所述视频帧样本为包含人脸信息的图像；针对所述第一样本集中的每个视频帧样本，将每个所述视频帧样本划分为多个图像块，并将所述多个图像块作为输入，对所述第一自注意力模型进行单独训练，以输出每个视频帧样本的第一样本预测信息；将对应于同一人脸视频的第一样本预测信息作为一个样本，构建第二样本集，并根据所述第二样本集对所述第二自注意力模型进行单独训练；将所述第一样本集中属于同一人脸视频的视频帧样本作为一个样本，构建第三样本集，将所述第三样本集输入至所述人脸检测模型中的第一自注意力模型，并将所述第一自注意力模型输出的第一局部预测信息作为所述第二自注意力模型的输入，以对单
独训练后的第一自注意力模型和单独训练后的第二自注意力模型进行级联训练。
8.根据本公开实施方式的第三方面，提供一种人脸检测装置，包括：获取模块，用于获取待检测视频的多个视频帧，将每个所述视频帧划分为多个图像块，所述视频帧为包含人脸信息的图像；第一预测模块，用于针对每个所述视频帧，将所述多个图像块输入至预训练的人脸检测模型，所述预训练的人脸检测模型包括第一自注意力模型和与所述第一自注意力模型级联的第二自注意力模型，通过所述第一自注意力模型对所述多个图像块进行预测运算，得到每个所述视频帧的第一预测信息；第二预测模块，用于将各所述视频帧的第一预测信息输入至所述第二自注意力模型进行预测运算，得到第二预测信息；融合模块，用于融合各所述视频帧的第一预测信息与所述第二预测信息，生成融合预测信息，所述融合预测信息用于表征所述待检测视频是否存在人脸伪造图像的情况。
9.根据本公开实施方式的第四方面，提供一种人脸检测模型的处理装置，包括：样本获取模块，用于获取第一样本集，所述第一样本集中的样本为视频帧样本，所述视频帧样本为包含人脸信息的图像；第一模型训练模块，用于针对所述第一样本集中的每个视频帧样本，将每个所述视频帧样本划分为多个图像块，并将所述多个图像块作为输入，对所述第一自注意力模型进行单独训练，以输出每个视频帧样本的第一样本预测信息；第二模型训练模块，用于将对应于同一人脸视频的第一样本预测信息作为一个样本，构建第二样本集，并根据所述第二样本集对所述第二自注意力模型进行单独训练；级联训练模块，用于将所述第一样本集中属于同一人脸视频的视频帧样本作为一个样本，构建第三样本集，将所述第三样本集输入至所述人脸检测模型中的第一自注意力模型，并将所述第一自注意力模型输出的第一局部预测信息作为所述第二自注意力模型的输入，以对单独训练后的第一自注意力模型和单独训练后的第二自注意力模型进行级联训练。
10.根据本公开实施方式的第五方面，提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述任意一种人脸检测方法或人脸检测模型的训练方法。
11.根据本公开实施方式的第六方面，提供一种电子设备，包括：处理器；以及存储器，用于存储所述处理器的可执行指令；其中，所述处理器配置为经由执行所述可执行指令来执行上述任意一种人脸检测方法或人脸检测模型的训练方法。
12.根据本公开实施方式的人脸检测方法，一方面，将待检测视频的每个视频帧，划分为多个图像块输入至预训练的人脸检测模型，以通过第一自注意力模型对多个图像块进行预测运算，得到每个视频帧的第一预测信息，对图像块之间特征的相似性关系或差异性关系进行比对，强化视频帧中图像区域之间的特征突变或不连续抖动，以充分利用伪造特征在空间区域的不连续性，得到视频帧中人脸特征的区域变化，以准确定位到包含人脸伪造特征的图像块；另一方面，将各视频帧的第一预测信息作为第二自注意力模型的输入进行预测运算，充分利用待检测视频中的人脸特征在不同视频帧之间的特征突变或不连续抖动，寻找时间上的特征突变或抖动，进而确定待检测视频中存在包含人脸伪造特征的图像的可能性，该过程将第一预测信息作为第二自注意力模型的输入，隐式强化利用第一自注意力模型输出的特征，实现时空特征的隐式融合，具有多帧预测集成融合的效果；再一方面，除了上述将第一自注意力模型作为第二自注意力模型的输入以外，本公开实施方式还将第一自注意力模型的输出与第二自注意力模型的输出进行融合，以利用生成的融合预测
信息表征待检测视频是否存在人脸伪造图像的情况，不仅充分利用第一自注意力模型输出的特征，避免特征浪费，还显式强化利用两个自注意力模型输出的特征，实现时空特征的显式融合，进一步提高人脸检测的准确度。
附图说明
13.通过参考附图阅读下文的详细描述，本公开示例性实施方式的上述以及其他目的、特征和优点将变得易于理解。在附图中，以示例性而非限制性的方式示出了本公开的若干实施方式，其中：
14.图1示出了根据本公开实施方式的人脸检测方法的流程图；
15.图2示出了根据本公开实施方式的确定视频帧的第一预测信息的流程图；
16.图3示出了根据本公开实施方式的确定第二预测信息的流程图；
17.图4示出了根据本公开实施方式的人脸检测模型的结构示意图；
18.图5示出了根据本公开实施方式的第一自注意力模型的结构示意图；
19.图6示出了根据本公开实施方式的第二自注意力模型的结构示意图；
20.图7示出了根据本公开实施方式的人脸检测模型的训练方法的流程图；
21.图8示出了根据本公开实施方式的模型级联训练方法的流程图；
22.图9示出了根据本公开实施方式的人脸检测装置的示意图；
23.图10示出了根据本公开实施方式的人脸检测模型的处理装置的示意图；
24.图11示出了根据本公开实施方式的存储介质的示意图；
25.图12示出了根据本公开实施方式的电子设备的示意图。
具体实施方式
26.下面将参考若干示例性实施方式来描述本公开的原理和精神。应当理解，给出这些实施方式仅仅是为了使本领域技术人员能够更好地理解进而实现本公开，并非以任何方式限制本公开的范围。相反，提供这些实施方式是为了使本公开更加透彻和完整，并且能够将本公开的范围完整地传达给本领域的技术人员。
27.本领域技术人员知道，本公开的实施方式可以实现为一种系统、装置、设备、方法或计算机程序产品。因此，本公开可以具体实现为以下形式，即：完全的硬件、完全的软件(包括固件、驻留软件、微代码等)，或者硬件和软件结合的形式。
28.根据本公开的实施方式，提供一种人脸检测方法、人脸检测模型的训练方法、人脸检测装置、人脸检测模型的处理装置、计算机可读存储介质及电子设备。
29.在本文中，附图中的任何元素数量均用于示例而非限制，以及任何命名都仅用于区分，而不具有任何限制含义。
30.发明概述
31.下面具体介绍本公开的各种非限制性实施方式。
32.相关技术中的人脸检测方法，采用注意力机制作为特征提取器，通过特征学习的方式从大量信息中筛选出少量信息，并聚焦到这些重要信息上，忽略大多数不重要的信息，即只关注全局特征下应该强化哪些区域，如某个区域相比于整个区域而言存在不一致痕迹，而忽略各个区域之间的特征比对。例如，某张存在人脸伪造特征的图像，仅从整个区域
分析并不能得到准确的预测结果，而若将整个区域划分为多个局部区域，通过各局部区域之间的特征比对，才能寻找各区域之间的特征突变或不连续性。因此，本公开实施方式为了对每个视频帧中图像区域之间的特征突变或不连续抖动进行比对，将每个视频帧划分为多个图像块输入至预训练的人脸检测模型，以发现视频帧中各图像区域之间所体现出的人脸特征的变化。在将视频帧划分为图像块输入至预训练的人脸检测模型之前，未进行各图像块之间的信息交互，从而保证图像块之间特征的独立性，提高了基于自注意力机制对各图像块进行比对的效果。且本公开实施方式将通过第一自注意力模型输出的各视频帧所对应的第一预测信息输入至第二自注意力模型，通过第二自注意力模型将第一预测信息进行相互比对、强化和学习后，得到第二预测信息，该第二预测信息中融入了每个视频帧所对应的第一预测信息和第一预测信息之间的特征关联性，进而寻找时间上的特征不连续性。相关技术中的人脸检测方法，基于注意力模型的人脸检测方法、基于自注意力模型的人脸检测方法以及多模型级联的人脸检测方法，不能充分利用各个模型输出的特征，本公开实施方式不仅将第一自注意力模型输出的特征作为第二自注意力模型的输入，还将第一自注意力模型的输出与第二自注意力模型的输出进行显式强化融合，实现多帧预测结果的融合，提高存在人脸伪造特征的人脸的预测准确度。
33.在介绍了本公开的基本原理之后，下面具体介绍本公开的各种非限制性实施方式。
34.示例性应用场景
35.需要注意的是，下述应用场景仅是为了便于理解本公开的精神和原理而示出，本公开的实施方式在此方面不受任何限制。本公开实施方式的人脸检测方法可以应用于多种涉及人脸检测的应用场景。
36.在一种应用场景中，涉及对人脸伪造图像的检测，相应的人脸伪造图像取自于待检测的视频，并且是通过深度伪造技术来实现对人脸图像的伪造的。通常在这种应用场景下，可以将某个人的人脸伪造图像或人脸伪造视频合并到原始的视频中，从而生成高度逼真且肉眼难以甄别的新视频。通过本公开实施方式的人脸检测方法，可以先获取该视频中包含人脸信息的图像，得到多个视频帧，然后将每个视频帧划分为多个图像块输入至预训练的人脸检测模型，以通过第一自注意力模型进行单帧预测，得到每个视频帧的第一预测信息，随后将所有视频帧的第一预测信息输入至第二自注意力模型，输出第二预测信息，最终将所有第一预测信息与第二预测信息进行融合，以得到表征该视频是否存在人脸伪造图像情况的融合预测信息。
37.在另一应用场景中，还可以涉及同一原始的视频中存在多个人的人脸伪造图像的人脸检测。通常在这种应用场景下，将多个人的人脸伪造图像或人脸伪造视频合并到原始的视频中，从而生成存在人脸伪造特征的新视频，即新视频中存在至少两个人的人脸伪造图像或人脸伪造视频。其中，该新视频可以是每个视频帧中均包含人脸伪造特征，也可以仅存在某一帧中包含人脸伪造特征，利用本公开实施方式的人脸检测方法，将该视频的每个视频帧划分为多个图像块输入至第一自注意力模型，并将所有视频帧的第一预测信息输入至第二自注意力模型，最终将两个自注意力模型输出的预测信息进行融合，生成预测结果。
38.在涉及同一原始视频中仅存在某一视频帧存在人脸伪造图像的人脸检测的情况下，可以利用本公开实施方式的人脸检测方法，通过第一自注意力模型就可以实现对单个
视频帧的预测，准确定位存在人脸伪造图像的视频单帧，而通过最终的第一自注意力模型和第二自注意力模型的输出特征的融合，进一步确定该视频的检测结果。
39.示例性方法
40.参考图1来描述根据本公开的示例性实施方式的人脸检测方法。
41.为了更好地理解本公开实施方式的方案，先对本公开实施方式可能涉及的相关术语和概念进行介绍。
42.待检测视频，经过筛选的包含人脸信息的图像所组成的视频帧序列，可以从原始待检测视频中获取，而原始待检测视频是存在人脸伪造图像的视频，可能是某一视频帧存在人脸伪造特征，也可能是整段视频的每一帧均存在人脸伪造特征，还可能是部分的视频帧中存在人脸伪造特征。
43.自注意力模型(self-attention model)，是指将整个输入图像分块，通过各个分块相互比对、学习，输出融合了各分块中每个分块的相互之间的特征关联信息的预测结果，该特征关联信息被称为自注意力。通过自注意力模型，减少对外部信息的依赖，更擅长捕捉数据或特征的内部相关性。
44.损失值，通过损失函数(loss function)比较机器学习模型对样本的预测输出和样本真实值区别的度量，用于衡量机器学习模型对样本的预测输出和样本的真实值之间的区别。损失函数通常可以包括交叉熵、对数、指数、误差平方均方等损失函数。例如，可以使用交叉熵作为损失函数，具体可以根据实际应用场景选择相应的损失函数。
45.隐式融合，是指将某模型a输出的预测信息，输入至模型b进行预测运算，该过程是将模型a输出的预测信息隐式融合于模型b输出的预测信息。
46.显式融合，是指将模型a输出的第一预测信息，与模型b输出的第二预测信息直接进行融合的方式。
47.本公开实施方式提供的人脸检测方法可以在服务器上被执行，还可以在终端设备上被执行。其中终端设备可以是具有人脸检测和图像处理功能的平板电脑、移动电话、媒体播放器、智能电视、笔记本电脑等，本公开实施方式对此不做特殊限定。
48.如图1示出了本公开示例性实施方式的人脸检测方法的流程图，可以包括步骤s110至步骤s140：
49.步骤s110，获取待检测视频的多个视频帧，将每个视频帧划分为多个图像块。
50.在本公开的示例性实施方式中，原始待检测视频是可能存在人脸伪造图像的视频，如上所述，该原始待检测视频可以仅是某个视频帧存在人脸伪造特征，也可以是部分视频帧存在人脸伪造特征，还可以是所有视频帧都存在人脸伪造特征。本公开实施方式是先获取原始待检测视频中包含人脸信息的图像，并根据这些图像形成视频帧序列，即待检测视频，然后获取待检测视频的多个视频帧。视频帧中的人脸信息可以包含完整的人脸信息(如人的整张脸)，也可以包含部分人脸信息(如半张脸)，还可以包含人的侧脸、正脸，等等。
51.其中，图像大小为h
×
w的视频帧可以为被划分成n个大小为p
×
p的图像块，n＝(h
×
w)/(p
×
p)。例如，若视频帧的大小为48
×
48，且图像块大小为16
×
16，则该视频帧被划分为9个图像块。
52.需要说明的是，将每个视频帧划分为多个图像块，各视频帧划分的数量可以相同，也可以不同。例如，视频帧a划分为3
×
3的图像块，视频帧b划分为3
×
3的图像块，视频帧c划
分为4
×
4的图像块，视频帧d划分为6
×
6的图像块，可根据待检测视频各视频帧和人脸检测模型的实际情况，选择视频帧的划分方式，本公开实施方式对此不做特殊限定。
53.本公开的示例性实施方式，将视频帧进行区域分块，方便强化单个视频帧中各个区域分块之间的特征的相似性关系或差异性关系。
54.步骤s120，针对每个视频帧，将多个图像块输入至预训练的人脸检测模型，该预训练的人脸检测模型包括第一自注意力模型和与第一自注意力模型级联的第二自注意力模型，通过第一自注意力模型对多个图像块进行预测运算，得到每个视频帧的第一预测信息。
55.在本公开的示例性实施方式中，预训练的人脸检测模型包括第一自注意力模型以及与第一自注意力模型具有级联关系的第二自注意力模型，也就是说，第一自注意力模型的输出结果，作为第二自注意力模型的输入。可选地，可以将第一自注意力模型的全部输出结果作为第二自注意力模型的输入；可选地，也可以从第一自注意力模型的输出结果中选择部分结果，作为第二自注意力模型的输入，本公开实施方式可根据实际应用需求，设置相应的第二自注意力模型的输入。其中，自注意力模型可以为vit网络结构(vision transformer)，vit网络为计算机视觉上的自注意力网络，该vit网络结构直接将transformer架构应用至人脸检测，相比于引入cnn(convolutional neural network,卷积神经网络)等网络架构的注意力模型，vit检测效果较好。
56.将视频帧对应的多个图像块输入至预训练的人脸检测模型，以通过第一自注意力模型对多个图像块进行预测运算，得到该视频帧的第一预测信息。例如，针对视频帧a，可以将3
×
3个图像块输入至预训练的人脸检测模型，得到第一预测信息a，针对视频帧c，可以将4
×
4个图像块输入至预训练的人脸检测模型，得到第一预测信息c，依次类推，得到多个视频帧中的每个视频帧所对应的第一预测信息，该第一预测信息可以用于对待检测视频中相应的单个视频帧进行预测。
57.通过本公开的示例性实施方式，将视频帧以多个图像块为单位，输入至人脸检测模型，并通过第一自注意力模型对多个图像块进行预测运算，以基于自注意力模型强化图像块之间的特征的相似性或差异性，利用伪造特征在空间区域的不连续性，定位可能存在人脸伪造特征的图像块，进而融合该图像块的特征、其他图像块的特征以及各图像块之间的特征关联程度，得到相应视频帧所对应的第一预测信息，使第一预测信息能反映人脸伪造特征在各图像块区域之间(空间维度)的不连续性，实现单帧视频帧的准确预测。
58.步骤s130，将各视频帧的第一预测信息输入至第二自注意力模型进行预测运算，得到第二预测信息。
59.在本公开的示例性实施方式中，将待检测视频各视频帧的第一预测信息，输入至第二自注意力模型，通过第二自注意力模型，寻找人脸特征随着视频帧对应的播放时间顺序所发生的不连续抖动，以基于第二预测信息确定待检测视频中存在包含人脸伪造特征的图像的可能。
60.举例而言，若得到的第一预测信息的数量为n，将n个第一预测信息输入至第二自注意力模型中，通过n个第一预测信息的相互比对、强化和学习后，得到融合了n个第一预测信息以及这n个第一预测信息之间特征关联性的第二预测信息，该特征关联性即自注意力。
61.示例性，在将n个第一预测信息{a1,a2,a3,
…
,an}输入至第二自注意力模型，输出的第二预测信息为序列{b1,b2,b3,
…
,bn}的处理过程中，每个第一预测信息(如a1)是维度
为d的特征向量，n个第一预测信息形成的输入序列构成一个rn×d的矩阵x，该矩阵x分别和三个训练矩阵wk，wv，wq∈rd×d的矩阵做乘法，得到三个矩阵k，v，q∈rn×d，接着计算k和q的乘积，从而得到一个n
×
n的注意力矩阵，表征输入序列中各第一预测信息之间的依赖，即特征关联性，最终将该矩阵与v相乘，转换为rn×d的序列表示，包含n个d维的向量，即第二预测信息{b1,b2,b3,
…
,bn}。其中，将输入的每个第一预测信息ai和输入序列中第一预测信息之间的特征关联性融入了第二预测信息bi，即bi对所有第一预测信息都有所依赖。
62.在一些可能的实施方式中，可以将多个视频帧的相应的多个第一预测信息均输入至第二自注意力模型，进而可以更全面地比对视频帧之间的特征，提高第二预测信息的准确性。
63.在一些可能的实施方式，可以对得到的多个视频帧所对应的多个第一预测信息进行筛选，并将筛选后得到的第一预测信息输入至第二自注意力模型。其中，筛选第一自注意力模型的原则可以为：将单帧预测结果(即第一预测信息)低于预设阈值的第一预测信息过滤掉，并将剩下的第一预测信息作为第二自注意力模型的输入。例如，可以将单帧预测结果中指示该视频帧不存在人脸伪造特征的情况所对应的第一预测信息过滤掉。基于此，既避免了过滤掉的第一预测信息对第二自注意力模型的识别准确度的干扰，也降低第二自注意力模型的运算量，提高预测效率。
64.在一些可能的实施方式中，可以将多个视频帧的相应的多个第一预测信息均输入至第二自注意力模型，得到第二预测信息，然后对多个视频帧所对应的多个第一预测信息进行筛选，并将筛选得到的第一预测信息与第二预测信息进行融合，得到融合预测信息。基于此，在将第一预测信息与第二预测信息进行融合之前，可以先获取单帧预测结果中指示该视频帧不存在人脸伪造特征的情况，并将该视频帧所对应的第一预测信息过滤掉，并将剩下的第一预测信息与第二预测信息进行显式融合，以避免过滤掉的视频帧所对应的第一预测信息影响预测结果，进而提高人脸检测的准确度，并提高显式融合效率。
65.需要说明的是，根据上述可能的实施方式所确定的、输入至第二自注意力模型的第一预测信息，均可作为后续方案中输入至第二自注意力模型的第一预测信息的可选方式，之后不再赘述。
66.通过本公开的示例性实施方式，将第一预测信息作为第二自注意力模型的输入，隐式强化利用了第一自注意力模型输出的特征，实现时空特征的隐式融合，得到的第二预测信息融合了各视频帧的特征、各视频帧之间的特征关联性，使第二预测信息能反映人脸伪造特征在时间维度上的不连续性。
67.步骤s140，融合各视频帧的第一预测信息与第二预测信息，生成融合预测信息。
68.在本公开的示例性实施方式中，融合预测信息用于表征待检测视频是否存在人脸伪造图像的情况。本公开将待检测视频输入至预训练的人脸检测模型得到的输出结果，由每个视频帧对应的第一预测信息以及第二自注意力模型输出的第二预测信息融合生成。
69.其中，融合方法可以采用线性加权融合法、交叉融合法、特征融合法、预测融合法中的一种或多种，本公开实施方式可根据实际应用需求，选择对应的融合方法。以线性加权融合法为例，若与视频帧对应的第一预测信息包括信息1、信息2、信息3和信息4，将信息1至信息4输入至第二自注意力模型后，输出的第二预测信息为信息5，则可以通过如下公式将信息1至信息5进行融合：
[0070][0071]
其中，r1为融合预测信息，β1和α1为线性加权系数，需要说明的是，实际融合过程中，第一预测信息的数量不限于本示例中的数量。
[0072]
本公开的示例性实施方式，第二预测信息是将第一预测信息输入至第二自注意力模型得到，实现第一预测信息与第二预测信息的隐式融合，将第一预测信息与第二预测信息融合得到的融合预测信息，实现第一预测信息与第二预测信息的显式融合，因此在本公开的实施方式中，结合预测信息的显式融合与隐式融合，既保留了单帧预测结果的独立性，也实现多帧预测结果的融合效果，进而提高人脸检测的准确性。
[0073]
通过本公开实施方式的人脸检测方法，通过第一自注意力模型对多个图像块进行预测运算，得到每个视频帧的第一预测信息，该过程对图像块之间的特征的相似性关系或差异性关系进行比对，最终将每个图像块和图像块之间的特征关联性融入第一预测信息，充分利用伪造特征在空间区域的不连续性，得到视频帧中人脸特征的区域变化；将所有视频帧的第一预测信息作为第二自注意力模型的输入进行预测运算，通过将特征在各视频帧之间进行比对，以将每个第一预测信息和第一预测信息之间的特征关联性融入至第二预测信息，利用待检测视频中的人脸特征在不同视频帧之间的不连续抖动，进而确定待检测视频中存在包含人脸伪造特征的图像的可能性，不仅隐式强化利用第一自注意力模型输出的特征，实现时空特征的隐式融合，具有多帧预测集成融合的效果，本公开还将第一自注意力模型的输出与第二自注意力模型的输出进行融合，以利用生成的融合预测信息表征待检测视频是否存在人脸未在图像的情况，不仅充分利用第一自注意力模型输出的特征，还显式强化利用两个自注意力模型输出的特征，实现时空特征的显式融合，人脸检测的准确度高。
[0074]
在本公开的示例性实施方式中，第一预测信息用于表征视频帧中人脸特征的区域变化趋势，即单独的一个视频帧中各个图像块之间人脸特征的变化趋势，第一预测信息可以包括视频帧对应的人脸特征向量和第一预测概率。其中，第一人脸特征向量融合了相应的视频帧中各个图像块的特征，且通过自注意力机制强化了可能存在人脸伪造特征的图像块所具有的特征信息。第一预测概率表征视频帧中存在目标图像块的可能性，该目标图像块为包含人脸伪造特征的图像块。
[0075]
基于前述的示例性实施方式，本公开实施方式还提供一种确定视频帧的第一预测信息的方法。通过第一自注意力模型对多个图像块进行预测运算，得到每个视频帧的第一预测信息，可以包括步骤s210至s220：
[0076]
在步骤s210中，将每个图像块线性映射为图像特征向量，该图像特征向量用于表征图像块的图像内容。
[0077]
在本公开的示例性实施方式中，可以将每个图像块展平为1维块嵌入，并将展平后的1维块嵌入投影至所需的输入维度，即将每个图像块线性映射为图像特征向量。举例而言，可以将h
×w×
c(高
×
宽
×
通道)大小的视频帧图像划分为一系列p
×
p的2维块(patch)，然后再将2维块展平，形成长度为n＝(h
×
w)/p2的图像块序列，最后将图像块序列投影至所需的输入维度，即本公开实施方式的图像特征向量。
[0078]
通过将每个视频帧划分为多个图像块，并将图像块线性映射为图像特征向量，使视频帧图像很好地适应预训练的人脸检测模型中的第一自注意力模型的结构(输入为1维
嵌入(embedding)的序列)。
[0079]
在步骤s220中，将多个图像特征向量输入至第一自注意力模型，输出视频帧的第一人脸特征向量和第一预测概率。
[0080]
在本公开的示例性实施方式中，可以将多个图像块特征向量输入至第一自注意力模型，以通过第一自注意力模型对图像块特征向量进行预测运算，输出第一人脸特征向量和第一预测概率。其中，第一自注意力模型至少包括第一自注意力网络和第一感知机，第一自注意力网络可以为多头自注意力模块(multi-head self-attention)，第一感知机可以为包含gelu(gaussian error linear units,高斯误差线性单元)的多层感知机模块(multilayer perceptron，简称mlp)，当然，也可根据实际预测需求选择并训练对应的第一自注意力模型。
[0081]
通过第一自注意力模型对输入的图像块特征向量进行预测运算可以包括：第一自注意力模型先基于图像特征向量计算图像块之间的第一关联程度，然后根据第一关联程度和图像特征向量，计算得到第一人脸特征向量，该第一关联程度表征多个图像块中的相应图像块与其它图像块之间的特征关联程度。根据第一关联程度和图像特征向量计算第一人脸特征向量，可以为根据确定的第一关联程度，将第一关联程度与图像特征向量融合，从而得到第一人脸特征向量，使第一人脸特征向量中包含相应视频帧的各个图像块的特征以及图像块之间的特征关联程度。其中，计算第一关联程度的方法可以包括多种，如相乘、转置相乘等，本公开实施方式可选择适应实际应用场景的算法。
[0082]
进一步的，本公开实施方式可以将得到的第一人脸特征向量经第一感知机进行预测处理，得到第一预测概率。具体地，可以利用第一感知机对第一人脸特征向量进行预测运算，并使预测运算结果进行归一化，将归一化值作为第一预测概率。例如使用sigmoid激活函数对预测运算结果进行归一化，得到第一预测概率。
[0083]
本公开的示例性实施方式，每个视频帧的多个图像块经第一自注意力模型的预测运算，输出由相应的视频帧提取得到的第一人脸特征向量，以及该相应的视频帧所对应的第一预测概率，作为该相应的视频帧中是否存在包含人脸伪造特征的图像块的预测结果。由于本技术的人脸检测模型中，第一自注意力模型经过完整的单独训练过程，因此该第一自注意力模型的输出结果，可以对单个视频帧进行预测，即具备单帧预测能力。基于该第一自注意力模型可以预测某个视频帧中是否存在人脸伪造特征，因此第一预测信息可用于对单个视频帧的预测。
[0084]
在本公开的示例性实施方式中，第二自注意力模型输出的第二预测信息用于表征待检测视频中的人脸特征随时间的变化，第二预测信息包括第二人脸特征向量和第二预测概率，其中第二人脸特征向量融合了待检测视频中各个视频帧的特征。第二预测概率用于表征待检测视频存在目标人脸图像的可能性，目标人脸图像为包含人脸伪造特征的图像。
[0085]
基于前述的示例性实施方式，本公开实施方式还提供一种确定第二预测信息的方法。将各视频帧的第一预测信息输入至第二自注意力模型进行预测运算，得到第二预测信息，可以包括步骤s310至步骤s330：
[0086]
步骤s310，将所有视频帧的第一人脸特征向量，输入至第二自注意力模型。
[0087]
在本公开的示例性实施方式中，可以将各视频帧的第一人脸特征向量作为第二自注意力模型的输入，以通过第二自注意力模型对各第一人脸特征向量进行预测运算。其中，
第二自注意力模型至少包括第二自注意力网络和第二感知机，第二自注意力网络可以为多头自注意力模块，第二感知机可以为包含gelu的多层感知机模块，当然，也可根据实际预测需求选择并训练对应的第二自注意力模型。
[0088]
在一些可能的实施方式中，本公开实施方式还可以从多个第一人脸特征向量中选择部分，作为第二自注意力模型的输入。选择原则可以为：将单帧预测结果(即第一预测概率)指示该视频帧不存在人脸伪造特征的情况所对应的第一人脸特征向量过滤掉，并将剩下的第一人脸特征向量作为第二自注意力模型的输入，不仅避免了上述过滤掉的第一人脸特征向量对第二自注意力模型的预测准确度的干扰，同时也提高第二自注意力模型的预测效率。
[0089]
步骤s320，经第二自注意力模型，基于第一人脸特征向量，计算各视频帧之间的第二关联程度，并根据第二关联程度和第一人脸特征向量，计算第二人脸特征向量，第二关联程度表征所有视频帧中的相应视频帧与其它视频帧之间的特征关联程度。
[0090]
在本公开的示例性实施方式中，根据第二关联程度和第一人脸特征向量计算第二人脸特征向量可以为：根据确定的第二关联程度，将第二关联程度与第一人脸特征向量融合，得到第二人脸特征向量，使第二人脸特征向量中包含待检测视频的各个视频帧的特征以及各视频帧之间的特征关联程度，提高待检测视频对应人脸特征的表达准确性。其中，计算第二关联程度的方法可以包括多种，如相乘、转置相乘等，本公开实施方式可选择适应实际应用场景的算法。
[0091]
本公开的示例性实施方式，利用待检测视频中的人脸特征在不同视频帧之间的不连续抖动，寻找时间上的特征突变或抖动，从而确定待检测视频中存在包含人脸伪造特征的图像的预测结果。
[0092]
步骤s330，第二人脸特征向量经第二感知机进行特征预测处理，得到第二预测概率。
[0093]
在本公开的示例性实施方式中，可以利用第二感知机对第二人脸特征向量进行预测运算，并使预测运算结果进行归一化，将归一化值作为第二预测概率。例如使用sigmoid激活函数对预测运算结果进行归一化，得到第二预测概率。由于本公开的人脸检测模型中，第二自注意力模型经过完整的单独训练过程，因此该第二自注意力模型的输出结果，可以对待检测视频进行初步预测，即第二自注意力模型具备视频预测能力。
[0094]
在一些可能的实施方式中，可以根据第二自注意力模型输出的第二预测信息对待检测视频进行初步预测，并结合初步预测与后续得到的融合预测信息，确定待检测视频的最终检测结果。可选地，若初步预测与融合预测信息之间的偏差程度大于预设偏差阈值，则可以考虑本次预测结果是否具有较高的可信度，以便重新对待检测视频进行检测，或者通过人工干预来进行预测调整，例如对人脸检测模型的相关参数进行调整等。
[0095]
本公开的示例性实施方式还提供一种信息融合的实现方式。融合各视频帧的第一预测信息与第二预测信息，生成融合预测信息可以包括：将各视频帧的第一人脸特征向量与第二人脸特征向量进行融合处理，得到融合特征向量；将所述融合特征向量进行归一化处理，并将得到的归一化值作为所述融合预测信息。
[0096]
示例性地，若多个视频帧的第一人脸特征向量分别为x1＝{x1,x2,x3}，x2＝{x4,x5,x6}，x3＝{x7,x8,x9}，第二人脸特征向量为h1＝{h1,h2,h3}，则融合特征向量可以先将
各个第一人脸特征向量进行横向拼接(即向量的首尾拼接)，得到h2＝{x1,x2,x3,x4,x5,x6,x7,x8,x9}，其中，h1与h2的向量维度不同，在将二者中的各元素对应融合的过程中，若出现h2中对应元素为空的情况，则可以通过补齐元素零的方式处理，将h1补齐元素零后得到h1’＝{h1,h2,h3,0,0,0,0,0,0}，那么可以通过如下公式将h2与h1’进行融合：
[0097]
r2＝β2
×
h2 α2
×
h1’[0098]
其中，r2为融合特征向量，β2和α2为加权系数，可根据实际应用场景相应选择，本公开实施方式对此不做特殊限定。
[0099]
在另一可选地示例性实施方式中，还可以将特征向量h2与特征向量h1进行横向拼接，且各特征向量中的元素乘以相应的加权系数β2和α2，从而使得到的融合特征向量保留第一人脸特征向量和第二人脸特征向量的元素独立性。例如，继续参见上述示例，得到的融合特征向量可以为：r2＝{β2x1,β2x2,β2x3,β2x4,β2x5,β2x6,β2x7,β2x8,β2x9,α2h1,α2h2,α2h3}。
[0100]
进一步的，在得到融合特征向量后，将融合特征向量进行归一化处理，可以使用sigmoid激活函数、softmax激活函数等将融合特征向量进行归一化处理，并将得到的归一化值作为融合预测信息。其中得到的归一化值可以为一个具体数值(如概率值)，作为最终的待检测视频的检测结果。
[0101]
本公开的示例性实施方式，第一人脸特征向量经第二自注意力模型预测运算后，输出第二人脸特征向量，即第二人脸特征向量隐式地包含了第一人脸特征向量，因此将第一人脸特征向量与第二人脸特征向量融合处理得到的融合特征向量，更大程度上利用了第一自注意力模型和第二自注意力模型的特征提取能力，不仅强化了各图像区域上的图像不一致痕迹，在融合特征向量中引入未经第二自注意力模型处理的第一人脸特征向量，保留了各个第一人脸特征向量之间的特征的独立性，使融合特征向量既包含了每个视频帧中人脸特征的区域变化趋势，即空间维度上的特征，也包含待检测视频中的人脸特征的时间变化趋势，即时间维度上的特征，通过将空间维度与时间维度上的特征进行融合，同时寻求人脸伪造特征在空间维度和时间维度上的不连续性，提高人脸检测的准确性。
[0102]
本公开的示例性实施方式还提供另一种信息融合的实现方式。融合各视频帧的第一预测信息与第二预测信息，生成融合预测信息可以包括：将各视频帧的第一预测概率与第二预测概率进行融合处理，并将融合处理后的结果作为融合预测信息。
[0103]
其中，若多个视频帧的第一预测概率包括(p1,p2,p3,
…
pn)，第二预测概率为p
t
，则可以通过如下公式融合第一预测概率和第二预测概率：
[0104][0105]
其中，β3和α3为加权系数，可根据实际应用场景相应选择，本公开实施方式对此不做特殊限定。
[0106]
本公开的示例性实施方式，第一预测概率由第一人脸特征向量经第一感知机预测运算得到，充分利用第一自注意力模型的特征提取能力，第二预测概率由第二人脸特征向量经第二感知机预测运算得到，充分利用第二自注意力模型的特征提取能力，并且第一预测概率隐式融合了第一人脸特征向量，因此融合第一预测概率与第二预测概率，在融合预
测信息中进一步隐式强化了第一人脸特征向量，由于第一人脸特征向量对相应视频帧中各图像块区域的信息都有依赖，因此强化利用了视频帧上各图像块区域的特征不连续性，提高人脸检测的准确性。
[0107]
需要说明的是，本公开实施方式还可以根据实际预测需求，选择相应的融合处理方法，例如，可以将第一人脸特征向量与第二人脸特征向量横向拼接后，再通过全连接层学习后输出融合处理结果，但无论采用哪种方式，均是将第一自注意力模型的输出结果与第二自注意力模型的输出结果同时进行了隐式与显式融合，本公开实施方式包括但不限于上述融合处理方式。
[0108]
本公开的示例性实施方式中，待检测视频为经过筛选的包含人脸信息的图像所组成的视频帧序列，本公开实施方式还提供一种获取多个视频帧的实现方式。获取待检测视频的多个视频帧可以包括：对视频帧序列进行抽帧处理；针对抽帧结果执行图像预处理操作，以得到所述多个视频帧。
[0109]
其中，可以按照预设抽帧规则对视频帧序列进行抽帧处理。可选地，可以通过每间隔预设数量的视频帧，抽取若干帧的方式，对视频帧序列进行抽帧处理；可选地，也可以通过每间隔预设数量的视频帧仅抽取一帧的方式，对视频帧序列进行抽帧处理，本公开实施方式对具体抽帧方式不做特殊限定。通过对视频帧序列进行抽帧处理，提高后续预测效率，也降低预测为硬件带来的负担。
[0110]
对抽帧结果进行预处理可以包括归一化、图片缩放等，为了平衡后续预测效率与预测结果，可以根据实际应用场景选择不同的预处理方法。举例而言，可以将抽帧结果的分辨率进行缩放，缩放尺度可根据实际预测需求选择，例如224像素
×
224像素；而为了确保输入至人脸检测视频的视频帧数据与模型训练过程中的数据分布一致，还可以对抽帧结果进行归一化操作。
[0111]
在本公开的示例性实施方式中，第一自注意力模型为空间自注意力模型，第二自注意力模型为时间注意力模型。面对人脸伪造特征的伪造方法的多样性和未知性，本公开实施方式从各类存在人脸伪造特征的视频的共性角度，采用空间自注意力模型，检测视频帧中部分包含人脸伪造特征的图像块与其它图像块之间存在明显的特征突变和不连续性抖动，采用时间自注意力模型，检测同一待检测视频中包含人脸伪造特征的图像，随不同视频帧在某些位置出现不连续抖动，既考虑了存在人脸伪造特征的视频在空间上的特征不连续性，也考虑了存在人脸伪造特征的视频在时间上的特征不连续性，以提高人脸检测的准确度。
[0112]
示例性人脸检测模型
[0113]
如图4示出了本公开一示例性实施方式的人脸检测模型的结构示意图，该人脸检测模型至少包括第一自注意力模型410与第一自注意力模型410级联的第二自注意力模型420和信息融合层430。其中，第一自注意力模型410输出的第一预测信息作为第二自注意力模型420的输入。
[0114]
第一自注意力模型410，用于对输入的多个图像块进行预测运算，得到每个视频帧的第一预测信息，如图4中的预测信息1至预测信息n；
[0115]
第二自注意力模型420，用于对输入的第一预测信息进行预测运算，得到待检测视频的第二预测信息，如图4中将预测信息1至预测信息n输入至第二自注意力模型420，得到
第二预测信息。
[0116]
信息融合层430，用于将第一预测信息与第二预测信息进行融合，生成融合预测信息，融合预测信息用于表征待检测视频是否存在人脸伪造图像的情况，如图4中的虚线箭头表示将预测信息1至预测信息n与第二预测信息进行融合。
[0117]
在本公开一示例性实施方式中，人脸检测模型还包括线性映射网络，用于将每个图像块线性映射为图像特征向量，该图像特征向量作为第一自注意力模型410的输入，该图像特征向量用于表征图像块的图像内容。参见图5示出了本公开一示例性实施方式的第一自注意力模型410的示意图，如图5，第一自注意力模型至410至少包括第一自注意力网络4101、第一感知机4102。
[0118]
其中，第一自注意力网络4101用于基于输入的图像特征向量，计算图像块之间的第一关联程度，并根据第一关联程度和图像特征向量，计算第一人脸特征向量；第一感知机4102用于对第一人脸特征向量进行特征预测，得到第一预测概率，如图5所示的，将人脸特征向量1至人脸特征向量n输入至第一感知机4102，输出相应的第一预测概率1至第一预测概率n。第一预测概率表征输入的视频帧中存在目标图像块的可能性，目标图像块为包含人脸伪造特征的图像块。
[0119]
参见图6示出了本公开一示例性实施方式的第二自注意力模型420的示意图，如图6，第二自注意力模型至420至少包括第二自注意力网络4201、第二感知机4202。
[0120]
第二自注意力网络4201用于基于输入的第一人脸特征向量，计算各视频帧样本之间的第二关联程度，并根据第二关联程度和第一人脸特征向量，计算第二人脸特征向量，如图6所示，将人脸特征向量1至人脸特征向量n输入至第二自注意力网络4201进行预测运算，输出第二人脸特征向量；第二感知机4202用于对第二人脸特征向量进行特征预测，得到第二预测概率，第二预测概率表征输入的人脸视频存在目标人脸图像的可能性，目标人脸图像为包含人脸伪造特征的图像。其中，将属于待检测视频的视频帧所对应的第一人脸特征向量(人脸特征向量1至人脸特征向量n)作为第二自注意力网络4201的输入。
[0121]
下面结合图4，基于本公开实施方式的人脸检测模型，对本公开实施方式的人脸检测方法进行说明。
[0122]
首先，针对每个视频帧，将视频帧划分为多个图像块，并将每个图像块通过线性映射网络线性映射为图像特征向量，并将多个图像特征向量输入至第一自注意力模型410进行预测运算，输出每个视频帧的第一预测信息；其次，将所有第一预测信息输入至第二自注意力模型420进行预测运算，输出第二预测信息；最后，通过信息融合层430融合第一预测信息与第二预测信息，生成用于表征待检测视频是否存在人脸伪造图像的情况的融合预测信息。
[0123]
需要说明的是，本公开示例性实施方式的人脸检测模型中各部分的其他具体细节在上述方法的实施方式中已经详细说明，在此不再赘述。
[0124]
示例性模型训练方法
[0125]
本公开的示例性实施方式还提供一种人脸检测模型的训练方法。如图7示出了本公开的示例性实施方式的人脸检测模型的训练方法的流程图，该过程包括步骤s710至步骤s740：
[0126]
步骤s710，获取第一样本集。
[0127]
在本公开的示例性实施方式中，第一样本集中的样本是来自不同视频样本的视频帧样本，且视频帧样本为包含人脸信息的图像。例如，来自视频样本1的视频帧样本为a1＝{a1,a2,a3,a4}，来自视频样本2的视频帧样本为b1＝{b1,b2,b3,b4}，来自视频样本3的视频帧样本为c1＝{c1,c2,c3,c4}，则第一样本集为{a1,a2,a3,a4,b1,b2,b3,b4,c1,c2,c3,c4}，也就是说，在第一样本集中，不必区分视频帧样本属于哪个视频样本。当然，实际情况下的第一样本集中视频帧样本的数量很多，此处仅做示例性介绍，不是对第一样本集中的样本数量的限定。
[0128]
步骤s720，针对第一样本集中的每个视频帧样本，将每个视频帧样本划分为多个图像块，并将多个图像块作为输入，对第一自注意力模型进行单独训练，以输出每个视频帧样本的第一样本预测信息。
[0129]
在本公开的示例性实施方式中，本步骤仅训练第一自注意力模型，第二自注意力模型不参与训练，本步骤将第一自注意力模型从人脸检测模型的架构中解耦，以有监督的方式对第一自注意力模型进行训练，强化第一自注意力模型的特征提取能能力。
[0130]
其中，将第一样本集中的视频帧样本划分为多个图像块输入至第一自注意力模型，通过第一自注意力模型对多个图像块进行预测运算，以基于自注意力模型学习强化图像块之间的特征的相似性关系或差异性关系，充分利用伪造特征在空间区域的不连续性，从而确定视频帧样本的第一样本预测信息，实现单个视频帧样本的准确预测。
[0131]
步骤s730，将对应于同一人脸视频的第一样本预测信息作为一个样本，构建第二样本集，并根据第二样本集对第二自注意力模型进行单独训练。
[0132]
在本公开的示例性实施方式中，根据人脸视频归属，将属于同一人脸视频的视频帧样本所对应的第一样本预测信息划为一组，以得到多个第一样本预测信息集，一个第一样本预测信息集作为第二样本集中的一个样本。具体来说，继续参见上述示例，第一样本集为{a1,a2,a3,a4,b1,b2,b3,b4,c1,c2,c3,c4}，第一样本集中样本对应的第一样本预测信息为{a1’,a2’,a3’,a4’,b1’,b2’,b3’,b4’,c1’,c2’,c3’,c4’}，而根据第一样本预测信息的相应视频帧样本的人脸视频归属，将这些第一样本预测信息划分为第一样本预测信息集{a1’,a2’,a3’,a4’}、{b1’,b2’,b3’,b4’}和{c1’,c2’,c3’,c4’}，即作为第二样本集中的三个样本，也就是说，第二样本集中的样本是以人脸视频为单位，对应于同一人脸视频的所有第一样本预测信息作为一个样本。
[0133]
其中，本步骤s730中，可将第二自注意力模型从人脸检测模型的架构中解耦，以有监督的方式单独对第二自注意力模型进行训练，通过训练第二自注意力模型，寻找人脸特征随着视频帧对应的播放时间顺序所发生的非线性特征抖动，以强化第二自注意力模型的提取时序特征的能力。
[0134]
步骤s740，将述第一样本集中属于同一人脸视频的视频帧样本作为一个样本，构建第三样本集，将第三样本集输入至人脸检测模型中的第一自注意力模型，并将第一自注意力模型输出的第一局部预测信息作为第二自注意力模型的输入，以对单独训练后的第一自注意力模型和单独训练后的第二自注意力模型进行级联训练。
[0135]
在本公开的示例性实施方式中，根据人脸视频归属，将第一样本集中属于同一人脸视频的视频帧样本划为一组，以得到多个视频帧集，一个视频帧集作为第三样本集中的一个样本。具体来说，继续参见上述示例，第一样本集{a1,a2,a3,a4,b1,b2,b3,b4,c1,c2,
c3,c4}中的样本分别对应人脸视频a、b和c，而根据人脸视频归属，将视频帧样本划分为三个视频帧集{a1,a2,a3,a4}、{b1,b2,b3,b4}和{c1,c2,c3,c4}(分别对应一个人脸视频)，即第三样本集中的三个样本，也就是说，第三样本集中的样本是以人脸视频为单位，对应于同一人脸视频的所有视频帧作为一个样本。
[0136]
其中，本步骤s740中，第一自注意力模型和第二自注意力模型均参与训练，且第一自注意力模型的输出，作为第二自注意力模型的输入，以有监督的方式强化整个人脸检测模型的特征提取能力，使人脸检测模型具备空间、时间特征融合自注意力的能力。其中，针对第三样本集中的每个样本，将样本中的每个视频帧样本划分为多个图像块，并将多个图像块作为输入，输入至第一自注意力模型中。
[0137]
本公开的示例性实施方式中，还提供一种单独训练第一自注意力模型的实现方法。针对第一样本集中的每个视频帧样本，将每个视频帧样本划分为多个图像块，并将多个图像块作为输入，对第一自注意力模型进行单独训练，输出每个视频帧样本的第一样本预测信息可以包括：
[0138]
根据第一样本预测信息与第一样本集中的相应视频帧样本所对应的第一类别标签，确定第一预测损失值，并根据第一预测损失值对第一自注意力模型的参数进行调整。其中第一类别标签用于指示相应视频帧样本的真实情况，例如，存在人脸伪造特征(用数字1表示)或不存在人脸伪造特征(用数字0表示)。本公开实施方式中的类别标签均是用于指示相应样本的真实情况，以下不再赘述。
[0139]
示例性，以使用交叉熵作为损失函数，可以通过如下公式确定第一预测损失值：
[0140]
loss
spatial
＝y
·
log x (1-y)
·
log(1-x)
[0141]
其中，loss
spatial
为第一预测损失值，x为通过第一自注意力模型输出的第一样本预测信息中的第一样本预测概率，y为对应的第一类别标签。
[0142]
通过计算第一预测损失值，并根据第一预测损失值对第一自注意力模型的参数进行调整，在不断调试更新模型参数后，使第一自注意力模型具备单独的视频帧预测能力。
[0143]
需要说明的是，本公开实施方式还可以根据实际应用场景，采用其它计算第一预测损失值的方法，如对数、指数、误差平方均方等，在此不做一一详述。
[0144]
本公开的示例性实施方式中，还提供一种单独训练第二自注意力模型的实现方法。将对应于同一人脸视频的第一样本预测信息作为一个样本，构建第二样本集，并根据第二样本集对第二自注意力模型进行单独训练可以包括：
[0145]
将第二样本集中的每个样本输入至第二自注意力模型，输出第二样本预测信息，根据第二样本预测信息与第二类别标签，确定第二预测损失值，其中第二类别标签为第二样本集中的相应样本所归属的人脸视频所对应的类别标签，最后根据第二预测损失值对第二自注意力模型的参数进行调整。
[0146]
本公开实施方式计算第二预测损失值的方法，与单独训练第一自注意力模型计算第一预测损失值所采用的方法相同，在此不再赘述。通过不断更新调整模型参数，对第二自注意力模型单独训练，使第二自注意力模型具备视频检测能力。
[0147]
本公开的示例性实施方式中，还提供一种模型级联训练方法。通过第三样本集对单独训练后的第一自注意力模型和单独训练后的第二自注意力模型进行级联训练可以包括步骤s810至步骤s840：
[0148]
步骤s810，将第三样本集中的样本输入至人脸检测模型，以输出对应于第一自注意力模型的第一局部预测信息、以及对应于第二自注意力模型的第二局部预测信息。
[0149]
在本公开的示例性实施方式中，针对第三样本集中的每个样本，将其中的每个视频帧样本划分为多个图像块，输入至人脸检测模型中的第一自注意力模型进行预测运算，且第一自注意力模型的输出结果作为第二注意力模型的输入，进而得到对应于第一自注意力模型的第一局部预测信息，以及对应于第二自注意力模型的第二局部预测信息。
[0150]
其中，对应于第一自注意力模型的第一局部预测信息与输入样本所包含的视频帧样本一一对应，因此第一局部预测信息的数量与第三样本集中每个样本包含视频帧样本的数量相同。
[0151]
步骤s820，根据第一局部预测信息与第三类别标签，确定第一局部损失值。
[0152]
在本公开的示例性实施方式中，第三类别标签为输入至第一自注意力模型的视频帧样本所对应的类别标签，本公开实施方式确定第一局部损失值可以包括：根据每个第一局部预测信息与第三类别标签，确定每个第一局部预测信息对应的局部损失，并将得到的全部局部损失进行融合处理，得到第一局部损失值。其中，可以求取全部局部损失的均值，并将均值作为第一局部损失值。
[0153]
举例而言，若对应于第一自注意力模型的第一局部预测信息分别为q1、q2、q3、q4，则根据q1与对应第三类别标签确定局部损失s1，根据q2与对应的第三类别标签确定局部损失s2，依次类推，得到局部损失s3和s4，最终融合该些局部损失{s1,s2,s3,s4}，得到第一局部损失值。
[0154]
步骤s830，根据第二局部预测信息与第四类别标签，确定第二局部损失值。
[0155]
在本公开的示例性实施方式中，第四类别标签为输入至第二自注意力模型的第一局部预测信息所对应的视频帧样本所归属的人脸视频的类别标签，多个第一局部预测信息输入至第二自注意力模型，输出唯一的第二局部预测信息，且与相应的视频样本对应，因此根据第二局部预测信息与第四类别标签可确定唯一的第二局部预测损失，具体计算方式与步骤s740中计算第一预测损失值的方法相同，在此不再赘述。
[0156]
步骤s840，将第一局部损失和第二局部损失进行融合，得到总预测损失值，根据总预测损失值对人脸检测模型的参数进行调整。
[0157]
在本公开的实施方式中，通过步骤s820和步骤s830，分别得到对应于第一自注意力模型和第二自注意力模型的第一局部损失值和第二局部损失值，其中第二局部损失值隐式融合了第一自注意力模型输出的第一局部预测信息，而本步骤s840中，在人脸检测模型的训练过程中，显式强化两个模型的局部损失值融合，在模型训练过程中同时实现了第一自注意力模型与第二自注意力模型的隐式与显式融合，提高训练后的人脸检测模型的检测准确度。其中，可以对第一局部损失值和第二局部损失值进行加权求和，且其中对应的权重值可根据实际应用需求选择和调整。
[0158]
在本公开的示例性实施方式中，还提供一种样本集获取方法。获取第一样本集可以包括：先从视频样本中筛选包含人脸信息的图像，根据筛选出的图像组成视频帧样本序列；其次，对视频帧样本序列进行抽帧处理，并针对抽帧结果执行图像预处理操作，得到多个视频帧样本，最后根据多个视频帧样本形成第一样本集。
[0159]
需要说明的是，本公开实施方式的其他具体细节，在上述人脸检测方法和人脸检
测模型的公开实施方式中已详细记载，在此不再赘述。
[0160]
通过本公开示例性实施方式的人脸检测模型的训练方法，将整个模型的训练过程分为三个阶段：单独训练第一自注意力模型、单独训练第二自注意力模型以及对训练后的第一自注意力模型和第二自注意力模型进行整体训练，在每个阶段中均利用损失函数进行模型参数的更新，提高每个模型的训练精度，使第一自注意力模型具备对单个视频帧的预测能力，使第二自注意力模型具备对视频的预测能力，而通过最终的模型级联训练，将第一自注意力模型与第二自注意力模型的损失值进行融合，并根据损失值的融合结果对整个模型的参数进行更新，进一步的提高模型的人脸检测准确度。另一方面，第一自注意力模型通过比对每个视频帧中各图像块之间的特征，能获得人脸特征的区域变化趋势，即空间变化趋势，第二自注意力模型通过比对各视频帧之间的特征，能获得人脸特征的时间变化趋势，使得最终的人脸检测模型兼具空间和时间上的特征获取能力，针对各种方法伪造的视频，具有普适性。
[0161]
示例性人脸识别装置
[0162]
参考图9对本公开示例性实施方式的人脸检测装置进行说明。图9示出了本公开示例性实施方式的人脸检测装置900，包括：
[0163]
获取模块910，用于获取待检测视频的多个视频帧，将每个所述视频帧划分为多个图像块，所述视频帧为包含人脸信息的图像；
[0164]
第一预测模块920，用于针对每个所述视频帧，将所述多个图像块输入至预训练的人脸检测模型，所述预训练的人脸检测模型包括第一自注意力模型和与所述第一自注意力模型级联的第二自注意力模型，通过所述第一自注意力模型对所述多个图像块进行预测运算，得到每个所述视频帧的第一预测信息；
[0165]
第二预测模块930，用于将各所述视频帧的第一预测信息输入至所述第二自注意力模型进行预测运算，得到第二预测信息；
[0166]
融合模块940，用于融合各所述视频帧的第一预测信息与所述第二预测信息，生成融合预测信息，所述融合预测信息用于表征所述待检测视频是否存在人脸伪造图像的情况。
[0167]
在一种可选的实施方式中，所述第一预测信息用于表征所述视频帧中人脸特征的区域变化趋势，所述第一预测信息包括：所述视频帧对应的第一人脸特征向量和第一预测概率，所述第一预测概率表征所述视频帧中存在目标图像块的可能性，所述目标图像块为包含人脸伪造特征的图像块。
[0168]
在一种可选的实施方式中，所述第一预测模块920包括：图像处理单元，用于将每个所述图像块线性映射为图像特征向量，所述图像特征向量用于表征图像块的图像内容；第一预测单元，用于将所述多个图像特征向量输入至所述第一自注意力模型，输出所述视频帧的第一人脸特征向量和第一预测概率；其中，所述第一预测单元被配置为：通过所述第一自注意力模型，基于所述图像特征向量计算所述图像块之间的第一关联程度，并根据所述第一关联程度和图像特征向量，计算所述第一人脸特征向量，所述第一关联程度表征所述多个图像块中的相应图像块与其它图像块之间的特征关联程度；所述第一人脸特征向量经第一感知机进行特征预测处理，得到所述第一预测概率。
[0169]
在一种可选的实施方式中，所述第二预测信息包括第二人脸特征向量和第二预测
概率，所述第二预测信息用于表征所述待检测视频中的人脸特征随时间的变化，所述第二预测概率用于表征所述待检测视频存在目标人脸图像的可能性，所述目标人脸图像为包含人脸伪造特征的图像；所述第二预测模块930包括：信息输入模块，用于将所有视频帧的第一人脸特征向量，输入至所述第二自注意力模型；第二预测单元，用于经所述第二自注意力模型，基于所述第一人脸特征向量，计算各所述视频帧之间的第二关联程度，并根据所述第二关联程度和第一人脸特征向量，计算所述第二人脸特征向量，所述第二关联程度表征所述所有视频帧中的相应视频帧与其它视频帧之间的特征关联程度；所述第二人脸特征向量经第二感知机进行特征预测处理，得到所述第二预测概率。
[0170]
在一种可选的实施方式中，所述融合模块940包括：第一融合单元，用于将各所述视频帧的第一人脸特征向量与所述第二人脸特征向量进行融合处理，得到融合特征向量；向量处理单元，用于将所述融合特征向量进行归一化处理，并将得到的归一化值作为所述融合预测信息。
[0171]
在一种可选的实施方式中，所述融合模块940包括：第二融合单元，用于将各所述视频帧的第一预测概率与所述第二预测概率进行融合处理，并将融合处理后的结果作为所述融合预测信息。
[0172]
在一种可选的实施方式中，所述待检测视频为经过筛选的包含人脸信息的图像所组成的视频帧序列，所述获取模块910包括：第一视频抽帧单元，用于对所述视频帧序列进行抽帧处理；第一图像预处理单元，用于针对抽帧结果执行图像预处理操作，以得到所述多个视频帧。
[0173]
在一种可选的实施方式中，所述第一自注意力模型为空间自注意力模型，所述第二自注意力模型为时间自注意力模型。
[0174]
需要说明的是，本公开实施方式的其他具体细节在上述方法的公开实施方式中已经详细说明，在此不再赘述。
[0175]
示例性模型处理装置
[0176]
参考图10示出了本公开示例性实施方式的人脸检测模型的处理装置1000，包括：
[0177]
样本获取模块1010，用于获取第一样本集，所述第一样本集中的样本为视频帧样本，所述视频帧样本为包含人脸信息的图像；第一模型训练模块1020，用于针对所述第一样本集中的每个视频帧样本，将每个所述视频帧样本划分为多个图像块，并将所述多个图像块作为输入，对所述第一自注意力模型进行单独训练，以输出每个视频帧样本的第一样本预测信息；第二模型训练模块1030，用于将对应于同一人脸视频的第一样本预测信息作为一个样本，构建第二样本集，并根据所述第二样本集对所述第二自注意力模型进行单独训练；
[0178]
级联训练模块1040，用于将所述第一样本集中属于同一人脸视频的视频帧样本作为一个样本，构建第三样本集，将所述第三样本集输入至所述人脸检测模型中的第一自注意力模型，并将所述第一自注意力模型输出的第一局部预测信息作为所述第二自注意力模型的输入，以对单独训练后的第一自注意力模型和单独训练后的第二自注意力模型进行级联训练。
[0179]
在一种可选的实施方式中，所述第一模型训练模块1020包括：第一损失预测单元，用于根据所述第一样本预测信息与所述第一样本集中的相应视频帧样本所对应的第一类
别标签，确定第一预测损失值；第一参数调整单元，用于根据所述第一预测损失值对所述第一自注意力模型的参数进行调整。
[0180]
在一种可选的实施方式中，所述第二模型训练模块1030包括：第一样本预测单元，用于将所述第二样本集中的每个样本输入至所述第二自注意力模型，输出第二样本预测信息；第二损失预测单元，用于根据所述第二样本预测信息与第二类别标签，确定第二预测损失值，所述第二类别标签为所述第二样本集中的相应样本所归属的人脸视频所对应的类别标签；第二参数调整单元，用于根据所述第二预测损失值对所述第二自注意力模型的参数进行调整。
[0181]
在一种可选的实施方式中，所述级联训练模块1040包括：第二样本预测单元，用于将所述第三样本集中的样本输入至所述人脸检测模型，以输出对应于第一自注意力模型的第一局部预测信息、以及对应于第二自注意力模型的第二局部预测信息，其中针对所述第三样本集中的每个样本，将其中的每个所述视频帧样本划分为多个图像块，输入至所述人脸检测模型中的第一自注意力模型；第三损失预测单元，用于根据所述第一局部预测信息与第三类别标签，确定第一局部损失值，所述第三类别标签为输入至所述第一自注意力模型的视频帧样本所对应的类别标签；第四损失预测单元，用于根据所述第二局部预测信息与第四类别标签，确定第二局部损失值，所述第四类别标签为输入至所述第二自注意力模型的第一局部预测信息所对应的视频帧样本所归属的人脸视频的类别标签；第三参数调整单元，用于将所述第一局部损失和第二局部损失进行融合，得到总预测损失值，根据所述总预测损失值对所述人脸检测模型的参数进行调整。
[0182]
在一种可选的实施方式中，对应于所述第一自注意力模型的第一局部预测信息的数量，与所述第三样本集中的每个样本包含视频帧样本的数量相同；所述第三损失预测单元包括：损失预测子单元，用于根据每个所述第一局部预测信息与所述第三类别标签，确定每个第一局部预测信息对应的局部损失；损失融合单元，用于将得到的全部局部损失进行融合处理，得到所述第一局部损失值。
[0183]
在一种可选的实施方式中，所述人脸检测模型还包括线性映射网络，用于将每个所述图像块线性映射为图像特征向量，所述图像特征向量用于表征图像块的图像内容；所述第一自注意力模型至少包括第一自注意力网络、第一感知机，所述第一自注意力网络用于基于输入的图像特征向量，计算图像块之间的第一关联程度，并根据所述第一关联程度和图像特征向量，计算第一人脸特征向量；所述第一感知机用于对所述第一人脸特征向量进行特征预测，得到第一预测概率，所述第一预测概率表征输入的视频帧中存在目标图像块的可能性，所述目标图像块为包含人脸伪造特征的图像块；所述级联训练模块还包括第一信息生成单元，用于根据所述第一人脸特征向量和第一预测概率形成所述第一局部预测信息，所述第一局部预测信息用于表征输入的视频帧样本中人脸特征的区域变化趋势。
[0184]
在一种可选的实施方式中，所述第一人脸特征向量作为所述第二自注意模型的输入，其中将属于同一人脸视频的视频帧样本所对应的第一人脸特征向量作为一个人脸视频样本；所述第二自注意力模型至少包括第二自注意力网络、第二感知机，所述第二自注意力网络用于基于输入的第一人脸特征向量，计算各视频帧样本之间的第二关联程度，并根据所述第二关联程度和第一人脸特征向量，计算第二人脸特征向量；所述第二感知机用于对所述第二人脸特征向量进行特征预测，得到第二预测概率，所述第二预测概率表征输入的
人脸视频存在目标人脸图像的可能性，所述目标人脸图像为包含人脸伪造特征的图像；所述级联训练模块还包括第二信息生成单元，根据所述第二人脸特征向量和第二预测概率形成所述第二局部预测信息，所述第二局部预测信息用于表征人脸视频样本中人脸特征随时间的变化。
[0185]
在一种可选的实施方式中，所述人脸检测模型还包括信息融合层，用于将所述第一局部预测信息和第二局部预测信息进行融合处理，输出融合预测信息。
[0186]
在一种可选的实施方式中，所述第一自注意力模型为空间自注意力模型，所述第二自注意力模型为时间自注意力模型。
[0187]
在一种可选的实施方式中，样本获取模块1010包括：图像样本筛选单元，用于从视频样本中筛选包含人脸信息的图像，根据筛选出的图像组成视频帧样本序列；第二视频抽帧单元，用于对所述视频帧样本序列进行抽帧处理；第二图像预处理单元，用于针对抽帧结果执行图像预处理操作，得到多个视频帧样本，并根据所述多个视频帧样本形成所述第一样本集。
[0188]
需要说明的是，本公开实施方式的其他具体细节在上述方法的公开实施方式中已经详细说明，在此不再赘述。
[0189]
示例性存储介质
[0190]
下面对本公开示例性实施方式的存储介质进行说明。参考图11描述了根据本公开的示例性实施方式的用于实现上述方法的程序产品1100，如可以采用便携式紧凑盘只读存储器(cd-rom)并包括程序代码，并可以在设备，例如个人电脑上运行。然而，本公开的程序产品不限于此，在本文件中，可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。该程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以为但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(ram)、只读存储器(rom)、可擦式可编程只读存储器(eprom或闪存)、光纤、便携式紧凑盘只读存储器(cd-rom)、光存储器件、磁存储器件、或者上述任意合适的组合。
[0191]
计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了可读程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任何可读介质，该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于无线、有线、光缆、re等等，或者上述的任意合适的组合。
[0192]
可以以一种或多种程序设计语言的任意组合来编写用于执行本公开操作的程序代码，程序设计语言包括面向对象的程序设计语言-诸如java、c 等，还包括常规的过程式程序设计语言-诸如"c"语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中，远程计算设备可以通过任意种类的网络，包括局域网(fan)或广域网(wan)，连接到用户计算设备，或者，可以连接到外部计算设备(例
如利用因特网服务提供商来通过因特网连接)。
[0193]
示例性电子设备
[0194]
参考图12对本公开示例性实施方式的电子设备进行说明。图12显示的电子设备1200仅仅是一个示例，不应对本公开实施例的功能和使用范围带来任何限制。如图12，电子设备1200以通用计算设备的形式表现。电子设备1200的组件可以包括但不限于：至少一个处理单元1210、至少一个存储单元1220、连接不同系统组件(包括存储单元1220和处理单元1210)的总线1230、显示单元1240。其中，存储单元存储有程序代码，程序代码可以被处理单元1210执行，使得处理单元1210执行本说明书上述"示例性方法"部分中描述的根据本公开各种示例性实施方式的步骤。例如，处理单元1210可以执行如图1所示的方法步骤等。
[0195]
存储单元1220可以包括易失性存储单元，例如随机存取存储单元(ram)1221和/或高速缓存存储单元1222，还可以进一步包括只读存储单元(rom)1223。存储单元1220还可以包括具有一组(至少一个)程序模块1225的程序/实用工具1224，这样的程序模块1225包括但不限于：操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。总线1230可以包括数据总线、地址总线和控制总线。
[0196]
电子设备1200也可以与一个或多个外部设备1300(例如键盘、指向设备、蓝牙设备等)通信，这种通信可以通过输入/输出(i/o)接口1250进行。电子设备1200还包括显示单元1240，其连接到输入/输出(i/o)接口1250，用于进行显示。并且，电子设备1200还可以通过网络适配器1260与一个或者多个网络(例如局域网(lan)，广域网(wan)和/或公共网络，例如因特网)通信。如图所示，网络适配器1260通过总线1230与电子设备1200的其它模块通信。应当明白，尽管图中未示出，可以结合电子设备1200使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、raid系统、磁带驱动器以及数据备份存储系统等。
[0197]
应当注意，尽管在上文详细描述中提及了装置的若干模块或子模块，但是这种划分仅仅是示例性的并非强制性的。实际上，根据本公开的实施方式，上文描述的两个或更多单元/模块的特征和功能可以在一个单元/模块中具体化。反之，上文描述的一个单元/模块的特征和功能可以进一步划分为由多个单元/模块来具体化。
[0198]
此外，尽管在附图中以特定顺序描述了本公开方法的操作，但是，这并非要求或者暗示必须按照该特定顺序来执行这些操作，或是必须执行全部所示的操作才能实现期望的结果。附加地或备选地，可以省略某些步骤，将多个步骤合并为一个步骤执行，和/或将一个步骤分解为多个步骤执行。
[0199]
虽然已经参考若干具体实施方式描述了本公开的精神和原理，但应该理解，本公开并不限于所公开的具体实施方式，对各方面的划分也不意味着这些方面中的特征不能组合以进行受益，这种划分仅是为了表述的方便。本公开旨在涵盖所附权利要求的精神和范围内所包括的各种修改和等同布置。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：调度方法、第一计算节点、第二计算节点以及调度系统与流程

人脸检测方法、人脸检测模型的训练方法及装置与流程

相关文献

最热文献