人脸图像检测方法、装置、电子设备以及存储介质与流程

2022-02-24 13:00:42 来源：中国专利 TAG：

1.本公开涉及人工智能技术领域，尤其涉及自然语言处理、计算机视觉、深度学习技术领域，尤其涉及人脸图像检测方法、装置、电子设备以及存储介质。

背景技术：

2.目前，业内的人脸伪造检测技术，指的是利用一定方法判断人脸图像是否被深度学习技术篡改(即改变原始内容意义)。相关技术中，针对被深度学习技术篡改得到的人脸图像，难以判断其真实或者伪造。

技术实现要素：

3.本公开提供了一种人脸图像检测方法、装置、电子设备以及存储介质。
4.根据本公开的一方面，提供了一种人脸图像检测方法，包括：将待检测的人脸图像的图像向量分别输入第一语义表示模型和第二语义表示模型，以获取所述第一语义表示模型中第i阶段网络输出的第一特征向量和所述第二语义表示模型中第i阶段网络输出的第二特征向量；其中，所述第一语义表示模型和所述第二语义表示模型中阶段网络的数量均为n，i为1到n-1的正整数；根据所述第一特征向量和所述第二特征向量进行特征融合处理，以得到融合后第一特征向量和融合后第二特征向量；将所述融合后第一特征向量输入所述第一语义表示模型中的第i 1阶段网络，并将所述融合后第二特征向量输入所述第二语义表示模型中的第i 1阶段网络；根据所述第一语义表示模型中第n阶段网络的第一检测结果以及所述第二语义表示模型中第n阶段网络的第二检测结果，确定所述人脸图像的检测结果。
5.根据本公开的另一方面，提供了一种联合模型的训练方法，包括：构建初始的联合模型，其中，所述联合模型包括：第一语义表示模型的n个阶段网络、第二语义表示模型的头部网络以及n个阶段网络、n-1个特征融合网络、头部特征融合网络；其中，第i个特征融合网络分别连接两个第i阶段网络以及两个第i 1阶段网络；所述头部特征融合网络分别连接所述头部网络以及两个第一阶段网络；i为1到n-1的正整数；获取训练数据，其中，所述训练数据包括样本人脸图像以及对应的标签，所述标签表征所述样本人脸图像真实或者伪造；以所述样本人脸图像的图像向量为所述联合模型的输入，以所述样本人脸图像对应的标签为所述联合模型的输出，对所述联合模型进行训练。
6.根据本公开的另一方面，提供了一种人脸图像检测装置，包括：第一输入模块，用于将待检测的人脸图像的图像向量分别输入第一语义表示模型和第二语义表示模型，以获取所述第一语义表示模型中第i阶段网络输出的第一特征向量和所述第二语义表示模型中第i阶段网络输出的第二特征向量；其中，所述第一语义表示模型和所述第二语义表示模型中阶段网络的数量均为n，i为1到n-1的正整数；特征融合模块，用于根据所述第一特征向量和所述第二特征向量进行特征融合处理，以得到融合后第一特征向量和融合后第二特征向量；第二输入模块，用于将所述融合后第一特征向量输入所述第一语义表示模型中的第i 1
阶段网络，并将所述融合后第二特征向量输入所述第二语义表示模型中的第i 1阶段网络；第一确定模块，用于根据所述第一语义表示模型中第n阶段网络的第一检测结果以及所述第二语义表示模型中第n阶段网络的第二检测结果，确定所述人脸图像的检测结果。
7.根据本公开的另一方面，提供了一种联合模型的训练装置，包括：构建模块，用于构建初始的联合模型，其中，所述联合模型包括：第一语义表示模型的n个阶段网络、第二语义表示模型的头部网络以及n个阶段网络、n-1个特征融合网络、头部特征融合网络；其中，第i个特征融合网络分别连接两个第i阶段网络以及两个第i 1阶段网络；所述头部特征融合网络分别连接所述头部网络以及两个第一阶段网络；i为1到n-1的正整数；获取模块，用于获取训练数据，其中，所述训练数据包括样本人脸图像以及对应的标签，所述标签表征所述样本人脸图像真实或者伪造；训练模块，用于以所述样本人脸图像的图像向量为所述联合模型的输入，以所述样本人脸图像对应的标签为所述联合模型的输出，对所述联合模型进行训练。
8.根据本公开的又一方面，提供了一种电子设备，包括：
9.至少一个处理器；以及
10.与所述至少一个处理器通信连接的存储器；其中，
11.所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行本公开上述一方面提出的人脸图像检测方法；或者，另一方面提出的联合模型的训练方法。
12.根据本公开的再一方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，所述计算机指令用于使所述计算机执行本公开上述一方面提出的人脸图像检测方法；或者，另一方面提出的联合模型的训练方法。
13.根据本公开的再一方面，提供了一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现本公开上述一方面提出的人脸图像检测方法的步骤；或者，另一方面提出的联合模型的训练方法的步骤。
14.应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
15.附图用于更好地理解本方案，不构成对本公开的限定。其中：
16.图1是根据本公开第一实施例的示意图；
17.图2是根据本公开第二实施例的示意图；
18.图3是根据本公开第三实施例的示意图；
19.图4是联合模型的示意图；
20.图5是联合模型中特征融合网络的示意图；
21.图6是根据本公开第四实施例的示意图；
22.图7是根据本公开第五实施例的示意图；
23.图8是实施本公开的实施例的电子设备的框图。
具体实施方式
24.以下结合附图对本公开的示范性实施例做出说明，其中包括本公开实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本公开的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。
25.目前，业内的人脸伪造检测技术，指的是利用一定方法判断人脸图像是否被深度学习技术篡改(即改变原始内容意义)。相关技术中，主要是利用简单神经网络进行真实伪造分类，或者利用深度学习方法自动地提取伪造特征以判断人脸图像真实或者伪造，人脸伪造检测的准确度差。
26.针对上述问题，本公开提出一种人脸图像检测方法、装置、电子设备以及存储介质。
27.图1是根据本公开第一实施例的示意图，需要说明的是，本公开实施例的人脸图像检测方法可应用于人脸图像检测装置，该装置可被配置于电子设备中，以使该电子设备可以执行人脸图像检测功能。
28.其中，电子设备可以为任一具有计算能力的设备。其中，具有计算能力的设备例如可以为个人电脑(personal computer，简称pc)、移动终端、服务器等，移动终端例如可以为车载设备、手机、平板电脑、个人数字助理、穿戴式设备等具有各种操作系统、触摸屏和/或显示屏的硬件设备。
29.如图1所示，该人脸图像检测方法可以包括如下步骤：
30.步骤101，将待检测的人脸图像的图像向量分别输入第一语义表示模型和第二语义表示模型，以获取第一语义表示模型中第i阶段网络输出的第一特征向量和第二语义表示模型中第i阶段网络输出的第二特征向量；其中，第一语义表示模型和第二语义表示模型中阶段网络的数量均为n，i为1到n－1的正整数。
31.在本公开实施例中，步骤101之前，所述的方法还可以包括确定待检测的人脸图像的图像向量的过程。该过程具体可以包括以下步骤：确定待检测的人脸图像；对人脸图像进行分块处理，得到多个图像块；对多个图像块分别进行向量转换处理，确定每个图像块的向量；将多个图像块的向量所组成的向量序列，确定为人脸图像的图像向量。
32.在本公开实施例中，对人脸图像的分块处理，以及分块进行向量转换处理，能够获取到多个图像块的向量，保留人脸图像中较多的特征，方便后续处理，进而进一步提高人脸伪造检测的准确度。
33.在本公开实施例中，第一语义表示模型可以用于提取人脸图像的全局特征，第二语义表示模型可以用于提取人脸图像的局部特征。第一语义表示模型例如可以为transformer模型，transformer模型具有全局特征提取能力，能够从全局角度建立人脸图像中多个图像块的长距离关系。第二语义表示模型例如可以为cnn模型，cnn模型能够提取人脸图像中的局部伪影特征。从而通过全局特征和局部特征的提取，确保提取到的特征的全面性，进而提高人脸伪造检测的准确度。
34.在本公开实施例中，以第一语义表示模型为transformer模型，该模型可以包括4个阶段网络，即n为4，每个阶段网络包括3个transformer网络层，该模型总共包括12个transformer网络层。
35.在本公开实施例中，以第二语义表示模型为cnn模型为例，该模型可以包括头部网络以及4个阶段网络，每个阶段网络包括3个cnn网络层。
36.在本公开实施例中，第一语义表示模型未设置有头部网络，第二语义表示模型设置有头部网络的情况下，人脸图像检测装置执行步骤101的过程例如可以为，将图像向量输入第二语义表示模型的头部网络，以获取头部网络输出的头部特征向量；根据图像向量和头部特征向量进行特征融合处理，以得到融合后图像向量和融合后头部特征向量；将融合后图像向量输入第一语义表示模型，并将融合后头部特征向量输入第二语义表示模型的第一阶段网络，以获取第一语义表示模型中第i阶段网络输出的第一特征向量和所述第二语义表示模型中第i阶段网络输出的第二特征向量。
37.其中，头部特征向量由第二语义表示模型处理得到，能够体现人脸图像的局部特征。图像向量能够体现全局特征以及局部特征。根据图像向量以及头部特征向量进行特征融合处理，使得融合后特征向量能够体现全局特征以及局部特征，能够利用人脸图像中较多的特征，从而进一步提高人脸伪造检测的准确度。
38.步骤102，根据第一特征向量和第二特征向量进行特征融合处理，以得到融合后第一特征向量和融合后第二特征向量。
39.在本公开实施例中，第一特征向量由第一语义表示模型处理得到，能够体现人脸图像的全局特征；第二特征向量由第二语义表示模型处理得到，能够体现人脸图像的局部特征。根据人脸图像的全局特征以及局部特征进行特征融合处理，使得融合后特征向量能够体现全局特征以及局部特征，能够利用人脸图像中较多的特征，从而进一步提高人脸伪造检测的准确度。
40.步骤103，将融合后第一特征向量输入第一语义表示模型中的第i 1阶段网络，并将融合后第二特征向量输入第二语义表示模型中的第i 1阶段网络。
41.在本公开实施中，i为1到n-1的正整数。其中，i的初始值为1，每执行一次步骤102和步骤103，对i进行加1处理。以n为4为例，也就是说，将待检测的人脸图像的图像向量分别输入第一语义表示模型和第二语义表示模型后，先获取第一语义表示模型中第一阶段网络输出的第一特征向量和第二语义表示模型中第一阶段网络输出的第二特征向量；进行特征融合处理，得到融合后第一特征向量和融合后第二特征向量；将融合后第一特征向量输入第一语义表示模型中第二阶段网络；将融合后第二特征向量输入第二语义表示模型中第二阶段网络。
42.然后，获取第一语义表示模型中第二阶段网络输出的第一特征向量和第二语义表示模型中第二阶段网络输出的第二特征向量；进行特征融合处理，得到融合后第一特征向量和融合后第二特征向量；将融合后第一特征向量输入第一语义表示模型中第三阶段网络；将融合后第二特征向量输入第二语义表示模型中第三阶段网络。
43.然后，获取第一语义表示模型中第三段网络输出的第一特征向量和第二语义表示模型中第三阶段网络输出的第二特征向量；进行特征融合处理，得到融合后第一特征向量和融合后第二特征向量；将融合后第一特征向量输入第一语义表示模型中第四阶段网络；将融合后第二特征向量输入第二语义表示模型中第四阶段网络。
44.步骤104，根据第一语义表示模型中第n阶段网络的第一检测结果以及第二语义表示模型中第n阶段网络的第二检测结果，确定人脸图像的检测结果。
45.在本公开实施例中，第一检测结果可以包括伪造概率以及真实概率；第二检测结果可以包括伪造概率以及真实概率。对应的，为了提高检测结果的检测准确度，人脸图像检测装置执行步骤104的过程例如可以为，根据第一检测结果中的伪造概率以及第二检测结果中的伪造概率，确定人脸图像的伪造概率；根据第一检测结果中的真实概率以及第二检测结果中的真实概率，确定人脸图像的真实概率；根据人脸图像的真实概率以及伪造概率，确定人脸图像的检测结果。
46.其中，根据第一检测结果中的伪造概率以及第二检测结果中的伪造概率，确定人脸图像的伪造概率的过程例如可以为，对第一检测结果中的伪造概率以及第二检测结果中的伪造概率进行求和取平均值，将该平均值作为人脸图像的伪造概率。根据第一检测结果中的真实概率以及第二检测结果中的真实概率，确定人脸图像的真实概率的过程例如可以为，对第一检测结果中的真实概率以及第二检测结果中的真实概率进行求和取平均值，将该平均值作为人脸图像的真实概率。
47.其中，根据人脸图像的真实概率以及伪造概率，确定人脸图像的检测结果的过程例如可以为，若真实概率大于伪造概率，则确定人脸图像真实；若真实概率小于伪造概率，则确定人脸图像伪造；若真实概率等于伪造概率，则确定人脸图像真实或者伪造，或者对该人脸图像进行重新检测等。
48.本公开实施例的人脸图像检测方法，通过将待检测的人脸图像的图像向量分别输入第一语义表示模型和第二语义表示模型，以获取第一语义表示模型中第i阶段网络输出的第一特征向量和第二语义表示模型中第i阶段网络输出的第二特征向量；其中，第一语义表示模型和第二语义表示模型中阶段网络的数量均为n，i为1到n-1的正整数；根据第一特征向量和第二特征向量进行特征融合处理，以得到融合后第一特征向量和融合后第二特征向量；将融合后第一特征向量输入第一语义表示模型中的第i 1阶段网络，并将融合后第二特征向量输入第二语义表示模型中的第i 1阶段网络；根据第一语义表示模型中第n阶段网络的第一检测结果以及第二语义表示模型中第n阶段网络的第二检测结果，确定人脸图像的检测结果。从而能够结合多个语义表示模型提取到的特征，且对提取到的特征进行多个层级上的融合，基于融合后特征进行真实伪造判断，提高人脸伪造检测的准确度。
49.为了进一步提高人脸伪造检测的准确度，如图2所示，图2是根据本公开第二实施例的示意图，在本公开实施例中，可以根据第一特征向量和第二特征向量，确定两个特征向量的权重调整值；进而结合权重调整值和权重初始值，确定得到融合后的两个特征向量，进而确定检测结果。图2所示实施例可以包括以下步骤：
50.步骤201，将待检测的人脸图像的图像向量分别输入第一语义表示模型和第二语义表示模型，以获取第一语义表示模型中第i阶段网络输出的第一特征向量和第二语义表示模型中第i阶段网络输出的第二特征向量；其中，第一语义表示模型和第二语义表示模型中阶段网络的数量均为n，i为1到n－1的正整数。
51.步骤202，根据第一特征向量和第二特征向量，确定第一特征向量的权重调整值和第二特征向量的权重调整值。
52.在本公开实施例中，人脸图像检测装置执行步骤202的过程例如可以为，对第一特征向量和第二特征向量分别进行频域转换，得到第一频域特征向量和第二频域特征向量；根据第一频域特征向量，确定第二特征向量的权重调整值；根据第二频域特征向量，确定第
一特征向量的权重调整值。
53.其中，对第一特征向量进行频域转换，得到第一频域特征向量。第一频域特征向量相对于第一特征向量来说，包含的信息量更多，尤其是伪造特征的信息量。然后基于第一频域特征向量确定第二特征向量的权重调整值，也就是说，若第一频域特征向量中伪造特征的信息量多，则第一特征向量的权重需要加大点，则可以通过减少第二特征向量的权重来实现，因此，基于第一频域特征向量确定第二特征向量的权重调整值，基于第二频域特征向量确定第一特征向量的权重调整值，能够准确确定第一特征向量和第二特征向量的权重，进而提高其中伪造特征的信息量，降低其中非伪造特征的信息量，进而进一步提高人脸伪造检测的准确度。
54.步骤203，根据第一特征向量以及对应的权重初始值和权重调整值，确定融合后第一特征向量。
55.在本公开实施例中，权重初始值为1，在一种示例中，可以将权重调整值与第一特征向量相乘，在相乘结果上加上第一特征向量，得到融合后第一特征向量。在另一种示例中，可以将权重调整值与权重初始值相加，在相加结果上乘以第一特征向量，得到融合后第一特征向量。
56.步骤204，根据第二特征向量以及对应的权重初始值和权重调整值，确定融合后第二特征向量。
57.在本公开实施例中，权重初始值为1，在一种示例中，可以将权重调整值与第二特征向量相乘，在相乘结果上加上第二特征向量，得到融合后第二特征向量。在另一种示例中，可以将权重调整值与权重初始值相加，在相加结果上乘以第二特征向量，得到融合后第二特征向量。
58.步骤205，将融合后第一特征向量输入第一语义表示模型中的第i 1阶段网络，并将融合后第二特征向量输入第二语义表示模型中的第i 1阶段网络。
59.步骤206，根据第一语义表示模型中第n阶段网络的第一检测结果以及第二语义表示模型中第n阶段网络的第二检测结果，确定人脸图像的检测结果。
60.在本公开实施例中，步骤201、步骤205至步骤206的详细描述，可以参考图1所示实施中步骤101、步骤103至步骤104的详细描述，此处不再做详细说明。
61.本公开实施例的人脸图像检测方法，通过将待检测的人脸图像的图像向量分别输入第一语义表示模型和第二语义表示模型，以获取第一语义表示模型中第i阶段网络输出的第一特征向量和第二语义表示模型中第i阶段网络输出的第二特征向量；其中，第一语义表示模型和第二语义表示模型中阶段网络的数量均为n，i为1到n－1的正整数；根据第一特征向量和第二特征向量，确定第一特征向量的权重调整值和第二特征向量的权重调整值；根据第一特征向量以及对应的权重初始值和权重调整值，确定融合后第一特征向量；根据第二特征向量以及对应的权重初始值和权重调整值，确定融合后第二特征向量；将融合后第一特征向量输入第一语义表示模型中的第i 1阶段网络，并将融合后第二特征向量输入第二语义表示模型中的第i 1阶段网络；根据第一语义表示模型中第n阶段网络的第一检测结果以及第二语义表示模型中第n阶段网络的第二检测结果，确定人脸图像的检测结果。从而能够结合多个语义表示模型提取到的特征，且对提取到的特征进行多个层级上的权重调整以及融合，基于融合后特征进行真实伪造判断，进一步提高人脸伪造检测的准确度。
62.图3是根据本公开第三实施例的示意图，需要说明的是，本公开实施例的联合模型的训练方法可应用于联合模型的训练装置，该装置可被配置于电子设备中，以使该电子设备可以执行联合模型的训练功能。
63.如图3所示，该联合模型的训练方法可以包括如下步骤：
64.步骤301，构建初始的联合模型，其中，联合模型包括：第一语义表示模型的n个阶段网络、第二语义表示模型的头部网络以及n个阶段网络、n-1个特征融合网络、头部特征融合网络；其中，第i个特征融合网络分别连接两个第i阶段网络以及两个第i 1阶段网络；头部特征融合网络分别连接头部网络以及两个第一阶段网络；i为1到n-1的正整数。
65.在本公开实施例中，第一语义表示模型可以用于提取人脸图像的全局特征，第二语义表示模型可以用于提取人脸图像的局部特征。第一语义表示模型例如可以为transformer模型，transformer模型具有全局特征提取能力，能够从全局角度建立人脸图像中多个图像块的长距离关系。第二语义表示模型例如可以为cnn模型，cnn模型能够提取人脸图像中的局部伪影特征。
66.在本公开实施例中，联合模型的示意图可以如图4所示，在图4中，第一语义表示模型可以为transformer模型，该模型可以包括4个阶段网络，即n为4，每个阶段网络包括3个transformer网络层，该模型总共包括12个transformer网络层。在图4中，第二语义表示模型可以为cnn模型，该模型可以包括头部网络以及4个阶段网络，每个阶段网络包括3个cnn网络层。
67.在图4中，分块及向量转换表示对人脸图像的分块处理以及向量转换处理，得到向量序列，将该向量序列作为人脸图像的图像向量。在图4中，头部特征融合网络的输入包括：图像向量、以及cnn模型的头部网络(bottleneck)输出的头部特征向量；该头部特征融合网络输出的融合后图像向量提供给transformer模型的第一阶段网络，该头部特征融合网络输出的融合后头部特征向量提供给cnn模型的第一阶段网络。
68.在本公开实施例中，联合模型中特征融合网络的示意图可以如图5所示。在图5中，以分别连接两个第一阶段网络和两个第二阶段网络的特征融合网络为例，该特征融合网络的输入包括：transformer模型的第一阶段网络输出的第一特征向量(xg)以及cnn模型的第一阶段网络输出的第二特征向量(xl)，该特征融合网络中的第一个ffr模块用于对第一特征向量进行频域转换，并基于转换结果确定第二特征向量的权重调整值，进而确定得到融合后第二特征向量；该特征融合网络中的第二个ffr模块用于对第二特征向量进行频域转换，并基于转换结果确定第一特征向量的权重调整值，进而确定得到融合后第一特征向量。
69.步骤302，获取训练数据，其中，训练数据包括样本人脸图像以及对应的标签，标签表征样本人脸图像真实或者伪造。
70.步骤303，以样本人脸图像的图像向量为联合模型的输入，以样本人脸图像对应的标签为联合模型的输出，对联合模型进行训练。
71.在本公开实施例中，具体的，将样本人脸图像的图像向量输入至第一语义表示模型的第一阶段网络，以及输入至第二语义表示模型的头部网络，获取第一语义表示模型的最后一个阶段网络输出的第一预测结果，以及获取第二语义表示模型的最后一个阶段网络输出的第二预测结果；根据第一预测结果、第二预测结果、样本人脸图像的标签以及预设的损失函数，确定损失函数的值；根据损失函数的值对联合模型中的系数进行调整，实现对联
合模型的训练。
72.本公开实施例的联合模型的训练方法，通过构建初始的联合模型，其中，联合模型包括：第一语义表示模型的n个阶段网络、第二语义表示模型的头部网络以及n个阶段网络、n-1个特征融合网络、头部特征融合网络；其中，第i个特征融合网络分别连接两个第i阶段网络以及两个第i 1阶段网络；头部特征融合网络分别连接头部网络以及两个第一阶段网络；i为1到n-1的正整数；获取训练数据，其中，训练数据包括样本人脸图像以及对应的标签，标签表征样本人脸图像真实或者伪造；以样本人脸图像的图像向量为联合模型的输入，以样本人脸图像对应的标签为联合模型的输出，对联合模型进行训练。从而使得训练得到的联合模型能够结合多个语义表示模型提取到的特征，且对提取到的特征进行多个层级上的融合，基于融合后特征进行真实伪造判断，提高人脸伪造检测的准确度。
73.为了实现上述实施例，本公开还提出一种人脸图像检测装置。
74.如图6所示，图6根据本公开第四实施例的示意图。该人脸图像检测装置600包括：第一输入模块610、特征融合模块620、第二输入模块630和第一确定模块640。
75.其中，第一输入模块610，用于将待检测的人脸图像的图像向量分别输入第一语义表示模型和第二语义表示模型，以获取所述第一语义表示模型中第i阶段网络输出的第一特征向量和所述第二语义表示模型中第i阶段网络输出的第二特征向量；其中，所述第一语义表示模型和所述第二语义表示模型中阶段网络的数量均为n，i为1到n-1的正整数；
76.特征融合模块620，用于根据所述第一特征向量和所述第二特征向量进行特征融合处理，以得到融合后第一特征向量和融合后第二特征向量；
77.第二输入模块630，用于将所述融合后第一特征向量输入所述第一语义表示模型中的第i 1阶段网络，并将所述融合后第二特征向量输入所述第二语义表示模型中的第i 1阶段网络；
78.第一确定模块640，用于根据所述第一语义表示模型中第n阶段网络的第一检测结果以及所述第二语义表示模型中第n阶段网络的第二检测结果，确定所述人脸图像的检测结果。
79.作为本公开实施例的一种可能实现方式，所述装置还包括：第二确定模块、分块模块、向量转换模块和第三确定模块；所述第二确定模块，用于确定所述待检测的人脸图像；所述分块模块，用于对所述人脸图像进行分块处理，得到多个图像块；所述向量转换模块，用于对所述多个图像块分别进行向量转换处理，确定每个所述图像块的向量；所述第三确定模块，用于将所述多个图像块的向量所组成的向量序列，确定为所述人脸图像的图像向量。
80.作为本公开实施例的一种可能实现方式，所述第一语义表示模型用于提取所述人脸图像的全局特征；所述第二语义表示模型用于提取所述人脸图像的局部特征。
81.作为本公开实施例的一种可能实现方式，所述第一语义表示模型未设置有头部网络，所述第二语义表示模型设置有头部网络；所述第一输入模块610具体用于，将所述图像向量输入所述第二语义表示模型的头部网络，以获取所述头部网络输出的头部特征向量；根据所述图像向量和所述头部特征向量进行特征融合处理，以得到融合后图像向量和融合后头部特征向量；将所述融合后图像向量输入所述第一语义表示模型，并将所述融合后头部特征向量输入所述第二语义表示模型的第一阶段网络，以获取所述第一语义表示模型中
第i阶段网络输出的第一特征向量和所述第二语义表示模型中第i阶段网络输出的第二特征向量。
82.作为本公开实施例的一种可能实现方式，所述特征融合模块620具体用于，根据所述第一特征向量和所述第二特征向量，确定所述第一特征向量的权重调整值和所述第二特征向量的权重调整值；根据所述第一特征向量以及对应的权重初始值和权重调整值，确定所述融合后第一特征向量；根据所述第二特征向量以及对应的权重初始值和权重调整值，确定所述融合后第二特征向量。
83.作为本公开实施例的一种可能实现方式，所述特征融合模块620具体用于，对所述第一特征向量和所述第二特征向量分别进行频域转换，得到第一频域特征向量和第二频域特征向量；根据所述第一频域特征向量，确定所述第二特征向量的权重调整值；根据所述第二频域特征向量，确定所述第一特征向量的权重调整值。
84.作为本公开实施例的一种可能实现方式，所述第一确定模块640具体用于，根据所述第一检测结果中的伪造概率以及所述第二检测结果中的伪造概率，确定所述人脸图像的伪造概率；根据所述第一检测结果中的真实概率以及所述第二检测结果中的真实概率，确定所述人脸图像的真实概率；根据所述人脸图像的所述真实概率以及所述伪造概率，确定所述人脸图像的检测结果。
85.本公开实施例的人脸图像检测装置，通过将待检测的人脸图像的图像向量分别输入第一语义表示模型和第二语义表示模型，以获取第一语义表示模型中第i阶段网络输出的第一特征向量和第二语义表示模型中第i阶段网络输出的第二特征向量；其中，第一语义表示模型和第二语义表示模型中阶段网络的数量均为n，i为1到n-1的正整数；根据第一特征向量和第二特征向量进行特征融合处理，以得到融合后第一特征向量和融合后第二特征向量；将融合后第一特征向量输入第一语义表示模型中的第i 1阶段网络，并将融合后第二特征向量输入第二语义表示模型中的第i 1阶段网络；根据第一语义表示模型中第n阶段网络的第一检测结果以及第二语义表示模型中第n阶段网络的第二检测结果，确定人脸图像的检测结果。从而能够结合多个语义表示模型提取到的特征，且对提取到的特征进行多个层级上的融合，基于融合后特征进行真实伪造判断，提高人脸伪造检测的准确度。
86.为了实现上述实施例，本公开还提出一种联合模型的训练装置。
87.如图7所示，图7是根据本公开第五实施例的示意图。该联合模型的训练装置700包括：构建模块710、获取模块720和训练模块730。
88.其中，构建模块710，用于构建初始的联合模型，其中，所述联合模型包括：第一语义表示模型的n个阶段网络、第二语义表示模型的头部网络以及n个阶段网络、n-1个特征融合网络、头部特征融合网络；其中，第i个特征融合网络分别连接两个第i阶段网络以及两个第i 1阶段网络；所述头部特征融合网络分别连接所述头部网络以及两个第一阶段网络；i为1到n-1的正整数；
89.获取模块720，用于获取训练数据，其中，所述训练数据包括样本人脸图像以及对应的标签，所述标签表征所述样本人脸图像真实或者伪造；
90.训练模块730，用于以所述样本人脸图像的图像向量为所述联合模型的输入，以所述样本人脸图像对应的标签为所述联合模型的输出，对所述联合模型进行训练。
91.本公开实施例的联合模型的训练装置，通过构建初始的联合模型，其中，联合模型
包括：第一语义表示模型的n个阶段网络、第二语义表示模型的头部网络以及n个阶段网络、n-1个特征融合网络、头部特征融合网络；其中，第i个特征融合网络分别连接两个第i阶段网络以及两个第i 1阶段网络；头部特征融合网络分别连接头部网络以及两个第一阶段网络；i为1到n-1的正整数；获取训练数据，其中，训练数据包括样本人脸图像以及对应的标签，标签表征样本人脸图像真实或者伪造；以样本人脸图像的图像向量为联合模型的输入，以样本人脸图像对应的标签为联合模型的输出，对联合模型进行训练。从而使得训练得到的联合模型能够结合多个语义表示模型提取到的特征，且对提取到的特征进行多个层级上的融合，基于融合后特征进行真实伪造判断，提高人脸伪造检测的准确度。
92.本公开的技术方案中，所涉及的用户个人信息的收集、存储、使用、加工、传输、提供和公开等处理，均在征得用户同意的前提下进行，并且均符合相关法律法规的规定，且不违背公序良俗。
93.根据本公开的实施例，本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。
94.图8示出了可以用来实施本公开的实施例的示例电子设备800的示意性框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。
95.如图8所示，电子设备800包括计算单元801，其可以根据存储在只读存储器(rom)802中的计算机程序或者从存储单元808加载到随机访问存储器(ram)803中的计算机程序，来执行各种适当的动作和处理。在ram 803中，还可存储电子设备800操作所需的各种程序和数据。计算单元801、rom 802以及ram803通过总线804彼此相连。输入/输出(i/o)接口805也连接至总线804。
96.电子设备800中的多个部件连接至i/o接口805，包括：输入单元806，例如键盘、鼠标等；输出单元807，例如各种类型的显示器、扬声器等；存储单元808，例如磁盘、光盘等；以及通信单元809，例如网卡、调制解调器、无线通信收发机等。通信单元809允许电子设备800通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
97.计算单元801可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元801的一些示例包括但不限于中央处理单元(cpu)、图形处理单元(gpu)、各种专用的人工智能(ai)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(dsp)、以及任何适当的处理器、控制器、微控制器等。计算单元801执行上文所描述的各个方法和处理，例如人脸图像检测方法或者联合模型的训练方法。例如，在一些实施例中，人脸图像检测方法或者联合模型的训练方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元808。在一些实施例中，计算机程序的部分或者全部可以经由rom 802和/或通信单元809而被载入和/或安装到电子设备800上。当计算机程序加载到ram 803并由计算单元801执行时，可以执行上文描述的人脸图像检测方法的一个或多个步骤；或者联合模型的训练方法的一个或多个步骤。备选地，在其他实施例中，计算单元801可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行人脸图像检测方法或者联合模型的训练
方法。
98.本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(fpga)、专用集成电路(asic)、专用标准产品(assp)、芯片上系统的系统(soc)、负载可编程逻辑设备(cpld)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
99.用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
100.在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(ram)、只读存储器(rom)、可擦除可编程只读存储器(eprom或快闪存储器)、光纤、便捷式紧凑盘只读存储器(cd-rom)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
101.为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，crt(阴极射线管)或者lcd(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
102.可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(lan)、广域网(wan)和互联网。
103.计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，也可以为分布式系统的服务器，或者是结合了区块链的服务器。
104.应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本公开公开的技术方案所期望的结果，本文在此不进行限制。
105.上述具体实施方式，并不构成对本公开保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等，均应包含在本公开保护范围之内。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：一种学习内容推荐方法、装置、智能终端及存储介质与流程

人脸图像检测方法、装置、电子设备以及存储介质与流程

相关文献

最热文献