一种多媒体换脸方法及装置

2023-01-17 12:53:58 来源：中国专利 TAG：

1.本技术涉及计算机视觉技术领域，具体而言，涉及一种多媒体换脸方法及装置。

背景技术：

2.随着自媒体、移动终端和通信技术的飞速发展，人们的日常娱乐活动也随之发生质的改变。换脸技术在自媒体视频编辑、影视特效等领域具有着重要的作用。然而，现有的换脸技术具有很多缺陷，如：身份转换不完整、更换区域肤色不一致等。这些缺陷极大地影响了换脸的质量，使得现有的换脸方法应用范围受应用的条件影响。

技术实现要素：

3.本技术实施例的目的在于提供一种多媒体换脸方法及装置，用以增加换脸之后结果的真实性以及增强对面部条件的泛化性。
4.第一方面，本技术提供一种多媒体换脸方法，包括：利用基于金子塔结构的编码器对提供身份的图像和提供属性的图像进行编码，得到身份信息与属性信息；利用多尺度自适应身份映射网络将身份信息与属性信息组合成一个新的潜在编码；基于所述新的潜在编码以及预先训练的生成器得到生成图像；将所述生成图像与所述提供属性的图像分别用所述编码器进行编码，得到了高层次潜在编码、中间层次潜在编码和低层次潜在编码；根据各个部分的潜在编码所具有的特征，交换所述生成图像与所述提供属性的图像的低层次潜在编码，再利用所述生成器进行解码，得到了二次编解码后的生成图像。
5.在可选的实施方式中，所述利用基于金子塔结构的编码器对提供身份的图像和提供属性的图像进行编码，得到身份信息与属性信息，包括：利用基于金子塔结构的编码器对提供身份的图像和提供属性的图像进行编码，得到对应的潜在空间的潜在编码，其中，潜在空间指的是具有一定语义编辑能力的特征空间，潜在编码是位于上述特征空间内的一个向量；将得到的潜在特征输入到线性映射网络中得到身份信息与属性信息，使得身份信息与属性信息表示的特征对应值符合stylegan的潜在空间。
6.在可选的实施方式中，还包括：将所述提供属性的图像和所述二次编解码后的生成图像由rgb域转换至ycrcb域；对各个通道进行直方图匹配，提供属性的图像的各个通道直方图为参考值；利用预训练好的人脸解析的模型对所述提供属性的图像和所述生成图像进行前后景分离，得到分割蒙版；在此基础上，将得到的初步的分割蒙版加一层高斯模糊，作为后续训练过渡边缘带的初始值；将所述提供属性的图像和所述生成图像与得到的加权值作为输入到可学习融合网络的输入值；将分割边缘的梯度值最小化以及可学习融合网络输出值
与所述提供属性的图像之间的直方图分布差异最小化作为该网络的优化方向；当网络训练稳定后，输出最终的换脸结果。
7.第二方面，本技术提供一种多媒体换脸装置，包括：第一编码模块，用于利用基于金子塔结构的编码器对提供身份的图像和提供属性的图像进行编码，得到身份信息与属性信息；合成模块，用于利用多尺度自适应身份映射网络将身份信息与属性信息组合成一个新的潜在编码；生成模块，用于基于所述新的潜在编码以及预先训练的生成器得到生成图像；第二编码模块，用于将所述生成图像与所述提供属性的图像分别用所述编码器进行编码，得到了高层次潜在编码、中间层次潜在编码和低层次潜在编码；交换模块，用于根据各个部分的潜在编码所具有的特征，交换所述生成图像与所述提供属性的图像的低层次潜在编码，再利用所述生成器进行解码，得到了二次编解码后的生成图像。
8.在可选的实施方式中，所述第一编码模块具体用于：利用基于金子塔结构的编码器对提供身份的图像和提供属性的图像进行编码，得到对应的潜在空间的潜在编码，其中，潜在空间指的是具有一定语义编辑能力的特征空间，潜在编码是位于上述特征空间内的一个向量；将得到的潜在特征输入到线性映射网络中得到身份信息与属性信息，使得身份信息与属性信息表示的特征对应值符合stylegan的潜在空间。
9.在可选的实施方式中，还包括后处理模块，用于：将所述提供属性的图像和所述二次编解码后的生成图像由rgb域转换至ycrcb域；对各个通道进行直方图匹配，提供属性的图像的各个通道直方图为参考值；利用预训练好的人脸解析的模型对所述提供属性的图像和所述生成图像进行前后景分离，得到分割蒙版；在此基础上，将得到的初步的分割蒙版加一层高斯模糊，作为后续训练过渡边缘带的初始值；将所述提供属性的图像和所述生成图像与得到的加权值作为输入到可学习融合网络的输入值；将分割边缘的梯度值最小化以及可学习融合网络输出值与所述提供属性的图像之间的直方图分布差异最小化作为该网络的优化方向；当网络训练稳定后，输出最终的换脸结果。
10.本技术提供一种多媒体换脸方法及装置。利用基于金子塔结构的编码器对提供身份的图像和提供属性的图像进行编码，得到身份信息与属性信息；利用多尺度自适应身份映射网络将身份信息与属性信息组合成一个新的潜在编码；基于所述新的潜在编码以及预先训练的生成器得到生成图像；将所述生成图像与所述提供属性的图像分别用所述编码器进行编码，得到了高层次潜在编码、中间层次潜在编码和低层次潜在编码；根据各个部分的潜在编码所具有的特征，交换所述生成图像与所述提供属性的图像的低层次潜在编码，再利用所述生成器进行解码，得到了二次编解码后的生成图像。以增加换脸之后结果的真实性以及增强对面部条件的泛化性。
附图说明
11.为了更清楚地说明本技术实施例的技术方案，下面将对本技术实施例中所需要使
用的附图作简单地介绍，应当理解，以下附图仅示出了本技术的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。
12.图1为本技术实施例提供的一种多媒体换脸方法流程示意图；图2是本技术中具体实施方式中整体过程图；图3是本技术中具体实施方式中自适应身份映射模块的结构图；图4是本技术中具体实施方式中的后处理部分的结构图；图5为本技术实施例提供的一种多媒体换脸装置结构示意图；图6为本技术实施例提供的一种电子设备结构示意图。
具体实施方式
13.下面将结合本技术实施例中的附图，对本技术实施例中的技术方案进行描述。
14.图1为本技术实施例提供的一种多媒体换脸方法流程示意图。如图1所示，该方法包括：s110，利用基于金子塔结构的编码器对提供身份的图像和提供属性的图像进行编码，得到身份信息与属性信息；可以利用基于金子塔结构的编码器对提供身份的图像和提供属性的图像进行编码，得到对应的潜在空间的潜在编码，其中，潜在空间指的是具有一定语义编辑能力的特征空间，潜在编码是位于上述特征空间内的一个向量；将得到的潜在特征输入到线性映射网络中得到身份信息与属性信息，使得身份信息与属性信息表示的特征对应值符合stylegan的潜在空间。
15.例如，利用基于金子塔结构的编码器对提供身份的图像和提供属性的图像进行编码，得到对应的潜在空间的潜在编码。其中，潜在空间指的是具有一定语义编辑能力的特征空间；潜在编码是位于上述特征空间内的一个向量。为了方便表示：本技术将提供身份的图像定义为i
id
，将提供属性的图像定义为i
att
，对应的潜在编码分别表示为：i
id
和i
att
。然后，将得到的潜在特征输入到线性映射网络中，使得该潜在编码表示的特征对应值符合stylegan的潜在空间。
16.金字塔结构的编码器为常见的编码器结构的一种，其主要特征为：将给定的图像按照大尺度像小尺度的特征进行提取，即实现将图像的浅层次特征信息到深层次特征信息的充分提取。线性映射网络是由全连接层构成，其主要的目的实现两个不同的特征空间之间的映射。stylegan是在图像生成领域内的一种常见的高保真的生成器，将后续步骤中详细介绍。
17.s120，利用多尺度自适应身份映射网络将身份信息与属性信息组合成一个新的潜在编码。
18.例如，利用多尺度自适应身份映射网络将i
id
的身份信息与i
att
的属性信息组合成一个新的潜在编码。实现身份结合的主要结构为adain模块。adain模块针对金字塔结构编码以及线性映射网络得到的潜在编码的不同特征（即高层级特征、中间层级特征、底层级特征）分别进行身份编辑。其主要原因是由于在不同层级的特征中包含的身份信息的含量也是不同的。自适应身份映射网络的结构图如图3所示。具体过程如下所示：
编码器将输入的图像编码为高层次特征块（多个潜在编码组成的特征块）、中间层次特征块和低层次特征块。提供属性的图像的三个层级的特征块分别用、和来表示。同理，提供身份的图像i
id
经过身份提取器将其表征身份信息的特征向量提取出来。
19.为了将提取得到的身份信息更加适应于身份转换，将经过两个线性网络，分别获取用于adain块中的待相加值和待相乘值。分别获取用于adain块中的待相加值和待相乘值。
20.其中和为两个结构相同的线性网络。
21.如附图3所示，自适应身份映射网络中是有5个子块组成，而其中起到关键作用的结构为adain块。adain通过参考分布的统计特征来实现对输入特征的特征转换。将输入的特征设置为，首先在每个子块中先经过一个归一化层，即：其中，表示对输入的特征值求取平均数；表示对输入特征值求取方差；为一个极小值，为了防止分母为0。
22.其次，用相关的统计特征值来影响的特征分布，即adain块实现的过程。
23.分别对、和进行上述的过程，得到如下过程。进行上述的过程，得到如下过程。
24.s130，基于新的潜在编码以及预先训练的生成器得到生成图像。
25.例如，利用stylegan的生成器作为本技术的生成器以保证生成图像的高保真，生成的图像用igen表示。stylegan是一种比较成熟的生成模型，其使用了渐进式的生成过程，实现图像从低分辨率到高分辨率的渐进式过渡生成，在效果上具有大尺度上的真实性和细节上的完善性。本技术充分利用这一点，先用大量数据集训练出一个人脸图像反演的模型，即可以根据潜在编码完成于真实图像的一一对应的过程。
26.s140，将生成图像与提供属性的图像分别用编码器进行编码，得到了高层次潜在编码、中间层次潜在编码和低层次潜在编码；s150，根据各个部分的潜在编码所具有的特征，交换生成图像与提供属性的图像的低层次潜在编码，再利用生成器进行解码，得到了二次编解码后的生成图像。
27.例如，为了解决面部肤色异常和面部存在不均匀色块的问题，本技术创新地提出
了二次编解码策略。具体来说，是将生成图像igen与提供属性的图像i
att
分别用编码器进行编码，得到了高层次潜在编码、中间层次潜在编码和低层次潜在编码。根据各个部分的潜在编码所具有的特征，即低层次潜在编码包含了肤色、背景等宏观意义上的特征信息，交换提供属性图像i
att
和igen的低层次潜在编码。再利用stylegan的生成器进行解码，得到了二次编解码后的生成图像，用i
dual
表示。具体的过程如下所示：首先，利用编码器对生成图像igen和提供属性的图像i
att
进行编码。
28.；。
29.其次，为了避开低层次潜在编码中的表征身份信息的部分，本技术在此提出了一种自适应加权模块。该模块由全连接层和sigmoid激活函数组成，该模块用表示。
30.。
31.最后，利用stylegan对重新组合的潜在编码进行解码，得到了i
dual
。
32.。
33.其中，g表示的为stylegan生成器。
34.经过上述步骤，基本上已经完成了面部身份信息的交换。
35.在一些实施例中，如图4所示，为了解决背景区域不真实的问题。本技术提出了基于分割边缘梯度最小化的后处理方法。具体来说，还包括：将提供属性的图像和二次编解码后的生成图像由rgb域转换至ycrcb域；对各个通道进行直方图匹配，提供属性的图像的各个通道直方图为参考值；利用预训练好的人脸解析的模型对提供属性的图像和生成图像进行前后景分离，得到分割蒙版；在此基础上，将得到的初步的分割蒙版加一层高斯模糊，作为后续训练过渡边缘带的初始值；将提供属性的图像和生成图像与得到的加权值作为输入到可学习融合网络的输入值；将分割边缘的梯度值最小化以及可学习融合网络输出值与提供属性的图像之间的直方图分布差异最小化作为该网络的优化方向；当网络训练稳定后，输出最终的换脸结果。
36.例如，首先，将提供属性图像i
att
和二次编解码图像i
dual
由rgb域转换至ycrcb域。
37.其次，对各个通道进行直方图匹配，其中提供属性的图像i
att
的各个通道直方图为参考值。
38.利用预训练好的人脸解析的模型对i
att
和igen进行前后景分离，得到分割蒙版。在此基础上，将得到的初步的加一层高斯模糊，作为后续训练过渡边缘带的初始值。将i
att
和igen与得到的加权值作为输入到可学习融合网络的输入值。
39.将分割边缘的梯度值最小化以及可学习融合网络输出值i
final_process
与i
att
之间的直方图分布差异最小化作为该网络的优化方向。当网络训练稳定后，最终的输出至为i
final
为最终的换脸结果。
40.本技术的优点及积极效果在于：（1）本技术集中于解决多媒体换脸的效果，尤其是在换脸前后的前后景的协调性与表情等信息的真实性。
41.（2）本技术实现了人脸信息的准确交换，并可以实现在训练稳定后可以不需要训练对任何人脸图像进行换脸。
42.（3）本技术经过大量的实验并进行验证，有效地提高了该方法的有效性。
43.作为一个示例，如图2所示，该多媒体换脸方法包括图像编码、身份映射、图像生成、二次编解码以及后处理的过程。
44.其中，可以基于psp编码器、stylegan生成器以及训练样本通过反演对stylegan生成器进行训练得到训练好的stylegan生成器。
45.在换脸过程中，基于通过身份提取器得到身份向量（身份信息）；基于通过psp编码器得到属性向量（属性信息）实现图像编码，根据身份向量、属性向量以及训练好的stylegan生成器得到igen实现身份映射以及图像生成。
46.通过后处理过程，根据igen以及i
att
，通过psp编码器以、自适应蒙版以及stylegan生成器，得到i
dual
实现二次编解码。
47.根据i
dual
以及i
att
，通过直方图匹配，以及可学习融合网络得到最终的换脸图像。
48.具体的，身份映射过程可以如图3所示的方式进行实现。
49.图5为本技术实施例提供的一种多媒体换脸装置结构示意图。如图5所示，该装置可以包括：第一编码模块501，用于利用基于金子塔结构的编码器对提供身份的图像和提供属性的图像进行编码，得到身份信息与属性信息；合成模块502，用于利用多尺度自适应身份映射网络将身份信息与属性信息组合成一个新的潜在编码；生成模块503，用于基于新的潜在编码以及预先训练的生成器得到生成图像；第二编码模块504，用于将生成图像与提供属性的图像分别用编码器进行编码，得到了高层次潜在编码、中间层次潜在编码和低层次潜在编码；交换模块505，用于根据各个部分的潜在编码所具有的特征，交换生成图像与提供属性的图像的低层次潜在编码，再利用生成器进行解码，得到了二次编解码后的生成图像。
50.在一些实施例中，第一编码模块501具体用于：利用基于金子塔结构的编码器对提供身份的图像和提供属性的图像进行编码，得到对应的潜在空间的潜在编码，其中，潜在空间指的是具有一定语义编辑能力的特征空间，潜在编码是位于上述特征空间内的一个向量；将得到的潜在特征输入到线性映射网络中得到身份信息与属性信息，使得身份信息与属性信息表示的特征对应值符合stylegan的潜在空间。
51.在一些实施例中，还包括后处理模块，用于：将提供属性的图像和二次编解码后的生成图像由rgb域转换至ycrcb域；对各个通道进行直方图匹配，提供属性的图像的各个通道直方图为参考值；利用预训练好的人脸解析的模型对提供属性的图像和生成图像进行前后景分离，得到分割蒙版；在此基础上，将得到的初步的分割蒙版加一层高斯模糊，作为后续训练过渡
边缘带的初始值；将提供属性的图像和生成图像与得到的加权值作为输入到可学习融合网络的输入值；将分割边缘的梯度值最小化以及可学习融合网络输出值与提供属性的图像之间的直方图分布差异最小化作为该网络的优化方向；当网络训练稳定后，输出最终的换脸结果。
52.本技术实施例还提供了一种电子设备，如图6所示，包括处理器610、通信接口620、存储器630和通信总线640，其中，处理器610，通信接口620，存储器630通过通信总线640完成相互间的通信。
53.存储器630，用于存放计算机程序；处理器610，用于执行存储器630上所存放的程序时，实现如上述任意一实施例所述的方法步骤。
54.上述提到的通信总线可以是外设部件互连标准（peripheral component interconnect，pci）总线或扩展工业标准结构（extended industry standard architecture，eisa）总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示，图中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。
55.通信接口用于上述电子设备与其他设备之间的通信。
56.存储器可以包括随机存取存储器（random access memory，ram），也可以包括非易失性存储器（non-volatile memory，nvm），例如至少一个磁盘存储器。可选的，存储器还可以是至少一个位于远离前述处理器的存储装置。
57.上述的处理器可以是通用处理器，包括中央处理器（central processing unit，cpu）、网络处理器（network processor，np）等；还可以是数字信号处理器（digital signal processing，dsp）、专用集成电路（application specific integrated circuit，asic）、现场可编程门阵列（field-programmable gate array，fpga）或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
58.由于上述实施例中电子设备的各器件解决问题的实施方式以及有益效果可以参见图1所示的实施例中的各步骤来实现，因此，本技术实施例提供的电子设备的具体工作过程和有益效果，在此不复赘述。
59.在本技术提供的又一实施例中，还提供了一种计算机可读存储介质，该计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行上述实施例中任一的多媒体换脸方法。
60.在本技术提供的又一实施例中，还提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述实施例中任一的多媒体换脸方法。
61.本领域内的技术人员应明白，本技术实施例中的实施例可提供为方法、系统、或计算机程序产品。因此，本技术实施例中可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本技术实施例中可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质（包括但不限于磁盘存储器、cd-rom、光学存储器等）上实施的计算机程序产品的形式。
62.本技术实施例中是参照根据本技术实施例中实施例的方法、设备（系统）、和计算机程序产品的流程图和／或方框图来描述的。应理解可由计算机程序指令实现流程图和／或方框图中的每一流程和／或方框、以及流程图和／或方框图中的流程和／或方框的结合。可提
供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能的装置。
63.这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能。
64.这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能的步骤。
65.尽管已描述了本技术实施例中的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例作出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本技术实施例中范围的所有变更和修改。
66.显然，本领域的技术人员可以对本技术实施例中实施例进行各种改动和变型而不脱离本技术实施例中实施例的精神和范围。这样，倘若本技术实施例中实施例的这些修改和变型属于本技术实施例中权利要求及其等同技术的范围之内，则本技术实施例中也意图包含这些改动和变型在内。

再多了解一些

1/2 1 2 下一页尾页

本文用于创业者技术爱好者查询，仅供学习研究，如用于商业用途，请联系技术所有人。

上一篇：返回列表
下一篇：一种在国产处理器平台固件进行RAID卡管理的方法与流程

一种多媒体换脸方法及装置

相关文献

最热文献