一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

基于深度自适应的发型属性迁移方法及系统

2023-02-01 23:53:50 来源:中国专利 TAG:


1.本发明属于图像处理技术领域,尤其涉及一种基于深度自适应的发型属性迁移方法及系统。


背景技术:

2.发型作为人脸属性的重要因素之一,在一定程度上影响了人们的整体气质。形态各异的发型能够轻易表征出一个人的年齡、性别、社会阶层、文化层次、时尚爱好等信息,是人物个性化造型的重要组成部分。同一个人物搭配上不同的发型会给旁观者带来视觉上不同的体验,影响到人们的气质。随着人工智能时代的到来,深度学习、机器视觉等前沿技术不断发展成熟,标志着智能时代已经悄然来临,各大领域都在使用深度学习技术解决实际问题。特别是生成对抗网络的出现,人脸属性合成技术已经取得了突破性的进展,但是基于生成对抗网络的发型属性编辑算法还存在较多问题,例如:当人脸深度不对齐时,将引起发型编辑后发型与人脸扭曲的问题。


技术实现要素:

3.针对现有技术存在的缺陷和不足,本发明的目的在于提供一种基于深度自适应的发型属性迁移方法及系统,其考虑了输入图像之间的关系,避免了人脸深度不对齐条件下中发型与人脸特征融合后的不匹配问题,能进一步提高发型合成效果。
4.其主要包括以下步骤:步骤s1:通过人脸单目测距算法估计输入图像的估计深度差;步骤s2:通过人脸关键点检测模型rcpr检测待调整图像的人脸关键点;步骤s3:通过深度差与人脸关键点计算面部基准点与偏移量;步骤s4:通过面部基准点与偏移量对齐人脸深度;步骤s5:通过快速发型属性编辑模块编辑输入图像的发型,输出目标图像的潜在编码;步骤s6:通过styleganv2生成器将目标图像的潜在编码映射到图像域得到目标图像。本发明对输入图像的特征潜码优化,在通过预先训练好的生成网络重建图像的方法,可以在无需重新训练的情况下实现精准的发型属性编辑效果,满足用户的基本需求。
5.以及基于以上设计的方法获得的系统:用户输入一张人脸图像与一张发型参考图像,系统调用深度自适应对齐模块对齐输入图像的深度,通过在图像的潜在特征空间编辑属性特征,最后通过生成网络输出目标图像,即可得到包含人脸图像身份特征、发型参考图像发型特征的目标图像。
6.本发明解决其技术问题采用的技术方案是:
7.一种基于深度自适应对齐的发型属性编辑方法,其特征在于,包括以下步骤:
8.步骤s1:通过人脸单目测距算法估计输入图像{i1,i2}的估计深度差
9.步骤s2:通过人脸关键点检测模型rcpr检测待调整图像的人脸关键点pn;
10.步骤s3:通过深度差与人脸关键点pn计算面部基准点c与偏移量l=(x,y);
11.步骤s4:通过面部基准点c与偏移量l=(x,y)对齐人脸深度;
12.步骤s5:通过快速发型属性编辑模块编辑输入图像的发型,输出目标图像的潜在
编码c
blend

13.步骤s6:通过styleganv2生成器将目标图像的潜在编码c
blend
映射到图像域得到目标图像i。
14.进一步地,在步骤s1中,通过人脸单目测距算法估计输入图像{i1,i2}的估计深度差使用预训练的人脸检测模型rfbnet定位i1,i2两图中的人脸位置,并记录人脸框大小[w
face
,h
face
];
[0015]
通过人脸单目测距算法估计输入图像{i1,i2}的估计深度差具体是:通过三角测距原理估计深度值,根据相似三角形原理,式中x为人脸成像宽度,w为人脸实际宽度,d为相机焦距,解方程获得人脸深度估计值:
[0016][0017]
作差之后获得输入图像的估计深度差为
[0018]
进一步地,在步骤s2中,通过人脸关键点检测模型rcpr检测待调整图像的68个人脸关键点pn,其中,至少包括:涉及人脸的眼睛、嘴巴的24个关键点。
[0019]
进一步地,步骤s3的具体计算步骤如下:
[0020][0021]
其中与分别为左、右眼6个关键点的平均值,即以平均值为眼睛的关键点,为12个嘴巴关键点的平均值,表示两眼的中心点位置;
[0022]
之后,使用向量表示从右眼到左眼的连线,表示从嘴巴到眼睛中心点的连线,根据两眼的中心点位置与眼嘴向量得到基准点c的预估位置:
[0023][0024]
之后,根据基准点c与发型高度h计算最佳人脸对齐框的位置,其中发型高度h通过预训练的语义分割网络得到,定义point
hair
=max(segment(z)),其中segment为训练好的人脸语义分割模型faceprasing,z为输入图像;
[0025]
最后,定义归一化尺度:
[0026]
[0027]
此时,计算获得偏移量由于在的应用场景下输入为正方形,因此规定为基准点偏移量。
[0028]
进一步地,在步骤s4中,通过面部基准点c与偏移量l=(x,y)对齐人脸深度,根据面部基准点与偏移量l,定义人脸对齐坐标为
[0029]
通过坐标从源图像中提取出人脸区域,即提取处于范围内的图像信息;当图像存在边缘空洞时,通过线性插值的方法填充空洞。
[0030]
进一步地,在步骤s5中,通过快速发型属性编辑模块编辑输入图像的发型,将输入图像组{i1,i2}通过快速图像嵌入算法投影到styleganv2的fs潜在空间中;
[0031]
所述快速图像嵌入算法通过预训练的编码器先将图像编码到styleganv2的w 潜在空间,再通过反算迭代优化的方法将图像映射到fs潜在空间,用于后续的潜码编辑,即:
[0032][0033]
其中lf为优化后的结构张量f和初始化的的2-范数以此保证最终的fs潜码表现接近stylegan潜在空间的有效区域;
[0034]
所述通过快速发型属性编辑模块编辑输入图像的发型,对于每组输入图像的潜在编码通过输入图像的语义分割图约束发型属性特征的编辑:
[0035]
通过预训练的人脸语义分割模型bisenet识别输入图像的不同语义区域,通过人像语义分割后的语义图重新组合得到目标图像语义图m,m的人脸和背景对应输入图像i1的语义图m1,、头发形状对应输入图像i2的语义图m2。
[0036]
进一步地,对于通过人像语义分割后的语义图重新组合得到目标图像语义图m,针对每一张人脸图像的朝向、头型的不同,会出现很多错位、空洞情况,通过膨胀操作将发型或人脸掩码膨胀,直到填充上空洞或错位。
[0037]
进一步地,所述通过快速发型属性编辑模块编辑输入图像的发型,通过latent edit模块微调图像嵌入模块输出的输入图像潜码,并以目标图像语义分割图m为约束条件,使用样式损失函数style loss保证微调后的潜码和图像潜码相似;
[0038]
所述样式损失函数style loss具体为:定义其中为vgg网络第l层的激活图,k为雅各比矩阵,定义ik(z)=segment(z)|k为目标图像z的k语义区域图,则样式损失l
style
的计算公式如下所示:
[0039][0040]
式中ik(zk)

zk将除了k区域以外的部分全部置零;
[0041]
所述latent edit模块根据语义分割αk提取对应的潜在编码,将潜码混合生成目标潜码c
blend
;对于c
blend
,希望找到一组权重矩阵μk使得通过在∑kμk=1andμk》0的条件下迭代优化lpips实现潜码融合,即:
[0042][0043]
其中,是vgg模型第l层输出的激活图,并进行了归一化。
[0044]
进一步地,在步骤s6中,通过styleganv2生成器将目标图像的潜在编码c
blend
映射到图像域得到目标图像i,通过预训练好的styleganv2的生成器将潜码重建成图像,得到发型编辑后的目标图像。
[0045]
以及,一种基于深度自适应的发型属性迁移系统,根据以上所述的基于深度自适应的发型属性迁移方法;用户输入一张人脸图像与一张发型参考图像,系统调用深度自适应对齐模块对齐输入图像的深度,通过在图像的潜在特征空间编辑属性特征,最后通过生成网络输出目标图像,得到包含人脸图像身份特征、发型参考图像发型特征的目标图像。
[0046]
与现有技术相比,本发明及其优选方案的主要设计点和优势包括:
[0047]
1、在目前基于潜在编码对发型属性编辑的前提下提出了深度自适应算法,通过单目测距的人脸深度约束输入的人脸图像之间的深度差,有利于发型属性编辑任务的合成效果;
[0048]
2、在隐码获取方式上采用编码器与反向迭代的混合方法,基于编码器的方法得到的隐码往往比反向迭代的lpips更高,通过迭代的方法又需要大量计算,耗费时间,因此本发明提出混合方法,节省时间效率的同时得到最优隐码。
附图说明
[0049]
下面结合附图和具体实施方式对本发明进一步详细的说明:
[0050]
图1为本发明实施例的深度自适应方法流程示意图。
[0051]
图2为本发明实施例快速发型编辑模块流程示意图。
[0052]
图3为本发明实施例的发型属性迁移示意图。
具体实施方式
[0053]
为让本专利的特征和优点能更明显易懂,下文特举实施例,作详细说明如下:
[0054]
应该指出,以下详细说明都是例示性的,旨在对本技术提供进一步的说明。除非另有指明,本说明书使用的所有技术和科学术语具有与本技术所属技术领域的普通技术人员通常理解的相同含义。
[0055]
需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本技术的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合。
[0056]
如图1-图3所示,本实施例提供了一种基于深度自适应对齐的发型属性编辑方法,具体包括以下步骤:
[0057]
s1、通过人脸单目测距算法估计输入图像{i1,i2}的估计深度差
[0058]
s2、通过人脸关键点检测模型rcpr检测待调整图像的68个人脸关键点pn;
[0059]
s3、通过深度差与人脸关键点pn计算面部基准点c与偏移量l=(x,y);
[0060]
s4、通过面部基准点c与偏移量l=(x,y)对齐人脸深度;
[0061]
s5、通过快速发型属性编辑模块编辑输入图像的发型,输出目标图像的潜在编码c
blend

[0062]
s6、通过styleganv2生成器将目标图像的潜在编码c
blend
映射到图像域得到目标图像i。
[0063]
作为优选,在本实施例中,通过人脸单目测距算法估计输入图像{i1,i2}的估计深度差的步骤具体为:使用预训练的人脸检测模型rfbnet定位i1,i2两图中的人脸位置,并记录人脸框大小[w
face
,h
face
];
[0064]
通过人脸单目测距算法估计输入图像{i1,i2}的估计深度差通过三角测距原理估计深度值,根据相似三角形原理,式中x为人脸成像宽度,w为人脸实际宽度,d为相机焦距,解方程即可得人脸深度估计值:
[0065][0066]
则由此可以直接求得输入图像的估计深度差为对于深度对齐方向,调整深度更深的图像。
[0067]
作为优选,在本实施例中,通过人脸关键点检测模型rcpr检测待调整图像的68个人脸关键点pn的步骤具体为:将待处理图像输入到预训练的rcpr模型中,输出人脸的68个关键点位置矩阵;
[0068]
对于68个人脸关键点pn,其中更关注人脸的眼睛、嘴巴的24个关键点;
[0069]
进一步地,通过深度差与人脸关键点pn计算面部基准点c与偏移量l=(x,y)的步骤具体为:首先根据以下公式计算两眼和嘴巴的关键点平均位置,即:
[0070][0071]
其中与分别为左、右眼6个关键点的平均值,即以平均值为眼睛的关键点,为12个嘴巴关键点的平均值,表示两眼的中心点位置;
[0072]
使用向量表示从右眼到左眼的连线,表示从嘴巴到眼睛中心点的连线,根据两眼的中心点位置与眼嘴向量得到基准点c的预估位置:
[0073][0074]
根据基准点c与发型高度h计算最佳人脸对齐框的位置,其中发型高度h通过预训练的语义分割网络得到,定义point
hair
=max(segment(z)),其中segment为训练好的人脸
语义分割模型bisenet,z为输入图像;
[0075]
定义归一化尺度:
[0076][0077]
此时,可以计算出偏移量
[0078]
作为优选,在本实施例中,由于主要的应用场景下输入为正方形,因此规定为基准点偏移量。
[0079]
通过面部基准点c与偏移量l=(x,y)对齐人脸深度的具体步骤为:通过坐标从源图像中提取出人脸区域,即提取处于范围内的图像信息;
[0080]
由于计算的基准偏移量可能大于图像坐标,因此当图像存在边缘空洞时,可以通过线性插值的方法填充空洞。
[0081]
作为优选,在本实施例中,通过快速发型属性编辑模块编辑输入图像的发型,输出目标图像的潜在编码c
blend
的具体步骤为:将输入图像组{i1,i2}通过快速图像嵌入算法投影到styleganv2的fs潜在空间中;
[0082]
其中,先通过预训练的编码器先将图像编码到styleganv2的w 潜在空间,再通过反算迭代优化的方法将图像映射到fs潜在空间,用于后续的潜码编辑,即:
[0083][0084]
其中lf为优化后的结构张量f和初始化的的2-范数以此保证最终的fs潜码表现接近stylegan潜在空间的有效区域;
[0085]
对于每组输入图像的潜在编码通过输入图像的语义分割图来约束发型属性特征的编辑;
[0086]
对于输入图像,使用预训练的bisenet获取图像的语义分割图,对于输入的两张图像,分别得到语义分割图m1,m2。
[0087]
通过人像语义分割后的语义图重新组合得到目标图像语义图m,m的人脸和背景对应输入图像i1的语义图m1,、头发形状对应输入图像i2的语义图m2。
[0088]
进一步地,由于每一张人脸图像的朝向、头型的不同,会出现很多错位、空洞情况,为解决这个问题通过膨胀操作将发型或人脸掩码膨胀,直到填充上空洞或错位;
[0089]
在本实施例中,通过latent edit模块微调图像嵌入模块输出的输入图像潜码,并以目标图像语义分割图m为约束条件,使用样式损失函数style loss来保证微调后的潜码和图像潜码相似;
[0090]
进一步地,定义其中为vgg网络第l层的激活图,k为雅各比矩阵,同时定义ik(z)=segment(z)|k为目标图像z的k语义区域图,则样式损失l
style
的计算公
式如下所示:
[0091][0092]
式中ik(zk)

zk将除了k区域以外的部分全部置零。
[0093]
进一步地,通过语义分割αk提取对应的潜在编码,将潜码混合生成目标潜码c
blend
。对于c
blend
,希望找到一组权重矩阵μk使得通过在∑kμk=1andμk》0的条件下迭代优化lpips实现潜码融合,即:
[0094][0095]
其中,是vgg模型第l层输出的激活图,并进行了归一化。
[0096]
在本实施例中,通过styleganv2生成器将目标图像的潜在编码c
blend
映射到图像域得到目标图像i的具体步骤为:通过预训练好的styleganv2的生成器将潜码重建成图像,得到发型编辑后的目标图像。
[0097]
本领域内的技术人员应明白,本技术的实施例可提供为方法、系统、或计算机程序产品。因此,本技术可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本技术可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd-rom、光学存储器等)上实施的计算机程序产品的形式。
[0098]
本技术是参照根据本技术实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
[0099]
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
[0100]
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
[0101]
以上所述,仅是本发明的较佳实施例而已,并非是对本发明作其它形式的限制,任何熟悉本专业的技术人员可能利用上述揭示的技术内容加以变更或改型为等同变化的等效实施例。但是凡是未脱离本发明技术方案内容,依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化与改型,仍属于本发明技术方案的保护范围。
[0102]
本专利不局限于上述最佳实施方式,任何人在本专利的启示下都可以得出其它各种形式的基于深度自适应的发型属性迁移方法及系统,凡依本发明申请专利范围所做的均
等变化与修饰,皆应属本专利的涵盖范围。
再多了解一些

本文用于创业者技术爱好者查询,仅供学习研究,如用于商业用途,请联系技术所有人。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献