图像处理方法、装置、电子设备以及存储介质与流程

2022-04-25 05:10:24 来源：中国专利 TAG：

1.本公开涉及人工智能技术领域，具体为深度学习、计算机视觉技术领域，可应用于图像处理等场景，尤其涉及一种图像处理方法、装置、电子设备以及存储介质。

背景技术：

2.目前，采用神经网络对面部中的目标部位进行优化处理时，需要通过大量的优化处理前的图像和优化处理后的图像对神经网络进行训练，但是，针对于目标部位进行优化处理的图像数量较少，导致训练得到的神经网络效果较差。

技术实现要素：

3.本公开提供了一种图像处理方法、装置、电子设备以及存储介质，以至少解决相关技术中的神经网络对人脸图像中目标部位进行优化处理的效果较差的技术问题。
4.根据本公开的一方面，提供了一种图像处理方法，其中，包括：获取目标人脸图像，其中，目标人脸图像至少包括目标部位；利用目标神经网络对目标人脸图像中的目标部位进行处理，生成目标处理结果；其中，目标神经网络使用多组图像通过机器训练得到，每组图像包括如下至少之一：第一类样本图像和第二类样本图像，第一类样本图像由第一源样本图像和对第一源样本图像进行优化处理后的目标样本图像组成，第二类样本图像由第一源样本图像和对第二源样本图像进行优化处理后的目标样本图像组成。
5.可选地，利用目标神经网络对目标人脸图像中的目标部位进行处理，生成目标处理结果，包括：利用目标神经网络对目标人脸图像进行注意力处理，得到注意力图像，其中，注意力图像中目标部位所处区域的权重值大于预设值；基于注意力图像对目标人脸图像中的目标部位进行处理，生成目标处理结果。
6.可选地，该方法还包括：利用第一类样本图像对多个预设神经网络进行训练，得到训练结果；基于训练结果对多个预设神经网络进行筛选，得到初始神经网络；基于第一类样本图像和第二类样本图像对初始神经网络进行训练，得到目标神经网络。
7.可选地，基于第一类样本图像和第二类样本图像对初始神经网络进行训练，得到目标神经网络，包括：利用初始神经网络对第一类样本图像和第二类样本图像进行注意力处理，得到多组注意力训练图像，其中，第一类样本图像和第二类样本图像中的目标部位包含有预设检测框，多组注意力训练图像中的目标部位包含有训练检测框；基于预设检测框和训练检测框，生成第一损失函数；基于第一损失函数对初始神经网络的模型参数进行调整，得到目标神经网络。
8.可选地，在基于预设检测框和训练检测框，生成第一损失函数之后，该方法还包括：基于多组注意力训练图像对第一类样本图像和第二类样本图像进行处理，输出目标训练图像；基于第一类样本图像、第二类样本图像和目标训练图像，生成第二损失函数；基于第一损失函数和第二损失函数对初始神经网络的模型参数进行调整，得到目标神经网络。
9.可选地，该方法还包括：获取目标样本图像；对目标样本图像进行三角剖分处理，
得到至少一个第一源样本图像；对目标样本图像和至少一个第一源样本图像进行配对处理，得到第一类样本图像。
10.可选地，对目标样本图像和至少一个第一源样本图像进行配对处理，得到第一类样本图像，包括：对目标样本图像和至少一个第一源样本图像进行配对处理，得到初始训练图像；对初始训练图像进行增强处理，得到第一类样本图像。
11.可选地，在对目标样本图像进行三角剖分处理，得到至少一个第一源样本图像之后，该方法还包括：对至少一个第一源样本图像进行增强处理，得到至少一个第三源样本图像；对目标样本图像和至少一个第三源样本图像进行配对处理，得到第一类样本图像。
12.根据本公开的第二方面，提供了一种图像处理装置，其中，包括：获取模块，用于获取目标人脸图像，其中，目标人脸图像至少包括目标部位；处理模块，用于利用目标神经网络对目标人脸图像中的目标部位进行处理，生成目标处理结果；其中，目标神经网络使用多组图像通过机器训练得到，每组图像包括如下至少之一：第一类样本图像和第二类样本图像，第一类样本图像由第一源样本图像和对第一源样本图像进行优化处理后的目标样本图像组成，第二类样本图像由第一源样本图像和对第二源样本图像进行优化处理后的目标样本图像组成。
13.可选地，处理模块，包括：第一注意力处理单元，用于利用目标神经网络对目标人脸图像进行注意力处理，得到注意力图像，其中，注意力图像中目标部位所处区域的权重值大于预设值；目标部位处理单元，用于基于注意力图像对目标人脸图像中的目标部位进行处理，生成目标处理结果。
14.可选地，该装置还包括：第一训练模块，用于利用第一类样本图像对多个预设神经网络进行训练，得到训练结果；筛选模块，用于基于训练结果对多个预设神经网络进行筛选，得到初始神经网络；第二训练模块，用于基于第一类样本图像和第二类样本图像对初始神经网络进行训练，得到目标神经网络。
15.可选地，第二训练模块，包括：第二注意力处理单元，用于利用初始神经网络对第一类样本图像和第二类样本图像进行注意力处理，得到多组注意力训练图像，其中，第一类样本图像和第二类样本图像中的目标部位包含有预设检测框，多组注意力训练图像中的目标部位包含有训练检测框；第一损失函数生成单元，用于基于预设检测框和训练检测框，生成第一损失函数；第一调整单元，用于基于第一损失函数对初始神经网络的模型参数进行调整，得到目标神经网络。
16.可选地，第二训练模块还包括：处理单元，用于基于多组注意力训练图像对第一类样本图像和第二类样本图像进行处理，输出目标训练图像；第二损失函数生成单元，用于基于第一类样本图像、第二类样本图像和目标训练图像，生成第二损失函数；第二调整单元，用于基于第一损失函数和第二损失函数对初始神经网络的模型参数进行调整，得到目标神经网络。
17.可选地，该装置还包括：获取模块还用于获取目标样本图像；处理模块还用于对目标样本图像进行三角剖分处理，得到至少一个第一源样本图像；配对模块，用于对目标样本图像和至少一个第一源样本图像进行配对处理，得到第一类样本图像。
18.可选地，配对模块，包括：配对单元，用于对目标样本图像和至少一个第一源样本图像进行配对处理，得到初始训练图像；增强处理单元，用于对初始训练图像进行增强处
理，得到第一类样本图像。
19.可选地，该装置还包括：增强处理模块，用于对至少一个第一源样本图像进行增强处理，得到至少一个第三源样本图像；配对模块还用于对目标样本图像和至少一个第三源样本图像进行配对处理，得到第一类样本图像。
20.根据本公开实施例的第三方面，还提供了一种电子设备，包括：至少一个处理器；以及与至少一个处理器通信连接的存储器；其中，存储器存储有可被至少一个处理器执行的指令，指令被至少一个处理器执行，以使至少一个处理器能够执行上述实施例中任意一项图像处理方法。
21.根据本公开实施例的第四方面，还提供了一种计算机可读存储介质，计算机可读存储介质包括存储的程序，其中，在程序运行时控制计算机可读存储介质所在设备执行上述实施例中任意一项图像处理方法。
22.根据本公开实施例的第五方面，提供了一种计算机程序产品，包括计算机程序，计算机程序在被处理器执行上述实施例中任意一项图像处理方法。
23.在本公开的实施中，首先可以获取目标人脸图像，其中，目标人脸图像至少包括目标部位；可以利用目标神经网络对目标人脸图像中的目标部位进行处理，生成目标处理结果，其中，目标神经网络可以使用多组图像通过机器训练得到，每组图像包括如下至少之一：第一类样本图像和第二类样本图像，第一类样本图像由第一源样本图像和第一源样本图像进行优化处理后的目标样本图像组成，第二类样本图像由第一源样本图像和第二源样本图像进行优化处理后的目标样本图像组成，采用第一类样本图像和第二类样本图像可以提高用于训练的样本图像的数量，从而可以训练得到精确度较高的目标神经网络，因此，利用该目标神经网络对目标人脸图像中的目标部位进行处理，可以得到精确度较高的目标处理结果，从而解决了相关技术中的神经网络对人脸图像中目标部位进行优化处理的效果较差的技术问题。
24.应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
25.附图用于更好地理解本公开，不构成对本公开的限定。其中：
26.图1是根据本公开实施例的一种用于实现图像处理方法的计算机终端(或移动设备)的硬件结构框图；
27.图2是根据本公开第一实施例的一种图像处理方法流程图；
28.图3是根据本公开实施例的一种生成器的结构示意图；
29.图4是根据本公开实施例的一种注意力机制的示意图；
30.图5是根据本公开实施例的一种牙齿图像的比对图；
31.图6是根据本公开实施例的一种牙齿图像美化模型的训练框架图；
32.图7是根据本公开第二实施例的一种图像处理方法流程图；
33.图8是根据本公开第三实施例的一种图像处理方法流程图；
34.图9是根据本公开实施例的一种对图像进行三角剖分处理的前后对比图；
35.图10是根据本公开实施例的一种对图像进行随机掩膜和高斯模糊处理的前后对
比图；
36.图11是根据本公开实施例的一种对图像优化处理的前后对比图；
37.图12是根据本公开实施例的一种图像处理装置的结构框图。
具体实施方式
38.以下结合附图对本公开的示范性实施例做出说明，其中包括本公开实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本公开的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。
39.需要说明的是，本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
40.目前，牙齿图像美化任务通常需要大量数据进行训练。训练数据的质量和数量都会显著的影响处理的效果，从而进一步影响牙齿的逼真程度和美观度。现有的人脸公开数据集对牙齿的展露程度通常较小，同时几乎没有牙齿美化前后的成对图像，同时，一个可在实际生产环境中部署的用于进行牙齿美化的目标神经网络需要大量的高质量数据，然而大量高质量数据采集成本极大。一方面需要牙齿美化前后成对图像的高质量数据源，同时要求类型覆盖较为完整；一方面此类数据的采集难度较高，且很难获得大规模数据。
41.根据本公开实施例，提供了一种图像处理方法，需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。
42.本公开实施例所提供的方法实施例可以在移动终端、计算机终端或者类似的电子设备中执行。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。图1示出了一种用于实现图像处理方法的计算机终端(或移动设备)的硬件结构框图。
43.如图1所示，计算机终端100包括计算单元101，其可以根据存储在只读存储器(rom)102中的计算机程序或者从存储单元108加载到随机访问存储器(ram)103中的计算机程序，来执行各种适当的动作和处理。在ram 103中，还可存储计算机终端100操作所需的各种程序和数据。计算单元101、rom 102以及ram 103通过总线104彼此相连。输入/输出(i/o)接口105也连接至总线104。
44.计算机终端100中的多个部件连接至i/o接口105，包括：输入单元106，例如键盘、鼠标等；输出单元107，例如各种类型的显示器、扬声器等；存储单元108，例如磁盘、光盘等；
以及通信单元109，例如网卡、调制解调器、无线通信收发机等。通信单元109允许计算机终端100通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
45.计算单元101可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元101的一些示例包括但不限于中央处理单元(cpu)、图形处理单元(gpu)、各种专用的人工智能(ai)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(dsp)、以及任何适当的处理器、控制器、微控制器等。计算单元101执行本文所描述的图像处理方法。例如，在一些实施例中，图像处理方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元108。在一些实施例中，计算机程序的部分或者全部可以经由rom 102和/或通信单元109而被载入和/或安装到计算机终端100上。当计算机程序加载到ram 103并由计算单元101执行时，可以执行本文描述的图像处理方法的一个或多个步骤。备选地，在其他实施例中，计算单元101可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行图像处理方法。
46.本文中描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(fpga)、专用集成电路(asic)、专用标准产品(assp)、芯片上系统的系统(soc)、负载可编程逻辑设备(cpld)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
47.此处需要说明的是，在一些可选实施例中，上述图1所示的电子设备可以包括硬件元件(包括电路)、软件元件(包括存储在计算机可读介质上的计算机代码)、或硬件元件和软件元件两者的结合。应当指出的是，图1仅为特定具体实例的一个实例，并且旨在示出可存在于上述电子设备中的部件的类型。
48.在上述运行环境下，本公开提供了如图2所示的图像处理方法，该方法可以由图1所示的计算机终端或者类似的电子设备执行。图2是根据本公开实施例提供的一种图像处理方法流程图。如图2所示，该方法可以包括如下步骤：
49.步骤s201，获取目标人脸图像。
50.其中，目标人脸图像至少包括目标部位。
51.上述的目标人脸图像可以为待美化目标部位的人脸图像。
52.上述的目标部位可以为牙齿、发际线、眼皮、待整容部位等。
53.在一种可选的实施例中，若用户需要对目标人脸图像中的目标部位进行美化，则可以将目标人脸图像输入至目标神经网络中，以便目标神经网络可以对目标人脸图像中的目标部位进行美化，使得目标人脸图像中的目标部位可以达到用户的期望。
54.上述目标人脸图像中的牙齿可以为牙齿颜色较深、牙齿不整齐，通过对目标人脸图像中的牙齿进行美化处理，可以使目标人脸图像中的牙齿变得更加的洁白和整齐。
55.上述目标人脸图像中的发际线可以为稀少，通过对目标人脸图像中的发际线进行美化处理，可以使目标人脸图像中的发际线更加的浓密和蓬松。
56.上述的目标人脸图像中的眼皮可以为单眼皮，通过对目标人脸图像中的单眼皮进
行美化处理，可以使目标人脸图像中的单眼皮变成双眼皮。
57.步骤s202，利用目标神经网络对目标人脸图像中的目标部位进行处理，生成目标处理结果。
58.其中，目标神经网络使用多组图像通过机器训练得到，每组图像包括如下至少之一：第一类样本图像和第二类样本图像，第一类样本图像由第一源样本图像和对第一源样本图像进行优化处理后的目标样本图像组成，第二类样本图像由第一源样本图像和对第二源样本图像进行优化处理后的目标样本图像组成。
59.上述的第一类样本图像可以由成对的图像配对所得。上述的第二类样本图像可以由不成对的图像配对所得。上述的第一类样本图像和第二类样本图像都是由优化前图像和优化后的图像组合得到的。
60.在一种可选的实施例中，第一源样本图像可以为是没有经过优化处理的样本图像，可以对第一源样本图像进行优化处理，得到目标样本图像，将第一源样本图像与目标样本图像进行配对，得到上述的第一类样本图像。第二源样本图像可以为除第一源样本图像之外的其他源样本图像，可以得到第二源样本图像进行优化处理后的目标样本图像，并将该目标样本图像与第一源样本图像进行配对处理，得到上述的第二类样本图像。
61.在另一种可选的实施例中，由于第一类样本图像中的图像为成对的图像，因此，可以先利用第一类样本图像训练得到上述的目标神经网络，使得目标神经网络的精确度较高，为了进一步来提高目标神经网络的精确度以及降低模型的过拟合，可以使用不成对的第二类样本图像对目标神经网络的模型参数进行调整，以便进一步地提高模型的精确度，防止出现过拟合。
62.可选地，利用目标神经网络对目标人脸图像中的目标部位进行处理，生成目标处理结果，包括：利用目标神经网络对目标人脸图像进行注意力处理，得到注意力图像，其中，注意力图像中目标部位所处区域的权重值大于预设值；基于注意力图像对目标人脸图像中的目标部位进行处理，生成目标处理结果。
63.在一种可选的实施例中，可以利用目标神经网络中的注意力层对目标人脸图像进行注意力处理，将注意力集中至目标人脸图像中的目标部位，得到注意力图像，具体的，可以根据目标人脸图像中每个像素点的权重值来将注意力集中至目标人脸图像中的目标部位，可以将权重值大于预设值的像素点颜色加深，将权重值小于预设值的像素点颜色降低，从而得到聚焦于目标部位的注意力图。
64.进一步地，可以根据注意力图在处理的过程中可以针对于目标人脸图像中与注意力图对应的区域进行处理，也即，对目标人脸图像中目标部位所在的区域进行处理，从而得到精确度较高的而目标处理结果。
65.在一种可选的实施例中，上述的目标神经网络可以为gan网络的pix2pixhd，pix2pixhd的生成器结构如图3所示，可以先将目标人脸图像输入至目标神经网络中，对目标人脸图像进行下采样，经过若干个残差单元后，再进行上采样，然后逐步恢复至输入时目标人脸图像的大小，得到输出图像，由于是对于整张图像同时进行操作，会导致目标神经网络在一定程度上难以聚焦到目标部位所在的区域，因此，可以在pix2pixhd的基础上增加自学习的注意力机制，该机制使得输出图像在目标部位之外的其他区域几乎不会发生变化，而在目标部位可以进行自适应的学习，使得目标神经网络可以聚焦到目标部位所在的区
域，从而提高目标处理结果的精确度。
66.上述的注意力机制的示意图如图4所示，可以通过图4所示的注意力机制将注意力都集中于目标人脸图像中的目标部位，以便针对于人脸图像中的目标部位进行优化，避免对除目标部位所在区域之外的其他区域产生影响，可以提高对目标部位的优化效果。
67.如图5所示为美化前的牙齿图像(a)、美化后的牙齿图像(b)以及牙齿部位对应的注意力图(c)。可以将注意力机制加入到将该注意力机制加入到pix2pixhd网络结构中，通过可视化注意力图(attention map)可以发现，网络的注意力聚焦到了牙齿区域，并在牙齿光泽点和牙列边缘等处具有更高的权重，可视化效果如图5中的(c)所示，其中注意力图中颜色越深的区域表示注意力权重越高。
68.通过上述步骤，首先，可以获取目标人脸图像，其中，目标人脸图像至少包括目标部位；可以利用目标神经网络对目标人脸图像中的目标部位进行处理，生成目标处理结果，其中，目标神经网络可以使用多组图像通过机器训练得到，每组图像包括如下至少之一：第一类样本图像和第二类样本图像，第一类样本图像由第一源样本图像和第一源样本图像进行优化处理后的目标样本图像组成，第二类样本图像由第一源样本图像和第二源样本图像进行优化处理后的目标样本图像组成，采用第一类样本图像和第二类样本图像可以提高用于训练的样本图像的数量，从而可以训练得到精确度较高的目标神经网络，因此，利用该目标神经网络对目标人脸图像中的目标部位进行处理，可以得到精确度较高的目标处理结果，从而解决了相关技术中由于训练数据较少导致目标神经网络的精确度较低的技术问题。
69.可选地，该方法还包括：获取目标样本图像；对目标样本图像进行三角剖分处理，得到至少一个第一源样本图像；对目标样本图像和至少一个第一源样本图像进行配对处理，得到第一类样本图像。
70.上述的目标神经网络可以为牙齿图像美化模型，上述的目标部位可以为牙齿部位，如图6所示为牙齿图像美化模型的训练框架图，首先可以对原始成对数据进行三角剖分以增强数据，还可以通过对原始成对数据进行掩膜和高斯模糊的方式以达到增强数据的目的，还可以通过对原始成对数据的位置和色彩进行处理以达到增强数据的目的，在第一阶段训练数据的过程中，可以通过增强后的数据对应的训练集训练多个牙齿美化预训练模型，根据训练结果从多个牙齿美化预训练模型中选择出训练效果较好的牙齿美化预训练模型，然后再将不成对数据加入训练集中，并根据训练结果调整该牙齿美化预训练模型的模型参数，得到牙齿图像美化模型，也即上述的目标神经网络。
71.图7是根据本公开第二实施例的一种图像处理方法的流程图，如图7所示，该方法包括如下步骤：
72.步骤s701，利用第一类样本图像对多个预设神经网络进行训练，得到训练结果。
73.步骤s702，基于训练结果对多个预设神经网络进行筛选，得到初始神经网络。
74.步骤s703，基于第一类样本图像和第二类样本图像对初始神经网络进行训练，得到目标神经网络。
75.在一种可选的实施例中，目标神经网络的训练过程可以分为两个阶段，在第一阶段的训练过程中，为了确保后续神经网络的准确性和稳定性，可以先采用成对的第一类样本图像对多个预设神经网络进行训练，得到训练结果，其中，训练结果可以用于表示多个预
设神经网络中每个预设神经网络的精确度，可以根据训练结果对多个预设神经网络进行筛选，得到多个预设神经网络中精确度较高的神经网络作为初始神经网络。
76.进一步地，在确定初始神经网络之后，可以根据第一类样本图像和第二类样本图像对初始神经网络进行混合训练，调整初始神经网络的模型参数，从而得到精确度更高的目标神经网络。
77.可选地，基于第一类样本图像和第二类样本图像对初始神经网络进行训练，得到目标神经网络，包括：利用初始神经网络对第一类样本图像和第二类样本图像进行注意力处理，得到多组注意力训练图像，其中，第一类样本图像和第二类样本图像中的目标部位包含有预设检测框，多组注意力训练图像中的目标部位包含有训练检测框；基于预设检测框和训练检测框，生成第一损失函数；基于第一损失函数对初始神经网络的模型参数进行调整，得到目标神经网络。
78.上述的预设检测框可以是对第一类样本图像和第二类样本图像中的目标部位预先标注的检测框。
79.上述的训练检测框可以是利用初始神经网络对第一类样本图像和第二类样本图像进行注意力处理之后，在目标部位标注的检测框。
80.在一种可选的实施例中，在对初始神经网络进行训练的过程中，可以先利用初始神经网络对第一类样本图像和第二类样本图像进行注意力处理，以便将网络的注意力聚焦到图像中的目标部位，得到多组注意力训练图像，通过比对第一类样本图像和第二类样本图像中的目标部位包含的预设检测框和训练检测框，可以得到第一损失函数，通过第一损失函数可以对初始神经网络的模型参数进行调整，使得到的目标神经网络在对图像中的目标部位进行处理时，可以避免对除目标部位所在区域的其他区域进行处理，达到对图像中目标部位精准处理的效果，提高目标神经网络的处理精确度。
81.可选地，在基于预设检测框和训练检测框，生成第一损失函数之后，该方法还包括：基于多组注意力训练图像对第一类样本图像和第二类样本图像进行处理，输出目标训练图像；基于第一类样本图像、第二类样本图像和目标训练图像，生成第二损失函数；基于第一损失函数和第二损失函数对初始神经网络的模型参数进行调整，得到目标神经网络。
82.在一种可选的实施例中，可以基于多组注意图像对第一类样本图像和第二类样本图像中的第一源样本图像进行优化处理，输出目标训练图像，可以根据第一类样本图像和第二类样本图像中优化处理后的目标样本图像和目标训练图像得到上述的第二损失函数，基于第一损失函数和第二损失函数和对初始神经网络的模型参数进行调整，使得到的目标神经网络能够针对于图像中的目标部位进行针对性的优化，从而可以达到优化图像中目标部位的目的，得到精确度较高的目标神经网络。
83.步骤s704，获取目标人脸图像。
84.其中，目标人脸图像至少包括目标部位。
85.步骤s705，利用目标神经网络对目标人脸图像中的目标部位进行处理，生成目标处理结果。
86.其中，目标神经网络使用多组图像通过机器训练得到，每组图像包括如下至少之一：第一类样本图像和第二类样本图像，第一类样本图像由第一源样本图像和对第一源样本图像进行优化处理后的目标样本图像组成，第二类样本图像由第一源样本图像和对第二
源样本图像进行优化处理后的目标样本图像组成。
87.图8是根据本公开第三实施例的一种图像处理方法的流程图，如图8所示，该方法包括如下步骤：
88.步骤s801，获取目标样本图像。
89.步骤s802，对目标样本图像进行三角剖分处理，得到至少一个第一源样本图像。
90.上述的目标样本图像可以为一个或多个。
91.在一种可选的实施例中，可以获取优化处理之后的目标样本图像，可以对目标样本图像进行三角剖分处理，得到至少一个第一源样本图像，达到增强样本图像数量的目的，可以在得到至少一个第一源样本图像之后，对第一源样本图像和与该第一源样本图像对应的目标样本图像进行配对处理，得到第一类样本图像，其中，第一类样本图像前包括增强处理后的第一源样本图像和目标样本图像。
92.在另一种可选的实施例中，可以对目标样本图像进行随机掩膜或高斯模糊，得到上述的至少一个第一源样本图像，以达到增强样本图像数量的目的。
93.如图9所示为三角剖分处理前的目标样本图像和三角剖分处理后的第一源样本图像示意图。如图9左所示为三角剖分处理之前的图像，也即上述的目标样本图像，如图9右所示为三角剖分处理之后的图像，也即上述的第一源样本图像。
94.可选地，在对目标样本图像进行三角剖分处理，得到至少一个第一源样本图像之后，该方法还包括：对至少一个第一源样本图像进行增强处理，得到至少一个第三源样本图像；对目标样本图像和至少一个第三源样本图像进行配对处理，得到第一类样本图像。
95.在一种可选的实施例中，在获取到至少一个第一源样本图像后，由于第一源样本图像为优化前的图像，因此，可以对第一源样本图像的目标部位设置随机形状的掩膜或者对目标部位进行高斯模糊处理，以实现对第一源样本图像的数据增强，得到上述的至少一个第三源样本图像，在对目标样本图像和至少一个第三源样本图像进行配对处理的过程中，由于第三源样本图像是在第一源样本图像的基础上获取的，因此，可以根据第三源样本图像对应的第一源样本图像之间的关系与目标样本图像进行配对处理，得到第一类样本图像，从而达到数据增强的目的，进而可以提高目标神经网络的准确度。
96.如图10所示为对图像进行随机掩膜和高斯模糊处理的前后对比图，如图10(a)的左图所示为对人脸中牙齿部位进行随机掩膜得到的图像，也即上述的第三源样本图像，如图10(a)的右图所示为与第三源样本图像对应的目标样本图像；如图10(b)的左图所示为对人脸中牙齿部位进行高斯模糊得到的图像，也即上述的第三源样本图像，如图10(b)的右图所示为与第三源样本图像对应的目标样本图像。
97.步骤s803，对目标样本图像和至少一个第一源样本图像进行配对处理，得到第一类样本图像。
98.可选地，对目标样本图像和至少一个第一源样本图像进行配对处理，得到第一类样本图像，包括：对目标样本图像和至少一个第一源样本图像进行配对处理，得到初始训练图像；对初始训练图像进行增强处理，得到第一类样本图像。
99.在一种可选的实施例中，可以对目标样本图像和至少一个第一源样本图像进行配对处理，得到初始训练图像，为了进一步提高用于训练的图像的数量，可以对初始训练图像进行增强处理，具体的，可以对初始训练图像进行随机旋转、镜像、小范围的色彩抖动等方
式作为数据增强的方法，得到增强处理后的第一类样本图像。
100.通过上述步骤，可以增强用于训练的图像的数量，从而可以提高目标神经网络的精确度。
101.步骤s804，利用第一类样本图像对多个预设神经网络进行训练，得到训练结果。
102.步骤s805，基于训练结果对多个预设神经网络进行筛选，得到初始神经网络。
103.步骤s806，基于第一类样本图像和第二类样本图像对初始神经网络进行训练，得到目标神经网络。
104.步骤s807，获取目标人脸图像。
105.其中，目标人脸图像至少包括目标部位。
106.步骤s808，利用目标神经网络对目标人脸图像中的目标部位进行处理，生成目标处理结果。
107.下面对该实施例的上述方法进一步介绍，本公开的整体框架图如图6所示，首先，可以建立8000套左右的牙齿美化前后对比图像真实数据库，并采用基于三角剖分的方法制造一些虚拟的牙齿美化前的图像，并进行数据增强；然后采用前面步骤得到的增强后的图片进行初步的模型训练。将训练得到的训练效果较好的模型作为预训练模型，用于后续的模型训练；最后采用前面两个步骤得到的增强后的图片以及预训练模型，再加入2000组不成对图像对模型参数进行调整，得到牙齿图像美化模型。
108.对于模型的训练过程，具体包括：数据预处理步骤，训练框架搭建过程以及牙齿图像美化模型训练的三个步骤。
109.a)数据预处理步骤：建立8000套左右的牙齿美化前后对比图像真实数据库，包括生理信息、牙齿形态、牙齿展露程度等各项特征。由于自建数据集规模有限，可以采用三角剖分方法制造部分虚拟的牙齿美化前的图像，不改变面部其它特征，仅对口内区域进行变换，有效丰富了美化前的牙齿状态分布，原图和三角剖分处理的对比效果例如图9所示。接下来，通过在可控范围内于口部随机设置任意形状掩膜或对口内区域进行高斯模糊处理的方式，对美化前图像进行数据增强，并将该图像对应的美化后图像依然作为配对图像，这两种数据增强效果例如图10所示。此后，对这些成对数据进行进一步的数据增强，这里选择随机旋转、镜像以及小范围的色彩抖动作为本发明的数据增强方法，得到数据增强后的所有成对图像作为训练数据。
110.b)训练框架搭建步骤：牙齿图像美化属于图像生成任务，本发明采用基于gan网络的pix2pixhd作为基本训练框架，pix2pixhd的生成器结构如图3所示。由图可知，该网络结构会先对输入图像进行下采样，经过若干个残差单元后，再进行上采样，逐步恢复到输入图像的大小，生成输出图像。由于是整张图像同时进行操作，会导致网络在一定程度上难以聚焦到重点区域。因此，本发明在该网络结构的基础上，增加了自学习的注意力机制，该机制使得输出图像在口部以外的区域几乎不会发生变化，而口内区域会进行自适应的学习，使得模型聚焦到口内重点区域，该注意力机制来源于ganimation网络结构，示意图如图4所示。将该注意力机制加入到pix2pixhd网络结构中，通过可视化注意力图(attention map)可以发现，网络的注意力聚焦到了牙齿区域，并在牙齿光泽点和牙列边缘等处具有更高的权重，可视化效果如图5所示，其中注意力图中颜色越深的区域表示注意力权重越高。
111.c)模型训练步骤：首先，采用上述步骤得到的增强后的成对数据，基于上述模型结
构进行牙齿图像美化训练，筛选出训练得到的最佳模型，作为第二阶段训练的预训练模型。随后，在训练集中加入2000组不成对图像，将所有数据作为新的训练集，进行成对不成对图像的混合训练，finetune过程的网络结构和第一阶段保持一致。经过这样的两个步骤，牙齿图像美化模型训练完成，最终模型端到端效果例如图11所示，左图为优化前的牙齿，右图为优化后的牙齿。
112.通过上述步骤，可以采用少量的样本提高模型的精确度，该过程节约成本，不需要大量的成对牙齿美化数据，可以大幅节省数据采集的成本，训练过程简单，模型的参数量较少，计算量不高，模型的部署和调用效率较高，基于三角剖分等方法得到的增强后的数据泛化性较好，同时该方法生成的牙齿美化后效果的美观度和逼真程度都较高。
113.本公开的技术方案中，所涉及的用户个人信息的收集、存储、使用、加工、传输、提供和公开等处理，均符合相关法律法规的规定，且不违背公序良俗。
114.通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本公开的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，或者网络设备等)执行本公开各个实施例的方法。
115.在本公开中还提供了一种图像处理装置，该装置用于实现上述实施例及优选实施方式，已经进行过说明的不再赘述。如以下所使用的，术语“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现，但是硬件，或者软件和硬件的组合的实现也是可能并被构想的。
116.图12是根据本公开其中一实施例的一种图像处理装置的结构框图，如图12所示，一种图像处理装置1200包括：获取模块1202，处理模块1204。
117.获取模块，用于获取目标人脸图像，其中，目标人脸图像至少包括目标部位；
118.处理模块，用于利用目标神经网络对目标人脸图像中的目标部位进行处理，生成目标处理结果；
119.其中，目标神经网络使用多组图像通过机器训练得到，每组图像包括如下至少之一：第一类样本图像和第二类样本图像，第一类样本图像由第一源样本图像和对第一源样本图像进行优化处理后的目标样本图像组成，第二类样本图像由第一源样本图像和对第二源样本图像进行优化处理后的目标样本图像组成。
120.可选地，处理模块，包括：第一注意力处理单元，用于利用目标神经网络对目标人脸图像进行注意力处理，得到注意力图像，其中，注意力图像中目标部位所处区域的权重值大于预设值；目标部位处理单元，用于基于注意力图像对目标人脸图像中的目标部位进行处理，生成目标处理结果。
121.可选地，该装置还包括：第一训练模块，用于利用第一类样本图像对多个预设神经网络进行训练，得到训练结果；筛选模块，用于基于训练结果对多个预设神经网络进行筛选，得到初始神经网络；第二训练模块，用于基于第一类样本图像和第二类样本图像对初始神经网络进行训练，得到目标神经网络。
122.可选地，第二训练模块，包括：第二注意力处理单元，用于利用初始神经网络对第
一类样本图像和第二类样本图像进行注意力处理，得到多组注意力训练图像，其中，第一类样本图像和第二类样本图像中的目标部位包含有预设检测框，多组注意力训练图像中的目标部位包含有训练检测框；第一损失函数生成单元，用于基于预设检测框和训练检测框，生成第一损失函数；第一调整单元，用于基于第一损失函数对初始神经网络的模型参数进行调整，得到目标神经网络。
123.可选地，第二训练模块还包括：处理单元，用于基于多组注意力训练图像对第一类样本图像和第二类样本图像进行处理，输出目标训练图像；第二损失函数生成单元，用于基于第一类样本图像、第二类样本图像和目标训练图像，生成第二损失函数；第二调整单元，用于基于第一损失函数和第二损失函数对初始神经网络的模型参数进行调整，得到目标神经网络。
124.可选地，该装置还包括：获取模块还用于获取目标样本图像；处理模块还用于对目标样本图像进行三角剖分处理，得到至少一个第一源样本图像；配对模块，用于对目标样本图像和至少一个第一源样本图像进行配对处理，得到第一类样本图像。
125.可选地，配对模块，包括：配对单元，用于对目标样本图像和至少一个第一源样本图像进行配对处理，得到初始训练图像；增强处理单元，用于对初始训练图像进行增强处理，得到第一类样本图像。
126.可选地，该装置还包括：增强处理模块，用于对至少一个第一源样本图像进行增强处理，得到至少一个第三源样本图像；配对模块还用于对目标样本图像和至少一个第三源样本图像进行配对处理，得到第一类样本图像。
127.根据本公开实施例的另一方面，还提供了一种电子设备，包括：至少一个处理器；以及与至少一个处理器通信连接的存储器；其中，存储器存储有可被至少一个处理器执行的指令，指令被至少一个处理器执行，以使至少一个处理器能够执行上述实施例中任意一项图像处理方法。
128.根据本公开实施例的另一方面，还提供了一种计算机可读存储介质，计算机可读存储介质包括存储的程序，其中，在程序运行时控制计算机可读存储介质所在设备执行上述实施例中任意一项图像处理方法。
129.根据本公开实施例的又一方面，提供了一种计算机程序产品，包括计算机程序，计算机程序在被处理器执行上述实施例中任意一项图像处理方法。
130.本公开的技术方案中，所涉及的用户个人信息的获取，存储和应用等，均符合相关法律法规的规定，且不违背公序良俗。
131.需要说明的是，上述各个模块是可以通过软件或硬件来实现的，对于后者，可以通过以下方式实现，但不限于此：上述模块均位于同一处理器中；或者，上述各个模块以任意组合的形式分别位于不同的处理器中。
132.根据本公开的实施例，本公开还提供了一种电子设备，包括存储器和至少一个处理器，该存储器中存储有计算机指令，该处理器被设置为运行计算机指令以执行上述任一项方法实施例中的步骤。
133.可选地，上述电子设备还可以包括传输设备以及输入输出设备，其中，该传输设备和上述处理器连接，该输入输出设备和上述处理器连接。
134.可选地，在本公开中，上述处理器可以被设置为通过计算机程序执行以下步骤：
135.s1，获取目标人脸图像，其中，目标人脸图像至少包括目标部位；
136.s2，利用目标神经网络对目标人脸图像中的目标部位进行处理，生成目标处理结果；
137.其中，目标神经网络使用多组图像通过机器训练得到，每组图像包括如下至少之一：第一类样本图像和第二类样本图像，第一类样本图像由第一源样本图像和对第一源样本图像进行优化处理后的目标样本图像组成，第二类样本图像由第一源样本图像和对第二源样本图像进行优化处理后的目标样本图像组成。
138.可选地，本实施例中的具体示例可以参考上述实施例及可选实施方式中所描述的示例，本实施例在此不再赘述。
139.根据本公开的实施例，本公开还提供了一种存储有计算机指令的非瞬时计算机可读存储介质，该非瞬时计算机可读存储介质中存储有计算机指令，其中，该计算机指令被设置为运行时执行上述任一项方法实施例中的步骤。
140.可选地，在本实施例中，上述非易失性存储介质可以被设置为存储用于执行以下步骤的计算机程序：
141.s1，获取目标人脸图像，其中，目标人脸图像至少包括目标部位；
142.s2，利用目标神经网络对目标人脸图像中的目标部位进行处理，生成目标处理结果；
143.其中，目标神经网络使用多组图像通过机器训练得到，每组图像包括如下至少之一：第一类样本图像和第二类样本图像，第一类样本图像由第一源样本图像和对第一源样本图像进行优化处理后的目标样本图像组成，第二类样本图像由第一源样本图像和对第二源样本图像进行优化处理后的目标样本图像组成。
144.可选地，在本实施例中，上述非瞬时计算机可读存储介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(ram)、只读存储器(rom)、可擦除可编程只读存储器(eprom或快闪存储器)、光纤、便捷式紧凑盘只读存储器(cd-rom)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
145.根据本公开的实施例，本公开还提供了一种计算机程序产品。用于实施本公开的音频处理方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
146.在本公开的上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。
147.在本公开所提供的几个实施例中，应该理解到，所揭露的技术内容，可通过其它的方式实现。其中，以上所描述的装置实施例仅仅是示意性的，例如所述单元的划分，可以为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互
之间的耦合或直接耦合或通信连接可以是通过一些接口，单元或模块的间接耦合或通信连接，可以是电性或其它的形式。
148.所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
149.另外，在本公开各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。
150.所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本公开的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本公开各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：u盘、只读存储器(rom)、随机存取存储器(ram)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
151.以上所述仅是本公开的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本公开原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本公开的保护范围。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：一种商贸企业物流信息管理系统的制作方法

图像处理方法、装置、电子设备以及存储介质与流程

相关文献

最热文献