图像处理方法、装置、设备及介质与流程

2022-02-19 05:10:02 来源：中国专利 TAG：

1.本技术涉及计算机技术领域，尤其涉及一种图像处理方法、装置、设备及介质。

背景技术：

2.数字人，是一种利用信息科学的方法对人体在不同水平的形态和功能进行虚拟仿真。随着计算机技术的快速发展，数字人的生成技术越来越成熟。
3.在实际处理中，如果数字人生成技术想要应用在商业，实现实时交互，则数字人生成方案至少需要满足两点：生成效果好和推理速度快；其中，数字人的生成效果好是必要的前提，推理速度快是商业的需要。目前出现的大量生成技术，主要是基于诸如于pix2pix，pix2pixhd,vid2vid，few shot video2video，nerf，stylegan等图像翻译模型，实现数字人视频的生成。具体的，现有这些图像翻译模型主要是将真实图片或真实图片的素描图输入到生成器中，以通过生成器生成视频、音频对应的数字人图片，以便后续可以基于该生成器生成的数字人图片生成数字人视频并输出。
4.但是，现有这些数字人生成方案通过生成器直接将真实图片或真实图片的素描图转换生成数字人图片，存在生成的技术效果差的问题，如生成的数字人图片效果有瑕疵、视频帧之间抖动比较大等问题；或者，推理速度不能满足实时交互的要求，影响用户体验。

技术实现要素：

5.有鉴于此，本技术提供了一种图像处理方法、装置、设备及介质，以在保证推理速度的前提下提升嘴型的生成效果，进而提升图像生成效果。
6.第一方面，本技术实施例提供了一种图像处理方法，包括：
7.获取待处理图像的素描图信息；
8.将所述素描图信息输入到预先训练的第一生成器中，得到所述第一生成器输出的目标嘴区域信息；
9.依据所述目标嘴区域信息、所述素描图信息以及所述待处理图像对应的参考图像信息，确定目标合成图信息；
10.将所述目标合成图信息输入到预先训练的第二生成器中，并将所述第二生成器输出的图像信息确定为所述待处理图像对应的目标图像信息，其中，所述第二生成器是与所述第一生成器联合训练而成的生成器。
11.可选的，所述依据所述目标嘴区域信息、所述素描图信息以及所述待处理图像对应的参考图像信息，确定目标合成图信息，包括：
12.基于所述目标嘴区域信息，分别更新所述参考图像信息中的嘴区域信息和所述素描图信息中的嘴区域信息，得到更新后的第一参考图像信息和第一素描图信息；
13.依据所述第一参考图像信息和所述第一素描图信息进行合成，得到所述目标合成图信息。
14.可选的，在依据所述目标嘴区域信息、所述素描图信息以及所述待处理图像对应
的参考图像信息，确定目标合成图信息之前，所述图像处理方法还包括：若所述待处理图像为视频首帧图像，则基于所述待处理图像创建全零图像信息，并将所述全零图像信息确定为所述待处理图像对应的参考图像信息；若所述待处理图像不是视频首帧图像，则将参考帧目标图像信息确定为所述待处理图像对应的参考图像信息，所述参考帧目标图像信息为所述待处理图像的前一帧图像对应的目标图像信息。
15.可选的，所述获取待处理图像的素描图信息之前，还包括：
16.从预设的训练数据集中获取待训练视频图像信息；
17.依据所述待训练视频图像信息进行模型训练，得到包含所述第一生成器和所述第二生成器的图像处理模型。
18.可选的，所述依据所述待训练视频图像信息进行模型训练，包括：
19.基于所述待训练视频图像信息确定待训练素描图信息，所述待训练视频图像信息包含第一视频图像信息和第二视频图像信息，所述待训练素描图信息包含所述第一视频图像信息对应的第一待训练素描图信息和所述第二视频图像信息对应的第二待训练素描图信息；
20.分别通过预先构建的第一生成器，生成所述第一待训练素描图信息对应的第一嘴区域信息和所述第二待训练素描图信息对应的第二嘴区域信息；
21.依据所述第一嘴区域信息、所述第一待训练素描图信息以及所述待训练素描图信息对应的全零图像信息进行数据合成，得到初始合成图信息；
22.将所述初始合成图信息输入到所述第二生成器中，得到所述第一视频图像信息对应的第一合成图像信息；
23.依据所述第一合成图像信息、所述第二嘴区域信息以及第二待训练素描图信息进行数据合成，得到中间合成图信息；
24.将所述中间合成图信息输入到所述第二生成器中，得到所述第二视频图像信息对应的第二合成图像信息；
25.依据所述第一视频图像信息、第二视频图像信息、所述第一待训练素描图信息、第二待训练素描图信息、所述第一合成图像信息以及所述第二合成图像信息，确定模型损失值；
26.若所述模型损失值不符合预设的模型收敛条件，则基于所述模型损失值更新所述第一生成器的参数和/或所述第二生成器的参数，并对更新参数后的第一生成器和第二生成器进行迭代训练，直到所述模型损失值符合预设的模型收敛条件。
27.可选的，所述分别通过预先构建的第一生成器，生成所述第一待训练素描图信息对应的第一嘴区域信息和所述第二待训练素描图信息对应的第二嘴区域信息，包括：
28.将所述第一待训练素描图信息输入到所述预先构建的第一生成器中，得到所述第一嘴区域信息；
29.将所述第二待训练素描图信息输入到所述预先构建的第一生成器中，得到所述第二嘴区域信息。
30.可选的，所述依据所述第一嘴区域信息、所述第一待训练素描图信息以及所述待训练素描图信息对应的全零图像信息进行数据合成，得到初始合成图信息，包括：
31.基于所述第一嘴区域信息，对所述第一待训练素描图信息中的嘴区域信息进行更
新，得到更新后的目标训练素描图信息；
32.基于所述第一嘴区域信息，对所述全零图像信息中的嘴区域信息进行更新，得到目标训练初始图信息；
33.对所述目标训练素描图信息和所述目标训练初始图信息进行合成，得到所述初始合成图信息。
34.可选的，所述依据所述第一视频图像信息、第二视频图像信息、所述第一待训练素描图信息、第二待训练素描图信息、所述第一合成图像信息以及所述第二合成图像信息，确定模型损失值，包括：
35.将所述第一待训练素描图信息、所述第二待训练素描图信息、所述第一视频图像信息以及所述第二视频图像信息输入到所述图像处理模型的判别器中，得到所述判别器输出的第一损失信息；
36.将所述第一待训练素描图信息、所述第二待训练素描图信息、所述第一合成图像信息以及所述第二合成图像信息输入到所述判别器中，得到所述判别器输出的第二损失信息；
37.将所述第一待训练素描图信息中的嘴区域信息、所述第二待训练素描图信息中的嘴区域信息、所述第一嘴区域信息以及所述第二嘴区域信息输入到所述判别器中，得到所述判别器输出的第三损失信息；
38.将所述第一待训练素描图信息中的嘴区域信息、所述第二待训练素描图信息中的嘴区域信息、所述第一视频图像信息中的嘴区域信息以及所述第二视频图像信息中的嘴区域信息输入到所述判别器中，得到所述判别器输出的第四损失信息；
39.基于所述第一损失信息和所述第二损失信息，确定所述判别器的损失值和所述第二生成器的损失值；
40.基于所述第三损失信息和所述第四损失信息，确定所述第一生成器的损失值；
41.依据所述判别器的损失值、所述第二生成器的损失值以及所述第一生成器的损失值，确定所述模型损失值。
42.第二方面，本技术实施例提供了一种图像处理装置，包括：
43.轮廓图获取模块，用于获取待处理图像的素描图信息；
44.目标嘴区域确定模块，用于将所述素描图信息输入到预先训练的第一生成器中，得到所述第一生成器输出的目标嘴区域信息；
45.目标合成图确定模块，用于依据所述目标嘴区域信息、所述素描图信息以及所述待处理图像对应的参考图像信息，确定目标合成图信息；
46.目标图像确定模块，用于将所述目标合成图信息输入到预先训练的第二生成器中，并将所述第二生成器输出的图像信息确定为所述待处理图像对应的目标图像信息，其中，所述第二生成器是与所述第一生成器联合训练而成的生成器。
47.第三方面，本技术实施例提供了一种图像处理设备，包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；存储器，用于存放计算机程序；处理器，用于执行存储器上所存放的程序时，实现如第一方面任一项所述的图像处理方法的步骤。
48.第四方面，本技术实施例提供了一种计算机可读存储介质，其上存储有计算机程
序，所述计算机程序被处理器执行时实现如第一方面任一项所述的图像处理方法的步骤。
49.本技术实施例通过将获取到的待处理图像的素描图信息输入第一生成器中，得到第一生成器输出的目标嘴区域信息，并依据目标嘴区域信息、素描图信息以及待处理图像对应的参考图像信息确定目标合成图信息，随后将目标合成图信息输入到预先训练的第二生成器中，使得第二生成器可以在保留第一生成器生成嘴区域信息的情况下生成嘴以外的区域信息，从而可以在保证推理速度的前提下提升嘴型的生成效果，在保证推理速度的同时提升了图像整体的生成效果，进而能够满足应用数字人的生成需求。
附图说明
50.此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本技术的实施例，并与说明书一起用于解释本技术的原理。
51.为了更清楚地说明本技术实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，对于本领域普通技术人员而言，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。
52.图1是本技术实施例提供的一种图像处理方法的步骤流程图；
53.图2为本技术一个示例中的一种待处理图像的素描图的示意图；
54.图3为本技术一个可选实施例提供的一种图像处理方法的步骤流程图；
55.图4为本技术可选实施例提供的一种图像处理方法的步骤流程图；
56.图5为本技术实施例提供的一种图像处理装置的结构框图。
具体实施方式
57.为使本技术实施例的目的、技术方案和优点更加清楚，下面将结合本技术实施例中的附图，对本技术实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本技术的一部分实施例，而不是全部的实施例。基于本技术中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本技术保护的范围。
58.参照图1，示出了本技术实施例提供的一种图像处理方法的步骤流程图。具体的，本技术提供的图像处理方法可以适用于视频图像处理情况，如可以适用于基于真实图片生成视频的虚拟图像的情况；其中，虚拟图像可以是视频中的数字人图像，具体可以用于表示数字人视频中的数字人。如图1所示，本技术实施例中的图像处理方法具体可以包括如下步骤：
59.步骤110，获取待处理图像的素描图信息。
60.其中，待处理图像可以是指待处理的真实图片，如可以是用户录制视频中待处理的第t帧的真实图片rt，t为整数；该真实图片rt包含目标对象的脸部，且该目标对象可以是指图像处理所需要处理的对象，如可以是用于表征人物的人物对象，也可以是用于表征动物的动物对象等，本技术实施例对此不作具体限制。
61.具体而言，在进行图像处理时，本技术实施例可以将当前所需要处理的真实图片作为待处理图像，并可判断该待处理图像是否是素描图，从而可以在当前所需要处理的真实图片不是素描图时，从该待处理图像中提取脸部关键点信息和边缘(canny)线信息，以基于提取到的脸部关键点信息和canny线信息构成该待处理图像的素描图信息；而在当前所
需要处理的真实图片属于素描图时，可以直接将该待处理图像的信息确定为待处理图像的素描图信息，从而提高信息获取效率。其中，素描图信息可以用于表示待处理图像的素描图st，如图2所示。需要说明的是，提取到的脸部关键点信息可以用于表示脸部关键点，如可以是脸部的68个关键点的坐标值；canny线信息可以表示图中的canny线，具体可以用于表示提取到边缘线特征，如可以用于表示提取到的头发和衣服的特征。
62.步骤120，将所述素描图信息输入到预先训练的第一生成器中，得到所述第一生成器输出的目标嘴区域信息。
63.其中，目标嘴区域信息可以表示第一生成器根据输入的素描图信息生成的嘴型区域图片mt，具体可以用于确定第一生成器生成的嘴型，如可以用于表示第一生器生成的数字人嘴。具体的，本技术实施例在获取到待处理图像的素描图信息后，可以将该素描图信息输入到预先训练好的第一生成器g1中，以通过该第一生成器g1生成目标对象的嘴区域信息，随后可将第一生成器g1生成的嘴区域信息输出，以作为目标嘴区域信息。
64.步骤130，依据所述目标嘴区域信息、所述素描图信息以及所述待处理图像对应的参考图像信息，确定目标合成图信息。
65.具体的，本技术实施例在得到目标嘴区域信息后，可以基于该目标嘴区域信息进行数据组合，以将目标嘴区域信息分别组合到参考图像信息和素描图信息中，从而可以将参考图像信息中的嘴区域信息和素描图信息中的嘴区域信息更新为目标嘴区域信息，得到更新后的第一参考图像信息和第一素描图信息，随后可将更新后的第一参考图像信息和第一素描图信息合成目标合成图信息。
66.进一步而言，本技术实施例依据所述目标嘴区域信息、所述素描图信息以及所述待处理图像对应的参考图像信息，确定目标合成图信息，具体可以包括：基于所述目标嘴区域信息，分别更新所述参考图像信息中的嘴区域信息和所述素描图信息中的嘴区域信息，得到更新后的第一参考图像信息和第一素描图信息；依据所述第一参考图像信息和所述第一素描图信息进行合成，得到所述目标合成图信息。其中，第一参考图像信息可以表示将参考图像信息中的嘴区域信息更新替换为目标嘴区域信息后所得到的参考图像；第一素描图信息可以表示将素描图信息的嘴区域信息更新替换为目标嘴区域信息后所得到的素描图；目标合成图信息可以表示将更新后的参考图像和更新后的素描图合并后所产生的合成图片it。
67.例如，在第一生成器g1主要用于生成数字人嘴的情况下，在将获取到的待处理图像的素描图信息输入第一生成器g1后，即在将待处理的真实图片rt的素描图st输入第一生成器g1后，可以将第一生成器g1输出的人嘴区域图片mt确定为目标嘴区域信息，从而可以基于第一生成器g1输出的人嘴区域图片mt分别更新参考图像信息中的嘴区域信息zt[:,:,ymin:ymax,xmin:xmax]和素描图信息中的嘴区域信息st[:,:,ymin:ymax,xmin:xmax]，得到更新后的参考图像信息(即第一参考图像信息)和更新后的素描图信息(即第一素描图信息)。具体的，可以通过数字组合方式，将参考图像信息中的嘴区域信息zt[:,:,ymin:ymax,xmin:xmax]更新为目标嘴区域信息，即zt[:,:,ymin:ymax,xmin:xmax]＝mt，得到更新后的参考图像信息(即第一参考图像信息)，并可将描图信息中的嘴区域信息st[:,:,ymin:ymax,xmin:xmax]更新为目标嘴区域信息mt，即st[:,:,ymin:ymax,xmin:xmax]＝mt，得到更新后的素描图信息(即第一素描图信息)。随后，可将更新后的参考图像信息与第一素描
图信息进行合并，以将更新后的参考图像和更新后的素描图进行合并，得到目标合成图信息。
[0068]
步骤140，将所述目标合成图信息输入到预先训练的第二生成器中，并将所述第二生成器输出的图像信息确定为所述待处理图像对应的目标图像信息。
[0069]
其中，所述第二生成器是与所述第一生成器联合训练而成的生成器。具体的，本技术实施例可以在得到目标合成图片信息后，可以将该目标合成图片信息输入到预先训练好的第二生成器g2中，以在保留第一生成器g1生成嘴区域信息的情况下通过第二生成器g2生成嘴以外的区域信息，得到第二生成器g2输出的图像信息，进而可以将第二生成器输出的图像信息确定为待处理图像对应的目标图像信息。该目标图像信息可以用于表示第二生成器g2在保留第一生成器g1生成嘴的信息的情况下生成的虚拟对象图像，如可以是第二生成器g2在保留第一生成器g1生成嘴的信息的情况下生成的数字人图像等。
[0070]
可见，本技术实施例在获取待处理图像的素描图信息后，通过将素描图信息输入到预先训练的第一生成器中，得到第一生成器输出的目标嘴区域信息，并依据目标嘴区域信息、素描图信息以及待处理图像对应的参考图像信息确定目标合成图信息，随后将目标合成图信息输入到预先训练的第二生成器中，使得第二生成器可以在保留第一生成器生成嘴区域信息的情况下生成嘴以外的区域信息，从而可以在保证推理速度的前提下提升嘴型的生成效果，在保证推理速度的同时提升了图像整体的生成效果，进而提升用户体验。
[0071]
在具体实现中，本技术实施例可以预先采用训练数据集中的待训练图像信息进行模型训练，以训练出包含第一生成器和第二生成器的图像处理模型。其中，第一生成器可以用于生成嘴区域信息，如可以用于生成数字人嘴图片；第二生成器可以用于在保留第一生成器生成嘴区域的信息情况下生成嘴以外区域的信息；训练数据集可以是指用于模型训练的数据的集合，具体可以包括一张或多张图像数据，如可以包括一个视频中用于训练的连续多帧视频图像数据；待训练图像信息可以是指待训练的图像数据，如可以是待训练视频图像信息，待训练视频图像信息可以是指待训练的视频图像。进一步而言，在上述实施例的基础上，本技术实施例提供的图像处理方法在获取待处理图像的素描图像信息之前，还可以包括：从预设的训练数据集中获取待训练视频图像信息；依据所述待训练视频图像信息进行模型训练，得到包含所述第一生成器和所述第二生成器的图像处理模型。
[0072]
在实际处理中，可以从训练数据集中获取一张或多张图像数据进行模型训练，如可以获取训练数据集中一个视频的连续n帧视频图像数据，以作为待训练图像信息进行模型训练，从而可以采用视频中的连续n帧视频图像数据进行模型训练，如可以从训练数据集中获取视频中的连续两帧视频图像进行模型训练，其中n为大于1的整数。可选的，本技术实施例依据所述待训练视频图像信息进行模型训练，具体可以包括：基于所述待训练视频图像信息确定待训练素描图信息，所述待训练视频图像信息包含第一视频图像信息和第二视频图像信息，所述待训练素描图信息包含所述第一视频图像信息对应的第一待训练素描图信息和所述第二视频图像信息对应的第二待训练素描图信息；分别通过预先构建的第一生成器，生成所述第一待训练素描图信息对应的第一嘴区域信息和所述第二待训练素描图信息对应的第二嘴区域信息；依据所述第一嘴区域信息、所述第一待训练素描图信息以及所述待训练素描图信息对应的全零图像信息进行数据合成，得到初始合成图信息；将所述初始合成图信息输入到所述第二生成器中，得到所述第一视频图像信息对应的第一合成图像
信息；依据所述第一合成图像信息、所述第二嘴区域信息以及第二待训练素描图信息进行数据合成，得到中间合成图信息；将所述中间合成图信息输入到所述第二生成器中，得到所述第二视频图像信息对应的第二合成图像信息；依据所述第一视频图像信息、第二视频图像信息、所述第一待训练素描图信息、第二待训练素描图信息、所述第一合成图像信息以及所述第二合成图像信息，确定模型损失值；若所述模型损失值不符合预设的模型收敛条件，则基于所述模型损失值更新所述第一生成器的参数和/或所述第二生成器的参数，并对更新参数后的第一生成器和第二生成器进行迭代训练，直到所述模型损失值符合预设的模型收敛条件。其中，第一视频图像信息可以用于表示从训练数据集中提取的连续两帧视频图像中的第一帧视频图像；第二视频图像数据可以表示从训练数据集中提取的连续两帧视频图像中的第二帧视频图像，即第二帧视频图像为第一帧视频图像的前一帧视频图像。
[0073]
参照图3，示出了本技术一个可选实施例提供的一种图像处理方法的步骤流程图。具体而言，本技术实施例提供的图像处理方法在模型训练阶段，具体可以包括如下步骤：
[0074]
步骤310，从预设的训练数据集中获取待训练视频图像信息。
[0075]
步骤320，基于所述待训练视频图像信息确定待训练素描图信息，其中，所述待训练视频图像信息包含第一视频图像信息和第二视频图像信息，所述待训练素描图信息包含第一待训练素描图信息和第二待训练素描图信息。
[0076]
其中，第一待训练素描图信息可以是指第一视频图像信息对应的素描图信息，具体可以用于表征第一视频图像的素描图；第二待训练素描图信息可以是指第二视频图像信息对应的素描图信息，具体可以用于表征第二视频图像的素描图。具体而言，本实施例在模型训练阶段，可以从训练数据集中提取一帧或多帧视频图像信息，以作为训练视频图像信息；并可针对提取的每一帧视频图像信息，提取脸部关键点信息和canny线信息，即从获取到的每一帧训练视频图像信息中提取脸部关键点信息和canny线信息，以基于提取到的脸部关键点信息和canny线信息生成对应的待训练素描图信息。
[0077]
例如，在从训练数据集中视频中第t帧的真实图片rt后，可以利用开源的关键点提取方法提取第t帧的真实图片的68个关键点和canny线，即提取脸部关键点信息和canny线信息，然后可利用提取到的脸部关键点信息和canny线信息生成对应的待训练素描图信息，即利用这68个关键点画成脸部的线，以将该脸部的线与canny线结合，生成对应的素描图st；又如，在从训练数据集中视频中第(t 1)帧的真实图片r(t 1)后，可以利用开源的关键点提取方法提取第(t 1)帧的真实图片的68个关键点和canny线，然后可利用这68个关键点画成脸部的线，以将该脸部的线与canny线结合，生成对应的素描图s(t 1)。
[0078]
步骤330，分别通过预先构建的第一生成器，生成第一待训练素描图信息对应的第一嘴区域信息和第二待训练素描图信息对应的第二嘴区域信息。
[0079]
在实际处理中，本技术实施例可以针对每一张真实图片，将该真实图片对应的待训练素描图信息输入到预先构建好的第一生成器中，以通过第一生成器生成对应的嘴区域信息。进一步而言，本技术实施例分别通过预先构建的第一生成器，生成所述第一待训练素描图信息对应的第一嘴区域信息和所述第二待训练素描图信息对应的第二嘴区域信息，具体可以包括将所述第一待训练素描图信息输入到所述预先构建的第一生成器中，得到所述第一嘴区域信息；将所述第二待训练素描图信息输入到所述预先构建的第一生成器中，得到所述第二嘴区域信息。
[0080]
作为本技术的一个示例，在模型训练阶段，可以首先构建一个生成器，如可以采用mobilenetv2的架构，构建一个生成器，以作为用于生成嘴区域信息的第一生成器g1。第一生成器g1的输入可以是素描图信息，第一生成器g1的输出可以是嘴区域信息。例如，在获取视频第t帧视频图像的素描图st后，可以将该视频第t帧视频图像的素描图st作为第一待训练素描图信息，输入到第一生成器g1，从而使得第一生成器g1依据该第t帧视频图像的素描图st生成第t帧的嘴区域信息mt并输出，以作为第一待训练素描图信息对应的第一嘴区域信息；同理，在获取视频第t帧视频图像的后一帧视频图像的素描图后，即在获取视频第(t 1)帧视频图像的素描图s(t 1)后，可以将该视频第(t 1)帧视频图像的素描图s(t 1)作为第二待训练素描图信息，输入到第一生成器g1，从而使得第一生成器g1依据该第(t 1)帧视频图像的素描图s(t 1)生成第(t 1)帧的嘴区域信息m(t 1)并输出，以作为第二待训练素描图信息对应的第二嘴区域信息。
[0081]
步骤340，依据所述第一嘴区域信息、所述第一待训练素描图信息以及所述待训练素描图信息对应的全零图像信息进行数据合成，得到初始合成图信息。
[0082]
在实际处理中，本技术实施例可以依据真实图片创建一个跟真实图片相同大小的全零图片，以作为待训练素描图片对应的全零图像信息进行模型训练。进一步而言，本技术申请实施例在得到第一生成器g1输出的第一嘴区域信息后，依据所述第一嘴区域信息、所述第一待训练素描图信息以及所述待训练素描图信息对应的全零图像信息进行数据合成，得到初始合成图信息，具体可以包括：基于所述第一嘴区域信息，对所述第一待训练素描图信息中的嘴区域信息进行更新，得到更新后的目标训练素描图信息；基于所述第一嘴区域信息，对所述全零图像信息中的嘴区域信息进行更新，得到目标训练初始图信息；对所述目标训练素描图信息和所述目标训练初始图信息进行合成，得到所述初始合成图信息。
[0083]
例如，结合上述示例，在第一待训练素描图信息对应的真实图片rt的图片大小为512*512*3的情况下，可以创建一个第t帧图片相同大小的全零图片且通道数量为3的图片zt，以作为第一待训练素描图信息对应的全零图像信息。在第一生成器g1生成输出第t帧的嘴区域信息mt后，即在第一生成器g1生成输出第一嘴区域信息后，可以基于该第一生成器g1生成输出的嘴区域信息mt对第t帧视频图像的素描图st中的嘴区域信息st[:,:,ymin:ymax,xmin:xmax]进行更新，即基于第一嘴区域信息对第一待训练素描图信息中的嘴区域信息进行更新，以将第t帧视频图像的素描图st中的嘴区域信息st[:,:,ymin:ymax,xmin:xmax]更新为该第一生成器g1生成输出的嘴区域信息mt，即st[:,:,ymin:ymax,xmin:xmax]＝mt，从而可以得到更新后的第一待训练素描图信息，并可将更新后的第一待训练素描图信息作为目标训练素描图信息；同时，可以基于该第一生成器g1生成输出的嘴区域信息mt，对预先根据真实图片rt创建的全零图像信息中的嘴区域信息zt[:,:,ymin:ymax,xmin:xmax]进行更新，以将全零图像信息中的嘴区域信息zt[:,:,ymin:ymax,xmin:xmax]更新为该第一生成器g1生成输出的嘴区域信息mt，即zt[:,:,ymin:ymax,xmin:xmax]＝mt，从而可以得到更新后的初始图信息，并可将更新后的初始图信息作为目标训练初始图信息，以采用该目标训练初始图信息与目标训练素描图信息进行合并，如可以按照通道合并方式对该目标训练初始图信息与目标训练素描图信息进行合并处理，得到合并后图片it，以作为初始合成图信息。其中，合并后图片it的大小可以是512*512*4，并且该合并后图片it可以作为初始合成图信息，输入到第二生成器g2中，使得第二生成器g2可以依据该合并后图片it
在保留第一生成器生成嘴的信息情况下生成嘴以外的区域。
[0084]
步骤350，将所述初始合成图信息输入到第二生成器中，得到所述第一视频图像信息对应的第一合成图像信息。
[0085]
具体的，本技术实施例在训练阶段，可以将目标训练素描图信息和目标训练初始图信息所合成后的初始合成图信息输入第二生成器g2中，以通过第二生成器g2生成第一视频图像信息对应的第一合成图像信息。该第一合成图像信息可以表示第二生成器g2针对第一视频图像信息的素描图所生成的虚拟对象图像。
[0086]
步骤360，依据所述第一合成图像信息、所述第二嘴区域信息以及第二待训练素描图信息进行数据合成，得到中间合成图信息。
[0087]
具体的，本技术实施例在得到第二生成器g输出的第一视频图像信息对应的第一合成图像信息和第二生成器g1输出的第二嘴区域信息后，可以基于第二嘴区域信息，分别对第一合成图像信息的嘴区域信息和第二待训练素描图信息中的嘴区域信息进行更新，以将第一合成图像信息的嘴区域信息和第二待训练素描图信息中的嘴区域信息分别更新为第二嘴区域信息，得到更新后的第一合成图像信息和更新后的第二待训练素描图信息，并可将更新后的第一合成图像信息和更新后的第二待训练素描图信息进行合并，得到中间合成图信息。该中间合成图信息可以表示依据更新后的第一合成图像信息和更新后的第二待训练素描图信息进行合并后产生的图像。
[0088]
步骤370，将所述中间合成图信息输入到所述第二生成器中，得到所述第二视频图像信息对应的第二合成图像信息。
[0089]
具体的，本技术实施例可以将合并后产生的中间合成图信息输入到第二生成器g2中，使得第二生成器g2可以依据该中间合成图信息生成第二合成图像信息。该第二合成图像信息可以表示第二生成器g2针对第二视频图像信息的素描图所生成的虚拟对象图像，即第二合成图像信息可以作为第二视频图像信息对应的合成图像信息。
[0090]
例如，结合上述例子，在作为初始合成图信息的合并后图片it输入到第二生成器g2后，可以得到第二生成器g2根据该合并后图片it生成并输出的虚拟对象图像ft，并可将该虚拟对象图像ft作为第一视频图像信息对应的第一合成图像信息，以将第二生成器g2生成的第t帧的虚拟对象图像ft与第一生成器g1生成的第(t 1)帧的嘴区域信息m(t 1)进行合并，以采用第一生成器g1生成的第(t 1)帧的嘴区域信息m(t 1)对该虚拟对象图像ft中的嘴区域信息ft[:,:,ymin:ymax,xmin:xmax]更新，从而可以将第t帧虚拟对象图像ft中的嘴区域信息ft[:,:,ymin:ymax,xmin:xmax]更新为第一生成器g1生成输出的第二嘴区域信息m(t 1)，即ft[:,:,ymin:ymax,xmin:xmax]＝m(t 1)，得到更新后的第一合成图像信息；同时，可以采用第一生成器g1生成输出第(t 1)帧的嘴区域信息m(t 1)对第(t 1)帧视频图像的素描图s(t 1)中的嘴区域信息s(t 1)[:,:,ymin:ymax,xmin:xmax]进行更新，以将第(t 1)帧视频图像的素描图s(t 1)中的嘴区域信息s(t 1)[:,:,ymin:ymax,xmin:xmax]更新为第一生成器g1生成输出的第二嘴区域信息m(t 1)，即s(t 1)[:,:,ymin:ymax,xmin:xmax]＝m(t 1)，从而可以得到更新后的第二待训练素描图信息。随后，可以将更新后的第二待训练素描图信息与更新后的第一合成图像信息进行合并，以将合并后产生的图像信息作为中间合成图信息i(t 1)输入到第二生成器g2中，使得第二生成器g2根据该中间合成图信息i(t 1)生成并输出虚拟对象图像f(t 1)，以作为第二视频图像信息对应的第二合成图
像信息。
[0091]
步骤380，依据所述第一视频图像信息、第二视频图像信息、所述第一待训练素描图信息、第二待训练素描图信息、所述第一合成图像信息以及所述第二合成图像信息，确定模型损失值。
[0092]
具体而言，本技术实施例在得到第二视频图像信息对应的第二合成图像信息后，可以将第一待训练素描图信息、第二待训练素描图信息、第一合成图像信息以及第二合成图像信息合并后输入到判别器中，得到n个值，随后可以利用这n个值确定出第二生成器的损失值和整体判别器的损失值；并且可以通过将第一待训练素描图信息的嘴区域信息、第二待训练素描图信息的嘴区域信息、第一嘴区域信息以及第二嘴区域信息合并后输入到判别器，得到判别器输出的k个值，随后可利用这k个值确定出第一生成器的损失值；从而可以利用第一生成器的损失值、第二生器的损失值以及整体判别器的损失值进行计算，得到模型损失值。其中，n和k均可以是大约1的整数，且n和k可以是相同的整数，如n和k均可以是2或3等，本实施对此不作具体限制；模型损失值可以是指训练模型的损失值，具体可以用于确定训练模型是否已收敛，进而可以在训练模型已收敛的情况下确定将已收敛的模型确定为图像处理模型，以便后续应用推理阶段可以利用该为图像处理模型生成待处理图像对应的虚拟对象图像。
[0093]
当然，本技术实施例也可以采用其他方式来确定第一生成器的损失值，如可以分别计算第一待训练素描图信息的嘴区域信息和第一嘴区域信息之间的感知损失、第二待训练素描图信息的嘴区域信息和第二嘴区域信息之间的感知损失，以通过第一待训练素描图信息的嘴区域信息和第一嘴区域信息之间的感知损失、第二待训练素描图信息的嘴区域信息和第二嘴区域信息之间的感知损失来确定出第一生成器的损失值，本技术实施例对此不作限制。此外，本技术实施例也可以采用其他方式确定出第二生成器的损失值或整体判别器的损失值，如可以将第一待训练素描图信息、第二待训练素描图信息、第一视频图像信息、以及第二视频图像信息合并后输入到判别器，以通过计算判别器输出的n个值与1的距离来确定出整体判别器的损失值；和/或，可以通过分别第一合成图像信息和第一视频图像信息之间的感知损失(perceptual loss)、第二合成图像信息和第二视频图像信息之间的perceptual loss，然后可以将这两个perceptual loss相加，得到整体生成器的损失值等等，本技术实施例对此也不作限制。
[0094]
进一步而言，本技术实施例依据所述第一视频图像信息、第二视频图像信息、所述第一待训练素描图信息、第二待训练素描图信息、所述第一合成图像信息以及所述第二合成图像信息，确定模型损失值，具体可以包括：将所述第一待训练素描图信息、所述第二待训练素描图信息、所述第一视频图像信息以及所述第二视频图像信息输入到所述图像处理模型的判别器中，得到所述判别器输出的第一损失信息；将所述第一待训练素描图信息、所述第二待训练素描图信息、所述第一合成图像信息以及所述第二合成图像信息输入到所述判别器中，得到所述判别器输出的第二损失信息；将所述第一待训练素描图信息中的嘴区域信息、所述第二待训练素描图信息中的嘴区域信息、所述第一嘴区域信息以及所述第二嘴区域信息输入到所述判别器中，得到所述判别器输出的第三损失信息；将所述第一待训练素描图信息中的嘴区域信息、所述第二待训练素描图信息中的嘴区域信息、所述第一视频图像信息中的嘴区域信息以及所述第二视频图像信息中的嘴区域信息输入到所述判别
器中，得到所述判别器输出的第四损失信息；基于所述第一损失信息和所述第二损失信息，确定所述判别器的损失值和所述第二生成器的损失值；基于所述第三损失信息和所述第四损失信息，确定所述第一生成器的损失值；依据所述判别器的损失值、所述第二生成器的损失值以及所述第一生成器的损失值，确定所述模型损失值。
[0095]
作为本技术的一个示例，在训练后得到的图像处理模型用于推理生成数字人图像的情况下，模型损失值loss主要可以包含四部分，分别为数字人整体判别器的损失值loss1、数字人整体生成器的损失值loss2、数字人嘴区域生成器的损失值loss3和数字人嘴区域判别器的损失值loss4。
[0096]
其中，数字人整体判别器的损失值loss1可以通过计算假图片概率的损失和/或真图片概率的损失来确定。例如，可以依据第一待训练素描图信息、第二待训练素描图信息、第一合成图像信息以及第二合成图像信息进行合并，以将第t帧视频图像的素描图st、第(t 1)帧视频图像的素描图s(t 1)、第t帧生成的数字人图像ft以及第(t 1)帧生成的虚拟对象图像f(t 1)这四部分按照通道合成的方式合并成一张图片，输入到判别器d中，得到n个值，然后可利用预设的损失函数l1 loss计算这n个值和0的距离，以将计算得到的距离值确定为假图片概率的损失，计算得到的距离值越小，表示该判别器越能判断出假图像；又如，可以依据第一待训练素描图信息、第二待训练素描图信息、第一视频图像信息以及第二视频图像信息进行合并，以将第t帧视频图像的素描图st、第(t 1)帧视频图像的素描图s(t 1)、第t帧真实图片rt以及第(t 1)帧真实图片r(t 1)这四部分按照通道合成的方式合并成一张图片，输入到判别器d中，得到作为第一损失信息的n个值，然后可以用l1 loss计算n值和1的距离，以将计算得到的距离值确定为真图片概率的损失，计算得到的距离值越小，表示该判别器越能判断出真图像；在确定出假图片概率的损失和真图片概率的损失后，可以通过对该假图片概率的损失和真图片概率的损失进行累加，以将累加结果确定为数字人整体判别器的损失值loss1。
[0097]
数字人整体生成器的损失值loss2作为第二生成器的损失值，具体可以通过判别器输出的第二损失信息来确定。例如，按照通道合成的方式，将第t帧视频图像的素描图st、第(t 1)帧视频图像的素描图s(t 1)、第t帧生成的数字人图像ft以及第(t 1)帧生成的虚拟对象图像f(t 1)这四部分合并成一张图片，并输入到判别器d中，得到n个值，随后可将这n个值作为第二损失信息，以利用预设的损失函数l1 loss计算这n个值和1的距离，从而可以将计算得到的距离值数字人整体生成器的第一个损失函数值，从而可以基于第一个损失函数值确定出数字人整体生成器的损失值loss2，从而使得数字人整体生成器的损失值loss2可以包含利用损失函数l1 loss计算出的第一个损失函数值。
[0098]
当然，数字人整体生成器的损失值loss2除了可以包含利用损失函数l1loss计算出的第一个损失函数值之外，还可以包括有其他损失函数值，如还可以包含第二个损失函数值、特征匹配损失值(feature matching loss)等，本示例对此不作具体限制。其中，第二个损失函数值可以通过计算生成的虚拟对象图像与真实图片之间的感知损失(perceptual loss)来确定，如可以将第t帧生成的数字人图像ft和第t帧真实图片rt输入到vgg网络模型中，以通过计算数字人图像ft和真实图片rt在vgg网络模型不同层(layer)的特征值，得到距离值，从而可以将该距离值作为数字人图像ft和真实图片rt之间的感知损失pl1；同理，可以第(t 1)帧生成的虚拟对象图像f(t 1)和第(t 1)帧真实图片r(t 1)输入到vgg网络模
型中，以通过计算虚拟对象图像f(t 1)和真实图片r(t 1)在vgg网络模型不同layer的特征值，得到第(t 1)帧生成的虚拟对象图像f(t 1)和第(t 1)帧真实图片r(t 1)之间的感知损失pl2，随后可以将感知损失pl1和感知损失pl2相加进行求熵，得到作为数字人整体生成器的第二个损失函数值的熵结果。此外，可以通过将第t帧视频图像的素描图st、第(t 1)帧视频图像的素描图s(t 1)、第t帧生成的数字人图像ft以及第(t 1)帧生成的虚拟对象图像f(t 1)输入到判别器中进行计算，得到数字人整体生成器的特征匹配损失值。
[0099]
数字人嘴区域判别器的损失值loss4可以通过计算假嘴图片概率的损失和真嘴图片概率的损失来确定。例如，可以依据第一待训练素描图信息中的嘴区域信息、所述第二待训练素描图信息中的嘴区域信息、所述第一嘴区域信息以及所述第二嘴区域信息进行合并，以将第t帧视频图像的素描图的嘴区域信息smt、第(t 1)帧视频图像的素描图的嘴区域信息sm(t 1)、第t帧第一生成器g1生成输出的第一嘴区域信息mt以及第(t 1)帧生成输出的第二嘴区域信息mt(t 1)这四部分按照通道合成的方式合并成一张图片，输入到判别器d中，得到作为第三损失信息的n个值，然后可利用预设的损失函数l1 loss计算这n个值和0的距离，以将计算得到的距离值确定为假嘴图片概率的损失，计算得到的距离值越小，表示该判别器越能判断出假嘴图片；又如，可以依据第一待训练素描图信息中的嘴区域信息、所述第二待训练素描图信息中的嘴区域信息、第一视频图像信息中的嘴区域信息以及第二视频图像信息中的嘴区域信息进行合并，以将第t帧视频图像的素描图的嘴区域信息smt、第(t 1)帧视频图像的素描图的嘴区域信息sm(t 1)、第t帧真实图片的嘴区域信息rmt以及第(t 1)帧真实图片的嘴区域信息rm(t 1)这四部分按照通道合成的方式合并成一张图片，输入到判别器d中，得到作为第四损失信息的n个值，然后可以用l1 loss计算n值和1的距离，以将计算得到的距离值确定为真嘴图片概率的损失，计算得到的距离值越小，表示数字人嘴区域判别器越能判断出真嘴图片；在确定出假嘴图片概率的损失和真嘴图片概率的损失后，可以通过对该假嘴图片概率的损失和真嘴图片概率的损失进行累加，以将累加结果确定为数字人嘴区域判别器的损失值loss4。
[0100]
数字人嘴区域生成器的损失值loss3作为第一生成器的损失值，具体可以通过第三损失信息和所述第四损失信息来确定。例如，在基于残差算法构建数字人嘴区域生成器的情况下，该数字人嘴区域生成器的损失值loss3可以是数字人嘴残差生成器的损失，具体可以包括两个损失函数值，分别可以是第三个损失函数值和第四个损失函数值。其中，第三个损失函数值可以通过第一待训练素描图信息中的嘴区域信息、所述第二待训练素描图信息中的嘴区域信息、所述第一嘴区域信息以及所述第二嘴区域信息来确定，如可以通过将第t帧视频图像的素描图的嘴区域信息smt、第(t 1)帧视频图像的素描图的嘴区域信息sm(t 1)、第t帧第一生成器g1生成输出的第一嘴区域信息mt以及第(t 1)帧生成输出的第二嘴区域信息mt(t 1)合并输入到判别器d中，得到作为第三损失信息的n个值，然后可利用预设的损失函数l1 loss计算这n个值和1的距离，以将计算得到的距离值确定为第三个损失函数值；第四个损失函数值可以是感知损失，如可以分别计算第一嘴区域信息mt和真实图片的嘴区域信息rmt之间的感知损失pl3，第二嘴区域信息m(t 1)和真实图片的嘴区域信息rm(t 1)之间的感知损失pl4，然后可将感知损失pl3和感知损失pl4相加进行求熵，得到作为数字人嘴区域生成器的第四个损失函数值的熵结果，从而可以依据第四个损失函数值和第三个损失函数值确定出数字人嘴区域判别器的损失值loss4，进而可以依据数字人嘴区
域判别器的损失值loss4、数字人整体判别器的损失值loss1、数字人整体生成器的损失值loss2以及数字人嘴区域生成器的损失值loss3进行累加，得到当前的模型损失值loss。
[0101]
步骤390，若所述模型损失值不符合预设的模型收敛条件，则基于所述模型损失值更新所述第一生成器的参数和/或所述第二生成器的参数，并对更新参数后的第一生成器和第二生成器进行迭代训练，直到所述模型损失值符合预设的模型收敛条件。
[0102]
具体的，本技术实施例在得到模型损失值后，可以通过判断模型损失值是否符合预设的模型收敛条件，确定当前训练得到的模型是否已经收敛，从而可以在训练模型收敛的情况下将已经训练好的模型确定为图像处理模型，以便后续应用推理阶段可以利用该为图像处理模型生成待处理图像对应的虚拟对象图像。例如，在模型损失值大于模型收敛条件中的收敛损失阈值时，可以确定判断当前的模型损失值不符合预设的模型收敛条件，需要继续进行模型训练，随后可利用反向传播算法，基于模型损失值更新第一生成器的参数和/或第二生成器的参数，以在更新参后对第一生成器和第二生成器进行迭代训练，直到模型损失值等于或小于模型收敛条中的收敛损失阈值。
[0103]
本技术实施例在训练好图像处理模型后，可以通过该图像处理模型利用两帧图像推理生成诸如数字人等虚拟图像，提高虚拟图像的嘴型生成效果。
[0104]
在实际处理中，可以将视频中的图像帧作为本技术实施例中的待处理图像，并可将当前处理的图像帧的前一帧图像作为参考图像信息，以利用两帧图像信息生成虚拟图像，从而可以在保证推理速度的前提下，提高视频生成帧的稳定性，提升嘴型的生成效果。例如，在当前的待处理图像是视频中的第一帧图像时，可以创建一个跟第一帧图像相同大小的全零图片且通道数量为3的图片zt，并可将该图片zt作为第一帧图像的参考图像信息，以便后续可以利用参考图像信息生成第一帧图像对应的虚拟图像，达到利用两帧图像生成虚拟图像的目的；在当前的待处理图像不是视频中的第一帧图像时，如在当前待处理图像是视频中的第二帧图像或第三帧图像时，可以将该待处理图像的前一帧图像确定为参考图像信息，从而可以利用前一帧图像和待处理图像生成当前帧的虚拟图像，进而可以提升虚拟图像的嘴型生成效果，并且可以提高视频帧的稳定性。
[0105]
进一步而言，本技术实施例在依据所述目标嘴区域信息、所述素描图信息以及所述待处理图像对应的参考图像信息，确定目标合成图信息之前，所述图像处理方法还可以包括：若所述待处理图像为视频首帧图像，则基于所述待处理图像创建全零图像信息，并将所述全零图像信息确定为所述待处理图像对应的参考图像信息；若所述待处理图像不是视频首帧图像，则将参考帧目标图像信息确定为所述待处理图像对应的参考图像信息，所述参考帧目标图像信息为所述待处理图像的前一帧图像对应的目标图像信息。
[0106]
参照图4，示出了本技术可选实施例提供的一种图像处理方法的步骤流程图。具体而言，本技术实施例提供的图像处理方法在模型应用推理阶段，具体可以包括如下步骤：
[0107]
步骤410，获取待处理图像的素描图信息。
[0108]
步骤420，将所述素描图信息输入到预先训练的第一生成器中，得到所述第一生成器输出的目标嘴区域信息。
[0109]
步骤430，基于所述目标嘴区域信息，分别更新所述参考图像信息中的嘴区域信息和所述素描图信息中的嘴区域信息，得到更新后的第一参考图像信息和第一素描图信息。
[0110]
步骤440，依据所述第一参考图像信息和所述第一素描图信息进行合成，得到所述
目标合成图信息。
[0111]
步骤450，将所述目标合成图信息输入到预先训练的第二生成器中，并将所述第二生成器输出的图像信息确定为所述待处理图像对应的目标图像信息。
[0112]
其中，所述第二生成器是与所述第一生成器联合训练而成的生成器。
[0113]
作为本技术的一个示例，在数字人视频的生成场景中，在将当前帧的待处理图像的素描图信息st输入第一生成器g1，得到第一生成器g1输出的目标嘴区域信息mt后，可以基于该目标嘴区域信息mt组合新的数据，以基于目标嘴区域信息mt分别更新参考图像信息中的嘴区域信息和素描图信息中的嘴区域信息将参考图像信息中的嘴区域信息更新为目标嘴区域信息，得到更新后的第一参考图像信息和第一素描图信息，以便后续利用更新后的第一参考图像信息和第一素描图信息，通过第二生成器g2生成对应的数字人图像，进而可将该数字人图像作为目标图像信息，以便后续可以利用多帧数字人图像生成并输出对应的数字人视频。
[0114]
具体而言，在待处理图像的素描图信息st为视频中的第一帧图像的素描图信息的情况下，可以将预先创建全零图像信息zt作为参考图像信息，从而可以基于目标嘴区域信息mt对该全零图像信息中的嘴区域信息zt[:,:,ymin:ymax,xmin:xmax]进行更新，以将全零图像信息中的嘴区域信息zt[:,:,ymin:ymax,xmin:xmax]更新为目标嘴区域信息mt，即zt[:,:,ymin:ymax,xmin:xmax]＝mt；并可基于目标嘴区域信息mt对待处理图像的素描图信息的嘴区域信息st[:,:,ymin:ymax,xmin:xmax]进行更新，以将第一帧图像的描图信息中的嘴区域信息st[:,:,ymin:ymax,xmin:xmax]更新为目标嘴区域信息mt，即st[:,:,ymin:ymax,xmin:xmax]＝mt，随后可将更新后的参考图像信息zt(即第一参考图像信息)与更新后的第一素描图信息st进行合并，以将更新后的参考图像和更新后的素描图进行合并，得到目标合成图信息it，随后可将该目标合成图信息it输入到第二生成器g2中，生成第一帧作为目标图像信息的数字人图像ft。
[0115]
在生成第一帧作为目标图像信息的数字人图像ft后，可以获取通过第一生成器g1生成的第二帧的目标嘴区域信息m(t 1)，以基于第二帧的目标嘴区域信息m(t 1)组合新的数据。具体的，将作为参考图像信息的第一帧的数字人图像中的嘴区域信息ft[:,:,ymin:ymax,xmin:xmax]和第二帧的的素描图信息的嘴区域信息s(t 1)[:,:,ymin:ymax,xmin:xmax]均更新为目标嘴区域信息m(t 1)和，即ft[:,:,ymin:ymax,xmin:xmax]＝m(t 1)，s(t 1)[:,:,ymin:ymax,xmin:xmax]＝m(t 1)。随后，可以可将更新后的数字人图像ft与更新后的第二帧的素描图信息s(t 1)进行合并，以将更新后的参考图像和更新后的素描图进行合并，得到目标合成图信息i(t 1)，并可将该目标合成图信息i(t 1)输入到第二生成器g2中，生成作为第二帧的目标图像信息的数字人图像f(t 1)
……
如此类推，可以生成视频帧的其他帧的数字人图像，进而可以依据推理生成的多帧数字人图像生成数字人视频，实现数字人视频的生成。
[0116]
综上，本技术实施例在第二生成器的基础上，添加了额外的第一生成器，以通过第一生成器学习生成嘴区域，使得第二生成器可以在保留第一生成器生成嘴区域学习的情况下生成嘴以外区域信息，从而提升了最终生成的目标图像信息中的嘴区域信息的精确度，即提升了图像中虚拟对象嘴周围的清晰度，进而可以在保证数字人生成效果和推理速度的前提下，提高视频生成帧的稳定性，提升视频帧的嘴型生成效果。
[0117]
需要说明的是，对于方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本技术实施例并不受所描述的动作顺序的限制，因为依据本技术实施例，某些步骤可以采用其他顺序或者同时进行。
[0118]
本技术实施例还提供了一种图像处理装置。如图5所示，本技术实施例提供的图像处理装置500可以包括如下模块：
[0119]
轮廓图获取模块510，用于获取待处理图像的素描图信息；
[0120]
目标嘴区域确定模块520，用于将所述素描图信息输入到预先训练的第一生成器中，得到所述第一生成器输出的目标嘴区域信息；
[0121]
目标合成图确定模块530，用于依据所述目标嘴区域信息、所述素描图信息以及所述待处理图像对应的参考图像信息，确定目标合成图信息；
[0122]
目标图像确定模块540，用于将所述目标合成图信息输入到预先训练的第二生成器中，并将所述第二生成器输出的图像信息确定为所述待处理图像对应的目标图像信息。其中，所述第二生成器是与所述第一生成器联合训练而成的生成器。
[0123]
可选的，本技术实施例中的目标合成图确定模块530可以包括：
[0124]
更新子模块，用于基于所述目标嘴区域信息，分别更新所述参考图像信息中的嘴区域信息和所述素描图信息中的嘴区域信息，得到更新后的第一参考图像信息和第一素描图信息；
[0125]
合成子模块，用于依据所述第一参考图像信息和所述第一素描图信息进行合成，得到所述目标合成图信息。
[0126]
可选的，上述图像处理装置500还包括如下模块：
[0127]
全零图像信息模块，用于当所述待处理图像为视频首帧图像时，基于所述待处理图像创建全零图像信息，并将所述全零图像信息确定为所述待处理图像对应的参考图像信息；
[0128]
参考图像信息模块，用于当所述待处理图像不是视频首帧图像时，将参考帧目标图像信息确定为所述待处理图像对应的参考图像信息，所述参考帧目标图像信息为所述待处理图像的前一帧图像对应的目标图像信息。
[0129]
可选的，上述图像处理装置500还包括如下模块：
[0130]
训练视频图像信息获取模块，用于从预设的训练数据集中获取待训练视频图像信息；
[0131]
模型训练模块，用于依据所述待训练视频图像信息进行模型训练，得到包含所述第一生成器和所述第二生成器的图像处理模型。
[0132]
可选的，模型训练模块可以包括如下子模块：
[0133]
待训练素描图信息确定子模块，用于基于所述待训练视频图像信息确定待训练素描图信息，所述待训练视频图像信息包含第一视频图像信息和第二视频图像信息，所述待训练素描图信息包含所述第一视频图像信息对应的第一待训练素描图信息和所述第二视频图像信息对应的第二待训练素描图信息；
[0134]
嘴区域生成子模块，用于分别通过预先构建的第一生成器，生成所述第一待训练素描图信息对应的第一嘴区域信息和所述第二待训练素描图信息对应的第二嘴区域信息；
[0135]
初始合成图子模块，用于依据所述第一嘴区域信息、所述第一待训练素描图信息
以及所述待训练素描图信息对应的全零图像信息进行数据合成，得到初始合成图信息；
[0136]
第一合成图像子模块，用于将所述初始合成图信息输入到所述第二生成器中，得到所述第一视频图像信息对应的第一合成图像信息；
[0137]
中间合成图子模块，用于依据所述第一合成图像信息、所述第二嘴区域信息以及第二待训练素描图信息进行数据合成，得到中间合成图信息；
[0138]
第二合成图像子模块，用于将所述中间合成图信息输入到所述第二生成器中，得到所述第二视频图像信息对应的第二合成图像信息；
[0139]
模型损失值确定子模块，用于依据所述第一视频图像信息、第二视频图像信息、所述第一待训练素描图信息、第二待训练素描图信息、所述第一合成图像信息以及所述第二合成图像信息，确定模型损失值；
[0140]
参数更新训练子模块，用于在所述模型损失值不符合预设的模型收敛条件时，基于所述模型损失值更新所述第一生成器的参数和/或所述第二生成器的参数，并对更新参数后的第一生成器和第二生成器进行迭代训练，直到所述模型损失值符合预设的模型收敛条件。
[0141]
可选的，嘴区域生成子模块具体用于将所述第一待训练素描图信息输入到所述预先构建的第一生成器中，得到所述第一嘴区域信息；并将所述第二待训练素描图信息输入到所述预先构建的第一生成器中，得到所述第二嘴区域信息。
[0142]
可选的，初始合成图子模块包括如下单元：
[0143]
第一更新单元，用于基于所述第一嘴区域信息，对所述第一待训练素描图信息中的嘴区域信息进行更新，得到更新后的目标训练素描图信息；
[0144]
第二更新单元，用于基于所述第一嘴区域信息，对所述全零图像信息中的嘴区域信息进行更新，得到目标训练初始图信息；
[0145]
初始图合成单元，用于对所述目标训练素描图信息和所述目标训练初始图信息进行合成，得到所述初始合成图信息。
[0146]
可选的，模型损失值确定子模块包括如下单元：
[0147]
第一损失信息确定单元，用于将所述第一待训练素描图信息、所述第二待训练素描图信息、所述第一视频图像信息以及所述第二视频图像信息输入到所述图像处理模型的判别器中，得到所述判别器输出的第一损失信息；
[0148]
第二损失信息确定单元，用于将所述第一待训练素描图信息、所述第二待训练素描图信息、所述第一合成图像信息以及所述第二合成图像信息输入到所述判别器中，得到所述判别器输出的第二损失信息；
[0149]
第三损失信息确定单元，用于将所述第一待训练素描图信息中的嘴区域信息、所述第二待训练素描图信息中的嘴区域信息、所述第一嘴区域信息以及所述第二嘴区域信息输入到所述判别器中，得到所述判别器输出的第三损失信息；
[0150]
第四损失信息确定单元，用于将所述第一待训练素描图信息中的嘴区域信息、所述第二待训练素描图信息中的嘴区域信息、所述第一视频图像信息中的嘴区域信息以及所述第二视频图像信息中的嘴区域信息输入到所述判别器中，得到所述判别器输出的第四损失信息；
[0151]
第一损失值确定单元，用于基于所述第一损失信息和所述第一损失信息，确定所
述判别器的损失值和所述第二生成器的损失值；
[0152]
第二损失值确定单元，用于基于所述第三损失信息和所述第四损失信息，确定所述第一生成器的损失值；
[0153]
模型损失值确定单元，用于依据所述判别器的损失值、所述第二生成器的损失值以及所述第一生成器的损失值，确定所述模型损失值。
[0154]
需要说明的是，上述提供的图像处理装置可执行本技术任意实施例所提供的图像处理方法，具备执行方法相应的功能和有益效果。
[0155]
在具体实现中，上述图像处理装置可以应用在诸如个人计算机、服务器等电子设备中，使得电子设备作为图像处理设备可以依据获取到的待处理图像的素描图信息进行图像处理，在保证推理速度的前提下提升嘴型的生成效果，提升图像整体的生成效果。进一步的，本技术实施例还提供一种图像处理设备，包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；存储器，用于存放计算机程序；处理器，用于执行存储器上所存放的程序时，实现上述任意一个方法实施例所述的图像处理方法的步骤。
[0156]
本技术实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述任意一个方法实施例所述的图像处理方法步骤。
[0157]
需要说明的是，本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。对于装置、设备、存储介质实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。
[0158]
在本文中，诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个
……”
限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
[0159]
以上所述仅是本技术的具体实施方式，使本领域技术人员能够理解或实现本技术。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本技术的精神或范围的情况下，在其它实施例中实现。因此，本技术将不会被限制于本文所示的这些实施例，而是要符合与本文所申请的原理和新颖特点相一致的最宽的范围。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：一种基于社交网络的一体化多形态服务系统的制作方法

图像处理方法、装置、设备及介质与流程

相关文献

最热文献