视频处理方法、装置、存储介质及电子设备与流程

2022-03-23 06:23:59 来源：中国专利 TAG：

1.本技术涉及视频处理技术领域，尤其涉及一种视频处理方法、装置、存储介质及电子设备。

背景技术：

2.随着网络的发展，大众娱乐性质的社交软件不断增多，在许多具有直播、视频拍摄以及图像编辑等功能的社交软件中，人脸交换逐渐成为大众娱乐的新热点，具备了越来越广泛的应用场景。人脸交换或者说换脸技术，指的是在图像或者视频中将一个人的脸换成另一个人的脸。
3.在换脸技术中，为了达到较好的换脸效果，对人脸素材有一定的要求，比如：需要进行交换的人脸大小相当，需要包含喜怒哀乐等多种表情，需要抬头、低头、侧脸等各种姿态下的人脸视角。然而，目前大多数的人脸素材多是来自互联网的特定人物的视频或图像，将获取到的人脸素材直接替换到视频中，导致人脸替换的灵活性较差。

技术实现要素：

4.本技术实施例提供一种视频处理方法、装置、存储介质及电子设备，能够提高人脸替换的灵活性。
5.本技术实施例提供一种视频处理方法，包括：
6.获取待处理视频，待处理视频中包含第一人脸图像和第一人声；
7.获取第二人脸图像以及获取第二人声；
8.根据第一人脸图像和第二人脸图像生成目标人脸图像，根据第一人声和第二人声生成目标人声；
9.将待处理视频中的第一人脸图像替换成目标人脸图像，将待处理视频中的第一人声替换成目标人声，得到目标视频。
10.本技术实施例还提供了一种视频处理装置，包括：
11.第一获取模块，用于获取待处理视频，待处理视频中包含第一人脸图像和第一人声；
12.第二获取模块，用于获取第二人脸图像以及获取第二人声；
13.生成模块，用于根据第一人脸图像和第二人脸图像生成目标人脸图像，根据第一人声和第二人声生成目标人声；
14.替换模块，用于将待处理视频中的第一人脸图像替换成目标人脸图像，将待处理视频中的第一人声替换成目标人声，得到目标视频。
15.本技术实施例还提供一种计算机可读的存储介质，存储介质上存储有计算机程序，计算机程序被处理器执行，以实现本技术实施例提供的任一种视频处理方法中的步骤。
16.本技术实施例还提供一种电子设备，电子设备包括处理器、存储器以及存储于存储器中并可在处理器上运行的计算机程序，处理器执行计算机程序，以实现本技术实施例
提供的任一种视频处理方法中的步骤。
17.本技术实施例提供的视频处理方法获取待处理视频，待处理视频中包含第一人脸图像和第一人声；获取第二人脸图像以及获取第二人声；根据第一人脸图像和第二人脸图像生成目标人脸图像，根据第一人声和第二人声生成目标人声；将待处理视频中的第一人脸图像替换成目标人脸图像，将待处理视频中的第一人声替换成目标人声，得到目标视频。本技术获取到第二人脸图像后并不直接替换到视频中，而是根据第二人脸图像和视频中的第一人脸图像生成目标人脸图像，将目标人脸图像替换到视频中，并对视频的第一人声进行处理，将视频中对应的第一人声替换成目标人声，从而，提高人脸替换的灵活性。
附图说明
18.为了更清楚地说明本技术实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍。显而易见地，下面描述中的附图仅仅是本技术的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。
19.图1为本技术实施例提供的视频处理方法的第一种流程示意图。
20.图2为本技术实施例提供的视频处理方法的第二种流程示意图。
21.图3为本技术实施例提供的视频处理装置的第一种结构示意图。
22.图4为本技术实施例提供的视频处理装置的第二种结构示意图。
23.图5为本技术实施例提供的电子设备的结构示意图。
具体实施方式
24.下面将结合本技术实施例中的附图，对本技术实施例中的技术方案进行清楚、完整地描述。显然，所描述的实施例仅仅是本技术一部分实施例，而不是全部的实施例。基于本技术中的实施例，本领域技术人员在没有付出创造性劳动前提下所获得的所有实施例，都属于本发明保护的范围。
25.本发明的说明书和权利要求书以及上述附图中的术语“第一”、“第二”、“第三”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应当理解，这样描述的对象在适当情况下可以互换。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含。例如，包含了一系列步骤的过程、方法或包含了一系列模块或单元的装置、终端、系统不必限于清楚地列出的那些步骤或模块和单元，还可以包括没有清楚地列出的步骤或模块或单元，也可以包括对于这些过程、方法、装置、终端或系统固有的其它步骤或模块或单元。
26.本技术实施例提供一种视频处理方法，该视频处理方法的执行主体可以是本技术实施例提供的视频处理装置，或者集成了该视频处理装置的电子设备，其中该视频处理装置可以采用硬件或者软件的方式实现。
27.以下分别进行详细说明。需说明的是，以下实施例的顺序不作为对实施例优选顺序的限定。
28.请参阅图1，图1为本技术实施例提供的视频处理方法的第一种流程示意图。该视频处理方法可以包括：
29.110，获取待处理视频，待处理视频中包含第一人脸图像和第一人声。
30.本技术实施例中，待处理视频可以是直播过程中的视频，也可以是短视频、小视频等视频。在一些可能的实施方式中，待处理视频图像也可以是人工录制或拍摄的视频，也可以是从网络上下载的视频，例如视频软件上的电视剧、电影的视频等，具体可以不作限定。该待处理视频中可以包含多个对象的人脸以及对应的声音，其中就包括第一人脸图像和第一人声。第一人声可以是与第一人脸图像的人脸对象对应的人声。
31.120，获取第二人脸图像以及获取第二人声。
32.其中，获取第二人脸的步骤可以包括：开启摄像头；通过摄像头实时采集被拍摄对象的第二人脸图像。
33.本技术实施例中，可以自由收集拍照者人脸，将自由收集的拍照者人脸替换到待处理视频中。
34.为了将待处理视频中的第一人脸图像替换成可自由收集的拍照者人脸，可以开启设备的摄像头，通过摄像头对镜头前的人物拍照，得到第二人脸图像。被采集人脸图像的用户即作为被拍摄对象。
35.例如，用户可以直接进入自拍模式，通过摄像头对自己的人脸进行拍摄得到第二人脸图像，然后，根据该第二人脸图像替换视频中包含的人脸图像，从而实现将自己的脸替换到视频中，仿佛亲身参与视频的拍摄一般，提高用户观看视频时的趣味性和参与感。
36.除对待处理视频进行人脸更换外，为进一步提高用户观看视频时的参与感和趣味感，本技术实施例中，还会对待处理视频的声音进行处理，将对应的人声一并更换为待拍摄对象的声音。
37.其中，获取第二人声的步骤可以包括：引导被拍摄对象朗读文本信息；采集被拍摄对象朗读文本信息时的第二人声。
38.为获取待拍摄对象的声音素材，首先引导被拍摄对象朗读文本信息，该文本信息可以是一些文字或者字母等，在用户朗读文本信息时，采集被拍摄对象朗读文本信息时的第二人声。
39.130，根据第一人脸图像和第二人脸图像生成目标人脸图像，根据第一人声和第二人声生成目标人声。
40.其中，通过摄像头实时采集被拍摄对象的第二人脸图像之后，将第二人脸图像输入人脸特征提取模型，得到第二人脸图像中人脸特征的第二人脸参数，将第二人脸参数与被拍摄对象的标签对应存储至被拍摄对象的人脸图像库。
41.根据该第二人脸图像替换视频中包含的人脸图像时，由于第二人脸图像与视频中的第一人脸图像的拍摄角度、光线、表情等可能存在差异，因而，在获取第二人脸图像后，并不直接将第二人脸图像替换到视频中，而是根据第二人脸图像生成目标人脸图像，该目标人脸图像有着第二人脸图像的人脸特征，同时又和视频中第一人脸图像的拍摄角度、光线、表情等保持一致。
42.在采集的第二人脸图像中，包含被拍摄对象的第二人脸参数，该第二人脸参数用于表征该被拍摄对象的人脸特征。为根据第二人脸图像生成目标人脸图像，可以获取被拍摄对象的第二人脸参数。例如，将第二人脸图像输入训练好的人脸特征提取模型中，得到被拍摄对象的第二人脸特征参数。
43.在根据第一人脸图像和第二人脸图像生成目标人脸图像时，将第一人脸图像输入人脸特征提取模型，得到第一人脸图像中人脸特征的第一人脸参数，将第一人脸图像中人脸特征的第一人脸参数对应替换为第二人脸参数，得到目标人脸图像。
44.本技术实施例中，针对不同的被拍摄对象，建立每一个被拍摄对象的人脸图像库。其中，不同的人脸图像库对应不同的标签，以区分各人脸图像库对应的被拍摄对象。
45.在得到被拍摄对象的第二人脸参数后，将第二人脸参数进行存储，作为该被拍摄对象的人脸图像库。在存储时，将该第二人脸参数与该被拍摄对象的标签对应存储，以便之后用该被拍摄对象的人脸图像实现换脸效果时，能够通过该被拍摄对象的标签快速找到该被拍摄对象的人脸图像库以及其中的第二人脸参数。
46.对于要进行换脸的待处理视频，针对视频中的某个对象进行换脸，该对象可称为待换脸对象。首先，根据待换脸对象确定出待处理视频中包含该待换脸对象的人脸图像的视频帧。然后，从这些视频帧中，剥离出待换脸对象的第一人脸图像，以及剩下的背景图像，为后续的视频换脸处理做准备。
47.从待处理视频中剥离出待换脸对象的第一人脸图像后，将第一人脸图像输入训练好的人脸特征提取模型，得到第一人脸图像中人脸特征的第一人脸参数，该第一人脸参数用于表征该待换脸对象的人脸特征。
48.根据各人脸图像库对应的标签，从各人脸图像库中确定出被拍摄对象的人脸图像库，从被拍摄对象的人脸图像库中获取其中存储的该待拍摄对象的第二人脸参数。根据第二人脸参数，可以获取到待拍摄对象的人脸特征。
49.根据待处理视频中的第一人脸图像，以及实时采集的第二人脸图像，可以根据第一人脸图像的第一人脸参数和第二人脸图像的第二人脸参数，将实时采集的第二人脸图像中的人脸迁移到待处理视频的第一人脸图像中，得到目标人脸图像，用目标人脸图像替换待处理视频的视频帧中的第一人脸图像。
50.其中，可以根据已经获取的第一人脸图像中人脸特征的第一人脸参数，将该第一人脸图像中人脸特征的第一人脸参数替换成第二人脸图像中人脸特征的第二人脸参数，即将待处理视频中待换脸对象的人脸特征替换成实时采集的被拍摄对象的人脸特征，从而实现将第一人脸图像中待换脸对象的人脸替换成被拍摄对象的人脸，由于单独对其中人脸的人脸特征进行处理，没有进行人脸图像的直接替换，因而，成功保留了原待换脸对象的拍摄角度、光线、表情等，得到的目标人脸图像与第一人脸图像中的人脸具有相同的拍摄角度、光线、表情，但其中的人脸对象已经更换。即，根据第一人脸图像和第二人脸图像生成了人脸不同、但拍摄角度、光线、表情等均相同的符合视频内容和视频拍摄效果的目标人脸图像。
51.本技术实施例中，采集被拍摄对象朗读文本信息时的第二人声之后，提取第二人声中声音特征的第二声音参数，将第二声音参数与被拍摄对象的标签对应存储至被拍摄对象的人声语音库。
52.针对采集到的第二人声，提取出其中被拍摄对象的第二声音参数，该第二声音参数用于反映被拍摄对象的声音特征，例如音素特征、音调特征、音色特征等。
53.本技术实施例中，针对不同的被拍摄对象，建立每一个被拍摄对象的人声语音库。其中，不同的人声语音库对应不同的标签，以区分各人脸图像库对应的被拍摄对象。
54.在得到被拍摄对象的第二声音参数后，将第二声音参数进行存储，作为该被拍摄对象的人声语音库。在存储时，将该第二声音参数与该被拍摄对象的标签对应存储，以便之后用该被拍摄对象的第二人声实现换声效果时，能够通过该被拍摄对象的标签快速找到该被拍摄对象的人声语音库以及其中的第二声音参数。
55.在根据第一人声和第二人声生成目标人声时，识别出第一人声中包含的文字信息，根据文字信息以及人声语音库中存储的第二声音参数进行编码，得到文字信息对应的目标人声。
56.对于要进行换声的待处理视频，针对视频中的待换脸对象进行换声。首先，从待处理视频的音频中，确定出待换脸对象所在的音频段落，从这些音频段落中剥离出待换脸对象的第一人声，以及剩下的背景音，为后续的视频换脸处理做准备。该背景音可以是除第一人声以外的所有声音。
57.在获取目标人声时，根据文字信息以及人声语音库中存储的第二声音参数进行编码，得到文字信息对应的目标人声。用该编码的目标人声替代原有的第一人声，与音频的背景音进行结合，以便结合背景音得到处理后的音频。
58.140，将待处理视频中的第一人脸图像替换成目标人脸图像，将待处理视频中的第一人声替换成目标人声，得到目标视频。
59.得到目标人脸图像后，将目标人脸图像与被剥离出的背景图像进行结合，得到完整的视频帧。
60.通过对待处理视频中所有包含待换脸对象的视频帧进行处理，可以将待处理视频中特定对象的人脸更换成被拍摄对象的人脸，该被拍摄对象可以是用户自己，也可以是其他人，用户可以将想要参与到视频中的对象作为被拍摄对象，对被拍摄对象进行实时拍摄，从而在视频中看到预期的自己或者他人的脸，增强用户观看视频时的参与感和趣味感。
61.将目标人脸图像与视频帧的背景图像进行结合，以及将目标人声与音频的背景音进行结合后，将待处理视频中待换脸对象的人脸更换成被拍摄对象的人脸，将待换脸对象对应的人声更换成被拍摄对象的人声，得到待处理视频经换脸和换声处理后的目标视频。
62.该目标视频在原待处理视频的基础上保留了原人脸的拍摄效果和声音效果，仅仅通过特征的处理替换了其中的对象，借助预先训练好的模型进行智能处理，用户需要做的仅仅是采集用户的图像和声音作为素材，而无需重新参与录制视频画面和声音，在提高视频趣味性和参与性的同时，方便了用户的操作。
63.根据前一实施例所描述的方法，以下将举例作进一步详细说明。
64.请参阅图2，图2为本技术实施例提供的视频处理方法的第二种流程示意图。其中，视频处理方法可以包括：
65.201、获取待处理视频，待处理视频中包含第一人脸图像和第一人声。
66.本技术实施例中，待处理视频可以是直播过程中的视频，也可以是短视频、小视频等视频。在一些可能的实施方式中，待处理视频图像也可以是人工录制或拍摄的视频，也可以是从网络上下载的视频，例如视频软件上的电视剧、电影的视频等，具体可以不作限定。该待处理视频中可以包含多个对象的人脸以及对应的声音，其中就包括第一人脸图像和第一人声。第一人声可以是与第一人脸图像的人脸对象对应的人声。
67.202、开启摄像头。
68.203、通过摄像头实时采集被拍摄对象的第二人脸图像。
69.本技术实施例中，可以自由收集拍照者人脸，将自由收集的拍照者人脸替换到待处理视频中。
70.为了将待处理视频中的第一人脸图像替换成可自由收集的拍照者人脸，可以开启设备的摄像头，通过摄像头对镜头前的人物拍照，得到第二人脸图像。被采集人脸图像的用户即作为被拍摄对象。
71.例如，用户可以直接进入自拍模式，通过摄像头对自己的人脸进行拍摄得到第二人脸图像，然后，根据该第二人脸图像替换视频中包含的人脸图像，从而实现将自己的脸替换到视频中，仿佛亲身参与视频的拍摄一般，提高用户观看视频时的趣味性和参与感。
72.204、将第二人脸图像输入人脸特征提取模型，得到第二人脸图像中人脸特征的第二人脸参数。
73.根据该第二人脸图像替换视频中包含的人脸图像时，由于第二人脸图像与视频中的第一人脸图像的拍摄角度、光线、表情等可能存在差异，因而，在获取第二人脸图像后，并不直接将第二人脸图像替换到视频中，而是根据第二人脸图像生成目标人脸图像，该目标人脸图像有着第二人脸图像的人脸特征，同时又和视频中第一人脸图像的拍摄角度、光线、表情等保持一致。
74.在采集的第二人脸图像中，包含被拍摄对象的第二人脸参数，该第二人脸参数用于表征该被拍摄对象的人脸特征。为根据第二人脸图像生成目标人脸图像，可以获取被拍摄对象的第二人脸参数。例如，将第二人脸图像输入训练好的人脸特征提取模型中，得到被拍摄对象的第二人脸特征参数。
75.205、将第二人脸参数与被拍摄对象的标签对应存储至被拍摄对象的人脸图像库。
76.本技术实施例中，针对不同的被拍摄对象，建立每一个被拍摄对象的人脸图像库。其中，不同的人脸图像库对应不同的标签，以区分各人脸图像库对应的被拍摄对象。
77.在得到被拍摄对象的第二人脸参数后，将第二人脸参数进行存储，作为该被拍摄对象的人脸图像库。在存储时，将该第二人脸参数与该被拍摄对象的标签对应存储，以便之后用该被拍摄对象的人脸图像实现换脸效果时，能够通过该被拍摄对象的标签快速找到该被拍摄对象的人脸图像库以及其中的第二人脸参数。
78.206、从待处理视频的视频帧中剥离出第一人脸图像和背景图像。
79.对于要进行换脸的待处理视频，针对视频中的某个对象进行换脸，该对象可称为待换脸对象。首先，根据待换脸对象确定出待处理视频中包含该待换脸对象的人脸图像的视频帧。然后，从这些视频帧中，剥离出待换脸对象的第一人脸图像，以及剩下的背景图像，为后续的视频换脸处理做准备。
80.207、将第一人脸图像输入人脸特征提取模型，得到第一人脸图像中人脸特征的第一人脸参数。
81.从待处理视频中剥离出待换脸对象的第一人脸图像后，将第一人脸图像输入训练好的人脸特征提取模型，得到第一人脸图像中人脸特征的第一人脸参数，该第一人脸参数用于表征该待换脸对象的人脸特征。
82.208、从被拍摄对象的人脸图像库获取第二人脸参数。
83.根据各人脸图像库对应的标签，从各人脸图像库中确定出被拍摄对象的人脸图像
库，从被拍摄对象的人脸图像库中获取其中存储的该待拍摄对象的第二人脸参数。根据第二人脸参数，可以获取到待拍摄对象的人脸特征。
84.209、将第一人脸图像中人脸特征的第一人脸参数对应替换为第二人脸参数，得到目标人脸图像。
85.根据待处理视频中的第一人脸图像，以及实时采集的第二人脸图像，可以根据第一人脸图像的第一人脸参数和第二人脸图像的第二人脸参数，将实时采集的第二人脸图像中的人脸迁移到待处理视频的第一人脸图像中，得到目标人脸图像，用目标人脸图像替换待处理视频的视频帧中的第一人脸图像。
86.其中，可以根据已经获取的第一人脸图像中人脸特征的第一人脸参数，将该第一人脸图像中人脸特征的第一人脸参数替换成第二人脸图像中人脸特征的第二人脸参数，即将待处理视频中待换脸对象的人脸特征替换成实时采集的被拍摄对象的人脸特征，从而实现将第一人脸图像中待换脸对象的人脸替换成被拍摄对象的人脸，由于单独对其中人脸的人脸特征进行处理，没有进行人脸图像的直接替换，因而，成功保留了原待换脸对象的拍摄角度、光线、表情等，得到的目标人脸图像与第一人脸图像中的人脸具有相同的拍摄角度、光线、表情，但其中的人脸对象已经更换。即，根据第一人脸图像和第二人脸图像生成了人脸不同、但拍摄角度、光线、表情等均相同的符合视频内容和视频拍摄效果的目标人脸图像。
87.210、将目标人脸图像与视频帧的背景图像进行结合。
88.得到目标人脸图像后，将目标人脸图像与被剥离出的背景图像进行结合，得到完整的视频帧。
89.通过对待处理视频中所有包含待换脸对象的视频帧进行处理，可以将待处理视频中特定对象的人脸更换成被拍摄对象的人脸，该被拍摄对象可以是用户自己，也可以是其他人，用户可以将想要参与到视频中的对象作为被拍摄对象，对被拍摄对象进行实时拍摄，从而在视频中看到预期的自己或者他人的脸，增强用户观看视频时的参与感和趣味感。
90.211、引导被拍摄对象朗读文本信息；
91.除对待处理视频进行人脸更换外，为进一步提高用户观看视频时的参与感和趣味感，本技术实施例中，还会对待处理视频的声音进行处理，将对应的人声一并更换为待拍摄对象的声音。
92.其中，为获取待拍摄对象的声音素材，首先引导被拍摄对象朗读文本信息，该文本信息可以是一些文字或者字母等。
93.212、采集被拍摄对象朗读文本信息时的第二人声。
94.在用户朗读文本信息时，采集被拍摄对象朗读文本信息时的第二人声。
95.213、提取第二人声中声音特征的第二声音参数。
96.针对采集到的第二人声，提取出其中被拍摄对象的第二声音参数，该第二声音参数用于反映被拍摄对象的声音特征，例如音素特征、音调特征、音色特征等。
97.214、将第二声音参数与被拍摄对象的标签对应存储至被拍摄对象的人声语音库。
98.本技术实施例中，针对不同的被拍摄对象，建立每一个被拍摄对象的人声语音库。其中，不同的人声语音库对应不同的标签，以区分各人脸图像库对应的被拍摄对象。
99.在得到被拍摄对象的第二声音参数后，将第二声音参数进行存储，作为该被拍摄
对象的人声语音库。在存储时，将该第二声音参数与该被拍摄对象的标签对应存储，以便之后用该被拍摄对象的第二人声实现换声效果时，能够通过该被拍摄对象的标签快速找到该被拍摄对象的人声语音库以及其中的第二声音参数。
100.215、从待处理视频的音频中剥离出第一人声和背景音。
101.对于要进行换声的待处理视频，针对视频中的待换脸对象进行换声。首先，从待处理视频的音频中，确定出待换脸对象所在的音频段落，从这些音频段落中剥离出待换脸对象的第一人声，以及剩下的背景音，为后续的视频换脸处理做准备。该背景音可以是除第一人声以外的所有声音。
102.216、识别出第一人声中包含的文字信息。
103.视频中包含的人声中的内容往往比较多，若是为了实现换声，让用户对着视频苦练台词，则操作太过繁琐。未解决该问题，本技术实施例中，识别出第一人声中包含的文字信息，根据第一人声中包含的文字信息以及录入的第二人声，获取与第一人声包含同样文字信息、而声音特征又与第一人声相符的目标人声。
104.217、根据文字信息以及人声语音库中存储的第二声音参数进行编码，得到文字信息对应的目标人声。
105.在获取目标人声时，根据文字信息以及人声语音库中存储的第二声音参数进行编码，得到文字信息对应的目标人声。
106.218、将目标人声与音频的背景音进行结合。
107.用该编码的目标人声替代原有的第一人声，与音频的背景音进行结合，以便结合背景音得到处理后的音频。
108.219、得到目标视频。
109.将目标人脸图像与视频帧的背景图像进行结合，以及将目标人声与音频的背景音进行结合后，将待处理视频中待换脸对象的人脸更换成被拍摄对象的人脸，将待换脸对象对应的人声更换成被拍摄对象的人声，得到待处理视频经换脸和换声处理后的目标视频。
110.该目标视频在原待处理视频的基础上保留了原人脸的拍摄效果和声音效果，仅仅通过特征的处理替换了其中的对象，借助预先训练好的模型进行智能处理，用户需要做的仅仅是采集用户的图像和声音作为素材，而无需重新参与录制视频画面和声音，在提高视频趣味性和参与性的同时，方便了用户的操作。
111.由上述可知，本技术实施例所提供的视频处理方法获取待处理视频，待处理视频中包含第一人脸图像和第一人声；获取第二人脸图像以及获取第二人声；根据第一人脸图像和第二人脸图像生成目标人脸图像，根据第一人声和第二人声生成目标人声；将待处理视频中的第一人脸图像替换成目标人脸图像，将待处理视频中的第一人声替换成目标人声，得到目标视频。本技术获取到第二人脸图像后并不直接替换到视频中，而是根据第二人脸图像和视频中的第一人脸图像生成目标人脸图像，将目标人脸图像替换到视频中，并对视频的第一人声进行处理，将视频中对应的第一人声替换成目标人声，从而，提高人脸替换的灵活性。
112.为便于更好的实施本技术实施例提供的视频处理方法，本技术实施例还提供一种基于上述视频处理方法的装置。其中名词的含义与上述视频处理方法中相同，具体实现细节可以参考方法实施例中的说明。
113.请参阅图3，图3为本技术实施例提供的视频处理装置的第一种结构示意图。该视频处理装置300可以包括第一获取模块301、第二获取模块302、生成模块303和替换模块304：
114.第一获取模块301，用于获取待处理视频，待处理视频中包含第一人脸图像和第一人声；
115.第二获取模块302，用于获取第二人脸图像以及获取第二人声；
116.生成模块303，用于根据第一人脸图像和第二人脸图像生成目标人脸图像，根据第一人声和第二人声生成目标人声；
117.替换模块304，用于将待处理视频中的第一人脸图像替换成目标人脸图像，将待处理视频中的第一人声替换成目标人声，得到目标视频。
118.本技术实施例中，在获取第二人脸图像时，第二获取模块302可以用于：
119.开启摄像头；
120.通过摄像头实时采集被拍摄对象的第二人脸图像。
121.请一并参阅图4，图4为本技术实施例提供的视频处理装置的第二种结构示意图。本技术实施例中，在通过摄像头实时采集被拍摄对象的第二人脸图像之后，视频处理装置300还可以包括第一存储模块305，第一存储模块305可以用于：
122.将第二人脸图像输入人脸特征提取模型，得到第二人脸图像中人脸特征的第二人脸参数；
123.将第二人脸参数与被拍摄对象的标签对应存储至被拍摄对象的人脸图像库。
124.本技术实施例中，在据第一人脸图像和第二人脸图像生成目标人脸图像时，生成模块303可以用于：
125.将第一人脸图像输入人脸特征提取模型，得到第一人脸图像中人脸特征的第一人脸参数；
126.从被拍摄对象的人脸图像库获取第二人脸参数；
127.将第一人脸图像中人脸特征的第一人脸参数对应替换为第二人脸参数，得到目标人脸图像。
128.请继续参阅图4，本技术实施例中，在根据第一人脸图像和第二人脸图像生成目标人脸图像之前，视频处理装置300还可以包括：
129.第一剥离模块306，用于从待处理视频的视频帧中剥离出第一人脸图像和背景图像。
130.其中，在将待处理视频中的第一人脸图像替换成目标人脸图像时，替换模块304可以用于：
131.将目标人脸图像与视频帧的背景图像进行结合。
132.本技术实施例中，在获取第二人声时，第二获取模块302可以用于：
133.引导被拍摄对象朗读文本信息；
134.采集被拍摄对象朗读文本信息时的第二人声。
135.请继续参阅图4，本技术实施例中，在采集被拍摄对象朗读文本信息时的第二人声之后，视频处理装置300还可以包括第二存储模块307，第二存储模块307可以用于：
136.提取第二人声中声音特征的第二声音参数；
137.将第二声音参数与被拍摄对象的标签对应存储至被拍摄对象的人声语音库。
138.本技术实施例中，在根据第一人声和第二人声生成目标人声时，生成模块303可以用于：
139.识别出第一人声中包含的文字信息；
140.根据文字信息以及人声语音库中存储的第二声音参数进行编码，得到文字信息对应的目标人声。
141.请继续参阅图4，本技术实施例中，在根据第一人声和第二人声生成目标人声之前，视频处理装置300还可以包括：
142.第二剥离模块308，用于从待处理视频的音频中剥离出第一人声和背景音。
143.其中，在将待处理视频的第一人声替换成目标人声时，替换模块304可以用于：
144.将目标人声与音频的背景音进行结合。
145.由上述可知，本技术实施例所提供的视频处理装置300其中第一获取模块301获取待处理视频，待处理视频中包含第一人脸图像和第一人声；第二获取模块302获取第二人脸图像以及获取第二人声；生成模块303根据第一人脸图像和第二人脸图像生成目标人脸图像，根据第一人声和第二人声生成目标人声；替换模块304将待处理视频中的第一人脸图像替换成目标人脸图像，将待处理视频中的第一人声替换成目标人声，得到目标视频。本技术获取到第二人脸图像后并不直接替换到视频中，而是根据第二人脸图像和视频中的第一人脸图像生成目标人脸图像，将目标人脸图像替换到视频中，并对视频的第一人声进行处理，将视频中对应的第一人声替换成目标人声，从而，提高人脸替换的灵活性。
146.本技术实施例还提供一种电子设备，请参阅图5，图5为本技术实施例提供的电子设备的结构示意图。其中，电子设备400包括处理器401以及存储器402。其中，处理器401与存储器电性连接。电子设备的耗电负载包括变频负载和主控负载。
147.该处理器401是电子设备400的控制中心，利用各种接口和线路连接整个电子设备的各个部分，通过运行或加载存储在存储器402内的计算机程序，以及通过存储在存储器402内的数据，执行电子设备400的各种功能并处理数据，从而对电子设备400进行整体监控。
148.该存储器402可用于存储软件程序以及模块，处理器401通过运行存储在存储器402的计算机程序以及模块，从而执行各种功能应用以及数据处理。存储器402可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的计算机程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据电子设备的使用所创建的数据等。此外，存储器402可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地，存储器402还可以包括存储器控制器，以提供处理器401对存储器402的访问。
149.在本技术实施例中，电子设备400中的处理器401会按照如下的步骤，将可在处理器401上执行的计算机程序存储在存储器402中，并由处理器401执行存储在存储器402中的计算机程序，从而实现各种功能，如下：
150.获取待处理视频，待处理视频中包含第一人脸图像和第一人声；
151.获取第二人脸图像以及获取第二人声；
152.根据第一人脸图像和第二人脸图像生成目标人脸图像，根据第一人声和第二人声
生成目标人声；
153.将待处理视频中的第一人脸图像替换成目标人脸图像，将待处理视频中的第一人声替换成目标人声，得到目标视频。
154.由上述可知，本技术实施例所提供的电子设备400获取待处理视频，待处理视频中包含第一人脸图像和第一人声；获取第二人脸图像以及获取第二人声；根据第一人脸图像和第二人脸图像生成目标人脸图像，根据第一人声和第二人声生成目标人声；将待处理视频中的第一人脸图像替换成目标人脸图像，将待处理视频中的第一人声替换成目标人声，得到目标视频。本技术获取到第二人脸图像后并不直接替换到视频中，而是根据第二人脸图像和视频中的第一人脸图像生成目标人脸图像，将目标人脸图像替换到视频中，并对视频的第一人声进行处理，将视频中对应的第一人声替换成目标人声，从而，提高人脸替换的灵活性。
155.本技术实施例还提供一种计算机可读的存储介质，该计算机可读的存储介质存储有计算机程序，该计算机程序被处理器执行，以实现上述任一实施例中的视频处理方法，比如：
156.获取待处理视频，待处理视频中包含第一人脸图像和第一人声；
157.获取第二人脸图像以及获取第二人声；
158.根据第一人脸图像和第二人脸图像生成目标人脸图像，根据第一人声和第二人声生成目标人声；
159.将待处理视频中的第一人脸图像替换成目标人脸图像，将待处理视频中的第一人声替换成目标人声，得到目标视频。
160.在本技术实施例中，计算机可读的存储介质可以是磁碟、光盘、只读存储器(read only memory，rom)、或者随机存取记忆体(random access memory，ram)等。
161.在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。
162.需要说明的是，对本技术实施例的视频处理方法而言，本领域普通测试人员可以理解实现本技术实施例的视频处理方法的全部或部分流程，是可以通过计算机程序来控制相关的硬件来完成，该计算机程序可存储于一计算机可读的存储介质中，如存储在电子设备的存储器中，并被该电子设备内的至少一个处理器执行，在执行过程中可包括如视频处理方法的实施例的流程。其中，该计算机可读的存储介质可为磁碟、光盘、只读存储器、随机存取记忆体等。
163.对本技术实施例的视频处理装置而言，其各功能模块可以集成在一个处理芯片中，也可以是各个模块单独物理存在，也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。该集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读的存储介质中，该计算机可读的存储介质譬如为只读存储器，磁盘或光盘等。
164.本文所使用的术语「模块」可看做为在该运算系统上执行的软件对象。本文该的不同组件、模块、引擎及服务可看做为在该运算系统上的实施对象。而本文该的装置及方法优选的以软件的方式进行实施，当然也可在硬件上进行实施，均在本技术保护范围之内。
165.以上对本技术实施例所提供的一种视频处理方法、装置、存储介质及电子设备进
行了详细介绍，本文中应用了具体个例对本技术的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本技术的方法及其核心思想；同时，对于本领域的技术人员，依据本技术的思想，在具体实施方式及应用范围上均会有改变之处，综上，本说明书内容不应理解为对本技术的限制。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：时间同步精度确定方法、系统及电子设备与流程

视频处理方法、装置、存储介质及电子设备与流程

相关文献

最热文献