视频的生成方法、装置、计算机可读存储介质和处理器与流程

2022-04-09 02:58:57 来源：中国专利 TAG：

1.本技术涉及数据处理领域，具体而言，涉及一种视频的生成方法、装置、计算机可读存储介质和处理器。

背景技术：

2.在虚拟数字人应用场景中，说话人的声音经常会根据不同业务需求进行个性化定制，目前的方案是通过系统内置的视频模板和固有音色效果进行虚拟人合成，输出音色较为单一，当新增数字人形象时，视频模板和tts音库制作周期较长，耗费成本高，还需要反复调试，使系统复杂度提高，造成数据处理较慢，进而无法快速响应用户对个性化角色的定制需求。

技术实现要素：

3.本技术的主要目的在于提供一种视频的生成方法、装置、计算机可读存储介质和处理器，以解决现有技术中无法快速响应用户对个性化角色的定制需求的问题。
4.根据本发明实施例的一个方面，提供了一种视频的生成方法，包括：获取目标数据，所述目标数据包括第一文本数据和/或第一语音数据，所述第一文本数据为控制机器人输入至终端中的数据，所述第一语音数据为接收到的语音数据；对所述目标数据进行预处理，得到第二语音数据；对所述第二语音数据进行音色转换处理，得到第三语音数据；根据所述第三语音数据，生成动态视频，所述动态视频中的虚拟对象发出所述第三语音数据。
5.可选地，在所述目标数据为所述第一文本数据的情况下，对所述目标数据进行预处理，得到第二语音数据，包括：对所述第一文本数据的语种进行分类，得到所述第一文本数据的语种类别；按照所述语种类别，通过tts技术将所述第一文本数据转换为所述第二语音数据。
6.可选地，在所述目标数据为所述第一语音数据的情况下，对所述目标数据进行预处理，得到第二语音数据，包括：对所述第一语音数据进行解码；对解码后的所述第一语音数据进行降噪处理，得到所述第二语音数据。
7.可选地，对所述第二语音数据进行音色转换处理，得到第三语音数据，包括：获取目标音色；将所述第二语音数据的音色转换为所述目标音色。
8.可选地，将所述第二语音数据的音色转换为所述目标音色，包括：采用vc技术将所述第二语音数据的音色转换为所述目标音色。
9.可选地，根据所述第三语音数据，生成动态视频，包括：获取初始视频，所述初始视频包括当前拍摄的视频和/或预先存储的视频；将所述第三语音数据增加至所述初始视频中，得到所述动态视频。
10.可选地，将所述第三语音数据增加至所述初始视频中，得到所述动态视频，包括：采用avatar技术，将所述第三语音数据增加至所述初始视频中，得到所述动态视频。
11.根据本发明实施例的另一方面，还提供了一种视频的生成装置，包括：获取单元，
用于获取目标数据，所述目标数据包括第一文本数据和/或第一语音数据，所述第一文本数据为控制机器人输入至终端中的数据，所述第一语音数据为接收到的语音数据；第一处理单元，用于对所述目标数据进行预处理，得到第二语音数据；第二处理单元，用于对所述第二语音数据进行音色转换处理，得到第三语音数据；生成单元，用于根据所述第三语音数据，生成动态视频，所述动态视频中的虚拟对象发出所述第三语音数据。
12.根据本发明实施例的又一方面，还提供了一种计算机可读存储介质，所述计算机可读存储介质包括存储的程序，其中，所述程序执行任意一种所述的视频的生成方法。
13.根据本发明实施例的再一方面，还提供了一种处理器，所述处理器用于运行程序，其中，所述程序运行时执行任意一种所述的视频的生成方法。
14.在本发明实施例中，首先获取目标数据，之后对上述目标数据进行预处理，得到第二语音数据，之后对上述第二语音数据进行音色转换处理，得到第三语音数据，最后根据上述第三语音数据，生成动态视频。该方案中，仅需要对目标数据进行预处理，对预处理后的第二语音数据进行音色转换处理，就可以直接得到新的语音数据，无需耗费大量的时间与成本来制作新的语音数据，基于第三语音数据就可以直接生成动态视频，无需复杂的3d建模过程，相比现有技术中通过长时间制作视频模板和tts音库的方式，上述的方案可以快速处理数据，进而可以快速响应用户对个性化角色的定制需求。并且，现有技术中制作新的虚拟对象时耗费的成本也较高，而本技术的上述方案也可以降低制作新的虚拟对象的制作成本，也提高了制作新的虚拟对象的效率。
附图说明
15.构成本技术的一部分的说明书附图用来提供对本技术的进一步理解，本技术的示意性实施例及其说明用于解释本技术，并不构成对本技术的不当限定。在附图中：
16.图1示出了根据本技术的实施例的一种视频的生成方法的流程示意图；
17.图2示出了根据本技术的实施例的一种视频的生成装置的结构示意图；
18.图3示出了根据本技术的实施例的又一种视频的生成方法的流程示意图。
具体实施方式
19.需要说明的是，在不冲突的情况下，本技术中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本技术。
20.为了使本技术领域的人员更好地理解本技术方案，下面将结合本技术实施例中的附图，对本技术实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本技术一部分的实施例，而不是全部的实施例。基于本技术中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本技术保护的范围。
21.需要说明的是，本技术的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本技术的实施例。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清
楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
22.应该理解的是，当元件(诸如层、膜、区域、或衬底)描述为在另一元件“上”时，该元件可直接在该另一元件上，或者也可存在中间元件。而且，在说明书以及权利要求书中，当描述有元件“连接”至另一元件时，该元件可“直接连接”至该另一元件，或者通过第三元件“连接”至该另一元件。
23.为了便于描述，以下对本技术实施例涉及的部分名词或术语进行说明：
24.tts：text to speech，从文本到语音，是一种通过神经网络的设计，语音合成应用的一种，把文本智能地转换为自然语音流进行输出，tts技术对文本文件进行实时转换，转换时间之短可以用秒计算，在其特有智能语音器作用下，文本输出的语音音律较为流畅。
25.vc：voice conversion，将一个人的音色转换为另外一个人音色的技术，就是在保持说话内容不变的情况下，用另一个人的音色说出说话内容。
26.avatar：一种用一个人的语音驱动视频帧的生成，使得说话人的口型与视频中的任务口型同步播放的技术。
27.正如背景技术中所说的，现有技术中无法快速响应用户对个性化角色的定制需求，为了解决上述问题，本技术的一种典型的实施方式中，提供了一种视频的生成方法、装置、计算机可读存储介质和处理器。
28.根据本技术的实施例，提供了一种视频的生成方法。
29.图1是根据本技术实施例的视频的生成方法的流程图。如图1所示，该方法包括以下步骤：
30.步骤s101，获取目标数据，上述目标数据包括第一文本数据和/或第一语音数据，上述第一文本数据为控制机器人输入至终端中的数据，上述第一语音数据为接收到的语音数据；
31.步骤s102，对上述目标数据进行预处理，得到第二语音数据；
32.步骤s103，对上述第二语音数据进行音色转换处理，得到第三语音数据；
33.步骤s104，根据上述第三语音数据，生成动态视频，上述动态视频中的虚拟对象发出上述第三语音数据。
34.上述的方法中，首先获取目标数据，之后对上述目标数据进行预处理，得到第二语音数据，之后对上述第二语音数据进行音色转换处理，得到第三语音数据，最后根据上述第三语音数据，生成动态视频。该方案中，仅需要对目标数据进行预处理，对预处理后的第二语音数据进行音色转换处理，就可以直接得到新的语音数据，无需耗费大量的时间与成本来制作新的语音数据，基于第三语音数据就可以直接生成动态视频，无需复杂的3d建模过程，相比现有技术中通过长时间制作视频模板和tts音库的方式，上述的方案可以快速处理数据，进而可以快速响应用户对个性化角色的定制需求。并且，现有技术中制作新的虚拟对象时耗费的成本也较高，而本技术的上述方案也可以降低制作新的虚拟对象的制作成本，也提高了制作新的虚拟对象的效率。
35.需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。
36.具体地，上述的方案中，由于采用了音色转换处理，可以将a的语音转换为b的语
音，这样可以生成千人一面的动态视频，生成的动态视频为音画一致的视频。
37.一种实施例中，虚拟对象可以为虚拟数字人，当然，还可以为其他的虚拟对象。
38.本技术的一种实施例中，在上述目标数据为上述第一文本数据的情况下，对上述目标数据进行预处理，得到第二语音数据，包括：对上述第一文本数据的语种进行分类，得到上述第一文本数据的语种类别；按照上述语种类别，通过tts技术将上述第一文本数据转换为上述第二语音数据。该实施例中，由于将第一文本数据的语种进行了分类，在将第一文本数据转换为第二语音数据时，可以按照第一文本数据的语种类别进行转换，这样可以进一步保证数据转换时的处理速度较快。
39.具体地，语种可以为中文、英文、韩文、日文或者其他的语种，根据不同的语种，可以得到对应不同的语种类别的第一文本数据。
40.本技术的又一种实施例中，在上述目标数据为上述第一语音数据的情况下，对上述目标数据进行预处理，得到第二语音数据，包括：对上述第一语音数据进行解码；对解码后的上述第一语音数据进行降噪处理，得到上述第二语音数据。该实施例中，目标数据为第一语音数据时，可能语音质量没有通过tts技术将文本数据转换为第二语音数据的语音质量好，因此，对第一语音数据进行解码以及降噪，可以保证得到的第二语音数据更加清晰准确，进一步保证了语音质量较好。
41.需要说明的是，当目标数据为第一语音数据时，可以不考虑实际用户的性别、音色和音高等差异音色，只需要将第一语音数据进行解码和降噪处理即可。
42.本技术的再一种实施例中，对上述第二语音数据进行音色转换处理，得到第三语音数据，包括：获取目标音色；将上述第二语音数据的音色转换为上述目标音色。该实施例中，可以将第一语音数据的音色转换为目标音色，这样可以进一步直接地对第二语音数据的音色进行转换处理，而无需大量的建模以及训练的过程，进一步保证了数据处理的速度较快。
43.本技术的另一种实施例中，将上述第二语音数据的音色转换为上述目标音色，包括：采用vc技术将上述第二语音数据的音色转换为上述目标音色。该实施例中，采用vc技术来进行音色转换，进一步保证了转换的效果较好。
44.本技术的一种具体的实施例中，根据上述第三语音数据，生成动态视频，包括：获取初始视频，上述初始视频包括当前拍摄的视频和/或预先存储的视频；将上述第三语音数据增加至上述初始视频中，得到上述动态视频。该实施例中，直接将第三语音数据增加至初始视频中，而无需采用大量的视频模板制作视频，这样可以更加直接且高效地生成动态视频。
45.本技术的又一种具体的实施例中，将上述第三语音数据增加至上述初始视频中，得到上述动态视频，包括：采用avatar技术，将上述第三语音数据增加至上述初始视频中，得到上述动态视频。该实施例中，采用avatar技术可以更加高效快速地生成动态视频。
46.具体地，可以对初始视频的视频帧进行排序，按照视频帧序列，将第三语音数据增加至初始视频中，生成动态视频后可以将动态视频输出。
47.本技术实施例还提供了一种视频的生成装置，需要说明的是，本技术实施例的视频的生成装置可以用于执行本技术实施例所提供的用于视频的生成方法。以下对本技术实施例提供的视频的生成装置进行介绍。
48.图2是根据本技术实施例的视频的生成装置的示意图。如图2所示，该装置包括：
49.获取单元10，用于获取目标数据，上述目标数据包括第一文本数据和/或第一语音数据，上述第一文本数据为控制机器人输入至终端中的数据，上述第一语音数据为接收到的语音数据；
50.第一处理单元20，用于对上述目标数据进行预处理，得到第二语音数据；
51.第二处理单元30，用于对上述第二语音数据进行音色转换处理，得到第三语音数据；
52.生成单元40，用于根据上述第三语音数据，生成动态视频，上述动态视频中的虚拟对象发出上述第三语音数据。
53.上述的装置中，获取单元获取目标数据，第一处理单元对上述目标数据进行预处理，得到第二语音数据，第二处理单元对上述第二语音数据进行音色转换处理，得到第三语音数据，生成单元根据上述第三语音数据，生成动态视频。该方案中，仅需要对目标数据进行预处理，对预处理后的第二语音数据进行音色转换处理，就可以直接得到新的语音数据，无需耗费大量的时间与成本来制作新的语音数据，基于第三语音数据就可以直接生成动态视频，无需复杂的3d建模过程，相比现有技术中通过长时间制作视频模板和tts音库的方式，上述的方案可以快速处理数据，进而可以快速响应用户对个性化角色的定制需求。并且，现有技术中制作新的虚拟对象时耗费的成本也较高，而本技术的上述方案也可以降低制作新的虚拟对象的制作成本，也提高了制作新的虚拟对象的效率。
54.具体地，上述的方案中，由于采用了音色转换处理，可以将a的语音转换为b的语音，这样可以生成千人一面的动态视频，生成的动态视频为音画一致的视频。
55.一种实施例中，虚拟对象可以为虚拟数字人，当然，还可以为其他的虚拟对象。
56.本技术的一种实施例中，在上述目标数据为上述第一文本数据的情况下，第一处理单元包括第一处理模块和第二处理模块，第一处理模块用于对上述第一文本数据的语种进行分类，得到上述第一文本数据的语种类别；第二处理模块用于按照上述语种类别，通过tts技术将上述第一文本数据转换为上述第二语音数据。该实施例中，由于将第一文本数据的语种进行了分类，在将第一文本数据转换为第二语音数据时，可以按照第一文本数据的语种类别进行转换，这样可以进一步保证数据转换时的处理速度较快。
57.具体地，语种可以为中文、英文、韩文、日文或者其他的语种，根据不同的语种，可以得到对应不同的语种类别的第一文本数据。
58.本技术的又一种实施例中，在上述目标数据为上述第一语音数据的情况下，第一处理单元包括第三处理模块和第四处理模块，第三处理模块用于对上述第一语音数据进行解码；第四处理模块用于对解码后的上述第一语音数据进行降噪处理，得到上述第二语音数据。该实施例中，目标数据为第一语音数据时，可能语音质量没有通过tts技术将文本数据转换为第二语音数据的语音质量好，因此，对第一语音数据进行解码以及降噪，可以保证得到的第二语音数据更加清晰准确，进一步保证了语音质量较好。
59.需要说明的是，当目标数据为第一语音数据时，可以不考虑实际用户的性别、音色和音高等差异音色，只需要将第一语音数据进行解码和降噪处理即可。
60.本技术的再一种实施例中，第二处理单元包括第一获取模块和转换模块，第一获取模块用于获取目标音色；转换模块用于将上述第二语音数据的音色转换为上述目标音
色。该实施例中，可以将第一语音数据的音色转换为目标音色，这样可以进一步直接地对第二语音数据的音色进行转换处理，而无需大量的建模以及训练的过程，进一步保证了数据处理的速度较快。
61.本技术的另一种实施例中，转换模块包括转换子模块，转换子模块用于采用vc技术将上述第二语音数据的音色转换为上述目标音色。该实施例中，采用vc技术来进行音色转换，进一步保证了转换的效果较好。
62.本技术的一种具体的实施例中，生成单元包括第二获取模块和生成模块，第二获取模块用于获取初始视频，上述初始视频包括当前拍摄的视频和/或预先存储的视频；生成模块用于将上述第三语音数据增加至上述初始视频中，得到上述动态视频。该实施例中，直接将第三语音数据增加至初始视频中，而无需采用大量的视频模板制作视频，这样可以更加直接且高效地生成动态视频。
63.本技术的又一种具体的实施例中，生成模块包括生成子模块，生成子模块用于采用avatar技术，将上述第三语音数据增加至上述初始视频中，得到上述动态视频。该实施例中，采用avatar技术可以更加高效快速地生成动态视频。
64.具体地，可以对初始视频的视频帧进行排序，按照视频帧序列，将第三语音数据增加至初始视频中，生成动态视频后可以将动态视频输出。
65.上述视频的生成装置包括处理器和存储器，上述获取单元、第一处理单元、第二处理单元和生成单元等均作为程序单元存储在存储器中，由处理器执行存储在存储器中的上述程序单元来实现相应的功能。
66.处理器中包含内核，由内核去存储器中调取相应的程序单元。内核可以设置一个或以上，通过调整内核参数来快速响应用户对个性化角色的定制需求。
67.存储器可能包括计算机可读介质中的非永久性存储器，随机存取存储器(ram)和/或非易失性内存等形式，如只读存储器(rom)或闪存(flash ram)，存储器包括至少一个存储芯片。
68.本发明实施例提供了一种计算机可读存储介质，其上存储有程序，该程序被处理器执行时实现上述视频的生成方法。
69.本发明实施例提供了一种处理器，上述处理器用于运行程序，其中，上述程序运行时执行上述视频的生成方法。
70.本发明实施例提供了一种设备，设备包括处理器、存储器及存储在存储器上并可在处理器上运行的程序，处理器执行程序时实现至少以下步骤：
71.步骤s101，获取目标数据，上述目标数据包括第一文本数据和/或第一语音数据，上述第一文本数据为控制机器人输入至终端中的数据，上述第一语音数据为接收到的语音数据；
72.步骤s102，对上述目标数据进行预处理，得到第二语音数据；
73.步骤s103，对上述第二语音数据进行音色转换处理，得到第三语音数据；
74.步骤s104，根据上述第三语音数据，生成动态视频，上述动态视频中的虚拟对象发出上述第三语音数据。
75.本文中的设备可以是服务器、pc、pad、手机等。
76.本技术还提供了一种计算机程序产品，当在数据处理设备上执行时，适于执行初
始化有至少如下方法步骤的程序：
77.步骤s101，获取目标数据，上述目标数据包括第一文本数据和/或第一语音数据，上述第一文本数据为控制机器人输入至终端中的数据，上述第一语音数据为接收到的语音数据；
78.步骤s102，对上述目标数据进行预处理，得到第二语音数据；
79.步骤s103，对上述第二语音数据进行音色转换处理，得到第三语音数据；
80.步骤s104，根据上述第三语音数据，生成动态视频，上述动态视频中的虚拟对象发出上述第三语音数据。
81.为了本领域技术人员能够更加清楚地了解本技术的技术方案，以下将结合具体的实施例来说明本技术的技术方案和技术效果。
82.实施例
83.本实施例涉及一种具体的视频的生成方法，如图3所示，包括如下步骤：
84.获取目标数据，目标数据包括第一文本数据和/或第一语音数据；
85.目标数据为第一文本数据的情况：第一文本数据为输入的文字“前途无量，整年超顺”，对第一文本数据的语种进行分类，得到第一文本数据的语种类别为中文，按照语种类别将文字转换为语音，通过tts将第一文本数据转换为第二语音数据，将文字“前途无量，整年超顺”转换为语音“前途无量，整年超顺”；
86.目标数据为第一语音数据的情况：第一语音数据为接收到的语音“今年希望风调雨顺呲呲”，对第一语音数据进行解码，对解码后的第一语音数据进行降噪处理，得到第二语音数据，将语音“今年希望风调雨顺呲呲”进行解码降噪处理后得到语音“今年希望风调雨顺”；
87.获取目标音色，目标音色为女生的音色，第二语音数据的音色为男生的音色，采用vc技术将第二语音数据的男生的音色转换为女生的音色，得到第三语音数据。；
88.获取初始视频，初始视频为女生正在说话的视频，采用avatar技术，将女生的音色按照视频帧序列添加至初始视频中，得到动态视频；
89.将动态视频输出。
90.在本发明的上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。
91.在本技术所提供的几个实施例中，应该理解到，所揭露的技术内容，可通过其它的方式实现。其中，以上所描述的装置实施例仅仅是示意性的，例如上述单元的划分，可以为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，单元或模块的间接耦合或通信连接，可以是电性或其它的形式。
92.上述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
93.另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单
元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。
94.上述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例上述方法的全部或部分步骤。而前述的存储介质包括：u盘、只读存储器(rom，read-only memory)、随机存取存储器(ram，random access memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
95.从以上的描述中，可以看出，本技术上述的实施例实现了如下技术效果：
96.1)、本技术的视频的生成方法，首先获取目标数据，之后对上述目标数据进行预处理，得到第二语音数据，之后对上述第二语音数据进行音色转换处理，得到第三语音数据，最后根据上述第三语音数据，生成动态视频。该方案中，仅需要对目标数据进行预处理，对预处理后的第二语音数据进行音色转换处理，就可以直接得到新的语音数据，无需耗费大量的时间与成本来制作新的语音数据，基于第三语音数据就可以直接生成动态视频，无需复杂的3d建模过程，相比现有技术中通过长时间制作视频模板和tts音库的方式，上述的方案可以快速处理数据，进而可以快速响应用户对个性化角色的定制需求。并且，现有技术中制作新的虚拟对象时耗费的成本也较高，而本技术的上述方案也可以降低制作新的虚拟对象的制作成本，也提高了制作新的虚拟对象的效率。
97.2)、本技术的视频的生成装置，获取单元获取目标数据，第一处理单元对上述目标数据进行预处理，得到第二语音数据，第二处理单元对上述第二语音数据进行音色转换处理，得到第三语音数据，生成单元根据上述第三语音数据，生成动态视频。该方案中，仅需要对目标数据进行预处理，对预处理后的第二语音数据进行音色转换处理，就可以直接得到新的语音数据，无需耗费大量的时间与成本来制作新的语音数据，基于第三语音数据就可以直接生成动态视频，无需复杂的3d建模过程，相比现有技术中通过长时间制作视频模板和tts音库的方式，上述的方案可以快速处理数据，进而可以快速响应用户对个性化角色的定制需求。并且，现有技术中制作新的虚拟对象时耗费的成本也较高，而本技术的上述方案也可以降低制作新的虚拟对象的制作成本，也提高了制作新的虚拟对象的效率。
98.以上上述仅为本技术的优选实施例而已，并不用于限制本技术，对于本领域的技术人员来说，本技术可以有各种更改和变化。凡在本技术的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本技术的保护范围之内。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

视频的生成方法、装置、计算机可读存储介质和处理器与流程

相关文献

最热文献