音色可控的视频声音合成模型及其构建方法、装置及应用

2022-11-19 07:24:07 来源：中国专利 TAG：

1.本技术涉及计算机视觉领域，特别是涉及一种音色可控的视频声音合成模型及其构建方法、装置及应用。

背景技术：

2.视频声音合成指的是合成逼真且自然的指定输入视频中的声音，在现有技术中虽然有许多方法应用于视频声音合成并且取到了较好的效果，然而，这些视频声音合成方法只能生成随机或平均音色，并没有针对合成的声音音色进行任何控制或专门的优化，导致在视频声音合成时无法获得所需音色的音频。

技术实现要素：

3.本技术实施例提供了一种音色可控的视频声音合成模型及其构建方法、装置及应用，可以实现对视频中的声音进行指定音色的合成。
4.第一方面，本技术实施例提供了一种音色可控的视频声音合成模型的构建方法，所述方法包括：
5.获取至少一训练视频，对所述训练视频标记对应的原始音频作为训练样本；
6.构建视频声音合成模型，对所述训练视频进行预处理后送入所述视频声音合成模型中的特征提取模块进行特征提取，分别得到时序特征、音色特征以及背景特征，将所述时序特征、所述音色特征、所述背景特征按照时间维度连接后进行重构并输入到解码器层得到预测结果；
7.使用时域校准鉴别器结合所述预测结果和对应所述训练视频的视频特征构建时序信息正负样本，使用多窗口梅尔频谱鉴别器结合所述预测结果和对应所述训练视频的原始音频信息构建音色信息正负样本，使用所述时序信息正负样本和所述音色信息正负样本对所述视频声音合成模型进行对抗训练，得到训练好的视频声音合成模型。
8.第二方面，本技术实施例提供了一种音色可控的视频声音合成模型，所述声音合成模型使用第一方面的构建方法构建得到。
9.第三方面，本技术实施例提供了一种音色可控的视频声音合成方法，包括：
10.获取一视频文件和一参考音频文件，将所述视频文件输入到所述声音合成模型的时序编码器中，将所述参考音频文件输入到所述声音合成模型的声学编码器中，将所述声音合成模型的背景编码器设置为空白，得到包含所述视频文件的时序特征和所述参考音频文件的音色特征的梅尔频谱，将所述梅尔频谱通过音频合成器得到合成音频文件。
11.第四方面，本技术实施例提供了一种音色可控的视频声音合成模型的构建装置，包括以下步骤：
12.获取模块：获取至少一训练视频，对所述训练视频标记对应的原始音频作为训练样本；
13.构建模块：构建视频声音合成模型，对所述训练视频进行预处理后送入所述视频
声音合成模型中的特征提取模块进行特征提取，分别得到时序特征、音色特征以及背景特征，将所述时序特征、所述音色特征、所述背景特征按照时间维度连接后进行重构并输入到解码器层得到预测结果；
14.训练模块：使用时域校准鉴别器结合所述预测结果和对应所述训练视频的视频特征构建时序信息正负样本，使用多窗口梅尔频谱鉴别器结合所述预测结果和对应所述训练视频的原始音频信息构建音色信息正负样本，使用所述时序信息正负样本和所述音色信息正负样本对所述视频声音合成模型进行对抗训练，得到训练好的视频声音合成模型。
15.第五方面，本技术实施例提供了一种电子装置，包括存储器和处理器，所述存储器中存储有计算机程序，所述处理器被设置为运行所述计算机程序以执行音色可控的视频声音合成模型的构建方法或音色可控的视频声音合成方法。
16.第六方面，本技术实施例提供了一种可读存储介质，其特征在于，所述可读存储介质中存储有计算机程序，所述计算机程序包括用于控制过程以执行过程的程序代码，所述过程包括音色可控的视频声音合成模型的构建方法或音色可控的视频声音合成方法。
17.本发明的主要贡献和创新点如下：
18.本技术实施例提出了一种音色可控的视频声音合成模型的构建方法，所述视频声音合成模型包括时序编码器、声学编码器和背景编码器，所述时序编码器用于对输入视频提取时序特征，且本发明设置了一个线性层，保证所述时序编码器只提供时序特征而不提供其他声学特征；所述声学编码器用于对输入视频的原始音频进行音色特征提取，同样在所述声学编码器中添加了随机重采样操作，保证所述声学编码器只包含音色信息而不包含时序信息；所述背景编码器用来提取所述输入视频中的背景声音信息，在所述背景编码器中添加了能量掩码操作，用来保证所述背景编码器只用来提取所述输出视频中得背景声音信息，而不包含时序信息和音色信息，此外，在所述声音合成模型的预测阶段，将所述背景编码器的背景声音信息设置为空白，以生成更加清晰的音频。本方案首次针对视频声音生成任务提出了一种音色可控的合成方法，填补了视频声音合成任务不能指定音色的技术空白，且实验结果表明，本方案提出的方法具有较高的合成效率并且可以合成高质量音频。
19.本技术的一个或多个实施例的细节在以下附图和描述中提出，以使本技术的其他特征、目的和优点更加简明易懂。
附图说明
20.此处所说明的附图用来提供对本技术的进一步理解，构成本技术的一部分，本技术的示意性实施例及其说明用于解释本技术，并不构成对本技术的不当限定。在附图中：
21.图1是根据本技术实施例的一种视频声音合成模型构建方法的流程图；
22.图2是根据本技术实施例的一种视频声音合成模型中时序编码器的结构图；
23.图3是根据本技术实施例的一种视频声音合成模型中声学编码器的结构图；
24.图4是根据本技术实施例的一种视频声音合成模型中背景编码器的结构图；
25.图5是根据本技术实施例的一种视频声音合成模型中梅尔频谱解码器的结构图；
26.图6是根据本技术实施例的一种视频声音合成模型中时域校准鉴别器的结构图；
27.图7是根据本技术实施例的一种视频声音合成模型中梅尔频谱鉴别器的结构图；
28.图8是根据本技术实施例的一种视频声音合成方法的流程结构图；
29.图9是根据本技术实施例根据所述声音合成结果进行对照实验的结果图；
30.图10是根据本技术实施例根据所述声音合成结果进行对照实验的结果可视化图；
31.图11是根据本技术实施例的声音合成结果质量对比统计图；
32.图12是根据本技术实施例的一种视频声音合成模型构建方法的结构框图；
33.图13是根据本技术实施例的电子装置的硬件结构示意图。
具体实施方式
34.这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本说明书一个或多个实施例相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本说明书一个或多个实施例的一些方面相一致的装置和方法的例子。
35.需要说明的是：在其他实施例中并不一定按照本说明书示出和描述的顺序来执行相应方法的步骤。在一些其他实施例中，其方法所包括的步骤可以比本说明书所描述的更多或更少。此外，本说明书中所描述的单个步骤，在其他实施例中可能被分解为多个步骤进行描述；而本说明书中所描述的多个步骤，在其他实施例中也可能被合并为单个步骤进行描述。
36.实施例一
37.本技术实施例提供了一种音色可控的音色可控的视频声音合成模型的构建方法，能够根据输入视频和参考音频，合成具有特定音色的音频。
38.具体地，参考图1，所述方法包括：
39.获取至少一训练视频，对所述训练视频标记对应的原始音频信息作为训练样本；
40.构建视频声音合成模型，对所述训练视频进行预处理后送入所述视频声音合成模型中的特征提取模块进行特征提取，分别得到时序特征、音色特征以及背景特征，将所述时序特征、所述音色特征、所述背景特征按照时间维度连接后进行重构后输入到解码器层得到预测结果；
41.使用时域校准鉴别器结合所述预测结果和对应所述训练视频的视频特征构建时序信息正负样本，使用多窗口梅尔频谱鉴别器结合所述预测结果和对应所述训练视频的原始音频信息构建音色信息正负样本，使用所述时序信息正负样本和所述音色信息正负样本对所述视频声音合成模型进行对抗训练，得到训练好的视频声音合成模型。
42.在一些实施例中，对所述至少一训练视频进行预处理的方法为：标准化处理所述训练视频，获取所述训练视频的视频信息并转换为对应的视频特征向量，获取所述训练视频的原始音频信息并转换为音频特征向量。
43.在一具体实施例中，标准化处理所述训练视频的步骤为：将所述训练视频的尺寸调整为256*340，每秒帧数为21.5帧，视频时长为10秒，音频采样率为22050hz，音频时长为10秒，这样的好处在于便于所述特征提取模块对时序特征进行提取，方便模型的后续训练，提高预测结果的准确性。
44.另外，本方案可利用长短傅里叶变换转换原始音频信息以得到应的音频特征向量。在本方案中，对所述原始音频信息采用长短傅里叶变换进行特征抽取将所述原始音频
信息变为80维度的梅尔频谱，所述原始音频信息的特征向量大小为80*860，所述训练视频的视频特征向量大小为2048*215
45.在一些实施例中，所述特征提取模块包括并行的时序编码器、声学编码器和背景编码器，所述时序编码器用来提取所述训练视频中的时序信息并对其进行编码得到时序特征，所述时序编码器包含多个1维卷积网络层和批标准化层，所述1维卷积网络层和所述批标准化层依次交错排列并顺序连接，之后再依次连接一个双向lstm网络和一个线性层，视频特征向量输入到所述时序编码器中经历多次1维卷积网络层的卷积处理和批标准化层的标准化处理后，输入到双向lstm网络和线性层中得到时序特征；所述声学编码器用来对所述训练视频中的原始音频信息进行音色特征的提取，所述声学编码器包含多个依次连接的声学自控单元，最后一个所述声学自控单元与双向lstm网络连接，音频特征向量输入到所述声学编码器中经历多次声学自控单元的提取后输入到双向lstm网络中得到音色特征；所述背景编码器用来对所述训练视频中的原始音频信息进行背景特征的提取，所述背景编码器包含一个能量掩码层和一个双向lstm网络，所述能量掩码层后连接一个双向lstm网络，音频特征向量输入到所述背景编码器中经历能量掩码层的提取后输入到双向lstm网络中得到背景特征。
46.进一步的，所述时序编码器用来对所述训练视频中的时序信息进行编码得到时序特征，其结构如图2所示，每一所述1维卷积网络层中包含relu激活函数，所述1维卷积网络层对所述训练视频的所述时序信息进行卷积操作后输入到所述批标准化层进行标准化，将标准化后的结果输入到一个双向lstm网络中进行编码，再将所述编码结果输入到所述线性层中得到时序特征，所述线性层用来限制所述时序特征中只包含时序信息而不包含其他信息。
47.具体的，所述时序信息表征所述训练视频的时间序列中，声音事件发生的时间序列位置信息。
48.进一步的，所述声学编码器用来对所述训练视频中原始音频信息的音色信息进行编码得到音色特征，其结构如图3所示，每一所述声学自控单元对所述音色信息进行随机重采样操作和分割操作，并扩展-收缩变换和随机交换所述时间序列中的张量，将所述声学自控单元的输出结果输入到所述双向lstm网络中进行编码，所述lstm网络中最后一层的隐层向量作为音色特征进行输出。
49.具体的，所述音色信息表征所述训练视频中不同声音发生事件的音色，音色被认为是发声物体固有的声学特征，不同类别对象之间的音色分布差异有时会很大，同一类物体的不同个体的音色通常具有特征的差异，本方案在对所述音色信息进行编码时，通过随机重采样变换操作中破坏所述音色信息中的时序信息，只保留其音色信息。在实际对需要合成音色的视频进行预测时，可用参考音频来预测音色特征。
50.进一步的，所述背景编码器用来对所述训练视频中原始音频信息的背景声音信息进行编码得到背景特征，其结构如图4所示，所述能量掩码层仅在训练阶段对所述训练视频中的背景声音信息中大于中位梅尔频谱能量的部分频谱进行掩码操作，将掩码后的结果输入到所述双向lstm网络中，所述双向lstm网络中最后一层的隐层向量作为背景特征进行输出。
51.具体的，所述背景声音信息表征所述训练视频中与音色无关的其他声学信息，例
如背景噪音或屏幕外背景声音，使用背景声音信息对所述声音合成模型进行训练，可以避免所述声音合成模型混淆，导致信息不匹配，因为所述背景声音信息在梅尔频谱中通常要比存在音色信息的部分小，所以使用能量掩码操作，掩盖住所述训练视频中音频对应的梅尔频谱中能量大于整个梅尔频谱的中值能量，所述能量掩码操作丢弃了时间序列信息和音色相关信息，只保留音频中的背景声音信息，在所述声音合成模型的训练阶段，所述背景声音信息用来合成目标梅尔频谱图，所述目标梅尔频谱为本方案通过所述音色可控的视频声音合成模型的合成结果，在所述声音合成模型的预测阶段，将所述背景声音信息设置为空白以生成更加清晰的音频，也就是说本方案在实际对需要合成音色的视频进行预测时，可用空白背景声音来预测背景特征。
52.在一些实施例中，在“将所述时序特征、所述音色特征、所述背景特征按照时间维度连接后进行重构后输入到解码器层得到预测结果”步骤中使用梅尔频谱解码器对所述时序特征、所述音色特征、所述背景特征进行重构。所述梅尔频谱解码器的第一层是一个上采样层，上采样层后连接多个前馈神经网络层，每一所述前馈神经网络层包含一个多头自注意力机制模块、一个1维卷积神经网络模块和两个残差归一化模块，每一所述多头自注意力机制模块和每一所述1维卷积神经网络模块后都紧跟一残差归一化模块，最后一个前馈神经网络层后连接一个线性层。
53.具体的，所述梅尔频谱解码器的结构如图5所示，所述上采样层对所述时序特征、音色特征、背景特征连接后的向量进行上采样操作，以保证连接后的向量在时间维度上与梅尔频谱的长度一致，所述前馈神经网络用来将所述连接后的向量转换为音频特征序列，所述线性层用于将所述音频特征序列的维度变换为梅尔频谱滤波器的个数来得到梅尔频谱，所述梅尔频谱滤波器的个数为人工设置，所述梅尔频普作为所述预测结果。
54.在一些实施例中，在“使用时域校准鉴别器结合所述预测结果和对应所述训练视频的视频特征构建时序信息正负样本”步骤中，所述时域校准鉴别器采用训练视频的视频特征和其对应的原始音频信息作为时序信息正样本，采用训练视频的视频特征和对应的预测结果特征作为时序信息负样本，所述视频特征由所述训练视频预处理提取得到。
55.所述时域校准鉴别器包含一个上采样层、一个1维卷积神经网络a以及若干个1维神经网络b和批标准化层，所述上采样层和所述1维卷积网络a并行排列，将所述上采样层的输出结果和所述1维卷积网络a的输出结果进行连接后送入1维卷积网络b中，所述1维卷积神经网络b后紧跟一批标准化层，若干个所述1维卷积网络b和若干个批标准化层依次交错排列，并顺序连接。
56.具体的，所述时域校准鉴别器的结构如图6所示，所述上采样层用于对所述训练视频的视频特征进行上采样操作，以保证视频特征在时间维度上与所述预测结果的梅尔频普特征一致，1维卷积神经网络a用来对所述预测结果的梅尔频普进行特征提取，所述1维卷积神经网络b和批标准化层用来对输入的特征向量进行降维操作。
57.具体的，所述时域校准鉴别器的损失函数l
dt
的计算公式如下：
[0058][0059]
其中l
real
代表正样本损失，l
fake
代表负样本损失，l
real
、l
fake
的计算公式如下：
[0060]
[0061][0062]
其中，s代表移位操作来构造负样本，v代表所述训练视频的视频特征，m代表与所述训练视频相对应的原始音频特征，代表训练视频对应的预测结果，即梅尔频谱，d
t
代表时域校准鉴别器。
[0063]
在一些实施例中，所述梅尔频谱鉴别器使用所述训练视频对应的原始音频信息构建正样本，使用预测结果的梅尔频谱构建负样本，所述梅尔频谱鉴别器包含若干层带有激活函数的非因果扩展1维卷积神经网络。
[0064]
示例性的，如图7所示，每层所述非因果扩展1维卷积神经网络带有一leakyrelu激活函数，其训练过程中多窗口梅尔频谱鉴别器的损失l
dm
的计算公式如下：
[0065][0066]
其中，dm表示多窗口梅尔频谱鉴别器，m表示所述训练视频对应的原始音频特征，代表训练视频对应的预测结果。
[0067]
在一些实施例中，使用音频合成器将所述预测结果生成对应的音频。
[0068]
示例性的，使用训练好的hifigan音频生成器将所述预测结果生成对应的音频，并计算所述hifigan音频生成器训练过程中的损失lg，其计算公式如下：
[0069][0070]
其中，λm、λa为超参数，l
mel
为梅尔频谱损失，l
adv
为对抗训练损失，l
mel
和l
adv
的计算过程如下：
[0071][0072][0073]
其中，v代表训练视频特征，m代表所述训练视频对应的原始音频特征，代表预测结果，d
t
代表所述时域校准鉴别器，dm代表所述多窗口梅尔频谱鉴别器。
[0074]
实施例二
[0075]
本技术实施例提供了一种音色可控的视频声音合成方法，其流程图如图8所示可以对视频的声音进行指定音色的合成，所述方法包括：
[0076]
获取一视频文件和一参考音频文件，将所述视频文件输入到所述声音合成模型的时序编码器中，将所述参考音频文件输入到所述声音合成模型的声学编码器中，将所述声音合成模型的背景编码器设置为空白，得到包含所述视频文件的时序特征和所述参考音频文件的音色特征的梅尔频谱，将所述梅尔频谱通过音频合成器得到合成音频文件。
[0077]
示例性的，为了验证本技术实施例在合成音频文件的音色可控方面的有效性，本技术实施例进行了对照试验，使用梅尔倒谱距离(mcd)得分作为标准，mcd得分越低代表合成音频文件越接近预测结果的梅尔频谱，本技术实施例分别评估了背景声音信息、时序信息和音色信息对合成音频文件的影响，实验结果如图9所示，包含全部信息的合成音频文件在所有实验中得分第二低，而带有背景声音信息的合成音频文件在所有实验中得分最低，因为当背景噪声存在时，音频的重建质量和音频质量之间存在折中，具体的，时序信息、音色信息、背景声音信息都是重建目标梅尔频谱图所必须的，当丢弃其中一个信息时，生成的
结果与目标音频之间的距离会更大，同事，音色信息对重构音频质量的影响更为显著，去除音色信息的生成结果获得了第二小的mcd分数，虽然带有背景信息的模型的取得最小的mcd分数，但语音质量并不高，所以证明本技术实施例提出的音色编码器的有效性。
[0078]
具体的，为了更好地说明上述实验结果，本实施例将梅尔频谱图重建结果进行了可视化，如图10所示，可以观察到，当去除时间信息时，输出的梅尔谱图变成了在时间序列上均匀分布的无意义内容，而当去除了音色信息时，输出变成了没有特定频谱特征的随机音色，在进行声音合成时添加背景声音信息后，梅尔谱图的背景噪声变得更亮。
[0079]
示例性的，本技术实施例使用的计算机硬件配置和模型参数配置如下：
[0080]
显卡为单张nvidia geforce rtx 3090；批大小为48；adamw优化器，β1＝0.5，β2＝0.999，∈＝1e-8；声学编码器中自控声学单元个数为5个，时序编码器1维卷积神经网络为8层，时域校准鉴别器1维卷积神经网络为4层，梅尔频谱解码器中前馈transformer网络个数为4个。
[0081]
示例性的，本技术实施例采用主观评价方法(mos)将合成音频文件在生成语音质量、与视频的时序对齐度以及与参考音频的音色相似度这三方面进行了统计比较，统计结果如图11所示，图11表明，本方案提出的音频文件合成方法在生成语音质量、与视频的时序对齐度和与参考音频的音色相似度方面优于基线方法，在生成语音质量和与视频的时序对齐度方面更加接近真实值，在音色相似度方面较为接近参考音频，综上所述，本技术实施例提出的方法能够合成自然、高质量的语音。
[0082]
实施例三
[0083]
基于相同的构思，参考图12，本技术还提出了一种音色可控的视频声音合成模型构建装置，包括：
[0084]
获取模块：获取至少一训练视频，对所述训练视频标记对应的原始音频作为训练样本；
[0085]
构建模块：构建视频声音合成模型，对所述训练视频进行预处理后送入所述视频声音合成模型中的特征提取模块进行特征提取，分别得到时序特征、音色特征以及背景特征，将所述时序特征、所述音色特征、所述背景特征按照时间维度连接后进行重构并输入到解码器层得到预测结果；
[0086]
训练模块：使用时域校准鉴别器结合所述预测结果和对应所述训练视频的视频特征构建时序信息正负样本，使用多窗口梅尔频谱鉴别器结合所述预测结果和对应所述训练视频的原始音频信息构建音色信息正负样本，使用所述时序信息正负样本和所述音色信息正负样本对所述视频声音合成模型进行对抗训练，得到训练好的视频声音合成模型。
[0087]
实施例四
[0088]
本实施例还提供了一种电子装置，参考图13，包括存储器404和处理器402，该存储器404中存储有计算机程序，该处理器402被设置为运行计算机程序以执行上述任一项方法实施例中的步骤。
[0089]
具体地，上述处理器402可以包括中央处理器(cpu)，或者特定集成电路(applicationspecificintegratedcircuit，简称为asic)，或者可以被配置成实施本技术实施例的一个或多个集成电路。
[0090]
其中，存储器404可以包括用于数据或指令的大容量存储器404。举例来说而非限
制，存储器404可包括硬盘驱动器(harddiskdrive，简称为hdd)、软盘驱动器、固态驱动器(solidstatedrive，简称为ssd)、闪存、光盘、磁光盘、磁带或通用串行总线(universalserialbus，简称为usb)驱动器或者两个或更多个以上这些的组合。在合适的情况下，存储器404可包括可移除或不可移除(或固定)的介质。在合适的情况下，存储器404可在数据处理装置的内部或外部。在特定实施例中，存储器404是非易失性(non-volatile)存储器。在特定实施例中，存储器404包括只读存储器(read-onlymemory，简称为rom)和随机存取存储器(randomaccessmemory，简称为ram)。在合适的情况下，该rom可以是掩模编程的rom、可编程rom(programmableread-onlymemory，简称为prom)、可擦除prom(erasableprogrammableread-onlymemory，简称为eprom)、电可擦除prom(electricallyerasableprogrammableread-onlymemory，简称为eeprom)、电可改写rom(electricallyalterableread-onlymemory，简称为earom)或闪存(flash)或者两个或更多个以上这些的组合。在合适的情况下，该ram可以是静态随机存取存储器(staticrandom-accessmemory，简称为sram)或动态随机存取存储器(dynamicrandomaccessmemory，简称为dram)，其中，dram可以是快速页模式动态随机存取存储器404(fastpagemodedynamicrandomaccessmemory，简称为fpmdram)、扩展数据输出动态随机存取存储器(extendeddateoutdynamicrandomaccessmemory，简称为edodram)、同步动态随机存取内存(synchronousdynamicrandom-accessmemory，简称sdram)等。
[0091]
存储器404可以用来存储或者缓存需要处理和/或通信使用的各种数据文件，以及处理器402所执行的可能的计算机程序指令。
[0092]
处理器402通过读取并执行存储器404中存储的计算机程序指令，以实现上述实施例中的任意一种声音合成模型构建方法或一种声音合成方法。
[0093]
可选地，上述电子装置还可以包括传输设备406以及输入输出设备408，其中，该传输设备406和上述处理器402连接，该输入输出设备408和上述处理器402连接。
[0094]
传输设备406可以用来经由一个网络接收或者发送数据。上述的网络具体实例可包括电子装置的通信供应商提供的有线或无线网络。在一个实例中，传输设备包括一个网络适配器(network interface controller，简称为nic)，其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中，传输设备406可以为射频(radio frequency，简称为rf)模块，其用于通过无线方式与互联网进行通讯。
[0095]
输入输出设备408用于输入或输出信息。在本实施例中，输入的信息可以是训练视频及其原始音频，参考音频等，输出的信息梅尔频谱、合成音频等。
[0096]
可选地，在本实施例中，上述处理器402可以被设置为通过计算机程序执行以下步骤：
[0097]
s101、获取至少一训练视频，对所述训练视频标记对应的原始音频作为训练样本；
[0098]
s102、构建视频声音合成模型，对所述训练视频进行预处理后送入所述视频声音合成模型中的特征提取模块进行特征提取，分别得到时序特征、音色特征以及背景特征，将所述时序特征、所述音色特征、所述背景特征按照时间维度连接后进行重构并输入到解码器层得到预测结果；
[0099]
s103、使用时域校准鉴别器结合所述预测结果和对应所述训练视频的视频特征构建时序信息正负样本，使用多窗口梅尔频谱鉴别器结合所述预测结果和对应所述训练视频
的原始音频信息构建音色信息正负样本，使用所述时序信息正负样本和所述音色信息正负样本对所述视频声音合成模型进行对抗训练，得到训练好的视频声音合成模型。
[0100]
需要说明的是，本实施例中的具体示例可以参考上述实施例及可选实施方式中所描述的示例，本实施例在此不再赘述。
[0101]
通常，各种实施例可以以硬件或专用电路、软件、逻辑或其任何组合来实现。本发明的一些方面可以以硬件来实现，而其他方面可以以可以由控制器、微处理器或其他计算设备执行的固件或软件来实现，但是本发明不限于此。尽管本发明的各个方面可以被示出和描述为框图、流程图或使用一些其他图形表示，但是应当理解，作为非限制性示例，本文中描述的这些框、装置、系统、技术或方法可以以硬件、软件、固件、专用电路或逻辑、通用硬件或控制器或其他计算设备或其某种组合来实现。
[0102]
本发明的实施例可以由计算机软件来实现，该计算机软件由移动设备的数据处理器诸如在处理器实体中可执行，或者由硬件来实现，或者由软件和硬件的组合来实现。包括软件例程、小程序和/或宏的计算机软件或程序(也称为程序产品)可以存储在任何装置可读数据存储介质中，并且它们包括用于执行特定任务的程序指令。计算机程序产品可以包括当程序运行时被配置为执行实施例的一个或多个计算机可执行组件。一个或多个计算机可执行组件可以是至少一个软件代码或其一部分。另外，在这一点上，应当注意，如图13中的逻辑流程的任何框可以表示程序步骤、或者互连的逻辑电路、框和功能、或者程序步骤和逻辑电路、框和功能的组合。软件可以存储在诸如存储器芯片或在处理器内实现的存储块等物理介质、诸如硬盘或软盘等磁性介质、以及诸如例如dvd及其数据变体、cd等光学介质上。物理介质是非瞬态介质。
[0103]
本领域的技术人员应该明白，以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。
[0104]
以上实施例仅表达了本技术的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本技术范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本技术构思的前提下，还可以做出若干变形和改进，这些都属于本技术的保护范围。因此，本技术的保护范围应以所附权利要求为准。

再多了解一些

1/2 1 2 下一页尾页

本文用于创业者技术爱好者查询，仅供学习研究，如用于商业用途，请联系技术所有人。

上一篇：返回列表
下一篇：语音合成方法、装置、计算机设备及存储介质与流程

音色可控的视频声音合成模型及其构建方法、装置及应用

相关文献

最热文献