一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

基于语音合成的影片修复方法、装置、设备及介质与流程

2021-09-04 02:55:00 来源:中国专利 TAG:人工智能 介质 修复 装置 影片


1.本发明涉及人工智能技术领域,尤其涉及一种基于语音合成的影片修复方法、装置、设备及介质。


背景技术:

2.在影片修复过程中,画质修复技术已经较为成熟,且结合人工智能技术也得到较大发展。但是,声音修复一直是一个难题,尤其针对一些珍贵的早期影视,由于时代变迁给胶片载体带来了不同伤害,很多影片仅保留了图像片段但缺失对应的声音片段。
3.传统影片声音片段修复技术主要是通过物理及化学手段对胶片进行修复,如去除声迹上的胶接点、修理斑点和断裂的片孔等。现有数字化修复技术通过滤波器或虚拟声音波形可以轻松处理刮擦声、喀哒声等不良录音。但是,针对影片声音缺失片段问题仍然没有较好的处理办法。


技术实现要素:

4.本发明实施例提供一种基于语音合成的影片修复方法、装置、设备及介质,以解决目前对于影片的声音缺失片段无法修复的问题。
5.一种基于语音合成的影片修复方法,包括:
6.获取待修复影片中的音频缺失片段;其中,所述音频缺失片段对应至少一个目标演员;每一所述目标演员对应一目标音频文本以及演员标识;
7.将每一所述目标演员的目标音频文本以及所述演员标识输入至预训练的多说话人语音合成模型中进行语音合成,以得到每一所述目标演员对应的合成语音;
8.根据每一目标演员对应的所述合成语音修复所述待修复影片中的音频缺失片段。
9.一种基于语音合成的影片修复装置,包括:
10.数据获取模块,用于获取待修复影片中的音频缺失片段;其中,所述音频缺失片段对应至少一个目标演员;每一所述目标演员对应一目标音频文本以及演员标识;
11.语音合成模块,用于将每一所述目标演员的目标音频文本以及所述演员标识输入至预训练的多说话人语音合成模型中进行语音合成,以得到每一所述目标演员对应的合成语音;
12.音频修复模块,用于根据每一目标演员对应的所述合成语音修复所述待修复影片中的音频缺失片段。
13.一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述基于语音合成的影片修复方法的步骤。
14.一种计算机存储介质,所述计算机存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述基于语音合成的影片修复方法的步骤。
15.上述基于语音合成的影片修复方法、装置、设备及介质中,通过获取待修复影片中
的音频缺失片段,以便针对音频缺失片段对应的多个演员标识以及每一演员标识对应的目标音频文本合成符合该演员标识对应的目标演员的声音特色的合成语音,即将每一所述目标演员的目标音频文本以及所述演员标识输入至预训练的多说话人语音合成模型中进行语音合成,以得到每一所述目标演员对应的合成语音,从而实现多说话人端到端的语音合成。最后,根据每一目标演员对应的所述合成语音修复所述待修复影片中的音频缺失片段,实现对影片中音频缺失片段的自动修复。
附图说明
16.为了更清楚地说明本发明实施例的技术方案,下面将对本发明实施例的描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
17.图1是本发明一实施例中基于语音合成的影片修复方法的一应用环境示意图;
18.图2是本发明一实施例中基于语音合成的影片修复方法的一流程图;
19.图3是本发明一实施例中基于语音合成的影片修复方法的一流程图;
20.图4是图3中步骤s304的一具体流程图;
21.图5是图2中步骤s301的一具体流程图;
22.图6是本发明一实施例中基于语音合成的影片修复装置的一示意图。
23.图7是本发明一实施例中计算机设备的一示意图。
具体实施方式
24.下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
25.该基于语音合成的影片修复方法可应用在如图1的应用环境中,其中,计算机设备通过网络与服务器进行通信。计算机设备可以但不限于各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备。服务器可以用独立的服务器来实现。
26.在一实施例中,如图2所示,提供一种基于语音合成的影片修复方法,以该方法应用在图1中的服务器为例进行说明,包括如下步骤:
27.s201:获取待修复影片中的音频缺失片段;其中,音频缺失片段对应至少一个目标演员;每一目标演员对应一目标音频文本。
28.其中,待修复影片即为存在部分或全部音频缺失的影片。该待修复影片中所包含的音频缺失片段中可能由一个或多个不同的演员(即目标演员)演绎,而每一目标演员的音色不同,故需要针对不同的演员合成符合该演员声音特色的语音。进一步地,不同的演员在影片中的台词不同,故针对每一目标演员所对应的音频缺失子片段的音频文本序列不同,即每一目标演员均对应一目标音频文本。该目标音频文本即为音频缺失子片段中由对应目标演员所演绎的部分音频所对应的台词文本。
29.s202:将目标演员的目标音频文本以及演员标识输入至预训练的多说话人语音合
成模型中进行语音合成,以得到每一目标演员对应的合成语音。
30.其中,多说话人语音合成模型包括身份特征提取网络以及多说话人语音合成网络,用于实现所说话人端到端的语音合成;该多说话人语音合成网络基于tacotron2模型训练得到,通过该tacotron2模型进行语音合成,可使获得的合成语音能够更接近电影原声。该tacotron2模型包括编码器、第一拼接模块、基于注意力机制的解码器以及第二拼接模块;身份特征提取网络分别与第一拼接模块以及第二拼接模块连接。所述编码器用于提取文本特征;所述第一拼接模块用于拼接所述文本特征与通过所述身份特征提取网络所提取的身份特征;所述基于注意力机制的解码器用于预测输出梅尔频谱帧序列;所述第二拼接模块用于拼接所述梅尔频谱帧序列和所述身份特征。
31.可以理解地是,为实现多说话人的语音合成,即打破传统tacotron2模型仅能适用单一说话人的语音合成场景,本实施例中的多说话人语音合成模型在传统的tacotron2模型的基础上引入一分支网络即身份特征提取网络,以及与所述身份特征提取网络相连的第一拼接模块以及第二拼接模块,实现多说话人的语音合成。其中,本实施例中的tacotron2模型与传统的tacotron2模型一致。上述身份特征提取网络是预先通过不同演员的演员标识以及其对应的音频训练得到的说话人识别模型中的特征提取网络,用于根据演员标识(speaker id)进行特征编码,得到身份特征(speaker embadding)。该第一拼接模块与编码器相连,用于将编码器的输出与身份特征拼接。该第二拼接模块与基于注意力机制的解码器连接,用于将解码器的输出与身份特征拼接。
32.具体地,通过将每一所述目标演员的目标音频文本以及所述演员标识输入至预训练的多说话人语音合成模型中进行语音合成,以得到每一所述目标演员对应的合成语音,即实现多说话人端到端的语音合成,从而得到音频片段中的每一目标演员对应的符合其音色的合成语音,进而为影片的声音修复提供技术来源。
33.进一步地,为进一步保证合成语音的音质,还可通过修音工具针对合成语音进行微调,并输出音质更佳的合成语音。
34.s203:根据每一目标演员对应的合成语音修复待修复影片中的音频缺失片段。
35.具体地,通过视频编辑工具(如premiere)将不同目标演员的合成语音代替待修复影片中个目标演员所对应的音频缺失子片段,从而实现对待修复影片中的音频缺失片段的修复。
36.本实施例中,通过获取待修复影片中的音频缺失片段,以便针对音频缺失片段对应的多个演员标识以及每一演员标识对应的目标音频文本合成符合该演员标识对应的目标演员的声音特色的合成语音,即将每一所述目标演员的目标音频文本以及所述演员标识输入至预训练的多说话人语音合成模型中进行语音合成,以得到每一所述目标演员对应的合成语音,从而实现多说话人端到端的语音合成。最后,根据每一目标演员对应的所述合成语音修复所述待修复影片中的音频缺失片段,实现对影片中音频缺失片段的自动修复。
37.在一实施例中,如图3所示,该基于语音合成的影片修复方法还包括如下步骤:
38.s301:采集目标演员在相同或不同影片中对应的目标音频样本,并将所述目标音频样本转换为压缩格式文件;其中,所述目标音频样本对应一文本序列。
39.其中,由于后续需要合成符合目标演员音色的合成语音,故需要采用该目标演员对应的音频样本进行有监督训练。具体地,通过采集音频缺失片段中不同目标演员在该影
片或其他影片中的多个原声样本作为目标音频样本。本实施例中,该多个原声样本对应的音频时长的总和需大于一预设阈值,例如5分钟,从而有利于后续提取样本特征,避免由于时长太短导致后续提取的频谱特征具备偶然性。于本实施例中,每一原声样本可为一句简单的台词,约10秒左右,每一目标演员需要采集30个原声样本。需要说明的是,针对原声样本的采集时间以及样本数量可根据实际需要进行调整,此处不做限定。
40.进一步地,若采集该目标演员不同影片中的音频样本时,可选择影片年份相同或相近的多个影片采集,保证演员的音色特征不会因时间的推移产生变化,保证样本质量。
41.具体地,本实施例中为保证影片修复后的合成语音的音质精度,故需要将音频样本转换为压缩格式文件。其中,压缩格式文件可为mp3格式文件或wav格式文件。进一步,由于wav格式文件是最接近无损的音频格式,而mp3的无损压缩文件中通过对音频进行编码,去掉某些部分,以达到节省空间的目的,故本实施例中将音频样本转换为无损的wav格式文件。
42.s302:将压缩格式文件转换为梅尔频谱序列作为真实标签。
43.具体地,由于tacotron2模型中主要预测文本序列对应的梅尔频谱帧,然后采用声码器生成该梅尔频谱帧的时域波形,即生成合成语音,实现端到端语音合成的目的。
44.本实施例中,通过傅里叶变换算法将音频样本转换为梅尔频谱序列,以作为后续训练tacotron2模型的真实标签,即表征某一文本序列对应真实语音的梅尔频谱序列。其中,该傅里叶变换算法可采用短时傅里叶变换(stft),或其他傅里叶变换算法,此处不做限定。
45.s303:将目标演员的演员标识输入至预训练的身份特征提取网络,提取目标演员的身份特征。
46.其中,身份特征提取网络可通过预先采用部分演员的音频样本,即将演员标识以及对应的演员语音作为训练样本进行训练,用于提取演员的身份特征。通过将所述目标演员的演员标识输入至预训练的身份特征提取网络,提取所述目标演员的身份特征,为后续端到端合成目标演员的合成语音提供技术来源。
47.s304:基于真实标签、文本序列以及身份特征,对预训练的tacotron2模型进行微调,以得到多说话人语音合成网络。
48.其中,所述tacotron2模型包括编码器、第一拼接模块、基于注意力机制的解码器以及第二拼接模块。具体地,通过利用现有大语料库训tacotron2模型,以获得预训练的tacotron2模型,然后再根据真实标签、所述文本序列以及所述目标演员的身份特征,在预训练的tacotron2模型上进行微调再学习,即可得到多说话人语音合成网络,从而根据身份特征网络以及已微调后的多说话人语音合成网络,构建多说话人语音合成模型,以便后续可直接根据不同目标演员的演员标识以及对应的文本序列,合成该演员标识对应的语音,实现多说话人端到端语音合成的目的。
49.进一步地,在采集所述目标演员在相同或不同影片中的音频样本之后,为保证样质量,本实施例中采用自适应滤波器降噪算法对所述目标音频样本进行降噪处理,获取降噪后的目标音频样本,以更新所述目标音频样本。
50.于实施例中,该自适应滤波器降噪算法可为最小均方(lms)算法,该lms算法是一种常见的自适应滤波器降噪算法,该算法首先通过期望信号与实际信号的误差,再通过最
陡下降法,进行与误差成一定步长的迭代运算,更新滤波的权值参数,从而实现降噪。
51.在一实施例中,如图4所示,该基于语音合成的影片修复方法还包括如下步骤:
52.s401:通过编码器提取音频文本序列的文本特征。
53.s402:通过第一拼接模块拼接文本特征与身份特征,得到第一拼接特征。
54.s403:通过基于注意力机制的解码器基于第一拼接特征以及上一轮输出的第二拼接特征,预测输出音频文本序列对应的第一梅尔频谱帧序列。其中,第二拼接特征为上一轮解码器预测输出的第二梅尔频谱帧序列与身份特征的拼接特征;
55.s404:通过第二拼接模块拼接第一梅尔频谱帧序列与所述身份特征,得到第二拼接特征,并将第二拼接特征作为下一轮解码器的输入。
56.本实施例中,对于tacotron2模型中仅能适用单一身份的语音合成场景进行模型架构的改进,使其适用于多身份的语音合成场景。在tacotron2模型中一般包括编码器以及基于注意力机制的解码器。在tacotron2中,该编码器为用于提取文本特征的特征编码器;该基于注意力机制的解码器是一个自回归的循环神经网络,根据编码器的输出序列(即第一拼接特征)预测输出梅尔频谱帧序列。为实现多身份的语音合成场景,通过在编码器的输出端引入一第一拼接模块,用于拼接编码器输出的文本特征以及身份特征;以及在解码器的输出端引入第二拼接模块,用于拼接当前解码器预测输出的第一梅尔频帧序列与身份特征。更进一步地,该tacotron2模型中还包括一声码器,该声码器用于根据解码器预测输出的梅尔频谱帧序列生成对应的时域波形,即可作为合成语音。
57.具体地,为便于理解此处以tacotron2模型中的部分结构作为示例,对本实施例中的第一拼接模块以及第二拼接模块运用在tacotron2模型中的具体过程进行解释说明。
58.其中,首先通过编码器提取所述音频文本序列的文本特征,即编码器的隐状态变量。该编码器包括字符嵌入层(character embedding),一组由3层一维卷积构成的卷积层、批归一化激活层以及一双向lstm层。
59.具体地,对于编码器提取所述音频文本序列的文本特征的执行步骤如下:首先通过字符嵌入层将输入的音频文本序列编码为512维的字符向量,然后通过三层一维卷积(其中,每层卷积包含512个5x1的卷积核),然后通过批归一化激活层对卷积层的输出进行批归一化处理,并使用relu激活;最后将激活后的输出输入至双向lstm层进行处理,该层所输出的隐状态变量即为文本特征。
60.然后,将编码器对文本传入基于注意力机制的解码器,该基于注意力机制的解码器包括“pre

net”层(该pre

net为每层由256个隐藏relu单元组成的双层全连接层)、注意力网络、lstm层、线性投影层以及后处理网络。
61.具体地,对于基于注意力机制的解码器的执行步骤如下:首先将上一轮预测出的第二梅尔频谱帧序列(即指示上一轮解码器的预测输出)传入一个“pre

net”层,然后,将pre

net层的输出和注意力上下文向量拼接,传入一两层堆叠的由n个(如1024个)单元组成的单向lstm层。lstm层的输出再次和注意力上下文向量拼接,然后再通过线性投影来预测一频谱帧序列,接着将该频谱帧序列通过一个5层卷积构成的postnet(后处理网络),再将该输出和线性投影层的输出相加(即残差连接)作为预测输出的第一梅尔频谱帧序列(即指示当前轮解码器的预测输出),通过第二拼接模块拼接该解码器预测输出的第一梅尔频谱帧序列与身份特征,并作为下一轮解码器的输入。其中,对于注意力上下文向量的计算与传
统tacotron2模型中的计算一致,即采用混合注意力机制计算注意力上下文向量,公式如下其中,w、u、v、f、b为训练参数,s
i
表示当前解码器的隐状态变量,cα
i
‑1为之前解码处理的累积注意力权重,f
i,j
表示注意力权重α
i
‑1经卷积后所得到的位置特征,h
j
表示第j个编码器的隐状态。通过该公式可计算每一编码器对应的注意力权重,然后将注意力权重与对应的解码器隐状态加权加权平均,得到注意力上下文向量。
62.s405:基于第一梅尔频谱帧序列以及真实标签,计算网络损失。
63.s406:根据网络损失,更新模型参数,并重复执行通过编码器提取音频文本序列的文本特征的步骤,直至网络收敛,得到多说话人语音合成网络。
64.其中,本实施例中的网络损失与传统tacotron2模型的网络损失的构建保持一致,即包括频谱损失、后处理网络的损失以及模型参数的正则项。具体地,在得到解码器的预测输出后,还可基于预测输出的第一梅尔频谱序列以及所述真实标签,计算频谱损失,并根据后处理网络输入前的数据以及输入后数据的均方误差计算后处理网络的损失,并根据模型参数的正则项(即其中,w表示模型参数、p表示模型参数的总数、λ表示正则系数),将上述参数进行累加,即可得到该网络损失;然后根据所述网络损失,更新需要训练的模型参数,并重复执行所述通过所述编码器提取所述音频文本序列的文本特征的步骤,直至网络收敛,得到所述多说话人语音合成网络。需要说明的是,网络更新的过程与传统tacotron2模型的更新过程一致,此处不再赘述。
65.在一实施例中,如图5所示,步骤s301中,即采集所述目标演员在相同或不同影片中的目标音频样本,包括:
66.s501:采用预先训练好的声纹识别模型识别影片中的多个原始音频样本,获取识别结果;其中,识别结果用于指示每一原始音频样本对应的演员标识。
67.s502:若识别结果所指示的演员标识为目标演员,则将演员标识对应的原始音频样本作为目标音频样本。
68.其中,原始音频样本可为每一演员的一句台词或一句话,通过将每一原始音频样本输入至预先训练好的声纹识别模型进行识别,以便对原始音频样本按演员标识进行分类,即可自动识别每一原始音频样本对应的目标演员,从而实现不同目标言演员音频样本的自动采集。
69.应理解,上述实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本发明实施例的实施过程构成任何限定。
70.在一实施例中,提供一种基于语音合成的影片修复装置,该基于语音合成的影片修复装置与上述实施例中基于语音合成的影片修复方法一一对应。如图6所示,该基于语音合成的影片修复装置包括数据获取模块10、语音合成模块20和音频修复模块30。各功能模块详细说明如下:
71.数据获取模块10,用于获取待修复影片中的音频缺失片段;其中,所述音频缺失片段对应至少一个目标演员;每一所述目标演员对应一目标音频文本以及演员标识。
72.语音合成模块20,用于将每一所述目标演员的目标音频文本以及所述演员标识输入至预训练的多说话人语音合成模型中进行语音合成,以得到每一所述目标演员对应的合成语音。
73.音频修复模块30,用于根据每一目标演员对应的所述合成语音修复所述待修复影片中的音频缺失片段。
74.具体地,多说话人语音合成模型包括身份特征提取网络以及基于tacotron2模型训练得到的多说话人语音合成网络;所述tacotron2模型包括依次连接的编码器、第一拼接模块、基于注意力机制的解码器以及第二拼接模块;所述身份特征提取网络分别与所述第一拼接模块以及所述第二拼接模块连接;所述编码器用于提取文本特征;所述第一拼接模块用于拼接所述文本特征与通过所述身份特征提取网络所提取的身份特征;所述基于注意力机制的解码器用于预测输出梅尔频谱帧序列;所述第二拼接模块用于拼接所述梅尔频谱帧序列和所述身份特征。
75.具体地,该基于语音合成的影片修复装置还包括样本采集模块、频谱转换模块、身份特征提取模块以及模型微调模块模型。
76.样本采集模块,用于采集所述目标演员在相同或不同影片中对应的目标音频样本,并将所述目标音频样本转换为压缩格式文件;其中,所述目标音频样本对应一文本序列。
77.频谱转换模块,用于将所述压缩格式文件转换为梅尔频谱序列作为真实标签。
78.身份特征提取模块,用于将所述目标演员的演员标识输入至预训练的身份特征提取网络,提取所述目标演员的身份特征。
79.模型微调模块,用于基于所述真实标签、所述文本序列以及所述身份特征,对预训练的tacotron2模型进行微调,以得到所述多说话人语音合成网络。
80.具体地,模型微调模块包括文本特征提取模块、第一拼接模块、解码模块、第二拼接模块、网络损失计算模块以及网络更新模块。
81.文本特征提取模块,用于通过所述编码器提取所述文本序列的文本特征;
82.第一拼接模块,用于通过所述第一拼接模块拼接所述文本特征与所述身份特征,得到第一拼接特征。
83.解码模块,用于通过基于注意力机制的解码器基于所述第一拼接特征以及上一轮输出的第二拼接特征,预测输出所述音频文本序列对应的第一梅尔频谱帧序列;其中,所述第二拼接特征为上一轮解码器预测输出的第二梅尔频谱帧序列与所述身份特征的拼接特征。
84.第二拼接模块,用于通过所述第二拼接模块拼接所述第一梅尔频谱帧序列与所述身份特征,得到第二拼接特征,并将所述第二拼接特征作为下一轮解码器的输入。
85.网络损失计算模块,用于基于所述第一梅尔频谱帧序列以及所述真实标签,计算网络损失。
86.网络更新模块,用于根据所述网络损失,更新所述模型参数,并重复执行所述通过所述编码器提取所述音频文本序列的文本特征的步骤,直至网络收敛,得到所述多说话人语音合成网络。
87.具体地,样本采集模块包括识别单元以及样本自动采集单元。
88.识别单元,用于采用预先训练好的声纹识别模型识别所述影片中的多个原始音频样本,获取识别结果;其中,所述识别结果用于指示每一所述原始音频样本对应的演员标识。
89.样本自动采集单元,用于若所述识别结果所指示的演员标识为所述目标演员,则将所述演员标识对应的原始音频样本作为目标音频样本。
90.具体地,在所述采集所述目标演员在相同或不同影片中对应的目标音频样本之后该基于语音合成的影片修复装置还包括降噪单元,用于采用自适应滤波器降噪算法对所述目标音频样本进行降噪处理,获取降噪后的音频文本。
91.关于基于语音合成的影片修复装置的具体限定可以参见上文中对于基于语音合成的影片修复方法的限定,在此不再赘述。上述基于语音合成的影片修复装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
92.在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图7所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括计算机存储介质、内存储器。该计算机存储介质存储有操作系统、计算机程序和数据库。该内存储器为计算机存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储执行基于语音合成的影片修复方法过程中生成或获取的数据,如多说话人语音合成模型。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种基于语音合成的影片修复方法。
93.在一个实施例中,提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时实现如下步骤:
94.获取待修复影片中的音频缺失片段;其中,所述音频缺失片段对应至少一个目标演员;每一所述目标演员对应一目标音频文本以及演员标识;
95.将每一所述目标演员的目标音频文本以及所述演员标识输入至预训练的多说话人语音合成模型中进行语音合成,以得到每一所述目标演员对应的合成语音;
96.根据每一目标演员对应的所述合成语音修复所述待修复影片中的音频缺失片段。
97.或者,处理器执行计算机程序时实现基于语音合成的影片修复装置这一实施例中的各模块/单元的功能,例如图6所示的各模块/单元的功能,为避免重复,这里不再赘述。
98.在一实施例中,提供一计算机存储介质,该计算机存储介质上存储有计算机程序,该计算机程序被处理器执行时实现如下步骤:
99.获取待修复影片中的音频缺失片段;其中,所述音频缺失片段对应至少一个目标演员;每一所述目标演员对应一目标音频文本以及演员标识;
100.将每一所述目标演员的目标音频文本以及所述演员标识输入至预训练的多说话人语音合成模型中进行语音合成,以得到每一所述目标演员对应的合成语音;
101.根据每一目标演员对应的所述合成语音修复所述待修复影片中的音频缺失片段。
102.或者,该计算机程序被处理器执行时实现上述基于语音合成的影片修复装置这一实施例中的各模块/单元的功能,例如图6所示的各模块/单元的功能,为避免重复,这里不
再赘述。
103.本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(rom)、可编程rom(prom)、电可编程rom(eprom)、电可擦除可编程rom(eeprom)或闪存。易失性存储器可包括随机存取存储器(ram)或者外部高速缓冲存储器。作为说明而非局限,ram以多种形式可得,诸如静态ram(sram)、动态ram(dram)、同步dram(sdram)、双数据率sdram(ddrsdram)、增强型sdram(esdram)、同步链路(synchlink)dram(sldram)、存储器总线(rambus)直接ram(rdram)、直接存储器总线动态ram(drdram)、以及存储器总线动态ram(rdram)等。
104.所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。
105.以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围,均应包含在本发明的保护范围之内。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文章

  • 日榜
  • 周榜
  • 月榜