一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

语音合成模型的生成方法、装置和电子设备与流程

2022-03-22 23:21:23 来源:中国专利 TAG:


1.本技术涉及计算机技术领域,特别是涉及一种语音合成模型的生成方法、装置和电子设备。


背景技术:

2.目前,模型的合成方案通常在结构上聚焦于多路并行和注意力(attention)结构的组合。这一组合设计的优点在于训练时可以获得较快速的收敛速度,并且得益于attention结构对于整个训练样本的信息建模,其合成效果细腻,拟人感强。
3.例如,语音合成技术的声学模型合成方案中,快速语音合成(fast speech)模型中采用了大量的attention和多路并行结构,在模型训练阶段会帮助优化模型的梯度更新,避免底层参数梯度消失的问题,从而加速模型的收敛。但是,此种多路并行结构的模型在后期应用时,会为每一路输入单独分配内存,从而增加了系统的内存消耗。
4.因此可知,在现有技术中,attention和多路并行结构组合的模型,虽然在训练阶段能够快速收敛,但是在后期应用时会占用较大内存。


技术实现要素:

5.本技术实施例提供一种语音合成模型的生成方法、装置和电子设备,以解决attention和多路并行结构组合的模型在后期应用时会占用较大内存的问题。
6.第一方面,本技术实施例提供一种语音合成模型的生成方法,所述方法包括:
7.获取多个文本样本;
8.对所述文本样本进行训练,获得第一语音合成模型,其中,所述第一语音合成模型包括多个卷积处理模块,每个卷积处理模块包括多个并行的卷积层;
9.在i取1至n中的每一个整数时,确定与第i个卷积处理模块包括的多个并行卷积层等价的一个卷积层,以作为第i个目标卷积层,其中,n为所述卷积处理模块的数量;
10.将所述第一语音合成模型的第i个卷积处理模块包括的多个并行卷积层,替换为第i个目标卷积层;
11.当将第n个卷积处理模块包括的多个并行卷积层,替换为第n个目标卷积层时,得到第二语音合成模型。
12.第二方面,本技术实施例提供一种语音合成模型的生成装置,所述装置包括:
13.样本获取模块,用于获取多个文本样本;
14.模型获取模块,用于对所述文本样本进行训练,获得第一语音合成模型,其中,所述第一语音合成模型包括多个卷积处理模块,每个卷积处理模块包括多个并行的卷积层;
15.等价变换模块,用于在i取1至n中的每一个整数时,确定与第i个卷积处理模块包括的多个并行卷积层等价的一个卷积层,以作为第i个目标卷积层,其中,n为所述卷积处理模块的数量;
16.替换模块,用于将所述第一语音合成模型的第i个卷积处理模块包括的多个并行
卷积层,替换为第i个目标卷积层;
17.模型生成模块,用于当将第n个卷积处理模块包括的多个并行卷积层,替换为第n个目标卷积层时,得到第二语音合成模型。
18.第三方面,本技术实施例提供一种电子设备,包括处理器、存储器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现上述的语音合成模型的生成方法的步骤。
19.第四方面,本技术实施例提供一种计算机可读存储介质,所述计算机可读存储介质上存储计算机程序,所述计算机程序被处理器执行时实现上述的语音合成模型的生成方法的步骤。
20.在本技术的实施例中,能够获取多个文本样本;对文本样本进行训练,获得第一语音合成模型,其中,第一语音合成模型包括多个卷积处理模块,每个卷积处理模块包括多个并行的卷积层;在i取1至n中的每一个整数时,确定与第i个卷积处理模块包括的多个并行卷积层等价的一个卷积层,以作为第i个目标卷积层,其中,n为卷积处理模块的数量;将第一语音合成模型的第i个卷积处理模块包括的多个并行卷积层,替换为第i个目标卷积层;当将第n个卷积处理模块包括的多个并行卷积层,替换为第n个目标卷积层时,得到第二语音合成模型。
21.其中,第一语音合成模型在训练阶段采用多路模型结构,生成阶段则通过恒等变换,在不改变输入输出的情况下,将第一语音合成模型中多个卷积处理模块包括的多个并行的卷积层等价变换为一个目标卷积层,从而获得第二语音合成模型,即将多路模型结构的第一语音合成模型转换为单路模型结构的第二语音合成模型。因此,在本技术实施例中,既在训练阶段保留了多路模型结构的优秀性能,帮助模型快速收敛,又兼具了单路模型结构在部署阶段轻量化的优势,从而解决了attention和多路并行结构组合的模型在后期应用时会占用较大内存的问题。
附图说明
22.为了更清楚地说明本技术实施例的技术方案,下面将对本技术实施例的描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
23.图1是本技术实施例提供的一种语音合成模型的生成方法的步骤流程图;
24.图2是本技术实施例提供的现有技术中fast speech模型架构示意图;
25.图3是本技术实施例提供的现有技术中由fft block组成的编码器的结构示意图;
26.图4是本技术实施例提供的现有技术中length regular的结构示意图;
27.图5是本技术实施例提供的现有技术中duration predictor的结构示意图;
28.图6是本技术实施例提供的第一语音合成模型架构示意图;
29.图7是本技术实施例提供的卷积核等价变换的流程示意图;
30.图8是本技术实施例提供的模型训练阶段的流程示意图;
31.图9是本技术实施例提供的模型应用阶段的流程示意图;
32.图10是本技术实施例提供的一种语音合成模型的生成装置的结构框图。
具体实施方式
33.下面将结合本技术实施例中的附图,对本技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本技术一部分实施例,而不是全部的实施例。基于本技术中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本技术保护的范围。
34.为了便于理解本技术实施例的语音合成模型的生成方法,现对现有的相关技术进行如下介绍:
35.目前,语音合成技术的声学模型合成方案中,快速语音合成(fast speech)系统架构如图2所示。即fast speech系统架构中包含由去雨网络(prenet)和如图3所示的快速傅里叶变换模块(fft block)组成的编码器(encoder)、如图4所示的时长预测模型(length regular),以及同样由fft block组成的译码器(decoder)三部分。其中,encoder的输入为经过前处理结构(phoneme embedding)获得的待处理文本音素序列中同一个音素的特征向量和位置编码向量(positional encoding)之和;length regular用于预测每个音素所用的帧长;decoder对输入的encoder和length regular的处理结果,经过神经网络模块(linear layer),输出声学特征。
36.其中,fast speech系统架构模型的训练过程如下步骤f1至f5所述:
37.步骤f1:文本样本通过前端处理得到音素序列(phoneme),然后进入encoder的前处理结构进行序列整合。
38.步骤f2:经过预处理的音素特征,同位置编码信息(positional encoding)相加,输入encoder进行信息编码。encoder的基础结构由n个多路并行注意力模块(multi-head attention)堆叠组成(即n个fft block)。如图3所示,音素特征经由每个multi-head attention模块自编码(self-attention)后接前馈神经网络(ffn)、一维卷积(conv1d)和残差连接归一化模块(add&norm)进行整形和归一化。
39.步骤f3:length regular接收encoder的输出,预测每个输入音素的时长,并将编码输出按音素时长进行扩展为新的矩阵,作为decoder的输入,即如图4所示,encoder的输出(hpho)经过如图5所示的持续时间预报器(duration predictor),预测每一个输入音素的时长,其中,“d=【2,2,3,1】”为音素时长,再经由length regulator(即lr)扩展为新的矩阵,作为decoder的输入(hmel),其中,“a=1.0”为矩阵扩展系数(alpha)为1.0。
40.步骤f4:decoder结构由n个multi-head attention模块堆叠。length regular输出的矩阵编码信息,经过同样的位置编码,输入multi-head attention结构,做自编码。最后,经decoder解码的声学特征经过后处理(postnet),得到优化平滑过的声学特征。
41.步骤f5:声学特征通过声码器,得到目标说话人语音。
42.此外,fast speech模型中采用了大量的attention和多路并行结构。多路并行结构的优势是,利用残差的求导便利,在训练阶段会帮助优化模型的梯度更新,避免底层参数梯度消失的问题,从而加速模型的收敛。其缺点是会为每一路输入单独分配内存,从而增加了系统的内存消耗。即attention结构对整个输入序列进行建模,使上下文信息更加丰富、准确,但其消耗的内存为根据空间复杂度算法获得的o(n^2),其中n为序列长度。由此可知,fast speech模型虽然在训练阶段能够快速收敛,但是在后期应用时会占用较大内存。
43.而在本技术的实施例中,能够获取多个文本样本;对文本样本进行训练,获得第一
语音合成模型,其中,第一语音合成模型包括多个卷积处理模块,每个卷积处理模块包括多个并行的卷积层;在i取1至n中的每一个整数时,确定与第i个卷积处理模块包括的多个并行卷积层等价的一个卷积层,以作为第i个目标卷积层,其中,n为卷积处理模块的数量;将第一语音合成模型的第i个卷积处理模块包括的多个并行卷积层,替换为第i个目标卷积层;当将第n个卷积处理模块包括的多个并行卷积层,替换为第n个目标卷积层时,得到第二语音合成模型。
44.即在本技术实施例中,第一语音合成模型在训练阶段采用多路模型结构,生成阶段则通过恒等变换,在不改变输入输出的情况下,将第一语音合成模型中多个卷积处理模块包括的多个并行的卷积层等价变换为一个目标卷积层,从而获得第二语音合成模型,即将多路模型结构的第一语音合成模型转换为单路模型结构的第二语音合成模型。因此,在本技术实施例中,第二语音合成模型既在训练阶段保留了多路模型结构的优秀性能,帮助模型快速收敛,又兼具了单路模型结构在部署阶段轻量化的优势,从而解决了attention和多路并行结构组合的模型在后期应用时会占用较大内存的问题。
45.为使本技术的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本技术实施例提供的语音合成模型的生成方法进行详细阐述。
46.参照图1,示出了本技术实施例中一种语音合成模型的生成方法的步骤流程图,该方法可以包括以下步骤101至105。
47.步骤101:获取多个文本样本。
48.例如,可以通过键盘输入、图片识别等方式获取文本样本,其中,当键盘输入时,文本样本为键盘按键序列生成的文本;图片识别时,文本样本为从图片中识别出的文本。
49.步骤102:对所述文本样本进行训练,获得第一语音合成模型,其中,所述第一语音合成模型包括多个卷积处理模块,每个卷积处理模块包括多个并行的卷积层。
50.另外,第一语音合成模型即为用于输出待处理文本的语音声学特征的模型。因此,第一语音模型的输入是待处理文本,输出为待处理文本对应的语音声学特征。
51.步骤103:在i取1至n中的每一个整数时,确定与第i个卷积处理模块包括的多个并行卷积层等价的一个卷积层,以作为第i个目标卷积层,其中,n为所述卷积处理模块的数量。
52.由此可知,在本技术实施例中,第一语音合成模型的每一个卷积处理模块,都存在一个与其等价的目标卷积层。
53.另外,确定与第i个卷积处理模块包括的多个并行卷积层等价的一个卷积层,以作为第i个目标卷积层,能够使得模型的输入经过第i个卷积处理模块包括的多个并行卷积层处理之后,得到的输出结果,与经过第i个目标卷积层处理之后,得到的输出结果相同。
54.因此,第i个卷积处理模块包括的多个并行卷积层与第i个目标卷积层等价,即为同一输入经过第i个卷积处理模块包括的多个并行卷积层的处理,以及第i个目标卷积层的处理之后,可以获得相同的输出。
55.步骤104:将所述第一语音合成模型的第i个卷积处理模块包括的多个并行卷积层,替换为第i个目标卷积层。
56.其中,在模型训练完成之后,将得到的第一语音合成模型包括的第i个卷积处理模块中的多个并行卷积层可以等价变换为第i个目标卷积层。
qu shuo hua ren yu yin”;然后,获取此音素序列中每一个音素的特征向量,如获取“q”对应的特征向量和“q”在此音素序列中的位置编码向量,其中,“q”在此音素序列中的位置为第4个音素,则获取第4个音素对应的位置编码向量;接着,将此音素序列中同一个音素的特征向量和位置编码向量进行相加处理,从而将相加处理后的向量输入至第二语音合成模型,进而输出待处理文本的语音声学特征。
70.另外,第二语音合成模型输出的语音声学特征通过声码器,则可以得到语音文本。
71.可选的,所述第一语音合成模型包括编码器、时长预测模块、解码器,其中,编码器包括至少一个卷积处理模块,解码器包括至少一个卷积处理模块。
72.其中,所述编码器可以由prenet和边界表示模块(rep block)组成,解码器可以由rep block组成。这样,如图6所示,在本技术实施例中,第一语音合成模型的整体架构可以包含由prenet和边界表示模块(rep block)组成的encoder,length regular和同样由rep block组成的decoder三部分。
73.另外,encoder的输入为经过phoneme embedding获得的待处理文本音素序列中同一个音素的特征向量和位置编码向量(positional encoding)之和;length regular用于预测每个音素所用的帧长;decoder对输入的encoder和length regular的处理结果,经过linear layer,输出声学特征。
74.可选的,每一个卷积层包括一个卷积核,第i个目标卷积层包括的卷积核为,第i个卷积处理模块包括的多个卷积层的卷积核与第i个单位矩阵之和,所述第i个单位矩阵的行数和列数与第i个卷积处理模块中元素最少的卷积核的行数和列数相同。
75.例如,第一语音合成模型的其中一个卷积处理模块包括两个并行卷积层,这两个卷积层的卷积核如图7所示中的第一预设卷积核701和第二预设卷积核702。其中,第一预设卷积核为3*3的矩阵,而第二预设卷积核为1*1的矩阵,则需要将第二预设卷积核和1*1的单位矩阵703进行补零操作处理,从而形成3*3的矩阵,进而将第一预设卷积核和补零后的第二预设卷积核与补零后的1*1的单位矩阵相加,得到一个新的3*3矩阵,这个新的3*3矩阵则为与第一预设卷积核和第二预设卷积核等价的目标卷积核704。
76.或者,例如第一预设卷积核为3*3的矩阵,而第二预设卷积核为3*3的矩阵,则单位矩阵为3*3的矩阵,进而将第一预设卷积核、第二预设卷积核与3*3的单位矩阵相加,得到一个新的3*3矩阵,这个新的3*3的矩阵则为与第一预设卷积核和第二预设卷积核等价的目标卷积核。
77.即同样的向量分别经过第一预设卷积核、第二预设卷积核进行处理后,得到的矩阵与单位矩阵703相加的结果,与只经过目标卷积核704处理后的结果相同。
78.可选的,对所述文本样本进行训练,获得第一语音合成模型,包括:
79.获取所述文本样本的音素序列;
80.获取所述音素序列中每一个音素的特征向量和每一个音素在所述音素序列中的位置编码向量;
81.将同一个音素的特征向量和位置编码向量相加,获得多个第一向量;
82.采用预先确定的第三语音合成模型的参数,对同一个文本样本的所述第一向量进行处理,获得与每一个文本样本对应的语音声学特征;
83.根据获得的所述语音声学特征,修改所述第三语音合成模型的参数,得到第四语
音合成模型的参数;
84.采用所述第四语音合成模型的参数,对同一个文本样本的所述第一向量进行处理,直到获得的文本样本对应的语音声学特征满足预设条件时,将满足预设条件时的语音合成模型,确定为所述第一语音合成模型。
85.其中,在第一语音合成模型包括编码器、时长预测模块、解码器的情况下,上述第三语音合成模型的参数和第四语音合成模型的参数包括编码器的参数、时长预测模块的参数和解码器的参数。
86.另外,每一个文本样本都对应存在一个真实的语音文本,这样,每一次语音合成模型输出的语音声学特征合成后的语音文本,可以与其对应的文本样本对应的真实语音文本进行对比,从而得到二者的相似度,进而可以将相似度大于预设相似度的语音声学特征采用预设标记进行标识。因此,上述预设条件可以是标有预设标记的语音声学特征的数量达到预设数量。即标有预设标记的语音声学特征的数量达到预设数量,表示输出该语音声学特征的语音合成模型的准确度已满足要求,亦即语音合成模型已达到收敛条件。
87.或者,将每一次语音合成模型输出的语音声学特征与每一个文本样本的实际语音声学特征进行对比,计算得到模型的loss值。因此,上述预设条件可以是计算得到的模型loss值小于预设损失值。即计算得到的模型loss值小于预设损失值,表示输出该语音声学特征的语音合成模型的准确度已满足要求,亦即语音合成模型已达到收敛条件。
88.可选的,所述第三语音合成模型包括编码器、时长预测模块和解码器;
89.采用预先确定的所述第三语音合成模型的参数,对一个文本样本的其中一个第一向量进行处理的过程,包括:
90.将第二向量输入至所述第三语音合成模型的编码器,输出编码向量,其中,第二向量为其中一个文本样本的其中一个第一向量;
91.将所述编码向量输入至所述第三语音合成模型的时长预测模块,输出将所述编码向量按照所述第二向量对应的音素的时长扩展的音素时长矩阵;
92.将所述音素时长矩阵输入至所述第三语音合成模型的解码器,输出所述第二向量对应的音素的语音声学特征。
93.由此可知,encoder的输入为待处理文本音素序列中同一个音素的特征向量和位置编码向量之和;length regular用于预测每个音素所用的帧长;decoder对输入的encoder和length regular的处理结果,输出声学特征。
94.例如,一个文本样本的音素序列为“huo qu shuo hua ren yu yin”,则这个音素序列中的每一个音素都会对应得到一个第一向量,从而将得到的所有第一向量输入至第三语音合成模型,进而由第三语音合成模型的编码器,分别对每一个第一向量进行处理,输出与每一个第一向量对应的编码向量,然后,由第三语音合成模型的时长预测模块,分别对每一个第一向量对应的编码向量进行处理,输出每一个编码向量按照每一个第一向量对应的音素的时长扩展的音素时长矩阵,最后,由第三语音合成模型的时长预测模块,分别对每一个音素时长矩阵进行处理,输出每一个第一向量对应的音素的语音声学特征。
95.可选的,所述第三语音合成模型的编码器包括第一卷积处理模块和第二卷积处理模块,所述第一卷积处理模块包括第一卷积层和第二卷积层,所述第一卷积层包括第一预设卷积核,所述第二卷积层包括第二预设卷积核,所述第二卷积处理模块包括第三卷积层
和第四卷积层,所述第三卷积层包括第三预设卷积核,所述第四卷积层包括第四预设卷积核;
96.所述将第二向量输入至所述第三语音合成模型的编码器,输出编码向量,包括:
97.将所述第二向量经过所述第一预设卷积核进行处理,得到第一矩阵,并将所述第二向量经过所述第二预设卷积核进行处理,得到第二矩阵;
98.将所述第一矩阵、所述第二矩阵和第一单位矩阵相加,得到第三矩阵;
99.对所述第三矩阵进行归一化处理,得到第三向量;
100.将所述第三向量经过所述第三预设卷积核进行处理,得到第五矩阵,并将所述第三向量经过所述第四预设卷积核进行处理,得到第六矩阵;
101.将所述第五矩阵、所述第六矩阵和第二单位矩阵相加,得到第七矩阵;
102.对所述第七矩阵进行归一化处理,得到所述编码向量;
103.其中,所述第一单位矩阵的行数和列数与所述第一卷积处理模块中元素最少的卷积核的行数和列数相同,所述第二单位矩阵的行数和列数与所述第二卷积处理模块中元素最少的卷积核的行数和列数相同。
104.例如图8所示的训练阶段,第二向量经过第一预设卷积核进行处理,得到3*3的第一矩阵,其中,第一预设卷积核为3*3卷积核;第二向量经过第二预设卷积核进行处理,得到1*1的第二矩阵,其中,第二预设卷积核为1*1卷积核;分别将第二矩阵、第一单位矩阵(即1*1的单位矩阵)通过补零操作处理为3*3矩阵,然后与第一矩阵相加,得到3*3的第三矩阵;第三矩阵经过归一化模块(batch norm)进行归一化处理,得到第三向量;第三向量经过第三预设卷积核进行处理,得到3*3的第五矩阵,其中,第三预设卷积核为3*3卷积核;第三向量经过第四预设卷积核进行处理,得到1*1的第六矩阵,其中,第四预设卷积核为1*1卷积核;分别将第六矩阵、第二单位矩阵(即1*1的单位矩阵)通过补零操作处理为3*3矩阵,然后与第五矩阵相加,得到3*3的第七矩阵;第七矩阵经过batch norm进行归一化处理,输出第二向量对应的编码向量。
105.可选的,所述第三语音合成模型的解码器包括第三卷积处理模块和第四卷积处理模块,所述第三卷积处理模块包括第五卷积层和第六卷积层,所述第五卷积层包括第五预设卷积核,所述第六卷积层包括第六预设卷积核,所述第四卷积处理模块包括第七卷积层和第八卷积层,所述第七卷积层包括第七预设卷积核,所述第八卷积层包括第八预设卷积核;
106.所述将所述音素时长矩阵输入至所述第三语音合成模型的解码器,输出所述第二向量对应的音素的语音声学特征,包括:
107.将所述音素时长矩阵经过所述第五预设卷积核进行处理,得到第八矩阵,并将所述音素时长矩阵经过所述第六预设卷积核进行处理,得到第九矩阵;
108.将所述第八矩阵、所述第九矩阵和第三单位矩阵相加,得到第十矩阵;
109.对所述第十矩阵进行归一化处理,得到第四向量;
110.将所述第四向量经过所述第七预设卷积核进行处理,得到第十一矩阵,并将所述第四向量经过所述第八预设卷积核进行处理,得到第十二矩阵;
111.将所述第十一矩阵、所述第十二矩阵和第四单位矩阵相加,得到第十三矩阵;
112.对所述第十三矩阵进行归一化处理,得到所述第二向量对应的音素的语音声学特
征;
113.其中,所述第三单位矩阵的行数和列数与所述第三卷积处理模块中元素最少的卷积核的行数和列数相同,所述第四单位矩阵的行数和列数与所述第四卷积处理模块中元素最少的卷积核的行数和列数相同。
114.例如在如图8所示的训练阶段,音素时长矩阵经过第五预设卷积核进行处理,得到3*3的第八矩阵,其中,第五预设卷积核为3*3卷积核;音素时长矩阵经过第六预设卷积核进行处理,得到1*1的第九矩阵,其中,第六预设卷积核为1*1卷积核;分别将第九矩阵、第三单位矩阵(即1*1的单位矩阵)通过补零操作处理为3*3矩阵,然后与第八矩阵相加,得到3*3的第十矩阵;第十矩阵经过batch norm进行归一化处理,得到第四向量;第四向量经过第七预设卷积核进行处理,得到3*3的第十一矩阵,其中,第七预设卷积核为3*3卷积核;第四向量经过第八预设卷积核进行处理,得到1*1的第十二矩阵,其中,第八预设卷积核为1*1卷积核;分别将第十二矩阵、第四单位矩阵(即1*1的单位矩阵)通过补零操作处理为3*3矩阵,然后与第十一矩阵相加,得到3*3的第十三矩阵;第十三矩阵经过batch norm进行归一化处理,输出第二向量对应的音素的语音声学特征。
115.另外,在第一语音合成模型训练完成之后,可以将第一语音合成模型中各个卷积处理模块的卷积核,转换为一个等价的卷积核,则转换得到的等价的卷积核为第二语音合成模型中的卷积核
116.例如第二语音合成模型中,编码器包括3*3的第一目标卷积核和3*3的第二目标卷积核,解码器包括3*3的第三目标卷积核和3*3的第四目标卷积核,则如图9所示,在第二语音合成模型的实际应用阶段,待处理文本的音素序列中,同一个音素序列的特征向量和位置编码向量之和输入至第二语音合成模型中,经过编码器中第一目标卷积核进行处理,得到3*3的第一目标矩阵,第一目标矩阵经过batch norm进行归一化处理,得到第一目标向量;第一目标向量经过第二目标卷积核进行处理,得到3*3的第二目标矩阵,第二目标矩阵经过batch norm进行归一化处理,输出编码向量;将编码向量输入至第二语音合成模型的时长预测模块,输出将编码向量按照音素的时长扩展的音素时长矩阵;进而,音素时长矩阵经过解码器中的第三目标卷积核进行处理,得到3*3的第三目标矩阵,第三目标矩阵经过batch norm进行归一化处理,得到第三目标向量;第三目标向量经过解码器中第四目标卷积核进行处理,得到3*3的第四目标矩阵,第四目标矩阵经过batch norm进行归一化处理,输出第二向量对应的音素的语音声学特征。
117.综上所述,本技术实施例的语音合成模型的生成方法的具体实施方式可如下所述:
118.步骤h1:获取多个文本样本,将其中一个文本样本通过前端处理获得对应的音素序列。
119.步骤h2:将音素序列中同一个音素的特征向量和位置编码向量相加处理,获得多个第一向量。在第一语音合成模型的训练阶段执行步骤h3~h5。在第二语音合成模型的生成阶段执行步骤h6。
120.步骤h3:采用预先确定的第三语音合成模型的参数,对同一文本样本的第一向量进行处理,获得与每一个文本样本对应的语音声学特征。
121.步骤h4:根据获得的与每一个文本样本对应的语音声学特征,修改第三语音合成
模型的参数,得到第四语音合成模型的参数。
122.步骤h5:采用第四语音合成模型的参数,对同一个文本样本的第一向量进行处理,直到获得的文本样本对应的语音声学特征满足预设条件时,将满足预设条件时的语音合成模型,确定为第一语音合成模型。
123.步骤h6:将第一语音合成模型中每一个卷积处理模块包括的多个并行卷积层,等价变换为一个目标卷积层得到第二语音合成模型。
124.其中,生成第二语音合成模型之后,在实际应用时,将待处理文本进行处理,获得待处理文本的音素序列,并计算同一个音素的特征向量和在音素序列中的位置编码向量之和,得到多个输入向量,进而将多个输入向量输入至第二语音合成模型,从而可以输出待处理文本样本的语音声学特征。
125.由上述可知,在本技术实施例中,第一语音合成模型在训练阶段采用多路模型结构,生成阶段则通过恒等变换,在不改变输入输出的情况下,将第一语音合成模型中多个卷积处理模块包括的多个并行的卷积层等价变换为一个目标卷积层,从而获得第二语音合成模型,即将多路模型结构的第一语音合成模型转换为单路模型结构的第二语音合成模型。因此,在本技术实施例中,第二语音合成模型既在训练阶段保留了多路模型结构的优秀性能,帮助模型快速收敛,又兼具了单路模型结构在部署阶段轻量化的优势,从而解决了attention和多路并行结构组合的模型在后期应用时会占用较大内存的问题。
126.需要说明的是,对于方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本技术实施例并不受所描述的动作顺序的限制,因为依据本技术实施例,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作并不一定是本技术实施例所必须的。
127.参照图10,示出了本技术实施例中一种语音合成模型的生成装置的结构框图,该语音合成模型的生成装置1000可以包括以下模块:
128.样本获取模块1001,用于获取多个文本样本;
129.模型获取模块1002,用于对所述文本样本进行训练,获得第一语音合成模型,其中,所述第一语音合成模型包括多个卷积处理模块,每个卷积处理模块包括多个并行的卷积层;
130.等价变换模块1003,用于在i取1至n中的每一个整数时,确定与第i个卷积处理模块包括的多个并行卷积层等价的一个卷积层,以作为第i个目标卷积层,其中,n为所述卷积处理模块的数量;
131.替换模块1004,用于将所述第一语音合成模型的第i个卷积处理模块包括的多个并行卷积层,替换为第i个目标卷积层;
132.模型生成模块1005,用于当将第n个卷积处理模块包括的多个并行卷积层,替换为第n个目标卷积层时,得到第二语音合成模型。
133.可选的,所述语音合成模型的生成装置1000,还包括:
134.第一获取模块,用于获取待处理文本;
135.第二获取模块,用于获取所述待处理文本的音素序列;
136.第三获取模块,用于获取所述音素序列中每一个音素的特征向量和每一个音素在
所述音素序列中的位置编码向量;
137.输出模块,用于将所述特征向量和所述位置编码向量,输入至所述第二语音合成模型,输出所述待处理文本的语音声学特征。
138.可选的,所述第一语音合成模型包括编码器、时长预测模块、解码器,其中,编码器包括至少一个卷积处理模块,解码器包括至少一个卷积处理模块。
139.可选的,每一个卷积层包括一个卷积核,第i个目标卷积层包括的卷积核为,第i个卷积处理模块包括的多个卷积层的卷积核与第i个单位矩阵之和,所述第i个单位矩阵的行数和列数与第i个卷积处理模块中元素最少的卷积核的行数和列数相同。
140.可选的,所述模型获取模块1002,包括:
141.第一获取子模块,用于获取所述文本样本的音素序列;
142.第二获取子模块,用于获取所述音素序列中每一个音素的特征向量和每一个音素在所述音素序列中的位置编码向量;
143.第一向量获取子模块,用于将同一个音素的特征向量和位置编码向量相加,获得多个第一向量;
144.第三获取子模块,用于采用预先确定的第三语音合成模型的参数,对同一个文本样本的所述第一向量进行处理,获得与每一个文本样本对应的语音声学特征;
145.第四获取子模块,用于根据获得的所述语音声学特征,修改所述第三语音合成模型的参数,得到第四语音合成模型的参数;
146.确定子模块,用于采用所述第四语音合成模型的参数,对同一个文本样本的所述第一向量进行处理,直到获得的文本样本对应的语音声学特征满足预设条件时,将满足预设条件时的语音合成模型,确定为所述第一语音合成模型。
147.可选的,所述第三语音合成模型包括编码器、时长预测模块和解码器;
148.所述第三获取子模块,包括:
149.第二输出单元,用于将第二向量输入至所述第三语音合成模型的编码器,输出编码向量,其中,第二向量为其中一个文本样本的其中一个第一向量;
150.第三输出单元,用于将所述编码向量输入至所述第三语音合成模型的时长预测模块,输出将所述编码向量按照所述第二向量对应的音素的时长扩展的音素时长矩阵;
151.第四输出单元,用于将所述音素时长矩阵输入至所述第三语音合成模型的解码器,输出所述第二向量对应的音素的语音声学特征。
152.可选的,所述第三语音合成模型的编码器包括第一卷积处理模块和第二卷积处理模块,所述第一卷积处理模块包括第一卷积层和第二卷积层,所述第一卷积层包括第一预设卷积核,所述第二卷积层包括第二预设卷积核,所述第二卷积处理模块包括第三卷积层和第四卷积层,所述第三卷积层包括第三预设卷积核,所述第四卷积层包括第四预设卷积核;
153.所述第二输出单元,具体用于:
154.将所述第二向量经过所述第一预设卷积核进行处理,得到第一矩阵,并将所述第二向量经过所述第二预设卷积核进行处理,得到第二矩阵;
155.将所述第一矩阵、所述第二矩阵和第一单位矩阵相加,得到第三矩阵;
156.对所述第三矩阵进行归一化处理,得到第三向量;
157.将所述第三向量经过所述第三预设卷积核进行处理,得到第五矩阵,并将所述第三向量经过所述第四预设卷积核进行处理,得到第六矩阵;
158.将所述第五矩阵、所述第六矩阵和第二单位矩阵相加,得到第七矩阵;
159.对所述第七矩阵进行归一化处理,得到所述编码向量;
160.其中,所述第一单位矩阵的行数和列数与所述第一卷积处理模块中元素最少的卷积核的行数和列数相同,所述第二单位矩阵的行数和列数与所述第二卷积处理模块中元素最少的卷积核的行数和列数相同。
161.可选的,所述第三语音合成模型的解码器包括第三卷积处理模块和第四卷积处理模块,所述第三卷积处理模块包括第五卷积层和第六卷积层,所述第五卷积层包括第五预设卷积核,所述第六卷积层包括第六预设卷积核,所述第四卷积处理模块包括第七卷积层和第八卷积层,所述第七卷积层包括第七预设卷积核,所述第八卷积层包括第八预设卷积核;
162.所述第四输出单元,具体用于:
163.将所述音素时长矩阵经过所述第五预设卷积核进行处理,得到第八矩阵,并将所述音素时长矩阵经过所述第六预设卷积核进行处理,得到第九矩阵;
164.将所述第八矩阵、所述第九矩阵和第三单位矩阵相加,得到第十矩阵;
165.对所述第十矩阵进行归一化处理,得到第四向量;
166.将所述第四向量经过所述第七预设卷积核进行处理,得到第十一矩阵,并将所述第四向量经过所述第八预设卷积核进行处理,得到第十二矩阵;
167.将所述第十一矩阵、所述第十二矩阵和第四单位矩阵相加,得到第十三矩阵;
168.对所述第十三矩阵进行归一化处理,得到所述第二向量对应的音素的语音声学特征;
169.其中,所述第三单位矩阵的行数和列数与所述第三卷积处理模块中元素最少的卷积核的行数和列数相同,所述第四单位矩阵的行数和列数与所述第四卷积处理模块中元素最少的卷积核的行数和列数相同。
170.由上述可知,在本技术的实施例中,能够获取多个文本样本;对文本样本进行训练,获得第一语音合成模型,其中,第一语音合成模型包括多个卷积处理模块,每个卷积处理模块包括多个并行的卷积层;在i取1至n中的每一个整数时,确定与第i个卷积处理模块包括的多个并行卷积层等价的一个卷积层,以作为第i个目标卷积层,其中,n为卷积处理模块的数量;将第一语音合成模型的第i个卷积处理模块包括的多个并行卷积层,替换为第i个目标卷积层;当将第n个卷积处理模块包括的多个并行卷积层,替换为第n个目标卷积层时,得到第二语音合成模型。
171.其中,第一语音合成模型在训练阶段采用多路模型结构,生成阶段则通过恒等变换,在不改变输入输出的情况下,将第一语音合成模型中多个卷积处理模块包括的多个并行的卷积层等价变换为一个目标卷积层,从而获得第二语音合成模型,即将多路模型结构的第一语音合成模型转换为单路模型结构的第二语音合成模型。因此,在本技术实施例中,第二语音合成模型既在训练阶段保留了多路模型结构的优秀性能,帮助模型快速收敛,又兼具了单路模型结构在部署阶段轻量化的优势,从而解决了attention和多路并行结构组合的模型在后期应用时会占用较大内存的问题。
172.对于装置实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
173.本技术实施例还提供了一种电子设备,包括:
174.一个或多个处理器;和其上存储有指令的一个或多个机器可读介质,当由所述一个或多个处理器执行时,使得所述电子设备执行本技术实施例所述的方法。
175.本技术实施例还提供了一个或多个机器可读介质,其上存储有指令,当由一个或多个处理器执行时,使得所述处理器执行本技术实施例所述的方法。
176.本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。
177.本领域内的技术人员应明白,本技术实施例的实施例可提供为方法、装置、或计算机程序产品。因此,本技术实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本技术实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用可读存储介质(包括但不限于磁盘存储器、cd-rom、光学存储器等)上实施的计算机程序产品的形式。
178.本技术实施例是参照根据本技术实施例的方法、终端设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
179.这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
180.这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上,使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
181.尽管已描述了本技术实施例的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本技术实施例范围的所有变更和修改。
182.最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下,由语句“包括一个
……”
限定的要素,并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。
183.以上对本技术所提供的一种语音合成模型的生成方法及装置,进行了详细介绍,本文中应用了具体个例对本技术的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本技术的方法及其核心思想;同时,对于本领域的一般技术人员,依据本技术的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本技术的限制。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献