一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种风格迁移合成方法、装置及电子设备与流程

2022-03-16 16:35:20 来源:中国专利 TAG:


1.本公开涉及人工智能技术领域,尤其涉及深度学习、语音合成、风格迁移技术领域,具体涉及一种语音风格迁移合成方法、装置及电子设备。


背景技术:

2.出于各种实际需求,如为实现语音聊天软件中提供的变声功能、隐藏说话人的真实身份等,需要根据给定的一个音频片段以及文本,合成得到具有与该音频片段具有相同语音风格且语音内容为该文本的音频片段,由于该过程可以视为将音频片段的语音风格迁移至文本,因此该过程称为风格迁移合成。


技术实现要素:

3.本公开提供了一种风格迁移合成方法、装置及电子设备。
4.根据本公开的第一方面,提供了一种风格迁移合成方法,包括:
5.将目标文本和具有目标语音风格的目标音频片段输入至预先经过样本文本和样本音频片段训练得到的语音合成模型;
6.通过所述语音合成模型的风格抽取子模型,针对所述目标音频片段中每个音频单元,叠加用于表征所述目标音频片段的粗粒度音频特征和用于表征所述音频单元的细粒度音频特征,得到所述音频单元的叠加音频特征;
7.通过所述语音合成模型的内容编码子模型,提取所述目标文本中每个发音单元的发音特征;
8.通过所述语音合成模型的内容风格交叉注意力子模型,针对所述目标文本中的每个发音单元,融合所述发音单元的发音特征以及目标叠加音频特征,得到所述发音单元的融合特征,其中,所述目标叠加音频特征为与所述发音特征匹配的叠加音频特征;
9.通过所述语音合成模型的声谱解码子模型,根据所述目标文本中每个发音单元的所述融合特征,合成具有所述目标语音风格且语音内容为所述目标文本的音频片段。
10.根据本公开的第二方面,提供了一种语音合成模型的训练方法,包括:
11.将样本音频片段、样本文本输入至原始模型,其中,所述样本文本为所述样本音频片段的语音内容;
12.通过所述原始模型,针对所述样本音频片段中每个音频单元,叠加用于表征所述样本音频片段的粗粒度音频特征和用于表征所述音频单元的细粒度音频特征,得到所述音频单元的叠加音频特征;
13.通过所述原始模型,提取所述样本文本中每个发音单元的发音特征;
14.通过所述原始模型,针对所述样本文本中的每个发音单元,融合所述发音单元的发音特征以及目标叠加音频特征,得到所述发音单元的融合特征,其中,所述目标叠加音频特征为与所述发音特征匹配的叠加音频特征;
15.通过所述原始模型,根据所述样本文本中每个发音单元的所述融合特征转换为预
测声谱特征;
16.根据所述预测声谱特征与所述样本音频片段的真实声谱特征之间的差异,调整所述原始模型的模型参数;
17.获取新的样本音频片段和新的样本文本,返回执行所述将样本音频片段、样本文本输入至原始模型的步骤,直至达到第一收敛条件,将经过调整的原始模型作为语音合成模型。
18.根据本公开的第三方面,提供了一种风格迁移合成装置,包括:
19.第一输入模块,用于将目标文本和具有目标语音风格的目标音频片段输入至预先经过样本文本和样本音频片段训练得到的语音合成模型;
20.风格抽取模块,用于通过所述语音合成模型的风格抽取子模型,针对所述目标音频片段中每个音频单元,叠加用于表征所述目标音频片段的粗粒度音频特征和用于表征所述音频单元的细粒度音频特征,得到所述音频单元的叠加音频特征;
21.内容编码模块,用于通过所述语音合成模型的内容编码子模型,提取所述目标文本中每个发音单元的发音特征;
22.内容风格交叉注意力模块,用于通过所述语音合成模型的内容风格交叉注意力子模型,针对所述目标文本中的每个发音单元,融合所述发音单元的发音特征以及目标叠加音频特征,得到所述发音单元的融合特征,其中,所述目标叠加音频特征为与所述发音特征匹配的叠加音频特征;
23.声谱解码模块,用于通过所述语音合成模型的声谱解码子模型,根据所述目标文本中每个发音单元的所述融合特征,合成具有所述目标语音风格且语音内容为所述目标文本的音频片段。
24.根据本公开的第四方面,提供了一种语音合成模型的训练装置,包括:
25.第二输入模块,用于将样本音频片段、样本文本输入至原始模型,其中,所述样本文本为所述样本音频片段的语音内容;
26.第一原始模块,用于通过所述原始模型,针对所述样本音频片段中每个音频单元,叠加用于表征所述样本音频片段的粗粒度音频特征和用于表征所述音频单元的细粒度音频特征,得到所述音频单元的叠加音频特征;
27.第二原始模块,用于通过所述原始模型,提取所述样本文本中每个发音单元的发音特征;
28.第三原始模块,用于通过所述原始模型,针对所述样本文本中的每个发音单元,融合所述发音单元的发音特征以及目标叠加音频特征,得到所述发音单元的融合特征,其中,所述目标叠加音频特征为与所述发音特征匹配的叠加音频特征;
29.第四原始模块,用于通过所述原始模型,根据所述样本文本中每个发音单元的所述融合特征转换为预测声谱特征;
30.参数调整模块,用于根据所述预测声谱特征与所述样本音频片段的真实声谱特征之间的差异,调整所述原始模型的模型参数;
31.获取模块,用于获取新的样本音频片段和新的样本文本,返回执行所述将样本音频片段、样本文本输入至原始模型的步骤,直至达到第一收敛条件,将经过调整的原始模型作为语音合成模型。
32.根据本公开的第五方面,提供了一种电子设备,包括:
33.至少一个处理器;以及
34.与所述至少一个处理器通信连接的存储器;其中,
35.所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行上述第一方面或第二方面中任一项所述的方法。
36.根据本公开的第六方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行根据上述第一方面或第二方面中任一项所述的方法。
37.根据本公开提供的第七方面,提供了一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现根据上述第一方面或第二方面中任一项所述的方法。
38.应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
39.附图用于更好地理解本方案,不构成对本公开的限定。其中:
40.图1是根据本公开提供的风格迁移合成方法的一种流程示意图;
41.图2是根据本公开提供的风格迁移合成方法中使用的语音合成模型的一种结构示意图;
42.图3a是根据本公开提供的风格迁移合成方法中使用的语音合成模型中风格抽取子模型的结构示意图;
43.图3b是根据本公开提供的风格迁移合成方法中使用的语音合成模型中内容编码子模型的结构示意图;
44.图3c是根据本公开提供的风格迁移合成方法中使用的语音合成模型中内容风格交叉注意力子模型的结构示意图;
45.图3d是根据本公开提供的风格迁移合成方法中使用的语音合成模型中声谱解码子模型的结构示意图;
46.图4是根据本公开提供的语音合成模型的训练方法的一种流程示意图;
47.图5是根据本公开提供的风格迁移合成装置的一种结构示意图;
48.图6是根据本公开提供的语音合成模型的训练装置的一种结构示意图;
49.图7是用来实现本公开实施例的风格迁移合成方法或语音合成模型的训练方法的电子设备的框图。
具体实施方式
50.以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
51.为了更清楚的对本公开提供的风格迁移合成方法进行说明,下面将对本公开提供
的风格迁移合成方法的一种可能的应用场景进行示例性说明,可以理解的是,以下示例仅是公开提供的风格迁移合成方法的一种可能的应用场景,在其他可能的实施例中,本公开提供的风格迁移合成方法也可以应用于其他可能的应用场景,以下示例对此不做任何限制。
52.出于隐藏目标人员,如在线游戏的玩家、接受新闻采访的受访人员等,真实身份的目的,可以将目标人员说的话转换为文本,再通过风格迁移合成,将不同于目标人员的语音风格的另一种语音风格(下文称目标语音风格)迁移至该文本,由于合成的音频片段的语音风格与目标人员不同,因此当其他人听到合成的音频片段时,不会联想到目标人员,从而实现隐藏真实身份的目的。
53.相关技术中,为实现风格迁移合成,往往是利用编码网络对具有目标语音风格的目标音频片段进行编码,得到风格特征,并且对由目标人员说的话转换为文本进行编码,得到内容特征,将风格特征和内容特征输入至预先经过训练得到的解码网络,得到解码网络输出的声谱特征,再由声码器将声谱特征转换为音频片段,从而得到具有目标语音风格、且语音内容为该文本的音频片段。
54.但是,该方案只能够使得合成得到的音频片段整体听上去与目标音频频段具有相近的声学特征,但是在一些细节,如语速、情感、音调、抑扬顿挫、短时停顿、重音等,与目标音频片段相差较大。换言之,合成得到的音频片段在细节上并不具有目标风格。
55.基于此,本公开提供了一种风格迁移合成方法,可以应用于任意具备风格迁移合成功能的电子设备,包括但不限于手机、平板电脑、个人电脑、服务器等,本公开提供的风格迁移合成方法可以如图1所示,包括:
56.s101,将目标文本和具有目标语音风格的目标音频片段输入至预先经过样本文本和样本音频片段训练得到的语音合成模型。
57.s102,通过语音合成模型的风格抽取子模型,针对目标音频片段中每个音频单元,叠加用于表征目标音频片段的粗粒度音频特征和用于表征音频单元的细粒度音频特征,得到音频单元的叠加音频特征。
58.s103,通过语音合成模型的内容编码子模型,提取目标文本中每个发音单元的发音特征。
59.s104,通过语音合成模型的内容风格交叉注意力子模型,针对目标文本中的每个发音单元,融合发音单元的发音特征以及目标叠加音频特征,得到发音单元的融合特征,其中,目标得加音频特征为与发音特征匹配的叠加音频特征。
60.s105,通过语音合成模型的声谱解码子模型,根据目标文本中每个发音单元的融合特征,合成具有目标语音风格且语音内容为目标文本的音频片段。
61.选用该实施例,利用粒度不同的音频特征叠加得到叠加音频特征,从而使得叠加音频特征不仅能够反映出目标风格整体上的特征,同时也能够反映出目标音频片段的细节特征。再利用交叉注意力机制,将各个发音单元的音频特征与相匹配的叠加音频特征融合,则得到的融合特征一方面能够反映目标文本中包括的语音内容,另一方面能够反映出目标风格整体以及细节特征,并且由于音频特征是与相匹配的叠加音频特征融合,因此各个发音单元的融合特征反映出的细节特征能够反映出目标风格中念出该发音单元的细节特征。因此,根据融合特征合成的音频片段中,不仅整体上的声学特征与目标风格相近,且在各个
发音单元的发音上与目标风格相近,即能够合成在整体和细节上具有目标风格的音频片段。
62.为了更清楚的对前述s101-s105的步骤进行说明,下面将首先对本公开提供的语音合成模型进行说明,参见图2,图2所示为本公开提供的语音合成模型的一种结构示意图,包括:
63.风格抽取子模型、内容编码子模型、内容风格较叉注意力子模型、声谱解码子模型。
64.其中,风格抽取子模型的输入为目标音频片段,输出为目标音频片段中每个音频单元的叠加音频特征。每个音频单元是由音频片段中m个连续的音频帧组成,并且每个音频帧仅属于一个音频单元。m可以是用户根据实际经验或需求设置的,如m=2、4、5、9等,本公开对此不做任何限制。每个音频帧为音频片段中连续n ms的音频数据,相邻两个音频帧之间的间隔为q ms,q不大于n,例如,n=25、q=10,n=20、q=20,n=28,q=21等,本公开对此不做任何限制。
65.内容编码子模型的输入为目标文本,输出为目标文本中各个发音单元的发音特征。内容编码子模型用于实现前述s103的步骤。
66.其中,目标文本中的每个发音单元是由目标文本的发音中的k个连续的音素组成,k可以是根据用户的实际需求或经验设置的,示例性的,k=1时,每个发音单元为目标文本的发音中的一个音素,以目标文本为“百”、目标文本的发音为中文发音为例,包括发音单元“b”和发音单元“ai”。
67.内容风格较叉注意力子模型的输入为目标音频片段中各音频单元的叠加音频特征,以及目标文本中各发音单元的音频特征,即内容风格较叉注意力子模型的输入为风格抽取子模型的输出和内容编码子模型的输出。内容风格较叉注意力子模型的输出为目标文本中各个发音单元。内容风格交叉注意力子模型用于实现前述s104的步骤。
68.声谱解码子模型的输入为目标文本中各个发音单元,即声谱解码子模型的输入为内容风格较叉注意力子模型的的输出。声谱解码子模型的输出为合成的音频片段。声谱解码子模型用于实现前述s105的步骤。
69.下面将分别结合语音合成模型中各个子模型的结构,对前述s102-s105的实现进行说明,参见图3a-图3d,图3a-图3d所示为语音合成模型中各个子模型的结构示意图:
70.如图3a所示,风格抽取子模型中包括波对特征向量(wav2vec)子网络,由线性(linear)子网络、长短期记忆(long short-term memory,lstm)子网络、池化(pooling)子网络构成的第一支路,以及由长短期记忆子网络和池化子网络构成的第二支路。
71.波对特征向量子网络的输入为目标音频片段,输出为目标音频片段中各音频帧的音频特征。输入至波对特征向量子网络的目标音频片段的数量可以是一个也可以是多个,本公开对此不做任何限制。示例性的,在一种可能的实施例中,目标音频片段的数量为两个,其中一个目标音频片段用于反映目标风格的整体特征,另一个目标音频片段用于反映目标风格的细节特征,在另一种可能的实施例中,目标音频片段的数量为四个,其中一个目标音频片段用于反映目标风格的整体特征,剩余三个目标音频片段用于反映目标风格的细节特征。
72.第一支路和第二支路的输入为目标音频片段中各音频帧的音频特征,即第一支路
attention)子网络(下文简称自注意力子网络)、第一加、范数和映射(add&norm&projection)子网络、多头交叉注意力(multi-head cross-attention)子网络(下文简称交叉注意力子网络)以及第二加、范数和映射子网络。第一加、范数和映射子网络和第二加、范数和映射子网络由加、范数子网络和前馈神经(feedfoward neural)子网络构成。
84.自注意力网络的输入为目标文本中各发音单元的音频特征,即自注意力子网络的输入为内容编码子模型的输出。自注意子网络的输出为经过调整的音频特征。自注意子网络用于通过自注意力机制,将各个发音单元中相对重要的发音单元的音频特征加强,相对不重要的发音单元的音频特征减弱,以使得各个发音单元的发音特征能够更好的反映出目标文本的特征。
85.交叉注意力子网络的输入为目标音频片段中各音频单元的叠加音频特征以及目标文本中各个发音单元经过调整的发音特征。交叉注意力子网络的输出为目标文本中各个发音单元的融合特征。
86.交叉注意力子网络用于以各音频单元的叠加音频特征为键(key)和值(value),以各发音单元经过调整的发音特征为查询(query),通过交叉注意力机制,针对每个查询,在键中查找与该查询匹配的键,并将该键对应的值(即目标叠加音频特征)与该查询融合,得到融合特征。即交叉注意力子网络针对每个发音单元,将该发音单元经过调整的发音特征与目标叠加音频特征融合,得到该发音单元的融合特征。
87.如图3d所示,声谱解码子模型包括多个转换子网络、预处理(pre-net)子网络、后处理(post-net)子网络以及声码器(waveglow vocoder)。
88.预处理子网络的输入为原始的梅尔频谱(mel-spectrograms),作为原始声谱特征,预处理子网络的输出为经过预处理的原始声谱特征,预处理子网络用于对原始声谱特征进行预处理。预处理网络有多个线性子网络和线性整流函数(relu)子网络构成。
89.在一种可能的实施例中,转换子网络的输入为经过预处理的原始声谱特征以及各发音单元的融合特征。转换子网络的输出为融合特征转化为声谱特征。该实施例中,转换子网络用于根据输入的原始声谱特征,将输入的融合特征转换为声谱特征。
90.在另一种可能的实施例中,转换子网络的输入为经过预处理的原始声谱特征、粗粒度特征以及各发音单元的融合特征,粗粒度特征为前述下支路的输出。转换子网络的输出为融合特征转化为声谱特征。在该实施例中,转换子网络用于根据输入的原始声谱特征、粗粒度特征,将输入的融合特征转换为声谱特征。
91.可以理解的是,融合特征是通过融合叠加音频特征和发音特征得到的,而叠加音频特征是由粗粒度音频特征和细粒度音频特征叠加得到的,因此融合特征能够在一定程度上反映出粗粒度音频特征。但是如前述说明,融合特征是由粗粒度音频特征经过一系列计算得到的,因此融合特征难以准确地反映出粗粒度音频特征,因此转换子网络转换得到的融声谱特征难以准确地反映出目标风格的整体特征。
92.因此,将粗粒度音频特征输入至转化子网络,能够使得转换子网络在将融合特征转换为声谱特征时能够准确的参考目标风格的整体特征,从而使得转换得到的声谱特征能够准确地反映出目标风格的整体特征,以使得后续合成的音频片段在整体上具有目标风格。
93.后处理子网络的输入为转换得到的声谱特征,后处理子网络的输出为经过后处理
的声谱特征。后处理子网络用于对转换得到的声谱特征进行后处理。后处理子网络由多个卷积神经子网络(convolutional neural networks)构成。
94.声码器的输入为经过后处理的声谱特征,即声码器的输入为后处理子网络的输出,声码器的输出为合成得到的具有目标风格且语音内容为目标文本的音频片段。声码器用于将输入的音频特征转换为音频片段。
95.对应于前述风格迁移合成方法,本公开还提供了一种语音合成模型训练方法,用于训练前述风格迁移合成方法中所使用的语音合成模型。
96.本公开提供的语音合成模型训练方法可以应用于任一具备语音合成模型训练能力的电子设备,包括但不限于服务器、个人电脑等。并且本公开提供的语音合成模型与本公开提供的风格迁移合成方法可以应用于同一设备,也可以应用于不同设备,本公开对此不做任何限制。
97.本公开提供的语音合成模型训练方法可以参见图4,包括:
98.s401,将样本音频片段、样本文本输入至原始模型,其中,样本文本为样本音频片段的语音内容。
99.样本文本为样本音频片段的语音内容是指:样本音频片段经过语音识别得到的文本为样本文本。示例性的,假设一个样本音频片段为张三说“aaaabbbb”时录制的音频片段,则样本文本为“aaaabbbb”。
100.s402,通过原始模型,针对样本音频片段中每个音频单元,叠加用于表征样本音频片段的粗粒度音频特征和用于表征音频单元的细粒度音频特征,得到音频单元的叠加音频特征。
101.原始模型的原理与前述语音合成模型的结构和原理完全相同,区别仅在于原始模型的模型参数与语音合成模型的模型参数不同。因此可以参见前述关于风格抽取子模型的相关说明,在此不再赘述。
102.s403,通过原始模型,提取样本文本中每个发音单元的发音特征。
103.该步骤的原理与前述内容编码子模型的原理相同,可以参见前述关于内容编码子模型的相关说明,在此不再赘述。
104.s404,通过原始模型,针对样本文本中的每个发音单元,融合发音单元的发音特征以及目标叠加音频特征,得到发音单元的融合特征,其中,目标叠加音频特征为与发音特征匹配的叠加音频特征。
105.该步骤的原理与前述内容风格交叉注意力子模型的原理相同,可以参见前述关于内容风格交叉注意力子模型的相关说明,在此不再赘述。
106.s405,通过原始模型,根据样本文本中每个发音单元的融合特征转换为预测声谱特征。
107.该步骤的原理与前述声谱解码子模型的原理相同,可以参见前述关于声谱解码子模型子模型的相关说明,在此不再赘述。
108.s406,根据预测声谱特征与样本音频特征的真实声谱特征之间的差异,调整原始模型的模型参数。
109.可以理解的是,由于输入至原始网络的样本文本为样本音频片段的内容,因此原始网络将样本音频片段的语义风格迁移至样本文本得到的音频片段应当为样本音频片段,
换言之,若原始网络能够准确地进行风格迁移合成,则预测声谱特征应当与样本音频片段的真实声谱特征相同。而导致预测声谱特征与真实声谱特征之间存在差异的原因为:原始模型无法准确进行风格迁移合成。
110.因此,能够使用预测声谱特征与真实声谱特征之间的差异,指导对原始模型的模型参数的调整,以使得原始模型的模型参数向着差异缩小的方向调整,从而训练得到能够准确进行风格迁移合成的语音合成模型。
111.s407,获取新的样本音频片段和新的样本文本,返回执行s401,直至达到第一收敛条件,将经过调整的原始模型作为语音合成模型。
112.新获取的样本文本应当为新获取的样本音频片段的内容,并且新获取的样本音频片段与之前的样本音频片段不同。第一收敛条件可以是由用户根据实际需求或需求设置的,示例性的,第一收敛条件可以是原始模型的模型参数的收敛性达到预设收敛性阈值,第一收敛条件也可以是已经使用的样本音频片段的数目达到预设数量阈值。
113.选用该实施例,通过样本音频的真实声谱特征对原始模型进行监督训练,并且由于样本文本为样本音频片段的语音内容,因此原始模型提取到的叠加音频特征能够更好地与样本文本中各发音单元的音频特征匹配,从而使得训练得到的语音合成模型能够更好的学习到音频特征与发音特征之间的匹配关系,从而在风格迁移合成过程中合成得到更具有目标风格的音频片段。
114.可以理解的是,由于样本文本为样本音频片段的语音内容,因此样本文本中发音单元的数量应当与样本音频片段中音频单元的数量相近甚至相同。而在使用语音合成模型进行风格迁移合成时,目标文本并非目标音频片段的语音内容,因此目标文本的发音单元的数量可能与目标音频片段中音频单元的数量相差较大。
115.为使得语音合成模型能够在发音单元与音频单元的数量相差较大的情况下也能够准确地实现风格迁移合成。在一种可能的实施例中,在前述s404的目标叠加音频特征为与发音特征匹配的筛选后音频特征,筛选后音频特征为从所有叠加音频特征中抽取的部分叠加音频特征。
116.抽取的方式为随机抽取,并且抽取的叠加音频特征的数量可以根据用户的实际需求或经验设置,如抽取80%的叠加音频特征作为筛选后音频特征,又如抽取90%的叠加音频特征作为筛选后音频特征。
117.选用该实施例,可以在训练过程中通过抽取部分叠加音频特征的方式,使得音频特征仅与选取的部分叠加音频特征通过交叉注意力机制进行融合,从而使得训练得到的语音合成模型能够学习到如何在发音单元与音频单元的数量相差较大的情况下实现风格迁移合成,即能够使得语音合成模型能够在发音单元与音频单元的数量相差较大的情况下也能够准确地实现风格迁移合成。
118.在前述s407中,获取的新的样本音频片段与之前的样本音频片段可以为具有相同风格(即为同一人员的音频片段),也可以是与之前的样本音频片段具有不相同的语音风格(即为不同人员的音频片段)。
119.在一种可能的实施例中,前述s407中获取新的样本片段通过以下方式实现:
120.若未达到第二收敛条件,则从第一样本数据集中获取新的样本音频片段,若达到第二收敛条件,则从第二样本数据集中获取新的样本音频片段。
121.其中,第一样本数据集中包括第一样本人员的音频片段,而第二样本数据集中包括多个样本人员的音频片段。并且在该实施例中,第一次执行s401时的样本音频片段为第一样本人员的音频片段。
122.其中,第二收敛条件的达成难度低于第一收敛条件,即第二收敛条件达成时第一收敛条件尚未达成,而第一收敛条件达成时第二收敛条件已经达成。
123.选用该实施例,可以首先通过第一样本人员的音频特征对原始模型进行训练,使得原始模型学习到如何将第一样本人员的语音风格迁移至特定文本,再利用多个样本人员各自的音频片段对原始模型进行训练,从而使得原始模型学习到如何将不同的语音风格迁移至特定文本。由于原始模型在学习如何将不同的语音风格迁移至特定文本之前,已经经过预训练,学习到如何将第一样本人员的语音风格迁移至特定文本,因此仅需使用不同人员的少量音频片段,即可完成对原始模型的训练,有效降低样本音频片段的获取难度。
124.参见图5,图5所示为本公开提供的风格迁移合成装置的一种结构示意图,包括:
125.第一输入模块501,用于将目标文本和具有目标语音风格的目标音频片段输入至预先经过样本文本和样本音频片段训练得到的语音合成模型;
126.风格抽取模块502,用于通过所述语音合成模型的风格抽取子模型,针对所述目标音频片段中每个音频单元,叠加用于表征所述目标音频片段的粗粒度音频特征和用于表征所述音频单元的细粒度音频特征,得到所述音频单元的叠加音频特征;
127.内容编码模块503,用于通过所述语音合成模型的内容编码子模型,提取所述目标文本中每个发音单元的发音特征;
128.内容风格交叉注意力模块504,用于通过所述语音合成模型的内容风格交叉注意力子模型,针对所述目标文本中的每个发音单元,融合所述发音单元的发音特征以及目标叠加音频特征,得到所述发音单元的融合特征,其中,所述目标叠加音频特征为与所述发音特征匹配的叠加音频特征;
129.声谱解码模块505,用于通过所述语音合成模型的声谱解码子模型,根据所述目标文本中每个发音单元的所述融合特征,合成具有所述目标语音风格且语音内容为所述目标文本的音频片段。
130.选用该实施例,利用粒度不同的音频特征叠加得到叠加音频特征,从而使得叠加音频特征不仅能够反映出目标风格整体上的特征,同时也能够反映出目标音频片段的细节特征。再利用交叉注意力机制,将各个发音单元的音频特征与相匹配的叠加音频特征融合,则得到的融合特征一方面能够反映目标文本中包括的语音内容,另一方面能够反映出目标风格整体以及细节特征,并且由于音频特征是与相匹配的叠加音频特征融合,因此各个发音单元的融合特征反映出的细节特征能够反映出目标风格中念出该发音单元的细节特征。因此,根据融合特征合成的音频片段中,不仅整体上的声学特征与目标风格相近,且在各个发音单元的发音上与目标风格相近,即能够合成在整体和细节上具有目标风格的音频片段。
131.在一种可能的实施例中,所述风格抽取模块502通过所述语音合成模型的风格抽取子模型,针对所述目标音频片段中每个音频单元,叠加用于表征所述目标音频片段的粗粒度音频特征和用于表征所述音频单元的细粒度音频特征,得到所述音频单元的叠加音频特征,包括:
132.通过所述语音合成模型的风格抽取模块,提取所述目标音频片段中所有音频帧的平均音频特征,作为粗粒度音频特征;
133.通过所述风格抽取模块,针对所述目标音频片段中的每个音频单元,提取所述音频单元中所有音频帧的平均音频特征,作为所述音频单元的细粒度音频特征;
134.通过所述风格抽取模块,针对所述目标音频片段中的每个音频单元,将所述音频单元的所述细粒度音频特征与所述粗粒度音频特征相加,得到所述音频单元的叠加音频特征。
135.在一种可能的实施例中,所述内容风格交叉注意力模块504通过所述语音合成模型的内容风格交叉注意力子模型,针对目标文本中的每个发音单元,融合所述发音单元的发音特征以及目标叠加音频特征,得到所述发音单元的融合特征,包括:
136.将目标文本中每个发音单元的发音特征输入至所述语音合成模型中内容风格交叉注意力子模型的自注意力子网络,得到所述子注意力子网络输出的经过调整的发音特征;
137.通过所述内容交叉子模型的交叉注意力子网络,针对所述目标文本中的每个发音单元,融合所述发音单元的经过调整的发音特征以及目标叠加音频特征,得到所述发音单元的融合特征,其中,所述所述目标叠加音频特征为与经过调整的发音特征匹配的叠加音频特征。
138.在一种可能的实施例中,所述声谱解码模块505通过所述语音合成模型的声谱解码子模型,根据所述目标文本中每个发音单元的所述融合特征,合成具有所述目标语音风格且语音内容为所述目标文本的音频片段,包括:
139.将所述目标文本中每个发音单元的所述融合特征、所述粗粒度音频特征输入至所述语音合成模型的声谱解码子模型,得到所述声谱解码子网络输出的声谱特征;
140.将所述声谱特征转换为具有所述目标语音风格且语音内容为所述目标文本的音频片段。
141.参见图6,图6所示为本发明实施例提供的语音合成模型的训练装置的一种结构示意图,可以包括:
142.第二输入模块601,用于将样本音频片段、样本文本输入至原始模型,其中,所述样本文本为所述样本音频片段的语音内容;
143.第一原始模块602,用于通过所述原始模型,针对所述样本音频片段中每个音频单元,叠加用于表征所述样本音频片段的粗粒度音频特征和用于表征所述音频单元的细粒度音频特征,得到所述音频单元的叠加音频特征;
144.第二原始模块603,用于通过所述原始模型,提取所述样本文本中每个发音单元的发音特征;
145.第三原始模块604,用于通过所述原始模型,针对所述样本文本中的每个发音单元,融合所述发音单元的发音特征以及目标叠加音频特征,得到所述发音单元的融合特征,其中,所述目标叠加音频特征为与所述发音特征匹配的叠加音频特征;
146.第四原始模块605,用于通过所述原始模型,根据所述样本文本中每个发音单元的所述融合特征转换为预测声谱特征;
147.参数调整模块606,用于根据所述预测声谱特征与所述样本音频片段的真实声谱
特征之间的差异,调整所述原始模型的模型参数;
148.获取模块607,用于获取新的样本音频片段和新的样本文本,返回执行所述将样本音频片段、样本文本输入至原始模型的步骤,直至达到第一收敛条件,将经过调整的原始模型作为语音合成模型。
149.在一种可能的实施例中,还包括:
150.叠加特征抽取模块,用于从所有叠加音频特征中抽取部分叠加音频特征,作为筛选后音频特征;
151.所述目标叠加音频特征为与所述发音特征匹配的筛选后音频特征。
152.在一种可能的实施例中,所述样本音频片段初始为第一样本人员的音频片段;
153.所述获取模块607获取新的样本音频片段,包括:
154.若未达到第二收敛条件,从第一样本数据集中获取新的样本音频片段,所述第一样本数据集中包括所述第一样本人员的音频片段;
155.若达到所述第二收敛条件,从第二样本数据集中获取新的样本音频片段和新的样本文本,所述第二样本数据集中包括多个样本人员的音频片段。
156.本公开的技术方案中,所涉及的用户个人信息的收集、存储、使用、加工、传输、提供和公开等处理,均符合相关法律法规的规定,且不违背公序良俗。
157.需要说明的是,本实施例中的样本音频片段来自于公开数据集,如ljspeech(一种公开数据集)、vctk(一种公开数据集)。
158.根据本公开的实施例,本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。
159.图7示出了可以用来实施本公开的实施例的示例电子设备700的示意性框图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本公开的实现。
160.如图7所示,设备700包括计算单元701,其可以根据存储在只读存储器(rom)702中的计算机程序或者从存储单元708加载到随机访问存储器(ram)703中的计算机程序,来执行各种适当的动作和处理。在ram 703中,还可存储设备700操作所需的各种程序和数据。计算单元701、rom 702以及ram 703通过总线704彼此相连。输入/输出(i/o)接口705也连接至总线704。
161.设备700中的多个部件连接至i/o接口705,包括:输入单元706,例如键盘、鼠标等;输出单元707,例如各种类型的显示器、扬声器等;存储单元708,例如磁盘、光盘等;以及通信单元709,例如网卡、调制解调器、无线通信收发机等。通信单元709允许设备700通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
162.计算单元701可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元701的一些示例包括但不限于中央处理单元(cpu)、图形处理单元(gpu)、各种专用的人工智能(ai)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(dsp)、以及任何适当的处理器、控制器、微控制器等。计算单元701执行上文所描述的各个方法和处理,
例如风格迁移合成方法或语音合成模型的训练方法。例如,在一些实施例中,风格迁移合成方法或语音合成模型的训练方法可被实现为计算机软件程序,其被有形地包含于机器可读介质,例如存储单元708。在一些实施例中,计算机程序的部分或者全部可以经由rom 702和/或通信单元709而被载入和/或安装到设备700上。当计算机程序加载到ram 703并由计算单元701执行时,可以执行上文描述的风格迁移合成方法或语音合成模型的训练方法的一个或多个步骤。备选地,在其他实施例中,计算单元701可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行风格迁移合成方法或语音合成模型的训练方法。
163.本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(fpga)、专用集成电路(asic)、专用标准产品(assp)、芯片上系统的系统(soc)、复杂可编程逻辑设备(cpld)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
164.用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器,使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
165.在本公开的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(ram)、只读存储器(rom)、可擦除可编程只读存储器(eprom或快闪存储器)、光纤、便捷式紧凑盘只读存储器(cd-rom)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
166.为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,crt(阴极射线管)或者lcd(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
167.可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数
字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(lan)、广域网(wan)和互联网。
168.计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器,也可以为分布式系统的服务器,或者是结合了区块链的服务器。
169.应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本公开公开的技术方案所期望的结果,本文在此不进行限制。
170.上述具体实施方式,并不构成对本公开保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等,均应包含在本公开保护范围之内。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献