一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

基于音色克隆的语音合成方法、装置及相关设备与流程

2021-07-23 21:35:00 来源:中国专利 TAG:音色 克隆 语音合成 电子设备 介质
基于音色克隆的语音合成方法、装置及相关设备与流程

本公开涉及基于音色克隆的语音合成技术领域,尤其涉及一种基于音色克隆的语音合成方法、装置、电子设备及计算机可读介质。



背景技术:

在语音克隆的技术领域中,常常采用基于注意力机制的编码结构和解码结构的模型进行声学特征预测。但目前应用过程中,注意力机制的编码结构会导致过多的语音重复和丢音问题,甚至导致预测结束失败。

因此,需要一种新的基于音色克隆的语音合成方法、装置、电子设备及计算机可读介质。

在所述背景技术部分公开的上述信息仅用于加强对本公开的背景的理解。



技术实现要素:

有鉴于此,本公开实施例提供一种基于音色克隆的语音合成方法、装置、电子设备及计算机可读介质,能够避免现有技术中由于编码器中的注意力机制导致的丢音、重复发音与预测结束失败的问题。

本公开的其他特性和优点将通过下面的详细描述变得显然,或部分地通过本公开的实践而习得。

根据本公开实施例的第一方面,提出一种基于音色克隆的语音合成方法,该方法包括:获取针对目标用户的待克隆文本,并获得所述待克隆文本的音素序列,所述音素序列包括至少一个音素;通过第一模型对所述音素序列处理获得预测时长序列,所述预测时长序列包括各音素的预测时长;通过第二模型对各音素的预测时长和所述音素序列进行处理,获得目标预测特征;根据所述目标预测特征语音合成,获得针对所述目标用户的所述待克隆文本的合成语音;

其中,通过第二模型对各音素的预测时长和所述音素序列进行处理,获得目标预测特征包括:通过包括依次连接的第一一维卷积模块和双向长短时记忆模块的编码器对所述音素序列进行处理,获得初始表征向量序列,所述初始表征向量序列包括各音素的初始表征向量;根据所述各音素的预测时长对所述初始表征向量序列进行处理,获得各音素的帧级别表征向量;利用解码器对所述各音素的帧级别表征向量和所述目标用户的用户嵌入式表示进行处理,获得目标预测特征。

在本公开的一种示例性实施例中,根据所述各音素的预测时长对所述初始表征向量序列进行处理,获得帧级别表征向量序列包括:根据每一帧的单位时长和各音素的预测时长确定各音素的重复次数;根据各音素的重复次数对所述初始表征向量序列中各音素的初始表征向量进行扩展,获得所述帧级别表征向量序列。

在本公开的一种示例性实施例中,通过第一模型对所述音素序列处理获得预测时长序列包括:对所述音素序列进行嵌入式表示,获得音素嵌入式表示序列,所述音素嵌入式表示序列包括各音素的嵌入式表示;利用n个依次连接的第二一维卷积模块对所述音素嵌入式表示序列表示进行处理,获得音素一维卷积结果,n为大于0的整数;利用第一全连接层对所述音素一维卷积结果进行处理,获得第一全连接层输出;根据所述音素序列中各音素的位置编码信息;对所述音素嵌入式表示序列、所述位置编码信息、所述第一全连接层输出和所述用户嵌入式表示进行按位相加,获得按位相加结果;通过自注意力结构对所述按位相加结果进行处理,获得注意力结构输出;通过第二全连接层对所述注意力结构输出进行处理,获得所述预测时长序列。

在本公开的一种示例性实施例中,所述第二一维卷积模块包括依次连接的一维卷积层、批归一化操作层、激活函数层和防过拟合层。

在本公开的一种示例性实施例中,通过包括依次连接的第一一维卷积模块和双向长短时记忆模块的编码器对所述音素序列进行处理,获得初始表征向量序列包括:对所述音素序列进行嵌入式表示,获得音素嵌入式表示序列;利用依次连接的m个第一一维卷积模块对所述音素嵌入式表示序列进行处理,获得第一一维卷积结果,所述第一一维卷积模块包括依次连接的一一维卷积层、批归一化操作层、激活函数层和防过拟合层;利用双向长短时记忆网络对所述第一一维卷积结果进行处理,获得双向长短时记忆网络输出;将所述各音素的嵌入式表示序列、所述双向长短时记忆网络输出和所述用户嵌入式表示进行按位相加,获得各音素的初始表征向量。

在本公开的一种示例性实施例中,利用解码器对所述各音素的帧级别表征向量和所述目标用户的用户嵌入式表示进行处理,获得目标预测特征包括:将所各音素的帧级别表征向量作为所述解码器的输入,并根据所述用户嵌入式表示与解码器中各预处理网络的输出的按位相加结果更新各预处理网络的输出,以获得所述解码器输出的所述目标预测特征。

在本公开的一种示例性实施例中,所述方法还包括:根据原始训练样本集对所述第一模型和所述第二模型进行训练,获得第一模型的基础模型和所述第二模型的基础模型;获取目标用户的待克隆语音信息,利用所述待克隆语音信息对所述第一模型的基础模型和所述第二模型的基础模型进行迁移学习,获得训练完成的所述第一模型和所述第二模型。

根据本公开实施例的第二方面,提出一种基于音色克隆的语音合成装置,该装置包括:待克隆文本获取模块,配置为获取针对目标用户的待克隆文本,并获得所述待克隆文本的音素序列,所述音素序列包括至少一个音素;第一模型处理模块,配置为通过第一模型对所述音素序列处理获得预测时长序列,所述预测时长序列包括各音素的预测时长;第二模型处理模块,配置为通过第二模型对各音素的预测时长和所述音素序列进行处理,获得目标预测特征;语音合成模块,配置为根据所述目标预测特征语音合成,获得针对所述目标用户的所述待克隆文本的合成语音;

其中,第二模型处理模块包括:编码单元,配置为通过包括依次连接的第一一维卷积模块和双向长短时记忆模块的编码器对所述音素序列进行处理,获得初始表征向量序列,所述初始表征向量序列包括各音素的初始表征向量;初始表征向量处理单元,配置为根据所述各音素的预测时长对所述初始表征向量序列进行处理,获得各音素的帧级别表征向量;解码单元,配置为利用解码器对所述各音素的帧级别表征向量和所述目标用户的用户嵌入式表示进行处理,获得目标预测特征。

根据本公开实施例的第三方面,提出一种电子设备,该电子设备包括:一个或多个处理器;存储装置,用于存储一个或多个程序;当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现上述任一项所述的基于音色克隆的语音合成方法。

根据本公开实施例的第四方面,提出一种计算机可读介质,其上存储有计算机程序,所述程序被处理器执行时实现如上述任一项所述的基于音色克隆的语音合成方法。

根据本公开某些实施例提供的基于音色克隆的语音合成方法、装置、电子设备及计算机可读介质,基于由目标用户的待克隆语音信息训练获得的第一模型和第二模型,对待克隆文本的音素序列进行处理过程中,由于第一模型为单独训练获得,能够提供更加灵活的音素时长预测方式。在通过第二模型对各音素的预测时长和所述音素序列进行处理过程中,在利用编码器获得初始表征向量序列后,基于每个音素对应的预测时长将该音素的表征向量扩展到帧级别,使获得的帧级别表征向量与解码器预测获得的目标预测特征(即声学特征序列)的长度一致,从而可使本方案中第二模型中的编码器避免采用注意力机制,进而可避免现有技术中由于编码器中的注意力机制导致的丢音、重复发音与预测结束失败的问题,从而提升模型的鲁棒性,提高语音合成的准确性和合成质量。

应当理解的是,以上的一般描述和后文的细节描述仅是示例性的,并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理。下面描述的附图仅仅是本公开的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1是根据一示例性实施例示出的一种基于音色克隆的语音合成方法及装置的系统框图。

图2是根据一示例性实施例示出的一种基于音色克隆的语音合成方法的流程图。

图3是根据一示例性实施例示出的第一模型的结构示意图。

图4是根据一示例性实施例示出的第一一维卷积模块的结构示意图。

图5是根据一示例性实施例示出的第二模型的结构示意图。

图6是根据一示例性实施例示出的鲁棒性测试结果展示图。

图7是根据一示例性实施例示出的性能展示图。

图8是根据一示例性实施例示出的一种基于音色克隆的语音合成装置的框图。

图9示意性示出本公开一个示例性实施例中一种电子设备的方框图。

具体实施方式

现在将参考附图更全面地描述示例实施例。然而,示例实施例能够以多种形式实施,且不应被理解为限于在此阐述的实施例;相反,提供这些实施例使得本发明将全面和完整,并将示例实施例的构思全面地传达给本领域的技术人员。在图中相同的附图标记表示相同或类似的部分,因而将省略对它们的重复描述。

所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施方式中。在下面的描述中,提供许多具体细节从而给出对本发明的实施方式的充分理解。然而,本领域技术人员将意识到,可以实践本发明的技术方案而省略特定细节中的一个或更多,或者可以采用其它的方法、组元、装置、步骤等。在其它情况下,不详细示出或描述公知方法、装置、实现或者操作以避免模糊本发明的各方面。

附图仅为本发明的示意性图解,图中相同的附图标记表示相同或类似的部分,因而将省略对它们的重复描述。附图中所示的一些方框图不一定必须与物理或逻辑上独立的实体相对应。可以采用软件形式来实现这些功能实体,或在一个或多个硬件模块或集成电路中实现这些功能实体,或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。

附图中所示的流程图仅是示例性说明,不是必须包括所有的内容和步骤,也不是必须按所描述的顺序执行。例如,有的步骤还可以分解,而有的步骤可以合并或部分合并,因此实际执行的顺序有可能根据实际情况改变。

相关技术中,传统的端到端模型,需要通过注意力机制解决编码器和解码器长度不一致的问题,但是在语音合成领域,注意力机制会导致某些输入的音素被遗漏或者重复发音,造成skip/reapet问题,会出现丢音,重复发音,以及预测结束失败的问题。同时时长预测模型是和整个声学特征预测模型一起联合训练获得,降低了神经网络的灵活度,不能充分的利用其他的数据提升音素时长信息预测的灵活性和准确性。

下面结合附图对本发明示例实施方式进行详细说明。

图1是根据一示例性实施例示出的一种基于音色克隆的语音合成方法及装置的系统框图。

在基于音色克隆的语音合成方法及装置的系统100中,服务器105可以是提供各种服务的服务器,例如通过网络104对用户利用终端设备101、102、103所进行操作的基于音色克隆的语音合成系统提供支持的后台管理服务器(仅为示例)。后台管理服务器可以对接收到的基于音色克隆的语音合成请求等数据进行分析等处理,并将处理结果(例如合成语音--仅为示例)反馈给终端设备。

服务器105可以是一个实体的服务器,还可例如为多个服务器组成,服务器105中的一部分可例如作为本公开中的基于音色克隆的语音合成任务提交系统,用于获取将要执行基于音色克隆的语音合成命令的任务;以及服务器105中的一部分还可例如作为本公开中的基于音色克隆的语音合成系统,用于获取针对目标用户的待克隆文本,并获得所述待克隆文本的音素序列,所述音素序列包括至少一个音素;通过第一模型对所述音素序列处理获得预测时长序列,所述预测时长序列包括各音素的预测时长;通过第二模型对各音素的预测时长和所述音素序列进行处理,获得目标预测特征;根据所述目标预测特征语音合成。。

根据本公开实施例提供的基于音色克隆的语音合成方法及装置,能够提升模型的鲁棒性,提高语音合成的准确性和合成质量。

图2是根据一示例性实施例示出的一种基于音色克隆的语音合成方法的流程图。本公开实施例提供的基于音色克隆的语音合成方法可以由任意具备计算处理能力的电子设备执行,例如终端设备101、102、103和/或服务器105,在下面的实施例中,以服务器执行所述方法为例进行举例说明,但本公开并不限定于此。本公开实施例提供的基于音色克隆的语音合成方法可以包括步骤s210至s240。

如图2所示,在步骤s210中,获取针对目标用户的待克隆文本,并获得待克隆文本的音素序列,音素序列包括至少一个音素。

本公开实施例中,待克隆文本为需要进行语音合成的文本信息。其中,通过将待克隆文本转换为音素,可获得音素序列。

在步骤s220中,通过第一模型对音素序列处理获得预测时长序列,预测时长序列包括各音素的预测时长。

本公开实施例中,第一模型可为根据目标用户的待克隆语音信息进行训练获得。目标用户的待克隆语音信息为由目标用户录制的语音格式数据。其中,可获得目标用户的用户嵌入式表示,并通过第一模型对音素序列处理获得预测时长序列,预测时长序列包括各音素的预测时长。在该实施例中,根据用户的用户嵌入式表示对音素的时长预测过程进行补偿,能够提高模型预测的鲁棒性,并提高音素的时长预测准确度。同时,本公开实施例通过单独训练的第一模型提供了更加灵活的音素时长预测方式。

在步骤s230中,通过第二模型对各音素的预测时长和音素序列进行处理,获得目标预测特征。

本公开实施例中,第二模型可为根据目标用户的待克隆语音信息进行训练获得。第二模型可为声学特征预测模型。声学特征,指表示语音声学特性的物理量,也是声音诸要素声学表现的统称。如表示音色的能量集中区、共振峰频率、共振峰强度和带宽,以及表示语音韵律特性的时长、基频、平均语声功率等。由于第一模型和第二模型是根据目标用户的待克隆语音信息训练获得,因此本步骤获得的目标预测特征能够预测目标用户在说出待克隆文本时所表达出的语音声学特性。

在步骤s240中,根据目标预测特征进行语音合成,获得针对所述目标用户的所述待克隆文本的合成语音。

本公开实施例中,可基于目标预测特征合成语音格式信息,以进行以目标用户为克隆对象的语音合成。例如待克隆文本为“你在哪里”,则本步骤语音合成的为模仿目标用户说出“你在哪里”时的声学特性的仿真的语音信息。

其中,步骤s230可以进一步包括以下步骤s231至s233。

在步骤s231中,通过包括依次连接的第一一维卷积模块和双向长短时记忆模块的编码器对音素序列进行处理,获得初始表征向量序列,初始表征向量序列包括各音素的初始表征向量。

如图3所示,第二模型的示意图可见图5。如图5所示,编码器可包括m个第一一维卷积模块510和双向长短时记忆网络层520(blstmlayer),m为大于0的整数。其中,第一一维卷积模块510的结构可见图4,如图4所示,第一一维卷积模块510可包括依次连接的一维卷积层(1-dconvolutions)401、批归一化操作层(batchnorm)402、激活函数层(例如relu)403和防过拟合层(dropoutlayer)404。双向长短时记忆网络层520可由前向长短时记忆网络和后向长短时记忆网络组合而成。本步骤提供的基于一维卷积运算和双向长短时记忆网络结构的编码器网络,能够提高模型的鲁棒性,以提高目标语音特征的预测准确性。

在步骤s232中,根据各音素的预测时长对初始表征向量序列进行处理,获得各音素的帧级别表征向量。

本公开实施例中,可通过每个音素对应的预测时长,将该音素的表征向量扩展到帧级别,能够保证第二模型中编码器和解码器的输入具有同样的序列长度。本步骤可由图5中长度调节器530(lengthregulator)执行。

在步骤s233中,利用解码器对各音素的帧级别表征向量和目标用户的用户嵌入式表示进行处理,获得目标预测特征。

本公开实施例中,解码器可为自回归解码器网络结构,即可将上一时刻的输出作为当前时刻的输入,当前时刻的输出又作为下一时刻的输入,依次类推。解码器的结构可如图5所示,解码器可包括预处理网络540、长短时记忆网络层550、第三全连接层560(例如为fullyconnectedlayer)和后处理网络570。第三全连接层560输出向量的缩减因数(reductionfactor)可例如为4。其中,后处理网络可包括p个依次连接的第三一维卷积模块571和第四全连接层572(例如为fullyconnectedlayer)。第三一维卷积模块571可采取与第一一维卷积模块510和第二一维卷积模块310类似的结构,此处不再赘述。

其中,若解码器每个解码时刻预测一帧,将能够保证解码的步数和编码器序列长度是一致的;同时也意味着解码器得到的声学特征(即目标预测特征)的序列长度永远和编码器的长度一致。

根据本公开实施例提供的基于音色克隆的语音合成方法,基于由目标用户的待克隆语音信息训练获得的第一模型和第二模型,对待克隆文本的音素序列进行处理过程中,由于第一模型为单独训练获得,能够提供更加灵活的音素时长预测方式。在通过第二模型对各音素的预测时长和所述音素序列进行处理过程中,在利用编码器获得初始表征向量序列后,基于每个音素对应的预测时长将该音素的表征向量扩展到帧级别,使获得的帧级别表征向量与解码器预测获得的目标预测特征(即声学特征序列)的长度一致,从而可使本方案中第二模型中的编码器避免采用注意力机制,进而可避免现有技术中由于编码器中的注意力机制导致的丢音、重复发音与预测结束失败的问题,从而提升模型的鲁棒性,提高语音合成的准确性和合成质量。

进一步地,在步骤s232中,可根据每一帧的单位时长和各音素的预测时长确定各音素的重复次数;根据各音素的重复次数对所述初始表征向量序列中各音素的初始表征向量进行扩展,获得所述帧级别表征向量序列。

其中,如图5所示,可根据各因素的预测时长和每一帧的单位时长的商确定各音素的重复次数。其中,当商不是整数时,可对商取整作为重复次数。对于音素序列“‘x’、‘in1’、‘d’,…”其预测时长分别为“40、30、30,…”,其单位为毫秒(ms),假设每一帧的单位时长为10ms,则对于音素“x”,由于其预测时长为40ms,则其重复次数可为40÷10=4、对于音素“in1”,由于其预测时长为30ms,则其重复次数可为30÷10=3,同理音素“d”的重复次数也为3。进一步地,在根据各音素的重复次数对所述初始表征向量序列中各音素的初始表征向量进行扩展时,对于音素序列中的i个音素(i为大于0的整数),其中第i个音素的重复次数为ai,则基于第i个音素生成ai个元素作为帧级别表征向量序列中的元素,其中,该ai个元素的元素值为第i个音素的初始表征向量。接前述举例,对于第1个音素“x”,其重复次数a1=4,则可将帧级别表征向量序列中确定第1至第4(a1=4)个元素的元素值确定为第1个音素“x”的初始表征向量,可见图5中帧级别表征向量504中所示的第1至第4个元素。又例如,对于第2个音素“in1”,i=2,其重复次数a2=3,则可将帧级别表征向量序列中确定第至第个元素的元素值确定为第2个音素“in1”的初始表征向量,可见图5中帧级别表征向量504中所示的第5至第7个元素。又例如,对于第3个音素“d”,i=3,其重复次数a3=3,则可将帧级别表征向量序列中确定第至第个元素的元素值确定为第3个音素“d”的初始表征向量,可见图5中帧级别表征向量504中所示的第8至第10个元素。以此类推,以获得帧级别表征向量序列504。本公开实施例中,基于每个音素对应的预测时长将该音素的表征向量扩展到帧级别,使获得的帧级别表征向量与解码器具有同样的序列长度,从而可使本方案中第二模型中的编码器避免采用注意力机制,避免注意力机制带来的重复(repeat)和丢音(skip)问题,保证模型即便在较少语料的音色克隆中仍能够保证较强的鲁棒性。

进一步地,在步骤s220中,可对音素序列进行嵌入式表示,获得音素嵌入式表示序列,音素嵌入式表示序列包括各音素的嵌入式表示;利用n个依次连接的第二一维卷积模块对音素嵌入式表示序列进行处理,获得音素一维卷积结果,n为大于0的整数;利用第一全连接层对音素一维卷积结果进行处理,获得第一全连接层输出;根据音素序列中各音素的位置编码信息;对音素嵌入式表示序列、位置编码信息、第一全连接层输出和用户嵌入式表示进行按位相加,获得按位相加结果;通过自注意力结构对所按位相加结果进行处理,获得注意力结构输出;通过第二全连接层对注意力结构输出进行处理,获得预测时长序列。

其中,如图3所示,由音素序列301获得的音素嵌入式表示序列见附图标记302。进一步地,第二一维卷积模块可包括依次连接的一一维卷积层(1-dconvolutions)、批归一化操作层(batchnorm)、激活函数层(例如relu)和防过拟合层(dropoutlayer),第二一维卷积模块310的结构可与第一一维卷积模块510类似,如图4所示。

第一全连接层320可例如为稠密层(denselayer)。音素序列中各音素的位置编码信息303是指各音素在音素序列中的位置表征。例如音素序列301中,其中第1个音素“x”的位置编码信息可根据其在该音素序列中的位置进行表征获得。对音素序列301、位置编码信息303、第一全连接层320的输出和用户嵌入式表示306进行按位相加,获得按位相加结果,以作为自注意力结构330的输入信息。自注意力结构330可例如包括q个transformer结构层,q为大于0的整数。第二全连接层340可例如为投影层(projectionlayer)。第二全连接层340输出的为预测时长序列304。

进一步地,如图5所示,在步骤s231可包括:对音素序列进行嵌入式表示,获得音素嵌入式表示序列;利用依次连接的m个第一一维卷积模块510对音素嵌入式表示序列进行处理,获得第一一维卷积结果,第一一维卷积模块包括依次连接的一一维卷积层、批归一化操作层、激活函数层和防过拟合层,第一一维卷积模块可见图4所示;利用双向长短时记忆网络层520对第一一维卷积结果进行处理,获得双向长短时记忆网络输出;将音素嵌入式表示序列302、双向长短时记忆网络输出和用户嵌入式表示306进行按位相加,获得各音素的初始表征向量。

进一步地,如图5所示,在步骤s233中,可将所各音素的帧级别表征402作为解码器的输入,并根据用户嵌入式表示306与解码器中各预处理网络540的输出的按位相加结果更新各预处理网络的输出,以获得解码器输出的目标预测特征505。

其中,图5中的解码器为自回归解码器网络结构,解码器用于将编码器(encoder)得到的表征向量解码为声学特征的过程,解码器是一个自回归的过程,即上一个时刻的输出被用来当作当前时刻的输入,当前时刻的输出又会被当做下一个时刻的输入。在训练过程中,首先通过训练样本集对第一模型进行迁移学习,并且通过验证集损失来判断何时停止学习。然后通过训练样本集对第二模型进行迁移学习,同样通过验证集损失来判断何时停止迁移学习。本申请在迁移学习过程中,可加入样本中样本对应用户的用户嵌入式表示进行模型训练,并且在迁移学习得过程中,更新模型得所有参数。本申请训练获得的模型参数可例如下表所示。

表1模型参数

进一步地,本公开实施例的基于音色克隆的语音合成方法在执行图2所示实施例的步骤s210至s240之前,还可预先执行如下步骤:根据原始训练样本集对第一模型和第二模型进行训练,获得第一模型的基础模型和第二模型的基础模型;获取目标用户的待克隆语音信息,利用待克隆语音信息对第一模型的基础模型和第二模型的基础模型进行迁移学习,获得训练完成的第一模型和第二模型。

本公开实施例中,可先通过对齐模型(例如mfa模型),得到训练样本集中每个音色的时长信息,以作为标签信息;然后我们基于该训练样本集训练第一模型,并将该第一模型作为第一模型的基础模型。

基于对齐模型获得的每个音色的时长信息后,可结合训练样本集和时长信息,训练基于自回归生成网络的声学特征预测模型(即第二模型)。在声学特征预测模型中,输入的音素序列经过一系列的神经网络层(即编码器)得到每个音素对应的表征向量,然后通过每个音素对应的时长信息,将该音素的表征向量扩展到帧级别(即各音素的帧级别表征向量),能够保证声学特征预测模型的编码器和解码器具有同样的序列长度,这样就可以取消现有技术中编码器中的注意力机制,提升模型的鲁棒性;通过多说话人训练数据(即训练样本集),训练一个基础的声学特征预测模型(即第二模型)作为音色克隆的基础模型。

本申请通过单独训练训练的第一模型(即音素时长预测模型),并且优化了音素时长预测模型的网络结构,能够提升音素时长预测模型的性能;在第一模型中,本申请通过结合卷积网络和自注意力网络结构,能够提升模型的稳定性和音素时长预测的准确性。

相较于现有技术,通过将各音素的初始表征向量更新为各音素的帧级别表征向量,本申请的第二模型在编码器部分能够采用更加简单的网络结构,摒弃现有技术的编码器中由于注意力机制带来的重复和丢音问题。进一步地,编码器采用的一维卷积和双向lstm网络结构能够提升模型的鲁棒性。基于获得的各音素的帧级别表征向量,能够保证编码器和解码器的序列的长度一致,因此可移除注意力机制,无需采用现有技术中通过注意力机制来衔接编码器和解码器的技术手段。移除注意力机制有助于提升模型的质量和鲁棒性。

现有技术中的第二模型中的跳过编码器结构(skipencoder)需要预测文本的韵律信息,例如韵律词、韵律短语,但是这些韵律信息在发音的时候并不停顿,所以不会对模型的韵律效果有影响,并且如果需要额外的模型去预测这些信息,反而会造成错误累积,影响最终合成的声音质量。本申请基于现有技术采用包括一维卷积模块和双向长短时记忆网络结构的编码结构替代现有技术的skipencoder,在简化模型结构的同时,还能够避免由skipencoder结构引起的累积错误对于最终音质的影响,提升语音合成质量。

本申请提出的第一模型和第二模型的鲁棒性测试结果如图6所示。表4中,任务1使用了100句目标数据进行迁移学习,任务2采用了五句目标数据进行迁移学习,s3/s4/s5对应了三个不同的语料提供者(即speaker),即三个不同的迁移学习结果,每个speaker有100句难度较大的测试句子,通过统计了模型发音出错,发音不清以及音调不对的badcase,从表中可以看出,本申请迁移学习得到的目标音色具有非常好的模型鲁棒性。在任务1和任务2中,可以看出,即便任务2的任务里只采用五句目标数据进行迁移学习,得到的目标音色在测试中出错也没有增加,表现出了非常好的模型鲁棒性。

同时,本申请的性能展示如图7所示(任务1采用100句进行迁移学习,任务2采用五句进行迁移学习,任务1-b和任务2-b的任务允许采用额外的开源数据进行模型训练,但是本发明并没有采用任何开源数据)。

应清楚地理解,本公开描述了如何形成和使用特定示例,但本公开的原理不限于这些示例的任何细节。相反,基于本公开公开的内容的教导,这些原理能够应用于许多其它实施例。

本领域技术人员可以理解实现上述实施例的全部或部分步骤被实现为由中央处理器(centralprocessingunit,cpu)执行的计算机程序。在该计算机程序被中央处理器cpu执行时,执行本公开提供的上述方法所限定的上述功能。该程序可以存储于一种计算机可读存储介质中,该存储介质可以是只读存储器、磁盘或光盘等。

此外,需要注意的是,上述附图仅是根据本公开示例性实施例的方法所包括的处理的示意性说明,而不是限制目的。易于理解,上述附图所示的处理并不表明或限制这些处理的时间顺序。另外,也易于理解,这些处理可以是例如在多个模块中同步或异步执行的。

下述为本公开装置实施例,可以用于执行本公开方法实施例。对于本公开装置实施例中未披露的细节,请参照本公开方法实施例。

图8是根据一示例性实施例示出的一种基于音色克隆的语音合成装置的框图。参照图8,本公开实施例提供的基于音色克隆的语音合成装置80可以包括:待克隆文本获取模块810、第一模型处理模块820、第二模型处理模块830和语音合成模块840。

在基于音色克隆的语音合成装置80中,待克隆文本获取模块810可配置为获取针对目标用户的待克隆文本,并获得所述待克隆文本的音素序列,所述音素序列包括至少一个音素。

第一模型处理模块820可配置为通过第一模型对所述音素序列处理获得预测时长序列,所述预测时长序列包括各音素的预测时长。

第二模型处理模块830可配置为通过第二模型对各音素的预测时长和所述音素序列进行处理,获得目标预测特征。

语音合成模块840可配置为根据所述目标预测特征语音合成,获得针对所述目标用户的所述待克隆文本的合成语音。

其中,第二模型处理模块830可包括:

编码单元831,可配置为通过包括依次连接的第一一维卷积模块和双向长短时记忆模块的编码器对所述音素序列进行处理,获得初始表征向量序列,所述初始表征向量序列包括各音素的初始表征向量;

初始表征向量处理单元832,可配置为根据所述各音素的预测时长对所述初始表征向量序列进行处理,获得各音素的帧级别表征向量;

解码单元833,可配置为利用解码器对所述各音素的帧级别表征向量和所述目标用户的用户嵌入式表示进行处理,获得目标预测特征。

根据本公开实施例提供的基于音色克隆的语音合成装置,基于由目标用户的待克隆语音信息训练获得的第一模型和第二模型,对待克隆文本的音素序列进行处理过程中,由于第一模型为单独训练获得,能够提供更加灵活的音素时长预测方式。在通过第二模型对各音素的预测时长和所述音素序列进行处理过程中,在利用编码器获得初始表征向量序列后,基于每个音素对应的预测时长将该音素的表征向量扩展到帧级别,使获得的帧级别表征向量与解码器预测获得的目标预测特征(即声学特征序列)的长度一致,从而可使本方案中第二模型中的编码器避免采用注意力机制,进而可避免现有技术中由于编码器中的注意力机制导致的丢音、重复发音与预测结束失败的问题,从而提升模型的鲁棒性,提高语音合成的准确性和合成质量。

在示例性实施例中,初始表征向量处理单元832可包括:重复次数确定子单元,可配置为根据每一帧的单位时长和各音素的预测时长确定各音素的重复次数;帧级别表征向量序列生成子单元,可配置为根据各音素的重复次数对所述初始表征向量序列中各音素的初始表征向量进行扩展,获得所述帧级别表征向量序列。

在示例性实施例中,第一模型处理模块820可包括:嵌入式表示单元,可配置为对所述音素序列进行嵌入式表示,获得音素嵌入式表示序列,所述音素嵌入式表示序列包括各音素的嵌入式表示;音素一维卷积结果单元,可配置为利用n个依次连接的第二一维卷积模块对所述音素嵌入式表示序列进行处理,获得音素一维卷积结果,n为大于0的整数;第一全连接层单元,可配置为利用第一全连接层对所述音素一维卷积结果进行处理,获得第一全连接层输出;位置编码信息获取单元,可配置为根据所述音素序列中各音素的位置编码信息;第一按位相加单元,可配置为对音素嵌入式表示序列、所述位置编码信息、所述第一全连接层输出和所述用户嵌入式表示进行按位相加,获得按位相加结果;自注意力结构单元,可配置为通过自注意力结构对所述按位相加结果进行处理,获得注意力结构输出;第二全连接层单元,可配置为通过第二全连接层对所述注意力结构输出进行处理,获得所述预测时长序列。

在示例性实施例中,所述第二一维卷积模块可包括依次连接的一维卷积层、批归一化操作层、激活函数层和防过拟合层。

在示例性实施例中,编码单元831可包括:嵌入式表示单元,可配置为对所述音素序列进行嵌入式表示,获得音素嵌入式表示序列,所述音素嵌入式表示序列包括各音素的嵌入式表示;第一一维卷积运算子单元,可配置为利用依次连接的m个第一一维卷积模块对所述音素嵌入式表示序列进行处理,获得第一一维卷积结果,所述第一一维卷积模块包括依次连接的一一维卷积层、批归一化操作层、激活函数层和防过拟合层;双向长短时记忆网络输出子单元,可配置为利用双向长短时记忆网络对所述第一一维卷积结果进行处理,获得双向长短时记忆网络输出;第二按位相加子单元,可配置为将所述音素的嵌入式表示序列、所述双向长短时记忆网络输出和所述用户嵌入式表示进行按位相加,获得各音素的初始表征向量。

在示例性实施例中,解码单元833可配置为将所各音素的帧级别表征向量作为所述解码器的输入,并根据所述用户嵌入式表示与解码器中各预处理网络的输出的按位相加结果更新各预处理网络的输出,以获得所述解码器输出的所述目标预测特征。

在示例性实施例中,基于音色克隆的语音合成装置80还可包括:基础模型获得模块,可配置为根据原始训练样本集对所述第一模型和所述第二模型进行训练,获得第一模型的基础模型和所述第二模型的基础模型;模型训练模块,可配置为获取目标用户的待克隆语音信息,利用所述待克隆语音信息对所述第一模型的基础模型和所述第二模型的基础模型进行迁移学习,获得训练完成的所述第一模型和所述第二模型。

下面参照图9来描述根据本发明的这种实施方式的电子设备900。图9显示的电子设备900仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。

如图9所示,电子设备900以通用计算设备的形式表现。电子设备900的组件可以包括但不限于:上述至少一个处理单元910、上述至少一个存储单元920、连接不同系统组件(包括存储单元920和处理单元910)的总线930。

其中,所述存储单元存储有程序代码,所述程序代码可以被所述处理单元910执行,使得所述处理单元910执行本说明书上述“示例性方法”部分中描述的根据本发明各种示例性实施方式的步骤。例如,所述处理单元910可以执行如图2中所示的步骤。

存储单元920可以包括易失性存储单元形式的可读介质,例如随机存取存储单元(ram)9201和/或高速缓存存储单元9202,还可以进一步包括只读存储单元(rom)9203。

存储单元920还可以包括具有一组(至少一个)程序模块9205的程序/实用工具9204,这样的程序模块9205包括但不限于:操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。

总线930可以为表示几类总线结构中的一种或多种,包括存储单元总线或者存储单元控制器、外围总线、图形加速端口、处理单元或者使用多种总线结构中的任意总线结构的局域总线。

电子设备900也可以与一个或多个外部设备1000(例如键盘、指向设备、蓝牙设备等)通信,还可与一个或者多个使得用户能与该电子设备900交互的设备通信,和/或与使得该电子设备900能与一个或多个其它计算设备进行通信的任何设备(例如路由器、调制解调器等等)通信。这种通信可以通过输入/输出(i/o)接口950进行。并且,电子设备900还可以通过网络适配器960与一个或者多个网络(例如局域网(lan),广域网(wan)和/或公共网络,例如因特网)通信。如图所示,网络适配器960通过总线930与电子设备900的其它模块通信。应当明白,尽管图中未示出,可以结合电子设备900使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、raid系统、磁带驱动器以及数据备份存储系统等。

通过以上的实施方式的描述,本领域的技术人员易于理解,这里描述的示例实施方式可以通过软件实现,也可以通过软件结合必要的硬件的方式来实现。因此,根据本公开实施方式的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是cd-rom,u盘,移动硬盘等)中或网络上,包括若干指令以使得一台计算设备(可以是个人计算机、服务器、终端装置、或者网络设备等)执行根据本公开实施方式的方法。

在本公开的示例性实施例中,还提供了一种计算机可读存储介质,其上存储有能够实现本说明书上述方法的程序产品。在一些可能的实施方式中,本发明的各个方面还可以实现为一种程序产品的形式,其包括程序代码,当所述程序产品在终端设备上运行时,所述程序代码用于使所述终端设备执行本说明书上述“示例性方法”部分中描述的根据本发明各种示例性实施方式的步骤。

所述程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以为但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(ram)、只读存储器(rom)、可擦式可编程只读存储器(eprom或闪存)、光纤、便携式紧凑盘只读存储器(cd-rom)、光存储器件、磁存储器件、或者上述的任意合适的组合。

计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了可读程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任何可读介质,该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。

可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于无线、有线、光缆、rf等等,或者上述的任意合适的组合。

可以以一种或多种程序设计语言的任意组合来编写用于执行本发明操作的程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如java、c 等,还包括常规的过程式程序设计语言—诸如“c”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中,远程计算设备可以通过任意种类的网络,包括局域网(lan)或广域网(wan),连接到用户计算设备,或者,可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。

此外,上述附图仅是根据本发明示例性实施例的方法所包括的处理的示意性说明,而不是限制目的。易于理解,上述附图所示的处理并不表明或限制这些处理的时间顺序。另外,也易于理解,这些处理可以是例如在多个模块中同步或异步执行的。

本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和构思由权利要求指出。

再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文章

  • 日榜
  • 周榜
  • 月榜