一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

模型训练方法、韵律边界预测方法、装置及电子设备与流程

2023-02-01 14:49:02 来源:中国专利 TAG:


1.本公开涉及语音合成技术领域,尤其涉及一种模型训练方法、韵律边界预测方法、装置及电子设备。


背景技术:

2.语音合成是将文本转化为语音信号的技术。合成语音的质量体现在发音的清晰度和韵律自然度。韵律是人类语音的重要元素,自然的韵律可以保证语音的可懂度,同时提升听觉体验,因此,韵律边界的预测在语音合成过程中至关重要。
3.目前,样本数据中的韵律边界通常需要人工标注,但是在语音合成和人声克隆等领域往往需要数千小时的标注样本,传统的人工标注方法成本高、容易引入主观偏差,尤其在数据较多的时候不具备可行性,影响了整体的语音合成效率。


技术实现要素:

4.为了解决上述技术或者至少部分地解决上述技术问题,本公开提供了一种模型训练方法、韵律边界预测方法、装置及电子设备,可以通过训练样本对初始韵律边界预测模型进行训练,得到目标韵律边界预测模型,能够实现韵律边界的自动预测,避免人工标注带来的高成本和误差,使得韵律边界预测结果更准确,且有利于提高合成的语音的准确性。
5.为了实现上述目的,本公开实施例提供的技术方案如下:
6.第一方面,本公开提供了一种韵律边界预测模型训练方法,该方法包括:
7.获取训练样本,所述训练样本包括语音数据对应的音素序列、音素时长序列以及预先标注的韵律边界;
8.将所述音素序列和所述音素时长序列输入至初始韵律边界预测模型,得到对应的韵律边界预测结果;
9.基于预设损失函数,根据所述韵律边界预测结果和所述预先标注的韵律边界,对所述初始韵律边界预测模型进行训练,得到目标韵律边界预测模型。
10.第二方面,本公开提供了一种韵律边界预测方法,该方法包括:
11.获取待预测数据,所述待预测数据中包括目标音素序列和目标音素时长序列;
12.将所述待预测数据输入至目标韵律边界预测模型中,得到所述待预测数据对应的目标韵律边界预测结果;
13.其中,所述目标韵律边界预测模型基于如第一方面任一项所述的方法训练得到。
14.第三方面,本公开提供了一种韵律边界预测模型训练装置,该装置包括:
15.样本获取模块,用于获取训练样本,所述训练样本包括语音数据对应的音素序列、音素时长序列以及预先标注的韵律边界;
16.第一确定模块,用于将所述音素序列和所述音素时长序列输入至初始韵律边界预测模型,得到对应的韵律边界预测结果;
17.第二确定模块,用于基于预设损失函数,根据所述韵律边界预测结果和所述预先
标注的韵律边界,对所述初始韵律边界预测模型进行训练,得到目标韵律边界预测模型。
18.第四方面,本公开提供了一种韵律边界预测装置,该装置包括:
19.数据获取模块,用于获取待预测数据,所述待预测数据中包括目标音素序列和目标音素时长序列;
20.第三确定模块,用于将所述待预测数据输入至目标韵律边界预测模型中,得到所述待预测数据对应的目标韵律边界预测结果;
21.其中,所述目标韵律边界预测模型基于如第一方面任一项所述的方法训练得到。
22.第五方面,本公开还提供了一种电子设备,包括:
23.一个或多个处理器;
24.存储装置,用于存储一个或多个程序,
25.当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如第一方面中任一项所述的韵律边界预测模型训练方法,或者第二方面中所述的韵律边界预测方法。
26.第六方面,本公开还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如第一方面中任一项所述的韵律边界预测模型训练方法,或者第二方面中所述的韵律边界预测方法。
27.本公开实施例提供的技术方案与现有技术相比具有如下优点:首先获取训练样本,训练样本包括语音数据对应的音素序列、音素时长序列以及预先标注的韵律边界,然后将音素序列和音素时长序列输入至初始韵律边界预测模型,得到对应的韵律边界预测结果,最后基于预设损失函数,根据韵律边界预测结果和预先标注的韵律边界,对初始韵律边界预测模型进行训练,得到目标韵律边界预测模型,上述技术方案中通过训练样本对初始韵律边界预测模型进行训练,得到目标韵律边界预测模型,能够实现韵律边界的自动预测,避免人工标注带来的高成本和误差,使得韵律边界预测结果更准确,且有利于提高合成的语音的准确性。
附图说明
28.此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理。
29.为了更清楚地说明本公开实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
30.图1为现有技术中语音合成方法的原理示意图;
31.图2a为本公开实施例提供的一种韵律边界预测模型训练方法的流程示意图;
32.图2b为本公开实施例提供的一种韵律边界预测模型训练方法的原理示意图;
33.图3a为本公开实施例提供的另一种韵律边界预测模型训练方法的流程示意图;
34.图3b为本公开实施例提供的另一种韵律边界预测模型训练方法的原理示意图;
35.图3c为本公开实施例提供的一种初始韵律边界预测模型中第一特征提取层的结构示意图;
36.图3d为本公开实施例提供的一种初始韵律边界预测模型中第二特征提取层的结
构示意图;
37.图3e为本公开实施例提供的一种确定音素时长序列的过程的示意图;
38.图4a为本公开实施例提供的又一种韵律边界预测模型训练方法的流程示意图;
39.图4b为本公开实施例提供的又一种韵律边界预测模型训练方法的原理示意图;
40.图5为本公开实施例提供的一种初始韵律边界预测模型的总体框架图;
41.图6a为本公开实施例提供的一种韵律边界预测方法的流程示意图;
42.图6b为本公开实施例提供的一种韵律边界预测方法的原理示意图;
43.图7a为本公开实施例中一种韵律边界预测模型训练装置的结构示意图;
44.图7b为本公开实施例中韵律边界预测模型训练装置中第一确定模块的结构示意图;
45.图8是本公开实施例提供的一种韵律边界预测装置的结构示意图;
46.图9是本公开实施例提供的一种电子设备的结构示意图。
具体实施方式
47.为了能够更清楚地理解本公开的上述目的、特征和优点,下面将对本公开的方案进行进一步描述。需要说明的是,在不冲突的情况下,本公开的实施例及实施例中的特征可以相互组合。
48.在下面的描述中阐述了很多具体细节以便于充分理解本公开,但本公开还可以采用其他不同于在此描述的方式来实施;显然,说明书中的实施例只是本公开的一部分实施例,而不是全部的实施例。
49.需要说明的是,本公开中对于术语的简要说明,仅是为了方便理解接下来描述的实施方式,而不是意图限定本技术的实施方式。除非另有说明,这些术语应当按照其普通和通常的含义理解。
50.需要说明的是,在本公开中,诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个
……”
限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。例如,包含了一系列组件的产品或设备不必限于清楚地列出的所有组件,而是可包括没有清楚地列出的或对于这些产品或设备固有的其它组件。
51.近年来,人们在进行言语交际的时候,除了字面的文字信息之外,话语韵律变化也是相互传递的一个重要信息。合理有效地组织话语韵律结构不仅有助于说话者更清楚地表达,而且听话者也能够更清楚、准确地理解说话人的意图。从语音学角度来看,韵律边界表示相邻音节的疏远程度。韵律边界通常是将一串语流切分成大小不同的韵律单元,如韵律词、韵律短语等。它不仅减轻人脑理解加工的负担,也方便机器处理。韵律边界在人类言语表达的自然度和可理解度方面扮演着非常重要的角色。近年来,由于韵律边界信息在语音合成、人声克隆、音色复制以及语音理解等领域起到重要的作用,越来越多的人关注韵律边
界的自动预测。
52.示例性的,图1为现有技术中语音合成方法的原理示意图。如图1所示:中文语音合成系统一版包括文本处理模块(前端)和声学模型(后端)两部分,文本处理模块用于对文本分析后,对文本中的韵律边界进行预测,声学模型用于基于文本处理模块预测的韵律边界合成自然的语音。通常,文本处理模块中的韵律边界预测模型和后端声学模型可以采用基于深度神经网络的序列模型,均需要通过大量数据进行训练。
53.文本处理模块主要是对文本的韵律边界进行预测,实现比较容易。但是在声学模型的训练过程中,训练样本为音素和韵律边界构成的序列,及其对应的语音信号或声学特征。其中,韵律边界需要在录音后进行人工标注,耗费大量成本,同时容易引入主观偏差,因此不利于声学模型的训练,且声学模型的准确度较低。相应的,在语音合成的过程中,合成的语音误差可能会较大。
54.为了解决现有技术中存在的问题,本公开提出了一种韵律边界预测模型训练方法,首先获取训练样本,训练样本包括语音数据对应的音素序列、音素时长序列以及预先标注的韵律边界,然后将音素序列和音素时长序列输入至初始韵律边界预测模型,得到对应的韵律边界预测结果,最后基于预设损失函数,根据韵律边界预测结果和预先标注的韵律边界,对初始韵律边界预测模型进行训练,得到目标韵律边界预测模型,上述技术方案中通过训练样本对初始韵律边界预测模型进行训练,得到目标韵律边界预测模型,通过目标韵律边界预测模型能够实现大规模语料的韵律边界的自动预测,避免人工标注带来的高成本和误差,使得韵律边界预测结果更准确,且有利于提高合成的语音的准确性。
55.为了更加详细的说明本公开中的韵律边界预测模型训练方法,以下将以示例性的方式结合图2a进行说明,可以理解的是,图2a中所涉及的步骤在实际实现时可以包括更多的步骤,或者更少的步骤,并且这些步骤之间的顺序也可以不同,以能够实现本技术实施例中提供的韵律边界预测模型训练方法为准。
56.图2a为本公开实施例提供的一种韵律边界预测模型训练方法的流程示意图,图2b为本公开实施例提供的一种韵律边界预测模型训练方法的原理示意图。本实施例可适用于对初始韵律边界预测模型进行训练,得到目标韵律边界预测模型的过程进行说明。本实施例中的方法可由韵律边界预测模型训练装置来执行,该装置可采用硬件/或软件的方式来实现,并可配置于电子设备中。如图2a所示,该方法具体包括如下步骤:
57.s210,获取训练样本,训练样本包括语音数据对应的音素序列、音素时长序列以及预先标注的韵律边界。
58.其中,音素可以理解为根据语音的自然属性划分出来的最小语音单位,依据音节里的发音动作来分析,一个动作可以构成一个音素,音素可以分为元音与辅音两大类。韵律可以理解为抑扬顿挫,可以包括语速、重读以及停顿等,是人类语音的重要元素。训练样本可以通过对语音数据进行转换得到对应的音素序列和音素时长序列,以及对文本数据或者语音数据进行韵律边界的标注得到的预先标注的韵律边界。具体的,可以将语音数据转换为文本数据,再将文本数据划分成多个句文本,以便后续进行转换和标注。音素序列可以理解为一个句文本或者一个语句中包含的多个音素组成的序列。音素时长可以理解为对应音素的发音时长。音素时长序列可以理解为音素序列中包含的每个音素分别对应的发音时长所组成的序列。韵律边界表示相邻音节的疏远程度,也可理解为停顿。在中文合成中可以采








四个级别的韵律边界,其中

级可以表示停顿不明显,

级可以表示停顿稍长,

级可以表示停顿很长,以及

级可以表示句子的结束。
59.示例性的,音素序列可以通过先将句文本转换为拼音序列,再根据拼音与音素的对应关系,将拼音序列转换为音素序列。音素时长序列可以通过相应的预测模型得到,本实施例对预测模型不做限定。
60.示例性的,若句文本为“a是世界上最高的山峰,海拔高达b米”,那么音素序列可以为a sh i4 sh i4 j ie4 sh ang4 z ui4 g ao1 d e5 sh an1 f eng1 h ai3 ba2 gao1 da2 b mi3。”,其中,数字1、2、3以及4表示音调。预先标注的韵律边界可以为“a



世界上

最高的

山峰

,海拔

高达
①b①


。”。
61.由于音素包含了语句中的语义信息,在很多情况下对韵律边界有决定性作用,例如在文本:“最高的山峰”和拼音:“z ui4 g ao1 d e5 sh an1 f eng1”中,助词“的”决定了

级韵律边界。语音具有一定的随机性,语速、语音的流畅性等会使韵律发生变化,反应到音素层级是时长的绝对或相对变化。因此本公开中实施例中,在训练模型之前,需要收集大量的训练样本,该大量的训练样本中,每个训练样本为:语音数据中每句话对应的音素序列、音素时长序列以及预先标注的韵律边界。
62.s220,将音素序列和音素时长序列输入至初始韵律边界预测模型,得到对应的韵律边界预测结果。
63.其中,韵律边界预测结果可以理解为对语音数据中心每句话进行预测后所得到的多个韵律边界,韵律边界可以是从四个级别的韵律边界中确定的。
64.本公开实施例中,通过构建初始韵律边界预测模型,并将训练样本中的音素序列和音素时长序列输入至初始韵律边界预测模型,能够得到对应的韵律边界预测结果。其中,音素序列中包含了文本信息,音素时长序列中包含了语音信息,通过二者的结合,有利于提高韵律边界预测结果的准确性。
65.s230,基于预设损失函数,根据韵律边界预测结果和预先标注的韵律边界,对初始韵律边界预测模型进行训练,得到目标韵律边界预测模型。
66.其中,预设损失函数可以为联结时序分类(connectionist temporal classification,简称ctc)损失函数、多分类交叉熵损失函数以及均方损失函数等,具体可以根据实际使用需求确定,还可以通过用户自定义设置,本公开实施例对此不做限定。
67.本公开实施例中,预设损失函数为目标韵律边界预测模型是否训练合格的衡量标准,从而,有效保证训练得到的目标韵律边界预测模型具有较高精度的预测结果。具体可以通过预设损失函数计算基于初始韵律边界预测模型生成的韵律边界预测结果与预先标注的韵律边界之间的相似性,通过相似性来验证目标韵律边界预测模型的识别精度,以训练出准确度高的目标韵律边界预测模型。
68.在本公开实施例中,可以将上述s210中获取的大量训练样本按照比例(比例可以自定义设置,例如7:3,本实施例不做限定)分为训练集和验证集,利用训练集对初始韵律边界预测模型进行训练,得到目标韵律边界预测模型,再用验证集对得到的目标韵律边界预测模型进行验证,若验证合格,则停止训练,得到训练后的目标韵律边界预测模型。
69.本公开实施例提供的韵律边界预测模型训练方法,首先获取训练样本,训练样本包括语音数据对应的音素序列、音素时长序列以及预先标注的韵律边界,然后将音素序列
和音素时长序列输入至初始韵律边界预测模型,得到对应的韵律边界预测结果,最后基于预设损失函数,根据韵律边界预测结果和预先标注的韵律边界,对初始韵律边界预测模型进行训练,得到目标韵律边界预测模型,上述技术方案中通过训练样本对初始韵律边界预测模型进行训练,得到目标韵律边界预测模型,能够实现韵律边界的自动预测,避免人工标注带来的高成本和误差,使得韵律边界预测结果更准确,且有利于提高合成的语音的准确性。
70.图3a为本公开实施例提供的另一种韵律边界预测模型训练方法的流程示意图,图3b为本公开实施例提供的另一种韵律边界预测模型训练方法的原理示意图。本实施例是在上述实施例的基础上进一步扩展与优化。可选的,本实施例主要对初始韵律边界预测模型的结构进行说明。如图3a所示,该方法具体包括如下步骤:
71.s310,获取训练样本,训练样本包括语音数据对应的音素序列、音素时长序列以及预先标注的韵律边界。
72.s320,将音素序列和音素时长序列输入至初始韵律边界预测模型,得到对应的韵律边界预测结果,初始韵律边界预测模型包括:第一特征提取层、第二特征提取层、序列建模网络、第一全连接层以及条件随机场层。
73.其中,第一特征提取层,用于对音素序列进行特征提取,得到第一特征向量。第二特征提取层,用于对音素时长序列进行特征提取,得到第二特征向量。序列建模网络,用于对第一特征向量和第二特征向量对应的融合向量进行特征提取,得到第三特征向量。第一全连接层,用于对第三特征向量进行降维,得到第四特征向量。条件随机场(conditional random field,crf)层,用于对第四特征向量进行韵律边界预测,得到对应的韵律边界预测结果。序列建模网络可以为长短期记忆网络(long short-term memory,lstm)、循环门单元(gate recurrent unit,gru)或者自注意力网络(transformer)等,本实施例对此不做限定。
74.具体的,第一特征提取层的输入为音素序列,通过第一特征提取层能够将该音素序列中包含的每个字符转换成对应的语义向量,即:第一特征向量;第二特征提取层的输入为音素时长序列,通过第二特征提取层能够将该音素时长序列中包含的每个字符转换成对应的表示向量,即:第二特征向量;接着将第一特征向量和第二特征向量进行融合,得到对应的融合向量,将该融合向量输入至序列建模网络中,对融合向量进行特征提取,通过建模上下文信息,能够得到对应的第三特征向量。若韵律边界采用的是四个级别的韵律边界,再加上一位用于表示无韵律标记,则对应的维度为五,此时将第三特征向量输入至第一全连接层,能够对第三特征向量进行降维,得到对应的第四特征向量。第一全连接层与序列建模网络相连,第一全连接层可以采用至少一层的全连接网络,优选的,为了使降维的效果更好,第一全连接层可以使用两层级联全连接网络。条件随机场层和第一全连接层相连,条件随机场层构建了韵律边界之间的转移概率,可以辅助规避不合理的韵律边界预测结果,因此在得到第四特征向量之后,将第四特征向量输入至条件随机场层,就能够得到对应的韵律边界预测结果。
75.s330,基于预设损失函数,根据韵律边界预测结果和预先标注的韵律边界,对初始韵律边界预测模型进行训练,得到目标韵律边界预测模型。
76.本公开实施例中,首先获取训练样本,训练样本包括语音数据对应的音素序列、音
素时长序列以及预先标注的韵律边界,然后将音素序列和音素时长序列输入至初始韵律边界预测模型,得到对应的韵律边界预测结果,初始韵律边界预测模型包括:第一特征提取层、第二特征提取层、序列建模网络、第一全连接层以及条件随机场层,最后基于预设损失函数,根据韵律边界预测结果和预先标注的韵律边界,对初始韵律边界预测模型进行训练,得到目标韵律边界预测模型,上述技术方案中,通过序列建模网络对融合向量建模上下文信息,能够建立音素序列和音素时长序列之间的关系,通过条件随机场层,能够构建韵律边界之间的转移概率,进而训练得到的目标韵律边界预测模型也更准确,使得对语音数据的韵律边界进行预测时预测结果更准确,减少误差,且有利于提高后续语音合成的准确性。
77.示例性的,图3c为本公开实施例提供的一种初始韵律边界预测模型中第一特征提取层的结构示意图。如图3c所示,第一特征提取层可以包括:嵌入层、第一卷积层以及第一丢弃层。
78.其中,嵌入层,用于对所述音素序列进行编码得到对应的编码向量;
79.第一卷积层,用于对所述编码向量进行特征提取,得到语义向量;
80.第一丢弃层,用于将所述语义向量中第一比例的特征值设置为预设数值,得到所述第一特征向量。
81.其中,嵌入层可以包括:字符嵌入层、分段嵌入层以及位置嵌入层中的至少一个,本实施例对此不做限定。每个音素对应的向量的长度相同,可以用d
p
表示。第一卷积层可以采用卷积神经网络(convolutional neural networks,cnn),也可以采用其他网络,本实施例不做限定。其中,第一卷积层中卷积核的长度和步长可以预先设定,例如,卷积核的长度可以设为3,步长可以设为1,也可以视具体情况而定,本实施例对此不做限定。第一比例可以预先设置,例如10%,也可以视具体情况而定,本实施例对此不做限定。预设数值可以为0。第一比例的特征值可以随机选取,本实施例不做限定。
82.具体的,字符嵌入层可以用于对音素序列中的每个音素进行字符编码,得到对应的字符编码向量。分段嵌入层可以用于对训练样本进行分段编码得到对应的分段编码向量,分段编码主要是用于区分语音数据中包含的每句话。位置嵌入层可以用于对音素序列进行位置编码,确定所有音素的位置,得到对应的位置编码向量。通过字符嵌入层、分段嵌入层以及位置嵌入层中的至少一个,能够对音素序列进行编码得到对应的编码向量。第一卷积层和嵌入层相连,在得到编码向量之后,将编码向量输入至第一卷积层,对编码向量进行特征提取,就能够得到语义向量,该语义向量的维度可以用dh表示,dh与d
p
可以相同,也可以不同。第一丢弃层和第一卷积层相连,在得到语义向量之后,为了防止模型对样本过拟合,通过第一丢弃层将语义向量中第一比例的特征值设置为预设数值,就能够在不影响向量维度的情况下,得到第一特征向量,第一特征向量的维度也为dh。
83.本实施例中,第一特征提取层采取上述结构,能够更好的对音素序列进行特征提取,且能够防止模型对样本过拟合。
84.示例性的,图3d为本公开实施例提供的一种初始韵律边界预测模型中第二特征提取层的结构示意图。如图3d所示,第二特征提取层包括:第二全连接层、第二丢弃层、第二卷积层以及第三丢弃层;
85.其中,第二全连接层,用于对所述音素时长序列进行扩围,得到第一向量;
86.第二丢弃层,用于将所述第一向量中第二比例的特征值设置为预设数值,得到第
二向量;
87.第二卷积层,用于对所述第二向量进行特征提取,得到第三向量;
88.第三丢弃层,用于将所述第一向量中第三比例的特征值设置为预设数值,得到所述第二特征向量。
89.其中,第二卷积层可以采用cnn,也可以采用其他网络,本实施例不做限定。其中,第二卷积层中卷积核的长度和步长可以预先设定,也可以视具体情况而定,本实施例对此不做限定。第二比例和第三比例可以预先设置,例如第二比例可以设为50%,第三比例可以设为15%,也可以视具体情况而定,本实施例对此不做限定。第三比例可以与第一比例相同,也可以不同,本实施例对第一比例、第二比例以及第三比例的数值大小不做限定。第二比例的特征值和第三比例的特征值均可以随机选取,本实施例不做限定。
90.具体的,音素时长以秒为单位,在输入初始韵律边界预测模型前可以通过归一化处理,其顺序与音素序列中的各音素一一对应。将音素时长序列输入至第二全连接层进行扩维(即:增大维度),以使扩维后的第一向量的维度和第一特征向量的维度相同。第二丢弃层与第二全连接层相同,由于第一向量通常是1到dh的映射,dh的取值大于1,因此在得到第一向量之后,将第一向量输入至第二丢弃层中,通过第二丢弃层能够将第一向量中第二比例的特征值设置为预设数值,就能够在不影响向量维度的情况下,得到第二向量。第二卷积层与第二丢弃层相连,将第二向量输入至第二卷积层,能够对第二向量进行特征提取,得到对应的第三向量。第三丢弃层与第二卷积层相连,为了防止模型对样本过拟合,通过第三丢弃层将第三向量中第三比例的特征值设置为预设数值,就能够在不影响向量维度的情况下,得到第二特征向量,第二特征向量的维度与第一特征向量的维度相同。
91.本实施例中,第二特征提取层采取上述结构,能够更好的对音素时长序列进行特征提取,且能够防止模型对样本过拟合,有利于后续的进一步特征提取。
92.在一些实施例中,可选的,在序列建模网络和第一全连接层之间,还可以包括第四丢弃层,用于对第三特征向量中第四比例的特征值设置为预设数值,并将经过第四丢弃层之后的向量输入至第一全连接层中。
93.其中,第四比例可以设为10%,也可以视具体情况而定,本实施例对此不做限定。本实施例对第一比例、第二比例、第三比例以及第四比例的数值大小不做限定。第四比例的特征值均可以随机选取,本实施例不做限定。
94.本实施例中,通过第四丢弃层丢弃第三特征向量中第四比例的特征值,能够防止模型对样本过拟合,有利于提高模型的准确度。
95.在一些实施例中,可选的,所述音素时长序列具体可以通过以下方式确定:
96.基于所述音素序列中包含的每个音素,根据隐马尔可夫模型和混合高斯模型,确定所述音素对应的梅尔频谱,根据所述梅尔频谱确定所述音素对应的目标时长;
97.根据所述目标时长,确定所述音素时长序列。
98.其中,隐马尔可夫模型(hidden markov model,hmm)是一种统计分析模型,能够用于语音识别。混合高斯模型(gaussian mixture model,gmm)主要用于聚类。
99.具体的,基于音素序列中包含的每个音素,根据预先训练好的hmm和gmm,能够确定音素对应的梅尔频谱,即:将音素对齐到梅尔频谱中的帧数,根据梅尔频谱能够确定音素对应的目标时长。将每个音素的目标时长按照音素在音素序列中的排列顺序进行排列,就能
够得到音素时长序列。
100.本实施例中,由于音素时长较难人工标注,通过强制对齐方式,即:利用hmm和gmm获得音素时长序列,能够降低音素时长的获取难度,进而有利于模型的训练。
101.需要说明的是:在一些实施例中,还可以采用音素时长预测模型或者其他方式来获得音素时长序列,本实施例不做限定。
102.在一些实施例中,将音素对齐到梅尔频谱中的帧数的对齐过程可以包括单音子和三音子两个阶段,具体流程如下:
103.1、单音子对齐
104.单音子即音素序列中的单个音素。通过hmm建模单音子之间的转移概率,gmm建模梅尔谱特征到音素的发射概率。单音子对齐过程可以如下所示:
105.1)初始化单音子hmm和gmm的模型参数;
106.2)初始化单音子对齐,在时间上等分;
107.3)更新单音子hmm和gmm的模型参数;
108.4)利用上次的训练结果重新解码对齐;
109.5)重复3)和4)直至单音子hmm和gmm的模型收敛。
110.2、三音子训练
111.三音子为包含前后关系的音素,例如将前接“h”,后跟“d”的“ao3”作为独立音素“h-ao3 d”,以建模“ao3”在“h”和“d”之间产生的变化。三音子对齐过程可以如下所示:
112.1)利用训练好的单音子hmm和gmm模型得到对齐结果;
113.2)计算“ao3”的前、后各个音素的均值、方差以及帧数统计量;
114.3)基于均值、方差以及帧数统计量,利用决策树聚类,绑定与“ao3”的前音素相似的音素,和与“ao3”的后音素相似的音素;
115.4)音素对齐转换,得到三音子对齐;
116.5)初始化三音子hmm和gmm的模型参数;
117.6)更新三音子hmm和gmm的模型参数;
118.7)利用上次的训练结果重新解码对齐;
119.8)重复6)和7)直至三音子hmm和gmm的模型收敛;
120.9)重复2)~8)直至达到理想对齐效果。
121.本实施例中,通过上述方法能够保证对齐效果,使得获得的音素时长序列更准确。
122.图3e为本公开实施例提供的一种确定音素时长序列的过程的示意图。如图3e所示,音素时长序列的确定过程已经在上述实施例中详细描述过,为了避免重复,此处不再赘述。
123.图4a为本公开实施例提供的又一种韵律边界预测模型训练方法的流程示意图,图4b为本公开实施例提供的又一种韵律边界预测模型训练方法的原理示意图。本实施例是在上述实施例的基础上进一步扩展与优化。可选的,本实施例主要对得到目标韵律边界预测模型的过程进行说明。如图4a所示,该方法具体包括如下步骤:
124.s410,获取训练样本,训练样本包括语音数据对应的音素序列、音素时长序列以及预先标注的韵律边界。
125.s420,将音素序列和音素时长序列输入至初始韵律边界预测模型,得到对应的韵
律边界预测结果。
126.s430,基于预设损失函数,根据韵律边界预测结果和预先标注的韵律边界,确定对应的损失值。
127.具体的,根据预设损失函数,通过对韵律边界预测结果和预先标注的韵律边界进行计算,能够确定出对应的损失值。
128.s440,根据损失值,调整初始韵律边界预测模型的参数,直至初始韵律边界预测模型收敛,得到目标韵律边界预测模型。
129.具体的,在得到损失值之后,根据该损失值,能够确定是否需要对初始韵律边界预测模型的参数进行调整,若需要进行调整,则将参数调整至初始韵律边界预测模型收敛,就能够得到目标韵律边界预测模型。
130.本公开实施例中,首先获取训练样本,训练样本包括语音数据对应的音素序列、音素时长序列以及预先标注的韵律边界,接着将音素序列和音素时长序列输入至初始韵律边界预测模型,得到对应的韵律边界预测结果,然后基于预设损失函数,根据韵律边界预测结果和预先标注的韵律边界,确定对应的损失值,最后根据损失值,调整初始韵律边界预测模型的参数,直至初始韵律边界预测模型收敛,得到目标韵律边界预测模型,上述方法中,通过对初始韵律边界预测模型的参数进行调整,得到目标韵律边界预测模型,简单高效,能够提高韵律边界预测结果的准确性,进而有利于提高后续合成的语音的准确性,避免人工标注带来的高成本和误差。
131.示例性的,图5为本公开实施例提供的一种初始韵律边界预测模型的总体框架图。如图5所示:初始韵律边界预测模型的总体框架中包括:嵌入层、第一卷积层、第一丢弃层、第二全连接层、第二丢弃层、第二卷积层、第三丢弃层、序列建模网络、第一全连接层以及条件随机场层,以上各模块的作用已经在上述实施例中详细描述过,为了避免重复,此处不再赘述。
132.图6a为本公开实施例提供的一种韵律边界预测方法的流程示意图,图6b为本公开实施例提供的一种韵律边界预测方法的原理示意图。本实施例可适用于对待预测数据的韵律边界进行预测的情况。本实施例中的方法可由韵律边界预测装置来执行,该装置可采用硬件/或软件的方式来实现,并可配置于电子设备中。如图6a所示,该方法具体包括如下步骤:
133.s610,获取待预测数据。
134.其中,待预测数据中包括目标音素序列和目标音素时长序列。待预测数据可以为某个用户的音频数据,还可以为文本对话数据,本实施例不做限定。目标音素序列的获取方式与训练样本中音素序列的获取方式相同,目标音素时长序列的获取方式与训练样本中音素时长序列的获取方式相同,此处不再赘述。
135.s620,将待预测数据输入至目标韵律边界预测模型中,得到待预测数据对应的目标韵律边界预测结果。
136.其中,所述目标韵律边界预测模型基于任一实施例所述的韵律边界预测模型训练方法训练得到。
137.将待预测数据输入至目标韵律边界预测模型中,就能够得到待预测数据对应的目标韵律边界预测结果,从而便于后续基于该目标韵律边界预测结果,进行语音合成。
138.本公开实施例中,首先获取待预测数据,然后将待预测数据输入至目标韵律边界预测模型中,得到待预测数据对应的目标韵律边界预测结果,上述技术方案中,无需依靠人工标注就能够实现韵律边界的自动预测,避免人工标注带来的高成本和误差,使得韵律边界预测结果更准确,进而有利于提高后续语音合成过程中合成的语音的准确性,该韵律边界预测方法尤其适用于多音色合成、音色转换等需要大量标注数据的语音合成过程。
139.图7a为本公开实施例中一种韵律边界预测模型训练装置的结构示意图。该装置配置于电子设备中,可实现本技术任意实施例所述的韵律边界预测模型训练方法。该装置具体包括如下:
140.样本获取模块701,用于获取训练样本,所述训练样本包括语音数据对应的音素序列、音素时长序列以及预先标注的韵律边界;
141.第一确定模块702,用于将所述音素序列和所述音素时长序列输入至初始韵律边界预测模型,得到对应的韵律边界预测结果;
142.第二确定模块703,用于基于预设损失函数,根据所述韵律边界预测结果和所述预先标注的韵律边界,对所述初始韵律边界预测模型进行训练,得到目标韵律边界预测模型。
143.作为本公开实施例一种可选的实施方式,图7b为本公开实施例中韵律边界预测模型训练装置中第一确定模块的结构示意图,如图7b所示,第一确定模块702包括:第一特征提取层7021、第二特征提取层7022、序列建模网络7023、第一全连接层7024以及条件随机场层7025;
144.其中,所述第一特征提取层7021,用于对所述音素序列进行特征提取,得到第一特征向量;
145.所述第二特征提取层7022,用于对所述音素时长序列进行特征提取,得到第二特征向量;
146.所述序列建模网络7023,用于对所述第一特征向量和所述第二特征向量对应的融合向量进行特征提取,得到第三特征向量;
147.所述第一全连接层7024,用于对所述第三特征向量进行降维,得到第四特征向量;
148.所述条件随机场层7025,用于对所述第四特征向量进行韵律边界预测,得到对应的韵律边界预测结果。
149.作为本公开实施例一种可选的实施方式,所述第一特征提取层7021包括:嵌入层、第一卷积层以及第一丢弃层;
150.其中,所述嵌入层,用于对所述音素序列进行编码得到对应的编码向量;
151.所述第一卷积层,用于对所述编码向量进行特征提取,得到语义向量;
152.所述第一丢弃层,用于将所述语义向量中第一比例的特征值设置为预设数值,得到所述第一特征向量。
153.作为本公开实施例一种可选的实施方式,所述第二特征提取层7022包括:第二全连接层、第二丢弃层、第二卷积层以及第三丢弃层;
154.其中,所述第二全连接层,用于对所述音素时长序列进行扩围,得到第一向量;
155.所述第二丢弃层,用于将所述第一向量中第二比例的特征值设置为预设数值,得到第二向量;
156.所述第二卷积层,用于对所述第二向量进行特征提取,得到第三向量;
157.所述第三丢弃层,用于将所述第三向量中第三比例的特征值设置为预设数值,得到所述第二特征向量。
158.作为本公开实施例一种可选的实施方式,上述装置还包括:
159.音素时长序列确定模块,用于:基于所述音素序列中包含的每个音素,根据隐马尔可夫模型和混合高斯模型,确定所述音素对应的梅尔频谱,根据所述梅尔频谱确定所述音素对应的目标时长;
160.根据所述目标时长,确定所述音素时长序列。
161.作为本公开实施例一种可选的实施方式,所述第二确定模块703,具体用于:
162.基于所述预设损失函数,根据所述韵律边界预测结果和所述预先标注的韵律边界,确定对应的损失值;
163.根据所述损失值,调整所述初始韵律边界预测模型的参数,直至所述初始韵律边界预测模型收敛,得到所述目标韵律边界预测模型。
164.通过本公开实施例提供的韵律边界预测模型训练装置,首先获取训练样本,训练样本包括语音数据对应的音素序列、音素时长序列以及预先标注的韵律边界,然后将音素序列和音素时长序列输入至初始韵律边界预测模型,得到对应的韵律边界预测结果,最后基于预设损失函数,根据韵律边界预测结果和预先标注的韵律边界,对初始韵律边界预测模型进行训练,得到目标韵律边界预测模型,上述技术方案中通过训练样本对初始韵律边界预测模型进行训练,得到目标韵律边界预测模型,能够实现韵律边界的自动预测,避免人工标注带来的高成本和误差,使得韵律边界预测结果更准确,且有利于提高合成的语音的准确性。
165.本公开实施例所提供的韵律边界预测模型训练装置可执行本公开任意实施例所提供的韵律边界预测模型训练方法,具备执行方法相应的功能模块和有益效果。
166.图8是本公开实施例提供的一种韵律边界预测装置的结构示意图。该装置配置于电子设备中,可实现本技术任意实施例所述的韵律边界预测方法。该装置具体包括如下:
167.数据获取模块801,用于获取待预测数据,所述待预测数据中包括目标音素序列和目标音素时长序列;
168.第三确定模块802,用于将所述待预测数据输入至目标韵律边界预测模型中,得到所述待预测数据对应的目标韵律边界预测结果;
169.其中,所述目标韵律边界预测模型基于上述任一实施例所述的韵律边界预测模型训练方法训练得到。
170.通过本公开实施例提供的韵律边界预测装置,首先获取待预测数据,然后将待预测数据输入至目标韵律边界预测模型中,得到待预测数据对应的目标韵律边界预测结果,上述技术方案中,无需依靠人工标注就能够实现韵律边界的自动预测,避免人工标注带来的高成本和误差,使得韵律边界预测结果更准确,进而有利于提高后续语音合成过程中合成的语音的准确性。
171.本公开实施例所提供的韵律边界预测装置可执行本公开任意实施例所提供的韵律边界预测方法,具备执行方法相应的功能模块和有益效果。
172.本公开实施例提供的韵律边界预测模型训练方法或者韵律边界预测方法,可以基于电子设备,或者电子设备中的功能模块或者功能实体实现。
173.其中,电子设备可以为个人计算机(personal computer,pc)、服务器、手机、平板电脑、笔记本电脑、大型计算机等,本公开实施例对此不作具体限定。
174.本公开实施例提供一种电子设备,包括:一个或多个处理器;存储装置,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现本公开实施例中的任一种所述的韵律边界预测模型训练方法,或者韵律边界预测方法。
175.图9是本公开实施例提供的一种电子设备的结构示意图。如图9所示,该电子设备包括处理器910和存储装置920;电子设备中处理器910的数量可以是一个或多个,图9中以一个处理器910为例;电子设备中的处理器910和存储装置920可以通过总线或其他方式连接,图9中以通过总线连接为例。
176.存储装置920作为一种计算机可读存储介质,可用于存储软件程序、计算机可执行程序以及模块,如本公开实施例中的韵律边界预测模型训练方法,或者韵律边界预测方法对应的程序指令/模块。处理器910通过运行存储在存储装置920中的软件程序、指令以及模块,从而执行电子设备的各种功能应用以及数据处理,即实现本公开实施例所提供的韵律边界预测模型训练方法,或者韵律边界预测方法。
177.存储装置920可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序;存储数据区可存储根据终端的使用所创建的数据等。此外,存储装置920可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实例中,存储装置920可进一步包括相对于处理器910远程设置的存储器,这些远程存储器可以通过网络连接至电子设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
178.本实施例提供的一种电子设备可用于执行上述任意实施例提供的韵律边界预测模型训练方法,或者韵律边界预测方法,具备相应的功能和有益效果。
179.本公开实施例提供一种计算机可读存储介质,该计算机可读存储介质上存储计算机程序,该计算机程序被处理器执行时实现上述韵律边界预测模型训练方法,或者韵律边界预测方法执行的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。
180.其中,该计算机可读存储介质可以为只读存储器(read-only memory,rom)、随机存取存储器(random access memory,ram)、磁碟或者光盘等。
181.为了方便解释,已经结合具体的实施方式进行了上述说明。但是,上述在一些实施例中讨论不是意图穷尽或者将实施方式限定到上述公开的具体形式。根据上述的教导,可以得到多种修改和变形。上述实施方式的选择和描述是为了更好的解释原理以及实际的应用,从而使得本领域技术人员更好的使用实施方式以及适于具体使用考虑的各种不同的变形的实施方式。
再多了解一些

本文用于创业者技术爱好者查询,仅供学习研究,如用于商业用途,请联系技术所有人。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献