一种基于元学习的自适应文字转语音方法及其相关设备与流程

2022-09-03 21:19:25 来源：中国专利 TAG：

技术特征：
1.一种基于元学习的自适应文字转语音方法，其特征在于，包括下述步骤：基于发声者的全量数据集进行模型预训练，将预训练得到的模型参数作为预设的声学模型的初始值；从所述全量数据集中采样声音训练样本数据，通过所述预设的声学模型根据所述声音训练样本数据进行特征训练以生成mel频谱，以及通过预设的风格编码器生成风格编码；对所述预设的声学模型的层归一化进行自适应实例归一化处理，将所述风格编码注入所述预设的声学模型中，得到包括目标mel频谱的目标声学模型，其中，所述目标mel频谱带有所述风格编码；获取陌生样本数据，并将所述陌生样本数据输入到所述目标声学模型中，以输出与所述陌生样本数据对应的带有所述风格编码的目标语音数据。2.根据权利要求1所述的基于元学习的自适应文字转语音方法，其特征在于，所述通过所述预设的声学模型根据所述声音训练样本数据进行特征训练以生成mel频谱，以及通过预设的风格编码器生成风格编码的步骤具体包括：将所述声音训练样本数据中的声音数据输入所述预设的声学模型，根据所述声音数据的采样频率生成mel频谱；将所述声音训练样本数据中的声音数据输入所述预设的风格编码器，根据所述声音数据的所述采样频率以及样本精度生成所述风格编码。3.根据权利要求1所述的基于元学习的自适应文字转语音方法，其特征在于，所述对所述预设的声学模型的层归一化进行自适应实例归一化处理，将所述风格编码注入所述预设的声学模型中，得到包括目标mel频谱的目标声学模型的步骤具体包括：通过所述自适应实例归一化处理计算所述风格编码的第一参数；通过所述自适应实例归一化处理计算所述mel频谱的第二参数；基于所述mel频谱的第一参数以及所述风格编码的第二参数进行数据匹配，输出带有风格编码的所述目标mel频谱。4.根据权利要求1所述的基于元学习的自适应文字转语音方法，其特征在于，在所述对所述预设的声学模型的层归一化进行自适应实例归一化处理，将所述风格编码注入所述预设的声学模型中的步骤之后，还包括步骤：从所述全量数据集中采样文字请求样本数据，将所述文字请求样本数据输入所述目标声学模型中进行转换检测，判断是否输出与所述文字请求样本数据对应的检测数据。5.根据权利要求4所述的基于元学习的自适应文字转语音方法，其特征在于，所述将所述文字请求样本数据输入所述目标声学模型中进行转换检测，判断是否输出与所述文字请求样本数据对应的检测数据的步骤包括：通过预设的风格判别器判断所述目标mel频谱中是否包含所述风格编码；通过预设的音素判别器判断所述目标mel频谱中是否和输入的所述文字请求样本数据对应的音素对齐。6.一种基于元学习的自适应文字转语音装置，其特征在于，包括：第一训练模块，用于基于发声者的全量数据集进行模型预训练，将预训练得到的模型参数作为预设的声学模型的初始值；第二训练模块，用于从所述全量数据集中采样声音训练样本数据，通过所述预设的声
学模型根据所述声音训练样本数据进行特征训练以生成mel频谱，以及通过预设的风格编码器生成风格编码；归一化处理模块，用于对所述预设的声学模型的层归一化进行自适应实例归一化处理，将所述风格编码注入所述预设的声学模型中，得到包括目标mel频谱的目标声学模型，其中，所述目标mel频谱带有所述风格编码；转换模块，用于获取陌生样本数据，并将所述陌生样本数据输入到所述目标声学模型中，以输出与所述陌生样本数据对应的带有所述风格编码的目标语音数据。7.根据权利要求6所述的一种基于元学习的自适应文字转语音装置，其特征在于，所述第二训练模块包括：第一生成子模块，用于将所述声音训练样本数据中的声音数据输入所述预设的声学模型，根据所述声音数据的采样频率生成mel频谱；第二生成子模块，用于将所述声音训练样本数据中的声音数据输入所述预设的风格编码器，根据所述声音数据的所述采样频率以及样本精度生成所述风格编码。8.根据权利要求6所述的一种基于元学习的自适应文字转语音装置，其特征在于，所述归一化处理模块包括：第一计算子模块，用于通过所述自适应实例归一化处理计算所述风格编码的第一参数；第二计算子模块，用于通过所述自适应实例归一化处理计算所述mel频谱的第二参数；第三计算子模块，用于所述mel频谱的第一参数以及所述风格编码的第二参数，输出带有风格编码的所述目标mel频谱。9.一种计算机设备，其特征在于，包括存储器和处理器，所述存储器中存储有计算机可读指令，所述处理器执行所述计算机可读指令时实现如权利要求1至5中任一项所述的基于元学习的自适应文字转语音方法的步骤。10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机可读指令，所述计算机可读指令被处理器执行时实现如权利要求1至5中任一项所述的基于元学习的自适应文字转语音方法的步骤。

技术总结
本申请属于人工智能领域，涉及一种基于元学习的自适应文字转语音方法，包括：根据全量数据集进行预训练，得到预设的声学模型的初始值；采样声音训练样本数据，通过预设的声学模型进行特征训练以生成mel频谱，以及通过预设的风格编码器生成风格编码；对预设的声学模型的层归一化进行自适应实例归一化处理，得到包括目标mel频谱的目标声学模型；最后对陌生样本数据进行转换以输出带有风格编码的目标语音数据。本申请还提供基于元学习的自适应文字转语音装置、计算机设备及存储介质。此外，本申请还涉及区块链技术，在转换过程中涉及到的数据可存储于区块链中。本申请能减少训练的复杂度，实现小样本数据的适应性学习及转换。实现小样本数据的适应性学习及转换。实现小样本数据的适应性学习及转换。

技术研发人员：杨焱麒
受保护的技术使用者：平安银行股份有限公司
技术研发日：2022.05.27
技术公布日：2022/9/2

再多了解一些

2/2 首页上一页 1 2

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：一种基于人工智能技术的语音降噪方法及系统

一种基于元学习的自适应文字转语音方法及其相关设备与流程

相关文献

最热文献