一种儿化音合成方法、装置、电子设备及存储介质与流程

2022-10-13 00:54:00 来源：中国专利 TAG：

技术特征：
1.一种儿化音合成方法，其特征在于，包括如下步骤：s1:进行儿化音的数据采集，对采集后的儿化音数据进行数据切分，将切分后的儿化音进行初始语音合成模型的训练，用于合成与儿化音对应的普通发音的数据；s2:将切分后的儿化音和合成后的普通发音作为风格迁移模型的输入，并通过风格迁移模型进行儿化音数据的迁移训练和数据增强，根据增强后的儿化音数据进行目标语音合成模型的训练。2.如权利要求1所述的儿化音合成方法，其特征在于，所述步骤s2中通过风格迁移模型进行儿化音数据的迁移训练的具体步骤为：将合成后的普通发音输送至cyclegan的第一对抗生成网络的第一生成器中，并进行儿化音的生成，将生成的儿化音作为第二对抗生成网络中的第二生成器的输入，并通过第二生成器进行普通发音的数据生成；其中，第一对抗生成网络还包括第一鉴别器，第二对抗生成网络还包括第二鉴别器，第一鉴别器用于鉴定第一生成器生成的数据是否为儿化音，第二鉴别器用于鉴定第二生成器转换的数据是否为普通发音。3.如权利要求1所述的儿化音合成方法，其特征在于，所述步骤s2中通过风格迁移模型进行儿化音数据的数据增强的具体步骤为：将经过风格迁移模型的第一生成器生成的儿化音数据输送至初始语音合成模型中进行训练，并通过语音合成模型进行普通发音数据的合成，将合成后的普通发音数据再次通过第一生成器进行儿化音数据的生成。4.如权利要求2所述的儿化音合成方法，其特征在于，所述cyclegan的损失函数总和计算公式为：e=x y z其中，x代表第一鉴别器和第二鉴别器的使用损失，y代表第一生成器转换后的儿化音和增强后的儿化音的损失，z代表第二生成器转换后的普通发音和采集的儿化音的损失。5.如权利要求1所述的儿化音合成方法，其特征在于，所述步骤s2中的目标语音合成模型用于将增强后的儿化音数据转换成相应的语音数据输出。6.一种儿化音合成装置，其特征在于，包括：获取模块：采集儿化音的数据，并根据采集的儿化音进行数据切分；风格迁移模块：用于进行儿化音和普通发音之间的数据迁移和数据增强；合成模块：包括初始语音合成模块和目标语音合成模块；初始语音合成模块：用于合成与儿化音对应的普通发音的数据；目标语音合成模块：用于对增强后的儿化音进行训练并转换成语音数据输出。7.如权利要求6所述的儿化音合成装置，其特征在于，所述风格迁移模块包括：第一生成模块：用于生成与普通发音相对应的儿化音；第二生成模块：将第一生成模块生成的儿化音进行普通发音的生成；第一鉴定模块：用于鉴定第一生成模块生成后的数据是否为儿化音；第二鉴定模块：用于鉴定第二生成模块转换后的数据是否为普通发音。8.如权利要求6所述的儿化音合成装置，其特征在于，所述风格迁移模块还包括：数据增强模块：将经过风格迁移模块的第一生成模块生成的儿化音输送至初始语音合
成模块中进行训练，并通过语音合成模块进行普通发音数据的合成，将合成后的普通发音数据再次通过第一生成模块进行儿化音数据的生成。9.一种电子设备，其特征在于，包括：存储器和位于存储器上的至少一个计算机程序；还包括至少一个处理器，用于处理所述存储器中的至少一个计算机程序，所述处理器执行所述计算机程序时，实现如权利要求1-5任一项所述的儿化音合成方法。10.一种计算机存储介质，其特征在于，所述计算机介质上存储有至少一个计算机程序，所述计算机程序在被执行时实现权利要求1-5任一项所述的儿化音合成方法。

技术总结
本发明涉及一种儿化音合成方法、装置、电子设备及存储介质，包括如下步骤：包括如下步骤：S1:进行儿化音的数据采集，对采集后的儿化音数据进行数据切分，将切分后的儿化音进行初始语音合成模型的训练，用于合成与儿化音对应的普通发音的数据；S2:将切分后的儿化音和合成后的普通发音作为风格迁移模型的输入，并通过风格迁移模型进行儿化音数据的迁移训练和数据增强，根据增强后的儿化音数据进行目标语音合成模型的训练。本发明提供的儿化音合成方法、装置、电子设备及存储介质，通过风格迁移模型构造足够多的儿化音数据，随后再用于语音合成模型进行儿化音数据的合成和语音转换，提高语音合成的系统鲁棒性。语音合成的系统鲁棒性。语音合成的系统鲁棒性。

技术研发人员：钟佳唐镇坤王琅甘雨金聪
受保护的技术使用者：中邮消费金融有限公司
技术研发日：2022.09.05
技术公布日：2022/10/11

再多了解一些

2/2 首页上一页 1 2

本文用于创业者技术爱好者查询，仅供学习研究，如用于商业用途，请联系技术所有人。

一种儿化音合成方法、装置、电子设备及存储介质与流程

相关文献

最热文献