目标音频的输出方法及装置、系统与流程

2021-12-01 01:00:00 来源：中国专利 TAG：

技术特征：
1.一种目标音频的输出方法，其特征在于，包括：将源音频输入语音后验图ppg分类网络模型，得到ppg特征向量，其中，所述ppg特征向量用于指示所述每一帧源音频对应的音素标签，所述ppg特征向量包含所述源音频的文本信息和韵律信息；将所述ppg特征向量输入声音转换网络模型，根据所述ppg特征向量对应的所述音素标签输出目标音频的声学特征向量，其中，所述目标音频包含多个不同音色的音频；将所述目标音频的声学特征向量输入声码器，通过所述声码器输出所述目标音频。2.根据权利要求1所述的方法，其特征在于，在将源音频输入语音后验图ppg分类网络模型，得到ppg特征向量之前，所述方法还包括：建立所述ppg分类网络模型，其中，所述ppg分类网络模型包括依次连接的抽象映射层、模块层、ppg层和分类层，所述模块层包括至少两个串联的模块；通过第一训练样本训练所述ppg分类网络模型，其中，所述第一训练样本包括第一音频特征和所述第一音频特征对应的第一音素标签。3.根据权利要求2所述的方法，其特征在于，通过第一训练数据训练所述ppg分类网络模型之前，所述方法还包括：获取第一训练语料，其中，所述第一训练语料包括第一音频和所述第一音频对应的第一文本；将所述第一音频转换为第一音频特征，并将所述第一文本转换为第一音素；根据所述第一音频和所述第一文本的对齐关系，以及所述第一音素的时长信息，确定每一帧所述第一音频特征对应的第一音素标签，其中，所述第一音素标签用于标识所述第一音素的类别；将所述第一音频特征确定为所述第一训练样本的输入，将所述第一音素标签确定为所述第一训练样本的输出。4.根据权利要求2所述的方法，其特征在于，所述通过第一训练样本训练所述ppg分类网络模型，包括：将所述第一音频特征输入所述抽象映射层，进行第一步抽象映射；通过所述模块对单个所述第一训练样本的每一层第一音频特征在通道方向上做归一化，然后通过所述抽象映射层进行第二步抽象映射；通过所述模块采用线性序列结构不断从前往后收集输入的所述第一音频特征的信息，提取所述第一音频特征之间的全局依赖信息；通过所述模块提取所述第一音频特征之间的局部依赖信息；整合所述全局依赖信息和所述局部依赖信息，并对所述第一音频特征做第三步抽象映射；根据所述第一音素标签对应的音素类别的总数，通过所述ppg层对经过第三步抽象映射输出特征向量进行分类，得到第一ppg特征向量，其中，所述第一ppg特征向量的维度与所述音素类别的总数一致，所述第一ppg特征向量的每一维用于指示一种音素类别的概率；将所述第一音频特征作为输入，将所述第一ppg特征向量作为输出，通过反向传播将所述ppg分类网络模型训练至收敛。5.根据权利要求1所述的方法，其特征在于，在将所述ppg特征向量输入声音转换网络
模型，根据所述ppg特征向量对应的所述音素标签输出目标音频的声学特征向量之前，所述方法还包括：建立所述声音转换网络模型，其中，所述声音转换网络模型包括编码层、解码层、声波编码层和声波预测层；通过第二训练样本训练所述声音转换网络模型，其中，所述第二训练样本包括第二音频对应的第二ppg特征向量和所述第二音频对应的样本声学特征向量，所述第二音频包括多种不同音色的音频，所述声音转换网络模型包含多个目标标识，每一所述目标标识用于标识一种音色。6.根据权利要求5所述的方法，其特征在于，在通过第二训练样本训练所述声音转换网络模型之前，所述方法还包括：获取所述第二音频；将所述第二音频输入训练好的所述ppg分类网络模型，得到所述第二音频对应的所述第二ppg特征向量，并将所述第二ppg特征向量确定为所述第二训练样本的输入；对经过清洗处理的所述第二音频，提取所述样本声学特征向量，并将所述样本声学特征向量确定为所述第二训练样本的输出。7.根据权利要求5所述的方法，其特征在于，所述通过第二训练样本训练所述声音转换网络模型，包括：将所述第二ppg特征向量输入所述编码层，通过所述编码层提取所述第二ppg特征向量之间的短时关联信息和长时关联信息；通过所述解码层，对所述短时关联信息、所述长时关联信息、所述第二ppg特征向量对应的目标标识和所述第二ppg特征向量的声波信息进行整合，并提取不同帧所述第二ppg特征向量之间的依赖信息；通过声波编码模块对所述第二ppg特征向量对应的所述第二音频的基频特征进行抽象提取，并对提取的所述基频特征进行维度转换，以在所述声音转换网络模型中嵌入所述第二音频的基频特征；将所述编码层输出的特征向量作为输入，将所述样本声学特征向量作为输出，训练所述声波预测层。8.根据权利要求1所述的方法，其特征在于，所述将源音频输入语音后验图ppg分类网络模型，得到ppg特征向量，包括：将源音频数据分片输入语音后验图ppg分类网络模型，其中，所述ppg分类网络模型包括依次连接的抽象映射层、模块层和ppg层，所述模块层包括至少两个串联的模块，所述模块中设置单向长短期记忆功能lstm层，所述单向lstm层配置为学习特征之间的全局依赖信息；通过第一缓存区域保留上一片源音频数据在单向lsmt中的状态数据，通过第二缓存区域保留上一片源音频数据的后面n帧数据，其中，一片所述源音频数据包括m帧数据，1＜n＜m；根据当前片源音频数据和所述第一缓存区域以及所述第二缓存区域中保存的数据，输出所述当前片源音频数据对应ppg特征向量。9.根据权利要求8所述的方法，其特征在于，所述根据当前片源音频数据和所述第一缓
存区域以及所述第二缓存区域中保存的数据，输出所述当前片源音频数据对应ppg特征，包括：通过所述第一缓存区域保存第一片源音频数据在所述单向lstm层中的状态数据；在进行第二片源音频数据推断时，通过所述第一缓存区域初始化所述单向lstm层的状态数据，其中，所述第一片源音频数据和所述第二片源音频数据为相邻片的数据，且所述第一片源音频数据时序在前；通过第二缓存区域保存所述第一片源音频数据的后面n帧数据；在进行所述第二片源音频数据推断时，将所述第一片源音频数据的后面n帧数据拼接在所述第二片源音频数据前面后，输入所述ppg分类网络模型。10.一种目标音频的输出装置，其特征在于，包括：输入模块，配置为将源音频输入语音后验图ppg分类网络模型，得到ppg特征向量，其中，所述ppg特征向量用于指示所述每一帧源音频对应的音素标签；处理模块，配置为将所述ppg特征向量输入声音转换网络模型，根据所述ppg特征向量对应的所述音素标签输出目标音频的声学特征向量，其中，所述目标音频包含多个不同音色的音频；输出模块，配置为将所述目标音频的声学特征向量输入声码器，通过所述声码器输出所述目标音频。11.一种目标音频的输出系统，其特征在于，包括：语音后验图ppg分类网络模型，配置为根据输入的源音频输出对应的ppg特征向量，其中，所述ppg特征向量用于指示所述每一帧源音频对应的音素标签，所述ppg特征向量包含所述源音频的文本信息和韵律信息；声音转换网络模型，配置为根据所述ppg特征向量对应的所述音素标签输出至少两个不同音色的目标音频的声学特征向量；声码器，配置为根据至少两个所述目标音频的声学特征向量输出至少两个所述目标音频。12.一种计算机可读的存储介质，其特征在于，所述存储介质中存储有计算机程序，其中，所述计算机程序被设置为运行时执行权利要求1至9任一项中所述的方法。13.一种电子装置，包括存储器和处理器，其特征在于，所述存储器中存储有计算机程序，所述处理器被设置为运行所述计算机程序以执行权利要求1至9任一项中所述的方法。

技术总结
本申请实施例提供了一种目标音频的输出方法及装置、系统，所述方法包括：将源音频输入语音后验图PPG分类网络模型，得到PPG特征向量，其中，PPG特征向量用于指示每一帧源音频对应的音素标签，PPG特征向量包含源音频的文本信息和韵律信息；将PPG特征向量输入声音转换网络模型，根据PPG特征向量对应的音素标签输出目标音频的声学特征向量，其中，目标音频包含多个不同音色的音频；将目标音频的声学特征向量输入声码器，通过声码器输出目标音频。通过声码器输出目标音频。通过声码器输出目标音频。

技术研发人员：司马华鹏龚雪飞毛志强
受保护的技术使用者：宿迁硅基智能科技有限公司
技术研发日：2021.09.01
技术公布日：2021/11/30

再多了解一些

2/2 首页上一页 1 2

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

目标音频的输出方法及装置、系统与流程

相关文献

最热文献