声学特征提取方法、装置、设备及存储介质与流程

2021-06-25 14:50:00 来源：中国专利 TAG：声学人工智能提取装置特征

技术特征：
1.一种声学特征提取方法，其特征在于，所述方法包括：对目标音频片段进行分帧处理，得到多个音频帧；提取各个所述音频帧分别对应的音高和音素，得到所述目标音频片段的音高序列信息、音素序列信息和音素位置信息；其中，所述音高序列信息包括各个所述音频帧对应的音高，所述音素序列信息包括各个所述音频帧对应的音素，所述音素位置信息包括各个所述音频帧对应的音素在所述目标音频片段中的位置编码；对所述音高序列信息、所述音素序列信息和所述音素位置信息进行合成处理，得到所述目标音频片段的合成属性信息；对所述合成属性信息进行编解码处理，得到所述目标音频片段的声学特征。2.根据权利要求1所述的方法，其特征在于，所述对所述音高序列信息、所述音素序列信息和所述音素位置信息进行合成处理，得到所述目标音频片段的合成属性信息，包括：获取各个所述音频帧对应的音高的嵌入向量，得到第一嵌入向量序列；获取各个所述音频帧对应的音素的嵌入向量，得到第二嵌入向量序列；对所述音素位置信息进行线性变换处理，得到处理后的音素位置信息；对所述第一嵌入向量序列、所述第二嵌入向量序列和所述处理后的音素位置信息进行合成处理，得到所述合成属性信息。3.根据权利要求2所述的方法，其特征在于，所述获取各个所述音频帧对应的音高的嵌入向量，得到第一嵌入向量序列，包括：对各个所述音频帧对应的音高分别进行数值转换处理，得到各个所述音频帧对应的转换后音高值；对各个所述音频帧对应的转换后音高值分别进行取整处理，得到各个所述音频帧对应的取整值；基于各个所述音频帧对应的取整值，确定各个所述音频帧对应的音高的嵌入向量；合并各个所述音频帧对应的音高的嵌入向量，得到所述第一嵌入向量序列。4.根据权利要求2所述的方法，其特征在于，所述合成属性信息还包括所述目标音频片段的发音者标识对应的嵌入向量；所述获取各个所述音频帧对应的音素的嵌入向量，得到第二嵌入向量序列之后，所述方法还包括：采用音素特征转换网络对所述第二嵌入向量序列进行转换处理，得到转换后的第二嵌入向量序列；其中，所述音素特征转换网络用于在对所述第二嵌入向量序列进行转换处理的过程中，去除发音者信息；其中，所述转换后的第二嵌入向量序列用于生成所述合成属性信息。5.根据权利要求1所述的方法，其特征在于，所述得到音素位置信息，包括：对于每一个所述音频帧，获取所述音频帧在相同音素连续帧序列中的位置信息，所述相同音素连续帧序列是指与所述音频帧具有相同音素且连续的多个音频帧所形成的序列；基于所述位置信息，生成所述音频帧对应的音素的位置编码；合并各个所述音频帧对应的音素的位置编码，得到所述音素位置信息。6.根据权利要求5所述的方法，其特征在于，所述基于所述位置信息，生成所述音频帧对应的音素的位置编码，包括：
基于所述位置信息和所述相同音素连续帧序列中包含的音频帧数量，确定所述位置编码的元参数；基于所述元参数生成所述音频帧对应的音素的位置编码，所述位置编码是一个包括多个元素的向量。7.根据权利要求1至6任一项所述的方法，其特征在于，所述编解码处理由声学特征提取模型执行，所述声学特征提取模型包括编码网络和解码网络；所述对所述合成属性信息进行编解码处理，得到所述目标音频片段的声学特征，包括：采用所述编码网络对所述合成属性信息进行编码处理，得到编码特征向量；对所述编码特征向量进行下采样处理，得到下采样后的编码特征向量；采用注意力机制对所述下采样后的编码特征向量进行特征重组处理，得到重组后的编码特征向量；采用所述解码网络对所述重组后的编码特征向量进行解码处理，得到所述目标音频片段的声学特征。8.根据权利要求7所述的方法，其特征在于，所述采用所述解码网络对所述重组后的编码特征向量进行解码处理，得到所述目标音频片段的声学特征之后，还包括：采用残差预估网络对所述解码网络得到的所述目标音频片段的声学特征进行残差预估处理，得到残差信息；基于所述残差信息对所述目标音频片段的声学特征进行修正，得到修正后的声学特征。9.一种声学特征提取模型的训练方法，其特征在于，所述方法包括：获取训练样本，所述训练样本包括样本音频片段以及所述样本音频片段对应的目标声学特征；提取所述样本音频片段的音高序列信息、音素序列信息和音素位置信息；其中，所述音高序列信息包括所述样本音频片段中的各个音频帧对应的音高，所述音素序列信息包括各个所述音频帧对应的音素，所述音素位置信息包括各个所述音频帧对应的音素在所述样本音频片段中的位置编码；对所述音高序列信息、所述音素序列信息和所述音素位置信息进行合成处理，得到所述样本音频片段的合成属性信息；通过所述声学特征提取模型对所述合成属性信息进行编解码处理，得到所述样本音频片段的预测声学特征；基于所述预测声学特征和所述目标声学特征，计算所述声学特征提取模型的损失函数值；基于所述损失函数值对所述声学特征提取模型的参数进行调整。10.一种声学特征提取装置，其特征在于，所述装置包括：分帧处理模块，用于对目标音频片段进行分帧处理，得到多个音频帧；属性提取模块，用于提取各个所述音频帧分别对应的音高和音素，得到所述目标音频片段的音高序列信息、音素序列信息和音素位置信息；其中，所述音高序列信息包括各个所述音频帧对应的音高，所述音素序列信息包括各个所述音频帧对应的音素，所述音素位置信息包括各个所述音频帧对应的音素在所述目标音频片段中的位置编码；
属性合成模块，用于对所述音高序列信息、所述音素序列信息和所述音素位置信息进行合成处理，得到所述目标音频片段的合成属性信息；特征提取模块，用于对所述合成属性信息进行编解码处理，得到所述目标音频片段的声学特征。11.一种声学特征提取模型的训练装置，其特征在于，所述装置包括：样本获取模块，用于获取训练样本，所述训练样本包括样本音频片段以及所述样本音频片段对应的目标声学特征；属性提取模块，用于提取所述样本音频片段的音高序列信息、音素序列信息和音素位置信息；其中，所述音高序列信息包括所述样本音频片段中的各个音频帧对应的音高，所述音素序列信息包括各个所述音频帧对应的音素，所述音素位置信息包括各个所述音频帧对应的音素在所述样本音频片段中的位置编码；属性合成模块，用于对所述音高序列信息、所述音素序列信息和所述音素位置信息进行合成处理，得到所述样本音频片段的合成属性信息；特征提取模块，用于通过所述声学特征提取模型对所述合成属性信息进行编解码处理，得到所述样本音频片段的预测声学特征；损失计算模块，用于基于所述预测声学特征和所述目标声学特征，计算所述声学特征提取模型的损失函数值；参数调整模块，用于基于所述损失函数值对所述声学特征提取模型的参数进行调整。12.一种计算机设备，其特征在于，所述计算机设备包括处理器和存储器，所述存储器中存储有计算机程序，所述计算机程序由所述处理器加载并执行以实现如权利要求1至8任一项所述的声学特征提取方法，或者实现如权利要求9所述的声学特征提取模型的训练方法。13.一种计算机可读存储介质，其特征在于，所述存储介质中存储有计算机程序，所述计算机程序由处理器加载并执行以实现如权利要求1至8任一项所述的声学特征提取方法，或者实现如权利要求9所述的声学特征提取模型的训练方法。

再多了解一些

2/3 首页上一页 1 2 3 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：一种尤克里里琴体密封槽结构的制作方法

声学特征提取方法、装置、设备及存储介质与流程

相关文章

最热文献