语音分离方法、装置、计算机设备及存储介质与流程

2021-10-20 00:08:00 来源：中国专利 TAG：人工智能语音装置分离特别

技术特征：
1.一种语音分离方法，其特征在于，所述方法包括：通过语音分离模型中的第一分块网络对输入的语音数据进行分块，获得至少两个语音数据块；通过所述语音分离模型中的第一转置层对至少两个所述语音数据块进行第一转置处理，使得至少两个所述语音数据块的维度按照时域维度、频域维度、归一化维度的顺序排列；通过所述语音分离模型中的至少一个第一块处理网络对至少两个所述语音数据块进行块处理，获得至少两个所述语音数据块的块处理结果数据；所述第一块处理网络包含串连的两个第一处理子网络；所述第一处理子网络用于依次执行以下操作：对输入的语音数据块的时域维度和频域维度进行第二转置处理、对所述第二转置处理的结果进行循环神经网络处理、对所述循环神经网络处理的结果的归一化维度进行归一化处理、将所述归一化处理的结果与所述第二转置处理的结果进行融合；通过所述语音分离模型中的第一重叠相加网络，对至少一个所述第一块处理网络的块处理结果进行重叠相加处理，获得所述语音数据的语音分离结果。2.根据权利要求1所述的方法，其特征在于，所述第一处理子网络包含依次相连的第二转置层、第一循环神经网络层、第一归一化层、以及第一融合层；所述第二转置层还与所述第一融合层相连；所述第二转置层用于对所述至少两个所述语音数据块的时域维度和频域维度进行第二转置处理；所述第一循环神经网络层用于对所述第二转置处理的结果进行循环神经网络处理以及全连接处理；所述第一归一化层用于对所述第一循环神经网络层的处理结果中的归一化维度进行归一化处理；所述第一融合层用于将所述第一归一化层的处理结果与所述第二转置处理的结果进行融合。3.根据权利要求1所述的方法，其特征在于，所述通过语音分离模型中的第一分块网络对输入的语音数据进行分块，获得至少两个语音数据块，包括：基于循环算子，对所述语音数据进行循环处理，获取至少两个所述语音数据块的分块开始指针以及分块结束指针；基于所述分块开始指针以及所述分块结束指针，获取至少两个所述语音数据块。4.根据权利要求3所述的方法，其特征在于，所述循环算子由图像处理器中的单个处理器内核执行。5.根据权利要求1所述的方法，其特征在于，所述通过语音分离模型中分块网络对输入的语音数据进行分块，获得至少两个语音数据块，包括：基于第一算子，获取所述语音数据块的前段语音数据块；基于第二算子，获取所述语音数据块的后段语音数据块；基于第三算子，将所述语音数据块对应的所述前段语音数据块与所述后段语音数据块进行拼接，生成拼接后的所述语音数据块；基于第四算子，对所述拼接后的语音数据块进行转置处理。
6.根据权利要求5所述的方法，其特征在于，所述第一算子、所述第二算子、所述第三算子以及所述第四算子分别由图像处理器中的一个处理器内核执行。7.根据权利要求1至6任一所述的方法，其特征在于，所述语音分离模型为双路径递归神经网络dprnn模型。8.根据权利要求7所述的方法，其特征在于，所述语音分离模型是对第一编程语言编写的所述dprnn模型进行代码翻译获得的。9.根据权利要求8所述的方法，其特征在于，所述第一编程语言编写的dprnn模型是基于pytorch训练获得的模型。10.根据权利要求8所述的方法，其特征在于，所述第一编程语言编写的dprnn模型包括第二分块网络、至少一个第二块处理网络以及第二重叠相加网络；所述第二块处理网络包含串连的两个第二处理子网络；输入所述第二处理子网络的语音数据块的维度按照归一化维度、时域维度、频域维度的顺序排列；所述第二处理子网络用于依次执行以下操作：对输入的语音数据块的归一化维度和频域维度进行第三转置处理、对所述第三转置处理的结果进行循环神经网络处理、对所述循环神经网络处理的结果的归一化维度和频域维度进行第四转置处理、对所述第四转置处理的结果的归一化维度进行归一化处理、将所述归一化处理的结果与输入的语音数据块进行融合。11.根据权利要求10所述的方法，其特征在于，所述第二处理子网络包括包含依次相连的第三转置层、第二循环神经网络层、第四转置层、第二归一化层、以及第二融合层；所述第二融合层还与所述第二处理子网络的输入口相连；所述第三转置层用于对输入的语音数据块的归一化维度和频域维度进行第三转置处理；所述第二循环神经网络层用于对所述第三转置处理的结果进行循环神经网络处理和全连接处理；所述第四转置层对所述第二循环神经网络层的处理结果的归一化维度和频域维度进行第四转置处理；所述第二归一化层用于对所述第四转置处理的结果的归一化维度进行归一化处理；所述第二融合层用于将所述第二归一化层的处理结果与输入的语音数据块进行融合。12.一种语音分离方法，其特征在于，所述方法包括：获取在第一编码语言环境下训练生成的语音分离模型的第一模型源码；所述语音分离模型是用于在时域维度下进行语音分离的神经网络模型；基于所述第一模型源码进行编码语言翻译和指定调整，获得第二编码语言编写的第二模型源码；所述指定调整用于实现所述语音分离模型的目标功能的前提下减少所述语音分离模型的运算量；在第一引擎中运行所述第二模型源码，以实现所述语音分离模型的所述目标功能；所述第一引擎是支持所述第二编码语言的引擎。13.一种语音分离装置，其特征在于，所述装置包括：数据块获取模块，用于通过语音分离模型中的第一分块网络对输入的语音数据进行分
块，获得至少两个语音数据块；第一转置模块，用于通过所述语音分离模型中的第一转置层对至少两个所述语音数据块进行第一转置处理，使得至少两个所述语音数据块的维度按照时域维度、频域维度、归一化维度的顺序排列；块处理模块，用于通过所述语音分离模型中的至少一个第一块处理网络对至少两个所述语音数据块进行块处理，获得至少两个所述语音数据块的块处理结果数据；所述第一块处理网络包含串连的两个第一处理子网络；所述第一处理子网络用于依次执行以下操作：对输入的语音数据块的时域维度和频域维度进行第二转置处理、对所述第二转置处理的结果进行循环神经网络处理、对所述循环神经网络处理的结果的归一化维度进行归一化处理、将所述归一化处理的结果与所述第二转置处理的结果进行融合；结果获取模块，用于通过所述语音分离模型中的第一重叠相加网络，对至少一个所述第一块处理网络的块处理结果进行重叠相加处理，获得所述语音数据的语音分离结果。14.一种计算机设备，其特征在于，所述计算机设备包含处理器和存储器，所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如权利要求1至12任一所述的语音分离方法。15.一种计算机可读存储介质，其特征在于，所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现如权利要求1至12任一所述的语音分离方法。

技术总结
本申请是关于一种语音分离方法、装置、计算机设备及存储介质，涉及人工智能技术领域。所述方法包括：通过语音分离模型中的第一分块网络对输入的语音数据进行分块，通过第一转置层对语音数据块进行第一转置处理；通过语音分离模型中的第一块处理网络对语音数据块进行块处理，获得至少两个所述语音数据块的块处理结果数据；通过语音分离模型中的第一重叠相加网络，对第一块处理网络的块处理结果进行重叠相加处理，获得所述语音数据的语音分离结果。通过上述方案，在通过各个第一块处理网络之前，首先对语音数据块进行一次转置操作，从而可以极大的简化语音分离模型中的块处理网络的结构，提高模型的处理速度，进而提高语音分离的效率。离的效率。离的效率。

技术研发人员：杨伟光
受保护的技术使用者：腾讯科技（深圳）有限公司
技术研发日：2021.01.08
技术公布日：2021/10/19

再多了解一些

2/2 首页上一页 1 2

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：一种车辆语音交互系统的制作方法
下一篇：一种音频处理方法、装置、智能设备及存储介质与流程

语音分离方法、装置、计算机设备及存储介质与流程

相关文献

最热文献