音频分离方法、音频分离模型的训练方法、装置及设备与流程

2022-05-08 12:01:38 来源：中国专利 TAG：

技术特征：
1.一种音频分离方法，其特征在于，所述方法包括:获取待处理的目标音频数据，所述目标音频数据中包括至少一个声源；确定所述目标音频数据的多个时频单元，所述时频单元用于表征所述目标音频数据中的声学信息；对于所述多个时频单元中的目标时频单元，基于所述目标时频单元对应的时频单元集合，确定所述目标时频单元对应的实值遮蔽信息；其中，所述时频单元集合包括所述目标时频单元和至少一个其他时频单元，所述实值遮蔽信息中包括至少两个实值遮蔽，所述实值遮蔽与所述时频单元集合中的时频单元存在对应关系；根据所述时频单元集合和所述实值遮蔽信息，确定所述目标时频单元对应的声源信息；基于多个所述时频单元分别对应的声源信息，从所述目标音频数据中确定目标声源的音频数据。2.根据权利要求1所述的方法，其特征在于，所述基于所述目标时频单元对应的时频单元集合，确定所述目标时频单元对应的实值遮蔽信息，包括：获取所述时频单元集合中各个所述时频单元分别对应的复值信息；其中，所述复值信息用于表征所述时频单元的幅值信息和相位信息；将各个所述时频单元分别对应的复值信息进行拼接，得到预测矩阵；基于所述预测矩阵，预测得到所述目标时频单元对应的所述实值遮蔽信息。3.根据权利要求2所述的方法，其特征在于，所述将各个所述时频单元分别对应的复值信息进行拼接，得到预测矩阵，包括：提取各个所述复值信息中的第一信息，根据多个所述第一信息，得到所述预测矩阵的第一分量；提取各个所述复值信息中的第二信息，根据多个所述第二信息，确定所述预测矩阵的第二分量；拼接所述第一分量和所述第二分量，得到所述预测矩阵。4.根据权利要求2所述的方法，其特征在于，所述基于所述预测矩阵，预测得到所述目标时频单元对应的所述实值遮蔽信息，包括：将所述预测矩阵输入至音频分离模型，所述音频分离模型是用于音频分离的模型；通过所述音频分离模型对所述预测矩阵进行处理，得到所述至少两个实值遮蔽；将所述至少两个实值遮蔽进行拼接，得到所述目标时频单元对应的所述实值遮蔽信息。5.根据权利要求4所述的方法，其特征在于，所述音频分离模型用于根据所述预测矩阵，输出所述预测矩阵的各个所述时频单元分别对应的时频遮蔽。6.根据权利要求3所述的方法，其特征在于，所述根据所述时频单元集合和所述实值遮蔽信息，确定所述目标时频单元对应的声源信息，包括：将所述预测矩阵中的所述第一分量和所述实值遮蔽信息进行运算，确定第一目标信息；将所述预测矩阵中的所述第二分量和所述实值遮蔽信息进行运算，确定第二目标信息；
将所述第一目标信息和所述第二目标信息进行拼接，得到所述目标时频单元对应的声源信息。7.根据权利要求1至6任一项所述的方法，其特征在于，所述方法还包括：在所述多个时频单元中，选择满足候选条件的时频单元作为所述时频单元集合中的所述其他时频单元；其中，所述候选条件是根据与所述目标时频单元在频率或者时间的邻近度设定的。8.根据权利要求7所述的方法，其特征在于，所述候选条件包括与所述目标时频单元的频率之间的差值小于或等于第一阈值。9.根据权利要求7所述的方法，其特征在于，所述候选条件包括与所述目标时频单元的时间之间的差值小于或等于第二阈值。10.根据权利要求7所述的方法，其特征在于，所述候选条件包括：与所述目标时频单元的频率之间的差值小于或等于第一阈值，以及，与所述目标时频单元的时间之间的差值小于或等于第二阈值。11.一种音频分离模型的训练方法，其特征在于，所述方法包括：获取至少一个样本音频数据，所述样本音频数据中包括至少一个声源；确定所述样本音频数据的多个时频单元，所述时频单元用于表征所述样本音频数据中的声学信息；对于所述多个时频单元中的目标时频单元，通过所述音频分离模型基于所述目标时频单元对应的时频单元集合，确定所述目标时频单元对应的实值遮蔽信息；其中，所述时频单元集合包括所述目标时频单元和至少一个其他时频单元，所述实值遮蔽信息中包括至少两个实值遮蔽，所述实值遮蔽与所述时频单元集合中的时频单元存在对应关系；根据所述时频单元集合和所述实值遮蔽信息，确定所述目标时频单元对应的预测声源信息；基于所述目标时频单元对应的预测声源信息，对所述音频分离模型进行训练。12.根据权利要求11所述的方法，其特征在于，所述通过所述音频分离模型基于所述目标时频单元对应的时频单元集合，确定所述目标时频单元对应的实值遮蔽信息，包括：获取所述时频单元集合中各个所述时频单元分别对应的复值信息；其中，所述复值信息用于表征所述时频单元的幅值信息和相位信息；将各个所述时频单元分别对应的复值信息进行拼接，得到预测矩阵；通过所述音频分离模型基于所述预测矩阵，预测得到所述目标时频单元对应的所述实值遮蔽信息。13.根据权利要求12所述的方法，其特征在于，所述通过所述音频分离模型基于所述预测矩阵，预测得到所述目标时频单元对应的所述实值遮蔽信息，包括：将所述预测矩阵输入至所述音频分离模型；通过所述音频分离模型对所述预测矩阵进行处理，得到所述至少两个实值遮蔽；将所述至少两个实值遮蔽进行拼接，得到所述目标时频单元对应的所述实值遮蔽矩阵。14.根据权利要求11所述的方法，其特征在于，所述基于所述目标时频单元对应的预测声源信息，对所述音频分离模型进行训练，包括：
根据所述预测声源信息和真实声源信息，确定所述音频分离模型的训练损失；根据所述训练损失对所述音频分离模型的参数进行调整。15.根据权利要求11所述的方法，其特征在于，所述基于所述目标时频单元对应的预测声源信息，对所述音频分离模型进行训练，包括：计算所述预测声源信息和所述样本音频数据之间的干扰比例；根据所述干扰比例对所述音频分离模型的参数进行调整。16.一种音频分离装置，其特征在于，所述装置包括：音频数据获取模块，用于获取待处理的目标音频数据，所述目标音频数据中包括至少一个声源；时频单元确定模块，用于确定所述目标音频数据的多个时频单元，所述时频单元用于表征所述目标音频数据中的声学信息；实值遮蔽确定模块，用于对于所述多个时频单元中的目标时频单元，基于所述目标时频单元对应的时频单元集合，确定所述目标时频单元对应的实值遮蔽信息；其中，所述时频单元集合包括所述目标时频单元和至少一个其他时频单元，所述实值遮蔽信息中包括至少两个实值遮蔽，所述实值遮蔽与所述时频单元集合中的时频单元存在对应关系；声源信息确定模块，用于根据所述时频单元集合和所述实值遮蔽信息，确定所述目标时频单元对应的声源信息；目标音频确定模块，用于基于多个所述时频单元分别对应的声源信息，从所述目标音频数据中确定目标声源的音频数据。17.一种音频分离模型的训练装置，其特征在于，所述装置包括：样本数据获取模块，用于获取至少一个样本音频数据，所述样本音频数据中包括至少一个声源；时频单元确定模块，用于确定所述样本音频数据的多个时频单元，所述时频单元用于表征所述样本音频数据中的声学信息；实值遮蔽确定模块，用于对于所述多个时频单元中的目标时频单元，通过所述音频分离模型基于所述目标时频单元对应的时频单元集合，确定所述目标时频单元对应的实值遮蔽信息；其中，所述时频单元集合包括所述目标时频单元和至少一个其他时频单元，所述实值遮蔽信息中包括至少两个实值遮蔽，所述实值遮蔽与所述时频单元集合中的时频单元存在对应关系；声源信息确定模块，用于根据所述时频单元集合和所述实值遮蔽信息，确定所述目标时频单元对应的预测声源信息；音频模型训练模块，用于基于所述目标时频单元对应的预测声源信息，对所述音频分离模型进行训练。18.一种计算机设备，其特征在于，所述计算机设备包括处理器和存储器，所述存储器中存储有计算机程序，所述计算机程序由所述处理器加载并执行以实现如权利要求1至10任一项所述的音频分离方法，或者，实现如权利要求11至15任一项所述的音频分离模型的训练方法。19.一种计算机可读存储介质，其特征在于，所述存储介质中存储有计算机程序，所述计算机程序由处理器加载并执行以实现如权利要求1至10任一项所述的音频分离方法，或
者，实现如权利要求11至15任一项所述的音频分离模型的训练方法。20.一种计算机程序产品或计算机程序，其特征在于，所述计算机程序产品或计算机程序包括计算机指令，所述计算机指令存储在计算机可读存储介质中，处理器从所述计算机可读存储介质读取并执行所述计算机指令，以实现如权利要求1至10任一项所述的音频分离方法，或者，实现如权利要求11至15任一项所述的音频分离模型的训练方法。

技术总结
本申请公开了一种音频分离方法、音频分离模型的训练方法、装置及设备，属于音频处理技术领域。所述方法包括：获取待处理的目标音频数据，目标音频数据中包括至少一个声源；确定目标音频数据的多个时频单元，时频单元用于表征目标音频数据中的声学信息；对于多个时频单元中的目标时频单元，基于目标时频单元对应的时频单元集合，确定目标时频单元对应的实值遮蔽信息；根据时频单元集合和实值遮蔽信息，确定目标时频单元对应的声源信息；基于多个时频单元分别对应的声源信息，从目标音频数据中确定目标声源目标音频数据。通过上述方法，在基本不改变音频分离过程的计算量的同时，能够提高音频分离模型的分离准确度性能。高音频分离模型的分离准确度性能。高音频分离模型的分离准确度性能。

技术研发人员：罗艺李凯
受保护的技术使用者：腾讯科技（深圳）有限公司
技术研发日：2022.01.27
技术公布日：2022/5/6

再多了解一些

2/2 首页上一页 1 2

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：从音频会议更新和实现文档的制作方法

音频分离方法、音频分离模型的训练方法、装置及设备与流程

相关文献

最热文献