技术特征:
1.一种模型训练方法,其特征在于,所述方法包括:
获取包含多个对象音频数据的对象音频数据集、包含多个噪声音频数据的噪声音频数据集及包含多个混合音频数据的混合音频数据集,所述混合音频数据包括所述对象音频数据和所述噪声音频数据;
分别利用所述对象音频数据集和所述噪声音频数据集训练初始模型,直至所述初始模型满足第一收敛条件,得到基准模型,所述基准模型用于区分输入的音频数据中的所述对象音频数据和所述噪声音频数据;
利用所述混合音频数据集训练所述基准模型,直至所述基准模型满足第二收敛条件,得到降噪模型,所述降噪模型用于滤除所述输入的音频数据中的所述噪声音频数据,保留所述对象音频数据。
2.根据权利要求1所述的方法,其特征在于,分别利用所述对象音频数据集和所述噪声音频数据集训练初始模型,直至所述初始模型满足第一收敛条件,得到基准模型,包括:
将所述对象音频数据集中的各对象音频数据输入所述初始模型,所述初始模型输出与所述对象音频数据对应的第三音频数据;
判断各所述第三音频数据是否和与其对应的所述对象音频数据相同;
若各所述第三音频数据和与其对应的所述对象音频数据相同,将所述噪声音频数据集中的各所述噪声音频数据输入所述初始模型,所述初始模型输出与所述噪声音频数据对应的第四音频数据;
判断各所述第四音频数据是否和与其对应的所述噪声音频数据相同;
若各所述第四音频数据和与其对应的所述噪声音频数据相同,确定所述初始模型满足第一收敛条件,得到所述基准模型。
3.根据权利要求2所述的方法,其特征在于,分别利用所述对象音频数据集和所述噪声音频数据集训练初始模型,直至所述初始模型满足第一收敛条件,得到基准模型,还包括:
若任一所述第三音频数据与输入所述初始模型的所述对象音频数据不相同,和/或,任一所述第四音频数据与输入所述初始模型的所述噪声音频数据不相同,计算所述第三音频数据与输入所述初始模型的所述对象音频数据之间的第一误差数据和所述第四音频数据与输入所述初始模型的所述噪声音频数据之间的第二误差数据;
根据所述第一误差和第二误差,调整所述初始模型中的第一网络参数,执行将所述对象音频数据集中的各所述对象音频数据输入所述初始模型的步骤,直至所述初始模型满足第一收敛条件,得到所述基准模型。
4.根据权利要求1所述的方法,其特征在于,利用所述混合音频数据集训练所述基准模型,直至所述基准模型满足第二收敛条件,得到降噪模型,包括:
将所述混合音频数据集中的各混合音频数据输入所述基准模型,所述基准模型输出与所述混合音频数据对应的第五音频数据;
判断各所述第五音频数据是否与输入所述基准模型的混合音频数据中的所述对象音频数据相同;
若各所述第五音频数据与输入所述基准模型的混合音频数据中的所述对象音频数据相同,确定所述基准模型满足第二收敛条件,得到所述降噪模型。
5.根据权利要求4所述的方法,其特征在于,利用所述混合音频数据集训练所述基准模型,直至所述基准模型满足第二收敛条件,得到降噪模型,还包括:
若任一所述第五音频数据与输入所述基准模型的混合音频数据中的所述对象音频数据不相同,计算所述第五音频数据与所述对象音频数据之间的第三误差数据;
根据所述第三误差数据,调整所述基准模型中的第二网络参数,执行将所述混合音频数据集中的各混合音频数据输入所述基准模型的步骤,直至所述基准模型满足第二收敛条件,得到所述降噪模型。
6.根据权利要求5所述的方法,其特征在于,所述基准模型包括多个神经元组,每个神经元组包括多个神经元;
根据所述误差数据调整所述基准模型中的第二网络参数,包括:
获取多个神经元组中神经元的放电信息;
针对每个神经元组,利用神经元组中神经元的放电信息,获取与所述神经元组对应的多个放电簇的时间差信息;基于所述多个时间差信息,选取最小的时间差信息;将每个神经元的输出信息增加所述最小的时间差信息,得到每个神经元组的目标网络参数;
将所述基准模型中的第二网络参数调整为所述目标网络参数。
7.一种数据处理方法,其特征在于,所述方法包括:
获取麦克风采集的目标音频数据;
将所述目标音频数据输入至如权利要求1至6任一所述的模型训练方法得到的降噪模型中,以使所述降噪模型去除噪声音频数据,输出所述目标音频数据中的对象音频数据;
将所述对象音频数据输入唤醒词识别模型,以使所述唤醒词识别模型输出与所述目标音频数据对应的唤醒词。
8.一种模型训练装置,其特征在于,所述装置,包括:
获取模块,用于获取包含多个对象音频数据的对象音频数据集、包含多个噪声音频数据的所述噪声音频数据集及包含多个混合音频数据的混合音频数据集,所述混合音频数据包括对象音频数据和所述噪声音频数据;
第一训练模块,用于分别利用所述对象音频数据集和所述噪声音频数据集训练初始模型,直至所述初始模型满足第一收敛条件,得到基准模型,所述基准模型用于区分输入的音频数据中的所述对象音频数据和所述噪声音频数据;
第二训练模块,用于利用所述混合音频数据集训练所述基准模型,直至所述基准模型满足第二收敛条件,得到降噪模型,所述降噪模型用于滤除所述输入的音频数据中的所述噪声音频数据,保留所述对象音频数据。
9.一种电子设备,其特征在于,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;
存储器,用于存放计算机程序;
处理器,用于执行存储器上所存放的程序时,实现权利要求1-6任一所述的模型训练方法或权利要求7所述的数据处理方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现权利要求1-6任一所述的模型训练方法或权利要求7所述的数据处理方法的步骤。
技术总结
本发明提供了一种模型训练、数据处理方法、装置、电子设备及存储介质,本发明通过获取包含多个对象音频数据的对象音频数据集、包含多个噪声音频数据的噪声音频数据集及包含多个混合音频数据的混合音频数据集,混合音频数据包括对象音频数据和噪声音频数据;分别利用对象音频数据集和噪声音频数据集训练初始模型,直至初始模型满足第一收敛条件,得到基准模型;利用混合音频数据集训练基准模型,直至基准模型满足第二收敛条件,得到降噪模型,相较于传统信号处理的方式,所述降噪模型能够在噪声音频数据和对象音频数据混叠时,滤除噪声音频数据,保留对象音频数据,避免噪声音频数据对对象音频数据的干扰,提高对象音频数据的识别准确率。
技术研发人员:张洋;陈彦宇;马雅奇;唐杰
受保护的技术使用者:珠海格力电器股份有限公司;珠海联云科技有限公司
技术研发日:2021.04.30
技术公布日:2021.08.06
本文用于企业家、创业者技术爱好者查询,结果仅供参考。