一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

语音唤醒模型的训练方法、唤醒词的检测方法和相关设备与流程

2022-02-21 07:50:50 来源:中国专利 TAG:

技术特征:
1.一种语音唤醒模型的训练方法,其特征在于,包括:获取样本数据和所述样本数据对应的标签数据,所述样本数据包括唤醒词正样本语音数据;将所述样本数据和所述标签数据作为训练样本输入神经网络中进行模型训练,在模型训练过程中,所述标签数据作为所述样本数据的监督学习目标,使用统一多标签交叉熵损失函数计算所述样本数据和所述标签数据之间的loss值,循环迭代直至模型收敛,得到所述语音唤醒模型。2.根据权利要求1所述的语音唤醒模型的训练方法,其特征在于,所述样本数据包括语音数据和所述语音数据对应的文本标签,所述获取样本数据和所述样本数据对应的标签数据的步骤,包括:将所述唤醒词正样本语音数据对应的唤醒词文本标签转化为音素,得到所述唤醒词正样本语音数据对应的唤醒词音素序列;将所述样本数据中除去所述唤醒词正样本语音数据之外的负样本语音数据对应的负样本文本标签转化为音素,得到所述负样本语音数据对应的非目标音素;根据所述非目标音素和所述唤醒词音素序列,构建得到所述标签数据。3.一种唤醒词的检测方法,其特征在于,包括:获取唤醒语音数据;将所述唤醒语音数据输入语音唤醒模型中进行预测,得到所述唤醒语音数据中存在的若干个唤醒词音素,并实时将各所述唤醒词音素按照预测时间顺序进行组合,得到预测音素序列,其中,所述语音唤醒模型为权利要求1或2所述的语音唤醒模型的训练方法训练所得的模型;判断所述预测音素序列与唤醒词音素序列之间的相似度是否大于相似度阈值;若所述预测音素序列与唤醒词音素序列之间的相似度大于相似度阈值,则判定检测到唤醒词。4.根据权利要求3所述的唤醒词的检测方法,其特征在于,所述将所述唤醒语音数据输入语音唤醒模型中进行识别,得到所述唤醒语音数据中存在的若干个唤醒词音素的步骤,包括:将所述唤醒语音数据分割为多个具有相同长度的语音子数据;将各所述语音子数据按照所述唤醒语音数据的获取时间顺序,依次输入所述语音唤醒模型中,得到各所述语音子数据包含的所有音素分别对应的存在概率;筛选存在概率大于概率阈值的若干个第一音素作为所述唤醒语音数据中存在的所述唤醒词音素。5.根据权利要求4所述的唤醒词的检测方法,其特征在于,所述实时将各所述唤醒词音素按照预测时间顺序进行拼接,得到预测音素序列的步骤,包括:按照各所述语音子数据的预测顺序,实时将各所述语音子数据中存在的唤醒词音素进行编码、组合,得到所述预测音素序列,其中,后一次序的语音子数据存在的唤醒词音素对应的音素序列基于前一次序的语音子数据存在的唤醒词音素对应的音素序列组合得到。6.一种语音唤醒模型的训练装置,其特征在于,包括:第一获取模块,用于获取样本数据和所述样本数据对应的标签数据,所述样本数据包
括唤醒词正样本语音数据;训练模块,用于将所述样本数据和所述标签数据作为训练样本输入神经网络中进行模型训练,在模型训练过程中,所述标签数据作为所述样本数据的监督学习目标,使用统一多标签交叉熵损失函数计算所述样本数据和所述标签数据之间的loss值,循环迭代直至模型收敛,得到所述语音唤醒模型。7.根据权利要求6所述的语音唤醒模型的训练装置,其特征在于,所述样本数据包括语音数据和所述语音数据对应的文本标签,所述第一获取模块,包括:第一转化单元,用于将所述唤醒词正样本语音数据对应的唤醒词文本标签转化为音素,得到所述唤醒词正样本语音数据对应的唤醒词音素序列;第二转化单元,用于将所述样本数据中除去所述唤醒词正样本语音数据之外的负样本语音数据对应的负样本文本标签转化为音素,得到所述负样本语音数据对应的非目标音素;构建单元,用于根据所述非目标音素和所述唤醒词音素序列,构建得到所述标签数据。8.一种唤醒词的检测装置,其特征在于,包括:第二获取模块,用于获取唤醒语音数据;预测模块,用于将所述唤醒语音数据输入语音唤醒模型中进行预测,得到所述唤醒语音数据中存在的若干个唤醒词音素,并实时将各所述唤醒词音素按照预测时间顺序进行组合,得到预测音素序列,其中,所述语音唤醒模型为权利要求1或2所述的语音唤醒模型的训练方法训练所得的模型;判断模块,用于判断所述预测音素序列与唤醒词音素序列之间的相似度是否大于相似度阈值;判定模块,用于若所述预测音素序列与唤醒词音素序列之间的相似度大于相似度阈值,则判定检测到唤醒词。9.一种计算机设备,包括存储器和处理器,所述存储器中存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至5中任一项所述方法的步骤。10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至5中任一项所述的方法的步骤。

技术总结
本申请提供了一种语音唤醒模型的训练方法、唤醒词的检测方法和相关设备,在进行模型训练时,通过使用统一的多标签交叉熵损失函数结合语音音素的形式,有效优化语音唤醒模型的训练。在进行唤醒词检测时,通过语音唤醒模型执行对音素的多标签分类,将唤醒语音数据中唤醒词是否存在的判断转为唤醒词音素是否存在的判断,实现从更细粒度去检测唤醒词,从而降低误唤醒率,提升模型稳定性。同时,根据唤醒语音数据存在的唤醒词音素组合得到语音音素序列,从而不需要对语音唤醒模型的输出进行解码,将音素序列识别转为序列中的音素是否存在的判断,极大简化了语音唤醒模型输出的后处理形式,有效降低数据运算量以及对终端设备的性能要求。能要求。能要求。


技术研发人员:徐泓洋 王广新 杨汉丹
受保护的技术使用者:深圳市友杰智新科技有限公司
技术研发日:2021.12.23
技术公布日:2022/1/21
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献