一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

数据清洗方法、装置及存储介质与流程

2022-06-11 09:07:25 来源:中国专利 TAG:

技术特征:
1.一种数据清洗方法,其特征在于,包括:获取用于唤醒目标设备的语音样本数据,以及当前语音唤醒模型输出的所述语音样本数据对应的唤醒结果信息,其中,所述唤醒结果信息用于表征所述目标设备是否被唤醒;确定所述语音样本数据与用于唤醒所述目标设备的标准语音唤醒数据之间的差异信息;根据所述唤醒结果信息和所述差异信息,对所述语音样本数据进行清洗,以确定所述语音样本数据的分类标签。2.根据权利要求1所述的方法,其特征在于,所述确定所述语音样本数据与用于唤醒所述目标设备的标准语音唤醒数据之间的差异信息,包括:对所述语音样本数据进行音素解码处理,得到所述语音样本数据的样本音素序列;确定所述样本音素序列与所述标准语音唤醒数据的标注音素序列之间的音错率,并将所述音错率作为所述差异信息。3.根据权利要求2所述的方法,其特征在于,所述确定所述样本音素序列与所述标准语音唤醒数据的标注音素序列之间的音错率,包括:根据所述样本音素序列与所述标注音素序列之间的距离信息、以及所述标注音素序列的序列长度,确定所述音错率。4.根据权利要求2所述的方法,其特征在于,所述确定所述样本音素序列与所述标准语音唤醒数据的标注音素序列之间的音错率,包括:对所述样本音素序列进行音调融合处理,得到第一融合信息;对所述标注音素序列进行音调融合处理,得到第二融合信息;根据所述第一融合信息与所述第二融合信息之间的距离信息、以及所述标注音素序列的序列长度,确定所述音错率。5.根据权利要求1所述的方法,其特征在于,所述根据所述唤醒结果信息和所述差异信息,对所述语音样本数据进行清洗,以确定所述语音样本数据的分类标签,包括:在所述唤醒结果信息表征所述目标设备被唤醒的情况下,若所述差异信息小于或等于第一指定阈值,则确定所述语音样本数据为正样本,若所述差异信息大于或等于第二指定阈值,则确定所述语音样本数据为负样本,其中,所述第一指定阈值小于所述第二指定阈值。6.根据权利要求1所述的方法,其特征在于,所述根据所述唤醒结果信息和所述差异信息,对所述语音样本数据进行清洗,以确定所述语音样本数据的分类标签,包括:在所述唤醒结果信息表征所述目标设备未被唤醒的情况下,若所述差异信息小于或等于第三指定阈值,则确定所述语音样本数据为正样本,若所述差异信息大于所述第三指定阈值,则确定所述语音样本数据为负样本。7.根据权利要求1-6中任一项所述的方法,其特征在于,所述方法还包括:根据所述语音样本数据和所述分类标签,对所述当前语音唤醒模型进行更新。8.一种数据清洗装置,其特征在于,包括:获取模块,用于获取用于唤醒目标设备的语音样本数据,以及当前语音唤醒模型输出的所述语音样本数据对应的唤醒结果信息,其中,所述唤醒结果信息用于表征所述目标设备是否被唤醒;
确定模块,用于确定所述语音样本数据与用于唤醒所述目标设备的标准语音唤醒数据之间的差异信息;清洗模块,用于根据所述唤醒结果信息和所述差异信息,对所述语音样本数据进行清洗,以确定所述语音样本数据的分类标签。9.一种数据清洗装置,其特征在于,包括:处理器;用于存储处理器可执行指令的存储器;其中,所述处理器被配置为:执行权利要求1~7中任一项所述方法的步骤。10.一种计算机可读存储介质,其上存储有计算机程序指令,其特征在于,该程序指令被处理器执行时实现权利要求1~7中任一项所述方法的步骤。

技术总结
本公开涉及一种数据清洗方法、装置及存储介质,该方法包括:获取用于唤醒目标设备的语音样本数据,以及当前语音唤醒模型输出的语音样本数据对应的唤醒结果信息,唤醒结果信息用于表征目标设备是否被唤醒;确定语音样本数据与用于唤醒目标设备的标准语音唤醒数据之间的差异信息;根据唤醒结果信息和差异信息,对语音样本数据进行清洗,以确定语音样本数据的分类标签。通过上述技术方案,根据唤醒结果信息和差异信息对语音样本数据进行清洗,这样确定的语音样本数据的分类标签,相比于当前语音唤醒模型输出的唤醒结果更加准确,提高语音样本数据的标签的准确性,且无需人工对语音样本数据的标签进行标注,避免人工处理费时费力和准确度不高的问题。准确度不高的问题。准确度不高的问题。


技术研发人员:王伟
受保护的技术使用者:北京小米移动软件有限公司
技术研发日:2022.03.22
技术公布日:2022/6/10
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献