一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种语音识别的方法及装置、电子设备、存储介质与流程

2022-03-05 00:16:55 来源:中国专利 TAG:

技术特征:
1.一种语音识别的方法,其特征在于,包括:获取目标设备采集到的当前语音;提取所述当前语音的语音特征;基于所述当前语音的语音特征和预先确定的各个说话人类别对应的平均特征向量,计算得到所述当前语音属于各个所述说话人类别的评分;其中,各个所述说话人类别为基于降维后的多个历史语音的语音特征,对各个所述历史语音进行聚类得到的类别;每个所述说话人类别对应的平均特征向量由属于所述说话人类别的所述历史语音的语音特征进行计算得到;将各个所述评分中的最大值对应的所述说话人类别,确定为所述当前语音所属的说话人类别。2.根据权利要求1所述的方法,其特征在于,所述提取所述当前语音的语音特征,包括:利用预先训练好的特征提取器提取所述当前语音的语音特征;其中,所述特征提取器预先利用属于目标设备类型的设备采集到的多个样本语音训练得到;所述目标设备类型为所述目标设备所属的设备类型。3.根据权利要求1或2所述的方法,其特征在于,所述基于所述当前语音的语音特征和预先确定的各个说话人类别对应的平均特征向量,计算得到所述当前语音属于各个所述说话人类别的评分,包括:将所述当前语音的语音特征分别和每个所述说话人类别对应的平均特征向量输入预先训练好的判别器中,得到所述当前语音属于各个所述说话人类别的评分;其中,所述判别器预先利用多个样本语音训练得到。4.根据权利要求1-3任一项所述的方法,其特征在于,各个所述说话人类别对应的平均特征向量的确定方法,包括:获取目标设备采集到的多个所述历史语音;提取各个所述历史语音的语音特征,得到多个原始语音特征;对各个所述原始语音特征进行降维处理,得到降维语音特征;对各个所述降维语音特征进行聚类,得到多个所述说话人类别;分别针对每个所述说话人类别,计算所述说话人类别中的多个所述历史语音对应的所述原始语音特征的均值,得到所述说话人类别对应的平均特征向量。5.根据权利要求4所述的方法,其特征在于,所述分别针对每个所述说话人类别,计算所述说话人类别中的多个所述历史语音对应的所述原始语音特征的均值,得到所述说话人类别对应的平均特征向量,包括:针对每个所述说话人类别,从属于所述说话人类别的各个所述历史语音中,选取出与所述说话人类别中的聚类中心的距离排序在前m位的所述历史语音;其中,与聚类中心的距离越近排序位置越靠前;计算选取出的各个所述历史语音对应的所述原始语音特征的均值,得到所述说话人类别对应的平均特征向量。6.根据权利要求1-5任一项所述的方法,其特征在于,所述将各个所述评分中的最大值对应的所述说话人类别,确定为所述当前语音所属的说话人类别之前,还包括:判断各个所述评分中的最大值是否大于预设阈值;
其中,若判断出各个所述评分中的最大值大于预设阈值,则执行所述将各个所述评分中的最大值对应的所述说话人类别,确定为所述当前语音所属的说话人类别;若判断出各个所述评分中的最大值不大于预设阈值,则反馈所述当前语音不属于任意一个所述说话人类别。7.根据权利要求1-5任一项所述的方法,其特征在于,所述将各个所述评分中的最大值对应的所述说话人类别,确定为所述当前语音所属的说话人类别之后,还包括:确定出所述当前语音所属的说话人类别对应目标真实身份;基于所述目标真实身份对应的控制策略以及所述当前语音对应的控制指令,对所述目标设备进行控制。8.一种语音识别的装置,其特征在于,包括:第一获取单元,用于获取目标设备采集到的当前语音;第一提取单元,用于提取所述当前语音的语音特征;评分单元,用于基于所述当前语音的语音特征和预先确定的各个说话人类别对应的平均特征向量,计算得到所述当前语音属于各个所述说话人类别的评分;其中,各个所述说话人类别为基于降维后的多个历史语音的语音特征,对各个所述历史语音进行聚类得到的类别;每个所述说话人类别对应的平均特征向量由属于所述说话人类别的所述历史语音的语音特征进行计算得到;第一身份确定单元,用于将各个所述评分中的最大值对应的所述说话人类别,确定为所述当前语音所属的说话人类别。9.一种电子设备,其特征在于,包括:存储器和处理器;其中,所述存储器用于存储程序;所述处理器用于执行所述程序,所述程序被执行时,具体用于实现如权利要求1至7任意一项所述的语音识别的方法。10.一种计算机存储介质,其特征在于,用于存储计算机程序,所述计算机程序被执行时,用于实现如权利要求1至7任意一项所述的语音识别的方法。

技术总结
本申请公开了一种语音识别的方法及装置、电子设备、存储介质,其中,所述方法包括:获取目标设备采集到的当前语音;提取所述当前语音的语音特征;基于所述当前语音的语音特征和预先确定的各个说话人类别对应的平均特征向量,计算得到所述当前语音属于各个所述说话人类别的评分;其中,各个所述说话人类别为基于降维后的多个历史语音的语音特征,对各个所述历史语音进行聚类得到的类别;每个所述说话人类别对应的平均特征向量由属于所述说话人类别的所述历史语音的语音特征进行计算得到;将各个所述评分中的最大值对应的所述说话人类别,确定为所述当前语音所属的说话人类别。确定为所述当前语音所属的说话人类别。确定为所述当前语音所属的说话人类别。


技术研发人员:刘建国 栾天祥 赵培 王迪
受保护的技术使用者:海尔智家股份有限公司
技术研发日:2021.12.14
技术公布日:2022/3/3
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献