一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

语音识别模型的获取方法、装置、电子设备以及存储介质与流程

2022-02-19 10:14:20 来源:中国专利 TAG:

技术特征:
1.一种语音识别模型的获取方法,包括:获取多组标签数据,其中,所述多组标签数据中的每组数据包括:样本对象的音频样本数据,以及对所述音频样本数据进行特征向量提取处理得到的样本对象集合,所述音频样本数据中包含多个所述样本对象的对话内容;使用多组标签数据通过机器学习训练神经网络模型,得到语音识别模型。2.根据权利要求1所述的方法,其中,所述方法还包括:采用多层时延神经网络对所述音频样本数据进行特征向量提取处理,并经过多次训练迭代,提取得到所述样本对象的第一特征向量;选取预设数量的所述第一特征向量;依据被选取的第一特征向量生成所述样本对象集合。3.根据权利要求1所述的方法,其中,通过如下方式训练得到所述语音识别模型:采用所述神经网络模型中的对象特征编码器,提取所述音频样本数据中的多个第二特征向量;采用内容特征编码器提取所述音频样本数据中的多个第三特征向量;基于所述第二特征向量和所述第三特征向量,对所述神经网络模型进行训练得到所述语音识别模型。4.根据权利要求3所述的方法,其中,所述采用所述神经网络模型中的对象特征编码器,提取所述音频样本数据中的多个第二特征向量包括:对所述神经网络模型中的所述音频样本数据进行分帧处理,得到多个音频帧;提取多个所述音频帧中的每个音频帧的正态分布特征,其中,所述正态分布特征包括:静态特征,一阶差分特征,二阶差分特征;将多个所述音频帧的正态分布特征输入至所述对象特征编码器,得到多个所述第二特征向量。5.根据权利要求3所述的方法,其中,所述基于所述第二特征向量和所述第三特征向量,对所述神经网络模型进行训练得到所述语音识别模型,包括:采用所述神经网络模型中的注意力模块计算每个所述第二特征向量对应的第一重要性系数,以及每个所述第三特征向量对应的第二重要性系数;基于所述第二特征向量和所述第一重要性系数计算得到第四特征向量,基于所述第三特征向量以及所述第二重要性系数计算得到第五特征向量;基于所述第四特征向量和所述第五特征向量,对所述神经网络模型进行训练得到所述语音识别模型。6.根据权利要求5所述的方法,其中,所述方法还包括:采用所述神经网络模型中的目标查询模型对第一解码文本和所述第四特征向量进行处理,得到所述样本对象的第六特征向量;采用所述注意力模块计算所述第六特征向量与所述样本对象集合中多个样本对象之间的相关程度值;基于所述相关程度值确定所述样本对象集合的第七特征向量。7.根据权利要求6所述的方法,其中,所述基于所述第四特征向量和所述第五特征向量,对所述神经网络模型进行训练得到所述语音识别模型,包括:
获取所述神经网络模型中的语义解码器对第一解码文本进行处理,输出的第八特征向量;采用所述神经网络模型中的内容解码器,对所述第五特征向量、所述第七特征向量和所述第八特征向量进行解码处理,得到第二解码文本,其中,所述第二解码文本为在所述第一解码文本下一时刻的解码文本;采用最小分类误差算法计算所述第一解码文本与所述第二解码文本之间的交叉熵损失,以更新所述神经网络模型的网络参数,得到所述语音识别模型。8.一种语音识别方法,其特征在于,包括:获取待识别音频数据,其中,所述待识别音频数据中包含多个目标对象的对话内容;将所述待识别音频数据输入至语音识别模型,其中,所述语音识别模型为使用多组标签数据通过机器学习训练神经网络模型得到,所述多组标签数据中的每组数据包括:样本对象的音频样本数据,以及对所述音频样本数据进行特征向量提取处理得到的样本对象集合;接收所述语音识别模型返回的语音识别处理结果,其中,所述语音识别处理结果区分了每个所述目标对象的音频内容,以及与所述音频内容对应的文字信息。9.根据权利要求8所述的方法,其中,所述获取待识别音频数据包括:获取初始音频数据;对所述初始音频数据进行预处理,得到所述待识别音频数据,其中,所述预处理包括以下至少之一:去除静音、数据增强、改变音频速率、时间弯折、频率掩盖、文本语料处理。10.一种语音识别模型的获取装置,包括:获取单元,用于获取多组标签数据,其中,所述多组标签数据中的每组数据包括:样本对象的音频样本数据,以及对所述音频样本数据进行特征向量提取处理得到的样本对象集合,所述音频样本数据中包含多个所述样本对象的对话内容;训练单元,用于使用多组标签数据通过机器学习训练神经网络模型,得到语音识别模型。11.一种语音识别装置,包括:获取模块,用于获取待识别音频数据,其中,所述待识别音频数据中包含多个目标对象的对话内容;传输模块,用于将所述待识别音频数据输入至语音识别模型,其中,所述语音识别模型为使用多组标签数据通过机器学习训练神经网络模型得到,所述多组标签数据中的每组数据包括:样本对象的音频样本数据,以及对所述音频样本数据进行特征向量提取处理得到的样本对象集合;接收模块,用于接收所述语音识别模型返回的语音识别处理结果,其中,所述语音识别处理结果区分了每个所述目标对象的音频内容,以及与所述音频内容对应的文字信息。12.一种电子设备,包括:至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1

7中任一项所述的语音识别模型
的获取方法,或者权利要求8或9所述的语音识别方法。13.一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行根据权利要求1

7中任一项所述的语音识别模型的获取方法,或者权利要求8或9所述的语音识别方法。14.一种计算机程序产品,包括计算机程序,其中,所述计算机程序在被处理器执行时实现根据权利要求1

7中任一项所述的语音识别模型的获取方法,或者权利要求8或9所述的语音识别方法。

技术总结
本公开提供了一种语音识别模型的获取方法、装置、电子设备以及存储介质,涉及自然语音理解、语音技术、智能客服、语音转写领域。具体实现方案为:获取多组标签数据,其中,上述多组标签数据中的每组数据包括:样本对象的音频样本数据,以及对上述音频样本数据进行特征向量提取处理得到的样本对象集合,上述音频样本数据中包含多个上述样本对象的对话内容;使用多组标签数据通过机器学习训练神经网络模型,得到语音识别模型。本公开解决了相关技术中的语音识别模型存在语音识别效果差的技术问题。音识别模型存在语音识别效果差的技术问题。音识别模型存在语音识别效果差的技术问题。


技术研发人员:赵情恩
受保护的技术使用者:北京百度网讯科技有限公司
技术研发日:2021.09.29
技术公布日:2022/1/4
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献