一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

非指令语音的拒识方法、车载语音识别系统及汽车与流程

2022-11-13 13:01:16 来源:中国专利 TAG:

技术特征:
1.一种非指令语音的拒识方法,其特征在于,包括:将输入音频数据进行特征提取得到语音特征向量;将所述语音特征向量输入语音增强系统,得到拒识特征向量、置信度、意图信息以及文本信息;基于所述拒识特征向量、所述置信度、所述意图信息以及所述文本信息,得到多模态融合特征向量;将所述多模态融合特征向量进行拒识判断,得到识别结果。2.根据权利要求1所述的非指令语音的拒识方法,其特征在于:所述语音增强系统包括语音增强模型、意图理解模型以及文本编码模型;所述将所述语音特征向量输入语音增强系统,得到拒识特征向量、置信度、意图信息以及文本信息,包括:将所述语音特征向量输入已训练的语音增强模型,得到拒识特征向量、置信度以及识别结果文本;将所述识别结果文本输入已训练的意图理解模型,得到意图信息;将所述识别结果文本输入已训练的文本编码模型,得到文本信息。3.根据权利要求1所述的非指令语音的拒识方法,其特征在于:所述基于所述拒识特征向量、所述置信度、所述意图信息以及所述文本信息,得到多模态融合特征向量包括:基于所述拒识特征向量、所述置信度、所述意图信息、所述文本信息以及车内信息,得到多模态融合特征向量。4.根据权利要求2所述的非指令语音的拒识方法,其特征在于:所述语音增强模型包括语音编码器与语音解码器;所述将所述语音特征向量输入已训练的语音增强模型,得到拒识特征向量、置信度以及识别结果文本,包括:将所述语音特征向量输入语音编码器,得到拒识特征向量;将所述拒识特征向量输入语音解码器,得到置信度以及识别结果文本。5.根据权利要求4所述的非指令语音的拒识方法,其特征在于,所述语音编码器由m层conv1d网络构成,所述文本编码模型由n层conv1d网络以及y层lstm网络构成,其中m、n、y均为自然数。6.根据权利要求1所述的非指令语音的拒识方法,其特征在于,所述基于所述拒识特征向量、所述置信度、所述意图信息、所述文本信息以及车内信息,得到多模态融合特征向量,包括:将所述拒识特征向量、所述置信度、所述意图信息、所述文本信息以及车内信息进行融合,得到模型集合特征向量;将模型集合特征向量通过已训练的注意力机制模型,得到多模态融合特征向量。7.根据权利要求1-6中任意一项所述的非指令语音的拒识方法,其特征在于,所述车内信息包括车辆状态和/或所述音频数据源的音区方位。8.一种电子设备,包括处理器和存储装置,所述存储装置适于存储多条程序代码,其特征在于,所述程序代码适于由所述处理器加载并运行以执行权利要求1至7中任一项所述的非指令语音的拒识方法。
9.一种车载语音识别系统,其特征在于,包括:根据权利要求8所述的电子设备;语音采集装置,用于采集音频数据。10.一种汽车,其特征在于,包括根据权利要求9所述的车载语音识别系统。

技术总结
本发明涉及一种非指令语音的拒识方法、车载语音识别系统及汽车,其中的非指令语音的拒识方法,包括:将输入音频数据进行特征提取得到语音特征向量;将所述语音特征向量输入语音增强系统,得到拒识特征向量、置信度、意图信息以及文本信息;基于所述拒识特征向量、所述置信度、所述意图信息以及所述文本信息,得到多模态融合特征向量;将所述多模态融合特征向量进行拒识判断,得到识别结果。通过多模态融合的方法将多种信息进行融合,使得在语音判断的时候从多种维度综合考虑,结合拒识特征向量、置信度、意图信息以及文本信息,提升了指令语音判断的准确性。音判断的准确性。音判断的准确性。


技术研发人员:徐高鹏
受保护的技术使用者:蔚来汽车科技(安徽)有限公司
技术研发日:2022.08.01
技术公布日:2022/11/11
再多了解一些

本文用于创业者技术爱好者查询,仅供学习研究,如用于商业用途,请联系技术所有人。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献