非指令语音的拒识方法、车载语音识别系统及汽车与流程

2022-11-13 13:01:16 来源：中国专利 TAG：

技术特征：
1.一种非指令语音的拒识方法，其特征在于，包括：将输入音频数据进行特征提取得到语音特征向量；将所述语音特征向量输入语音增强系统，得到拒识特征向量、置信度、意图信息以及文本信息；基于所述拒识特征向量、所述置信度、所述意图信息以及所述文本信息，得到多模态融合特征向量；将所述多模态融合特征向量进行拒识判断，得到识别结果。2.根据权利要求1所述的非指令语音的拒识方法，其特征在于：所述语音增强系统包括语音增强模型、意图理解模型以及文本编码模型；所述将所述语音特征向量输入语音增强系统，得到拒识特征向量、置信度、意图信息以及文本信息，包括：将所述语音特征向量输入已训练的语音增强模型，得到拒识特征向量、置信度以及识别结果文本；将所述识别结果文本输入已训练的意图理解模型，得到意图信息；将所述识别结果文本输入已训练的文本编码模型，得到文本信息。3.根据权利要求1所述的非指令语音的拒识方法，其特征在于：所述基于所述拒识特征向量、所述置信度、所述意图信息以及所述文本信息，得到多模态融合特征向量包括：基于所述拒识特征向量、所述置信度、所述意图信息、所述文本信息以及车内信息，得到多模态融合特征向量。4.根据权利要求2所述的非指令语音的拒识方法，其特征在于：所述语音增强模型包括语音编码器与语音解码器；所述将所述语音特征向量输入已训练的语音增强模型，得到拒识特征向量、置信度以及识别结果文本，包括：将所述语音特征向量输入语音编码器，得到拒识特征向量；将所述拒识特征向量输入语音解码器，得到置信度以及识别结果文本。5.根据权利要求4所述的非指令语音的拒识方法，其特征在于，所述语音编码器由m层conv1d网络构成，所述文本编码模型由n层conv1d网络以及y层lstm网络构成，其中m、n、y均为自然数。6.根据权利要求1所述的非指令语音的拒识方法，其特征在于，所述基于所述拒识特征向量、所述置信度、所述意图信息、所述文本信息以及车内信息，得到多模态融合特征向量，包括：将所述拒识特征向量、所述置信度、所述意图信息、所述文本信息以及车内信息进行融合，得到模型集合特征向量；将模型集合特征向量通过已训练的注意力机制模型，得到多模态融合特征向量。7.根据权利要求1-6中任意一项所述的非指令语音的拒识方法，其特征在于，所述车内信息包括车辆状态和/或所述音频数据源的音区方位。8.一种电子设备，包括处理器和存储装置，所述存储装置适于存储多条程序代码，其特征在于，所述程序代码适于由所述处理器加载并运行以执行权利要求1至7中任一项所述的非指令语音的拒识方法。
9.一种车载语音识别系统，其特征在于，包括：根据权利要求8所述的电子设备；语音采集装置，用于采集音频数据。10.一种汽车，其特征在于，包括根据权利要求9所述的车载语音识别系统。

技术总结
本发明涉及一种非指令语音的拒识方法、车载语音识别系统及汽车，其中的非指令语音的拒识方法，包括：将输入音频数据进行特征提取得到语音特征向量；将所述语音特征向量输入语音增强系统，得到拒识特征向量、置信度、意图信息以及文本信息；基于所述拒识特征向量、所述置信度、所述意图信息以及所述文本信息，得到多模态融合特征向量；将所述多模态融合特征向量进行拒识判断，得到识别结果。通过多模态融合的方法将多种信息进行融合，使得在语音判断的时候从多种维度综合考虑，结合拒识特征向量、置信度、意图信息以及文本信息，提升了指令语音判断的准确性。音判断的准确性。音判断的准确性。

技术研发人员：徐高鹏
受保护的技术使用者：蔚来汽车科技（安徽）有限公司
技术研发日：2022.08.01
技术公布日：2022/11/11

再多了解一些

2/2 首页上一页 1 2

本文用于创业者技术爱好者查询，仅供学习研究，如用于商业用途，请联系技术所有人。

上一篇：返回列表
下一篇：信息生成方法、装置、设备、介质与流程

非指令语音的拒识方法、车载语音识别系统及汽车与流程

相关文献

最热文献