语音交互方法、装置、电子设备和存储介质与流程

2022-06-01 02:46:44 来源：中国专利 TAG：

技术特征：
1.一种语音交互方法，包括：基于用户的第一语音数据确定第一语音指令；获取所述第一语音数据对应的第一图像数据；基于所述第一语音数据和所述第一图像数据，确定所述第一语音指令的类型；响应于确定出所述第一语音指令的类型为有效，根据所述第一语音指令执行所述第一语音指令对应的操作。2.根据权利要求1所述的方法，其中，所述基于所述第一语音数据和所述第一图像数据，确定所述第一语音指令的类型，包括：基于所述第一语音数据和所述第一图像数据，确定所述第一图像数据中所述用户的唇部动作与所述第一语音数据中所述用户的语音的同步情况；基于所述同步情况，确定所述第一语音指令的类型。3.根据权利要求2所述的方法，其中，所述基于所述同步情况，确定所述第一语音指令的类型，包括：基于所述第一图像数据，识别所述用户的第一状态；响应于识别出所述用户的第一状态为打电话状态，确定所述第一语音指令的类型为无效；响应于识别出所述用户的第一状态为非打电话状态，确定所述第一语音指令的类型为有效。4.根据权利要求1所述的方法，其中，所述基于所述第一语音数据和所述第一图像数据，确定所述第一语音指令的类型，包括：基于所述第一语音数据和所述第一图像数据，确定所述用户的第二状态；响应于确定出所述用户的第二状态为与其他用户交谈状态，确定所述第一语音指令的类型为无效；响应于确定出所述用户的第二状态为未与其他用户交谈状态，确定所述第一语音指令的类型为有效。5.根据权利要求4所述的方法，其中，所述基于所述第一语音数据和所述第一图像数据，确定所述用户的第二状态，包括：基于预先训练获得的多模态语音端点检测模型对所述第一语音数据和所述第一图像数据进行检测，获得第一检测结果，所述第一检测结果包括各用户的语音活动分类结果；根据所述第一检测结果，确定所述用户的第二状态。6.根据权利要求1所述的方法，其中，在基于所述第一语音数据和所述第一图像数据，确定所述第一语音指令的类型之前，所述方法还包括：获取所述第一语音数据对应的目标音区；基于所述第一图像数据，识别所述目标音区的用户；所述基于所述第一语音数据和所述第一图像数据，确定所述第一语音指令的类型，包括：响应于识别出所述目标音区存在用户，基于所述第一语音数据和所述第一图像数据，确定所述第一语音指令的类型。7.根据权利要求2所述的方法，其中，在所述基于所述第一语音数据和所述第一图像数
据，确定所述第一图像数据中所述用户的唇部动作与所述第一语音数据中所述用户的语音的同步情况之前，所述方法还包括：基于所述第一图像数据检测所述用户的唇部遮挡状态；所述基于所述第一语音数据和所述第一图像数据，确定所述第一图像数据中所述用户的唇部动作与所述第一语音数据中所述用户的语音的同步情况，包括：响应于检测出所述用户的唇部遮挡状态为未遮挡，基于所述第一语音数据和所述第一图像数据，确定所述第一图像数据中所述用户的唇部动作与所述第一语音数据中所述用户的语音的同步情况。8.根据权利要求2所述的方法，其中，所述基于所述第一语音数据和所述第一图像数据，确定所述第一图像数据中所述用户的唇部动作与所述第一语音数据中所述用户的语音的同步情况，包括：基于预先训练获得的唇音同步检测模型，对所述第一语音数据和所述第一图像数据进行同步检测，获得第二检测结果；所述第二检测结果包括同步的概率；基于所述第二检测结果，确定所述用户的唇部动作与所述用户的语音的同步情况。9.根据权利要求1所述的方法，其中，在获取所述第一语音数据对应的第一图像数据之前，所述方法还包括：基于第一预设规则，确定所述第一语音指令所属的预设指令；所述获取所述第一语音数据对应的第一图像数据，包括：响应于确定出所述第一语音指令属于目标预设指令，获取所述第一语音数据对应的第一图像数据。10.根据权利要求1-9任一所述的方法，其中，在获取所述第一语音数据对应的第一图像数据之前，所述方法还包括：基于第二预设规则，确定当前是否支持交互；所述获取所述第一语音数据对应的第一图像数据，包括：响应于当前支持交互，获取所述第一语音数据对应的第一图像数据。11.根据权利要求10所述的方法，其中，所述基于第二预设规则，确定当前是否支持交互，包括：基于所述第一语音指令对应的交互对象的当前状态，确定当前是否支持交互；或者，基于当前所处场景，确定当前是否支持交互。12.一种语音交互装置，包括：第一确定模块，用于基于用户的第一语音数据确定第一语音指令；第一获取模块，用于获取所述第一语音数据对应的第一图像数据；第一处理模块，用于基于所述第一语音数据和所述第一图像数据，确定所述第一语音指令的类型；第二处理模块，用于响应于确定出所述第一语音指令的类型为有效，根据所述第一语音指令执行所述第一语音指令对应的操作。13.一种计算机可读存储介质，所述存储介质存储有计算机程序，所述计算机程序用于执行上述权利要求1-11任一所述的语音交互方法。14.一种电子设备，所述电子设备包括：
处理器；用于存储所述处理器可执行指令的存储器；所述处理器，用于从所述存储器中读取所述可执行指令，并执行所述指令以实现上述权利要求1-11任一所述的语音交互方法。

技术总结
本公开实施例公开了一种语音交互方法、装置、电子设备和存储介质，其中，方法包括：基于用户的第一语音数据确定第一语音指令；获取所述第一语音数据对应的第一图像数据；基于所述第一语音数据和所述第一图像数据，确定所述第一语音指令的类型；响应于确定出所述第一语音指令的类型为有效，根据所述第一语音指令执行所述第一语音指令对应的操作。本公开实施例可以结合语音和视觉来识别用户的语音指令是否为有效的语音指令，从而有效提高语音交互的准确性，有效降低语音交互的误触发性，提高用户体验。体验。体验。

技术研发人员：宫一尘王子扬
受保护的技术使用者：深圳地平线机器人科技有限公司
技术研发日：2022.03.03
技术公布日：2022/5/30

再多了解一些

2/2 首页上一页 1 2

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

语音交互方法、装置、电子设备和存储介质与流程

相关文献

最热文献