一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种语音识别方法、装置、设备及存储介质与流程

2021-07-16 16:13:00 来源:中国专利 TAG:语音 装置 语音识别 申请 方法

技术特征:
1.一种语音识别方法,其特征在于,所述方法包括:获取至少两个用户在同一场景中发言的语音信息,以及所述场景中包含所述用户的视频图像;基于所述语音信息的音频特征,从所述语音信息中获取只包含一个用户声音的至少一段子语音信息;基于所述至少一段子语音信息的起止时间段,确定所述视频图像中的至少一段子视频图像;基于所述至少一段子视频图像和所述至少一段子语音信息,确定目标用户发出的语音信息。2.根据权利要求1所述的方法,其特征在于,所述基于所述至少一段子视频图像和所述至少一段子语音信息,确定目标用户发出的语音信息,包括:从所述至少一段子语音信息中获取第一子语音信息,以及获取所述第一子语音信息对应的第一起止时间段;其中,所述第一子语音信息为所述至少一段子语音信息中的任意一段子语音信息;从所述至少一段子视频图像中确定所述第一起止时间段对应的第一子视频图像;基于所述第一子视频图像中的用户唇部特征,确定所述第一子视频图像中执行讲话动作的目标用户;确定所述第一子语音信息为所述目标用户发出的语音信息。3.根据权利要求2所述的方法,其特征在于,所述基于所述第一子视频图像中的用户唇部特征,确定所述第一子视频图像中执行讲话动作的目标用户,包括:识别所述第一子视频图像中的至少一个用户唇部的变化特征;将所述至少一个用户唇部的变化特征与用户讲话时的唇部标准特征进行匹配,确定匹配成功的唇部;将匹配成功的唇部对应的用户作为所述目标用户。4.根据权利要求2所述的方法,其特征在于,所述确定目标用户发出的语音信息还包括:对所述第一子语音信息进行特征提取,获取所述第一子语音信息的音频特征;从所述语音信息中确定音频特征与所述第一子语音信息的音频特征匹配的第二子语音信息;将所述第二子语音信息作为所述目标用户发出的语音信息。5.根据权利要求4所述的方法,其特征在于,所述从所述语音信息中确定音频特征与所述第一子语音信息的音频特征匹配的第二子语音信息,包括:将所述语音信息中的其他子语音信息的音频特征与所述第一子语音信息的音频特征进行匹配,确定匹配成功的第二子语音信息;其中,所述其他子语音信息为所述语音信息中除所述至少一段子语音信息之外的语音信息。6.根据权利要求1所述的方法,其特征在于,所述基于所述至少一段子语音信息的起止时间段,确定所述视频图像中的至少一段子视频图像,包括:基于所述至少一段子语音信息的起止时间段,确定每一个起止时间段在所述视频图像
中对应的子视频图像。7.根据权利要求1所述的方法,其特征在于,所述方法还包括:根据所述目标用户发出的语音信息识别对应的文本信息;保存所述目标用户对应的文本信息。8.一种语音识别装置,其特征在于,所述装置包括:获取单元,用于获取至少两个用户在同一场景中发言的语音信息,以及所述场景中包含所述用户的视频图像;处理单元,用于基于所述语音信息的音频特征,从所述语音信息中获取只包含一个用户声音的至少一段子语音信息;基于所述至少一段子语音信息的起止时间段,确定所述视频图像中的至少一段子视频图像;所述处理单元,还用于基于所述至少一段子视频图像和所述至少一段子语音信息,确定目标用户发出的语音信息。9.一种语音识别设备,其特征在于,所述设备包括:处理器和配置为存储能够在处理器上运行的计算机程序的存储器,其中,所述处理器配置为运行所述计算机程序时,执行权利要求1至7任一项所述方法的步骤。10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现权利要求1至7任一项所述的方法的步骤。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文章

  • 日榜
  • 周榜
  • 月榜