一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

语音识别方法、装置和非易失性计算机可读存储介质与流程

2021-10-19 21:05:00 来源:中国专利 TAG:语音识别 计算机 装置 可读 特别

技术特征:
1.一种语音识别方法,包括:对视频流中各帧图像进行人体识别,确定各帧图像中语音发出方的生理特征;根据不同的语音发出方的生理特征,确定所述不同的语音发出方对应的语音识别模型;利用所述不同的语音发出方对应的语音识别模型,识别所述不同的语音发出方的语音,确定语音识别结果。2.根据权利要求1所述的语音识别方法,其中,所述确定所述不同的语音发出方对应的语音识别模型包括:根据各帧图像对应的生理特征,确定各帧图像对应的唇形识别模型;所述确定语音识别结果包括:根据各帧图像对应的唇形识别模型对各帧图像的处理结果,确定所述语音识别结果。3.根据权利要求2所述的语音识别方法,其中:所述确定所述不同的语音发出方对应的语音识别模型包括:根据所述视频流的时间轴信息,将所述视频流中的各帧图像与所述视频流对应的音频流中的各帧语音进行关联;根据关联结果,确定与各帧语音对应的语音处理模型;所述确定语音识别结果包括:根据各帧语音对应的语音处理模型对各帧语音的处理结果,确定所述语音识别结果。4.根据权利要求3所述的语音识别方法,其中,所述确定语音识别结果包括:根据各帧图像对应的唇形识别模型对各帧图像的处理结果,确定第一语音识别结果;根据各帧语音对应的语音处理模型对各帧语音的处理结果,确定第二语音识别结果;根据所述第一语音识别结果和所述第二语音识别结果的加权平均值,确定综合语音识别结果作为所述语音识别结果。5.根据权利要求1所述的语音识别方法,还包括:对所述视频流进行图像场景识别,确定所述视频流的场景类型;根据所述场景类型,确定与所述场景类型相匹配的降噪处理模型;利用所述降噪处理模型对所述视频流对应的音频流进行降噪处理;其中,所述确定语音识别结果包括:利用不同的语音识别模型对降噪后的音频流进行处理,以确定所述语音识别结果。6.根据权利要求5所述的语音识别方法,其中,所述场景类型包括户外场景、户内场景、多发声源场景中的多项,所述降噪处理模型包括匹配户外场景的循环神经网络户外降噪模型、匹配户内场景的循环神经网络户内降噪模型、匹配多发声源场景的人声增强与提取算法模型中的多项。7.根据权利要求1

6任一项所述的语音识别方法,其中,所述生理特征包括性别特征、年龄特征中的至少一项。8.一种语音识别装置,包括:特征确定单元,用于对视频流中各帧图像进行人体识别,确定各帧图像中语音发出方的生理特征;模型确定单元,用于根据不同的语音发出方的生理特征,确定所述不同的语音发出方
对应的语音识别模型;识别单元,用于利用所述不同的语音发出方对应的语音识别模型,识别所述不同的语音发出方的语音,确定语音识别结果。9.根据权利要求8所述的语音识别装置,其中,所述模型确定单元根据各帧图像对应的生理特征,确定各帧图像对应的唇形识别模型;所述识别单元根据各帧图像对应的唇形识别模型对各帧图像的处理结果,确定所述语音识别结果。10.根据权利要求9所述的语音识别装置,其中,所述模型确定单元根据所述视频流的时间轴信息,将所述视频流中的各帧图像与所述视频流对应的音频流中的各帧语音进行关联,根据关联结果,确定与各帧语音对应的语音处理模型;所述识别单元根据各帧语音对应的语音处理模型对各帧语音的处理结果,确定所述语音识别结果。11.根据权利要求10所述的语音识别装置,其中,所述识别单元根据各帧图像对应的唇形识别模型对各帧图像的处理结果,确定第一语音识别结果,根据各帧语音对应的语音处理模型对各帧语音的处理结果,确定第二语音识别结果,根据所述第一语音识别结果和所述第二语音识别结果的加权平均值,确定综合语音识别结果作为所述语音识别结果。12.根据权利要求8所述的语音识别装置,其中,所述特征确定单元对所述视频流进行图像场景识别,确定所述视频流的场景类型;所述模型确定单元根据所述场景类型,确定与所述场景类型相匹配的降噪处理模型;利用所述降噪处理模型对所述视频流对应的音频流进行降噪处理;所述识别单元利用不同的语音识别模型对降噪后的音频流进行处理,以确定所述语音识别结果。13.一种语音识别装置,包括:存储器;和耦接至所述存储器的处理器,所述处理器被配置为基于存储在所述存储器中的指令,执行权利要求1

7任一项所述的语音识别方法。14.一种非易失性计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现权利要求1

7任一项所述的语音识别方法。

技术总结
本公开涉及一种语音识别方法、装置和非易失性计算机可读存储介质,涉及计算机技术领域。该语音识别方法包括:对视频流中各帧图像进行人体识别,确定各帧图像中语音发出方的生理特征;根据不同的语音发出方的生理特征,确定不同的语音发出方对应的语音识别模型;利用不同的语音发出方对应的语音识别模型,识别不同的语音发出方的语音,确定语音识别结果。确定语音识别结果。确定语音识别结果。


技术研发人员:闫辉
受保护的技术使用者:北京易真学思教育科技有限公司
技术研发日:2021.09.13
技术公布日:2021/10/18
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文章

  • 日榜
  • 周榜
  • 月榜