一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

语音端点检测方法、装置、电子设备及存储介质与流程

2021-09-04 04:26:00 来源:中国专利 TAG:语音 人工智能 电子设备 深度 检测方法

技术特征:
1.一种语音端点检测方法,包括:获取时间对齐的语音数据及视频数据;利用训练得到的语音检测模型,对所述语音数据进行语音起点和语音尾点的第一检测;对所述视频数据进行唇动起点和唇动尾点的第二检测;利用第二检测结果对第一检测结果进行修正,将修正后的结果作为语音端点检测结果。2.根据权利要求1所述的方法,其中,所述对所述视频数据进行唇动起点和唇动尾点的第二检测包括:利用训练得到的唇动检测模型,对所述视频数据进行所述第二检测,得到视频中的人脸的唇动起点和唇动尾点。3.根据权利要求1所述的方法,其中,所述利用第二检测结果对第一检测结果进行修正包括:当语音检测状态为有语音状态且唇动检测状态为无唇动状态时,若检测到唇动起点,且符合预定的时间要求,则将检测到的唇动起点作为确定出的语音尾点以及新的语音起点;其中,所述有语音状态为检测到语音起点之后到检测到对应的语音尾点之前的时间所处的状态,所述无唇动状态为有唇动状态之外的时间所处的状态,所述有唇动状态为检测到唇动起点之后到检测到对应的唇动尾点之前的时间所处的状态。4.根据权利要求3所述的方法,其中,所述符合预定的时间要求包括:检测到唇动起点的时间与最近一次检测到语音起点的时间之间的差值大于预定阈值。5.根据权利要求1所述的方法,其中,所述利用第二检测结果对第一检测结果进行修正包括:当语音检测状态为有语音状态且唇动检测状态为有唇动状态时,若检测到唇动尾点,则将检测到的唇动尾点作为确定出的语音尾点以及新的语音起点;其中,所述有语音状态为检测到语音起点之后到检测到对应的语音尾点之前的时间所处的状态,所述有唇动状态为检测到唇动起点之后到检测到对应的唇动尾点之前的时间所处的状态。6.根据权利要求1~5中任一项所述的方法,还包括:若确定视频中的人脸的唇部未被遮挡,则对所述视频数据进行所述第二检测。7.一种语音端点检测装置,包括:获取模块、第一检测模块、第二检测模块以及修正模块;所述获取模块,用于获取时间对齐的语音数据及视频数据;所述第一检测模块,用于利用训练得到的语音检测模型,对所述语音数据进行语音起点和语音尾点的第一检测;所述第二检测模块,用于对所述视频数据进行唇动起点和唇动尾点的第二检测;所述修正模块,用于利用第二检测结果对第一检测结果进行修正,将修正后的结果作为语音端点检测结果。8.根据权利要求7所述的装置,其中,
所述第二检测模块利用训练得到的唇动检测模型对所述视频数据进行所述第二检测,得到视频中的人脸的唇动起点和唇动尾点。9.根据权利要求7所述的装置,其中,所述修正模块在语音检测状态为有语音状态且唇动检测状态为无唇动状态时,若检测到唇动起点,且符合预定的时间要求,则将检测到的唇动起点作为确定出的语音尾点以及新的语音起点;其中,所述有语音状态为检测到语音起点之后到检测到对应的语音尾点之前的时间所处的状态,所述无唇动状态为有唇动状态之外的时间所处的状态,所述有唇动状态为检测到唇动起点之后到检测到对应的唇动尾点之前的时间所处的状态。10.根据权利要求9所述的装置,其中,所述符合预定的时间要求包括:检测到唇动起点的时间与最近一次检测到语音起点的时间之间的差值大于预定阈值。11.根据权利要求7所述的装置,其中,所述修正模块在语音检测状态为有语音状态且唇动检测状态为有唇动状态时,若检测到唇动尾点,则将检测到的唇动尾点作为确定出的语音尾点以及新的语音起点;其中,所述有语音状态为检测到语音起点之后到检测到对应的语音尾点之前的时间所处的状态,所述有唇动状态为检测到唇动起点之后到检测到对应的唇动尾点之前的时间所处的状态。12.根据权利要求7~11中任一项所述的装置,其中,所述第二检测模块进一步用于,若确定视频中的人脸的唇部未被遮挡,则对所述视频数据进行所述第二检测。13.一种电子设备,包括:至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1

6中任一项所述的方法。14.一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使计算机执行根据权利要求1

6中任一项所述的方法。15.一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现根据权利要求1

6中任一项所述的方法。

技术总结
本公开公开了语音端点检测方法、装置、电子设备及存储介质,涉及深度学习以及智能语音等人工智能领域,其中的方法可包括:获取时间对齐的语音数据及视频数据;利用训练得到的语音检测模型,对语音数据进行语音起点和语音尾点的第一检测;对视频数据进行唇动起点和唇动尾点的第二检测;利用第二检测结果对第一检测结果进行修正,将修正后的结果作为语音端点检测结果。应用本公开所述方案,可提升语音端点检测结果的准确性等。检测结果的准确性等。检测结果的准确性等。


技术研发人员:郭启行 徐仁新 戴宁
受保护的技术使用者:北京百度网讯科技有限公司
技术研发日:2021.05.08
技术公布日:2021/9/3
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文章

  • 日榜
  • 周榜
  • 月榜