一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

获取回听音频的方法、装置、设备及存储介质与流程

2022-09-15 05:10:58 来源:中国专利 TAG:

技术特征:
1.一种获取回听音频的方法,其特征在于,包括:获取待回听文本及其文本长度l1,判断是否存在与所述待回听文本对应的有效音频时间信息;若不存在,则获取所述待回听文本对应的筛选文本,所述筛选文本为,从原始音频的转写文本中筛选出的与所述待回听文本对应的发言人相关的文本;基于所述待回听文本的文本长度l1,及所述发言人的发言速度,计算待回听音频的真实时长;在所述筛选文本中筛选时长等于所述待回听音频的真实时长的候选文本段;确定每一候选文本段与所述待回听文本的文本匹配度,并基于文本匹配度筛选满足匹配度要求的目标文本段;获取所述目标文本段对应的原始音频段,作为回听音频。2.根据权利要求1所述的方法,其特征在于,在筛选候选文本段之前,该方法还包括:获取用户输入的回听关键字;在所述待回听文本及所述筛选文本中分别定位所述回听关键字所在位置;则所述在所述筛选文本中筛选时长等于所述待回听音频的真实时长的候选文本段,包括:在所述筛选文本中筛选时长等于所述待回听音频的真实时长,且包含的所述回听关键字的位置分布与所述待回听文本中所述回听关键字的位置分布满足设定分布相似条件的候选文本段。3.根据权利要求1所述的方法,其特征在于,所述判断是否存在与所述待回听文本对应的有效音频时间信息,包括:获取待回听文本所在的第一容器;判断所述第一容器中是否包含有音频时间信息,若没有,则确定不存在与所述待回听文本对应的有效音频时间信息。4.根据权利要求3所述的方法,其特征在于,还包括:若确定所述第一容器中包含有音频时间信息,则基于所述音频时间信息确定时长δt1,以及基于所述第一容器的容器标识,获取预先存储的与所述第一容器的容器标识相同标识的第二容器,所述第二容器中存储有所述原始音频中与所述音频时间信息对应音频的转写文本;获取所述第二容器中包含的转写文本的文本长度l2;判断所述文本长度l1与所述文本长度l2的差值,是否超过所述时长δt1与预设偏差阈值a的乘积,所述预设偏差阈值a表示单位时间内说话字数和实际的偏差阈值;若超过,则确定不存在与所述待回听文本对应的有效音频时间信息。5.根据权利要求1所述的方法,其特征在于,所述获取所述待回听文本对应的筛选文本,包括:判断预设的声纹库中是否存在所述发言人的声纹;若存在,则获取所述发言人的声纹,并基于所述发言人的声纹在所述原始音频中查找所述发言人的音频及其转写文本,作为所述筛选文本;若不存在,则将所述原始音频对应的转写文本作为所述筛选文本。
6.根据权利要求1所述的方法,其特征在于,所述发言人的发言速度为设定值,或,将所述筛选文本的长度除以所述筛选文本对应的音频时长,结果作为所述发言人的发言速度;或,将所述原始音频的转写文本的长度除以所述原始音频的时长,结果作为所述发言人的发言速度。7.根据权利要求1所述的方法,其特征在于,所述基于所述待回听文本的文本长度l1,及所述发言人的发言速度,计算待回听音频的真实时长,包括:按照下述计算待回听音频的真实时长δt2:l1/(v-a)<δt2<l1/(v a)其中,v表示发言人的发言速度,a表示预设的单位时间内说话字数和实际的偏差阈值。8.根据权利要求2所述的方法,其特征在于,在所述待回听文本定位所述回听关键字所在位置,包括:在所述待回听文本中查找每一所述回听关键字距离待回听文本起始字符的长度l3;基于长度l3,及所述发言人的发言速度,计算每一所述回听关键字距离待回听文本起始字符的时长δt3;则,在所述筛选文本中筛选时长等于所述待回听音频的真实时长,且包含的所述回听关键字的位置分布与所述待回听文本中所述回听关键字的位置分布满足设定分布相似条件的候选文本段的过程,包括:对于筛选文本中每个回听关键字:在回听关键字位置开始,向前查找时长等于所述δt3的文本,以及,向后查找时长等于δt2-δt3的文本,由向前、向后查找到的文本组成一条候选文本段,其中δt2为待回听音频的真实时长。9.根据权利要求2所述的方法,其特征在于,在所述待回听文本中定位所述回听关键字所在位置,包括:在所述待回听文本中查找每一所述回听关键字距离待回听文本末尾字符的长度l4;基于长度l4,及所述发言人的发言速度,计算每一所述回听关键字距离待回听文本末尾字符的时长δt4;则,在所述筛选文本中筛选时长等于所述待回听音频的真实时长,且包含的所述回听关键字的位置分布与所述待回听文本中所述回听关键字的位置分布满足设定分布相似条件的候选文本段的过程,包括:对于筛选文本中每个回听关键字:在回听关键字位置开始,向后查找时长等于所述δt4的文本,以及,向前查找时长等于δt2-δt4的文本,由向前、向后查找到的文本组成一条候选文本段,其中δt2为待回听音频的真实时长。10.根据权利要求1-9任一项所述的方法,其特征在于,还包括:若确定存在与所述待回听文本对应的有效音频时间信息,则在所述原始音频中获取与所述有效音频时间信息对应的音频段,作为回听音频。11.一种获取回听音频的装置,其特征在于,包括:
有效性判断单元,用于获取待回听文本及其文本长度l1,判断是否存在与所述待回听文本对应的有效音频时间信息;筛选文本获取单元,用于在所述有效性判断单元判断不存在时,获取所述待回听文本对应的筛选文本,所述筛选文本为,从原始音频的转写文本中筛选出的与所述待回听文本对应的发言人相关的文本;真实时长计算单元,用于基于所述待回听文本的文本长度l1,及所述发言人的发言速度,计算待回听音频的真实时长;候选文本段筛选单元,用于在所述筛选文本中筛选时长等于所述待回听音频的真实时长的候选文本段;匹配度计算单元,用于确定每一候选文本段与所述待回听文本的文本匹配度,并基于文本匹配度筛选满足匹配度要求的目标文本段;回听音频获取单元,用于获取所述目标文本段对应的原始音频段,作为回听音频。12.一种获取回听音频的设备,其特征在于,包括:存储器和处理器;所述存储器,用于存储程序;所述处理器,用于执行所述程序,实现如权利要求1~10中任一项所述的获取回听音频的方法的各个步骤。13.一种存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时,实现如权利要求1~10中任一项所述的获取回听音频的方法的各个步骤。

技术总结
本申请公开了一种获取回听音频的方法、装置、设备及存储介质,对于待回听文本判断是否存在与其对应的有效音频时间信息,在确定不存在时,从原始音频的转写文本中筛选出与待回听文本对应的发言人相关的文本,得到筛选文本,基于待回听文本的文本长度以及发言人的发言速度,计算出待回听音频的真实时长,在筛选文本中筛选时长等于该真实时长的候选文本段,计算每一候选文本段与待回听文本的文本匹配度,筛选满足匹配度要求的目标文本段,获取目标文本段对应的原始音频段,作为回听音频。本申请通过获取筛选文本以及计算待回听音频的真实时长,能够缩小候选文本段的查找范围,在保证能够获取到用户真实所要回听音频的基础上,缩短了查找时间。短了查找时间。短了查找时间。


技术研发人员:苏文畅 周腾飞 程旭 宋乾标
受保护的技术使用者:安徽听见科技有限公司
技术研发日:2022.06.23
技术公布日:2022/9/13
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献