一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种信息处理方法及相关设备与流程

2022-03-26 15:51:18 来源:中国专利 TAG:

技术特征:
1.一种生成音文时间戳的方法,其特征在于,所述方法包括:利用对齐模型对音频信号和所述音频信号对应的文本内容进行处理,获得音文时间戳,所述音文时间戳包括所述音频信号在所述文本内容中对应的每个字的起始时间和结束时间;利用人声检测模型确定所述音频信号中人声与非人声之间的跳变点;根据所述音频信号中人声与非人声之间的跳变点对所述音文时间戳进行调整,获得调整后的音文时间戳。2.根据权利要求1所述的方法,其特征在于,所述人声检测模型是利用第一梅尔频率倒谱系数mfcc特征和第二mfcc特征训练获得的,所述第一mfcc特征是从人声音频中提取的,所述第二mfcc是从非人声音频中提取的。3.根据权利要求1所述的方法,其特征在于,所述利用人声检测模型确定所述音频信号中人声与非人声之间的跳变点,包括:对所述音频信号进行划分,获得n帧音频;根据所述人声检测模型对所述音频信号进行检测,获得检测结果;所述检测结果包括所述n帧音频中的每一帧音频属于人声或非人声音频的结果;根据所述检测结果,确定所述音频信号中人声与非人声之间的跳变点,所述人声与非人声之间的跳变点包括人声转非人声的跳变点以及非人声转人声的跳变点。4.根据权利要求3所述的方法,其特征在于,所述根据所述人声检测模型对所述音频信号进行检测,获得检测结果,包括:针对所述n帧音频中的每帧音频,利用所述人声检测模型计算该帧音频是人声的最大似然概率值,以及该帧音频是非人声的最大似然概率值;若该帧音频是人声的最大似然概率值大于该帧音频是非人声的最大似然概率值,确定该帧音频是人声帧;若该帧音频是人声的最大似然概率值小于该帧音频是非人声的最大似然概率值,确定该帧音频是非人声帧。5.根据权利要求3或4所述的方法,其特征在于,所述根据所述音频信号中人声与非人声之间的跳变点对所述音文时间戳进行调整,获得调整后的音文时间戳,包括:根据人声转非人声的跳变点,调整所述音文时间戳中所述人声的结束时间和/或所述非人声的起始时间,以获得调整后的音文时间戳。6.根据权利要求3或4所述的方法,其特征在于,所述根据所述音频信号中人声与非人声之间的跳变点对所述音文时间戳进行调整,获得调整后的音文时间戳,还包括:根据非人声转人声的跳变点,调整所述音文时间戳中所述非人声的结束时间和/或所述人声的起始时间,以获得调整后的音文时间戳。7.根据权利要求1所述的方法,其特征在于,所述利用对齐模型对音频信号和所述音频信号对应的文本内容进行处理,获得音文时间戳,包括:从音频信号中提取第三mfcc特征;对所述音频信号对应的文本内容进行内容转换处理,得到隐马尔可夫模型hmm状态序列;将所述第三mfcc特征和所述hmm状态序列输入到对齐模型,获得音文时间戳。
8.根据权利要求7所述的方法,其特征在于,所述将所述第三mfcc特征和所述hmm状态序列输入到对齐模型,获得音文时间戳,包括:利用对齐模型计算所述第三mfcc特征中每一帧特征对应的隐马尔可夫状态的概率值;根据所述每一帧特征对应的隐马尔可夫状态的概率值,得到所述第三mfcc特征对应的所述hmm状态序列;将所述hmm状态序列进行内容转换,得到音文时间戳。9.一种信息处理设备,其特征在于,所述信息处理设备还包括:存储器、处理器,其中,所述存储器上存储有信息处理程序,所述信息处理程序被所述处理器执行时实现如权利要求1至8中任一项所述的信息处理方法的步骤。10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至8中任一项所述的信息处理方法的步骤。

技术总结
本申请实施例公开了一种信息处理方法及相关设备,该方法可利用对齐模型对音频信号和其对应的文本内容进行处理,获得音文时间戳;并利用人声检测模型确定音频信号中人声与非人声之间的跳变点;根据音频信号中人声与非人声之间的跳变点对音文时间戳进行调整,获得调整后的音文时间戳。本申请实施例可以在根据对齐模型得到的音文时间戳的基础上,利用跳变点对音文时间戳进行局部调整,从而能够得到更精确的音文时间戳。确的音文时间戳。确的音文时间戳。


技术研发人员:王武城
受保护的技术使用者:腾讯音乐娱乐科技(深圳)有限公司
技术研发日:2021.12.20
技术公布日:2022/3/25
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献