一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

音频文本提取方法、装置、终端和存储介质与流程

2022-03-23 01:14:20 来源:中国专利 TAG:

技术特征:
1.一种音频文本提取方法,其特征在于,包括:获取待处理音频;获取所述待处理音频对应的频谱图;根据所述频谱图的频率区间对所述待处理音频进行音频提取,得到多种待处理子音频;确定所述待处理子音频的平均音频强度;根据所述待处理子音频的平均音频强度,在所述多个待处理子音频中确定目标子音频;对所述目标子音频进行内容识别处理,得到所述目标子音频的音频文本。2.如权利要求1所述的方法,其特征在于,所述根据所述待处理子音频的平均音频强度,在所述多个待处理子音频中确定目标子音频,包括:获取预设时间间隔;根据所述预设时间间隔对所述待处理子音频进行切割处理,得到多个子音频片段;获取所述待处理子音频中所述子音频片段的片段数量;根据每个所述待处理子音频中所述子音频片段的片段数量和每个所述待处理子音频的平均音频强度,在所述多个待处理子音频中确定目标子音频。3.如权利要求2所述的方法,其特征在于,所述根据每个所述待处理子音频的所述片段数量和每个所述待处理子音频的所述平均音频强度,在所述多个待处理子音频中确定目标子音频,包括:当所述待处理子音频中所述子音频片段的片段数量大于预设片段数量时,根据每个所述待处理子音频的平均音频强度,在所述多个待处理子音频中确定目标子音频。4.如权利要求1所述的方法,其特征在于,所述在所述多个待处理子音频中确定目标子音频,还包括:对所述待处理子音频进行声纹识别,得到声纹信息;获取预先录入的标准声纹信息;在所述多个待处理子音频中确定目标子音频,所述目标子音频的声纹信息与所述标准声纹信息相同。5.如权利要求1所述的方法,其特征在于,所述获取所述待处理音频对应的频谱图,包括:获取预设的音频强度;获取所述待处理音频的实际音频强度;当所述实际音频强度大于所述预设的音频强度时,获取所述待处理音频对应的频谱图。6.如权利要求1所述的方法,其特征在于,所述对所述目标子音频进行内容识别处理,得到所述目标子音频的音频文本,包括:确定所述目标子音频对应的语言种类;对所述目标子音频进行内容识别处理,得到所述目标子音频的音频文本,所述音频文本由所述语言种类的文字构成。7.如权利要求1所述的方法,其特征在于,在所述对所述目标子音频进行内容识别处
理,得到所述目标子音频的音频文本之后,还包括:获取待播放音频,所述待播放音频为所述待处理音频或所述目标子音频;获取与所述待播放音频对应的待播放视频;将所述待播放音频、所述待播放视频以及所述音频文本同步发送给流媒体服务器,以便客户端对所述流媒体服务器发送的所述待播放音频、所述待播放视频以及所述音频文本进行同步直播。8.如权利要求7所述的方法,其特征在于,所述将所述待播放音频、所述待播放视频以及所述音频文本同步发送给流媒体服务器,以便客户端对所述流媒体服务器发送的所述待播放音频、所述待播放视频以及所述音频文本进行同步直播,包括:对所述待播放音频进行音频强度加强,得到加强待播放音频;将所述加强待播放音频、所述音频文本以及所述待播放视频发送给流媒体服务器,以便客户端对所述流媒体服务器发送的所述加强待播放音频、所述音频文本以及所述待播放视频进行同步直播。9.一种音频文本提取装置,其特征在于,包括:待处理视频获取单元,用于获取待处理音频;频谱图获取单元,用于获取所述待处理音频对应的频谱图;待处理子音频获取单元,用于根据所述频谱图的频率区间对所述待处理音频进行音频提取,得到多种待处理子音频;平均音频强度获取单元,用于确定所述待处理子音频的平均音频强度;目标子音频确定单元,用于根据所述待处理子音频的平均音频强度,在所述多个待处理子音频中确定目标子音频;音频文本获取单元,用于对所述目标子音频进行内容识别处理,得到所述目标子音频的音频文本。10.一种终端,其特征在于,包括处理器和存储器,所述存储器存储有多条指令;所述处理器从所述存储器中加载指令,以执行如权利要求1~8任一项所述的音频文本提取方法中的步骤。11.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有多条指令,所述指令适于处理器进行加载,以执行如权利要求1~8任一项所述的音频文本提取方法中的步骤。

技术总结
本申请实施例公开了音频文本提取方法、装置、终端和存储介质;本申请实施例包括获取待处理音频;获取待处理音频对应的频谱图;根据频谱图的频率区间对待处理音频进行音频提取,得到多种待处理子音频;确定待处理子音频的平均音频强度;根据待处理子音频的平均音频强度,在多个待处理子音频中确定目标子音频;对目标子音频进行内容识别处理,得到目标子音频的音频文本。在本申请实施例中提供新的音频文本提取方法,由此,有利于减少用户通过收听音频来查询音频内容时所消耗的时间。由此,提升了查询音频内容的效率。了查询音频内容的效率。了查询音频内容的效率。


技术研发人员:ꢀ(74)专利代理机构
受保护的技术使用者:深圳市华胜软件技术有限公司
技术研发日:2021.12.01
技术公布日:2022/3/21
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献