技术特征:
1.一种音频数据提取方法,其特征在于,所述方法包括:
获取语音数据,识别所述语音数据中的碎片音频段;
提取所述碎片音频段对应的音频特征信息,并在所述音频特征信息中添加对应的时序维度特征,得到音频融合特征信息;
基于所述时序维度特征,通过预设聚类算法对所述音频融合特征信息进行聚类处理,获取所述语音数据对应的音频聚簇信息;
根据所述音频聚簇信息,获取所述语音数据对应的音频数据提取结果。
2.根据权利要求1所述的方法,其特征在于,所述获取语音数据,识别所述语音数据中的碎片音频段包括:
获取语音数据;
检测所述语音数据中的空白音频位置;
根据所述空白音频位置剔除所述语音数据中的连续空白音频段,获取碎片音频段。
3.根据权利要求2所述的方法,其特征在于,所述检测所述语音数据中的空白音频位置包括:
通过静默检测以及滑动窗口检测所述语音数据中的空白音频位置。
4.根据权利要求1所述的方法,其特征在于,所述提取所述碎片音频段对应的音频特征信息,并在所述音频特征信息中添加对应的时序维度特征,获取音频融合特征信息之前,还包括:
根据所述碎片音频段在所述语音数据中的时序信息,获取所述碎片音频段对应的时序维度特征。
5.根据权利要求1所述的方法,其特征在于,所述根据所述音频聚簇信息获取所述语音数据对应的音频数据提取结果包括:
获取所述音频聚簇信息中最大聚簇的声音长度信息;
当所述最大聚簇的声音长度信息小于预设模型输入长度阈值时,反馈对应的音频拒识消息。
6.根据权利要求1所述的方法,其特征在于,所述根据所述音频聚簇信息获取所述语音数据对应的音频数据提取结果包括:
获取所述音频聚簇信息中最大聚簇的声音长度信息;
当所述最大聚簇的声音长度信息小于预设模型输入长度阈值时,获取所述音频聚簇信息中音频聚簇的长度排名;
将所述音频聚簇信息中最大聚簇与所述长度排名中后续的音频聚簇依次拼接;
在每次拼接完成后,获取拼接完成后拼接聚簇的声音长度信息,当所述拼接聚簇的声音长度信息大于或等于预设模型输入长度阈值时,将所述拼接聚簇作为所述语音数据对应的音频数据提取结果。
7.根据权利要求1所述的方法,其特征在于,所述根据所述音频聚簇信息获取所述语音数据对应的音频数据提取结果之后,还包括:
将所述音频数据提取结果输入预设声纹识别模型,获取所述音频数据提取结果对应的声纹识别结果。
8.一种音频数据提取装置,其特征在于,所述装置包括:
数据获取模块,用于获取语音数据,将所述语音数据拆分为碎片音频段;
特征提取模块,用于提取所述碎片音频段对应的音频特征信息,并在所述音频特征信息中添加对应的时序维度特征,得到音频融合特征信息;
音频聚类模块,用于基于所述时序维度特征,通过预设聚类算法对所述音频融合特征信息进行聚类处理,获取所述语音数据对应的音频聚簇信息;
提取结果获取模块,用于根据所述音频聚簇信息获取所述语音数据对应的音频数据提取结果。
9.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至6中任一项所述方法的步骤。
10.一种计算机存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至6中任一项所述的方法的步骤。
技术总结
本申请涉及语音语义的音频转换领域,具体涉及一种音频数据提取方法、装置、计算机设备和存储介质。方法通过将语音数据拆分为碎片音频段;提取碎片音频段对应的音频特征信息;提取碎片音频段对应的音频特征信息,并在音频特征信息中添加对应的时序维度特征;通过预设聚类算法对音频特征信息进行聚类处理,获取语音数据对应的音频聚簇信息;并获取其对应的音频数据提取结果。本申请在聚类处理的过程中可以更快速地知悉数据的连续性信息,确保输出聚类后的音频聚簇信息的无损连续性,而后基于聚类结果来提取得到音频数据的提取结果,保证音频数据提取结果对应的为语音数据的被试者,从而提高声纹识别的准确率。
技术研发人员:张景逸
受保护的技术使用者:平安国际融资租赁有限公司
技术研发日:2021.04.20
技术公布日:2021.07.27
本文用于企业家、创业者技术爱好者查询,结果仅供参考。