技术特征:
1.一种广播音频的语种识别方法,其特征在于,包括:
根据第一采样率对待检测广播音频数据进行重采样,得到第一采样音频数据,根据第二采样率对待检测广播音频数据进行重采样,得到第二采样音频数据;
按照所述待检测广播音频数据的采样率将所述第一采样音频数据、所述待检测广播音频数据和所述第二采样音频数据进行拼接,得到第一音频数据;
将所述第一音频数据输入至语种识别模型中,得到语种识别结果;
其中,所述语种识别模型包括声学模型、韵律模型和高斯混合分类器;所述声学模型用于提取所述待检测广播音频数据的声学特征,得到第一语种识别结果,所述韵律模型用于提取所述待检测广播音频数据的韵律特征,得到第二语种识别结果,所述高斯混合分类器用于基于所述第一语种识别结果和第二语种识别结果得到所述待检测广播音频数据的语种识别结果。
2.根据权利要求1所述的广播音频的语种识别方法,其特征在于,所述根据第一采样率对待检测广播音频数据进行重采样,得到第一采样音频数据,根据第二采样率对待检测广播音频数据进行重采样,得到第二采样音频数据,包括:
提取所述待检测广播音频数据的数据部分;
根据第一采样率对待检测广播音频数据的数据部分进行重采样,得到第一采样音频数据;
根据第二采样率对待检测广播音频数据的数据部分进行重采样,得到第二采样音频数据。
3.根据权利要求1所述的广播音频的语种识别方法,其特征在于,所述按照所述待检测广播音频数据的采样率将所述第一采样音频数据、所述待检测广播音频数据和所述第二采样音频数据进行拼接,得到第一音频数据,包括:
顺序拼接所述第一采样音频数据、所述待检测广播音频数据的数据部分和所述第二采样音频数据,得到拼接后的音频;
将所述拼接后的音频前加入头文件,得到所述第一音频数据;
其中,所述头文件中记录的采样率与所述待检测广播音频数据的采样率一致。
4.根据权利要求1所述的广播音频的语种识别方法,其特征在于,将所述第一音频数据输入至语种识别模型中,得到语种识别结果,包括:
将所述第一音频数据输入至所述声学模型中,得到第一语种识别结果;
将所述第一音频数据输入至所述韵律模型中,得到第二语种识别结果;
将所述第一语种识别结果和第二语种识别结果输入至高斯混合分类器,得到所述待检测广播音频数据的语种识别结果。
5.根据权利要求1所述的广播音频的语种识别方法,其特征在于,还包括:训练得到所述语种识别模型;
其中,所述训练得到所述语种识别模型包括:
获取已经完成分类的不同语种的原始广播音频数据,并将所述已经完成分类的不同语种的原始广播音频数据划分为训练集和开发集;
对所述训练集进行预处理,得到第一音频数据样本,其中,所述预处理包括:重采样和拼接;
根据所述第一音频数据样本和所述第一音频数据样本对应的语种标签对gmm-ubm模型进行训练,保存训练完成时的所述gmm-ubm模型的参数,得到所述声学模型;
根据所述第一音频数据样本和所述第一音频数据样本对应的语种标签对svm模型进行训练,保存训练完成时的所述svm模型的参数,得到所述韵律模型;
对所述开发集进行所述预处理,得到第二音频数据样本;
将所述第二音频数据样本输入至所述声学模型和韵律模型,得到第三语种识别结果和第四语种识别结果;
根据所述第三语种识别结果和第四语种识别结果以及所述第二音频数据样本对应的语种标签对gbe模型进行训练,保存训练完成时的所述gbe模型的参数,得到所述高斯混合分类器。
6.根据权利要求5所述的广播音频的语种识别方法,其特征在于,所述根据所述第一音频数据样本和所述第一音频数据样本对应的语种标签对gmm-ubm模型进行训练,保存训练完成时的所述gmm-ubm模型的参数,得到所述声学模型,包括:
对所述第一音频数据样本进行移动差分倒谱特征提取,得到所述第一音频数据样本对应的sdc特征向量;
利用所述的sdc特征向量,通过k均值聚类与em迭代算法训练所述ubm模型,训练结束后,得到训练完成的ubm模型;
根据贝叶斯自适应算法,从所述训练完成的ubm模型中自适应得到每个语种的gmm模型。
7.根据权利要求5所述的广播音频的语种识别方法,其特征在于,所述根据所述第一音频数据样本和所述第一音频数据样本对应的语种标签对svm模型进行训练,保存训练完成时的所述svm模型的参数,得到所述韵律模型,包括:
对所述第一音频数据样本进行韵律特征提取,得到所述第一音频数据对应的四维韵律特征向量;
通过多项式映射函数将所述四维韵律特征向量映射成多项式基向量;
针对所述原始广播音频数据中的每一语种,将所述多项式基向量输入至广义线性判别序列glds模块得到具有分性的训练样本,将当前语种的所述训练样本作为正样本,把非所述当前语种的训练样本作为负样本,进行svm训练得到所述当前语种的支持向量;
对每个语种的支持向量进行线性变换得到每个语种的被压缩的韵律模型,其中,所有语种的被压缩的韵律模型构成所述韵律模型。
8.一种广播音频的语种识别装置,其特征在于,包括:
第一预处理模块,用于根据第一采样率对待检测广播音频数据进行重采样,得到第一采样音频数据,根据第二采样率对待检测广播音频数据进行重采样,得到第二采样音频数据;
第二预处理模块,用于按照所述待检测广播音频数据的采样率将所述第一采样音频数据、所述待检测广播音频数据和所述第二采样音频数据进行拼接,得到第一音频数据;
语种识别模块,用于将所述第一音频数据输入至语种识别模型中,得到语种识别结果;
其中,所述语种识别模型包括声学模型、韵律模型和高斯混合分类器;所述声学模型用于提取所述待检测广播音频数据的声学特征,得到第一语种识别结果,所述韵律模型用于提取所述待检测广播音频数据的韵律特征,得到第二语种识别结果,所述高斯混合分类器用于基于所述第一语种识别结果和第二语种识别结果得到所述待检测广播音频数据的语种识别结果。
9.一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至7任一项所述广播音频的语种识别方法的步骤。
10.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述广播音频的语种识别方法的步骤。
技术总结
本发明提供一种广播音频的语种识别方法、装置、设备及存储介质,包括:根据第一采样率和第二采样率分别对待检测广播音频数据进行重采样,并按照待检测广播音频数据的采样率将重采样结果与待检测广播音频数据进行拼接得到第一音频数据;将第一音频数据输入至语种识别模型,得到语种识别结果;语种识别模型包括声学模型、韵律模型和高斯混合分类器;声学模型提取待检测广播音频数据的声学特征,得到第一语种识别结果,韵律模型提取待检测广播音频数据的韵律特征,得到第二语种识别结果,高斯混合分类器基于第一语种识别结果和第二语种识别结果得到待检测广播音频数据的语种识别结果。本发明具有能够提高广播音频的语种识别准确性的有益效果。
技术研发人员:姜洪臣;宋志刚;王方圆
受保护的技术使用者:北京中科模识科技有限公司
技术研发日:2021.04.28
技术公布日:2021.07.23
本文用于企业家、创业者技术爱好者查询,结果仅供参考。