语种识别方法、装置、设备及存储介质与流程

2021-08-31 17:44:00 来源：中国专利 TAG：

技术特征：

1.一种语种识别方法，其特征在于，包括：

获取样本音频和所述样本音频对应的音频标签；

对所述样本音频进行数据处理，得到所述样本音频对应的特征矩阵；

将所述特征矩阵输入第一神经网络，得到所述特征矩阵对应的帧内特征；

将所述特征矩阵输入第二神经网络，得到所述特征矩阵对应的帧间特征；

根据所述帧内特征和所述帧间特征进行逻辑回归，以对所述样本音频进行语种识别，得到所述样本音频的预测类别；

基于所述样本音频的预测类别和所述音频标签对所述第一神经网络和所述第二神经网络进行迭代训练，将训练完成的第一神经网络和训练完成的第二神经网络合并得到语种识别模型，并基于所述语种识别模型对待识别语音进行语种识别。

2.根据权利要求1所述的语种识别方法，其特征在于，所述将所述特征矩阵输入第一神经网络，得到所述特征矩阵对应的帧内特征，包括：

将所述特征矩阵输入第一神经网络，得到多个输出特征，对多个所述输出特征进行平均，得到帧内特征；或者

将所述特征矩阵输入第一神经网络，得到多个输出特征，将多个所述输出特征作为帧内特征。

3.根据权利要求1所述的语种识别方法，其特征在于，所述对所述样本音频进行数据处理，得到所述样本音频对应的特征矩阵，包括：

对所述样本音频进行音频采样，得到采样信号，所述音频采样包括抽样、量化和编码；

对所述采样信号进行预处理，得到预处理后的信号，所述预处理包括预加重、分帧、加窗中的至少一种；

对所述预处理后的信号进行特征提取，得到特征矩阵。

4.根据权利要求3所述的语种识别方法，其特征在于，所述对所述预处理后的信号进行特征提取，得到特征矩阵，包括：

对所述预处理后的信号进行傅里叶变换，得到频域信号；

将所述频域信号通过梅尔滤波器，并取对数功率，从而得到单帧特征；

基于所述频域信号的帧数和所述单帧特征得到特征矩阵。

5.根据权利要求1所述的语种识别方法，其特征在于，所述根据所述帧内特征和所述帧间特征进行逻辑回归，以对所述样本音频进行语种识别，得到所述样本音频的预测类别，包括：

对所述帧内特征和所述帧间特征进行拼接融合，得到拼接特征；

基于所述拼接特征进行逻辑回归，对所述拼接特征对应的样本音频进行打分，以根据所述样本音频的得分确定所述样本音频的预测类别。

6.根据权利要求1所述的语种识别方法，其特征在于，所述方法还包括：

统计所述样本音频的识别正确的正确数量和所述样本音频的总数量，并给予所述正确数量和所述总数量计算所述样本音频的识别准确率；

若所述识别准确率大于或等于预设阈值，则完成对所述第一神经网络和所述第二神经网络的训练；

其中，若所述样本音频的预测类别和所述样本音频的音频标签相同，则确定对所述样本音频的识别结果为识别正确。

7.根据权利要求1所述的语种识别方法，其特征在于，所述第一神经网络包括使用一维空洞卷积神经网络构建的五层编码器，所述第二神经网络包括使用一维空洞卷积神经网络构建的五层编码器和自回归模型，其中，所述自回归模型为隐藏层特征为256维度的前向传播网络。

8.一种语种识别装置，其特征在于，包括：

样本获取模块，用于获取样本音频和所述样本音频对应的音频标签；

矩阵生成模块，用于对所述样本音频进行数据处理，得到所述样本音频对应的特征矩阵；

帧内提取模块，用于将所述特征矩阵输入第一神经网络，得到所述特征矩阵对应的帧内特征；

帧间提取模块，用于将所述特征矩阵输入第二神经网络，得到所述特征矩阵对应的帧间特征；

类别预测模块，用于根据所述帧内特征和所述帧间特征进行逻辑回归，以对所述样本音频进行语种识别，得到所述样本音频的预测类别；

迭代训练模块，用于基于所述样本音频的预测类别和所述音频标签对所述第一神经网络和所述第二神经网络进行迭代训练，并将训练完成的第一神经网络和训练完成的第二神经网络合并得到语种识别模型，并基于所述语种识别模型对待识别语音进行语种识别。

9.一种计算机设备，其特征在于，所述计算机设备包括存储器和处理器；

所述存储器用于存储计算机程序；

所述处理器，用于执行所述计算机程序并在执行所述计算机程序时实现如权利要求1至7中任一项所述的语种识别方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时使所述处理器实现如权利要求1至7中任一项所述的语种识别方法。

技术总结
本申请涉及人工智能和语音识别领域，具体公开了一种语种识别方法、装置、设备及存储介质，所述方法包括：获取样本音频和样本音频对应的音频标签；对样本音频进行数据处理，得到样本音频对应的特征矩阵；将特征矩阵输入第一神经网络，得到特征矩阵对应的帧内特征；将特征矩阵输入第二神经网络，得到特征矩阵对应的帧间特征；根据帧内特征和帧间特征进行逻辑回归，以对样本音频进行语种识别，得到样本音频的预测类别；基于样本音频的预测类别和音频标签对第一神经网络和第二神经网络进行迭代训练，并将训练完成的第一神经网络和训练完成的第二神经网络合并得到语种识别模型，并基于语种识别模型对待识别语音进行语种识别。提高了语种识别的准确率。

技术研发人员：秦冲;魏韬;马骏;王少军
受保护的技术使用者：平安科技(深圳)有限公司
技术研发日：2021.05.28
技术公布日：2021.08.31

再多了解一些

2/2 首页上一页 1 2

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

语种识别方法、装置、设备及存储介质与流程

相关文章

最热文献