技术特征:
1.一种多语种混说语音的语种识别方法,其特征在于,包括:
对待识别多语种混说语音数据进行端点检测,得到多帧语音状态信息;
将所有的语音状态信息输入至语种识别模型,输出所述待识别多语种混说语音数据中每一帧语音状态信息所属的语种;
其中,所述语种识别模型是基于多语种混说语音样本以及预先确定的多语种混说语音样本中每一帧语音状态信息所属的语种进行训练后得到。
2.根据权利要求1所述的多语种混说语音的语种识别方法,其特征在于,将所有的语音状态信息输入至语种识别模型,输出所述待识别多语种混说语音数据中每一帧语音状态信息所属的语种,具体包括:
将所有的语音状态信息输入至所述语种识别模型中的编码端,输出每一帧语音状态信息的高维语音特征;
将所有的高维语音特征输入至所述语种识别模型中的解码端,输出每一帧语音状态信息所属的语种。
3.根据权利要求2所述的多语种混说语音的语种识别方法,其特征在于,所述编码端由卷积层和全连接层组成,所述编码端的激活函数为线性整流函数。
4.根据权利要求3所述的多语种混说语音的语种识别方法,其特征在于,所述编码端中的卷积层的层数为四层;
所述编码端中的全连接层的层数为两层。
5.根据权利要求2所述的多语种混说语音的语种识别方法,其特征在于,所述解码端为注意力机制。
6.根据权利要求5所述的多语种混说语音的语种识别方法,其特征在于,将所有的高维语音特征输入至所述语种识别模型中的解码端,输出每一帧语音状态信息所属的语种,具体包括:
将所有的高维语音特征输入至所述解码端的attend函数,输出每一语音状态信息的归一化权重;
根据所有的高维语音特征和所有的归一化权重,确定注意力向量;
基于所述注意力向量,利用softmax函数确定每一帧语音状态信息所属的语种。
7.根据权利要求6所述的多语种混说语音的语种识别方法,其特征在于,利用如下公式确定所述注意力向量:
其中,c为注意力向量,t为语音状态信息的帧数,αt为第t帧语音状态信息的归一化权重,ht为第t帧语音状态信息的高维语音特征。
8.一种多语种混说语音的识别方法,其特征在于,包括:
采用如权利要求1-7任一项所述的多语种混说语音的语种识别方法,对待识别多语种混说语音数据进行语种识别,确定每一帧语音状态信息所属的语种;
分别将每一帧语音状态信息,输入至相应的语音识别模型,输出每一帧语音状态信息的文字识别结果。
9.一种多语种混说语音的语种识别装置,其特征在于,包括:
端点检测模块,用于对待识别多语种混说语音数据进行端点检测,得到多帧语音状态信息;
语种识别模块,用于将所有的语音状态信息输入至语种识别模型,输出所述待识别多语种混说语音数据中每一帧语音状态信息所属的语种;
其中,所述语种识别模型是基于多语种混说语音样本以及预先确定的多语种混说语音样本中每一帧语音状态信息所属的语种进行训练后得到。
10.一种电子设备,包括存储器、处理器,以及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时,实现如权利要求1至7任一项所述多语种混说语音的语种识别方法的步骤,或者实现如权利要求8所述多语种混说语音的识别方法的步骤。
技术总结
本发明实施例提供一种多语种混说语音的语种识别方法及装置,所述方法包括:对待识别多语种混说语音数据进行端点检测,得到多帧语音状态信息;将所有的语音状态信息输入至语种识别模型,输出所述待识别多语种混说语音数据中每一帧语音状态信息所属的语种;其中,所述语种识别模型是基于多语种混说语音样本以及预先确定的多语种混说语音样本中每一帧语音状态信息所属的语种进行训练后得到。本发明实施例提供的多语种混说语音的语种识别方法及装置,通过缩减人工预处理和后续处理,以原始语音波形作为输入,将特征提取和分类建立一体化结构模型,尽可能简化模型从原始输入到最终输出的步骤,增加模型的整体契合度,提高了语种识别的准确率。
技术研发人员:陈运兵
受保护的技术使用者:普天信息技术有限公司
技术研发日:2020.01.15
技术公布日:2021.08.03
本文用于企业家、创业者技术爱好者查询,结果仅供参考。