技术特征:
1.一种基于空洞卷积神经网络的端到端语种识别分类方法,其特征在于,包括下列步骤:提取训练语音的帧级别声学底层特征;待训练语种识别网络接收所述训练语音的帧级别声学底层特征,对所述训练语音的帧级别声学底层特征进行至少一层空洞卷积后,输出训练语音后验概率;根据所述训练语音后验概率与真实类别标签,确定所述待训练语种识别网络的损失函数,通过减小优化函数的值进行梯度回传并更新所述待训练语种识别网络的参数,得到训练后语种识别网络;提取测试语音的帧级别声学底层特征;所述训练后语种识别网络接收所述测试语音的帧级别声学底层特征,输出测试语音后验概率;根据所述测试语音后验概率判定测试语音中的至少一个语种类别。2.根据权利要求1所述的方法,其特征在于,所述训练语音的帧级别声学底层特征,和所述测试语音的帧级别声学底层特征,为23维梅尔倒谱系数。3.根据权利要求1所述的方法,其特征在于,所述根据所述训练语音后验概率与真实类别标签,确定所述待训练语种识别网络的损失函数,具体为:将所述训练语音后验概率与真实类别标签的最小均方误差作为所述待训练语种识别网络的损失函数。4.根据权利要求1所述的方法,其特征在于,所述语种识别网络为残差网络,残差网络中包括至少一空洞卷积层。5.根据权利要求1或4所述的方法,其特征在于,所述残差网络第l组中第i层空洞卷积层的输出为:其中,f
il
为与相关联的滤波器,p为中的特征映射域,a为网络层的输入,b为滤波器域,k为空洞率。
技术总结
本发明公开了一种基于空洞卷积神经网络的端到端语种识别分类方法,包括:待训练语种识别网络接收,并对训练语音中提取的帧级别声学底层特征进行至少一层空洞卷积后,输出训练语音后验概率;将训练语音后验概率与真实类别标签的最小均方误差作为待训练语种识别网络的损失函数,通过减小优化函数的值进行梯度回传并更新待训练语种识别网络的参数,得到训练后语种识别网络;提取测试语音的帧级别声学底层特征;训练后语种识别网络接收测试语音的帧级别声学底层特征,输出测试语音后验概率;根据测试语音后验概率判定测试语音中的至少一个语种类别。在输出特征图的分辨率不变的情况下,不降低单个神经元的感受野,弱化语音中的时间信息丢失问题。时间信息丢失问题。时间信息丢失问题。
技术研发人员:张鹏远 苗晓晓 王文超 颜永红
受保护的技术使用者:北京中科信利技术有限公司
技术研发日:2020.03.31
技术公布日:2021/10/21
再多了解一些
本文用于企业家、创业者技术爱好者查询,结果仅供参考。