技术特征:
1.一种基于对抗训练的端到端的语音识别方法,其特征在于:包括按顺序执行的下列步骤:
步骤1:将待转换音频数据经短时傅里叶变换得到频域表示;
步骤2:利用训练好的语音识别模型识别所述频域表示并解码输出解码文字;
步骤3:利用维特比算法在解码文字中搜索最优的文字序列,完成语音识别;
其中,步骤2中所述语音识别模型包括编码层和解码层,所述编码层包括卷积神经网络和编码自注意力机制,所述解码层为解码自注意力机制;
所述语音识别模型的训练方法包括按顺序执行的下列步骤:
步骤a:准备音频数据样本,将所述音频数据样本中的音频数据经短时傅里叶变换得到频域表示;
步骤b:利用所述语音识别模型提取步骤a所得频域表示中的特征,得到音频特征向量,并解码输出解码文字;
步骤c:利用ctc算法,将步骤b输出的解码文字与音频数据样本中的标签文本对齐;
步骤d:构建损失函数,将所述语音识别模型中的参数修改为损失函数最小值所对应的参数,对语音识别模型进行学习和优化;
步骤e:向步骤a所述音频数据中添加微小扰动生成对抗样本,将所述对抗样本输入步骤d学习优化后的语音识别模型中进行对抗训练,以提升所述语音识别模型的鲁棒性。
2.如权利要求1所述的语音识别方法,其特征在于,步骤1中,将音频数据x(n)中较长的时间信号分成相同长度且较短的信号段序列xw,然后在每一所述信号段序列上进行傅里叶变换,得到频域表示xe;
所述傅里叶变换为离散时间傅里叶变换,计算公式如下:
x(n)代表音频数据,xe代表频域表示,j表示复数。
3.如权利要求1所述的语音识别方法,其特征在于,步骤2中,首先使用卷积神经网络对步骤1所得的频域表示xe进行特征提取,得到特征向量xc;然后利用编码自注意力机制进一步学习所述特征向量xc的局部特征得到音频特征向量xa最后利用解码自注意力机制解码输出解码文字。
4.如权利要求3所述的语音识别方法,其特征在于,使用卷积神经网络进行特征提取的计算公式如下:
xc=cnn(xe)(2)
其中,xc代表特征向量,cnn代表卷积神经网络,xe代表频域表示;
其中卷积神经网络共有两层,第一层卷积核大小为3*3,第二层卷积核大小为5*5,卷积核移动步长为2;
卷积神经网络中,使用relu函数作为激活函数,选择meanpooling的方法来进行池化操作;其中,relu函数的定义如下所示:
f(x)=max(0,x)(3)
式中x为输入信号,f为输出信号。
5.如权利要求4所述的语音识别方法,其特征在于,利用编码自注意力机制进一步学习局部特征的计算公式如下:
xa=mh_sa(xc)(4)
其中,mha_sa为多头注意力机制,xa代表音频特征向量,xc代表特征向量;所述多头注意力机制mha_sa的计算方法是,首先做多次单头注意力计算,然后将每次单头注意力计算的结果合并;
所述单头注意力计算公式如下:
其中
将每次单头注意力计算的结果合并的计算公式如下:
其中,
6.如权利要求5所述的语音识别方法,其特征在于,利用解码自注意力机制解码的计算公式如下:
其中y={y1,y2,...,yl}为标签序列,x1:an是音频特征向量。
7.如权利要求1所述的语音识别方法,其特征在于:步骤3中,维特比算法公式如下:
其中,y*代表最优输出,
8.如权利要求1所述的语音识别方法,其特征在于,所述训练方法步骤c中,ctc算法解码的目标函数为pctc(y|xa)。
9.如权利要求1所述的语音识别方法,其特征在于,所述训练方法步骤d中,构建损失函数时使用多目标损失函数,具体计算过程如下:
其中
10.如权利要求1所述的语音识别方法,其特征在于,所述训练方法步骤e中,所述对抗样本是使用梯度上升算法计算所得,计算公式如下:
其中
对抗训练的计算过程如下:
技术总结
本发明公开了基于对抗训练的端到端的语音识别方法,其语音识别模型包括编码层和解码层,所述编码层包括卷积神经网络和自注意力机制,所述解码层为自注意力机制。该语音识别模型使用卷积神经网络构建编码层,同时引入自注意力机制,以获取局部特征,提升识别准确度。在使用该语音识别模型的语音识别方法,在识别过程中,由于频域表示的音频数据受音调、音色影响很小,因此使用频域表示来表示音频数据以降低音调音色影响,提高识别准确度。
技术研发人员:李妍;孟洁;何金;刘晨;王梓蒴;张旭;张倩宜;孙轶凡;吴凯;包磊;孟兆娜;赵迪
受保护的技术使用者:国网天津市电力公司;国家电网有限公司
技术研发日:2020.10.30
技术公布日:2021.08.13
本文用于企业家、创业者技术爱好者查询,结果仅供参考。