一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种基于对抗训练的端到端的语音识别方法与流程

2021-08-13 19:22:00 来源:中国专利 TAG:计算机应用 端到 对抗 语音识别 训练

技术特征:

1.一种基于对抗训练的端到端的语音识别方法,其特征在于:包括按顺序执行的下列步骤:

步骤1:将待转换音频数据经短时傅里叶变换得到频域表示;

步骤2:利用训练好的语音识别模型识别所述频域表示并解码输出解码文字;

步骤3:利用维特比算法在解码文字中搜索最优的文字序列,完成语音识别;

其中,步骤2中所述语音识别模型包括编码层和解码层,所述编码层包括卷积神经网络和编码自注意力机制,所述解码层为解码自注意力机制;

所述语音识别模型的训练方法包括按顺序执行的下列步骤:

步骤a:准备音频数据样本,将所述音频数据样本中的音频数据经短时傅里叶变换得到频域表示;

步骤b:利用所述语音识别模型提取步骤a所得频域表示中的特征,得到音频特征向量,并解码输出解码文字;

步骤c:利用ctc算法,将步骤b输出的解码文字与音频数据样本中的标签文本对齐;

步骤d:构建损失函数,将所述语音识别模型中的参数修改为损失函数最小值所对应的参数,对语音识别模型进行学习和优化;

步骤e:向步骤a所述音频数据中添加微小扰动生成对抗样本,将所述对抗样本输入步骤d学习优化后的语音识别模型中进行对抗训练,以提升所述语音识别模型的鲁棒性。

2.如权利要求1所述的语音识别方法,其特征在于,步骤1中,将音频数据x(n)中较长的时间信号分成相同长度且较短的信号段序列xw,然后在每一所述信号段序列上进行傅里叶变换,得到频域表示xe;

所述傅里叶变换为离散时间傅里叶变换,计算公式如下:

x(n)代表音频数据,xe代表频域表示,j表示复数。

3.如权利要求1所述的语音识别方法,其特征在于,步骤2中,首先使用卷积神经网络对步骤1所得的频域表示xe进行特征提取,得到特征向量xc;然后利用编码自注意力机制进一步学习所述特征向量xc的局部特征得到音频特征向量xa最后利用解码自注意力机制解码输出解码文字。

4.如权利要求3所述的语音识别方法,其特征在于,使用卷积神经网络进行特征提取的计算公式如下:

xc=cnn(xe)(2)

其中,xc代表特征向量,cnn代表卷积神经网络,xe代表频域表示;

其中卷积神经网络共有两层,第一层卷积核大小为3*3,第二层卷积核大小为5*5,卷积核移动步长为2;

卷积神经网络中,使用relu函数作为激活函数,选择meanpooling的方法来进行池化操作;其中,relu函数的定义如下所示:

f(x)=max(0,x)(3)

式中x为输入信号,f为输出信号。

5.如权利要求4所述的语音识别方法,其特征在于,利用编码自注意力机制进一步学习局部特征的计算公式如下:

xa=mh_sa(xc)(4)

其中,mha_sa为多头注意力机制,xa代表音频特征向量,xc代表特征向量;所述多头注意力机制mha_sa的计算方法是,首先做多次单头注意力计算,然后将每次单头注意力计算的结果合并;

所述单头注意力计算公式如下:

其中分别为索引、键、值,dq、dk、dv分别代表q、k、v的数据维度,nq、nk、nv分别为q、k、v的序列长度,其中dq=dk,nk=nv;

将每次单头注意力计算的结果合并的计算公式如下:

其中,是多头注意力机制的输入,headi代表第i个单头注意力机制结果的输出;wh是可训练的参数。

6.如权利要求5所述的语音识别方法,其特征在于,利用解码自注意力机制解码的计算公式如下:

其中y={y1,y2,...,yl}为标签序列,x1:an是音频特征向量。

7.如权利要求1所述的语音识别方法,其特征在于:步骤3中,维特比算法公式如下:

其中,y*代表最优输出,代表所有可能的输出,x(n)代表音频数据。

8.如权利要求1所述的语音识别方法,其特征在于,所述训练方法步骤c中,ctc算法解码的目标函数为pctc(y|xa)。

9.如权利要求1所述的语音识别方法,其特征在于,所述训练方法步骤d中,构建损失函数时使用多目标损失函数,具体计算过程如下:

其中代表损失函数,超参数γ控制两个目标函数logpctc和logpa的权重。

10.如权利要求1所述的语音识别方法,其特征在于,所述训练方法步骤e中,所述对抗样本是使用梯度上升算法计算所得,计算公式如下:

其中代表梯度方向计算,代表损失函数,代表损失函数的梯度方向,θ为模型参数;

对抗训练的计算过程如下:

代表损失函数。


技术总结
本发明公开了基于对抗训练的端到端的语音识别方法,其语音识别模型包括编码层和解码层,所述编码层包括卷积神经网络和自注意力机制,所述解码层为自注意力机制。该语音识别模型使用卷积神经网络构建编码层,同时引入自注意力机制,以获取局部特征,提升识别准确度。在使用该语音识别模型的语音识别方法,在识别过程中,由于频域表示的音频数据受音调、音色影响很小,因此使用频域表示来表示音频数据以降低音调音色影响,提高识别准确度。

技术研发人员:李妍;孟洁;何金;刘晨;王梓蒴;张旭;张倩宜;孙轶凡;吴凯;包磊;孟兆娜;赵迪
受保护的技术使用者:国网天津市电力公司;国家电网有限公司
技术研发日:2020.10.30
技术公布日:2021.08.13
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文章

  • 日榜
  • 周榜
  • 月榜