一种基于对抗训练的端到端的语音识别方法与流程

2021-08-13 19:22:00 来源：中国专利 TAG：计算机应用端到对抗语音识别训练

技术特征：

1.一种基于对抗训练的端到端的语音识别方法，其特征在于：包括按顺序执行的下列步骤：

步骤1：将待转换音频数据经短时傅里叶变换得到频域表示；

步骤2：利用训练好的语音识别模型识别所述频域表示并解码输出解码文字；

步骤3：利用维特比算法在解码文字中搜索最优的文字序列，完成语音识别；

其中，步骤2中所述语音识别模型包括编码层和解码层，所述编码层包括卷积神经网络和编码自注意力机制，所述解码层为解码自注意力机制；

所述语音识别模型的训练方法包括按顺序执行的下列步骤：

步骤a：准备音频数据样本，将所述音频数据样本中的音频数据经短时傅里叶变换得到频域表示；

步骤b：利用所述语音识别模型提取步骤a所得频域表示中的特征，得到音频特征向量，并解码输出解码文字；

步骤c：利用ctc算法，将步骤b输出的解码文字与音频数据样本中的标签文本对齐；

步骤d：构建损失函数，将所述语音识别模型中的参数修改为损失函数最小值所对应的参数，对语音识别模型进行学习和优化；

步骤e：向步骤a所述音频数据中添加微小扰动生成对抗样本，将所述对抗样本输入步骤d学习优化后的语音识别模型中进行对抗训练，以提升所述语音识别模型的鲁棒性。

2.如权利要求1所述的语音识别方法，其特征在于，步骤1中，将音频数据x(n)中较长的时间信号分成相同长度且较短的信号段序列xw，然后在每一所述信号段序列上进行傅里叶变换，得到频域表示xe；

所述傅里叶变换为离散时间傅里叶变换，计算公式如下：

x(n)代表音频数据，xe代表频域表示，j表示复数。

3.如权利要求1所述的语音识别方法，其特征在于，步骤2中，首先使用卷积神经网络对步骤1所得的频域表示xe进行特征提取，得到特征向量xc；然后利用编码自注意力机制进一步学习所述特征向量xc的局部特征得到音频特征向量xa最后利用解码自注意力机制解码输出解码文字。

4.如权利要求3所述的语音识别方法，其特征在于，使用卷积神经网络进行特征提取的计算公式如下：

xc＝cnn(xe)(2)

其中，xc代表特征向量，cnn代表卷积神经网络，xe代表频域表示；

其中卷积神经网络共有两层，第一层卷积核大小为3*3，第二层卷积核大小为5*5，卷积核移动步长为2；

卷积神经网络中，使用relu函数作为激活函数，选择meanpooling的方法来进行池化操作；其中，relu函数的定义如下所示：

f(x)＝max(0，x)(3)

式中x为输入信号，f为输出信号。

5.如权利要求4所述的语音识别方法，其特征在于，利用编码自注意力机制进一步学习局部特征的计算公式如下：

xa＝mh_sa(xc)(4)

其中，mha_sa为多头注意力机制，xa代表音频特征向量，xc代表特征向量；所述多头注意力机制mha_sa的计算方法是，首先做多次单头注意力计算，然后将每次单头注意力计算的结果合并；

所述单头注意力计算公式如下：

其中分别为索引、键、值，dq、dk、dv分别代表q、k、v的数据维度，nq、nk、nv分别为q、k、v的序列长度，其中dq＝dk，nk＝nv；

将每次单头注意力计算的结果合并的计算公式如下：

其中，是多头注意力机制的输入，headi代表第i个单头注意力机制结果的输出；w^h是可训练的参数。

6.如权利要求5所述的语音识别方法，其特征在于，利用解码自注意力机制解码的计算公式如下：

其中y＝{y1，y2，...，yl}为标签序列，x1：an是音频特征向量。

7.如权利要求1所述的语音识别方法，其特征在于：步骤3中，维特比算法公式如下：

其中，y^*代表最优输出，代表所有可能的输出，x(n)代表音频数据。

8.如权利要求1所述的语音识别方法，其特征在于，所述训练方法步骤c中，ctc算法解码的目标函数为pctc(y|xa)。

9.如权利要求1所述的语音识别方法，其特征在于，所述训练方法步骤d中，构建损失函数时使用多目标损失函数，具体计算过程如下：

其中代表损失函数，超参数γ控制两个目标函数logpctc和logpa的权重。

10.如权利要求1所述的语音识别方法，其特征在于，所述训练方法步骤e中，所述对抗样本是使用梯度上升算法计算所得，计算公式如下：

其中代表梯度方向计算，代表损失函数，代表损失函数的梯度方向，θ为模型参数；

对抗训练的计算过程如下：

代表损失函数。

技术总结
本发明公开了基于对抗训练的端到端的语音识别方法，其语音识别模型包括编码层和解码层，所述编码层包括卷积神经网络和自注意力机制，所述解码层为自注意力机制。该语音识别模型使用卷积神经网络构建编码层，同时引入自注意力机制，以获取局部特征，提升识别准确度。在使用该语音识别模型的语音识别方法，在识别过程中，由于频域表示的音频数据受音调、音色影响很小，因此使用频域表示来表示音频数据以降低音调音色影响，提高识别准确度。

技术研发人员：李妍;孟洁;何金;刘晨;王梓蒴;张旭;张倩宜;孙轶凡;吴凯;包磊;孟兆娜;赵迪
受保护的技术使用者：国网天津市电力公司;国家电网有限公司
技术研发日：2020.10.30
技术公布日：2021.08.13

再多了解一些

2/2 首页上一页 1 2

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：一种铜制或木制乐器的多模态转谱方法及系统与流程

一种基于对抗训练的端到端的语音识别方法与流程

相关文章

最热文献