一种编码器及采用该编码器的基于局部生成式注意力机制的端到端语音识别系统的制作方法

2021-09-18 00:19:00 来源：中国专利 TAG：编码器局部注意力端到识别系统

1.本发明属于语音识别领域，特别涉及一种编码器及采用该编码器的基于局部生成式注意力机制的端到端语音识别系统。

背景技术：

2.语音识别(automatic speech recognition，asr)是指将语音信号转换为文本内容，是语音交互技术中的一个关键环节。近年来，端到端(end
‑
to
‑
end,e2e)自动语音识别 (automatic speech recognition,asr)由于其简单的模型结构以及简单的训练流程，在 asr领域得到了广泛的研究。目前已有的端到端语音识别方法中，连接时序分类 (connectionist temporal classification，ctc)和递归神经网络变换器(recurrent neuralnetwork transducer，rnn
‑
t)由于参数量大，识别准确率低等原因，在离线识别这一领域已经逐步被基于注意力机制的编码器
‑
解码器模型(attention based encoderdecoder，aed)所替代。而在基于注意力机制的编码器
‑
解码器模型中，基于transformer 的asr以其高精度和高效的训练过程而受到越来越多的关注。但transformer模型仍旧存在一些缺点。现有的transformer模型使用点积操作来计算注意力权重，虽然这种基于内容的点积注意力善于捕捉全局交互，但它导致自注意力(self
‑
attention,sa)层的计算复杂度是输入特征长度的二次方。
3.因此，降低sa层的计算复杂度十分有必要。目前在自然语言处理方面的几项研究简化了点积自注意。具体来说，raganato等只在transformer编码器中保留一个可学习的注意力头，其他的注意力头则用简单固定的(不可学习)注意模式替换；tay等提出生成式注意力机制(dense synthesizer attention，dsa)，它使用两个前馈全连接层来预测注意力权重。与sa相比，dsa完全消除了点积运算和显式成对相互作用，并且在许多自然语言处理任务中取得了与sa相当的结果。
4.然而，在语音识别中，直接用dsa代替sa会导致三个问题。第一，dsa预测的注意力权重的长度是固定的，如果我们直接将dsa应用于asr，那么每个录音的长度必须填充到训练语料库最长录音的长度，这造成了训练时间的增加和内存占用上的浪费。第二，asr任务中的特征长度远大于语言模型中的特征长度，直接对如此长的特征预测注意力权重会导致错误率的显著增加。第三，与sa一样，dsa仍然没有提取细粒度特征模式的能力。

技术实现要素：

5.本发明解决的技术问题是：为了解决背景技术中提到的三个问题，我们提出局部生成式注意力机制(local dense synthesizer attention，ldsa)，将dsa的注意范围限制在当前语音帧周围的若干帧范围内。在ldsa中，当前帧仅限于与其有限的相邻帧相互作用。因此，ldsa预测的注意力权重的长度不再是最长录音的长度，而是由超参数控制的固定长度。ldsa不仅降低了存储和计算复杂度，而且显著提高了性能。最后，我们将ldsa和sa
结合起来，赋予模型同时提取局部和全局信息的能力。
6.本发明的技术方案是：一种编码器，该编码器中设有多头点积注意力子模块、生成式多头注意力子模块、局部生成式多头注意力子模块或者混合注意力子模块中的一种；
7.所述局部生成式多头注意力子模块表达为：
8.b＝softmax(σ
r
(xw1)w2)
9.v＝xw3[0010][0011]
ldsa(x)＝yw
o
[0012]
其中，为输入语音特征序列，其中t为语音序列的长度(帧数)，d为每一帧的特征维度；
[0013]
和是神经网络中的可学习权重； σ
r
是relu激活函数；
[0014]
b为预测的注意力权重；v为输入语音特征在特征空间中的投影；
[0015]
y为输出的经过上下文相关性建模的语音特征；
[0016]
所述混合注意力子模块表达式为：
[0017]
x
′
＝ldsa(x)
[0018]
y＝sa(x
′
)
[0019]
ldsa为上述局部生成式注意力子模块；
[0020]
sa为经典的自注意力模块；
[0021]
为输入语音特征序列；
[0022]
x’为ldsa的输出；y为整个混合注意力子模块的输出。
[0023]
本发明进一步的技术方案是：基于局部生成式注意力机制的端到端语音识别系统，其特征在于，包括特征提取模块、卷积前端模块、编码器模块和解码器模块；
[0024]
所述语音数据进入特征提取模块，经该特征提取模块提取特征后，输出mfcc特征矩阵至卷积前端模块中；经卷积前端模块对其进行压缩编码，输出压缩编码后的特征矩阵进入编码器模块；编码器模块对特征矩阵中的每一帧录音数据进行相关性建模，输出矩阵后进入解码器模块；解码器输出最终语音识别结果。
[0025]
本发明进一步的技术方案是：所述编码器模块中的卷积模块包含逐点卷积层、门控线性单元和一维深度卷积层，并在一维深度卷积层之后添加了批归一化层来帮助训练模型。
[0026]
发明效果
[0027]
本发明的技术效果在于：本发明与现有技术相比，有以下优点：
[0028]
(1)本发明中提出的局部生成式注意力机制用低复杂度的生成式注意力代替点积式的注意力机制，将编码器自注意力层的计算复杂度降为线性。
[0029]
(2)本发明将局部生成式注意力和原本的点积注意力结合起来应用在语音识别中，赋予模型同时提取局部信息和全局信息的能力，从而获得了更好的识别率。
[0030]
(3)现有的a模块和b模块只能识别语音的全局信息，而本发明设计的c模块和d 模
块中，c模块使得语音识别的乘法次数减少，从而降低了语音识别的计算复杂度；； d模块赋予模型同时提取局部信息和全局信息的能力，是提高语音识别性能。
[0031]
综上所述，transformer模型的核心是自注意力机制，它使用点积来计算注意力权重，导致计算复杂度是输入特征长度的二次方。而后提出的dsa避免了点积运算和显式的成对相互作用，在许多自然语言处理任务中取得了具有竞争力的结果。但在asr 任务中，dsa存在很大的时间、空间成本以及一定的缺陷。因此我们发明了一种新型的局部生成式注意力机制，将dsa的注意范围限制在当前语音帧周围的局部范围内，大大降低了计算复杂度。我们进一步将ldsa与sa相结合，同时提取局部和全局信息。从实验结果来看，ldsa
‑
transformer实现了6.49％的字符错误率(character errorrate，cer)，所提出的组合方法实现了6.18％的字符错误率，显著优于sa
‑
transformer。
附图说明
[0032]
图1为三种注意力机制的结构示意图
[0033]
图2为ldsa中上下文宽度对性能的影响
具体实施方式
[0034]
参加图1
‑
图2，下面结合实施实例，对本发明作进一步详细的描述。但是所描述的具体实施实例仅仅用以解释本发明，并不用于限制本发明的范围。此外，在以下说明中，省略了对公知结构和技术的描述，以避免不必要地混淆本发明的概念。
[0035]
本发明的技术方案是：一种基于transformer的端到端语音识别技术，具体包括以下步骤：
[0036]
(1)线性复杂度的自注意力变换网络编码器
[0037]
每个自注意力编码器模块包含一个全连接层，一个卷积模块以及一个多头自注意力模块。数学形式上，对于第i个自注意力变换网络块的输入x
i
，输出y
i
由公式(1)
‑
公式(3)可得。
[0038]
x
′
i
＝x
i
ldsa(x
i
)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(1)
[0039]
x
″
i
＝x
′
i
conv(x
′
i
)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(2)
[0040]
y
i
＝layernorm(x
″
i
ffn(x
″
i
))
ꢀꢀꢀꢀ
(3)
[0041]
其中ldsa指局部生成式多头自注意力模块，conv指卷积模块，ffn指全连接层， layernorm指层归一化。
[0042]
(2)多头注意力模块
[0043]
首先回顾经典的多头点积注意力和生成式多头注意力，然后介绍本发明中的局部生成式多头注意力。
[0044]
a.经典的多头点积注意力
[0045]
设为输入序列，其中t为序列的长度，d是sa层的神经元数量，第i个点积注意力头的计算公式可以描述为：
[0046]
[0047][0048]
其中，q
i
，k
i
，v
i
分别表示第i个注意力头的查询矩阵，键矩阵，值矩阵，表示第i个注意力头可学习的投影参数矩阵，d
k
＝d/h是每个头上特征向量的维度。由此，多头sa则可以表示为：
[0049]
multihead(q，k，v)＝concat(u1，
…
，u
h
)w
o
ꢀꢀꢀ
(6)
[0050][0051]
其中，是线性投影层的权重矩阵。
[0052]
b.生成式多头注意力
[0053]
dsa和sa的主要区别是注意力权重的计算方法，生成式注意力消除了sa模块中查询
‑
键
‑
值的概念，而是直接生成注意力权重。在实现上，dsa采用两个前馈全连接层来预测注意力权重，可以表述为：
[0054]
b＝softmax(σ
r
(xw1)w2)
ꢀꢀꢀꢀꢀꢀ
(8)
[0055]
其中，σ
r
是relu激活函数，和是可学习权重，dsa的输出表示如下：
[0056]
dsa(x)＝b(xw3)w
o
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(9)
[0057]
其中
[0058]
c.局部生成式多头注意力
[0059]
受卷积神经网络的启发，我们提出ldsa来解决dsa的弱点。ldsa限制当前帧只与其相邻帧交互，它定义了一个超参数c，称为上下文宽度，以控制预测的注意力权重的长度，然后将合成的注意力权重分配给当前帧及其相邻帧，上下文宽度以外的其他帧的注意权重将被设置为0。ldsa中注意力权重b的计算方法与dsa中注意力权重的计算方法相同。然而，由于ldsa中的它的时间和存储复杂性显著降低，ldsa的输出的计算方法为：
[0060]
v＝xw3ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(10)
[0061][0062]
ldsa(x)＝yw
o
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(12)
[0063]
d.混合注意力
[0064]
为了赋予模型同时提取局部信息和全局信息的能力，我们将提出ldsa与sa相结合，其中ldsa负责细粒度的局部信息的提取和整合，而sa负责对全局信息的建模。混合注意力输出的计算方法为：
[0065]
x
′
＝ldsa(x)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(13)
[0066]
y＝sa(x
′
)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(14)
[0067]
(3)卷积模块
[0068]
卷积模块包含逐点卷积层、门控线性单元(gated linear unit，glu)和一维深度
卷积层，并在一维深度卷积层之后添加了批归一化层来帮助训练模型。
[0069]
实施实例：
[0070]
(1)模型结构：
[0071]
sa
‑
transformer基线模型是一种改进的transformer语音识别模型，包括一个编码器和一个解码器，编码器由卷积前端和12个相同的编码器子块组成，每个子块包含 sa层、卷积层和前馈全连接层。对于卷积前端，我们堆叠了两个3
×
3的卷积层。我们将其时间维和频率维的步长均设置为2，以对输入特征进行下采样。解码器由词嵌入层和6个相同解码器子块组成，除了前馈全连接层之外，解码器子块还包含两个分别对标签序列的嵌入表示和编码器的输出执行多头注意力的sa层。
[0072]
ldsa
‑
transformer具有与基线模型相同的解码器。只是用ldsa代替了 sa
‑
transformer编码器中的自注意力机制。ldsa
‑
transformer编码器中的其他层与基线模型相同。而dsa
‑
transformer模型则只是将ldsa
‑
transformer中的ldsa更改为 dsa。
[0073]
ha
‑
transformer是sa和所提出的ldsa的组合，ldsa能够提取细粒度的局部模式，因此我们以串联的方式将它与擅长全局特征提取的sa组合起来。 ha
‑
transformer和sa
‑
transformer的区别在于ha
‑
transformer使用ldsa代替基线模型中的卷积层，剩下的部分保持不变。
[0074]
(2)数据准备：
[0075]
我们在一个公开的普通话语料库aishell
‑
1上评估了提出的模型，该语料库包含了 340名使用者记录的大约170小时的语音记录。我们使用官方的数据集划分方式，训练时间为150小时，验证时间为20小时，测试时间为10小时。对于所有的实验，我们使用40维梅尔滤波器组(fbank)特征作为输入。帧长和帧移分别设置为25ms和 10ms。对于输出，我们采用了一个由4230个汉字和2个额外的非语言符号组成的词汇集，这2个符号分别用来表示未知字符和句子的开始或结束。
[0076]
我们使用开源项目open
‑
transformer来构建模型。对于模型训练，使用adam作为优化器。我们还使用specaugment进行数据增强。经过80轮训练后，我们将最后10 轮模型的参数平均作为最终模型。在推理过程中，对所有模型使用了宽度为5的波束搜索。对于语言模型，使用open
‑
transformer的默认设置，并通过浅层融合将其集成到波束搜索中。对于所有实验，语言模型的权重被设置为0.1。
[0077]
(3)实验结果：
[0078]
我们首先研究了编码器中ldsa的超参数即上下文宽度c对识别错误率的影响，在实验中，我们固定了卷积核的大小。图2显示了模型相对于c的cer曲线。从图中我们看到，随着上下文宽度c的增大，字符错误率先减小后趋于稳定。基于以上结果，我们在接下来的对比实验中将c设置为31。
[0079]
实施例进一步比较了sa、dsa、ldsa以及ha几种注意力机制，表1列出了cer和注意力机制的复杂度。从表1中看到我们发明的ldsa
‑
transformer的性能明显优于dsa
‑
transformer。同时也发现，ldsa的计算复杂度与t呈线性关系，低于 sa和dsa。且sa与ldsa的组合ha
‑
transformer实现了最好的性能。
[0080]
表1不同注意机制的模型在测试集上的比较(t是输入特征的长度，c是上下文宽度)
[0081][0082]
本发明的上述具体实施方式仅仅用于示例性说明或解释本发明的原理，而不构成对本发明的限制，其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化，均应为等效的置换方式，都包含在本发明的保护范围之内。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

一种编码器及采用该编码器的基于局部生成式注意力机制的端到端语音识别系统的制作方法

相关文章

最热文献