技术特征:
1.一种基于残差高斯自注意力的transformer端到端语音识别方法,其特征在于,包括以下步骤:
步骤1:构建基于高斯残差自注意力的resgsa-transformer模型;
所述基于高斯残差自注意力的resgsa-transformer模型是在speech-transformer基础上将其中的自注意力模块替换为高斯残差自注意力模块构成;
所述基于高斯残差自注意力的resgsa-transformer模型由卷积前端、n个编码器子块、m个解码器子块和一个嵌入层堆叠组成;所述卷积前端采用两个2-d卷积层;每个编码器子块包含一个高斯残差自注意力模块和一个位置前馈模块;每个解码器子块除包含位置前馈模型外,还包含一个高斯残差自注意力模块和一个多头注意力层;
所述高斯残差自注意力模块描述如下:
步骤1-1:缩放点积自注意力,如式(1)所述:
其中,attn(·)表示注意力函数,q,k,v通过公式(2)得到:
q=xwq,k=xwk,v=xwv(2)
其中,
transformer框架的sa层使用多头注意力来进行并行计算,计算缩放点积注意力h次,然后将所有h个输出级联映射为最终的注意力值;
多头自注意力如公式(3)表述:
mha(q,k,v)=concat[h1,h2,...,hh]wo(3)
其中,
步骤1-2:使用一个软屏蔽窗口去屏蔽缩放点积自注意力形成屏蔽自注意力,如式(4)所示:
其中,m是软屏蔽矩阵;
步骤1-3:在屏蔽自注意力的基础上使用高斯分布作为加性偏差构成高斯自注意力gsa;
其中,
偏差矩阵g中的每个元素gtj表示当前帧xt和位置j之间的关系,如式(6)所示:
其中,pt,σt分别为xt的中心位置和标准差,gtj∈(-∞,0];
根据xt预测中心位置pt:
其中,vp和wp为fnn的待学习参数,pt∈(0,t);
令
其中,vd和wd为fnn的待学习参数;
当pt和σt都固定时,窗口权重遵循高斯分布;
步骤1-4:在高斯自注意力gsa基础上构成高斯残差自注意力resgsa;
每层的高斯残差自注意力resgsa将前一层的注意力得分与当前层的注意力得分求和,并用于softmax计算注意力权重:
其中,prev为前一层注意力得分,新的注意力得分
步骤2:使用公共语言普通话语料库,采用adam优化器和noam学习率对基于高斯残差自注意力的resgsa-transformer模型进行训练;训练完成,得到最终的基于高斯残差自注意力的resgsa-transformer模型;
步骤3:使用最终的基于高斯残差自注意力的resgsa-transformer模型对输入语音进行识别,得到输出文本。
2.根据权利要求1所述的一种基于残差高斯自注意力的transformer端到端语音识别方法,其特征在于,所述n=12,m=6。
3.根据权利要求1所述的一种基于残差高斯自注意力的transformer端到端语音识别方法,其特征在于,所述2-d卷积层的卷积核大小为3*3,步长为2,通道数为256,激活函数为relu。
4.根据权利要求1所述的一种基于残差高斯自注意力的transformer端到端语音识别方法,其特征在于,所述高斯残差自注意力模块和位置前馈模块的输出维度均为256,模块中每个层均使用残差连接以及层归一化,每个注意力层的注意力头个数均为4。
技术总结
本发明公开了一种基于残差高斯自注意力的Transformer端到端语音识别方法,属于基于注意力机制的编码器解码器模型,相比于已有的方法,能够动态自适应调整自注意力的窗长,提高灵活性的同时,提升模型性能。本发明内容如下:通过一个前馈神经网络(FNN,Feedforward Neural Network)学习高斯函数的均值和方差,使得模型可以根据输入帧长动态自适应调整自注意力的窗口长度,来进一步降低字符错误率(CER,Character Error Rate),并通过残差连接提高模型的收敛速度。在国际标准化组织评测数据AISHELL‑1的测试集上,resGSA‑Transformer的CER为5.86%,相对SA‑Transformer降低7.8%,并且参数和计算复杂度与SA‑Transformer大致相同。
技术研发人员:张晓雷;梁成栋;陈星
受保护的技术使用者:西北工业大学;西北工业大学深圳研究院
技术研发日:2021.05.06
技术公布日:2021.08.10
本文用于企业家、创业者技术爱好者查询,结果仅供参考。