技术特征:
1.基于自适应掩膜和分组线性变换的轻量级语音识别方法,其特征在于:该方法包括以下步骤:
s1:基于自适应掩膜注意力机制的编码;
s2:基于分组线性变换。
2.根据权利要求1所述的基于自适应掩膜和分组线性变换的轻量级语音识别方法,其特征在于:所述s1具体为:
对于长度为t,维度为d为的语音特征序列x=[x1,x2,…,xt,…,xt]t,其中
其中,wθ∈[0,w]为可学习的网络参数,其能够控制允许信息反向传播的注意力作用范围;自适应掩膜参数m(t,i)∈[0,1]用于计算最终的注意力权值bt,j;scoret,j为原始注意力得分;abs(·)表示取绝对值,r是用于缓冲的超参数;将bt,j作用于各表示子空间中自x映射的值向量
随后,将各表示子空间的输出序列按维度拼接,得到自适应掩膜注意力机制的输出序列;自适应掩膜注意力机制将根据自注意力机制的输出结果,对语音序列进行局部特征提取;并通过耦合叠加的方式,融合全局和局部两种不同层次的信息;最后将提取的特征通过含有两层全连接网络的前馈网络以丰富网络的表达能力。
3.根据权利要求2所述的基于自适应掩膜和分组线性变换的轻量级语音识别方法,其特征在于:所述s2具体为:
构建分组切分操作,将输入和输出分成gl组,l为解码网络的层数;然后使用混合器将分组的输入和输出混合,形成扩张和收缩两个阶段的“缩放单元”;
在扩张阶段,分组组数随着网络深度的加深而变多,神经元数量也会变多,反之亦然;
在收缩阶段,“缩放单元”中配置5个配置参数:深度n、宽度因子mw、输入维度dm、输出维度do、最大组数gmax;在扩张阶段,该单元将维度为dm的输入序列映射到更高维度,限制最高维度dmax=mwdm,同时各层层数将会线性地增加到
其中,yl为一个“缩放单元”中某一层l的输出,π为分组线性变换,π的输入为输入特征序列x或者中间层输出结果γ(x,yl-1);
过程1:函数γ首先将对yl-1进行切分,然后使用混合器将切分结果与输入特征序列x的切分结果进行合并,过程1为一个分组线性变换;各层组数的划分依据为:
为进一步实现网络的轻量化,除考虑构筑块内的特征序列维度的扩张和收缩外,还考虑构筑块之间的堆叠所造成的影响;在各个构筑块间引入不同的深度和宽度因子约束:
其中,nb和
技术总结
本发明涉及一种基于自适应掩膜和分组线性变换的轻量级语音识别方法,属于数据处理领域。该方法包括以下步骤:S1:基于自适应掩膜注意力机制的编码;S2:基于分组线性变换。本发明从模型算法角度出发,为解决语音识别在边缘计算设备上的轻量化部署难题提供一种新的方法,通过基于自适应掩膜的局部注意力机制提取语音特征的局部信息并与融合全局信息,使用基于分组线性变换的解码网络,完成对语音高层抽象特征的轻量化解码。
技术研发人员:李鹏华;程家伟;刘行谋;张亚鹏;俞方舟;陈旭赢;乐磊;张恩浪;董江林
受保护的技术使用者:重庆邮电大学
技术研发日:2021.04.06
技术公布日:2021.07.13
本文用于企业家、创业者技术爱好者查询,结果仅供参考。