一种基于自适应注意力机制和渐进式学习的单声道语音增强方法与流程

2021-07-23 21:35:00 来源：中国专利 TAG：语音增强自适应注意力单声道

技术特征：

1.一种基于自适应注意力机制和渐进式学习的单声道语音增强方法，其特征在于，包括以下步骤：

步骤1：对原始语音信号进行短时傅立叶变换得到原始语谱图；

步骤2：将原始语谱图输入单声道语音增强模型，由单声道语音增强模型输出第一阶段特征图；

步骤3：将原始语谱图与第一阶段特征图进行融合得到混合特征图；

步骤4：将混合特征图输入单声道语音增强模型，由单声道语音增强模型输出第二阶段特征图；

步骤5：对第二阶段特征图进行反短时傅里叶变换得到增强语音信号。

2.按权利要求1所述基于自适应注意力机制和渐进式学习的单声道语音增强方法，其特征在于，所述步骤3的具体过程为：

步骤3-1：将原始语谱图与第一阶段特征图进行拼接，得到拼接特征图；

步骤3-2：将拼接特征图输入卷积记忆门控单元(convgru)，由卷积记忆门控单元输出混合特征图。

3.按权利要求1所述基于自适应注意力机制和渐进式学习的单声道语音增强方法，其特征在于，所述单声道语音增强模型由语音特征编码器、堆叠线性门控单元和语音特征解码器串联构成；

所述语音特征编码器由4个基于注意力的自适应卷积模块(attention-basedadaptiveconvolutionblock，aacb)串联构成，依次为第一至第四自适应卷积模块；其中，第一自适应卷积模块的输入通道数为4、输出通道数为4，第二至第四自适应卷积模块的输出通道数依次为8、16、32；

所述语音特征解码器由4个基于注意力的自适应卷积模块(attention-basedadaptiveconvolutionblock，aacb)串联构成，依次为第五至第八自适应卷积模块；其中，第五自适应卷积模块的输入通道数为32、输出通道数为16，第六至第八自适应卷积模块的输出通道数依次为8、4、1；

所述堆叠线性门控单元由多个个线性门控单元(glu)串联构成。

4.按权利要求3所述基于自适应注意力机制和渐进式学习的单声道语音增强方法，其特征在于，所述基于注意力的自适应卷积模块包括：全局平均池化层、k个操作层、卷积核大小为(1,1)的二维卷积层与注意力机制模块，其中，第一操作层为平均池化层，第二至第k操作层均为二维卷积层、且卷积核大小依次递增；

输入特征图同时输入全局平均池化层与k个操作层，k个操作层分别输出特征图：{h¹,h²,...,h^k}；全局平均池化层输出平均信息z＝{z1,z2,...,zq}：

其中，q为输入通道索引、q＝1,2,...,q、q为基于注意力的自适应卷积模块的输入通道数，t表示输入特征图的帧长，f表示输入特征图的频率，xi,j,q表示特征值；

所述注意力机制模块计算每个操作层的注意力权重并归一化：

α＝w2·σ(w1·z)，α＝{α1,α2,...,αk}

其中，与分别表示注意力机制中待训练的权重矩阵，αk表示第k个操作层的注意力权重、k＝1,2,...,k，cr为预设超参数，σ(·)表示sigmoid激活函数；

将每个操作层输出的特征图与注意力权重相乘后进行拼接，得到特征图h：

将特征图h输入到卷积核大小为(1,1)的二维卷积中压缩特征图中的通道数，压缩后与输入特征图做残差连接后作为基于注意力的自适应卷积模块的输出。

技术总结
本发明属于语音增强技术领域，具体提供一种基于自适应注意力机制和渐进式学习的单声道语音增强方法，用以解决现有基于CNN的语音增强模型因固定感受野导致泛化能力差的问题。本发明根据注意力机制构建得到自适应卷积模块(AACB)，模块中并行构建多个感受野的卷积层，并根据输入特征信息为每个卷积层提取的特征分配权重，经过加权拼接实现模块的感受野的自适应调节，有效克服传统卷积模块固定感受野带来的特征提取的局限性问题；同时，本发明基于所述自适应卷积模块构建得到语音增强模型，并采用渐进式学习框架实现的复用，减小模型复杂度。综上，本发明能够适应不同环境下的语音特征提取，显著提升语音增强的泛化性和鲁棒性。

技术研发人员：蓝天;刘峤;吴祖峰;王钇翔;李佳佳;台文鑫;陈聪;冯雨佳;康宏博
受保护的技术使用者：电子科技大学
技术研发日：2021.04.16
技术公布日：2021.07.23

再多了解一些

2/2 首页上一页 1 2

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：一种基于重参数化的解耦方式的音频特征提取方法及装置与流程

一种基于自适应注意力机制和渐进式学习的单声道语音增强方法与流程

相关文章

最热文献