一种基于卷积自注意力编码结构的语音增强方法

2023-03-01 12:00:01 来源：中国专利 TAG：

技术特征：
1.一种基于卷积自注意力编码结构的语音增强方法，其特征在于，包括以下步骤：步骤1，将待训练的单通道语音信号与各种加性噪声按0、5、10db的信噪比混合，生成含噪语音，并与纯净语音一起构成训练数据集；步骤2，将步骤1所得训练数据集中的含噪语音、纯净语音，分别通过分帧、加窗、短时傅里叶变换，得到含噪语音、纯净语音的幅度谱图，并且根据含噪语音和对应纯净语音的幅度谱计算理想比例掩蔽矩阵；步骤3，将步骤2得到的含噪语音的幅度谱图和理想比例掩蔽矩阵，分别作为卷积自注意力编码结构的输入特征和标签，基于前向传播和反向传播算法，训练卷积自注意力编码结构；步骤4，将待测试的单通道纯净语音信号与各种加性噪声按任意不同信噪比混合，得到测试数据集，并通过分帧、加窗、短时傅里叶变换，得到含噪测试语音的幅度谱图和相位谱；步骤5，将步骤4得到的测试语音幅度谱图作为卷积自注意力编码结构的输入特征输出理想比例掩蔽矩阵的估计值，并将其与步骤4含噪测试语音的幅度谱图逐元素相乘得到增强语音的幅度谱图，并利用步骤4所得含噪测试语音的相位谱，得到增强语音信号的频谱，通过短时傅里叶逆变换和重叠相加得到时域波形，实现语音增强。2.根据权利要求1所述的一种基于卷积自注意力编码结构的语音增强方法，其特征在于：所述卷积自注意力编码结构是基于卷积神经网络的编解码器结构，在卷积层和反卷积层之间加入自注意力编码模块，并在卷积层和反卷积层之间的特征拼接通路使用残差密集块。3.根据权利要求1所述的一种基于卷积自注意力编码结构的语音增强方法，其特征在于：所述卷积自注意力编码结构在卷积层和反卷积层之间使用自注意力编码模块捕获特征内部的依赖性，使用两个自注意力编码器，每个编码器含有8个多头自注意力。4.根据权利要求1所述的一种基于卷积自注意力编码结构的语音增强方法，其特征在于：所述卷积自注意力编码结构使用残差密集块进一步处理特征拼接通路中卷积层的输出特征，每个残差密集块包含2个级联的卷积块，残差密集块的输入和2个卷积块之间采用无反馈密集连接，第二个卷积块后接卷积核大小为1
×
1的卷积层以保持与残差密集块输入特征尺寸相同，最后采用残差连接实现与残差密集块输入特征进行特征连接，得到残差密集块的输出特征。5.根据权利要求1所述的一种基于卷积自注意力编码结构的语音增强方法，其特征在于：所述卷积自注意力编码结构使用理想比例掩蔽的均方误差损失函数，其公式为：于：所述卷积自注意力编码结构使用理想比例掩蔽的均方误差损失函数，其公式为：其中，loss表示卷积自注意力编码结构的损失函数，(f,k)为语音信号第k帧经傅里叶变换后的第f个频点值，为含噪语音幅度谱图经卷积自注意力编码结构映射得到的理想比例掩蔽矩阵估计值，irm(f,k)为理想比例掩蔽值，f(f,k)、n(f,k)分别为纯净语音信号和噪声信号对应的频谱。

技术总结
本发明公布了一种基于卷积自注意力编码结构的语音增强方法。在训练阶段将训练集纯净语音信号、含噪语音信号分别进行短时傅里叶变换，计算理想比例掩蔽矩阵作为训练标签，将含噪语音的幅度谱图作为卷积自注意力编码结构的输入特征进行训练。卷积自注意力编码结构由编码器、解码器、残差密集块和自注意力编码模块组成。在测试阶段，卷积自注意力编码结构将测试含噪语音的幅度谱图映射为掩蔽值矩阵，根据掩蔽值重构纯净语音的幅度谱图，结合原始含噪语音的相位谱，得到增强语音信号。在不同声学环境下的仿真测试表明，基于不同的语音质量客观评估方法，本发明显著提高含噪语音的客观评价指标，并且对于未知声学环境具有较强的泛化能力。化能力。化能力。

技术研发人员：曹焱翔闫桐嘉周琳庄程浩王启瑞邓宇汐程云苓
受保护的技术使用者：东南大学
技术研发日：2022.10.21
技术公布日：2023/2/6

再多了解一些

2/2 首页上一页 1 2

本文用于创业者技术爱好者查询，仅供学习研究，如用于商业用途，请联系技术所有人。

上一篇：返回列表
下一篇：用于处理嵌入在MPEG-H3D音频流中的辅媒体流的方法及设备与流程

一种基于卷积自注意力编码结构的语音增强方法

相关文献

最热文献