一种基于动态门控卷积循环网络的语音增强方法与流程

2022-04-06 23:22:12 来源：中国专利 TAG：

技术特征：
1.一种基于动态卷积门控卷积循环网络的语音增强方法，该方法包括：步骤1：建立语音增强网络；步骤1.1：构造ddf空间参数输入的语音x有c
i
个通道，其频率方向大小为h,时间方向大小为t，输入表示为x∈r
c
×
h
×
t
；将期望生成的滤波器沿着频率方向的长度设置为k，沿着时间方向的长度设置为l，即期望使用大小为k
×
l的滤波器处理输入特征，则应用一个输入通道为c
i
，输出通道为kl的1
×
1卷积层对其进行处理，得到空间上参数z
(sp)
∈r
kl
×
h
×
w
，即然后对z
(sp)
的每个空间位置上长度为kl
×1×
1的向量进行归一化，即1的向量进行归一化，即其中，e[
·
]和std[
·
]分别表示取均值和标准差，而α和γ是可学习的参数；最后将沿着通道第一个维度复制c
i
份得到规整后的形式为步骤1.2：构造ddf通道参数首先对x的每个通道取均值得到x
gap
∈r
c
×1×1，再连续使用两个1
×
1卷积对x
gap
进行处理，最终得到通道分支参数所述的两个卷积分别表示为和并且σ是取值范围为(0,1)区间内的常数，即：并且σ是取值范围为(0,1)区间内的常数，即：其中，φ表示线性整流激活函数，将z
(ch)
沿着第2个维度复制h次，再沿着第3个维度复制t次得到规整后的形式为步骤1.3：融合空间参数和通道参数将得到的和逐点对应相乘得到再将的第一个维度拆解成大小为c
i
、k和t的三个新的维度得到最终的得到通过步骤1.1～1.2构造的卷积层滤波器，由于该滤波器是根据输入动态生成并被用于与输入信号进行卷积，故而称为动态卷积核，对于输入的每个通道和每个时间、频率位置，都具有对应的大小为k
×
l的滤波器参数；步骤1.4：应用处理输入x，将得到的输出结果记为y∈r
c
×
h
×
t
；其中，表示在通道为c，频率位置为i，时间位置为j上大小为k
×
l的滤波
器中位置为(k,l)处的滤波器参数，x[c,i-k,j-l]通道为c，频率位置为i-k，时间位置为j-l的输入样本点；步骤2：由纯净语音数据集x
train
构造含噪语音数据集构造含噪语音数据集其中，x
train
表示纯净语音数据集，n
train
为指定信噪比的加性噪声；将纯净语音数据集x
train
和含噪语音数据集经过短时傅里叶变换进行特征提取，获得相应语音信号的stft谱数据集：训练输入和训练目标输出x
train
；步骤3：训练步骤1得到的语音增强网络；将步骤2所得的作为输入信号，x
train
作为目标，使用如下所示的mse作为损失函数进行卷积神经网络训练，其中，为步骤1得到的语音增强网络的实际输出，和分别表示对信号取实部和虚部，直到训练完毕；步骤4：采用训练好的语音增强网络对实际语音进行增强处理。2.如权利要求1所述的一种基于动态卷积门控卷积循环网络的语音增强方法，其特征在于，所述语音增强网络中通过构造空间参数和通道参数生成的卷积核大小均设为(k,l)＝(3,1)，所述语音增强网络设置5个带门控分支的卷积层和5个带门控分支的反卷积层，称为门控卷积模块和门控反卷积模块，即对每个模块中的卷积层和反卷积层均使用并行的门控分支进行调整，门控分支的设置与卷积层一致，但使用sigmoid作为激活函数；卷积层和反卷积层的滤波器系数使用步骤1.3得到的中为卷积层和反卷积层提供相应的系数；此外，前5个门控卷积模块通过将步长设置为2不断压缩输入沿频率方向的大小，即每过一个卷积层，输入的长度减小一半，而后5个门控反卷积模块通过将步长设置为2不断将输入的长度恢复成原来的2倍；所有卷积层和反卷积层的通道数均设置为64；长短时记忆的输入特征数和隐藏神经元数均为320，所有激活函数均使用prelu。进行stft时，将语音信号使用汉明窗进行分帧，每帧帧长256，相邻两帧重叠50％的采样点，逐帧进行傅里叶变换即可得到信号语谱图；由于语音是实信号，其频谱是共轭对称的，因此仅取半边谱，即每帧129长度送入语音增强网络。

技术总结
该发明公开了一种基于动态门控卷积循环网络的语音增强方法，属于人工智能领域。本发明提出将动态卷积应用于语音增强，并改进了门控卷积循环网络的门控卷积模块和门控反卷积模块，使动态卷积模块，即动态解耦滤波器能够很好地与现有结构融合。在本发明中，在信号通过每一个动态卷积模块或者动态反卷积模块时，根据输入从通道和空间两个方向生成用于卷积的滤波器参数，这使得传统网络的卷积层内容不可知的缺陷被弥补，实验表明本发明能够显著提高低信噪比下的语音质量，实际性能优于现有深度学习语音增强方法。度学习语音增强方法。度学习语音增强方法。

技术研发人员：陈延涛刘欣悦董彬虹唐文岐
受保护的技术使用者：电子科技大学
技术研发日：2021.12.13
技术公布日：2022/4/5

再多了解一些

2/2 首页上一页 1 2

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

一种基于动态门控卷积循环网络的语音增强方法与流程

相关文献

最热文献