技术特征:
1.基于生成网络的虚拟低音转换方法,其特征在于,包括下列步骤:
步骤1:设置基于循环生成网络的初始虚拟低音生成网络的网络结构:
所述虚拟低音生成网路包括生成器gx→y和生成器gy→x,以及判别器dx和判别器dy;其中,生成器gx→y分别与生成器gy→x和判别器dy相连,生成器gy→x分别与判别器dx和判别器dy相连,x表示输入数据所在的特征空间,y表示输出数据所在的特征空间;
步骤2:对初始虚拟低音生成网络进行深度学习训练:
步骤201:设置第一训练数据集:
采集原始音频信号集,所述原始音频信号集包括多帧原始音频信号;
对当前帧的原始音频信号进行快速傅里叶变换,得到频域信号,再基于预设的截止频率对所述频域信号进行低通滤波,得到原始低频信号;
根据预设的基第一虚拟低音处理方式,对当前帧的原始音频信号进行第一虚拟低音处理,得到第一虚拟低音信号;
对当前帧的原始低频信号和第一虚拟低音信号相加,得到当前帧的第一重构虚拟低音信号;
将当前帧的原始音频信号作为一个训练样本数据,并将当前帧的第一重构虚拟低音信号作为该训练样本的目标数据,得到第一训练数据集;
步骤202:基于第一训练数据集对初始虚拟低音生成网络进行第一网络参数训练:
将当前训练样本数据xi分别输入生成器gx→y和判别器dx;
训练样本数据经生成器gx→y得到生成音频gx→y(xi),再将生成音频gx→y(xi)分别输入生成器gy→x和判别器dy;
所述生成音频gx→y(xi)经生成器gy→x得到生成音频gy→x(gx→y(xi));
将当前训练样本数据的目标数据yi分别输入判别器dy和生成器gy→x,目标数据yi经生成器gy→x得到生成音频gy→x(yi);
将所述生成音频gy→x(yi)分别输入生成器gx→y和判别器dx,生成音频g(y)经生成器gx→y得到生成音频gx→y(gy→x(yi));
训练时,所采用的损失函数为lfull:
lfull=ladv(gx→y,dy) ladv(gy→x,dx) λcyclcyc(gx→y,gy→x) λidlid(gx→y,gy→x)
其中,λcyc和λid分别表示损失函数lcyc(gx→y,gy→x)和lid(gx→y,gy→x)的权重;
损失函数
损失函数
损失函数
损失函数
其中,e[]表示数学期望,pdata()表示括号中对象的分布,dy(yi)表示判别器dy对真实目标样本的打分,dy(gx→y(xi))表示判别器dy对生成目标样本的打分,dx(xi)表示判别器dx对真实原始样本的打分,dx(gy→x(yi))表示判别器dx对生成原始样本的打分,||||1表示l1范数;
当满足预设的第一网络参数训练的收敛条件时,将生成器gx→y作为虚拟低音生成网络;
步骤3:对待转换的原始音频信号进行分帧后对单帧进行快速傅里叶变换,以使得到的单帧数据与步骤2训练得到的虚拟低音生成网络的输入相匹配;
再将各帧数据输入所述虚拟低音生成网络,得到当前帧的网络输出信号;
对各帧的网络输出信号进行高通滤波处理得到各帧的虚拟低音数据,按单帧数据的时序对快速逆傅里叶变换后的单帧虚拟低音数据进行拼接,得到对应待转换的原始音频信号的虚拟低音信号。
2.如权利要求1所述的方法,其特征在于,所述步骤2还包括:
步骤201还包括:将原始音频信号集分为两部分,其中一部分的数据量大于另一部分,并将数量较大的部分记为第一原始音频信号子集,数据量较小的部分记为第二原始音频信号子集;
步骤202中,仅对第一原始音频信号子集中的各原始音频信号进行第一虚拟低音处理,得到第一虚拟低音信号;并且当满足预设的第一网络参数训练的收敛条件时,执行步骤203;
所述步骤203包括:
设置第二训练数据集:
根据预设的第二虚拟低音处理方式,对第二原始音频信号子集中的单帧的原始音频信号进行第二虚拟低音处理,得到当前帧的第二虚拟低音信号;并对当前帧的原始低频信号和第二虚拟低音信号相加,得到当前帧的第二重构虚拟低音信号;
将当前帧的原始音频信号作为一个训练样本数据,将当前帧的第二重构虚拟低音信号作为该训练样本的目标数据,得到第二训练数据集;
基于第二训练数据集对步骤202训练后的初始虚拟低音生成网络进行第二网络参数训练,训练时所采用的损失函数为lfull,当满足预设的第二网络参数训练的收敛条件时,将生成器gx→y作为虚拟低音生成网络。
3.如权利要求2所述的方法,其特征在于,在进行第一或第二网络参数训练时,当训练次数达到训练次数指定值时,将权重λid的值置为0。
4.如权利要求3所述的方法,其特征在于,所述训练次数指定值的数量级为104。
5.如权利要求3或4所述的方法,其特征在于,当训练次数未达到训练次数指定值时,将权重λcyc和λid的取值分别设置为10和5。
6.如权利要求1或2所述的方法,其特征在于,步骤201中,单帧长度为32ms,低通滤波的截止频率为120hz。
7.如权利要求2所述的方法,其特征在于,第一原始音频信号子集与第二原始音频信号子集的数据量比值为7:1。
技术总结
本发明公开了一种基于生成网络的虚拟低音转换方法,属于音频处理技术领域。本发明于基于循环生成网络设置初始虚拟低音生成网络,两个生成器和两个判别器,并基于所设置的训练数据对初始虚拟低音生成网络进行训练,当满足收敛条件时,将初始虚拟低音生成网络的第一生成器作为虚拟低音生成网络;再将待转换的原始音频数据输入其中,基于虚拟低音生成网络的输出得到转换结果。经本发明生成的虚拟低音的时域波形与传统方法生成虚拟低音的时域波形在低音轮廓上近乎一致。此外,本发明则仅仅基于所训练好的虚拟低音生成网络即可,无需在每次生成时都进行繁琐的参数设置和调整。
技术研发人员:史创;郭嘉祺;杨浩聪;陶盛奇
受保护的技术使用者:电子科技大学
技术研发日:2021.04.28
技术公布日:2021.08.03
本文用于企业家、创业者技术爱好者查询,结果仅供参考。