技术特征:
1.一种基于cycle-gan的音频风格转换方法,其特征在于,所述方法包括以下步骤:
s1、通过cqt转换,获取音频的cqt频谱;
s2、利用cycle-gan模型对音频的cqt频谱进行风格迁移,得到对应目标领域音色的音频的cqt频谱,从而实现音频cqt频谱的转换;
s3、预训练wavenet模型,通过使用预训练的wavenet生成器,将步骤s2得到的cqt频谱进行相位的推断,实现从cqt频谱到时域音频的变换,最终实现音频音色的转换,获得目标风格音频。
2.根据权利要求权1所述的一种基于cycle-gan的音频风格转换方法,其特征在于,步骤s1获取音频的cqt频谱具体如下:
将音频的频率值ωk按以下模式进行几何分布:
其中k∈{1,2,3,…kmax}表示的是滤波器个数,b是一个决定不同频带之间几何分散的常数,ω0代表初始频率,kmax表示滤波器个数上限,为了使得不同频率的滤波器相邻接,第k个滤波器的带宽δk:
式(1)和式(2)得到不变的频率,计算分辨率比值q,也称为质量因素:
使用常数q变换即cqt变换,根据时域的波形获得cqt频谱;
对于cqt变换中的相关参数,使用16ms的帧跳跃,w0取为32.70hz,对应于键盘中最低的c音的频率,b取48,kmax设置为336,γ在0和1之间,在完成cqt转换后,对所得结果取对数幅度作为一张抛弃相位信息的图片。
3.根据权利要求权1所述的一种基于cycle-gan的音频风格转换方法,其特征在于,步骤s2的cycle-gan模型包括两个生成式对抗网络(gan,generativeadversarialnetworks)、生成器g、生成器f、判别器dx和判别器dy;
利用cycle-gan模型对音频的cqt频谱进行风格迁移,迁移过程如下:生成器g将x域的图片x转换为y域的风格,而生成器f将y域的图片y转换为x域的风格,生成器g和生成器f应该是互逆的,具体的,x域的图片
f(g(x))=x;g(f(y))=y(4)
为了使重构图片f(g(x))与原图x一致,重构图片g(f(y))与原图y一致,为此采用l1损失或者l2损失,实现一个循环一致性(cycleconsistency),使用一个循环一致性损失(cycleconsistencyloss):
同时训练两个gan:生成器g用于将x域的图片转换成y域风格的图片
cycle-gan模型的损失函数:
l(g,f,dx,dy)=lgan(g,dy,x,y) lgan(f,dx,y,x) lcyc(g,f)(7)
训练cycle-gan模型的时,在没有成对训练数据的情况下,将步骤s1中得到的cqt频谱从源域迁移到目标域;
cycle-gan模型经过训练后,在生成图片阶段,只需使用一个生成器g或者生成器f,进行一次单向的图片输入,则得到对应目标领域风格的图片,从而实现图片风格即音频风格的迁移。
4.根据权利要求权1所述的一种基于cycle-gan的音频风格转换方法,其特征在于,步骤s3获得目标风格音频是将步骤s2得到的cqt频谱转换为时域的音频,使用wavenet生成器来产生时域波形;
wavenet模型的预训练是对所有的扩张卷积层和初始的因果卷积使用内核大小为3的卷积核,在残差链接和跳跃连接中,所有的残差块都具有256的宽度,第一个因果卷积将通道大小从1映射到256,该模型使用adam优化器进行训练,学习率为0.0001,批大小为4,样本长度为8196;
所述wavenet生成器通过一个前向的生成过程,基于cqt频谱得到丢失的相位信息;
所述该wavenet生成器是一个自回归的生成模型,用于生成高质量的原始音频波形(rawwaveform),其主要作用是将cycle-gan模型转换后的音频的cqt频谱转换到频域。
5.一种实施权利要求1所述的一种基于cycle-gan的音频风格转换方法的系统,其特征在于,该系统包括cycle-gan模型和服务响应云平台;所述cycle-gan模型包括前向生成网络、逆向生成网络、两种风格的判别网络;其中,所述的前向生成网络,用于将输入音频通过cycle-gan模型转换为特定目标风格的音频;所述的逆向生成网络,用于将目标风格的音频通过cycle-gan模型为原来风格的音频;所述的两个风格的判别器分别用于判别原风格与目标风格;
所述的网络响应云平台,用于传输和响应用户请求的输入数据;
所述前向生成网络和逆向生成网络均为生成器;所述判别网络为判别器。
6.根据权利要求5所述的系统,其特征在于,cycle-gan模型参数作如下设置:对于输入的100维正态分布数据,先通过一个线性层将其转换为256维,再改变其形状为二维数据,随后,使用滤波器大小为5、步长为2的二维转置卷积操作对数据进行上采样,经过relu非线性层进行激活,重复该过程4次后,使用tanh函数层将数据范围压缩在-1和1之间,输出作为生成器的生成样本;
对于判别器,接收生成器产生的样本,连续使用5组由滤波器大小为5、步长为2的二维卷积和α=0.2的lrelu非线性层进行下采样,通过改变形状后使用一个全连接层缩小数据的维度,输出判别的结果。
7.根据权利要求5所述的系统,其特征在于,网络响应云平台对用户请求的响应包括以下步骤:
s1、用户通过从网页端向服务端上传音频文件,向服务端发起服务请求;
s4、服务端接收到来自用户的请求之后,服务端调用搭载在网络响应云平台上已经训练好的cycle-gan模型,对上传的音频文件进行处理;
在此期间,服务端从cycle-gan模型的输出日志中获得cycle-gan模型的当前状态,将cycle-gan模型的当前状态打包后发送回网页端用户交互平台,并将当前处理文件处理状态及预训练网络状态输出到网页,即实时向用户显示模型当前对数据处理的进程;
s3、cycle-gan模型处理用户在网页交互平台上传的音频文件之后,将得到的转换后音频文件保存在服务器,服务器再将该转换后音频文件发送到网页端用户交互平台,网页端接收到文件之后,下载按钮从灰色变亮,提示用户数据处理完毕,能够进行下载。
技术总结
本发明公开了一种基于Cycle‑GAN的音频风格转换方法及系统,所述方法包括以下步骤:S1、通过CQT转换计算音频的CQT频谱;S2、利用Cycle‑GAN模型的非时域表达音色转换,得到对应目标领域风格的音频,从而实现音频风格迁移;S3、获得目标风格音频。该系统包括前向生成网络、逆向生成网络、两种风格的判别网络以及服务响应云平台,其中,前向生成网络,用于将输入音频转换为特定目标风格的音频;逆向生成网络,用于将目标风格的音频转换为原来风格的音频;网络响应云平台,用于传输和响应用户请求的输入数据等。本发明将生成对抗网络应用于音频风格转换,并且保持相应的语义信息,具有广阔的应用前景。
技术研发人员:谢裕麟;贾奎;曾锦权;麦泺欣
受保护的技术使用者:华南理工大学
技术研发日:2019.11.24
技术公布日:2021.06.11
本文用于企业家、创业者技术爱好者查询,结果仅供参考。