一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种基于生成式对抗网络的音频风格统一的方法与流程

2021-07-09 09:19:00 来源:中国专利 TAG:对抗 深度 生成 音频 风格


1.本发明涉及深度学习技术领域,尤其涉及一种基于生成式对抗网络的音频风格统一的方法。


背景技术:

2.音频的风格统一,是指将某一说话者的音色、副语言(情绪及语调)等特点赋予到合成的音频中,也被称为语音风格转移。语音风格转移的研究不仅可以促进语音信号处理的理论研究,还能够促进交叉领域理论和应用的融合,具有重要的地位。
3.目前语音风格转移技术已有数十年的发展历程,伴随着语音转换技术发展,语音风格转移技术也获得了许多成果。国内由初敏等人(初敏,吕士楠.一种将psola算法与语音正弦模型结合的合成方法[c]//第五届全国人机语音通讯学术会议论文集.1998.)提出了基于时域基频同步叠加技术的方法来实现男声与女声转换。desai等提出使用bp神经网络的方法实现语音转换(desai s,raghavendra e v,yegnanarayana b,et al.voice conversion using artificial neural networks[j].2009.)。得益于深度学习的发展,人们对以往的模型进行了新的改造,如sun,lifa,et al.使用长短时序列记忆网络,来实现语音转换(greff k,srivastava r k,koutnik j,et al.lstm:a search space odyssey[j].ieee transactions on neural networks&learning systems,2016,28(10):2222

2232.)。为了进一步提高语音转换的质量,chris donahue等提出使用基于深度卷积生成对抗网络的wavegan来实现语音转换(donahue c,mcauley j,puckette m.adversarial audio synthesis[j].2018.),但由于直接简单的将语音信号处理为语谱图,所以实验效果不理想。
[0004]
参考文献
[0005]
[1]初敏,吕士楠.一种将psola算法与语音正弦模型结合的合成方法[c]//第五届全国人机语音通讯学术会议论文集.1998.
[0006]
[2]desai s,raghavendra e v,yegnanarayana b,et al.voice conversion using artificial neuralnetworks[j].2009.
[0007]
[3]greff k,srivastava r k,koutnik j,et al.lstm:a search space odyssey[j].ieee transactions on neural networks&learning systems,2016,28(10):2222

2232.
[0008]
[4]donahue c,mcauley j,puckette m.adversarial audio synthesis[j].2018.


技术实现要素:

[0009]
有鉴于此,本发明的目的在于提出一种人工干预少、易于实现自动化且实施可靠便利、处理快速的基于生成式对抗网络的音频风格统一的方法。
[0010]
为了实现上述的技术目的,本发明所采用的技术方案为:
[0011]
一种基于生成式对抗网络的音频风格统一的方法,包括:
[0012]
s01、获取初始数据集和噪声数据集;
[0013]
s02、按预设条件对初始数据集和噪声数据集进行预处理,生成噪声混合音频;
[0014]
s03、获取风格模板音频;
[0015]
s04、构建生成网络模型,训练获得生成器网络g,所述生成器网络g用于音频风格统一,所述噪声混合音频和风格模板音频输入生成器网络g后,输出目标风格音频和目标风格频谱;
[0016]
s05、获取风格模板音频对应的风格模板频谱;
[0017]
s06、构建判别网络模型,训练获得判别器网络d,所述判别器网络d用于衡量生成器网络g输出的目标风格频谱和风格模板频谱的相似程度,将所述目标风格频谱和风格模板频谱输入判别器网络d后,由判别器网络d对二者进行判别,并输出映射到[0,1]之间的概率分数;
[0018]
s07、构建损失函数模型,接入生成网络模型和判别网络模型,通过生成网络模型中的生成器网络g计算信息的损失程度,通过判别网络模型的判别器网络d评判风格损失程度,然后训练获得生成式对抗网络;
[0019]
s08、通过生成式对抗网络对待风格转化的音频进行音频风格统一转换,输出风格转换音频。
[0020]
作为一种可能的实施方式,进一步,所述的初始数据集包括清华大学中文语音数据集thchs30中干净的音频的集合;
[0021]
所述的噪声数据集包括清华大学中文语音数据集thchs30中3种噪声音频的集合。
[0022]
作为一种可能的实施方式,进一步,所述的风格模板频谱为风格模板音频做傅里叶正变换后的频谱。
[0023]
作为一种较优的选择实施方式,优选的,步骤s02中,按预设条件对初始数据集和噪声数据集进行预处理,生成噪声混合音频的方法为:
[0024]
s021、将初始数据集和噪声数据集分别进行重采样为16.384khz,且分别将其以4秒钟为间隔长度进行分割;
[0025]
s022、按预设公式生成噪声混合音频,生成噪声混合音频的公式为:
[0026]
z=c n*r
[0027]
其中,c代表重采样并进行分割后的初始数据集中的一段音频;n代表重采样并进行分割后的噪声数据集中的一段音频;r代表在[0.1,0.3]之间随机数;z代表生成的噪声混合音频中的一段音频。
[0028]
作为一种较优的选择实施方式,优选的,所述的风格模板音频为从重采样且进行分割后的初始数据集中随机抽取或从预先构建的风格模板音频库中抽取。
[0029]
作为一种较优的选择实施方式,优选的,所述噪声混合音频和风格模板音频中还均随机抽取85%的音频单元作为训练数据集,其余15%作为测试数据集;所述的训练数据集和测试数据集用于生成器网络g和/或判别器网络d的训练或测试。
[0030]
作为一种较优的选择实施方式,优选的,所述的生成器网络g包括噪声混合音频编码器、风格模板音频编码器和解码器;
[0031]
其中,生成器网络g具有两个输入端和两个输出端,其中一输入端用于输入噪声混
合音频做傅里叶正变换之后的频谱,其大小为257*513*1,另一输入端用于输入风格模板频谱,其大小为257*513*1;其中一输出端用于输出目标风格频谱,其大小为257*513*1,该目标风格频谱被用于输入到判别器网络d进行比较,另一输出端用于输出目标风格频谱做傅里叶反变换之后的音频,即目标风格音频;
[0032]
另外,噪声混合音频编码器包括8个编码器单元,每一个编码器单元的卷积核大小规格为3*3,步幅为2,激活函数为relu,而每一个编码器单元的卷积核个数依次为16,32,64,128,256,512,1024,2048,第一个编码器单元用于输入噪声混合音频做傅里叶正变换之后的频谱,其大小为257*513*1,其之后的每一个编码器单元的输入特征均为上一编码器单元的输出特征,最后一个编码器单元的输出尺度为2*3*2048;
[0033]
风格模板音频编码器包括8个编码器单元,每一个编码器单元的卷积核大小规格为3*3,步幅为2,激活函数为relu,而每一个编码器单元的卷积核个数依次为16,32,64,128,256,512,1024,2048,第一个编码器单元用于输入风格模板频谱,其大小为257*513*1,其之后的每一个编码器单元的输入特征均为上一编码器单元的输出特征,最后一个编码器单元的输出尺度为2*3*2048;
[0034]
解码器包括8个解码器单元,每一个解码器单元的反卷积核的大小均为3*3,步幅为2,激活函数为relu,而每一个解码器单元的反卷积核个数依次为1024、512、256、128、64、32、16、8,第一个解码器单元用于输入噪声混合音频编码器输出特征和风格模板音频编码器输出特征经张量拼接的结果,其之后的每一个解码器单元的输入特征均为上一解码器单元的输出特征,最后一个解码器单元的输出尺度为257*513*1。
[0035]
作为一种较优的选择实施方式,优选的,所述的判别器网络d包括6层卷积层和5层全连接层;
[0036]
其中,判别器网络d具有两个输入端和一个输出端,其中一输入端用于输入生成器网络g输出的目标风格频谱,其大小为257*513*1,另一输入端用于输入风格模板频谱,其大小为257*513*1,其输出端用于输出目标风格频谱和风格模板频谱的相似程度,且该相似程度结果通过[0,1]之间的概率分数形式输出;
[0037]
另外,由判别器网络d输入端输入的数据在进入卷积层之前,还将目标风格频谱和风格模板频谱做张量拼接处理,经处理形成一个大小为257*513*2的特征被送入到卷积层,每一个卷积层的卷积核大小均为3*3,步幅为2,卷积前经batchnorm批量标准化,激活函数为relu,而每一个卷积层的通道依次为32,64,128,256,512,1024,第一个卷积层为输入目标风格频谱和风格模板频谱做张量拼接处理的结果,其之后的每一个卷积层的输入特征均为上一个卷积层的输出特征,最后一个卷积层的输出尺度为5*9*1024;
[0038]
全连接层的每一层神经元个数依次为46080,1024,256,64,1,其中其最后一层采用sigmoid作为激活函数,其他层均采用relu作为激活函数,全连接层的输入端用于输入最后一卷积层输出拉直之后的特征结果,全连接层的输出端用于输出目标风格频谱和风格模板频谱的相似程度,且该相似程度结果通过[0,1]之间的概率分数形式输出。
[0039]
作为一种较优的选择实施方式,优选的,通过生成式对抗网络对待风格转化的音频进行音频风格统一转换之前,还对生成式对抗网络的网络参数进行优化处理,获得网络性能最优的参数。
[0040]
作为一种较优的选择实施方式,优选的,构建损失函数模型,接入生成网络模型和
判别网络模型,通过生成网络模型中的生成器网络g计算信息的损失程度,通过判别网络模型的判别器网络d评判风格损失程度,然后训练获得生成式对抗网络的具体方法为:
[0041]
(1)将判别器网络d的损失函数l
d
定义为:
[0042]
l
d
=(d(c,x)

1)2 (d(g(z,x),x))2ꢀꢀ
(1)
[0043]
(2)生成器网络g的损失函数l
g
由两部分组成,其一部分是判别器网络d输出的l
gd
,另一部分是生成器网络g输出的目标风格音频和初始数据集的音频的差异,记为其中,
[0044]
l
gd
=d(g(z,x),x)
ꢀꢀ
(2)
[0045][0046][0047]
式(1),(2),(3),(4)中,n为生成器网络g输出的目标风格的频谱中矩阵元素的个数;c为初始数据集中的一段音频做傅里叶正变换之后的频谱;z为噪声混合音频做傅里叶正变换之后的频谱;x为风格模板音频做傅里叶正变换之后的频谱;k为超参数,用来控制两部分损失的权重;
[0048]
(3)采用学习率为0.001的adam算法对生成器网络g进行优化;采用学习率为0.0001的adam算法对判别器网络d进行优化,以此,通过对生成式对抗网络参数进行优化,获得生成式对抗网络性能最优的参数。
[0049]
采用上述的技术方案,本发明与现有技术相比,其具有的有益效果为:本方案提出了一种基于生成式对抗思想的网络,该网络利用判别器网络监督训练生成器网络,最终可以使得噪声混合音频的风格和风格模板音频的风格相统一,并且生成器网络模型采用编码器

解码器的全卷积结构,能够快速地进行统一处理,通过网络的训练,减少了人工干预,易于实现自动化,可以比较方便的按照用户选定的音频风格去调整其他输入音频的风格。
附图说明
[0050]
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0051]
图1是本发明方案的部分简要系统流程框图;
[0052]
图2是本发明方案生成器的网络结构图;
[0053]
图3是本发明方案判别器的网络结构图。
具体实施方式
[0054]
下面结合附图和实施例,对本发明作进一步的详细描述。特别指出的是,以下实施例仅用于说明本发明,但不对本发明的范围进行限定。同样的,以下实施例仅为本发明的部分实施例而非全部实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
[0055]
本实施例以清华大学中文语音数据集thchs30中干净的音频的集合作为初始数据
集,将其设为实验数据集;
[0056]
以清华大学中文语音数据集thchs30中3种噪声音频的集合作为噪声数据集进行举例;
[0057]
所述的风格模板音频为从重采样且进行分割后的初始数据集中随机抽取或从预先构建的风格模板音频库中抽取。
[0058]
本实施例一种基于生成式对抗网络的音频风格统一的方法,其实施步骤的系统框图如附图1所示,其具体实施步骤如下:
[0059]
1.获取实验数据集和噪声数据集。实验数据集是清华大学中文语音数据集(thchs30)中干净的音频的集合;噪声数据集是清华大学中文语音数据集(thchs30)中3种噪声音频的集合。
[0060]
2.将实验数据集和噪声数据集进行预处理,生成噪声混合音频和风格模板音频并确定与其相关的训练数据集和测试数据集。
[0061]
本步骤具体如下:
[0062]
(2.1)将实验数据集和噪声数据集分别进行重采样16.384khz,并将此以4秒钟间隔进行分割。
[0063]
(2.2)生成的噪声混合音频的公式为:z=c n*r;式中c代表重采样并进行分割后的实验数据集中的一段音频;n代表重采样并进行分割后的噪声数据集中的一段音频;r代表在[0.1,0.3]之间随机数;z代表生成的噪声混合音频中的一段音频;生成的风格模板音频则是从重采样并进行分割后的实验数据集中随机抽取。
[0064]
(2.3)从噪声混合音频和风格模板音频中随机抽取85%作为训练数据集,剩下的15%作为测试数据集。
[0065]
3.搭建生成网络模型,训练生成器网络g用于音频风格统一,输入为噪声混合音频和风格模板音频,输出为目标风格的音频和目标风格的频谱。
[0066]
结合图2所示,本步骤具体包括:
[0067]
(3.1)生成器网络g由噪声混合音频编码器,风格模板音频编码器和解码器组成。生成器网络g有两个输入和两个输出。输入端一个是噪声混合音频做傅里叶正变换之后的频谱,大小为257*513*1;另一个是风格模板音频做傅里叶正变换之后的频谱,大小为257*513*1。输出端一个是目标风格音频的频谱,大小为257*513*1,输入到判别网络进行比较;另一个是目标风格音频的频谱做傅里叶反变换之后的音频。
[0068]
(3.2)噪声混合音频编码器由8个编码器单元组成。每一个编码器单元的卷积核大小均为3*3,步幅为2,激活函数为relu,而每一个编码器单元的卷积核个数依次为16,32,64,128,256,512,1024,2048。第一个编码器单元的输入是噪声混合音频做傅里叶正变换之后的频谱,大小为257*513*1,之后每一个编码器单元的输入均为上一个编码器单元的输出特征,最后一个编码器单元的输出尺度为2*3*2048。
[0069]
(3.3)风格模板音频编码器由8个编码器单元组成。每一个编码器单元的卷积核大小均为3*3,步幅为2,激活函数为relu,而每一个编码器单元的卷积核个数依次为16,32,64,128,256,512,1024,2048。第一个编码器单元的输入是风格模板音频做傅里叶正变换之后的频谱,大小为257*513*1,之后每一个编码器单元的输入均为上一个编码器单元的输出特征,最后一个编码器单元的输出尺度为2*3*2048。
[0070]
(3.4)解码器由8个解码器单元组成。每一个解码器单元的反卷积核大小均为3*3,步幅为2,激活函数为relu,而每一个解码器单元的反卷积核个数依次为1024,512,256,128,64,32,16,8。第一个解码器单元的输入是噪声混合音频编码器的输入与风格模板音频编码器的输出张量拼接的结果,之后每一个解码器单元的输入均为上一个解码器单元的输出特征与噪声混合音频编码器中和该解码器单元大小相同的编码器单元的输出张量拼接的结果,最后一个解码器单元的输出尺度为257*513*1。
[0071]
4.搭建判别网络模型,训练判别器网络d用以衡量生成器输出的目标风格的频谱和风格模板频谱的相似程度,输入为生成器输出的目标风格的频谱和风格模板音频频谱,对二者进行判别,输出映射到[0,1]之间的概率分数。
[0072]
结合图3所示,本步骤具体包括:
[0073]
(4.1)判别器网络d由6层卷积层和5层全连接层组成。判别器网络d有两个输入和一个输出。输入端一个是生成器输出的目标风格的频谱,大小为257*513*1;另一个是风格模板音频做傅里叶正变换之后的频谱,大小为257*513*1。输出端是一个[0,1]之间的概率分数。
[0074]
(4.2)在卷积层之前先将生成器输出的目标风格的频谱与风格模板音频做傅里叶正变换之后的频谱做张量拼接,形成一个大小为257*513*2的输入送入到卷积层。每一个卷积层的卷积核大小均为3*3,步幅为2,batchnorm批量标准化,激活函数为relu,而每一个卷积层的通道数依次为32,64,128,256,512,1024。第一个卷积层的输入为上述的张量拼接的结果,之后的每一个卷积层的输入均为上一个卷积层的输出特征,最后一个卷积层的输出尺度为5*9*1024。
[0075]
(4.3)全连接层的每一层的神经元个数依次为46080,1024,256,64,1,其中最后一层采用sigmoid作为激活函数,其他层采用relu作为激活函数。全连接层的输入为上述的最后一个卷积层的输出拉直之后的结果,全连接层的输出为[0,1]之间的概率分数,用以衡量生成器输出的目标风格的频谱和风格模板频谱的相似程度。
[0076]
5.构建损失函数模型,损失函数由两部分组成,一部分由生成器网络g产生,计算信息的损失程度;另一部分由判别器网络d产生,用于评判风格损失程度。然后训练生成式对抗网络,通过对网络参数进行优化,找到网络性能最优的参数。
[0077]
本步骤具体包括:
[0078]
(5.1)判别器网络d的损失函数l
d
定义为:
[0079]
l
d
=(d(c,x)

1)2 (d(g(z,x),x))2ꢀꢀ
(1)
[0080]
(5.2)生成器网络g的损失函数l
g
由两部分组成,一部分是判别器的输出l
gd
,另一部分是生成器的输出和实验数据集音频的差异,记为
[0081]
l
gd
=d(g(z,x),x)
ꢀꢀ
(2)
[0082][0083][0084]
式(1),(2),(3),(4)中,n为生成器网络g输出的目标风格的频谱中矩阵元素的个数;c为实验数据集中的一段音频做傅里叶正变换之后的频谱;z为噪声混合音频做傅里叶
正变换之后的频谱;x为风格模板音频做傅里叶正变换之后的频谱;k为超参数,用来控制两部分损失的权重。
[0085]
(5.3)采用学习率为0.001的adam算法对生成器网络g进行优化;采用学习率为0.0001的adam算法对判别器网络d进行优化,通过对网络参数进行优化,找到网络性能最优的参数。
[0086]
6.通过采用最优参数的生成式对抗网络对待风格转化的音频进行音频风格统一转换,输出风格转换音频,本方案中,待风格转化的音频为实验数据集中的音频,且输出的风格转换音频为生成式对抗网络在网络性能最优参数下对应的目标风格音频。
[0087]
以上所述仅为本发明的部分实施例,并非因此限制本发明的保护范围,凡是利用本发明说明书及附图内容所作的等效装置或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文章

  • 日榜
  • 周榜
  • 月榜