一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种基于听觉感知注意力生成对抗网络的音乐带宽扩展方法

2022-11-16 15:11:24 来源:中国专利 TAG:


1.本发明涉及音频处理技术领域,具体涉及一种基于听觉感知注意力生成对抗网络的音乐带宽扩展方法。


背景技术:

2.随着大众消费习惯的转变和数字多媒体技术的飞速发展,流媒体音乐服务受到越来越多用户的支持与喜爱。为了保证流畅的用户体验,音乐信号在传输过程中会被压缩,导致高频信息的丢失。缺少高频成分的音乐,其层次感、自然度会大打折扣,听觉质量也会大幅下降。
3.带宽扩展技术可以从有损压缩的信号中恢复丢失的高频信息,通过低频生成高频信号,使得音频在听感上更加“明亮”。现有技术通常采用卷积神经网络来完成带宽扩展任务,生成质量优于高斯混合模型、隐马尔可夫模型等传统带宽扩展模型,但生成信号的语谱图在高频部分过于平滑,缺乏谐波结构等细节信息,导致听感不佳。
4.现有语音带宽扩展方法中使用注意力机制生成对抗网络,生成对抗网络的架构也为生成器、多判别器,但一般使用单种注意力机制,因此使生成信号的语谱图不够细节化,且不能适合音乐信号中包含各种乐器声,容易导致高频能量损失较大。


技术实现要素:

5.为了克服现有技术的不足,本发明的提出一种基于听觉感知注意力生成对抗网络的音乐带宽扩展方法,在一定程度上克服现有技术的不足,进一步提升带宽扩展的音质,生成高质量音乐信号。
6.本发明为实现上述目的,所采用的技术方案是:一种基于听觉感知注意力生成对抗网络的音乐带宽扩展方法,包含训练和预测两部分内容,其中,训练部分包括以下步骤:
7.步骤1,数据预处理,对原始音乐数据集进行预处理,预处理的步骤包括归一化、下采样和插值上采样操作,得到高频音乐信号和对应的低频音乐信号作为训练样本对;
8.步骤2,设计模型架构,对步骤1的训练样本对进行训练,得到生成对抗网络模型,生成对抗网络模型包括用于生成样本数据的生成器g和用于判别输入样本数据来源的多判别器d,具体步骤如下:
9.s2.1,搭建生成器g中的特征提取层:生成器的作用是尽可能生成逼真的高频音乐信号,生成器网络由特征提取层、听觉感知注意力层和高频恢复层三大部分组成;特征提取层包括依次连接的五个特征提取块,整体呈逐步缩小的结构,特征图大小随之变小;将步骤1得到的低频音乐信号x输入到特征提取层后,得到特征张量x
fe

10.s2.2,搭建生成器g中的听觉感知注意力层:听觉感知注意力层包括从输入到最终输出的残差连接、一维卷积、分帧、合并、拼接以及谐波、帧间和帧内注意力机制。s2.1中提取的特征张量x
fe
首先经过一个一维跨步卷积层,一维跨步卷积作用是继续将x
fe
的特征图大小压缩到1/2,接着经过一个relu激活函数。在使用注意力机制之前,x
fe
通过由一维卷积
组成的三条路径,分别将通道大小调整为原来的1/3(向下取整),对于帧间和帧内注意力机制,还需要对特征张量进行分帧,将它们连接成三维张量,最后得到三个特征张量分量th、t
ia
、t
ir
,将th、t
ia
、t
ir
分别输入到谐波、帧间和帧内注意力机制中,得到th'、ti'a、ti'r;对于ti'a和ti'r,先将其进行合并(即分帧和连接的反操作),然后将它们与th'在通道维度进行拼接,再经过一个一维卷积,一维卷积的作用是得到与x
fe
通道数相同的特征张量x'
fe
,最后添加一个残差连接使x
fe
与x'
fe
相加,相加后再经过一个一维跨步卷积层和一个relu激活函数,恢复特征图大小使其与x
fe
的特征图大小相同,得到听觉感知注意力的输出x
att

11.s2.3,搭建生成器g中的高频恢复层:高频恢复层包括依次连接的五个亚像素上采样块,整体呈逐步放大的结构,提升特征图的分辨率。其中,特征提取层与高频恢复层之间添加了跳跃连接,对应特征图和经过高频恢复层后同样大小的特征图按照通道拼接在一起;将步骤3得到的听觉感知注意力的输出x
att
输入到高频恢复层后得到x',最后添加一个残差连接使x与x'相加,得到生成器的最终输出
12.s2.4,搭建判别器d:判别器判断输入的信号是生成数据还是真实数据,并把判断结果反馈给生成器。判别器由四个判别网络d1、d2、d3、d4组成。每个判别器网络的输入不同,d1的输入为原始采样率的信号,d2、d3、d4的输入分别为2倍、4倍、8倍下采样的信号,下采样是通过平均池化实现的;将s2.3得到的和其对应的原始高频音乐信号y输入到判别器d后,得到输出d(y)和它们表示输入信号是真实数据的概率;
13.s2.5生成器损失计算:生成器g的损失函数lg包含能量损失l
energy
、傅里叶变换损失lf和对抗损失l
adv
;能量损失l
energy
和傅里叶变换损失lf由s2.3得到的和其对应的原始高频音乐信号y计算得到,对抗损失l
adv
由s2.4得到的d(y)和计算得到;计算出生成器损失lg后,反向传播并更新生成器参数;
14.s2.6:判别器损失计算:判别器d的损失函数ld为所有判别网络的对抗损失之和,由s2.4得到的d(y)和计算得到;计算出判别器损失ld后,反向传播并更新判别器参数;
15.预测部分包括以下步骤:
16.步骤1:舍弃判别器,保存生成器部分的参数作为训练完成的网络模型m;
17.步骤2:使用训练完成的网络模型m进行带宽扩展:将待扩展的低频音乐信号xm输入到网络模型m中,得到经过带宽扩展后的高频音乐信号
18.本发明的有益效果是:在生成器的特征提取层和高频恢复层之间嵌入听觉感知注意力层来增强模型捕捉特征的能力,相比现有带宽扩展方法使用的单种注意力机制,本发明听觉感知注意力层包含三条分支,每条分支从不同角度提取并突出音乐信号的重要特征:通过谐波注意力对各特征图进行加权,凸显语谱图中谐波等重要信号特征,增加生成音乐的自然度;通过帧间注意力对帧与帧之间的信息进行建模,使模型更好地关注音乐信号的长时相关性;通过帧内注意力来关注每一帧内部的重要信息,使语谱图更加细节化,听感更细腻。在生成器的损失函数中加入提出的能量损失,提高音乐信号高频部分的能量,使音乐听起来更加饱满。另外,在网络模型中加入多判别器,将语音合成领域的多判别器应用到音乐带宽扩展中,并对多判别器的个数及结构进行调整,使其与本发明中的生成器更加适配。多判别器拥有不同大小的感受野,能力更加强大,在一定程度上避免扩展后的语谱图高
频部分过于平滑的问题。
附图说明
19.图1为本发明提供的一种基于听觉感知注意力生成对抗网络的音乐带宽扩展方法的总体流程图;
20.图2为本发明中生成器网络的结构示意图;
21.图3为本发明中判别器网络的结构示意图。
具体实施方式
22.为使本公开实施例的目的、技术方案和优点更加清楚,下面将结合本公开实施例的附图,对本公开实施例的技术方案进行清楚、完整地描述。显然,所描述的实施例是本公开的一部分实施例,而不是全部的实施例。基于所描述的本公开的实施例,本领域普通技术人员在无需创造性劳动的前提下所获得的所有其他实施例,都属于本公开保护的范围。
23.本实施例的一种基于听觉感知注意力生成对抗网络的音乐带宽扩展方法,包含训练和预测两部分内容,训练部分通过设计合理的网络结构与目标函数来提供带宽扩展模型,预测部分为通过使用训练后的网络模型来完成带宽扩展任务,其中,训练部分包括以下步骤:
24.步骤1:数据预处理:对原始音乐数据集进行预处理,预处理的步骤包括归一化、下采样和插值上采样等操作,得到高频音乐信号y和对应的低频音乐信号x作为训练样本对;
25.预处理的具体内容包括以下步骤:
26.步骤1.1:从原始带宽为8000hz,采样率为16000hz的音乐数据集中随机选取长度(即采样点个数)为8000的音乐片段,对其进行归一化操作得到高频音乐信号y,使其幅值范围在[-1,1]区间内;
[0027]
步骤1.2:将高频音乐信号y下采样至原始采样率的1/4,由于生成器网络的设计需要输入数据与输出数据形状保持一致,因此还需再将下采样后的音乐信号插值上采样至原始采样率,从而得到低频音乐信号x;
[0028]
步骤2:设计模型架构,对步骤1的训练样本对进行训练,得到生成对抗网络模型,生成对抗网络模型包括用于生成样本数据的生成器g和用于判别输入样本数据来源的多判别器d,具体步骤如下:
[0029]
搭建生成器g中的特征提取层:生成器的作用是尽可能生成逼真的高频音乐信号,生成器网络由特征提取层、听觉感知注意力层和高频恢复层三大部分组成;特征提取层包括依次连接的五个特征提取块,分别为特征提取块一、特征提取块二、特征提取块三、特征提取块四、特征提取块五,整体呈逐步缩小的结构,特征图大小随之变小;每个特征提取块定义了一个一维跨步卷积和relu激活函数,各块卷积核数量分别为128,256,512,512,512,卷积核长度分别为65,33,17,9,9,卷积步长均为2;将前述步骤得到的低频音乐信号x输入到特征提取层后,得到特征张量x
fe

[0030]
搭建生成器g中的听觉感知注意力层:听觉感知注意力层包括从输入到最终输出的残差连接、一维卷积、分帧、合并、拼接以及谐波、帧间和帧内注意力机制。前述步骤中提取的特征张量x
fe
首先经过一个一维跨步卷积层,一维跨步卷积作用是继续将x
fe
的特征图
大小压缩到1/2,接着经过一个relu激活函数。在使用注意力机制之前,x
fe
通过由一维卷积组成的三条路径,分别将通道大小调整为原来的1/3(向下取整),对于帧间和帧内注意力机制,还需要对特征张量进行分帧,将它们连接成三维张量,最后得到三个特征张量分量th、t
ia
、t
ir
,将th、t
ia
、t
ir
分别输入到谐波、帧间和帧内注意力机制中,得到t
′h、t

ia
、t

ir
;对于t

ia
和t

ir
,先将其进行合并(即分帧和连接的反操作),然后将它们与t
′h在通道维度进行拼接,再经过一个一维卷积,一维卷积的作用是得到与x
fe
通道数相同的特征张量x'
fe
,最后添加一个残差连接使x
fe
与x'
fe
相加,相加后再经过一个一维跨步卷积层和一个relu激活函数,恢复特征图大小使其与x
fe
的特征图大小相同,得到听觉感知注意力的输出x
att

[0031]
听觉感知注意力层包括从输入到最终输出的残差连接、一维卷积、分帧、合并、拼接以及谐波、帧间和帧内注意力机制。前述步骤中提取的特征张量x
fe
首先经过一个一维跨步卷积,其卷积核个数为512,步长为2,作用是继续将x
fe
的特征图大小压缩到1/2,接着经过一个relu激活函数。在使用注意力机制之前,x
fe
通过由一维卷积组成的三条路径,分别将通道大小调整为原来的1/3(向下取整),对于帧间和帧内注意力机制,还需要采用重叠率30%的设置对特征张量进行分帧,将它们连接成三维张量,最后得到三个特征张量分量th、t
ia
、t
ir
,将th、t
ia
、t
ir
分别输入到谐波、帧间和帧内注意力机制中;
[0032]
谐波注意力首先需要对步骤3.1得到的特征th进行全局平均池化和全局最大池化,分别得到池化后的输出和然后将和连续送入到参数共享的线性层a和线性层b中,并将两个输出相加,最后再通过sigmoid函数得到谐波注意力权重atth,将权重系数atth与输入的特征th相乘,得到谐波注意力的输出t
′h,其计算公式如下:
[0033][0034]
t
′h=atthth,
[0035]
式中,wa和wb分别表示两个线性层的参数;
[0036]
帧间注意力首先把前述步骤得到的特征t
ia
分别乘以三个矩阵aq、ak、av,得到的q、k、v作为注意力函数的输入,计算得到帧间注意力权重att
ia
。最后,将权重系数att
ia
与v相乘,并输入到一个线性层中,得到帧间注意力的输出t

ia
,其计算公式如下:
[0037][0038]
t

ia
=w(att
ia
v),
[0039]
式中,表示缩放因子,w表示线性层权重参数;
[0040]
帧内注意力首先定义了一个深度可分离卷积,前述步骤得到的特征t
ir
经过卷积后,分别进行通道维度的最大池化和平均池化得到和然后将和在通道维度拼接起来。再经过一个一维卷积层,将通道大小由2降为1,最后通过sigmoid函数得到帧内注意力权重att
ir
,将权重系数att
ir
与输入的特征t
ir
相乘,得到帧内注意力的输出t

ir
,其计算公式如下:
[0041][0042]
t

ir
=att
ir
t
ir

[0043]
式中,c表示一维卷积层权重参数;
[0044]
对于前述步骤中得到的t

ia
和前述步骤得到的t

ir
,先将其进行合并(即分帧和连接的反操作),然后将它们与前述步骤得到的t
′h在通道维度进行拼接,再经过一个卷积核个数为512的一维卷积,其作用是得到与x
fe
通道数相同的特征张量x'
fe
,最后添加一个残差连接使x
fe
与x'
fe
相加,相加后再经过一个一维跨步卷积层和一个relu激活函数,恢复特征图大小使其与x
fe
的特征图大小相同,得到听觉感知注意力的输出x
att

[0045]
搭建生成器g中的高频恢复层:高频恢复层包括依次连接的五个亚像素上采样块,整体呈逐步放大的结构,提升特征图的分辨率。五个亚像素上采样块分别为亚像素上采样块一、亚像素上采样块二、亚像素上采样块三、亚像素上采样块四、亚像素上采样块五,整体呈逐步放大的结构,提升特征图的分辨率;每个亚像素上采样块定义了一个一维卷积、relu激活函数和亚像素重组层。亚像素上采样块各块卷积核数量分别为1024,1024,512,256,1,卷积核长度分别为9,17,33,65,9,卷积步长均为1;其中,其中,特征提取层与高频恢复层之间添加了跳跃连接,对应特征图和经过高频恢复层后同样大小的特征图按照通道拼接在一起;将前述步骤得到的听觉感知注意力的输出x
att
输入到高频恢复层后得到x',最后添加一个残差连接使x与x'相加,得到生成器的最终输出
[0046]
搭建判别器d:判别器判断输入的信号是生成数据还是真实数据,并把判断结果反馈给生成器。判别器由四个判别网络d1、d2、d3、d4组成。每个判别器网络的输入不同,d1的输入为原始采样率的信号,d2、d3、d4的输入分别为2倍、4倍、8倍下采样的信号,下采样是通过平均池化实现的;将前述步骤得到的和其对应的原始高频音乐信号y输入到判别器d后,得到输出d(y)和它们表示输入信号是真实数据的概率;
[0047]
生成器损失计算:生成器g的损失函数lg包含能量损失l
energy
、傅里叶变换损失lf和对抗损失l
adv
;能量损失l
energy
和傅里叶变换损失lf由前述步骤得到的和其对应的原始高频音乐信号y计算得到,对抗损失l
adv
由前述步骤得到的d(y)和计算得到;计算出生成器损失lg后,反向传播并更新生成器参数;生成器g的损失函数具体表示如下:
[0048]
lg=l
adv
αl
energy
βlf,
[0049]
式中,α,β为权重,α=0.0015,β=0.3;
[0050][0051]
式中,y(
·
)表示幅值,n表示采样点个数;
[0052][0053]
式中,||
·
||f表示frobenius范数,|
·
|1表示l1范数,|stft(
·
)|表示短时傅立叶变换的幅度值,n表示幅度值的元素个数;
[0054][0055]
式中,m表示不同参数的短时傅立叶变换损失的个数;
[0056][0057]
式中,k表示判别网络的个数;
[0058]
判别器损失计算:判别器d的损失函数ld为所有判别网络的对抗损失之和,由前述步骤得到的d(y)和计算得到;计算出判别器损失ld后,反向传播并更新判别器参数;判别器d的损失函数具体表示如下:
[0059][0060]
式中,k表示判别网络的序号,k=1,2,3,4;
[0061]
预测部分包括以下步骤:
[0062]
步骤1:舍弃判别器,保存生成器部分的参数作为训练完成的网络模型m;
[0063]
步骤2:使用训练完成的网络模型m进行带宽扩展:准备一段带宽为2000hz的低频音乐信号xm,将其输入到网络模型m中,得到经过带宽扩展后的高频音乐信号其带宽为8000hz。
[0064]
本发明提供了一个基于听觉感知注意力生成对抗网络的音乐带宽方法,该方法的网络模型由生成器和多判别器两部分组成。生成器包含特征提取层、听觉感知注意力层和高频恢复层,用来生成更加细节化的音乐信号;多判别器包含四个判别网络,每个判别网络对不同采样率的输入信号进行判断,并把判断结果反馈给生成器。目标函数中的能量损失用来提升高频部分的能量,傅里叶变换损失用来捕捉音乐信号在频域的分布,经过带宽扩展后得到的高频音乐信号谐波结构明显,语谱图的高频部分更加细节化。本方法相比于卷积神经网络,在客观指标方面,信噪比提升了1.2db,对数谱距离减少了18%,在主观评分方面,mos(平均意见得分)提高了0.26分。
[0065]
以上所述仅为本发明的实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其它相关的技术领域,均同理包括在本发明的专利保护范围内。
再多了解一些

本文用于创业者技术爱好者查询,仅供学习研究,如用于商业用途,请联系技术所有人。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献