一种基于可控最大熵自编码器的零样本语音风格迁移方法与流程

2022-02-19 00:29:21 来源：中国专利 TAG：

技术特征：
1.一种基于可控最大熵自编码器的零样本语音风格迁移方法，其特征在于，包括如下步骤：步骤1：通过多个说话人的语音构建语音数据集，人工标注语音数据集中每段语音对应的说话人，将每段语音对应的说话人采用one
‑
hot的编码方式进行编码得到每段语音对应的标注标签，通过每段语音对应的标注标签构建标签数据集；步骤2，构建可控熵风格特征提取分类网络，将语音数据集中每段语音通过语音信号梅尔谱图计算方法得到语音数据集中段语音对应的梅尔谱图，将每段语音对应的梅尔谱图依次输入至可控熵风格特征提取分类网络预测分类得到每段语音预测的说话人，结合标签数据集每段语音的说话人构建可控熵风格特征提取分类网络损失函数模型，进一步通过梯度反向传播法进行优化得到优化后可控熵风格特征提取分类网络；步骤3：构建无标注语音数据集；步骤4：构建可控最大熵语音风格迁移自编码器网络，将无标注语音数据集中每段语音通过语音信号梅尔谱图计算方法得到无标注语音中段语音对应的梅尔谱图，将每段无标注语音对应的梅尔谱图依次输入至可控最大熵语音风格迁移自编码器网络生成重构的语音梅尔谱图，结合相应的输入无标注语音中段语音对应的梅尔谱图构建可控最大熵语音风格迁移自编码器模型损失函数模型，进一步通过梯度反向传播法进行优化得到优化后可控最大熵语音风格迁移自编码器模型；步骤5：引入源语音以及目标语音，将源语音以及目标语音分别通过梅尔谱图计算得到源语音对应的梅尔谱图、目标语音对应的梅尔谱图，将目标语音对应的梅尔谱图依次通过步骤2所述优化后的可控最大熵语音风格迁移自编码器网络的可控熵风格特征提取器、过步骤2所述可控最大熵语音风格迁移自编码器网络的语音风格采样器进行风格特征提取，得到目标语音对应的风格特征；将源语音通过步骤4所述优化后的可控最大熵语音风格迁移自编码器网络的可控熵内容特征提取器、步骤4所述优化后的可控最大熵语音风格迁移自编码器网络语音内容采样器，进行内容特征提取，得到源语音对应的内容特征；将目标语音对应的风格特征、源语音对应的内容特征通过步骤4所述优化后的可控最大熵语音风格迁移自编码器网络的解码器进行融合得到生成风格迁移后语音样本的梅尔谱图，将风格迁移后语音样本的梅尔谱图通过频谱逆变器转换为风格迁移之后的语音片段。2.根据权利要求1所述的基于可控最大熵自编码器的零样本语音风格迁移方法，其特征在于，步骤1所述语音数据集为：s＝{x1,x2,
…
,x
n
}x
i
＝(x
i,1
,x
i,2
,...,x
i,ti
)i∈[1,n]其中，x
i
表示语音数据集中第i段语音，n表示语音数据集中语音段的数量，t
i
表示语音数据集中第i段语音中帧的数量，x
i,t
表示语音数据集中第i段语音中第t帧语音片段；步骤1所述标签数据集为：ys＝{y1,y2,
…
,y
n
}其中，y
i
标签数据集中第i段语音的说话人，n表示语音数据集中语音段的数量。3.根据权利要求1所述的基于可控最大熵自编码器的零样本语音风格迁移方法，其特征在于，步骤2所述的语音数据集中每段语音对应的梅尔谱图为：
其中，表示语音数据集中第i段语音对应的梅尔谱图，n表示语音数据集中语音段的数量，i∈[1,n]；步骤2所述的可控熵风格特征提取分类网络由可控熵风格特征提取器、语音风格特征采样器、说话人分类器串联级联构成；所述的可控熵风格特征提取器e
s
由第一长短期记忆网络、第二长短期记忆网络、第一残差块、第二残差块、第二残差块依次串联级联构成；所述的第一残差块、第二残差块、第二残差块均由残差连接层、批归一化层、激活函数层依次串联级联构成；所述的语音风格特征采样模块由并联高斯分布采样器与并联狄拉克函数分布采样模块连接构成；所述并联高斯分布采样模块由第一高斯分布采样器、第二高斯分布采样器、
…
、第k高斯分布采样器依次并联构成；所述并联狄拉克函数分布采样模块由第一中心为零的狄拉克函数分布采样器、第二中心为零的狄拉克函数分布采样器、
…
、第k中心为零的狄拉克函数分布采样器依次并联构成；所述的说话人分类器由全连接层、softmax分类层串联级联构成；步骤2.1，所述可控熵风格特征提取器对语音数据集中第i段语音对应的梅尔谱图进行提取，得到语音数据集中第i段语音的k维风格特征均值向量、语音数据集中第i段语音的k维风格特征方差向量、语音数据集中第i段语音的k维风格特征的最大熵控调节参数向量；所述的可控熵风格特征提取器，具体计算过程为：其中，e
s
表示可控熵风格特征提取器，为语音数据集中第i个语音片段对应的梅尔谱图，μ
s_i
表示语音数据集中第i个语音片段对应的k维风格特征均值向量，表示语音数据集中第i段语音的k维风格特征方差向量,γ
s_i
表示语音数据集中第i段语音的k维风格特征的最大熵控调节参数向量；步骤2.2，将步骤2.1中可控熵风格特征提取器输出的语音数据集中第i段语音的k维风格特征均值向量μ
s_i
、语音数据集中第i段语音的k维风格特征方差向量语音数据集中第i段语音的k维风格特征的最大熵控调节参数向量γ
s_i
，输入语音风格特征采样器进行多次采样，得到语音数据集中第i段语音的风格特征；所述多次采样描述为：其中，j表示进行的采样次数，j表示第j次采样，k表示风格特征的维度，k表示风格特征的维度索引值，i表示语音数据集中的第i段语音，μ
s_ik
表示语音数据集中第i段语音的k维
风格特征均值向量μ
s_i
的第k维，表示语音数据集中第i段语音的k维风格特征方差向量的第k维，γ
s_ik
表示语音数据集中第i段语音的k维风格特征的最大熵控调节参数向量γ
s_i
的第k维，表示针对数据集中的第i段语音，第j次对其风格特征的第k维，从一个均值为μ
s_ik
，方差为的高斯分布中采样得到s
ik_j
，δ(s
ik_j
)表示一个中心为零的狄拉克函数(dirac delta function)，f
s_i
表示语音数据集中第i段语音的风格特征；步骤2.3，将步骤2.2采样得到的语音数据集中第i段语音的风格特征输入说话人分类器中，预测语音数据集中第i段语音的说话人；所述的说话人分类器，具体计算过程为：其中，c表示说话人分类器，f
s_i
表示语音数据集中第i段语音的风格特征，为预测的语音数据集中第i段语音对应说话人说话人标签的概率分布；步骤2所述构建可控熵风格特征提取分类网络损失函数模型为：l
cls
＝λ
ce
*l
ce
λ
cmhs
*l
cmhscmhscmhs
其中，l
ce
表示交叉熵损失函数，l
cmhs
表示可控最大熵风格约束损失，λ
ce
和λ
cmhs
表示交叉熵损失函数和可控最大熵风格约束损失的权重值，n表示语音数据集中语音段的数量，i表示语音数据集中语音段的序号，k表示语音风格特征的维度，k表示语音风格特征的维度索引值，γ
i
表示语音数据集中第i段语音对应的说话人编码，为步骤2.3中提及的预测的说话人标签的概率分布，表示第i个语音片段风格特征的最大熵控调节参数的均值，γ
s_ik
表示步骤2.2提及的第i个语音片段风格特征的最大熵控调节参数的第k维，α表示人为设定的最大熵控调节参数。4.根据权利要求1所述的基于可控最大熵自编码器的零样本语音风格迁移方法，其特征在于，步骤3所述无标注语音数据集为：as＝{a1,a2,
…
,a
n’}a
i’＝(a
i’,1
,a
i’,2
,
…
,a
i’,t’i
,)i'∈[1,n’]其中，a
i’l
表示语音数据集中第i'段语音，n’表示语音数据集中语音段的数量，t’i
表示语音数据集中第i'段语音中帧的数量，a
i’,t’表示语音数据集中第i'段语音中第t’帧语音片
段。5.根据权利要求1所述的基于可控最大熵自编码器的零样本语音风格迁移方法，其特征在于，步骤4中所述无标注语音数据集中每段语音对应的梅尔谱图为：其中，表示无标注语音数据集中第i'段语音对应的梅尔谱图，n’表示语音数据集中语音段的数量，i'∈[1,n’]；步骤4所述可控最大熵语音风格迁移自编码器网络由步骤2所述优化后可控熵风格特征提取分类网络的可控熵风格特征提取器、步骤2所述优化后可控熵风格特征提取分类网络的语音风格特征采样器、可控熵内容特征提取器、语音内容特征采样器、语音特征解码器构成；步骤2所述优化后可控熵风格特征提取分类网络的可控熵风格特征提取器与语音风格特征采样器串联后，进一步与所述可控熵内容特征提取器和所述语音内容特征采样器串联后并联，再与语音特征解码器依次串联级联构成；所述的可控熵内容特征提取器由第一内容残差块、第二内容残差块、第三内容残差块、第四内容残差块、第五内容残差块、第一内容双向长短期记忆网络、第二内容双向长短期记忆网络、第三内容双向长短期记忆网络依次串联级联构成；所述的第一内容残差块、第二内容残差块、第三内容残差块、第四内容残差块、第五内容残差块均由残差连接层、批归一化层、激活函数层依次串联级联构成；所述的语音内容特征采样器由并联内容高斯分布采样模块与并联内容狄拉克函数分布采样模块连接构成；所述并联内容高斯分布采样器由第一内容高斯分布采样器、第二内容高斯分布采样器、
…
、第d内容高斯分布采样器依次并联构成；所述并联内容狄拉克函数分布采样模块由第一中心为零的内容狄拉克函数分布采样器、第二中心为零的内容狄拉克函数分布采样器、
…
、第d中心为零的内容狄拉克函数分布采样器依次并联构成；所述的语音特征解码器由第一级联层，第一解码残差块、第二解码残差块、第三解码残差块，第一解码双向长短期记忆网络、第二解码双向长短期记忆网络、第三解码双向长短期记忆网络，第一卷积块、第二卷积块依次串联级联构成；第一解码残差块、第二解码残差块、第三解码残差块均由残差连接层、批归一化层、激活函数层依次串联级联构成；所述的第一卷积块、第二卷积块均由卷积层、批归一化、激活函数依次串联级联构成；步骤4.1，固定步骤2所述的可控熵风格特征提取分类网络的参数，步骤2所述优化后可控熵风格特征提取分类网络的可控熵风格特征提取器按照步骤2.1所述方法对无标注语音数据集中第i'段语音对应的梅尔谱图进行提取，得到无标注语音数据集中第i'段语音的k维内容特征均值向量、无标注语音数据集中第i'段语音的k维内容特征方差向量、无标注语音数据集中第i'段语音的k维内容特征的最大熵控调节参数向量；进一步将上述得到无标注语音数据集中第i'段语音的k维内容特征均值向量、无标注语音数据集中第i'段语音的k维内容特征方差向量、无标注语音数据集中第i'段语音的k维内容特征的最大熵控调节参
数向量通过步骤2所述优化后可控熵风格特征提取分类网络的语音风格特征采样器采样得到无标注语音数据集中第i'段语音对应的风格特征:f
s_i
′
，其中i'∈[1,n’]，n’表示无标注语音数据集中语音段的数量；步骤4.2，所述可控熵内容特征提取器对无标注语音数据集中第i'段语音对应的梅尔谱图进行提取，得到无标注语音数据集中第i'段语音的d维内容特征均值向量、无标注语音数据集中第i'段语音的d维内容特征方差向量、无标注语音数据集中第i'段语音的d维内容特征的最大熵控调节参数向量；所述可控熵内容特征提取器，具体计算过程为：其中，e
c
表示可控熵内容特征提取器，为无标注语音数据集中第i'段语音片段对应的梅尔谱图，μ
c_i
′
表示无标注语音数据集中第i'段语音片段对应的d维内容特征均值向量，表示无标注语音数据集中第i'段语音的d维内容特征方差向量,γ
c_i
′
表示无标注语音数据集中第i'段语音的d维内容特征的最大熵控调节参数向量；步骤4.3，将步骤4.2中可控熵内容特征提取器输出的无标注语音数据集中第i'段语音的d维内容特征均值向量μ
c_i
′
、无标注语音数据集中第i'段语音的d维内容特征方差向量无标注语音数据集中第i'段语音的d维内容特征的最大熵控调节参数向量μ
c_i
′
，输入语音内容特征采样器进行多次采样，得到无标注语音数据集中第i'段语音的内容特征；其采样过程可形式化描述为：其中，j表示进行的采样次数，j表示第j次采样，d表示内容特征的维度，d表示内容特征的维度索引值，i'表示无标注语音数据集中的第i'段语音，μ
c_i
′
d
表示无标注语音数据集中第i'段语音的d维内容特征均值向量μ
c_i
′
的第d维，表示无标注语音数据集中第i'段语音的d维内容特征方差向量的第d维，μ
c_i
′
d
表示无标注语音数据集中第i'段语音的d维内容特征的最大熵控调节参数向量γ
c_i
′
的第d维，表示针对无标注数据集中的第i'段语音，第j次对其内容特征的第d维，从一个均值为μ
c_i
′
d
，方差为的高斯分布中采样得到c
i
′
d_j
，δ(c
i
′
d_j
)表示一个中心为零的狄拉克函数(dirac delta function)，f
c_i
′
表示无标注语音数据集中第i'段语音的内容特征；步骤4.4，所述语音特征解码器将步骤4.1所得的无标注语音数据集中第i'段语音对应的风格特征f
s_i
′
和步骤4.3所得的无标注语音数据集中第i'段语音对应的内容特征f
c_i
′
解码重构为无标注语音数据集中第i'段语音对应的梅尔谱图；所述语音特征解码器，具体计算过程为：
其中，d表示语音特征解码器，表示无标注语音数据集中第i'段语音对应的风格特征，表示无标注语音数据集中第i'段语音对应的内容特征，表示重构出来的无标注语音数据集中第i'段语音对应的梅尔谱图；步骤4所构建的可控最大熵语音风格迁移自编码器模型损失函数模型为：l
res
＝λ2*l2 λ
cmhc
*l
cmhccmhccmhc
其中，l2表示l2范数损失，l
cmhc
表示可控最大熵内容约束损失，λ2和λ
cmhc
表示l2范数损失函数和可控最大熵内容约束损失的权重值，n’表示无标注语音数据集中语音样本的个数，i'表示无标注语音数据集中第i'段语音，d表示内容特征的维度，d表示内容特征的维度索引值，表示无标注语音数据集中第i'段语音对应的梅尔谱图，为步骤4.4中提及的重构出的无标注语音数据集中第i'段语音对应的梅尔谱图，表示第i'个语音片段内容特征的最大熵控调节参数的均值，γ
c_i
′
d
表示步骤4.2提及的无标注语音数据集中第i'段语音对应内容特征的最大熵控调节参数的第d维，β表示人为设定的最大熵控调节参数。

技术总结
本发明提出了一种基于可控最大熵自编码器的零样本语音风格迁移方法，其中，方法包括：构建标签为说话人的语音数据集；构建可控熵风格特征提取分类网络，利用语音数据集语音及其标签对该网络参数进行优化；构建无标注语音数据集；构建可控最大熵语音风格迁移自编码器网络，利用无标注语音数据集语音对该网络参数进行优化；引入源语音以及目标语音，利用可控最大熵语音风格迁移自编码器网络对源语音以及目标语音进行风格迁移，将风格迁移后语音样本的梅尔谱图通过频谱逆变器转换为风格迁移之后的语音片段。本发明的技术方案，训练简单，易于收敛，实现了风格特征和内容特征的解耦，可以解决零样本、少样本、多语言的语音风格迁移任务。任务。任务。

技术研发人员：熊盛武路雄博荣毅陈亚雄
受保护的技术使用者：武汉理工大学
技术研发日：2021.09.07
技术公布日：2022/1/3

再多了解一些

2/2 首页上一页 1 2

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

一种基于可控最大熵自编码器的零样本语音风格迁移方法与流程

相关文献

最热文献