一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

双流语音转换方法、装置、设备及存储介质与流程

2021-09-25 04:19:00 来源:中国专利 TAG:双流 人工智能 语音 装置 转换


1.本发明涉及人工智能的语音合成领域,尤其涉及一种双流语音转换方法、装置、设备及存储介质。


背景技术:

2.语音转换作为个性化语音生成的一种重要技术手段,被广泛运用于各行各业。目前,语音转换方法一般是通过神经网络学习一个文本到语音的参数来实现,,其通常分为两步:第一步将文本转换为时间对齐的特征,比如梅尔mel

谱、中心频率f0

频率和其他语言特征,第二步通过自回归式声码器或非自回归式声码器,将这些时间对齐的特征转换成音频样本。
3.但是,上述语音转换方法,存在语音转换的实时推理过程繁杂、转换花费时间较长的问题,导致了无法快速地将梅尔频谱信息生成高质量的语音。


技术实现要素:

4.本发明提供一种双流语音转换方法、装置、设备及存储介质,用于解决无法快速地将梅尔频谱信息生成高质量的语音的问题。
5.本发明第一方面提供了一种双流语音转换方法,包括:
6.获取基于语音信号的梅尔频谱信息,通过预置的目标双流语音合成模型,对所述基于语音信号的梅尔频谱信息进行采样,得到已采样数据,所述目标双流语音合成模型包括向量处理层、基于双流的仿射耦合层和归一化层;
7.通过所述向量处理层,对所述已采样数据进行向量处理和乱序处理,得到待处理向量;
8.通过所述基于双流的仿射耦合层,对所述待处理向量进行基于语音特征的双流仿射变换,得到转换后的语音特征向量,所述转换后的语音特征向量包括左分解向量、左仿射变换向量、右分解向量和右仿射变换向量;
9.获取目标学习变量值,并通过所述归一化层基于所述目标学习变量值,对所述转换后的语音特征向量进行加权归一化,得到目标语音。
10.可选的,在本发明第一方面的第一种实现方式中,所述通过所述基于双流的仿射耦合层,对所述待处理向量进行基于语音特征的双流仿射变换,得到转换后的语音特征向量,所述转换后的语音特征向量包括左分解向量、左仿射变换向量、右分解向量和右仿射变换向量,包括:
11.通过所述基于双流的仿射耦合层中的左仿射耦合层,对所述待处理向量进行上采样、向量划分、映射关系学习和基于语音特征的仿射变换,得到左分解向量和右仿射变换向量;
12.通过所述基于双流的仿射耦合层中的右仿射耦合层,对所述待处理向量进行上采样、向量划分、映射关系学习和基于语音特征的仿射变换,得到右分解向量和左仿射变换向
量,所述左仿射耦合层和所述右仿射耦合层进行参数共享;
13.将所述左分解向量、所述右仿射变换向量、所述右分解向量和所述左仿射变换向量确定为转换后的语音特征向量。
14.可选的,在本发明第一方面的第二种实现方式中,所述通过所述向量处理层,对所述已采样数据进行向量处理和乱序处理,得到待处理向量,包括:
15.通过所述向量处理层中的向量压缩层,对所述已采样数据进行向量压缩,得到音频压缩向量,所述音频压缩向量包括语义特征向量、声纹特征向量、情绪特征向量和音素特征向量;
16.通过所述向量处理层中的多层可逆卷积层,对所述音频压缩向量进行可逆卷积处理,得到待处理向量。
17.可选的,在本发明第一方面的第三种实现方式中,所述通过所述向量处理层中的向量压缩层,对所述已采样数据进行向量压缩,得到音频压缩向量,包括:
18.对所述语音信号进行特征提取,得到目标语义特征、目标声纹特征、目标情绪特征和目标音素特征;
19.基于预设注意力机制,将所述目标语义特征、所述目标声纹特征、所述目标情绪特征和所述目标音素特征进行融合,得到语音信号特征;
20.对所述已采样数据进行特征提取和特征融合,得到目标音频特征,所述目标音频特征包括响度特征、音色特征和音调特征;
21.通过所述向量处理层中的向量压缩层,对所述语音信号特征和所述目标音频特征进行低维子空间分割和集合映射,得到音频压缩向量。
22.可选的,在本发明第一方面的第四种实现方式中,所述获取目标学习变量值,并通过所述归一化层基于所述目标学习变量值,对所述转换后的语音特征向量进行加权归一化,得到目标语音,包括:
23.通过预置的自适应矩估计优化器,对所述基于双流的仿射耦合层的输出参数进行学习率调整,得到目标学习变量值;
24.通过所述归一化层,对所述转换后的语音特征向量进行自适应相加和基于所述目标学习变量值的加权求和,得到目标语音。
25.可选的,在本发明第一方面的第五种实现方式中,所述通过所述归一化层,对所述转换后的语音特征向量进行自适应相加和基于所述目标学习变量值的加权求和,得到目标语音,包括:
26.通过所述归一化层,对所述转换后的语音特征向量进行两两求和,得到第一语音向量、第二语音向量和第三语音向量;
27.通过所述目标学习变量值,对所述第一语音向量、所述第二语音向量和所述第三语音向量进行加权求和,得到目标语音。
28.可选的,在本发明第一方面的第六种实现方式中,所述获取基于语音信号的梅尔频谱信息,通过预置的目标双流语音合成模型,对所述基于语音信号的梅尔频谱信息进行采样,得到已采样数据之前,还包括:
29.获取语音数据集,对所述语音数据集进行梅尔频谱转换,得到训练梅尔频谱数据;
30.通过所述语音数据集和所述训练梅尔频谱数据,对预置的初始双流语音合成模型
进行双向映射学习,得到候选双流语音合成模型;
31.通过预置的基于雅可比行列式的损失函数,对所述候选双流语音合成模型进行优化,得到目标双流语音合成模型。
32.本发明第二方面提供了一种双流语音转换装置,包括:
33.采样模块,用于获取基于语音信号的梅尔频谱信息,通过预置的目标双流语音合成模型,对所述基于语音信号的梅尔频谱信息进行采样,得到已采样数据,所述目标双流语音合成模型包括向量处理层、基于双流的仿射耦合层和归一化层;
34.处理模块,用于通过所述向量处理层,对所述已采样数据进行向量处理和乱序处理,得到待处理向量;
35.变换模块,用于通过所述基于双流的仿射耦合层,对所述待处理向量进行基于语音特征的双流仿射变换,得到转换后的语音特征向量,所述转换后的语音特征向量包括左分解向量、左仿射变换向量、右分解向量和右仿射变换向量;
36.归一化模块,用于获取目标学习变量值,并通过所述归一化层基于所述目标学习变量值,对所述转换后的语音特征向量进行加权归一化,得到目标语音。
37.可选的,在本发明第二方面的第一种实现方式中,所述变换模块具体用于:
38.通过所述基于双流的仿射耦合层中的左仿射耦合层,对所述待处理向量进行上采样、向量划分、映射关系学习和基于语音特征的仿射变换,得到左分解向量和右仿射变换向量;
39.通过所述基于双流的仿射耦合层中的右仿射耦合层,对所述待处理向量进行上采样、向量划分、映射关系学习和基于语音特征的仿射变换,得到右分解向量和左仿射变换向量,所述左仿射耦合层和所述右仿射耦合层进行参数共享;
40.将所述左分解向量、所述右仿射变换向量、所述右分解向量和所述左仿射变换向量确定为转换后的语音特征向量。
41.可选的,在本发明第二方面的第二种实现方式中,所述处理模块包括:
42.向量压缩单元,用于通过所述向量处理层中的向量压缩层,对所述已采样数据进行向量压缩,得到音频压缩向量,所述音频压缩向量包括语义特征向量、声纹特征向量、情绪特征向量和音素特征向量;
43.卷积处理单元,用于通过所述向量处理层中的多层可逆卷积层,对所述音频压缩向量进行可逆卷积处理,得到待处理向量。
44.可选的,在本发明第二方面的第三种实现方式中,所述向量压缩单元具体用于:
45.对所述语音信号进行特征提取,得到目标语义特征、目标声纹特征、目标情绪特征和目标音素特征;
46.基于预设注意力机制,将所述目标语义特征、所述目标声纹特征、所述目标情绪特征和所述目标音素特征进行融合,得到语音信号特征;
47.对所述已采样数据进行特征提取和特征融合,得到目标音频特征,所述目标音频特征包括响度特征、音色特征和音调特征;
48.通过所述向量处理层中的向量压缩层,对所述语音信号特征和所述目标音频特征进行低维子空间分割和集合映射,得到音频压缩向量。
49.可选的,在本发明第二方面的第四种实现方式中,所述归一化模块包括:
50.调整单元,用于通过预置的自适应矩估计优化器,对所述基于双流的仿射耦合层的输出参数进行学习率调整,得到目标学习变量值;
51.求和单元,用于通过所述归一化层,对所述转换后的语音特征向量进行自适应相加和基于所述目标学习变量值的加权求和,得到目标语音。
52.可选的,在本发明第二方面的第五种实现方式中,所述求和单元模块具体用于:
53.通过所述归一化层,对所述转换后的语音特征向量进行两两求和,得到第一语音向量、第二语音向量和第三语音向量;
54.通过所述目标学习变量值,对所述第一语音向量、所述第二语音向量和所述第三语音向量进行加权求和,得到目标语音。
55.可选的,在本发明第二方面的第六种实现方式中,所述双流语音转换装置,还包括:
56.转换模块,用于获取语音数据集,对所述语音数据集进行梅尔频谱转换,得到训练梅尔频谱数据;
57.学习模块,用于通过所述语音数据集和所述训练梅尔频谱数据,对预置的初始双流语音合成模型进行双向映射学习,得到候选双流语音合成模型;
58.优化模块,用于通过预置的基于雅可比行列式的损失函数,对所述候选双流语音合成模型进行优化,得到目标双流语音合成模型。
59.本发明第三方面提供了一种双流语音转换设备,包括:存储器和至少一个处理器,所述存储器中存储有指令;所述至少一个处理器调用所述存储器中的所述指令,以使得所述双流语音转换设备执行上述的双流语音转换方法。
60.本发明的第四方面提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有指令,当其在计算机上运行时,使得计算机执行上述的双流语音转换方法。
61.本发明提供的技术方案中,获取基于语音信号的梅尔频谱信息,通过预置的目标双流语音合成模型,对所述基于语音信号的梅尔频谱信息进行采样,得到已采样数据,所述目标双流语音合成模型包括向量处理层、基于双流的仿射耦合层和归一化层;通过所述向量处理层,对所述已采样数据进行向量处理和乱序处理,得到待处理向量;通过所述基于双流的仿射耦合层,对所述待处理向量进行基于语音特征的双流仿射变换,得到转换后的语音特征向量,所述转换后的语音特征向量包括左分解向量、左仿射变换向量、右分解向量和右仿射变换向量;获取目标学习变量值,并通过所述归一化层基于所述目标学习变量值,对所述转换后的语音特征向量进行加权归一化,得到目标语音。本发明实施例中,通过向量处理层,对音频样本进行向量处理和乱序处理,增加了待处理向量的非线性,通过基于双流的仿射耦合层,对待处理向量进行基于语音特征的双流仿射变换,能够并行地处理基于双流的仿射耦合层通道左右两侧的待处理向量,并且不会增加目标双流语音合成模型的参数量,加快了目标双流语音合成模型的收敛速度,提高了对待处理向量的处理速度,通过目标学习变量值,对转换后的语音特征向量进行加权归一化,得到目标语音,一定程度上保证了目标双流语音合成模型对于预置语音特征的可学习性,提高了目标语音的准确性和处理效率,简化了语音转换的实时推理过程,提高了目标语音的转换准确性和转换速度,从而解决了无法快速地将梅尔频谱信息生成高质量的语音的问题。
vectors和多层可逆卷积层invertible 1*1conv,本实施例中的多层可逆卷积层为两层可逆卷积层,两层可逆卷积层的卷积核大小均为1*1,两层可逆卷积层用于对向量压缩处理后的已采样数据进行两个堆叠,能够增加待处理向量的非线性,两层可逆卷积层的原理是使用正交初始化过的矩阵(即正交矩阵),一个矩阵可表示为一种线性变换,两个正交矩阵相乘还是正交矩阵。
76.服务器调用向量处理层中的向量压缩层,基于预置的压缩函数nn.functional.unfold(),对已采样数据进行向量压缩,得到压缩后的已采样数据,例如:已采样数据为b*c*frames,则调用向量处理层中的向量压缩层,基于预置的压缩函数nn.functional.unfold(),对已采样数据进行向量压缩,得到的压缩后的已采样数据为b*c*(frames/group)*group,group为采样的预设组数量。服务器调用向量处理层中的多层可逆卷积层,对压缩后的已采样数据进行(通道之间的)反序的互换或者随机的互换(即乱序处理),即两层可逆卷积层的依序可逆卷积处理,从而得到待处理向量。
77.103、通过基于双流的仿射耦合层,对待处理向量进行基于语音特征的双流仿射变换,得到转换后的语音特征向量,转换后的语音特征向量包括左分解向量、左仿射变换向量、右分解向量和右仿射变换向量。
78.其中,基于双流的仿射耦合层为基于孪生网络的仿射耦合通道,基于孪生网络的仿射耦合通道的左侧(以下简称仿射耦合通道左侧(即左仿射耦合层))和基于孪生网络的仿射耦合通道的右侧(以下简称仿射耦合通道右侧(即右仿射耦合层))并行进行数据处理,且仿射耦合通道左侧中的参数规范化层(weight normalization,wn)layer和仿射耦合通道右侧中的参数规范化层wn layer之间进行参数共享,基于双流的仿射耦合层左端进行仿射耦合通道左侧的映射,基于双流的仿射耦合层右端进行仿射耦合通道右侧的映射。
79.服务器调用基于双流的仿射耦合层中的仿射耦合通道左侧,对待处理向量进行上采样、向量划分、映射关系学习和基于语音特征的仿射变换,得到转换后的语音特征向量中的左分解向量和右仿射变换向量,调用基于双流的仿射耦合层中的仿射耦合通道右侧,对待处理向量进行上采样、向量划分、映射关系学习和基于语音特征的仿射变换,得到转换后的语音特征向量中的右分解向量和左仿射变换向量,其中,基于双流的仿射耦合层包括预设数量的仿射层以及预设数量的卷积核大小为1*1的卷积,每个仿射层包括8层空洞卷积。
80.104、获取目标学习变量值,并通过归一化层基于目标学习变量值,对转换后的语音特征向量进行加权归一化,得到目标语音。
81.服务器通过预置的优化器adam获取目标学习变量值,并调用归一化层,基于目标学习变量值和预置的归一化公式,对转换后的语音特征向量进行加权归一化,得到目标语音,本实施例中目标学习变量值的数量为三,归一化公式具体如下:其中,表示目标语音,α、β和γ表示目标学习变量值,x
a
表示转换后的语音特征向量中的左分解向量,x
b
表示转换后的语音特征向量中的右分解向量,x
a
'表示转换后的语音特征向量中的左仿射变换向量,x
b
'表示转换后的语音特征向量中的右仿射变换向量。
82.本发明实施例中,通过向量处理层,对音频样本进行向量处理和乱序处理,增加了待处理向量的非线性,通过基于双流的仿射耦合层,对待处理向量进行基于语音特征的双流仿射变换,能够并行地处理基于双流的仿射耦合层通道左右两侧的待处理向量,并且不
会增加目标双流语音合成模型的参数量,加快了目标双流语音合成模型的收敛速度,提高了对待处理向量的处理速度,通过目标学习变量值,对转换后的语音特征向量进行加权归一化,得到目标语音,一定程度上保证了目标双流语音合成模型对于预置语音特征的可学习性,提高了目标语音的准确性和处理效率,简化了语音转换的实时推理过程,提高了目标语音的转换准确性和转换速度,从而解决了无法快速地将梅尔频谱信息生成高质量的语音的问题。
83.请参阅图2,本发明实施例中双流语音转换方法的另一个实施例包括:
84.201、获取基于语音信号的梅尔频谱信息,通过预置的目标双流语音合成模型,对基于语音信号的梅尔频谱信息进行采样,得到已采样数据,目标双流语音合成模型包括向量处理层、基于双流的仿射耦合层和归一化层。
85.服务器调用预置的语音采集器采集初始语音数据,得到待处理的语音数据,或者,服务器接收目标终端发送的语音数据,从而得到待处理的语音数据;对待处理的语音数据进行信号转换、信号加强处理和去噪处理,得到语音信号;调用预置的特征提取工具librosa,对语音信号进行梅尔频谱转换,得到基于语音信号的梅尔频谱信息。服务器调用预置的目标双流语音合成模型,基于预设组数量,对基于语音信号的梅尔频谱信息进行采样,得到已采样数据,其中,预设组数量用于指示每组的采样数量,预置的目标双流语音合成模型为通过基于孪生网络的仿射耦合通道,对作为训练样本的基于语音信号的梅尔频谱与语音信号进行双向的预设语音特征的映射学习而得的模型,目标双流语音合成模型能够并行处理基于孪生网络的仿射耦合通道两侧的数据(即作为训练样本的基于语音信号的梅尔频谱与语音信号),并且不会增加模型的参数量。
86.具体地,步骤101之前,服务器获取语音数据集,对语音数据集进行梅尔频谱转换,得到训练梅尔频谱数据;通过语音数据集和训练梅尔频谱数据,对预置的初始双流语音合成模型进行双向映射学习,得到候选双流语音合成模型;通过预置的基于雅可比行列式的损失函数,对候选双流语音合成模型进行优化,得到目标双流语音合成模型。
87.服务器预先通过构建和训练,得到目标双流语音合成模型,其具体的执行过程包括:服务器获得各应用的用户授权和各网络平台的授权后,从各应用程序中抓取用户的语音数据,并调用预置的爬虫从各网络平台中爬取网络平台的语音数据,将用户的语音数据和网络平台的语音数据进行去重融合和加密处理,得到语音数据集;通过预置的全同态加密算法,调用预置的特征提取工具librosa,对语音数据集进行梅尔频谱转换,得到训练梅尔频谱数据,通过全同态加密算法能够基于密文的状态下对加密数据进行复杂运算的特性,提高了语音数据集的梅尔频谱转换的安全性,以及释放了语音数据集的数据要素最大价值。
88.服务器对语音数据集和训练梅尔频谱数据进行特征向量提取和特征融合,得到目标特征向量;将目标特征向量进行通道之间的随机互换(即乱序处理),得到处理后的目标特征向量。服务器预先构建预置的初始双流语音合成模型,该初始双流语音合成模型为基于孪生网络的双流语音合成模型dual

waveglow,初始双流语音合成模型包括双边的参数规范化层wn layer 仿射变换层affine xform,通过双边的参数规范化层wn layer 仿射变换层affine xform进行映射学习,实现了一次前向的过程中相当于单边网络的两次前向推理的效果,使得语音转换的速度更快;将处理后的目标特征向量,对初始双流语音合成模型
进行基于预设语音特征的双向映射学习,得到候选双流语音合成模型,预设语音特征用于指示转换成的语音,候选双流语音合成模型中的双边的参数规范化层wn layer已学习到数据(即目标特征向量和预设语音特征)中的映射关系参数;通过预置的基于雅可比行列式的损失函数,对候选双流语音合成模型进模型参数调整、权重调整和/或模型结构优化,得到目标双流语音合成模型,目标双流语音合成模型能够并行处理基于孪生网络的仿射耦合通道左右两侧的数据,并且不会增加模型的参数量。通过构建目标双流语音合成模型,提高了目标双流语音合成模型的收敛速度和准确性,从而提高了将梅尔频谱信息生成高质量的语音的速度。
89.202、通过向量处理层中的向量压缩层,对已采样数据进行向量压缩,得到音频压缩向量,音频压缩向量包括语义特征向量、声纹特征向量、情绪特征向量和音素特征向量。
90.具体地,服务器对语音信号进行特征提取,得到目标语义特征、目标声纹特征、目标情绪特征和目标音素特征;基于预设注意力机制,将目标语义特征、目标声纹特征、目标情绪特征和目标音素特征进行融合,得到语音信号特征;对已采样数据进行特征提取和特征融合,得到目标音频特征,目标音频特征包括响度特征、音色特征和音调特征;通过向量处理层中的向量压缩层,对语音信号特征和目标音频特征进行低维子空间分割和集合映射,得到音频压缩向量。
91.对语音信号进行特征提取,得到目标语义特征、目标声纹特征、目标情绪特征和目标音素特征的执行过程包括:服务器调用预置的特征提取模型,对语音信号进行特征提取,得到初始语义特征、初始声纹特征、初始情绪特征和初始音素特征;通过预置的语音信号特征库,分别对初始语义特征、初始声纹特征、初始情绪特征和初始音素特征进行匹配,得到目标语义特征、目标声纹特征、目标情绪特征和目标音素特征,预置的语音信号特征库用于指示各语音信号对应的经过准确提炼的特征信息;基于预设注意力机制,计算目标语义特征、目标声纹特征、目标情绪特征和目标音素特征分别对应的注意力矩阵,将目标语义特征、目标声纹特征、目标情绪特征和目标音素特征分别对应的注意力矩阵进行矩阵相加,得到语音信号特征;对已采样数据进行特征提取和特征融合,得到目标音频特征的执行过程,与上述的对语音信号进行特征提取,得到目标语义特征、目标声纹特征、目标情绪特征和目标音素特征的执行过程类似,在此不再赘述。
92.其中,向量处理层包括向量压缩层,向量压缩层用于将语音信号特征和目标音频特征压缩为一个向量。服务器调用向量处理层中的向量压缩层,将语音信号特征分割成低维子空间的乘积,得到语音信号分割向量,将目标音频特征分割成低维子空间的乘积,得到音频分割向量;将语音信号分割向量和音频分割向量映射到预置集合中,得到音频压缩向量。
93.203、通过向量处理层中的多层可逆卷积层,对音频压缩向量进行可逆卷积处理,得到待处理向量。
94.其中,本实施例中的多层可逆卷积层为两层可逆卷积层,两层可逆卷积层的卷积核大小均为1*1,两层可逆卷积层包括第一可逆卷积层和第二可逆卷积层。第一可逆卷积层和第二可逆卷积层的连接关系可为并联,即第一可逆卷积层和第二可逆卷积层的输入、输出均相同,多层可逆卷积层最终输出的待处理向量为正交矩阵;第一可逆卷积层和第二可逆卷积层的连接关系也可为串联,即第一可逆卷积层的输出为第二可逆卷积层的输入。
95.服务器调用向量处理层中的多层可逆卷积层中的第一可逆卷积层,对音频压缩向量进行可逆卷积处理,得到第一卷积向量;调用第二可逆卷积层,对音频压缩向量进行可逆卷积处理,得到第二卷积向量;将第一卷积向量和第二卷积向量进行正交矩阵相乘,得到待处理向量。或者,服务器调用向量处理层中的多层可逆卷积层中的第一可逆卷积层,对音频压缩向量进行可逆卷积处理,得到初始卷积向量;调用第二可逆卷积层,对初始卷积向量进行可逆卷积处理,得到待处理向量。通过向量处理层中的多层可逆卷积层,对音频压缩向量进行可逆卷积处理,增加了目标双流语音合成模型的非线性,即增加了待处理向量的非线性。
96.204、通过基于双流的仿射耦合层,对待处理向量进行基于语音特征的双流仿射变换,得到转换后的语音特征向量,转换后的语音特征向量包括左分解向量、左仿射变换向量、右分解向量和右仿射变换向量。
97.具体地,服务器通过基于双流的仿射耦合层中的左仿射耦合层,对待处理向量进行上采样、向量划分、映射关系学习和基于语音特征的仿射变换,得到左分解向量和右仿射变换向量;通过基于双流的仿射耦合层中的右仿射耦合层,对待处理向量进行上采样、向量划分、映射关系学习和基于语音特征的仿射变换,得到右分解向量和左仿射变换向量,左仿射耦合层和右仿射耦合层进行参数共享;将左分解向量、右仿射变换向量、右分解向量和左仿射变换向量确定为转换后的语音特征向量。
98.其中,基于双流的仿射耦合层包括左仿射耦合层和右仿射耦合层,左仿射耦合层为基于双流的仿射耦合层的通道的左侧,右仿射耦合层为基于双流的仿射耦合层的通道的右侧,左仿射耦合层和右仿射耦合层局均包括上采样层upsampled mel

spectrum、向量划分层、参数规范化层wn layer和仿射变换层affine xform,左仿射耦合层为映射左分解向量到右分解向量的关系,左仿射耦合层为映射右分解向量到左分解向量的关系,左仿射耦合层和右仿射耦合层的映射原理相同。
99.服务器调用基于双流的仿射耦合层中左仿射耦合层的向量划分层,基于预置划分公式,对待处理向量进行向量划分,得到左分解向量和右分解向量,预示划分公式具体如下:x
a
,x
b
=split(x),其中,x
a
表示左分解向量,x
b
表示右分解向量,x表示待处理向量,split(x)表示对待处理向量进行向量划分,例如:若x=[1,2,3,4],则x
a
=[1,2],x
b
=[3,4];调用左仿射耦合层中的上采样层upsampled mel

spectrum,基于预设的采样函数pad(),对待处理向量进行上采样,得到预设大小的上采样向量;通过左仿射耦合层中的参数规范化层wn layer,基于预置的左侧学习公式,将左分解向量和上采样向量进行基于左分解向量到上采样向量之间的映射关系的学习(即映射关系学习),得到左侧学习参数,预置的左侧学习公式具体如下:(logs1,t1)=wn(x
a
,mel

spectrogtam),其中,s1和t1表示为wn()网络学习到的仿射变换参数(即左侧学习参数),wn()为卷积构成的网络,旨在学习仿射变换参数,wn(x
a
,mel

spectrum)表示学习x
a
到梅尔频谱mel

spectrum(即上采样向量)的仿射变换参数;通过左仿射耦合层中的仿射变换层affine xform,基于预置的左侧变换公式和基于左侧学习参数,对右分解向量进行基于语音特征的仿射变换,得到右仿射变换向量,预置的左侧变换公式具体如下:x
b
'=s1

x
b
t1,其中,s1和t1表示为wn()网络学习到的仿射变换参数(即左侧学习参数),x
b
'表示右仿射变换向量,x
b
表示右分解向量;通过基于双流的仿射耦合层中的左仿射耦合层,对待处理向量进行上采样、向量划分、映射关系学习和基
于语音特征的仿射变换,从而得到左分解向量和右仿射变换向量。
[0100]
服务器调用基于双流的仿射耦合层中右仿射耦合层的向量划分层,基于预置划分公式,对待处理向量进行向量划分,得到左分解向量和右分解向量,预示划分公式具体如下:x
a
,x
b
=split(x),其中,x
a
表示左分解向量,x
b
表示右分解向量,x表示待处理向量,split(x)表示对待处理向量进行向量划分,例如:若x=[1,2,3,4],则x
a
=[1,2],x
b
=[3,4];调用右仿射耦合层中的上采样层upsampled mel

spectrum,基于预设的采样函数pad(),对待处理向量进行上采样,得到预设大小的上采样向量;通过右仿射耦合层中的参数规范化层wn layer,基于预置的右侧学习公式,将右分解向量和上采样向量进行基于侧分解向量到上采样向量之间的映射关系的学习(即映射关系学习),得到右侧学习参数,预置的右侧学习公式具体如下:(logs2,t2)=wn(x
b
,mel

spectrogtam),其中,s2和t2表示为wn()网络学习到的仿射变换参数(即右侧学习参数),wn()为卷积构成的网络,旨在学习仿射变换参数,wn(x
b
,mel

spectrum)表示学习x
b
到梅尔频谱mel

spectrum(即上采样向量)的仿射变换参数;通过右仿射耦合层中的仿射变换层affine xform,基于预置的右侧变换公式和基于右侧学习参数,对左分解向量进行基于语音特征的仿射变换,得到左仿射变换向量,预置的右侧变换公式具体如下:x
a
'=s2

x
a
t2,其中,s2和t2表示为wn()网络学习到的仿射变换参数(即右侧学习参数),x
a
'表示左仿射变换向量,x
a
表示左分解向量;通过基于双流的仿射耦合层中的右仿射耦合层,对待处理向量进行上采样、向量划分、映射关系学习和基于语音特征的仿射变换,从而得到右分解向量和左仿射变换向量。
[0101]
205、通过预置的自适应矩估计优化器,对基于双流的仿射耦合层的输出参数进行学习率调整,得到目标学习变量值。
[0102]
服务器调用预置的自适应矩估计优化器adam,基于预置的梯度优化算,计算基于双流的仿射耦合层的输出参数的学习率,得到目标学习变量值,其中,基于双流的仿射耦合层的输出参数用于指示将左分解向量、左仿射变换向量、右分解向量和右仿射变换向量进行融合后的参数,目标学习变量值用于指示将左分解向量、左仿射变换向量、右分解向量和右仿射变换向量进行自适应相加的权重比例,目标学习变量值的数量为三,目标学习变量值中的三个值分别对应自适应相加的三组和值。
[0103]
206、通过归一化层,对转换后的语音特征向量进行自适应相加和基于目标学习变量值的加权求和,得到目标语音。
[0104]
具体地,服务器通过归一化层,对转换后的语音特征向量进行两两求和,得到第一语音向量、第二语音向量和第三语音向量;通过目标学习变量值,对第一语音向量、第二语音向量和第三语音向量进行加权求和,得到目标语音。
[0105]
服务器通过归一化层,对转换后的语音特征向量中左分解向量和右仿射变换向量进行求和,得到第一语音向量;对左仿射变换向量和右分解向量进行求和,得到第二语音向量;对左仿射变换向量和右仿射变换向量进行求和,得到第三语音向量;将目标学习变量值确定为权重值,通过权重值对第一语音向量、第二语音向量和第三语音向量进行加权求和,得到目标语音。
[0106]
本发明实施例中,通过向量处理层,对音频样本进行向量处理和乱序处理,增加了待处理向量的非线性,通过基于双流的仿射耦合层,对待处理向量进行基于语音特征的双流仿射变换,能够并行地处理基于双流的仿射耦合层通道左右两侧的待处理向量,并且不
会增加目标双流语音合成模型的参数量,加快了目标双流语音合成模型的收敛速度,提高了对待处理向量的处理速度,通过目标学习变量值,对转换后的语音特征向量进行加权归一化,得到目标语音,一定程度上保证了目标双流语音合成模型对于预置语音特征的可学习性,提高了目标语音的准确性和处理效率,简化了语音转换的实时推理过程,提高了目标语音的转换准确性和转换速度,从而解决了无法快速地将梅尔频谱信息生成高质量的语音的问题。
[0107]
上面对本发明实施例中双流语音转换方法进行了描述,下面对本发明实施例中双流语音转换装置进行描述,请参阅图3,本发明实施例中双流语音转换装置一个实施例包括:
[0108]
采样模块301,用于获取基于语音信号的梅尔频谱信息,通过预置的目标双流语音合成模型,对基于语音信号的梅尔频谱信息进行采样,得到已采样数据,目标双流语音合成模型包括向量处理层、基于双流的仿射耦合层和归一化层;
[0109]
处理模块302,用于通过向量处理层,对已采样数据进行向量处理和乱序处理,得到待处理向量;
[0110]
变换模块303,用于通过基于双流的仿射耦合层,对待处理向量进行基于语音特征的双流仿射变换,得到转换后的语音特征向量,转换后的语音特征向量包括左分解向量、左仿射变换向量、右分解向量和右仿射变换向量;
[0111]
归一化模块304,用于获取目标学习变量值,并通过归一化层基于目标学习变量值,对转换后的语音特征向量进行加权归一化,得到目标语音。
[0112]
上述双流语音转换装置中各个模块的功能实现与上述双流语音转换方法实施例中各步骤相对应,其功能和实现过程在此处不再一一赘述。
[0113]
本发明实施例中,通过向量处理层,对音频样本进行向量处理和乱序处理,增加了待处理向量的非线性,通过基于双流的仿射耦合层,对待处理向量进行基于语音特征的双流仿射变换,能够并行地处理基于双流的仿射耦合层通道左右两侧的待处理向量,并且不会增加目标双流语音合成模型的参数量,加快了目标双流语音合成模型的收敛速度,提高了对待处理向量的处理速度,通过目标学习变量值,对转换后的语音特征向量进行加权归一化,得到目标语音,一定程度上保证了目标双流语音合成模型对于预置语音特征的可学习性,提高了目标语音的准确性和处理效率,简化了语音转换的实时推理过程,提高了目标语音的转换准确性和转换速度,从而解决了无法快速地将梅尔频谱信息生成高质量的语音的问题。
[0114]
请参阅图4,本发明实施例中双流语音转换装置的另一个实施例包括:
[0115]
采样模块301,用于获取基于语音信号的梅尔频谱信息,通过预置的目标双流语音合成模型,对基于语音信号的梅尔频谱信息进行采样,得到已采样数据,目标双流语音合成模型包括向量处理层、基于双流的仿射耦合层和归一化层;
[0116]
处理模块302,用于通过向量处理层,对已采样数据进行向量处理和乱序处理,得到待处理向量;
[0117]
其中,处理模块302具体包括:
[0118]
向量压缩单元3021,用于通过向量处理层中的向量压缩层,对已采样数据进行向量压缩,得到音频压缩向量,音频压缩向量包括语义特征向量、声纹特征向量、情绪特征向
量和音素特征向量;
[0119]
卷积处理单元3022,用于通过向量处理层中的多层可逆卷积层,对音频压缩向量进行可逆卷积处理,得到待处理向量;
[0120]
变换模块303,用于通过基于双流的仿射耦合层,对待处理向量进行基于语音特征的双流仿射变换,得到转换后的语音特征向量,转换后的语音特征向量包括左分解向量、左仿射变换向量、右分解向量和右仿射变换向量;
[0121]
归一化模块304,用于获取目标学习变量值,并通过归一化层基于目标学习变量值,对转换后的语音特征向量进行加权归一化,得到目标语音;
[0122]
其中,归一化模块304具体包括:
[0123]
调整单元3041,用于通过预置的自适应矩估计优化器,对基于双流的仿射耦合层的输出参数进行学习率调整,得到目标学习变量值;
[0124]
求和单元3042,用于通过归一化层,对转换后的语音特征向量进行自适应相加和基于目标学习变量值的加权求和,得到目标语音。
[0125]
可选的,变换模块303还可以具体用于:
[0126]
通过基于双流的仿射耦合层中的左仿射耦合层,对待处理向量进行上采样、向量划分、映射关系学习和基于语音特征的仿射变换,得到左分解向量和右仿射变换向量;
[0127]
通过基于双流的仿射耦合层中的右仿射耦合层,对待处理向量进行上采样、向量划分、映射关系学习和基于语音特征的仿射变换,得到右分解向量和左仿射变换向量,左仿射耦合层和右仿射耦合层进行参数共享;
[0128]
将左分解向量、右仿射变换向量、右分解向量和左仿射变换向量确定为转换后的语音特征向量。
[0129]
可选的,向量压缩单元3021还可以具体用于:
[0130]
对语音信号进行特征提取,得到目标语义特征、目标声纹特征、目标情绪特征和目标音素特征;
[0131]
基于预设注意力机制,将目标语义特征、目标声纹特征、目标情绪特征和目标音素特征进行融合,得到语音信号特征;
[0132]
对已采样数据进行特征提取和特征融合,得到目标音频特征,目标音频特征包括响度特征、音色特征和音调特征;
[0133]
通过向量处理层中的向量压缩层,对语音信号特征和目标音频特征进行低维子空间分割和集合映射,得到音频压缩向量。
[0134]
可选的,求和单元3042还可以具体用于:
[0135]
通过归一化层,对转换后的语音特征向量进行两两求和,得到第一语音向量、第二语音向量和第三语音向量;
[0136]
通过目标学习变量值,对第一语音向量、第二语音向量和第三语音向量进行加权求和,得到目标语音。
[0137]
可选的,双流语音转换装置,还包括:
[0138]
转换模块305,用于获取语音数据集,对语音数据集进行梅尔频谱转换,得到训练梅尔频谱数据;
[0139]
学习模块306,用于通过语音数据集和训练梅尔频谱数据,对预置的初始双流语音
合成模型进行双向映射学习,得到候选双流语音合成模型;
[0140]
优化模块307,用于通过预置的基于雅可比行列式的损失函数,对候选双流语音合成模型进行优化,得到目标双流语音合成模型。
[0141]
上述双流语音转换装置中各模块和各单元的功能实现与上述双流语音转换方法实施例中各步骤相对应,其功能和实现过程在此处不再一一赘述。
[0142]
本发明实施例中,通过向量处理层,对音频样本进行向量处理和乱序处理,增加了待处理向量的非线性,通过基于双流的仿射耦合层,对待处理向量进行基于语音特征的双流仿射变换,能够并行地处理基于双流的仿射耦合层通道左右两侧的待处理向量,并且不会增加目标双流语音合成模型的参数量,加快了目标双流语音合成模型的收敛速度,提高了对待处理向量的处理速度,通过目标学习变量值,对转换后的语音特征向量进行加权归一化,得到目标语音,一定程度上保证了目标双流语音合成模型对于预置语音特征的可学习性,提高了目标语音的准确性和处理效率,简化了语音转换的实时推理过程,提高了目标语音的转换准确性和转换速度,从而解决了无法快速地将梅尔频谱信息生成高质量的语音的问题。
[0143]
上面图3和图4从模块化功能实体的角度对本发明实施例中的双流语音转换装置进行详细描述,下面从硬件处理的角度对本发明实施例中双流语音转换设备进行详细描述。
[0144]
图5是本发明实施例提供的一种双流语音转换设备的结构示意图,该双流语音转换设备500可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上处理器(central processing units,cpu)510(例如,一个或一个以上处理器)和存储器520,一个或一个以上存储应用程序533或数据532的存储介质530(例如一个或一个以上海量存储设备)。其中,存储器520和存储介质530可以是短暂存储或持久存储。存储在存储介质530的程序可以包括一个或一个以上模块(图示没标出),每个模块可以包括对双流语音转换设备500中的一系列指令操作。更进一步地,处理器510可以设置为与存储介质530通信,在双流语音转换设备500上执行存储介质530中的一系列指令操作。
[0145]
双流语音转换设备500还可以包括一个或一个以上电源540,一个或一个以上有线或无线网络接口550,一个或一个以上输入输出接口560,和/或,一个或一个以上操作系统531,例如windows serve,mac os x,unix,linux,freebsd等等。本领域技术人员可以理解,图5示出的双流语音转换设备结构并不构成对双流语音转换设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
[0146]
本技术还提供一种双流语音转换设备,包括:存储器和至少一个处理器,所述存储器中存储有指令,所述存储器和所述至少一个处理器通过线路互连;所述至少一个处理器调用所述存储器中的所述指令,以使得所述双流语音转换设备执行上述双流语音转换方法中的步骤。本发明还提供一种计算机可读存储介质,该计算机可读存储介质可以为非易失性计算机可读存储介质,该计算机可读存储介质也可以为易失性计算机可读存储介质,计算机可读存储介质中存储有指令,当指令在计算机上运行时,使得计算机执行双流语音转换方法的步骤。
[0147]
进一步地,计算机可读存储介质可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序等;存储数据区可存储根据区块链
节点的使用所创建的数据等。
[0148]
本发明所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。
[0149]
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
[0150]
集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例方法的全部或部分步骤。而前述的存储介质包括:u盘、移动硬盘、只读存储器(read

only memory,rom)、随机存取存储器(random access memory,ram)、磁碟或者光盘等各种可以存储程序代码的介质。
[0151]
以上,以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文章

  • 日榜
  • 周榜
  • 月榜