一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

无监督情感语音合成装置及方法与流程

2022-08-03 00:47:32 来源:中国专利 TAG:


1.本发明涉及语音合成技术领域,特别是一种无监督情感语音合成装置及方法。


背景技术:

2.语音合成是一种将文本信息转换为语音信息的技术,即将文字信息转换为任意的可听的语音。涉及到声学、语言学、计算机科学等多门学科。随着技术的发展,情感语音合成开始成为研究的热点,但是以往的情感语音合成方法通常需要人工标注的情感标签,并且单一维度的情感标签并不能满足高表现力情感语音的要求。


技术实现要素:

3.为解决现有技术中存在的问题,本发明的目的是提供一种无监督情感语音合成装置及方法,本发明无需人工对数据进行情感标注,采用无监督的方式对从音频提取的情感隐变量特征进行后验分布建模,并进行随机采样获得多维度的情感标签,实现了高表现力的情感语音合成,解决了情感语音合成中对人工情感标注的依赖以及表现力不佳的问题。
4.为实现上述目的,本发明采用的技术方案是:一种无监督情感语音合成装置,包括:
5.情感提取模块,用于对输入的真实音频特征提取情感隐变量特征;
6.随机采样模块,用于利用所述情感隐变量特征得到情感分类标签以及每个类别的后验分布;
7.参数拟合模块,用于根据先验分布、后验分布以及真实音频特征、预测音频特征对语音合成模块参数进行拟合;
8.语音合成模块,用于对待合成文本以及目标情感标签生成情感语音。
9.本发明还提供了一种无监督情感语音合成方法,采用如上所述的无监督情感语音合成装置实现,所述的方法包括以下步骤:
10.s1、获取输入文本及对应的真实音频特征,通过情感提取模块对真实音频特征提取情感隐变量特征;
11.s2、利用随机采样模块对步骤s1获取的情感隐变量特征进行随机采样,得到情感分类标签,同时计算每个类别的后验分布;
12.s3、获取语音合成模块,根据语音合成模块、步骤s1的输入文本、步骤s2的情感分类标签得到预测音频特征;
13.s4、获取情感标签的先验分布,利用参数拟合模块根据先验分布与步骤s2得到的后验分布、步骤s3得到的预测音频特征与步骤s1的真实音频特征,对语音合成模块参数进行训练;
14.s5、根据待合成文本、目标情感标签以及步骤s4的语音合成模块得到情感语音。
15.作为本发明的进一步改进,所述情感提取模块采用卷积神经网络或循环神经网络,其网络参数通过梯度反向传播与语音合成模块联合优化,用于对真实音频特征提取句
子层级的情感隐变量特征。
16.作为本发明的进一步改进,在步骤s2中,所述随机采样的过程为指定情感分类数目k、每个分类下的分布数量n,通过将情感隐变量特征输入线性神经网络得到k
×
n个后验均值,再采用gambel-softmax方法得到分类情感标签以及每个类别的后验分布。
17.作为本发明的进一步改进,在步骤s3中,所述语音合成模块采用vits的端到端结构,其中输入文本为第一输入项,通过语音合成模块的文本编码部分得到文本特征,真实音频为第二输入项,将真实音频提取的情感隐变量特征通过gambel-softmax采样得到分类情感标签,并将分类情感标签加入到文本特征,通过语音合成模块得到预测音频特征。
18.作为本发明的进一步改进,在步骤s4中,所述情感标签的先验分布为均匀分布;根据所述预测音频特征与真实音频特征的均方损失函数作为第一距离度量a,根据所述情感标签的先验分布与后验分布的kl散度作为第二距离度量b,以最小化αa βb作为优化目标,其中α、β为给定权重,通过梯度反向传播对语音合成模块参数进行训练。
19.作为本发明的进一步改进,在步骤s5中,所述目标情感标签的生成方式为:
20.通过输入目标音频提取得到情感隐变量特征,再对情感隐变量特征通过随机采样得到情感标签或手动指定情感标签。
21.作为本发明的进一步改进,所述步骤s5具体如下:
22.所述待合成文本为第一输入项,通过语音合成模块的文本编码部分得到文本特征,情感标签为第二输入项,加入到文本向量后,经过语音合成模块的解码部分得到情感语音。
23.本发明的有益效果是:
24.本发明无需人工对数据进行情感标注,采用无监督的方式对从音频提取的情感隐变量特征进行后验分布建模,并进行随机采样获得多维度的情感标签,实现了高表现力的情感语音合成。
附图说明
25.图1为本发明实施例中无监督情感语音合成的流程示意图;
26.图2为本发明实施例中语音合成模块的训练流程图;
27.图3为本发明实施例中情感语音的推断流程图。
具体实施方式
28.下面结合附图对本发明的实施例进行详细说明。
29.实施例
30.一种无监督情感语音合成装置,包括:
31.情感提取模块,用于对输入音频特征提取情感隐变量特征;
32.可选的,情感提取模块包括但不限于采用卷积神经网络、循环神经网络;可理解的,其网络参数通过梯度反向传播与语音合成模块联合优化,用于对音频特征提取句子层级的情感隐变量特征;
33.随机采样模块,用于对情感隐变量特征得到情感分类标签以及每个类别的后验分布;
34.可选的,随机采样过程为:指定情感分类数目k、每个分类下的分布数量n,通过将情感隐变量特征输入线性神经网络得到k
×
n个后验均值,再采用gambel-softmax方法得到分类情感标签以及每个类别的后验分布;
35.参数拟合模块,用于根据先验分布、后验分布以及真实音频特征、预测音频特征对语音合成模块参数进行拟合;
36.可选的,情感标签的先验分布包括但不限于均匀分布;根据所述预测音频特征与真实音频特征的均方损失函数作为第一距离度量a,根据所述情感标签的先验分布与后验分布的kl散度作为第二距离度量b,以最小化αa βb作为优化目标(α、β为给定权重),通过梯度反向传播对语音合成模块参数进行训练
37.语音合成模块,用于对待合成文本以及目标情感标签生成情感语音。
38.可选的,目标情感标签有两种生成方式,第一种方式为通过输入目标音频提取得到情感隐变量特征,再对情感隐变量特征通过随机采样得到情感标签,第二种方式为手动指定情感标签;所述待合成文本为第一输入项,通过语音合成模块的文本编码部分得到文本特征,情感标签为第二输入项,加入到文本特征,经过语音合成模块得到情感语音。
39.如图1所示,本实施例还公开了一种无监督情感语音合成的方法,包括以下步骤:
40.s1.获取输入文本及对应的真实音频特征,通过情感提取模块对真实音频特征提取情感隐变量特征;
41.可选的,情感提取模块包括但不限于采用卷积神经网络、循环神经网络;可理解的,其网络参数通过梯度反向传播与语音合成模块联合优化,用于对音频特征提取句子层级的情感隐变量特征;
42.s2.对s1获取的情感隐变量特征进行随机采样,得到分类情感标签,同时计算每个类别的后验分布;
43.可选的,随机采样过程为:指定情感分类数目k、每个分类下的分布数量n,通过将情感隐变量特征输入线性神经网络得到k
×
n个后验均值,再采用gambel-softmax方法得到分类情感标签以及每个类别的后验分布;
44.举例说明,指定情感分类数目为5、每个分类下的分布数量为10,将情感隐变量特征输入到线性神经网络得到50个后验均值μ,再使用gambel方法采样50个随机数作为方差σ,利用重参数技巧μ σ生成50个采样值,再通过softmax计算得到后验概率;
45.s3.获取语音合成模块,根据语音合成模块、s1的输入文本、s2的分类情感标签得到预测音频特征;
46.可选的,语音合成模块采用vits的端到端结构,其中文本为第一输入项,通过语音合成模块的文本编码部分得到文本特征,真实音频为第二输入项,将真实音频提取的情感隐变量特征通过gambel-softmax采样得到情感标签,并将情感标签加入到文本特征,通过语音合成模块的解码部分得到预测音频特征;
47.s4.获取情感标签的先验分布,如图2所示,根据先验分布与s2得到的后验分布、s3得到的预测音频特征与s1的真实音频特征,对语音合成模块参数进行训练;
48.可选的,情感标签的先验分布包括但不限于均匀分布;根据所述预测音频特征与真实音频特征的均方损失函数作为第一距离度量a,根据所述情感标签的先验分布与后验分布的kl散度作为第二距离度量b,以最小化αa βb作为优化目标(α、β为给定权重),通过梯
度反向传播对语音合成模块参数进行训练;
49.s5.如图3所示,根据待合成文本、目标情感标签以及s4的语音合成模块得到情感语音;
50.可选的,目标情感标签有两种生成方式,第一种方式为通过输入目标音频提取得到情感隐变量特征,再对情感隐变量特征通过随机采样得到情感标签,第二种方式为手动指定情感标签;所述待合成文本为第一输入项,通过语音合成模块的文本编码部分得到文本特征,情感标签为第二输入项,加入到文本特征,经过语音合成模块得到情感语音;
51.举例说明,情感分类标签类别为5(分别为:“快乐”,“悲伤”,“惊讶”,“中立”,“生气”),每种类别分布数量为10,采用第一种方式,对情感为“快乐”的目标音频提取情感隐变量特征,再对情感隐变量特征通过随机采样得到大小为5
×
10的情感分类标签,并得到情感为“快乐”的后验概率;采用第二种方式,以情感为“快乐”后验概率最大的方式手动指定分类情感标签;根据待合成文本、分类情感标签、语音合成模块生成情感语音;
52.通过本实施例,无需人工对数据进行情感标注,采用无监督的方式对从音频提取的情感隐变量特征进行后验分布建模,并进行随机采样获得多维度的情感标签,实现了高表现力的情感语音合成。
53.以上所述实施例仅表达了本发明的具体实施方式,其描述较为具体和详细,但并不能因此而理解为对本发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献