一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种基于端到端的音色及情感迁移的跨语言语音合成方法

2022-11-19 08:03:40 来源:中国专利 TAG:


1.本发明涉及计算机语音合成领域,具体涉及一种基于端到端的音色及情感迁移的跨语言语音合成方法。


背景技术:

2.机器翻译是指通过计算机将源语言句子翻译到与之语义等价的目标语言句子的过程,是自然语言处理领域的一个重要研究方向。随着人工智能技术的不断成熟,机器翻译得到了长足的发展,其实用性和广泛性也逐渐显现出来,为不同语言使用者去学习其他语言以及彼此之间的交流提供了极大的便利。
3.机器翻译包括语音识别技术、机器翻译、语音合成三大步骤,目前,已有多个较成熟的机器翻译服务的提供者(如谷歌翻译、deepl、百度翻译、有道云翻译等),能够实现多种语言之间的翻译和转换,并且提供包括文字转文字、文字转语音、语音转文字的服务。但是,文字无法涵盖语音声学特征中体现的音色、音调、语速和说话者情感等信息,以及机器翻译得到的翻译内容可能会有些错误,这样一来机器翻译传达的信息中就会有信息缺失,从而给交流带来一定的障碍。
4.语音合成是指通过文字来生成人类声音,也可以说是给定一段文字去生成对应的人类读音的过程,这里的声音是一个连续的模拟信号,计算机要做的合成过程便是通过数字信号去模拟,在语音合成的过程中,发音、对齐、韵律、声调等问题都是合成语音的关键,而中文语音中的变调、多音字、韵律复杂等问题很难处理,因此目前中文的语音合成存在不少难点,而在合成的语音中嵌入说话人的特征即音色和说话人语音的情感特征可以让合成的语音更加自然,更加贴近说话人的语音特征。


技术实现要素:

5.本发明的目的在于融合并发展现有语音合成的技术,搭建一个基于端到端的音色及情感迁移的跨语言语音合成的学习网络架构,在说话人给定少量语言的条件下,能够合成带有说话人音色和情感的跨语言语音,提供了一种跨语言的音色和情感迁移的语音合成方法。
6.本发明的目的可以通过采取如下技术方案达到:
7.一种基于端到端的音色及情感迁移的跨语言语音合成方法,所述语音合成方法包括以下步骤:
8.s1、采集训练数据:采集多个说话人的多句短录音文件,对每个多句短录音文件建立一一对应的文本标记,其中多句短录音文件不超过15秒,总时长不小于30小时,录音环境应为安静的室内环境;
9.s2、预处理:对多句短录音文件进行语音处理,转换为所需的音频文件,以及生成一个或多个json格式的文件;
10.s3、构建用于中文和英文进行语音合成的学习网络架构,该学习网络架构包括说
话人编码器、合成器和声码器;
11.s4、训练说话人编码器:说话人编码器以步骤s2中音频文件的梅尔频谱为输入,输出一个固定维度的嵌入向量,该嵌入向量可保留说话人的音色和情感;
12.s5、训练合成器:合成器由依次连接的编码器和解码器组成,其中,编码器由1个预处理网络、3个一维卷积层和1个双向lstm层组成,输入为步骤s2中生成的json文件,输出为编码器隐状态,解码器由1个预处理网络、依次顺序连接的两层lstm网络、投影层和后处理网络组成,对编码器输出的隐状态解码,生成合成语音的梅尔频谱,首先编码器解析预处理生成的json文件来生成编码器隐状态,接着将编码器隐状态输入解码器中,解码器输出合成语音的梅尔频谱;
13.s6、训练声码器:声码器由并行的wavernn声码器和hifi-gan声码器组成,以解码器生成的梅尔频谱为输入,输出预测语音合成的波形;
14.s7、将实时语音进行预处理操作后,输入训练完成的学习网络架构中,获得跨语言的合成语音。
15.进一步地,所述步骤s2过程如下:
16.s2.1、对多句短录音文件使用进行语音处理。多句短录音文件将被转换为音频采样率16000hz、音频格式wav格式、位深16bits、单声道的音频文件。转换得到的音频文件能够帮助学习网络架构更好地去提取音频中说话人的特征和一些相关信息,取得更加好的语音合成效果;
17.s2.2、将文本标记、说话人、说话人id、语音处理得到的音频文件标记拼接成一个或多个json格式的文件,其中文本标记是指说话人和说话内容对应的音频文件的语音内容,说话人id是指对说话人进行的编号标记,音频文件标记是指说话人和说话内容对应的音频文件名称。生成的json文件为学习网络架构提供了训练所需的数据,即语音和语音的文本内容,同时,可以让学习网络架构将语音信息与说话人信息一一对应。
18.进一步地,所述步骤s4中训练说话人编码器的过程如下:
19.s4.1、对于给定的多句短录音,用以下公式计算梅尔频谱:
[0020][0021]
其中,f是多句短语音的频率,输出为多句短语音的梅尔频谱;
[0022]
s4.2、说话人编码器将多句短语音的梅尔频谱作为输入,输出为一个固定维度的嵌入向量,训练过程如下:
[0023]
s4.2.1、将长度不定的长梅尔频谱输入到3个依次顺序连接的lstm网络中,每层均由768个细胞单元组成,最后一层lstm网络输出的每一帧的结果会映射到256维的固定长度的向量上,其中一帧是指固定的时间单位。在lstm网络中,说话人编码器可以有效提取到语音内容中的说话人的音色和情感特征,而且,将最后一层lstm网络的输出映射到向量中,可以将说话人的音色和情感特征传递给合成器;
[0024]
s4.2.2、对上述步骤得到的所有输出做均值和归一化,得到最终的固定维度的嵌入向量,其中,输出的嵌入向量将语音对应的说话人与其他说话人做区分,保留说话人音色与情感。均值和归一化处理可以加快说话人编码器的训练,取得更加优异的训练效果。
[0025]
进一步地,所述步骤s5中训练合成器中编码器的过程如下:
[0026]
s5.1.1、获取生成词向量所需的输入序列:
[0027]
s5.1.1.1、解析步骤s2中生成的json文件,将json文件中的文本标记转译为音素序列,其中英文文本对应英文音标,中文文本对应中文拼音,这么操作有利于编码器更好地将语音中的关键信息转换保留到词向量中,提高编码器对语音内容的信息提取能力;
[0028]
s5.1.1.2、把文本标记对应的音素序列拼合到json文件中,将得到的json文件作为输入序列,将整个json文件作为输入有助于操作简化和统一设定管理;
[0029]
s5.1.2、生成词向量:将步骤s5.1.1中得到的输入序列输入预处理网络中进行分析和变换,获得预处理后的输入序列,预处理操作可以将输入序列进一步转换为可让编码器更好提取语音信息的格式,这有利于预处理网络自行调整参数,对信息进行更加有效的提取;将预处理后的输入序列进行词嵌入操作,计算json文件中音素序列中的每一个音素对应于其余音素的权重,输出一个512维的词向量,词向量中包含了语音的位置信息和内容信息;
[0030]
s5.1.3、获取中间状态:将步骤s5.1.2中获取的词向量输入到三个依次顺序连接的一维卷积层中,每一个卷积层包括512个5*1大小的卷积核,在每一个卷积层后对输出进行batchnorm操作和dropout操作,其中batchnorm操作是在深度神经网络训练过程中使得每一层神经网络的输入保持相同分布,dropout操作是随机概率暂时屏蔽神经网络单元,在最后一个卷积层处获取中间状态,这两个操作有助于词向量更好地保留语音的相关信息,让后续的结构更好地提取到所需的语音信息;
[0031]
s5.1.4、获取编码器隐状态:将步骤s5.1.3中得到的中间状态输入一个双向的长短期记忆网络lstm层中,生成编码器隐状态。双向的lstm层可以更好地提取语音的信息;
[0032]
s5.1.5、将说话人编码器在多句短语音中提取的嵌入向量拼合进对应的编码器隐状态中,编码器隐状态现带有语音的信息和说话人的音色和情感信息。
[0033]
进一步地,所述步骤s5中训练合成器中解码器的过程如下:
[0034]
s5.2.1、解码器循环运行,每一个循环称为一个时间步,每一个解码器时间步中进行注意力机制运算,其中,注意力机制是一个由上下文权重向量组成的矩阵,能够为输入的各个维度打分,然后按照得分对特征加权,以突出重要特征对下游模型或模块的影响。注意力机制对编码器隐状态进行处理,度量隐状态中的单元进行相似度,接着进行归一化并求得上下文向量,上下文向量包含编码器隐状态中的信息;
[0035]
s5.2.2、解码器中预处理网络接收上一个时间步中输出的上下文向量,对上下文向量进行分析和处理,接着将该上下文向量送入解码器中依次连接的两层长短期记忆网络lstm层中进行处理变换,得到新的上下文向量,最后将新的上下文向量送入投影层中,输出声谱帧和结束概率,其中,声谱帧包含预测的梅尔频谱。上下文向量的传递处理,使解码器能够更好地提取语音信息;
[0036]
s5.2.3、将步骤s5.2.2中得到的声谱帧送入解码器的后处理网络中,后处理网络由三个依次顺序连接的卷积层组成,后处理网络用于提高生成的梅尔频谱的质量,最后输出合成语音的梅尔频谱,该步骤能够为后续的声码器提供输入的梅尔频谱来生成语音。
[0037]
进一步地,所述wavernn声码器由依次连接的单层rnn网络和双softmax层构成,该wavernn声码器基于wavenet,将步骤s5合成语音的梅尔频谱输入该wavernn声码器中,单层rnn网络对合成语音的梅尔频谱进行处理分析,输出分成两部分,每一个部分分别输入对应
的softmax层中,输出为预测的16位的音频样本,合成过程能够较好地兼顾合成语音的速度和质量。
[0038]
进一步地,所述hifi-gan声码器由依次连接的生成器和判别器组成,其中,生成器的数量为1个,判别器的数量为2个,2个判别器并列接收生成器的输出,该hifi-gan声码器输入为gan预测语音波形,生成器是一个卷积神经网络,输入为梅尔频谱,通过卷积提升采样率,直到达到目标采样率,生成预测的16位的音频样本;2个判别器分别为尺度判别器和多周期判别器,评估生成器生成的波形是否达标,交替优化训练,在保证合成音质的同时,提高推理速度。
[0039]
进一步地,所述步骤s7过程如下:
[0040]
s7.1、采集需要进行跨语言合成的语音,并进行预处理,生成json格式文件和音频文件,即转换为学习网络架构可以接收的输入格式;
[0041]
s7.2、将json格式文件输入合成器的编码器中,生成编码器隐状态;同时,将音频文件的梅尔频谱输入说话人编码器中,生成嵌入向量,并将嵌入向量拼接到编码器隐状态中,编码器隐状态可以很好地包含语音信息和说话人信息;
[0042]
s7.3、将步骤s7.2中生成的编码器隐状态输入合成器的解码器中,生成合成语音的梅尔频谱,为后续的声码器提供输入;
[0043]
s7.4、将合成语音的梅尔频谱输入到声码器中,获取合成的跨语言语音,且跨语言语音带有说话人的音色和情感。
[0044]
本发明相对于现有技术具有如下的优点及效果:
[0045]
本发明采集用户的少量语音,在对语音进行预处理后得到语音数据,将语音数据投入到训练完成的学习网络架构中,通过学习网络架构中的说话人编码器,提取出携带说话人音色和情感特征的嵌入向量,然后通过学习网络架构中的合成器,合成目标语音的梅尔频谱,最后将目标语音的梅尔频谱输入声码器中,合成目标语音。本发明提出的合成方法能够快速地合成跨语言的语音,而且合成语音具有说话人的音色和情感特征,能够使合成语音显得更加真实,贴近说话人。
附图说明
[0046]
此处所说明的附图用来提供对本发明的进一步理解,构成本技术的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
[0047]
图1是本发明中公开的语音合成的学习网络架构的处理流程图;
[0048]
图2是本发明中编码器的网络结构图;
[0049]
图3是本发明中解码器的网络结构图;
[0050]
图4是本发明去除说话人编码器结构的学习网络架构的处理流程图。
具体实施方式
[0051]
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的方法进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
[0052]
实施例1
[0053]
图1是本实施例中公开的基于端到端的音色及情感迁移的跨语言语音合成的学习网络架构的处理流程,而图2是本实施例中编码器结构,图3是本实施例中解码器结构,用户可以输入语音,根据自己的需要来合成目标语音。本实施例中,以电脑端为例,具体介绍语音合成方法的处理流程,包括以下步骤:
[0054]
步骤101,采集用户的少量语音,录音时长不超过15s,录音环境应较为安静。
[0055]
步骤102,将步骤101中采集的语音进行预处理。
[0056]
步骤102中预处理具体包括以下步骤:
[0057]
1)对多句短录音文件使用进行语音处理。多句短录音文件将被转换为音频采样率16000hz、音频格式wav格式、位深16bits、单声道的音频文件;
[0058]
2)将文本标记、说话人、说话人id、语音处理得到的音频文件标记拼接成一个或多个json格式的文件,其中文本标记是指说话人和说话内容对应的音频文件的语音内容,说话人id是指对说话人进行的编号标记,音频文件标记是指说话人和说话内容对应的音频文件名称。
[0059]
步骤103,将用户的语音输入到说话人编码器中,提取说话人嵌入向量。
[0060]
步骤103中提取说话人具体包括以下步骤:
[0061]
1)对于给定的多句短录音,用以下公式计算梅尔频谱:
[0062][0063]
其中,f是多句短语音的频率,输出为多句短语音的梅尔频谱;
[0064]
2)说话人编码器将多句短语音的梅尔频谱作为输入,输出为一个固定维度的嵌入向量,训练过程如下:
[0065]
2.1)将长度不定的长梅尔频谱输入到3个依次顺序连接的lstm网络中,每层均由768个细胞单元组成,最后一层lstm网络输出的每一帧的结果会映射到256维的固定长度的向量上,其中一帧是指固定的时间单位;
[0066]
2.2)对上述步骤得到的所有输出做均值和归一化,得到最终的固定维度的嵌入向量,其中,输出的嵌入向量将语音对应的说话人与其他说话人做区分,保留说话人音色与情感。
[0067]
步骤104,将步骤102中预处理得到的json文件输入合成器,获取语音合成的梅尔频谱。
[0068]
步骤104获取合成的梅尔频谱的步骤具体如下:
[0069]
1)对json文件进行处理,获取输入序列:
[0070]
1.1)解析步骤s2中生成的json文件,将json文件中的文本标记转译为音素序列,其中英文文本对应英文音标,中文文本对应中文拼音;
[0071]
1.2)把文本标记对应的音素序列拼合到json文件中,将得到的json文件作为输入序列;
[0072]
2)获取词向量:
[0073]
2.1)将步骤1)中得到的输入序列输入预处理网络中进行分析和变换,获得预处理后的输入序列;将预处理后的输入序列进行词嵌入操作,计算json文件中音素序列中的每
一个音素对应于其余音素的权重,输出一个512维的词向量;
[0074]
3)获取中间状态:将步骤2)中获取的词向量输入到三个依次顺序连接的一维卷积层中,每一个卷积层包括512个5*1大小的卷积核,在每一个卷积层后对输出进行batchnorm操作和dropout操作,其中batchnorm操作是在深度神经网络训练过程中使得每一层神经网络的输入保持相同分布,dropout操作是随机概率暂时屏蔽神经网络单元,在最后一个卷积层处获取中间状态;
[0075]
4)获取编码器隐状态:将步骤3)中得到的中间状态输入一个双向的长短期记忆网络lstm层中,生成编码器隐状态;
[0076]
5)将说话人编码器在多句短语音中提取的嵌入向量拼合进对应的编码器隐状态中。
[0077]
6)将编码器隐状态输入到解码器中,解码器循环运行,每一个循环称为一个时间步,每一个解码器时间步中进行注意力机制运算,其中,注意力机制是一个由上下文权重向量组成的矩阵,注意力机制对编码器隐状态进行处理,度量隐状态中的单元进行相似度,接着进行归一化并求得上下文向量;
[0078]
7)解码器中预处理网络接收上一个时间步中输出的上下文向量,对上下文向量进行分析和处理,接着将该上下文向量送入解码器中依次连接的两层长短期记忆网络lstm层中进行处理变换,得到新的上下文向量,最后将新的上下文向量送入投影层中,输出声谱帧和结束概率,其中,声谱帧包含预测的梅尔频谱;
[0079]
8)将步骤7)中得到的声谱帧送入解码器的后处理网络中,后处理网络由三个依次顺序连接的卷积层组成,后处理网络用于提高生成的梅尔频谱的质量,最后输出合成语音的梅尔频谱。
[0080]
步骤105,将步骤104中生成的梅尔频谱输入到声码器中,获取所需要的语音。
[0081]
步骤105获取所需语音的步骤具体如下
[0082]
在语音合成的网络架构中,使用了wavernn声码器和hifi-gan声码器,二者均接收梅尔频谱作为输入,预测语音合成的波形。将步骤104中生成的梅尔频谱输入到两个声码器中,输出合成速度较快的语音,且合成的语音具有说话人音色和情感特征。
[0083]
综上所述,本发明采集用户语音,用户语音经过预处理后,可以获取与用户语音相关的json文件和梅尔频谱。将采集语音的梅尔频谱输入说话人编码器,获取说话人音色和情感特征的嵌入向量。接着对json文件进行解析,转义为音素序列,输入编码器中提取出编码器隐状态,并将说话人编码器生成的嵌入向量拼合进编码器隐状态中,将编码器隐状态输入到解码器中生成所需语音的梅尔频谱。最后,将生成的梅尔频谱输入到声码器中,合成用户所需要的语音。最后,本发明合成的语音具有说话人的音色和情感特征,能够进行跨语言的语音合成,这是现有的文本语音服务所没有提供的。
[0084]
实施例2
[0085]
本实施例将学习网络架构中的说话人编码器部分去除,如图4所示,来证明本发明中说话人编码器部分在保留说话人的音色和情感信息中取得的效果。本实施例中,以电脑端为例,具体介绍语音合成方法的处理流程,包含以下步骤:
[0086]
步骤101和步骤102与实施例1一致,参照实施例1中步骤101和步骤102。
[0087]
步骤103,将步骤102中预处理得到的json文件输入合成器,获取语音合成的梅尔
频谱。
[0088]
步骤103获取合成的梅尔频谱的步骤具体如下:
[0089]
获取编码器隐状态的步骤参照实施例1中步骤104的1)~4),由于没有说话人编码器生成的嵌入向量,生成的编码器隐状态没有拼合操作,会直接输入解码器中,生成合成梅尔频谱的步骤参照实施例1中步骤104的6)~8)。
[0090]
步骤104合成所需语音参照实施例1中步骤105。由于去除了说话人编码器结构,学习网络架构缺失了提取语音中说话人的音色和情感特征的能力,合成器和声码器结构只能够完成跨语言的语音合成的任务,该实施例合成的语音明显音色与说话人不符,且缺少情感特征,语音较为生硬。
[0091]
为了进一步验证,本实施例利用原有的学习网络架构和去除说话人编码器结构的学习网络架构分别合成了两组内容相同的语音,和真实语音一并投放到在线网页上进行问卷调查,调查采取盲测的形式,即评测人员是在未知语音来源的情况下对所给语音进行打分,对于评分,本实施例使用mos得分,mos得分是评判语音质量的最权威的国际标准,满分为5分,而最终得分也显示去除说话人编码器结构的学习网络架构合成的分数较低,如下表1所示,且部分用户反馈问卷调查中部分语音十分生硬,这部分语音为去除说话人编码器结构的学习网络架构合成的语音。
[0092]
表1.各种情景下mos得分表
[0093]
语音来源mos得分ground truth4.71
±
0.06原学习网络架构4.59
±
0.05去除说话人编码器的学习网络架构4.46
±
0.05
[0094]
从本实施例可以得出,本发明的学习网络架构具有迁移说话人的音色和情感特征的能力,能够较好地提升合成语音的质量。
[0095]
上述实施例为本发明较佳的实施方式,但本发明的实施方式并不受上述实施例的限制,其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。
再多了解一些

本文用于创业者技术爱好者查询,仅供学习研究,如用于商业用途,请联系技术所有人。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献