一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

语音合成系统的训练方法、装置及语音合成方法、装置与流程

2022-04-02 05:27:48 来源:中国专利 TAG:


1.本发明属于语音人机交互领域,尤其涉及一种语音合成系统的训练方法、装置及语音合成方法、装置。


背景技术:

2.语音交互因其自然友好的交互方式,逐渐被人们所认可并广泛应用于各个生活场景,如智能机器人、车载语音、智能电视与音响智能玩具、虚拟人等。语音合成技术即tts技术,代表的是智能设备的说话能力、表达能力,是语音交互领域的一项重要技术。
3.随着tts技术的发展,使用高质量的训练语料已经可以实现和真人无差别的语音合成效果,但目前语音合成服务商仅提供的几个固定的发音人。虽然也有部分厂商提供了发音人定制服务,但价格昂贵。发音人定制服务价格昂贵的一个原因是,目前语音合成需要较多的语料,一般需要专业的播音人员到专业的录音环境录制几十小时的语料,再进行新发音人的训练,其定制周期也非常长。
4.目前tts技术的主流技术是,采用序列到序列的声学模型和神经网络声码器,并且声学模型和声码器是独立训练的。其中,由声学模型实现文本信息到声学特征的转化,由声码器实现将声学特征转化为音频。但目前语音合成仍然存在一些严重问题:如音质非常差、所有发音人的语速和语调等呈现出一种被平均化的现象、发音人个性丢失,因此很难应用于实际场景。


技术实现要素:

5.为解决上述技术问题,本发明提出一种语音合成系统的训练方法、装置及语音合成方法、装置,采用声韵母与音调独立建模,可使语音合成系统仅需较少的训练语料就能覆盖全建模单元。
6.本发明第一方面公开了一种语音合成系统的训练方法,所述方法包括:
7.采集目标发音人的训练语音形成训练音频,并对所述训练音频进行文本标注;
8.将获得的文本标注转化为发音单元标注,所述发音单元标注包括对应的声母和带声调的韵母;
9.将所述发音单元标注拆解并转化为不带音调的发音单元向量和音调向量;
10.基于所述训练音频、所述发音单元向量和所述音调向量,形成训练所述语音合成系统的训练样本。
11.根据本发明第一方面的训练方法,在将文本标注转化为发音单元标注之后,且在将所述发音单元标注拆解并转化为不带音调的发音单元向量和音调向量之前,还包括:
12.使用基于语音识别的对齐技术检测出所述训练音频中的标准字间停顿,并根据检测出的所述标准字间停顿,修改所述发音单元标注,以使所述发音单元标注包含所述标准字间停顿的信息。
13.根据本发明第一方面的训练方法,形成训练所述语音合成系统的训练样本之前,
所述训练方法还包括:
14.基于所述发音单元,计算所述发音单元标注对应的各字的音频能量,并基于重读字的所述音频能量大于句子中各字的平均音频能量,得到句子中存在的重读字的信息,然后转化为对应的重读向量;
15.所述训练样本还包括所述重读向量。
16.根据本发明第一方面的训练方法,形成训练所述语音合成系统的训练样本之前,所述训练方法还包括:
17.根据所述文本标注中标注句子的结束符号,获得对应的句式标识;
18.所述训练样本还包括所述重读向量。
19.根据本发明第一方面的训练方法,形成训练所述语音合成系统的训练样本之前,还包括:
20.筛选所述训练音频中的浊音段;
21.使用声纹提取技术,提取所述浊音段的声纹进行平均作为发音人编码;
22.所述样本输入还包括所述发音人编码。
23.根据本发明第一方面的训练方法,所述发音单元向量与所述音调向量一一对应。
24.根据本发明第一方面的训练方法,所述发音单元向量包括与拼音字母对应的字母向量单元和不发音单元,所述不发音单元用于表示起始和结束的静音以及停顿的标点符号。
25.根据本发明第一方面的训练方法,所述步骤s3中,所述音调向量定义6个音调标识,分别对应不发音单元及声母的没声调,韵母的一声、二声、三声、四声、轻声,其中,所述不发音单元及声母的没声调对应同一个所述音调标识。
26.根据本发明第一方面的训练方法,所述语音合成系统为基于vits的语音合成系统。
27.根据本发明第一方面的训练方法,还包括:
28.对所述训练样本的所述发音单元向量和所述音调向量,分别采用不同的嵌入网络层进行编码;
29.将所述音调向量编码后得到的第二特征向量叠加到所述发音单元向量编码后得到的第一特征向量上,输入所述语音合成系统的神经网络;
30.所述神经网络经过训练后,所述语音合成系统学习到发音单元依据音调进行变调的规律。
31.根据本发明第一方面的训练方法,所述训练样本包括所述训练音频和重读向量,所述训练音频在输入前经过了如下预处理:获得标准字间停顿,对所述标准字间停顿进行显示建模,获得重读字,对重读进行显示建模;所述训练方法还包括:
32.对所述训练样本的重读向量,使用独立的嵌入网络层进行编码;
33.将所述重读向量编码后形成的第三特征向量叠加到所述发音单元向量编码后的第一特征向量上,输入所述语音合成系统的神经网络;
34.所述神经网络经过训练后,所述语音合成系统学习到发音单元依据所述重读向量进行重读的规律。
35.根据本发明第一方面的训练方法,所述训练样本包括句子标识,所述训练方法还
包括:
36.对所述训练样本的句子标识,使用独立的嵌入网络层进行编码;
37.将所述句子标识编码后的第四特征向量拓展后叠加到所述发音单元向量编码后的第一特征向量上,输入所述语音合成系统的神经网络;
38.所述神经网络经过训练后,所述语音合成系统学习到依据句式改变语气的规律。
39.根据本发明第一方面的训练方法,所述训练样本包括发音人编码,所述训练方法还包括:
40.对所述训练样本的所述发音人编码,使用线性神经网络进行处理;
41.所述发音人编码经过线性神经网络处理后,替换vits的one-hot发音人编码。
42.本发明的第二方面还提供一种语音合成系统的训练装置,所述训练装置包括:
43.采集模块,用于采集目标发音人的训练语音形成训练音频;
44.文本标注模块,用于对所述训练音频进行文本标注;
45.发音标注模块,用于将获得的文本标注转化为发音单元标注,所述发音单元标注包括对应的声母和带声调的韵母;
46.标注拆解模块,将所述发音单元标注拆解并转化为不带音调的发音单元向量和音调向量;
47.输出模块,基于所述训练音频、所述发音单元向量和所述音调向量,形成训练所述语音合成系统的训练样本。
48.本发明的第三方面提供一种语音合成方法,使用上述任一项所述的训练方法形成的语音合成系统进行语音合成。
49.根据本发明第三方面的语音合成方法,包括:
50.获取目标发音人的发音人编码;
51.获取待用于合成语音的句子;
52.根据所述句子的结尾符号,获得句式标识;
53.将所述句子的汉字转化为不带音调的发音单元向量和音调向量;
54.根据发音单元向量的长度,生成全部置零或其他默认值的重读向量;或者,根据所述句子中的重读字生成对应的重读向量;
55.以所述发音单元向量,所述音调向量,所述重读向量,所述句式标识和所述发音人编码作为输入,送进训练好的语音合成模型,生成对应语音。
56.本发明第四方面提供一种电子设备,所述电子设备包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时,实现上述任一项所述的训练方法中的步骤,或者,上述任一项所述的语音合成方法中的步骤。
57.本发明第五方面提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时,实现上述任一项所述的训练方法中的步骤,或者,上述任一项所述的语音合成方法中的步骤。
58.本技术的语音合成系统的训练方法,特别涉及一种使用少语料实现语音的个性化语音定制。通过本技术方法,录制待定制发音人五分钟的语料,即可实现目标发音人的个性化定制,发音人音色、韵律与真人基本一致,且音质是高保真的;使用本技术方法可极大地降低定制成本,并且可以面向终端个人进行定制服务,可以使得语音合成的发音人定制得
到广泛的普及;在所有具备语音交互的产品中,均可使用本技术方法,比如智能机器人、车载语音、智能电视与音响、智能玩具、虚拟人等。本技术方法在语音媒体领域也有广泛的应用前景,比如有声小说自动生成、短视频配音、语音客服等。
附图说明
59.为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
60.图1为根据本发明实施例的一种语音合成系统的训练方法的流程图;
61.图2为根据本发明实施例的基于vits的语音合成系统个性化发音人的训练流程图;
62.图3为根据本发明实施例的一种基于vits的语音合成系统个性化发音人的语音合成流程图;
63.图4为根据本发明实施例的一种电子设备的结构图。
具体实施方式
64.为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例只是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
65.使用独立训练声学模型和声码器模型的多发音人语音合成技术(典型的声学模型有:tactron2、fastspeech、glowspeech等;典型的声码器有:wavernn、wavenet、lpcnet、melgan、hifi-gan等),合成的音质非常差、所有发音人的语速和语调等呈现出一种被平均化的现象(即发音人个性丢失);其主要的原因是独立训练的声学模型和独立训练的声码器之间存在失配,以及声码器无法区分发音人导致的平均化。vits语音合成系统能解决以上问题,但是它并不关注于实现中文语音合成系统的发音人定制问题,因此使用vits实现中文语音合成系统的发音人定制,将面临这些问题:中文发音单元如何建模;中文发音韵律如何控制;如何新增加个性化发音人。本技术使用vits实现中文语音合成系统的发音人个性化定制,将对这些问题给出解决方案。
66.上述的vits,由一篇名为conditional variational autoencoder with adversarial learning for end-to-end text-to-speech的论文的首先提出一种完全端到端的语音合成系统vits;它采用基于vae(variational autoencoder)的后验编码器,基于normalizing flow的先验编码器以及hifi-gan解码器,以实现完整的端到端语音合成系统来解决了声学模型与声码器失配的问题;采用stochastic duration predictor对发音单元进行时长建模,该方法解决了目前主流技术中出现的语速平均化问题;同时采用基于speaker condition的hifi-gan解码器及其对抗训练技术,使得语音质量得到保证的同时、保证了发音人的个性化发音细节特征。
67.需要说明的是,本文虽然基于vits的语音合成系统对本发明方案进行了说明,但
本发明技术方案还可能与其他技术结合使用,本文对此不做具体限定。
68.本发明实施例提供一种语音合成系统的训练方法,所述方法大体包括:目标发音人训练样本获取步骤,和,基于所述训练样本对语音合成系统进行训练的步骤;如图1所示,所述目标发音人训练样本获取步骤包括:
69.步骤1、采集目标发音人的训练语音形成训练音频,并对所述训练音频进行文本标注;
70.步骤2、将获得的文本标注转化为发音单元标注,所述发音单元标注包括对应的声母和带声调的韵母;
71.步骤3、将发音单元标注拆解并转化为不带音调的发音单元向量和音调向量;
72.步骤4、根据训练音频、发音单元向量和音调向量,形成训练语音合成系统的训练样本。
73.其中,发音单元向量可与音调向量一一对应。例如,语音的中一个字对应一个发音单元向量和一个音调向量,且二者存在对应关系,能表示出该字的发音如何,音调如何。
74.其中,发音单元向量可包括与拼音字母对应的字母向量单元和不发音单元,不发音单元用于表示起始和结束的静音以及停顿的标点符号。
75.其中,步骤s3中,音调向量可定义6个音调标识,分别对应不发音单元及声母的没声调,韵母的一声、二声、三声、四声、轻声,其中,不发音单元及声母的没声调对应同一个音调标识。
76.目前语音合成的研究主要还是集中于英语语音合成系统,如vits只提供了英语发音建模方法;中文发音与英语发音最大的区别是,中文发音基于拼音、拼音有音调,而英语发音没有音调;常见的英语合成系统采用英语音标进行建模;常见的中文合成系统采用带音调的拼音进行建模;建模的粒度越大,需要更多的训练语料来覆盖全建模单元,因此采用带音调的拼音建模方法将拼音拆解为两个建模单元:一个是声母,一个是韵母带音调。通常在设计tts发音单元时,会基于标准的声韵母进行一些音的细分,比如zi和zhi中的韵母i由于发音差别非常大、会被定义为两个建模单元。为了简单起见,以标准声韵母的个数为例进行问题的说明:声母个数23个,韵母个数24个,音调5个(一声,二声,三声,四声,轻声),那么建模单元为23 24*5=143个;使用这种方法存在一个严重的问题,这个问题就是训练语料很难覆盖完这些发音单元,实际使用时遇到训练语料中没有出现过的建模单元和出现次数少的生僻建模单元的合成出的语音是完全错误的杂音;这种建模方法是从数字信号处理语音合成时代沿用至今,数字信号处理技术没办法对拼音的变调进行建模,只能对声韵母和音调进行捆绑建模。
77.本实施例的语音合成系统的形成方法中,采用声韵母与音调独立建模的方法,并且使用神经网络embedding技术使语音合成系统自己学习拼音的变调规则;同样以标准声韵母为例,发音单元23 24=47个,不发音单元sil表示起始和结束的静音、停顿的标点符号;定义6个音调,分别为不发音单元和声母的没声调,韵母的一声、二声、三声、四声、轻声,依次用{0,1,2,3,4,5}作为id;以合成“你好”为例,其拼音为“ni3 hao3”,按照主流建模方法实现的一个输入向量{sil,n,i3,h,ao3,sil}。
78.而本实施例方法中建模为两个并行输入向量{sil,n,i,h,ao,sil}和{0,0,3,0,3,0},训练时使用embedding技术将两个输入向量编码为两个特征向量{x,c},然后将音调的
特征向量c叠加到x,这样c就作为x的一种条件和扰动,在经过训练后语音合成系统能自动学习到韵母的变调规则;这样的建模方法能够尽可能保证所有都被建模单元都能被训练语料覆盖,也能减少发音人个性化定制时需要的训练语料。
79.为了证明这种建模方法的有效性,本技术发明人测试了制造汉语中根本不存在的发音输入,本技术申请方法形成的系统仍然能发出音调有瑕疵的语音,但是主流建模方法发出的语音是完全无法听懂的杂音。一个具体的例子,“开车”的发音为“kai1 che1”修改为“kai1che5”。另外如果在合成语音时将音调输入向量全部置零,得到的合成结果是音频发音如同以英语为母语的人念的中文、不会变调,这从侧面也证明了本技术建模方法更与客观实际相符合:音调应该被建模为韵母的条件、扰动。
80.在一些实施例中,在步骤2之后,且在步骤3之前,目标发音人训练样本获取步骤还包括:
81.使用基于语音识别的对齐技术检测出训练音频中的标准字间停顿,并根据检测出的标准字间停顿,修改步骤2中获得的发音单元标注,以使修改后的发音单元标注包含标准字间停顿的信息。
82.目前语音合成的语料通常是由专业的播音员录制的,其语速、音量、情感都很稳定,具有一致性;然而在实现发音人的定制时,目标发音人通常没有经过专业的发音训练,常出现卡词、停顿等不流利的情况,也会出现习惯性的重读、根据句式调整情感等。对于目标发音人训练语料中出现的字间停顿,即不流利的情况,由于vits采用的是单调一致性搜索(monotonic alignment search)实现发音和文本标注的对齐,字间停顿会被分配给两侧的发音单元,在合成语音的时候这些发音单元会出现偶发的停顿,导致合成语音的流利程度降低。因此,必须对训练音频中的字间停顿进行显示的建模,不能让停顿影响到字间停顿两侧的发音单元;准确的字间停顿可以基于人工标注实现,但是成本太高。
83.本实施例使用基于语音识别的对齐技术检测出训练音频中的标准字间停顿,并根据检测出的标准字间停顿,修改步骤2中获得的发音单元标注,以使修改后的发音单元标注包含标准字间停顿的信息。此处的标准字间停顿指正常的字间停顿,不包括或排除了上述因没经过专业的发音训练出现卡词、非故意停顿、咳嗽等异常停顿。本步骤可采用将字间停顿标识添加发音单元标注中的方法,将标准字间停顿的相关信息添加至发音单元标注中。
84.本实施例可使用基于语音识别的对齐技术检测出训练音频中的字间停顿,并在原始文本标注中对应位置进行显示停顿标注;具体的,本实施例课使用mfa(montreal forced aligner)完成这个工作,mfa是基于kaldi的语音到文本对齐工具。对字间停顿进行显示建模后,vits的单调一致性搜索算法就不会将停顿分配给发音单元,在进行语音合成时就不会出现突兀的停顿。
85.在一些实施例中,在一些实施例中,在步骤3之前,还包括:
86.基于发音单元,计算发音单元标注对应的各字的音频能量,并基于重读字的音频能量大于句子中各字的平均音频能量,得到句子中存在的重读字的信息,然后转化为对应的重读向量;在步骤3中,训练样本还包括重读向量。
87.训练样本还包括重读向量,指输入语音合成系统的训练样本中包含训练音频对应的重读信息,具体地,可以训练样本直接为多重向量,多重向量中包含训练音频对应的重读向量,也可以基于重读向量生成训练样本,使训练样本包含训练音频各句子的重读信息。
88.对于目标发音人训练语料中出现的重读,如果重读和非重读发音单元无区别的混合建模,在合成语音时、会出现重读和非重读平均化以及重读随机出现的问题,导致合成语音自然度下降;因此应该将重读和非重读发音单元进行可区分的,类似声调一样的方法建模。准确的重读可以基于人工标注实现,但是成本太高;在一句话中,重读的字的能量通常要明显大于非重读的字,可以据此识别。由于本实施例使用基于语音识别的对齐技术能够获得每个字对应的音频,所以能计算得到每个字的能量,从而近似得出哪些是重读字,哪些是非重读字。类似地,本实施例可将非重读和重读用{0,1}建模,字是重读的、则其声韵母均是重读的,重读向量经过embedding技术编码后,叠加到发音单元的特征向量x上;以合成“今天的天气”为例,其拼音为“jin1 tian1 de5 tian1 qi4”,假设重读发生在

天’上,那么按照本实施例方法,输入发音单元向量为{sil,j,in,t,ian,d,e,t,ian,q,i,sil}与音调向量{0,0,1,0,1,0,5,0,1,0,4,0}以及重读向量{0,0,0,0,0,0,0,1,1,0,0,0}。
89.在一些实施例中,步骤3之前,目标发音人训练样本获取步骤还包括:根据文本标注中标注句子的结束符号,获得对应的句式标识(句式id);在步骤3中,训练样本还包括句式标识。
90.所述训练样本还包括句式标识,指输入语音合成系统的训练样本中包含训练音频各句子对应的句式标识,具体地,所述训练样本可以直接为多重向量,多重向量中包含句式标识,也可以基于句式标识生成训练样本,使训练样本包含句式标识对应的语气信息。
91.中文常见句式分为陈述句、疑问句、感叹句以及祈使句,目标发音人录制语料时会行惯性的使用与句式相符合的语气进行发音。为了提高语音合成系统的语气表达能力,本技术实施例将陈述句、疑问句、感叹句以及祈使句使用{0,1,2}进行建模;感叹句以及祈使句有相似性,常用感叹号结尾,因为一并用2编码;疑问句常以问好结尾;结尾符号不是感叹号和问号的句子,用陈述句0进行编码。句式id经过embedding技术编码后,按照发音单元的特征向量x维度进行复制拓展再叠加到特征向量x上。
92.在一些实施例中,步骤3之前,还包括:筛选训练音频中的浊音段;使用声纹提取技术,提取浊音段的声纹进行平均作为发音人编码;在步骤3中,样本输入还包括发音人编码。
93.所述训练样本还包括发音人编码,指输入语音合成系统的训练样本中包含训练音频各句子对应的发音人编码,具体地,所述训练样本可以直接为多重向量,多重向量中包含发音人编码,也可以基于发音人编码生成训练样本,使训练样本包含发音人编码对应的发音人标识信息。
94.原始的vits采用one-hot的发音人编码方式经过embedding技术嵌入到语音合成系统中,实现语音合成系统的多发音人;采用one-hot的发音人编码方式,由发音人个数确定,因此不支持在训练好的模型中新增加发音人,如果一定要新增加发音人、整个系统必须重头开始训练。本技术采用声纹编码的方式进行发音人编码,但实际使用时因为声纹编码本身存在不可靠的原因,导致部分发音人出现相互干扰、音质差的情况。
95.经分析一般声纹系统为了实时性,采用了维度适中的声学特征来提取声纹编码;由于本技术的声码提取过程没有实时性要求,因此采用了高维度的声学特征提取声纹编码。声纹编码精度的提高能增大相似发音人之间的信息共享和减少不相似发音人之间的相互干扰。
96.声纹编码一般是对语音进行分段提取,然后在所有语音段上求平均;因此对于没
有任何特征的静音段通常是被直接舍弃的;由于语音包括浊音和清音两种:发浊音时,声带以基音周期f0发生共振、整个声道均参与到发音,声纹特征明显、不同的发音人之间差别很大;而发清音时,声带不工作、只有部分声道器官参与发音,声纹特征不明显、不同的发音人之间差别较小,典型的如[s];因此进一步地,本技术可采用基音周期(f0)检测技术确定浊音段,然后提取浊段音声纹编码,全局平均后作为本技术的发音人编码。为了说明清音对声纹编码的不利影响,采集女发音人a两句话a1和a2,采集男发音人b一句话b1,基于整句提取的声纹编码分别是:a1_x,a2_x,b1_x,基于浊音提取的声纹编码分别是:a1_f,a2_f,b1_f,然后计算各个声纹编码相互之间的余弦相似度,有:cosine_similarity(a1_x,a1_f)=0.8769、cosine_similarity(a2_x,a2_f)=0.9405、cosine_similarity(a1_x,a2_x)=0.6210、cosine_similarity(a1_f,a2_f)=0.6868、cosine_similarity(a1_x,b1_x)=负0.0558、cosine_similarity(a1_f,b1_f)=负0.0753;可以得出结论:基于整句提取的声纹编码和基于浊音提取的声纹编码是有明显差异的;同一发音人不同语句之间,采用基于浊音提取的声纹编码相似度要高于基于整句提取的声纹编码;不同发音人之间,采用基于浊音提取的声纹编码差别要大于基于整句提取的声纹编码;因此,综上所述,基于浊音提取的声纹编码优于基于整句提取的声纹编码。本技术的个性化发音人增加方案,总结为使用基于浊音的声纹编码作为发音人编码,嵌入到语音合成系统中进行发音人的训练,即可完成新发音人的增加。
[0097]
其中,本技术基于vits的语音合成系统形成。基于训练样本,对vits语音合成系统进行训练的步骤,包括:对训练样本的发音单元向量和音调向量,分别采用不同的嵌入网络层(embedding)进行编码;将音调向量编码后得到的第二特征向量叠加到发音单元向量编码后得到的第一特征向量上,输入语音合成系统的神经网络;神经网络经过训练后,语音合成系统学习到发音单元依据音调进行变调的规律。
[0098]
其中,所述训练样本还可包括所述训练音频和重读向量。训练音频在输入前经过了如下预处理:获得标准字间停顿,对标准字间停顿进行显示建模;获得重读字,对重读进行显示建模;基于训练样本对语音合成系统进行训练的步骤,还包括:对训练样本的重读向量,使用独立的embedding网络层进行编码;将重读向量编码后形成的第三特征向量叠加到发音单元向量编码后的第一特征向量上,输入语音合成系统的神经网络;神经网络经过训练后,语音合成系统学习到发音单元依据重读向量进行重读的规律。
[0099]
其中,基于训练样本对语音合成系统进行训练的步骤,还包括:对训练样本的句子标识,使用独立的embedding网络层进行编码;将句子标识编码后的第四特征向量拓展后叠加到发音单元向量编码后的第一特征向量上,输入语音合成系统的神经网络;神经网络经过训练后,语音合成系统学习到依据句式改变语气的规律。此处拓展指为便于矩阵计算在不改变其信息的前提下进行的操作。
[0100]
其中,基于训练样本对语音合成系统进行训练的步骤,还包括:对训练样本的发音人编码,使用线性神经网络(线性层)进行处理;发音人编码经过线性神经网络处理后,替换vits的one-hot发音人编码。
[0101]
综上,本技术提供一种基于vits的语音合成系统的形成方法,尤其是中文语音合成系统的发音人定制方法,在实现多发音人tts时,每个发音人的音质、音色和韵律与训练语音基本一致,使用gpu进行推理能够满足实时性需求;并且在实现基础多发音人tts模型
后,新增加的发音人只需要5分钟的语料进行训练即可实现发音人的个性化定制。
[0102]
语音合成系统的发音人定制服务有广泛的市场需求,巨大的商业价值;本发明的基于vits语音合成系统能实现发音人个性化定制,能实现使用极少的训练语料即可实现发音人定制;且语音音质、韵律与训练语料高度一致,使用5分钟的高保真训练语料即可定制出高保真的发音人;大大减少了发音人的定制成本,并且可以面向终端个人消费者提供定制服务,可以广泛应用于智能设备和语音媒体等;同时,该技术也存在社会价值,如为后天发音障碍的残疾人定制专用发音系统等。
[0103]
本技术中提出的声韵母与音调独立建模的方法,相较于主流的声韵母和音调进捆绑建模的方法,建模单元更少,在更少的训练语料上面建模单元更容易被覆盖全、减少生僻建模单元出现发杂音的错误,因此该建模方法更适合用于语音合成系统的发音人定制;使用神经网络embedding技术对发音单元和音调独立建模后,在特征空间将音调向量的特征叠向量加到发音单元向量的特征向量之上,经过训练后、语音合成系统的神经网络能自动学习到发音单元的变调规则。
[0104]
本技术还使用基于语音识别的对齐技术对训练语料进行预处理,获得字间停顿和重读标记后进行显示建模的方法,以及依据结尾符号进行句式建模方法,能提高语音合成的流利程度和语气表达能力。
[0105]
本技术还基于浊音提取的声纹编码,相较于主流的基于整句提取的声纹编码可靠性更高,能增大相似发音人之间的信息共享和减少不相似发音人之间的相互干扰,从而提高发音的正确率和提高音质。
[0106]
本发明的第二方面还提供一种语音合成系统的训练装置,所述训练装置包括:
[0107]
采集模块,用于采集目标发音人的训练语音形成训练音频;
[0108]
文本标注模块,用于对所述训练音频进行文本标注;
[0109]
发音标注模块,用于将获得的文本标注转化为发音单元标注,所述发音单元标注包括对应的声母和带声调的韵母;
[0110]
标注拆解模块,将所述发音单元标注拆解并转化为不带音调的发音单元向量和音调向量;
[0111]
输出模块,基于所述训练音频、所述发音单元向量和所述音调向量,形成训练所述语音合成系统的训练样本。
[0112]
根据本发明的训练装置,还包括:停顿模块,用于基于语音识别的对齐技术检测出所述训练音频中的标准字间停顿,并根据检测出的所述标准字间停顿,修改所述发音单元标注,以使所述发音单元标注包含所述标准字间停顿的信息。
[0113]
根据本发明的训练装置,还包括:重读模块,用于基于所述发音单元,计算所述发音单元标注对应的各字的音频能量,并基于重读字的所述音频能量大于句子中各字的平均音频能量,得到句子中存在的重读字的信息,然后转化为对应的重读向量。所述训练样本还包括所述重读向量。
[0114]
根据本发明的训练装置,还包括:句式模块,用于根据所述文本标注中标注句子的结束符号,获得对应的句式标识。所述训练样本还包括所述重读向量。
[0115]
根据本发明的训练装置,还包括:发音人编码模块,用于筛选所述训练音频中的浊音段,使用声纹提取技术,提取所述浊音段的声纹进行平均作为发音人编码。所述样本输入
还包括所述发音人编码。
[0116]
根据本发明的训练装置,所述发音单元向量与所述音调向量一一对应。
[0117]
根据本发明的训练装置,所述发音单元向量包括与拼音字母对应的字母向量单元和不发音单元,所述不发音单元用于表示起始和结束的静音以及停顿的标点符号。
[0118]
根据本发明的训练装置,所述音调向量定义6个音调标识,分别对应不发音单元及声母的没声调,韵母的一声、二声、三声、四声、轻声,其中,所述不发音单元及声母的没声调对应同一个所述音调标识。
[0119]
根据本发明的训练装置,所述语音合成系统为基于vits的语音合成系统。
[0120]
根据本发明的训练装置,还包括:训练模块,用于对所述训练样本的所述发音单元向量和所述音调向量,分别采用不同的嵌入网络层进行编码;将所述音调向量编码后得到的第二特征向量叠加到所述发音单元向量编码后得到的第一特征向量上,输入所述语音合成系统的神经网络;所述神经网络经过训练后,所述语音合成系统学习到发音单元依据音调进行变调的规律。
[0121]
根据本发明的训练装置,所述训练样本包括所述训练音频和重读向量,所述训练音频在输入前经过了如下预处理:获得标准字间停顿,对所述标准字间停顿进行显示建模,获得重读字,对重读进行显示建模;所述训练模块还用于:对所述训练样本的重读向量,使用独立的嵌入网络层进行编码;将所述重读向量编码后形成的第三特征向量叠加到所述发音单元向量编码后的第一特征向量上,输入所述语音合成系统的神经网络;所述神经网络经过训练后,所述语音合成系统学习到发音单元依据所述重读向量进行重读的规律。
[0122]
根据本发明的训练装置,所述训练样本包括句子标识,所述训练模块还用于:对所述训练样本的句子标识,使用独立的嵌入网络层进行编码;将所述句子标识编码后的第四特征向量拓展后叠加到所述发音单元向量编码后的第一特征向量上,输入所述语音合成系统的神经网络;所述神经网络经过训练后,所述语音合成系统学习到依据句式改变语气的规律。
[0123]
根据本发明的训练装置,所述训练样本包括发音人编码,所述训练模块还用于:对所述训练样本的所述发音人编码,使用线性神经网络进行处理;所述发音人编码经过线性神经网络处理后,替换vits的one-hot发音人编码。
[0124]
本发明的第三方面还提供一种语音合成方法,使用上述任一项所述的训练方法得的语音合成系统进行语音合成。具体地,该方法包括:
[0125]
获取目标发音人的发音人编码;
[0126]
获取待用于合成语音的句子;
[0127]
根据所述句子的结尾符号,获得句式标识;
[0128]
将所述句子的汉字转化为不带音调的发音单元向量和音调向量;
[0129]
根据发音单元向量的长度,生成全部置零或其他默认值的重读向量;或者,根据所述句子中的重读字生成对应的重读向量;
[0130]
以所述发音单元向量,所述音调向量,所述重读向量,所述句式标识和所述发音人编码作为输入,送进训练好的语音合成模型,生成对应语音。
[0131]
本发明第四方面提供一种电子设备,所述电子设备包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时,实现上述任一项所述的训练
方法中的步骤,或者,上述任一项所述的语音合成方法中的步骤。
[0132]
本发明第五方面提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时,实现上述任一项所述的训练方法中的步骤,或者,上述任一项所述的语音合成方法中的步骤。
[0133]
下面结合具体实施例对本技术的技术方案进行进一步描述。
[0134]
语音合成系统个性化发音人实现包括目标发音人语音训练与目标发音人语音合成两个阶段,下面将以此对他们进行阐述。
[0135]
目标发音人语音训练阶段的具体实施方式如下:
[0136]
步骤一:完成目标发音人的训练语音采集与文本标注;
[0137]
步骤二:将文本标注转化为声母和韵母带声调的发音单元标注;
[0138]
步骤三:使用mfa工具,对目标发音人训练语音和发音单元标注进行对齐;
[0139]
步骤四:根据对齐结果,获得可能存在的字间停顿,修改步骤二中的发音单元标注、显示标注出字间停顿,比如使用pause进行标注;
[0140]
步骤五:根据对齐结果,计算发音单元组成的字的平均能量,获得可能存在的重读字,获得句子对应的重读向量;
[0141]
步骤六:根据标注句子结束符号,获得句式id;
[0142]
步骤七:使用基音f0检测算法,筛选训练音频中的浊音段;
[0143]
步骤八:使用声纹提取技术,提取浊音段声纹进行平均作为发音人编码;
[0144]
步骤九:将第四步中的发音单元标注拆解为不带音调的发音单元向量和音调向量;
[0145]
步骤十:以{发音单元向量,音调向量,重读向量,句式id,发音人编码,音频}作为一个样本送进vits语音合成系统进行训练,具体如图2所示。
[0146]
目标发音人语音合成的具体实施方式如图3所示,包括:
[0147]
步骤1:已知目标发音人的发音人编码(即图2和图3中的说话人编码);
[0148]
步骤2:输入要用于合成语音的句子;
[0149]
步骤3:根据句子结尾符号,获得句式id;
[0150]
步骤4:将汉字转化为不带音调的发音单元向量和音调向量;
[0151]
步骤5:根据发音单元向量长度,生成全零的默认重读向量,或根据实际需要重读的字生成重读向量;
[0152]
步骤6:以{发音单元向量,音调向量,重读向量,句式id,发音人编码}作为输入,送进训练好的语音合成模型,生成对应语音。
[0153]
其中,关于图2中基于vits语音合成系统的训练过程,以及图3中语音合成模型的应用可参考国际会议论文icml 2021:international conference on machine learning,《conditional variational autoencoder with adversarial learning for end-to-end text-to-speech》,j kim,j kong,j son。
[0154]
本实施例还提供的一种语音合成系统实现发音人个性化定制的方法,包括:
[0155]
基于vits的语音合成系统;
[0156]
声韵母与音调独立建模的方法;
[0157]
定义6个音调,分别为不发音单元和声母的没声调,韵母的一声、二声、三声、四声、
轻声,依次用{0,1,2,3,4,5}作为id;
[0158]
将拼音分解为发音单元向量和音调向量;
[0159]
发音单元向量和音调向量使用不同的embedding网络层进行编码;
[0160]
将音调向量编码后的特征向量叠加到发音单元向量编码后的特征向量上;
[0161]
经过神经网络的训练后,语音合成系统自动学习发音单元依据音调进行变调的规律;
[0162]
使用基于语音识别的对齐技术对训练语料进行预处理:获得字间停顿,对其进行显示建模;获得重读字,对重读进行显示建模;
[0163]
重读向量使用独立的embedding网络层进行编码;
[0164]
将重读向量编码后的特征向量叠加到发音单元向量编码后的特征向量上;
[0165]
经过神经网络的训练后,语音合成系统自动学习发音单元依据重读向量进行重读的规律;
[0166]
依据结尾符号进行句式建模:将以感叹号结尾的句子,用2表示;将以问号结尾的句子,用1表示;其他句子,用0表示;句子id使用独立的embedding网络层进行编码;
[0167]
将句子id编码后的特征向量拓展后叠加到发音单元向量编码后的特征向量上;
[0168]
经过神经网络的训练后,语音合成系统自动学习依据句式改变语气的规律;
[0169]
基于浊音提取的声纹编码:使用基音f0检测技术,判断音频中的浊音;使用声纹提取技术,提取浊音对应的声纹编码;将目标发音人所有基于浊音提取的声纹编码求平均后,作为发音人编码;发音人编码经过线性神经网络处理后,替换原vits的one-hot发音人编码。
[0170]
本发明第三方面还提供一种电子设备,所述电子设备包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时,实现上述任一项所述的训练方法中的步骤,或者,上述任一项所述的语音合成方法中的步骤。
[0171]
图4为根据本发明实施例的一种的结构图。如图4所示,该电子设备包括通过系统总线连接的处理器、存储器、通信接口、显示屏和输入装置。其中,该电子设备的处理器用于提供计算和控制能力。该电子设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该电子设备的通信接口用于与外部的终端进行有线或无线方式的通信,无线方式可通过wifi、运营商网络、近场通信(nfc)或其他技术实现。该电子设备的显示屏可以是液晶显示屏或者电子墨水显示屏,该电子设备的输入装置可以是显示屏上覆盖的触摸层,也可以是电子设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。
[0172]
本领域技术人员可以理解,图4中示出的结构,仅仅是与本公开的技术方案相关的部分的结构图,并不构成对本技术方案所应用于其上的电子设备的限定,具体的电子设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
[0173]
本发明第四方面公开了一种计算机可读存储介质。计算机可读存储介质上存储有计算机程序,计算机程序被处理器执行时,实现本公开第一方面或第二方面中任一项的方法中的步骤。
[0174]
请注意,以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述
实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。以上实施例仅表达了本技术的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本技术构思的前提下,还可以做出若干变形和改进,这些都属于本技术的保护范围。因此,本技术专利的保护范围应以所附权利要求为准。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献