一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种基于元学习的自适应文字转语音方法及其相关设备与流程

2022-09-03 21:19:25 来源:中国专利 TAG:


1.本技术涉及人工智能技术领域,尤其涉及一种基于元学习的自适应文字转语音方法及其相关设备。


背景技术:

2.随着神经网络在许多应用上的成功,过去几年,基于神经网络的语音转文字系统(text to speech,tts)也得到的显著的改善。tts的语音保真度和可懂度已经有了很大提升。人工智能语音助手服务和音频导航系统等应用已得到了广泛的开发和部署。在满足生成高质量声音需求的同时,客户对个性化的需求不断增加,这要求tts模型在生成高质量的语音的同时,可以很好地捕捉不同说话者的声音。然而现有的自适应tts系统主要是基于预训练模型,即首先模型会从头训练多个说话者的声音,之后利用说话者的少部分语音数据,在预训练模型上进行微调。然而这种方法仍然需要说话者提供部分语音数据,且微调也需要几千个step的迭代才能收敛,并且如果遇到训练数据中未出现过的说话者,合成的效果会比较差。可见,现有技术中的自适应tts系统针对小样本数据存在训练的复杂程度大、转换效果差的问题。


技术实现要素:

3.本技术实施例的目的在于提出一种基于元学习的自适应文字转语音方法及其相关设备,声音训练样本数据的数据量少,能够减少训练的复杂程度,且能够提高小样本数据的适应性学习能力及转换效果。
4.为了解决上述技术问题,本技术实施例提供一种基于元学习的自适应文字转语音方法,采用了如下所述的技术方案:
5.基于获取到的发声者的全量数据集进行预训练,得到预训练声学模型,其中,所述预训练声学模型包括的参数为预设的声学模型的初始值;
6.从所述全量数据集中采样声音训练样本数据,通过所述预设的声学模型根据所述声音训练样本数据进行特征训练以生成mel频谱,以及通过预设的风格编码器生成风格编码;
7.对所述预设的声学模型的层归一化进行自适应实例归一化处理,将所述风格编码注入所述预设的声学模型中,得到包括目标mel频谱的目标声学模型,其中,所述目标mel频谱带有所述风格编码;
8.获取陌生样本数据,并将所述陌生样本数据输入到所述目标声学模型中,以输出与所述陌生样本数据对应的带有所述风格编码的目标语音数据。
9.进一步的,所述通过所述预设的声学模型根据所述声音训练样本数据进行特征训练以生成mel频谱,以及通过预设的风格编码器生成风格编码的步骤具体包括:
10.将所述声音训练样本数据中的声音数据输入所述预设的声学模型,根据所述声音数据的采样频率生成mel频谱;
11.将所述声音训练样本数据中的声音数据输入所述预设的风格编码器,根据所述声音数据的所述采样频率以及样本精度生成所述风格编码。
12.进一步的,所述对所述预设的声学模型的层归一化进行自适应实例归一化处理,将所述风格编码注入所述预设的声学模型中,得到包括目标mel频谱的目标声学模型的步骤具体包括:
13.通过所述自适应实例归一化处理计算所述风格编码的第一参数;
14.通过所述自适应实例归一化处理计算所述mel频谱的第二参数;
15.基于所述mel频谱的第一参数以及所述风格编码的第二参数进行数据匹配,输出带有风格编码的所述目标mel频谱。
16.进一步的,在所述对所述预设的声学模型的层归一化进行自适应实例归一化处理,将所述风格编码注入所述预设的声学模型中的步骤之后,还包括步骤:
17.从所述全量数据集中采样文字请求样本数据,将所述文字请求样本数据输入所述目标声学模型中进行转换检测,判断是否输出与所述文字请求样本数据对应的检测数据。
18.进一步的,所述将所述文字请求样本数据输入所述目标声学模型中进行转换检测,判断是否输出与所述文字请求样本数据对应的检测数据的步骤包括:
19.通过预设的风格判别器判断所述目标mel频谱中是否包含所述风格编码;
20.通过预设的音素判别器判断所述目标mel频谱中是否和输入的所述文字请求样本数据对应的音素对齐。
21.为了解决上述技术问题,本技术实施例还提供一种基于元学习的自适应文字转语音装置,采用了如下所述的技术方案:
22.第一训练模块,用于基于发声者的全量数据集进行模型预训练,将预训练得到的模型参数作为预设的声学模型的初始值;
23.第二训练模块,用于从所述全量数据集中采样声音训练样本数据,通过所述预设的声学模型根据所述声音训练样本数据进行特征训练以生成mel频谱,以及通过预设的风格编码器生成风格编码;
24.归一化处理模块,用于对所述预设的声学模型的层归一化进行自适应实例归一化处理,将所述风格编码注入所述预设的声学模型中,得到包括目标mel频谱的目标声学模型,其中,所述目标mel频谱带有所述风格编码;
25.转换模块,用于获取陌生样本数据,并将所述陌生样本数据输入到所述目标声学模型中,以输出与所述陌生样本数据对应的带有所述风格编码的目标语音数据。
26.进一步的,所述第二训练模块包括:
27.第一生成子模块,用于将所述声音训练样本数据中的声音数据输入所述预设的声学模型,根据所述声音数据的采样频率生成mel频谱;
28.第二生成子模块,用于将所述声音训练样本数据中的声音数据输入所述预设的风格编码器,根据所述声音数据的所述采样频率以及样本精度生成所述风格编码。
29.进一步的,所述归一化处理模块包括:
30.第一计算子模块,用于通过所述自适应实例归一化处理计算所述风格编码的第一参数;
31.第二计算子模块,用于通过所述自适应实例归一化处理计算所述mel频谱的第二
参数;
32.第三计算子模块,用于所述mel频谱的第一参数以及所述风格编码的第二参数,输出带有风格编码的所述目标mel频谱。
33.为了解决上述技术问题,本技术实施例还提供一种计算机设备,采用了如下所述的技术方案:
34.包括存储器和处理器,所述存储器中存储有计算机可读指令,所述处理器执行所述计算机可读指令时实现上述任一实施例中所述的基于元学习的自适应文字转语音方法的步骤。
35.为了解决上述技术问题,本技术实施例还提供一种计算机可读存储介质,采用了如下所述的技术方案:
36.所述计算机可读存储介质上存储有计算机可读指令,所述计算机可读指令被处理器执行时实现上述任一实施例中所述的基于元学习的自适应文字转语音方法的步骤。
37.与现有技术相比,本技术实施例主要有以下有益效果:本技术通过将提取出来的声音训练样本数据对预设的声学模型进行训练,可以得到对应的mel频谱以及风格编码,然后通过对预设的声学模型的层归一化进行自适应实例归一化处理,将风格编码注入预设的声学模型中,得到包括目标mel频谱的目标声学模型,且目标mel频谱带有风格编码。在本技术的声学模型学习过程中,不但采样到发声者的声音训练样本数据的数据量少,自适应实例归一化处理时能够减少训练的复杂程度;且预设的声学模型根据采样到的声音训练样本数据进行特征学习,将风格编码注入到预设的声学模型中,最终得到的目标声学模型经测试,当进行文字转语音时,能够根据少量的陌生样本数据生成对应的风格编码以及目标语音数据,面对小样本数据的适应性学习及转换能力强,更有助于实现个性化需求。
附图说明
38.为了更清楚地说明本技术中的方案,下面将对本技术实施例描述中所需要使用的附图作一个简单介绍,显而易见地,下面描述中的附图是本技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
39.图1是本技术可以应用于其中的示例性系统架构图;
40.图2是根据本技术的一种基于元学习的自适应文字转语音方法的一个实施例的流程图;
41.图3是图2中步骤202的一种具体实施例方式的流程图;
42.图4是图2中步骤203的一种具体实施例方式的流程图;
43.图5是根据本技术一种基于元学习的自适应文字转语音方法的另一具体实施例方式的流程图;
44.图6是图5中步骤205的一个具体实施例方式的流程图;
45.图7是根据本技术的一种基于元学习的自适应文字转语音装置的一个实施例的结构示意图;
46.图8是图7所示第二训练模块的一种具体实施方式的结构示意图;
47.图9是图7所示归一化处理模块的一种具体实施方式的结构示意图;
48.图10是根据本技术的一种基于元学习的自适应文字转语音装置的另一实施例的
结构示意图;
49.图11是图10所示判断模块的一种具体实施方式的结构示意图;
50.图12是本实施例提供的计算机设备的基本结构框图。
具体实施方式
51.除非另有定义,本文所使用的所有的技术和科学术语与属于本技术的技术领域的技术人员通常理解的含义相同;本文中在申请的说明书中所使用的术语只是为了描述具体的实施例的目的,不是旨在于限制本技术;本技术的说明书和权利要求书及上述附图说明中的术语“包括”和“具有”以及它们的任何变形,意图在于覆盖不排他的包含。本技术的说明书和权利要求书或上述附图中的术语“第一”、“第二”等是用于区别不同对象,而不是用于描述特定顺序。
52.在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本技术的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。
53.为了使本技术领域的人员更好地理解本技术方案,下面将结合附图,对本技术实施例中的技术方案进行清楚、完整地描述。
54.如图1所示,系统架构100可以包括终端设备101、102、103,网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
55.用户可以使用终端设备101、102、103通过网络104与服务器105交互,以接收或发送消息等。终端设备101、102、103上可以安装有各种通讯客户端应用,例如网页浏览器应用、购物类应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等。
56.终端设备101、102、103可以是具有显示屏并且支持网页浏览的各种电子设备,包括但不限于智能手机、平板电脑、电子书阅读器、mp3播放器(moving picture expertsgroup audio layer iii,动态影像专家压缩标准音频层面3)、mp4(moving pictureexperts group audio layer iv,动态影像专家压缩标准音频层面4)播放器、膝上型便携计算机和台式计算机等等。
57.服务器105可以是提供各种服务的服务器,例如对终端设备101、102、103上显示的页面提供支持的后台服务器。
58.服务器105可以是独立的服务器,也可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(contentdelivery network,cdn)、以及大数据和人工智能平台等基础云计算服务的云服务器。
59.需要说明的是,本技术实施例所提供的基于元学习的自适应文字转语音方法一般由服务器/终端设备执行,相应地,基于元学习的自适应文字转语音方法装置一般设置于服务器/终端设备中。
60.应该理解,图1中的终端设备101、102、103、网络104和服务器105的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备101、102、103、网络104和服务器105。
61.继续参考图2,示出了根据本技术一种基于元学习的自适应文字转语音方法的一个实施例的流程图。基于元学习的自适应文字转语音方法包括以下步骤:
62.步骤s201,基于发声者的全量数据集进行模型预训练,将预训练得到的模型参数作为预设的声学模型的初始值。
63.在本实施例中,一种基于元学习的自适应文字转语音方法运行于其上的电子设备(例如图1所示的服务器/终端设备)可以通过有线连接方式或者无线连接方式获取上述发声者的全量数据集以及进行数据传输等。需要指出的是,上述无线连接方式可以包括但不限于3g/4g连接、wifi连接、蓝牙连接、wimax连接、zigbee连接、uwb(ultra wideband)连接、以及其他现在已知或将来开发的无线连接方式。
64.具体地,上述全量数据集可以是预先收集到的多个发声者的数据集合,全量数据集中的数据量大,可以有成千上万条数据量。在全量数据集中,每个发声者的数据可以包括有多段声音数据和与声音数据对应的文字数据,且多段声音数据不同。在全量数据集中,每个发声者的声音数据与发声者为一一对应关系,可以通过标识表示对应关系。
65.上述基于发声者的全量数据集进行模型预训练可以指在进行正式训练之前,为了给预设的声学模型(text2mel)提供一个初始的模型参数所进行的训练。在深度学习神经网络中,训练过程是基于梯度下降法来进行参数优化的,通过一步步的迭代来求得最小损失函数和最优的模型权重。进行梯度下降时需要给模型中的每个参数赋一个初始值。上述进行预训练可以加快后续声学模型的特征学习速度以及提高模型的效率。其中,text2mel可以是一个基于transformer的声学模型,transformer不需要循环,而是并行处理序列中的所有单词或符号,同时利用自注意力机制将上下文与较远的单词结合起来。通过并行处理所有单词,并让每个单词在多个处理步骤中注意到句子中的其他单词,transformer的训练速度快,且其翻译准确度高。这样,text2mel基于预训练声学模型给予的初始值进行后续训练时,有利于加快模型训练中梯度下降的收敛速度,更可能获得一个低误差的目标声学模型。
66.步骤s202,从全量数据集中采样声音训练样本数据,通过预设的声学模型根据声音训练样本数据进行特征训练以生成mel频谱,以及通过预设的风格编码器生成风格编码。
67.具体的,在全量数据集中,每个发声者对应有一个子集数据,因数据量大,可以采取随机抽取的方式抽取部分发声者的子集数据,例如:从5000条全量数据集中选取50个发声者的子集数据用于声学模型的特征训练。提取方式也可以是按照顺序对排序在前/在后的发声者的子集数据进行抽取,当然,还可以包括其他的抽取方式,例如:间隔抽取等等。
68.更具体的,上述声音训练样本数据可以是直接从全量数据集中进行采样,当然也可以从上述的子集数据中进行采样。声音训练样本数据中可以包括发声者的声音数据及与声音数据对应的文字数据,在本实施例中也可以称为支持集(xs,ts),其中,xs表示发声者的声音数据,ts表示与声音数据对应的文字数据。声学模型通过对声音训练样本数据进行特征训练,以实现声学模型对文字对语音的转换。
69.其中,text2mel作为一个生成器,利用声音训练样本数据中声音数据中声音的频率生成对应的mel频谱(梅尔频谱)。mel频谱可以根据声音数据中的频率执行数学运算,以将其转换为mel标度(mel scale)。mel频谱是一个在mel scale下的spectrogram(matlab函数),是通过spectrogram与梅尔滤波器组点乘得到。matlab函数为使用短时傅里叶变换得
到信号的频谱图。梅尔滤波器组中的每一个滤波器都是一个三角滤波器,将上述的点乘过程进行展开。
70.其中,预设的风格编码器(styleencoder)可以根据发声者的声音数据进行编码,生成与声音数据对应的风格编码,在风格编码中可以包括发声者的身份信息、音调和韵律。
71.这样,便可以通过上述的text2mel作为生成器生成与声音训练样本数据对应的mel频谱,以及根据styleencoder生成声音训练样本数据中与声音数据对应的风格编码。
72.步骤s203,对预设的声学模型的层归一化进行自适应实例归一化处理,将风格编码注入预设的声学模型中,得到包括目标mel频谱的目标声学模型,其中,目标mel频谱带有风格编码。
73.具体的,上述transformer中的text2mel根据声音数据生成对应的mel频谱之后,可以对transformer结构的text2mel中所有的层归一化(layer normalization)使用自适应实例归一化(adaptive instance normalization,adain)的处理方法进行处理,可以将styleencoder根据声音数据生成的风格编码注入到text2mel中,以使生成的mel频谱带有风格编码的风格信息,最终得到带有目标mel频谱的目标声学模型。
74.步骤s204、获取陌生样本数据,并将陌生样本数据输入到目标声学模型中,以输出与陌生样本数据对应的带有风格编码的目标语音数据。
75.在本实施例中,上述陌生样本数据可以是目标声学模型在实际运用中获取到的未携带有声音数据的少量文字样本数据。将陌生样本数据输入到目标声学模型中后,经测试,当运用目标声学模型进行文字转语音时,能够根据少量的陌生样本数据生成对应的风格编码以及目标语音数据,实现小样本数据的适应性学习及转换。
76.在本发明实施例中,通过将提取出来的声音训练样本数据对text2mel进行训练,可以得到对应的mel频谱以及风格编码,然后通过对text2mel的层归一化进行自适应实例归一化处理,将风格编码注入text2mel中,得到包括目标mel频谱的目标声学模型,且目标mel频谱带有风格编码。在本技术的声学模型学习过程中,不仅采样到发声者的声音训练样本数据的数据量少,自适应实例归一化处理时能够减少训练的复杂程度;且text2mel根据采样到的声音训练样本数据进行特征学习,将风格编码注入到text2mel中,最终得到的目标声学模型经测试,当进行文字转语音时,能够根据少量的陌生样本数据生成对应的风格编码以及目标语音数据,面对小样本数据的适应性学习及转换能力强,更有助于实现个性化需求。
77.在一些可选的实现方式中,如图3所示,图3为图2中步骤202的一种具体实施例方式的流程图。上述电子设备执行的步骤202具体包括以下步骤:
78.步骤s2021,将声音训练样本数据中的声音数据输入预设的声学模型,根据声音数据的采样频率生成mel频谱。
79.具体地,可以将每个发声者的声音训练样本数据中的声音数据可以有序的输入到text2mel中,然后根据一段声音数据的频率与mel标度之间的关系进行转换。具体可以将该段声音数据进行切分为多段小节声音源,每个小节声音源的频率可以不同/相同。然后可以根据每小节声音源的频率基于频率与mel标度之间的关系进行转换,从而得到对应该声音数据的mel频谱。其中,频率(f)与mel标度(m)之间的关系进行转换关系如下公式(1)所示:
80.m=2595*log10(1 f/700)
ꢀꢀꢀꢀꢀꢀ
(1)
81.步骤s2022,将声音训练样本数据中的声音数据输入预设的风格编码器,根据声音数据的采样频率以及样本精度生成风格编码。
82.具体地,音频编码主要是完成对声音信息的压缩。声音信号数字化后,信息量比模拟传输状态大很多,不能像模拟电视声音那样直接传输;因而需要对声音多一道压缩编码工序,即为音频编码。在本实施例中,同时还可以将声音数据输入到styleencoder中,基于声音数据的采样频率以及样本精度对发声者身份、声音的音调以及韵律进行编码,得到与每个声音数据对应的风格编码。其中,每个发声者对应声音的音调、韵律不同。上述的通过风风格编码器进行编码的方法可以包括但不限于线性预测编码、子带编码等。
83.在本发明实施例中,通过将声音数据输入text2mel中,根据上述公式(1)可以生成对应的mel频谱;且将声音数据输入到styleencoder中,根据声音数据的采样频率以及样本精度对发声者身份、声音的音调以及韵律进行编码,得到与每个声音数据对应的风格编码,便于进行自适应实例归一化处理时能将风格编码注入到text2mel中,最终得到目标声学模型。
84.在一些可选的实现方式中,如图4所示,图4为图2中步骤203的一种具体实施例方式的流程图。上述电子设备执行的步骤203具体包括以下步骤:
85.步骤s2031,通过自适应实例归一化处理计算风格编码的第一参数。
86.具体地,上述进行自适应实例归一化处理可以包括对风格编码进行均值和方差的对齐处理。因自适应实例归一化adain具有学习训练映射参数的能力,可以先通过自适应实例归一化adain对输入的风格编码计算第一参数,第一参数包括风格编码的均值以及方差,对均值和方差的对齐处理,以匹配mel频谱的均值与方差。
87.步骤s2032,通过自适应实例归一化处理计算mel频谱的第二参数。
88.具体地,因自适应实例归一化adain具有学习训练映射参数的能力,因此可以根据mel频谱自适应的计算第二参数(mel频谱的方差与均值)。
89.步骤s2033,基于mel频谱的第一参数以及风格编码的第二参数进行数据匹配,输出带有风格编码的目标mel频谱。
90.具体地,结合计算出的风格编码的方差与均值以及mel频谱的方差与均值,可以计算出风格编码与mel频谱输入到自适应实例归一化adain中进行处理的结果,也即是输出上述带有风格编码的目标mel频谱,并得到目标声学模型。本技术在text2mel学习过程中,上述采样到的用户的声音训练样本数据的数据量少,在自适应实例归一化adain中能够减少计算的复杂程度。
91.在一些可选的实现方式中,如图5所示,图5为在图2中步骤203之后的具体实施例方式的流程图。在步骤203之后,上述电子设备还可以用于执行以下步骤:
92.步骤s205,从全量数据集中采样文字请求样本数据,将文字请求样本数据输入目标声学模型中进行转换检测,判断是否输出与文字请求样本数据对应的检测数据。
93.具体地,上述的文字请求样本数据可以是从全量数据集中直接采样,也可以是从提出出的发声者的子数据集中进行采样得到。文字请求样本数据为不包括声音数据的文字样本数据,可以用于对目标声学模型进行转换检测,判断是否能够实现文字转语音功能。通过将文字请求样本数据以及上述风格编码输入到目标声学模型,若具备文字转语音功能,会生成带有风格编码的目标mel频谱m`(检测数据);若没有/错误生成带有风格编码的目标
mel频谱m`,则可以表示转换失败。
94.更具体地,为了判断目标声学模型是否生成与文字请求样本数据对应的目标mel频谱m`,可以通过设置至少一个判别器进行检测判断。其中,输出的检测数据的数据量与采集文字请求样本数据的数据量一致,一个文字请求样本数据对应输出一个目标mel频谱m`。采集的文字请求样本数据为一个时,可以设置一个对应的判别器;当文字请求样本数据为多个时,可以设置对应数量的判别器。通过对目标声学模型提前检测,可以在还未实践运用之前做好排错,对目标声学模型进行完善改进,便于更好的实践运用。
95.在本技术实施例中,为了判断目标声学模型是否可以完成语音转换,通过将文字请求样本数据输入目标声学模型中进行转换检测,并提供多个判别器进行判断。这样,通过对目标声学模型提前检测,可以在还未实践运用之前做好排错,对目标声学模型进行完善改进,便于更好的实践运用。
96.在一些可选的实现方式中,如图6所示,图6为图5中步骤205的一种具体实施例方式的流程图。上述电子设备执行的步骤205具体包括以下步骤:
97.步骤s2051,通过预设的风格判别器判断目标mel频谱中是否包含风格编码。
98.具体地,上述的风格判别器(style discriminator)可以是用于识别目标mel频谱m`中是否带有风格编码的判别器。当目标mel频谱m`生成后继续输入到风格判别器中进行识别。
99.步骤s2052,通过预设的音素判别器判断目标mel频谱中是否和输入的文字请求样本数据对应的音素对齐。
100.具体地,上述的音素判别器(phoneme discriminator)可以是用于判断目标mel频谱m`是否与输入的文字请求样本数据的音素对齐的判别器。当目标mel频谱m`生成后还可以继续输入到音素判别器中进行判断。当上述的风格判别器判断出目标mel频谱m`中带有风格编码,以及目标mel频谱m`与输入的文字请求样本数据的音素对齐时,可以表示上述生成的目标声学模型能够准确的实现文字转语音功能。
101.本技术实施例中,通过提供两个判别器(stylediscriminator与phoneme discriminator)分别判断目标mel频谱m`中是否带有风格编码,以及判断目标mel频谱m`是否与输入的文字请求样本数据的音素对齐来检测上述生成的目标声学模型的文字转语音功能。这样,能够及时根据目标声学模型的识别准确率进行模型优化等。
102.需要强调的是,为进一步保证上述对语音转换的过程中涉及到的声音训练样本数据、mel频谱、风格编码、目标mel频谱、陌生样本数据、目标语音数据等信息的私密和安全性,上述对语音转换的过程中涉及到的声音训练样本数据、mel频谱、风格编码、目标mel频谱、陌生样本数据、目标语音数据等信息还可以存储于一区块链的节点中。
103.本技术所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。本技术可用于众多通用或专用的计算机系统环境或配置中。例如:个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器系统、基于微处理器的系统、置顶盒、可编程的消费电子设备、网络pc、小型计算机、大型计算机、包括
以上任何系统或设备的分布式计算环境等等。本技术可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本技术,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。
104.本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机可读指令来指令相关的硬件来完成,该计算机可读指令可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,前述的存储介质可为磁碟、光盘、只读存储记忆体(read-only memory,rom)等非易失性存储介质,或随机存储记忆体(random access memory,ram)等。
105.应该理解的是,虽然附图的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,其可以以其他的顺序执行。而且,附图的流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,其执行顺序也不必然是依次进行,而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
106.进一步参考图7,作为对上述图2所示方法的实现,本技术提供了一种基于元学习的自适应文字转语音装置的一个实施例,该装置实施例与图2所示的方法实施例相对应,该装置具体可以应用于各种电子设备中。
107.如图7所示,本实施例的基于元学习的自适应文字转语音装置700包括:第一训练模块701、第二训练模块702、归一化处理模块703以及转换模块704。其中:
108.第一训练模块701用于基于发声者的全量数据集进行模型预训练,将预训练得到的模型参数作为预设的声学模型的初始值。
109.第二训练模块702用于从全量数据集中采样声音训练样本数据,通过预设的声学模型根据声音训练样本数据进行特征训练以生成mel频谱,以及通过预设的风格编码器生成风格编码。
110.归一化处理模块703用于对预设的声学模型的层归一化进行自适应实例归一化处理,将风格编码注入预设的声学模型中,得到包括目标mel频谱的目标声学模型,其中,目标mel频谱带有风格编码。
111.转换模块704用于获取陌生样本数据,并将陌生样本数据输入到目标声学模型中,以输出与陌生样本数据对应的带有风格编码的目标语音数据。
112.具体地,上述全量数据集可以是预先收集到的多个发声者的数据集合,全量数据集中的数据量大,可以有成千上万条数据量。在全量数据集中,每个发声者的数据可以包括有多段声音数据和与声音数据对应的文字数据,且多段声音数据不同。在全量数据集中,每个发声者的声音数据与发声者为一一对应关系,可以通过标识表示对应关系。
113.上述基于发声者的全量数据集进行模型预训练可以指在进行正式训练之前,为了给text2mel提供一个初始的模型参数所进行的训练,第一训练模块701通过预训练得到的模型参数可以作为text2mel的初始值。在深度学习神经网络中,训练过程是基于梯度下降
法来进行参数优化的,通过一步步的迭代来求得最小损失函数和最优的模型权重。进行梯度下降时需要给模型中的每个参数赋一个初始值。上述进行预训练可以是加快后续声学模型的特征学习速度以及提高模型的效率。其中,text2mel可以是一个基于transformer的声学模型。这样,text2mel基于预训练提供的初始值进行后续训练时,可以加快声学模型训练中梯度下降的收敛速度,更可能获得一个低误差的目标声学模型。
114.具体的,在全量数据集中,每个发声者对应有一个子集数据,因数据量大,可以采取随机抽取的方式抽取部分发声者的子集数据,例如:从5000条全量数据集中选取50个发声者的子集数据用于声学模型的特征训练。提取方式也可以是按照顺序对排序在前/在后的发声者的子集数据进行抽取,当然,还可以包括其他的抽取方式,例如:间隔抽取等等。
115.更具体的,上述声音训练样本数据可以是直接从全量数据集中进行采样,当然也可以从上述的子集数据中进行采样。声音训练样本数据中可以包括发声者的声音数据及与声音数据对应的文字数据,在本实施例中也可以称为支持集(xs,ts),其中,xs表示发声者的声音数据,ts表示与声音数据对应的文字数据。第二训练模块702通过对声音训练样本数据进行特征训练,以实现声学模型对文字对语音的转换。
116.其中,text2mel可以作为一个生成器,利用声音训练样本数据中声音数据中声音的频率生成对应的mel频谱。mel频谱可以根据声音数据中的频率执行数学运算,以将其转换为mel标度。mel频谱是一个在mel scale下的spectrogram,是通过spectrogram与梅尔滤波器组点乘得到。matlab函数为使用短时傅里叶变换得到信号的频谱图。梅尔滤波器组中的每一个滤波器都是一个三角滤波器,将上述的点乘过程进行展开。
117.其中,styleencoder可以根据发声者的声音数据进行编码,生成与声音数据对应的风格编码,在风格编码中可以包括发声者的身份信息、音调和韵律。
118.具体的,上述transformer中的text2mel根据声音数据生成对应的mel频谱之后,可以通过归一化处理模块703对transformer结构的text2mel中所有的layer normalization使用自适应实例归一化adain的处理方法进行处理。将styleencoder根据声音数据生成的风格编码注入到text2mel中,以使生成的mel频谱带有风格编码的风格信息,最终得到带有目标mel频谱的目标声学模型。
119.得到目标声学模型后,可以获取陌生样本数据,陌生样本数据可以是目标声学模型在实际运用中获取到的未携带有声音数据的少量文字样本数据。转换模块704将陌生样本数据输入到目标声学模型中后,最终可以输出与陌生样本数据对应的目标语音数据,且在目标语音数据中还包括有与陌生样本数据对应的风格编码。
120.在本发明实施例中,通过将提取出来的声音训练样本数据对text2mel进行训练,可以得到对应的mel频谱以及风格编码,然后通过对text2mel的层归一化进行自适应实例归一化处理,将风格编码注入text2mel中,得到包括目标mel频谱的目标声学模型,且目标mel频谱带有风格编码。在声学模型学习过程中,不仅采样到发声者的声音训练样本数据的数据量少,自适应实例归一化处理时能够减少训练的复杂程度;且text2mel根据采样到的声音训练样本数据进行特征学习,将风格编码注入到text2mel中,最终得到的目标声学模型经测试,当进行文字转语音时,能够根据少量的陌生样本数据生成对应的风格编码以及目标语音数据,面对小样本数据的适应性学习及转换能力强,更有助于实现个性化需求。
121.参阅图8,为第二训练模块一种具体实施方式的结构示意图,第二训练模块702包
括第一生成子模块7021以及第二生成子模块7022。其中,
122.第一生成子模块7021,用于将声音训练样本数据中的声音数据输入预设的声学模型,根据声音数据的采样频率生成mel频谱。
123.第二生成子模块7022,用于将声音训练样本数据中的声音数据输入预设的风格编码器,根据声音数据的采样频率以及样本精度生成风格编码。
124.在本发明实施例中,第一生成子模块7021通过将声音数据输入text2mel中,根据上述公式(1)可以生成对应的mel频谱;且第二生成子模块7022将声音数据输入到styleencoder中,根据声音数据的采样频率以及样本精度对发声者身份、声音的音调以及韵律进行编码,得到与每个声音数据对应的风格编码,便于进行自适应实例归一化处理时能将风格编码注入到text2mel中,最终得到目标声学模型。
125.参阅图9,为归一化处理模块一种具体实施方式的结构示意图,归一化处理模块703包括第一计算子模块7031、第二计算子模块7032以及第三计算子模块7033。其中,
126.第一计算子模块7031用于通过自适应实例归一化处理计算风格编码的第一参数。
127.第二计算子模块7032用于通过自适应实例归一化处理计算mel频谱的第二参数。
128.第三计算子模块7033用于基于mel频谱的第一参数以及风格编码的第二参数进行数据匹配,输出带有风格编码的目标mel频谱。
129.在本技术实施例中,因自适应实例归一化adain具有学习训练映射参数的能力,所以本实施中第一计算子模块7031通过自适应实例归一化adain对输入的风格编码计算风格编码的均值以及方差,以及通过第二计算子模块7032根据mel频谱自适应的计算mel频谱的方差与均值,然后第三计算子模块7033通过对风格编码的均值和方差的对齐处理,实现与mel频谱的均值与方差的匹配,可以输出带有风格编码的目标mel频谱,得到目标声学模型。本技术在text2mel学习过程中,上述采样到的用户的声音训练样本数据的数据量少,在自适应实例归一化adain中能够减少计算的复杂程度。
130.在本实施例的一些可选的实现方式中,参考图10所示,上述装置700还包括:判断模块705,用于从全量数据集中采样文字请求样本数据,将文字请求样本数据输入目标声学模型中进行转换检测,判断是否输出与文字请求样本数据对应的检测数据。
131.本技术实施例中,为了判断目标声学模型是否可以完成语音转换,通过上述判断模块705将文字请求样本数据输入目标声学模型中进行转换检测,并提供多个判别器进行判断。这样,通过对目标声学模型提前检测,可以在还未实践运用之前做好排错,对目标声学模型进行完善改进,便于更好的实践运用。
132.参阅图11,为判断模块一种具体实施方式的结构示意图,判断模块705包括第一判断子模块7051以及第二判断子模块7052。其中,
133.第一判断子模块7051用于通过预设的风格判别器判断目标mel频谱中是否包含风格编码。
134.第二判断子模块7052用于通过预设的音素判别器判断目标mel频谱中是否和输入的文字请求样本数据对应的音素对齐。
135.本技术实施例中,通过第一判断子模块7051提供的stylediscriminator判断目标mel频谱m`中是否带有风格编码,以及通过第二判断子模块7052中提供的phoneme discriminator判断目标mel频谱m`是否与输入的文字请求样本数据的音素对齐来检测上
述生成的目标声学模型的文字转语音功能。这样,能够及时根据目标声学模型的识别准确率进行模型优化等。
136.为解决上述技术问题,本技术实施例还提供计算机设备。具体请参阅图12,图12为本实施例计算机设备基本结构框图。
137.计算机设备120包括通过系统总线相互通信连接存储器121、处理器122、网络接口123。需要指出的是,图中仅示出了具有组件121-123的计算机设备120,但是应理解的是,并不要求实施所有示出的组件,可以替代的实施更多或者更少的组件。其中,本技术领域技术人员可以理解,这里的计算机设备是一种能够按照事先设定或存储的指令,自动进行数值计算和/或信息处理的设备,其硬件包括但不限于微处理器、专用集成电路(application specific integrated circuit,asic)、可编程门阵列(field-programmable gate array,fpga)、数字处理器(digital signal processor,dsp)、嵌入式设备等。
138.计算机设备可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。计算机设备可以与用户通过键盘、鼠标、遥控器、触摸板或声控设备等方式进行人机交互。
139.存储器121至少包括一种类型的可读存储介质,可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如,sd或dx存储器等)、随机访问存储器(ram)、静态随机访问存储器(sram)、只读存储器(rom)、电可擦除可编程只读存储器(eeprom)、可编程只读存储器(prom)、磁性存储器、磁盘、光盘等。在一些实施例中,存储器121可以是计算机设备120的内部存储单元,例如该计算机设备120的硬盘或内存。在另一些实施例中,存储器121也可以是计算机设备120的外部存储设备,例如该计算机设备120上配备的插接式硬盘,智能存储卡(smart media card,smc),安全数字(secure digital,sd)卡,闪存卡(flash card)等。当然,存储器121还可以既包括计算机设备120的内部存储单元也包括其外部存储设备。本实施例中,存储器121通常用于存储安装于计算机设备120的操作系统和各类应用软件,例如基于元学习的自适应文字转语音方法的计算机可读指令等。此外,存储器121还可以用于暂时地存储已经输出或者将要输出的各类数据。
140.处理器122在一些实施例中可以是中央处理器(central processing unit,cpu)、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器122通常用于控制计算机设备120的总体操作。本实施例中,处理器122用于运行存储器121中存储的计算机可读指令或者处理数据,例如运行基于元学习的自适应文字转语音方法的计算机可读指令。
141.网络接口123可包括无线网络接口或有线网络接口,该网络接口123通常用于在计算机设备120与其他电子设备之间建立通信连接。
142.本技术实施例通过将提取出来的声音训练样本数据对text2mel进行训练,可以得到对应的mel频谱以及风格编码,然后通过对text2mel的层归一化进行自适应实例归一化处理,将风格编码注入text2mel中,得到包括目标mel频谱的目标声学模型,且目标mel频谱带有风格编码。在声学模型学习过程中,采样到发声者的声音训练样本数据的数据量少,自适应实例归一化处理时能够减少训练的复杂程度;且text2mel根据采样到的声音训练样本数据进行特征学习,将风格编码注入到text2mel中,最终得到的目标声学模型经测试,当进行文字转语音时,能够根据少量的陌生样本数据生成对应的风格编码以及目标语音数据,面对小样本数据的适应性学习及转换能力强,更有助于实现个性化需求。
143.本技术还提供了另一种实施方式,即提供一种计算机可读存储介质,计算机可读
存储介质存储有计算机可读指令,计算机可读指令可被至少一个处理器执行,以使至少一个处理器执行如上述的基于元学习的自适应文字转语音方法的步骤。
144.本技术实施例通过将提取出来的声音训练样本数据对text2mel进行训练,可以得到对应的mel频谱以及风格编码,然后通过对text2mel的层归一化进行自适应实例归一化处理,将风格编码注入text2mel中,得到包括目标mel频谱的目标声学模型,且目标mel频谱带有风格编码。在声学模型学习过程中,采样到发声者的声音训练样本数据的数据量少,自适应实例归一化处理时能够减少训练的复杂程度;且text2mel根据采样到的声音训练样本数据进行特征学习,将风格编码注入到text2mel中,最终得到的目标声学模型经测试,当进行文字转语音时,能够根据少量的陌生样本数据生成对应的风格编码以及目标语音数据,面对小样本数据的适应性学习及转换能力强,更有助于实现个性化需求。
145.通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本技术的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如rom/ram、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本技术各个实施例的基于元学习的自适应文字转语音方法。
146.显然,以上所描述的实施例仅仅是本技术一部分实施例,而不是全部的实施例,附图中给出了本技术的较佳实施例,但并不限制本技术的专利范围。本技术可以以许多不同的形式来实现,相反地,提供这些实施例的目的是使对本技术的公开内容的理解更加透彻全面。尽管参照前述实施例对本技术进行了详细的说明,对于本领域的技术人员来而言,其依然可以对前述各具体实施方式所记载的技术方案进行修改,或者对其中部分技术特征进行等效替换。凡是利用本技术说明书及附图内容所做的等效结构,直接或间接运用在其他相关的技术领域,均同理在本技术专利保护范围之内。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献