语音合成方法、装置及电子设备与流程

2021-09-04 11:13:00 来源：中国专利 TAG：电子设备语音装置智能方法

1.本发明涉及智能语音处理技术领域，具体而言，涉及一种语音合成方法、装置及电子设备。

背景技术：

2.目前，随着在线音视频市场的不断发展，出现了将文本内容转化为视频的业务。利用站内的文本内容自动生成视频，其主要涉及到语音合成、背景图片匹配、背景音乐匹配的相关技术。通过这三类技术即可将文本内容自动生成视频。由于现有各个语音合成服务提供商只能提供少量的音色供合成，而当遇到创作者众多的平台时，每个创作者的语音风格差异巨大。如果最终合成声音单一则影响视频质量，因此急需合成用户的个性化语音。

技术实现要素：

3.本发明的目的在于提供一种语音合成方法，能够解决语音合成声音过于单调的问题。
4.本申请提供一种语音合成方法，包括：确定文本信息对应的音素特征；获取用户音频数据，并根据所述用户音频数据获取用户音色特征；根据所述音素特征和所述用户音色特征合成特征谱；将所述特征谱重建为语音数据，所述语音数据为具有用户音色的语音数据。
5.在其中一个实施例中，所述确定文本信息对应的音素特征的步骤包括：对所述文本信息进行归类、整理，形成拼音或英文拼写；从所述拼音或所述英文拼写中提取不同的音素信息作为所述音素特征。
6.在其中一个实施例中，所述获取用户音频数据，并根据所述用户音频数据获取用户音色特征的步骤包括：获取用户输入的用户音频数据；将所述用户音频数据输入至语音编译器，形成用户输入音频的特征向量；所述语音编译器中包括代表音频的特征向量；所述语音编译器根据所述用户输入音频的特征向量和所述代表音频的特征向量形成所述用户音色特征。
7.在其中一个实施例中，所述代表音频的特征向量通过对输入至所述语音编译器的音频数据集的特征向量取平均得到；所述用户音色特征通过对所述用户输入音频的特征向量和所述代表音频的特征向量取平均得到。
8.在其中一个实施例中，所述根据所述音素特征和所述用户音色特征合成特征谱的步骤包括：获取所述音素特征的个数m；
获取所述代表音频的特征向量的维度n；获取所述用户输入音频的特征向量的尺寸r；所述特征谱根据m*(n r)形成的特征向量进行合成。
9.在其中一个实施例中，所述语音编译器的训练步骤包括：选取一定数量的音频数据集；对所述音频数据集进行转换，得到所述音频数据集对应的梅尔谱；将所述梅尔谱输入至所述语音编译器，对所述语音编译器进行参数训练；当所述语音编译器的网络模型训练收敛后，停止对所述语音编译器进行参数训练，并将所述语音编译器的网络模型训练收敛时的参数作为所述语音编译器的模型参数。
10.在其中一个实施例中，所述对所述音频数据集进行转换，得到所述音频数据集对应的梅尔谱的步骤包括：对所述音频数据集中的每一组音频数据进行音频时域信号分帧；对每一帧所述音频时域信号进行傅里叶变换，并取幅值，得到线性谱；对所述线性谱进行梅尔刻度的加权求和，以得到梅尔谱。
11.本申请还提供一种语音合成装置，在其中一个实施例中，包括：音素获取模块，用于确定文本信息对应的音素；音色获取模块，用于获取用户音频数据，并根据所述用户音频数据获取用户音色特征；特征谱合成模块，用于根据所述音素和所述用户音色特征合成为特征谱；以及语音重建模块，用于将所述特征谱重建为语音数据，所述语音数据为具有用户音色的语音数据。
12.本申请还提供一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器运行所述计算机程序以实现上述任一项所述的方法。
13.本申请还提供一种计算机可读存储介质，其上存储有计算机程序，所述程序被处理器执行实现上述任一项所述的方法。
14.本申请中所述语音合成方法包括：确定文本信息对应的音素特征；获取用户音频数据，并根据所述用户音频数据获取用户音色特征；根据所述音素特征和所述用户音色特征合成特征谱；将所述特征谱重建为语音数据，所述语音数据为具有用户音色的语音数据。其中，所述音素特征为从所述文本信息中提取的特征向量。所述用户音色特征为能够表征用户音色特征的特征向量。将从所述文本信息中提取的特征向量和能够表征用户音色特征的特征向量进行合成，形成特征谱。将所述特征谱重建为语音数据，由于所述特征谱是通过所述文本信息中提取的特征向量和表征用户音色特征的特征向量合成而来的，因此所述特征谱是更丰富的。将所述特征谱重建为语音数据之后，所述语音数据的音色更接近于真实的用户音色。
附图说明
15.为了更清楚地说明本申请实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本申请的某些实施例，因此不应被看作是对
范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。
16.图1为本申请一个实施例提供的语音合成方法的步骤流程图；图2为本申请一个实施例提供的语音合成结构流程示意图；图3为本申请一个实施例提供的语音合成装置的结构示意图；图4为本申请一个实施例提供的电子设备的结构示意图。
17.附图标记：语音合成装置10；音素获取模块11；音色获取模块12；特征谱合成模块13；语音重建模块14；电子设备20；存储器21；处理器22。
具体实施方式
18.下面将结合本申请实施例中附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此，以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围，而是仅仅表示本申请的选定实施例。基于本申请的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本申请保护的范围。
19.应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。同时，在本申请的描述中，术语“第一”、“第二”等仅用于区分描述，而不能理解为指示或暗示相对重要性。
20.为了避免语音合成声音过于单调，现有的语音合成服务主要采用多个语音模型和微调迁移模型形成多种音色。其一，多个语音模型的实现方式采用一个音色训练模型和一个语音合成模型。具体的语音合成模型有tacotron2、fastspeech2，deepvoice3等。采用多个语音模型的方法对每个音色分别构建数据集、分别训练模型，每一个音色的模型分别使用。每一个音色的模型只能合成一个人的声音。另外也有同一个模型训练多个说话人的声音的方案，其利用不同的函数来指定不同的特征向量，最终影响合成的语音音色；在合成声音的时候通过指定函数来控制合成声音的音色。多个语音模型的缺陷在于：可供服务化的音色比较少。真实世界中的语音音色有很多种，该类方法只能选择几种代表音色，覆盖不了大量用户的需求，并且其不能提供个性化定制。
21.其二，微调迁移模型的实现方式需要少部分用户的大量音频数据(至少20句
‑
100句的语音)。用户合成前，录制数据并在服务器进行训练/微调，微调后的模型可以合成出和用户类似的声音。微调迁移模型的缺陷在于：如果用户需要按照自定义音色合成声音，需要提前录制至少20句
‑
100句音频，并且等待模型在服务器上训练。微调迁移模型需要较长的
等待时间，用户体验差。并且需要在服务器上再次训练，耗费大量服务器资源。另外由于一个用户需要保存一个模型，在服务化的过程中需要频繁下载模型、加载模型，这些阶段都会占用大量资源。
22.综上所述，为了使得个性化语音合成不需要提前录制大量语音样本，即可解决语音合成声音过于单调的问题，本申请提供一种语音合成方法。
23.请参阅图1，本申请提供一种语音合成方法。所述语音合成方法用于根据文本信息和用户音色特征生成具有用户音色的语音数据。比如线上沟通时，需要将用户回答的文字信息转化为语音信息，这样通过语音转达的更有情感，也可以帮助不能看到文字信息的用户更好的理解文字信息的内容。将用户回答的文字信息转化为语音信息，还可以准确的传达不同用户的音色，使得沟通过程不单调，沟通变得更加立体化。以上仅是所述语音合成方法的一个适用场景，本申请并不仅仅限定在这一个应用场景中。
24.所述语音合成方法包括：s01，确定文本信息对应的音素特征。本步骤中，所述音素特征可以为从所述文本信息中提取的特征向量。其中，音素（phoneme）是根据语音的自然属性划分出来的最小语音单位。依据音节里的发音动作来分析，一个动作构成一个音素。音素分为元音与辅音两大类。比如汉语音节〔
ā
〕只有一个音素，〔
à
i〕有两个音素，〔d
à
i〕有三个音素。
25.s02，获取用户音频数据，并根据所述用户音频数据获取用户音色特征。所述用户音色特征可以为能够表征用户音色特征的特征向量。本步骤中可以准确快速的获取所述用户音色特征。比如，在一个实施例中，所述用户音色特征可以先对数据库中的音色数据进行训练，得到语音训练模型，然后将用户输入的语音信息输入至所述语音训练模型进行训练和转换，以期可以准确快速的获取所述用户音色特征。
26.s03，根据所述音素特征和所述用户音色特征合成特征谱。本步骤中，将所述音素特征（代表文本信息的特征向量）和所述用户音色特征（代表用户语音信息的特征向量）合成特征谱，可以将文本信息和用户语音信息整合在一起，为转换为语音数据做准备。本步骤中，合成的所述特征谱可以是具有个性化的、多样性的所述特征谱。
27.s04，将所述特征谱重建为语音数据，所述语音数据为具有用户音色的语音数据。本步骤中，将所述特征谱重建为语音数据的具体方法可以是传统的语音重建方法，在此不再赘述。本步骤中合成的所述语音数据为具有用户音色的语音数据，是个性化的、多样性的所述语音数据。
28.本实施例中提供的所述语音合成方法中，所述音素特征为从文本信息中提取的特征向量。所述用户音色特征为能够表征用户音色特征的特征向量。将从文本信息中提取的特征向量和能够表征用户音色特征的特征向量进行合成，形成所述特征谱。将所述特征谱重建为语音数据，由于所述特征谱是通过文本信息中提取的特征向量和表征用户音色特征的特征向量合成而来的，因此所述特征谱是更丰富的。将所述特征谱重建为语音数据之后，所述语音数据的音色更接近于真实的用户音色，并且通过所述特征谱合成的所述语音数据也是个性化的、多样性的语音数据，所述语音数据不会过于单调。
29.本申请提供的所述语音合成方法，涉及语音合成领域，具体的涉及一句话的语音克隆方法。所述语音合成方法中，只需要用户提供一句话的音频信息（录制一段5秒
‑
10秒的用户音频数据），即可立刻按照用户音色自动化合成声音（所述语音数据）。
30.在其中一个实施例中，所述确定文本信息对应的音素特征的步骤包括：对所述文本信息进行归类、整理，形成拼音或英文拼写。以及，从所述拼音或所述英文拼写中提取不同的音素信息作为所述音素特征。
31.本实施例中，对所述文本信息进行归类、整理的步骤包括对所述文本信息进行改写、转拼音、转英文、标注中英文、标注多音字的方法得到拼音或者英文拼写。具体说来，对于音素信息的理解可以结合声学性质，按照音素是从音质角度划分出来的最小语音单位来理解。或者对于音素信息的理解可以结合生理性质，按照一个音素就是一个发音动作来理解。如〔ma〕包含〔m〕〔a〕两个发音动作，是两个音素。相同发音动作发出的音就是同一音素，不同发音动作发出的音就是不同音素。如〔ma
‑
mi〕中，两个〔m〕发音动作相同，是相同音素，〔a〕〔i〕发音动作不同，是不同音素。对音素的分析，一般是根据发音动作来描写的。如〔m〕的发音动作是：上唇和下唇闭拢，声带振动，气流从鼻腔流出发音。〔m〕的发音用语音学术语来说，就是双唇鼻音。
32.请参阅图2，在其中一个实施例中，所述获取用户音频数据，并根据所述用户音频数据获取用户音色特征的步骤包括：获取用户输入的用户音频数据。本步骤中，所述用户音频数据为5秒
‑
10秒的语音信息。即用户任意上传一句话，能够代表用户自身音色特征。
33.将所述用户音频数据输入至语音编译器，形成用户输入音频的特征向量。所述语音编译器中包括代表音频的特征向量。本步骤中，所述代表音频的特征向量是从众多个音频数据中提取的特征向量。比如，在本申请的所述语音合成方法执行前，所述语音编译器中已经形成的音频特征向量。或者说，在本申请的所述语音合成方法执行前，对所述语音编译器进行训练得到多个所述代表音频的特征向量。本步骤中，所述语音编译器可以包括3层lstm网络（lstm网络是长短期记忆long short
‑
term memory的简称）。lstm网络可以学习长期依赖信息。
34.所述语音编译器根据所述用户输入音频的特征向量和所述代表音频的特征向量形成所述用户音色特征。本步骤中，所述用户音色特征可以是将所述用户输入音频的特征向量和所述代表音频的特征向量相加而形成的特征向量。在另外的实施例中，所述用户音色特征还可以是将所述用户输入音频的特征向量和所述代表音频的特征向量相点乘而形成的特征向量。
35.具体的请参见图2，本申请中所述用户音色特征可以是用户录制5秒
‑
10秒的用户音频数据，使用所述语音编译器处理用户音频数据；使用所述语音编译器从音频数据集中训练得到所述代表音频的特征向量。再对所述代表音频的特征向量和所述用户音频数据的特征向量进行编译，获取代表用户音色的特征向量，即形成所述用户音色特征。再将所述用户音色特征和所述音素特征合成为具有用户音色/用户个性的语音数据。
36.本申请的所述语音合成方法可以按照不同用户的不同音色个性化合成语音数据。所述语音合成方法可以在5秒
‑
10秒用户音频数据下，快速按照用户音频数据的音色合成语音数据。相比多语音合成模型的方法，其多样性更好，在音频数据集足够多和语音编译器训练好的情况下，其可以利用一个语音合成模型模仿所有用户的声音。
37.本申请的所述语音合成方法不需要为每个用户保存一个个性化的语音模型，总共只需要一个语音合成模型（说明书中后续要描述的语音合成装置10），使用音色特征向量来
控制合成声音的音色。所述语音合成方法，可以使得所述语音合成装置10占用更少的模型存储空间、模型加载事件，所述语音合成方法更容易实现大众化、服务化。
38.在其中一个实施例中，所述代表音频的特征向量通过对输入至所述语音编译器的音频数据集的特征向量取平均得到。所述用户音色特征通过对所述用户输入音频的特征向量和所述代表音频的特征向量取平均得到。
39.本步骤中，提供了所述代表音频的特征向量的获取方法，和所述用户音色特征的获取方法。本步骤中对特行向量取平均的设计思路可以使得所述语音合成方法合成的音色自然度更好。现有的语音合成方法，由于单个音色分开训练，单个音色(说话人/用户)模型的可用数据很少（约几千条），因此合成出来的声音相对来说变化不够自然，较为机械。而使用本申请的所述语音合成方法，将音频数据集中的音色数据一起训练，最终合成音色自然度更高，节奏感和韵律感更好。
40.在其中一个实施例中，所述根据所述音素特征和所述用户音色特征合成特征谱的步骤包括：获取所述音素特征的个数m。获取所述代表音频的特征向量的维度n。获取所述用户输入音频的特征向量的尺寸r。所述特征谱根据m*(n r)形成的特征向量进行合成。
41.本实施例中提供了一种根据所述音素特征和所述用户音色特征合成特征谱的具体方法，所述方法可以使得所述特征谱更贴近于用户音色，并且用户音色的自然度更好。最终合成的语音数据的音色自然度更高，节奏感和韵律感更好。
42.在其中一个实施例中，所述语音编译器的训练步骤包括：选取一定数量的音频数据集。本步骤中，所述音频数据集为至少包含10000人音频的数据集。
43.对所述音频数据集进行转换，得到所述音频数据集对应的梅尔谱。
44.将所述梅尔谱输入至所述语音编译器，对所述语音编译器进行参数训练。
45.当所述语音编译器的网络模型训练收敛后，停止对所述语音编译器进行参数训练，并将所述语音编译器的网络模型训练收敛时的参数作为所述语音编译器的模型参数。
46.本实施例中，当所述语音编译器的网络模型训练收敛后，所述语音编译器中就具有了所述音频数据集中的代表音频。所述语音编译器的训练目的是能够输出音色特征向量。
47.在所述语音编译器训练完成后，能结合所述代表音频从所述用户输入的音频数据中快速提取用户的音色特征向量。所述语音编译器训练达到的效果是：同一人的音频的音色特征向量近似，不同人的音频的音色特征向量不同。
48.由于所述语音编译器完成了训练，在所述语音编译器中具有代表音频。在利用所述语音编译器形成具有用户音色的语音数据的时候，可以通过所述代表音频和所述用户音色特征模仿所有用户的声音，顺利的实现个性化的语音合成。
49.在其中一个实施例中，所述对所述音频数据集进行转换，得到所述音频数据集对应的梅尔谱的步骤包括：对所述音频数据集中的每一组音频数据进行音频时域信号分帧。对每一帧所述音频时域信号进行傅里叶变换，并取幅值，得到线性谱。对所述线性谱进行梅尔刻度的加权求和，以得到梅尔谱。
50.一般的，音频数据的声谱图往往是很大的一张图，为了能够得到合适大小的声音
特征，需要通过梅尔标度滤波器组（mel
‑
scale filter banks）把音频数据的声谱图变换为用户音频的梅尔频谱。本实施例中，提供了获取所述梅尔谱的具体步骤。具体的，本实施例中可以采用了在人声领域（语音识别，说话人辨认）常采用的等面积梅尔标度滤波器组。所述等面积的梅尔标度滤波器组为包括几十个三角滤波器的所述梅尔标度滤波器组。其中，低频处滤波器密集，门限值大，高频处滤波器稀疏，门限值低。恰好对应了频率越高，人耳越迟钝的规律。
51.请参阅图3，本申请还提供一种语音合成装置10。所述语音合成装置10包括：音素获取模块11、音色获取模块12、特征谱合成模块13和语音重建模块14。
52.所述音素获取模块11用于确定文本信息对应的音素。所述音色获取模块12用于获取用户语音信息。并根据所述用户语音信息获取用户音色特征。所述用户音色特征可以在语音编译器中形成。所述特征谱合成模块13用于根据所述音素和所述用户音色特征合成为特征谱。所述语音重建模块14用于将所述特征谱重建为语音数据。所述语音数据为具有用户音色的语音数据。
53.本实施例中提供的所述语音合成装置10中，所述音素特征为从文本信息中提取的特征向量。所述用户音色特征为能够表征用户音色特征的特征向量。将从文本信息中提取的特征向量和能够表征用户音色特征的特征向量进行合成，形成所述特征谱。将所述特征谱重建为语音数据。由于所述特征谱是通过文本信息中提取的特征向量和表征用户音色特征的特征向量合成而来的，因此所述特征谱是更丰富的。将所述特征谱重建为语音数据之后，所述语音数据的音色更接近于真实的用户音色，并且通过所述特征谱合成的所述语音数据也是个性化的、多样性的语音数据，所述语音数据不会过于单调。
54.本申请提供的所述语音合成装置10涉及语音合成领域，具体是能实现一句话的语音克隆方法。所述语音合成装置10中，只需要用户提供一句话的音频信息（录制一段5秒
‑
10秒的用户音频数据），即可立刻按照用户音色自动化合成声音（所述语音数据）。
55.请参阅图4，在一个实施例中，本申请还提供一种电子设备20，包括存储器21、处理器22及存储在所述存储器上并可在所述处理器上运行的计算机程序。所述处理器22可以为一个或多个。所述处理器22运行所述计算机程序以实现上述任一项所述的方法。所述存储器21用于存储一个或多个程序。当所述一个或多个程序被所述一个或多个处理器22执行，使得所述一个或多个处理器22实现如上述任一所述的多模态预训练模型的训练方法。
56.在一个实施例中，本申请提供一种计算机可读介质，其上存储有计算机程序，该程序被处理器执行时实现如上述任一所述的多模态预训练模型的训练方法。
57.本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器（read
‑
only memory，rom）、磁带、软盘、闪存或光存储器等。易失性存储器可包括随机存取存储器（random access memory，ram）或外部高速缓冲存储器。作为说明而非局限，ram可以是多种形式，比如静态随机存取存储器（static random access memory，sram）或动态随机存取存储器（dynamic random access memory，dram）等。
58.以上所述仅为本申请的优选实施例而已，并不用于限制本申请，对于本领域的技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。
59.以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应所述以权利要求的保护范围为准。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：语音端点检测方法、装置、电子设备和存储介质与流程

语音合成方法、装置及电子设备与流程

相关文章

最热文献