语音克隆方法、装置、设备及存储介质与流程

2022-11-28 11:38:00 来源：中国专利 TAG：

1.本技术涉及音频处理领域，特别涉及一种语音克隆方法、装置、设备及存储介质。

背景技术：

2.随着深度学习的发展，语音合成技术取得了跳跃式的发展。逼真、自然的语音合成技术已经应用到了手机语音助理、智能音箱、汽车车载计算机等语音交互系统。与此同时，用户对语音合成技术的需求日益增多，对技术要求随之增高。用户不但希望合成的语音能与真人发音媲美，而且还希望有各式各样的音色，甚至是家人、朋友的音色。
3.语音克隆技术就是为了满足合成音色多样性而产生的技术。语音克隆技术主要分为三大部分：前端系统(用于将文字、符号转为音素)；声学模型系统(用于将音素转为声学特征，音素是根据语音的自然属性划分出的最小语音单位)；声码器系统(用于将声学特征转为音频)。其中，声学模型系统是使用人物a的一段参考语音以及需要克隆的文本的音素作为输入，使声学模型系统使用从参考语音中提取出的特征合成使用人物a的声音阅读该文本的克隆语音的声学特征，并采用人物a阅读该文本的一段真实语音的声学特征作为训练标签，训练声学模型系统。
4.上述方法仅能生硬的模拟真实语音生成克隆语音，生成的克隆语音并不贴合人物实际发声的特点，克隆语音的真实度较差。

技术实现要素：

5.本技术实施例提供了一种语音克隆方法、装置、设备及存储介质，可以提高克隆语音的真实度。所述技术方案如下。
6.根据本技术的一方面，提供了一种语音克隆方法，所述方法包括：
7.获取待克隆文本的音素信息；
8.对参考语音进行特征提取得到语音特征；
9.根据所述语音特征合成所述音素信息的克隆语音；
10.其中，所述语音特征包括录音环境特征和音色特征，或，所述语音特征包括所述录音环境特征、所述音色特征和韵律时长特征。
11.根据本技术的另一方面，提供了一种语音克隆装置，所述装置包括：
12.音素模块，用于获取待克隆文本的音素信息；
13.特征提取模块，用于对参考语音进行特征提取得到语音特征；
14.合成模块，用于根据所述语音特征合成所述音素信息的克隆语音；
15.其中，所述语音特征包括录音环境特征和音色特征，或，所述语音特征包括所述录音环境特征、所述音色特征和韵律时长特征。
16.根据本技术的另一方面，提供了一种计算机设备，所述计算机设备包括：处理器和存储器，所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如上方
面所述的语音克隆方法。
17.根据本技术的另一方面，提供了一种计算机可读存储介质，所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现如上方面所述的语音克隆方法。
18.根据本公开实施例的另一个方面，提供一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述可选实现方式中提供的语音克隆方法。
19.本技术实施例提供的技术方案带来的有益效果至少包括：
20.通过训练声学模型，使其能够提取参考语音在音色、录音环境、韵律时长等多个实际维度的声学特征，声学模型根据参考语音的实际声学特征生成克隆语音，相比于生硬模仿真实语音的方法，该方法中的声学模型输出的声音更符合克隆对象的实际发声特点，提高了克隆语音的真实度。
附图说明
21.为了更清楚地说明本技术实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本技术的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。
22.图1是本技术一个示例性实施例提供的计算机设备的框图；
23.图2是本技术另一个示例性实施例提供的语音克隆模型的示意图；
24.图3是本技术另一个示例性实施例提供的语音克隆模型的示意图；
25.图4是本技术另一个示例性实施例提供的语音克隆方法的方法流程图；
26.图5是本技术另一个示例性实施例提供的语音克隆方法的方法流程图；
27.图6是本技术另一个示例性实施例提供的语音克隆方法的方法流程图；
28.图7是本技术另一个示例性实施例提供的语音克隆模型训练方法的示意图；
29.图8是本技术另一个示例性实施例提供的语音克隆方法的方法流程图；
30.图9是本技术另一个示例性实施例提供的语音克隆装置的框图；
31.图10是本技术另一个示例性实施例提供的服务器的结构示意图；
32.图11是本技术另一个示例性实施例提供的终端的框图。
具体实施方式
33.为使本技术的目的、技术方案和优点更加清楚，下面将结合附图对本技术实施方式作进一步地详细描述。
34.图1示出了本技术一个示例性实施例提供的计算机设备101的示意图，该计算机设备101可以是终端或服务器。
35.终端可以包括数码相机、智能手机、笔记本电脑、台式电脑、平板电脑、智能音箱、智能机器人中的至少一种。可选地，该终端还可以是具有摄像头的设备，例如，人脸支付设备、监控设备、门禁设备等。在一种可选的实现方式中，本技术提供的语音克隆方法可以应
用于具有语音克隆功能的应用程序中，该应用程序可以是：音频处理应用程序、语音克隆应用程序、视频处理应用程序、音频发布应用程序、视频发布应用程序、社交应用程序、购物应用程序、直播应用程序、论坛应用程序、资讯应用程序、生活类应用程序、办公应用程序等。可选地，终端上安装有该应用程序的客户端。
36.示例性的，终端上存储有语音克隆模型102，当客户端需要使用语音克隆功能时，客户端可以调用语音克隆模型完成语音克隆。示例性的，语音克隆过程可以由终端来完成，也可以由服务器来完成。
37.终端与服务器之间通过有线或者无线网络相互连接。
38.终端包括第一存储器和第一处理器。第一存储器中存储有语音克隆模型；上述语音克隆模型被第一处理器调用执行以实现本技术提供的语音克隆方法。第一存储器可以包括但不限于以下几种：随机存取存储器(random access memory，ram)、只读存储器(read only memory，rom)、可编程只读存储器(programmable read-only memory，prom)、可擦除只读存储器(erasable programmable read-only memory，eprom)、以及电可擦除只读存储器(electric erasable programmable read-only memory，eeprom)。
39.第一处理器可以是一个或者多个集成电路芯片组成。可选地，第一处理器可以是通用处理器，比如，中央处理器(central processing unit，cpu)或者网络处理器(network processor，np)。可选地，第一处理器可以通过运行程序或代码来实现本技术提供的语音克隆方法。
40.服务器包括第二存储器和第二处理器。第二存储器中存储有语音克隆模型；上述语音克隆模型被第二处理器调用来实现本技术提供的语音克隆方法。可选地，第二存储器可以包括但不限于以下几种：ram、rom、prom、eprom、eeprom。可选地，第二处理器可以是通用处理器，比如，cpu或者np。
41.计算机设备101中存储有语音克隆模型102。当计算机设备101需要进行语音克隆时，调用语音克隆模型102根据参考语音和待克隆文本进行语音克隆得到克隆语音。
42.可选的，如图2所示，语音克隆模型102包括特征提取层103和声学模型104。计算机设备将参考语音输入特征提取层103提取参考语音的参考语音特征。计算机设备获取待克隆文本的音素信息，将音素信息和参考语音特征输入声学模型104，声学模型输出克隆语音。由此，就可以得到用参考语音的人声阅读待克隆文本的克隆语音。
43.在一种可选的实现方式中，如图3所示，特征提取层103包括环境特征提取层、音色特征提取层和韵律时长特征提取层。声学模型104包括编码器、韵律时长估计层和解码器。计算机设备将参考语音输入环境特征提取层得到录音环境特征，将参考语音输入音色特征提取层得到音色特征，将参考语音输入韵律时长特征提取层得到韵律时长特征。计算机设备获取待克隆文本的音素信息，将音素信息输入编码器得到音素编码信息，将音素编码信息和韵律时长特征输入韵律时长估计层，得到每个音素的音素持续时长。将音素编码信息、音素持续时长、录音环境特征、音色特征、韵律时长特征输入解码器得到克隆语音。
44.在一种应用场景中，在语音应用程序中采用本技术提供的语音克隆方法对用户输入的文字进行语音克隆得到克隆语音，并将克隆语音发送出去。例如，对于社交应用程序，用户先录制一段讲话的音频，然后输入一段待克隆文本，终端或服务器将录制的音频和待克隆文本输入语音克隆模型得到克隆语音，用户可以将克隆语音发送给聊天对象。
45.在另一种应用场景中，在音频编辑或视频编辑应用程序中采用本技术提供的语音克隆方法对用户提供的文字进行语音克隆得到克隆语音。例如，用户提交一段人声录音，以及一段文本，终端或服务器将人声录音和文本输入语音克隆模型得到克隆语音，如此，用户可以快捷获取阅读目标文本的一段音频，以便于使用克隆出的语音进行音频编辑或视频编辑。
46.图4示出了本技术一个示例性实施例提供的语音克隆方法的流程图。该方法可以由计算机设备来执行，例如，如图1所示的终端或服务器来执行。方法包括如下步骤。
47.步骤210，获取待克隆文本的音素信息。
48.计算机设备将待克隆文本转换为音素得到音素信息。音素信息中包括待克隆文本对应的至少一个音素。
49.音素(phone)，是根据语音的自然属性划分出来的最小语音单位，依据音节里的发音动作来分析，一个动作构成一个音素。
50.待克隆文本包括由文字和/或符号等组成的短语、句子、段落、篇章。待克隆文本的语言不限。
51.计算机设备接收用户输入的待克隆文本，或，计算机设备通过指定途径获取待克隆文本。例如，计算机设备从文本库中获取待克隆文本。
52.步骤220，对参考语音进行特征提取得到语音特征。
53.参考语音是克隆对象(录音员)的语音。或者，参考语音是克隆对象阅读文本的语音。或者，参考语音是包含克隆对象声音的一段音频。例如，参考语音是人物a阅读一段文本的录音。
54.计算机设备从多个维度提取参考语音的语音特征，该语音特征可以表征克隆对象的发声特点、阅读特点或参考语音录制环境的特点等。例如，计算机设备可以从录音环境、音色、韵律时长维度提取参考语音的语音特征。
55.可选的，语音特征包括录音环境特征和音色特征，或，语音特征包括录音环境特征、音色特征和韵律时长特征。
56.可选的，如图2所示，计算机设备调用特征提取层对参考语音进行特征提取得到录音环境特征、音色特征和韵律时长特征。可选的，计算机设备调用环境特征提取层对参考语音进行特征提取得到录音环境特征；计算机设备调用音色特征提取层对参考语音进行特征提取得到音色特征；计算机设备调用韵律时长特征提取层对参考语音进行特征提取得到韵律时长特征。
57.其中，录音环境特征用于表征参考语音录制环境的特征，音色特征用于表征克隆对象的音色特征，韵律时长特征用于表征参考语音中的韵律特征。示例性的，韵律时长特征用于表征克隆对象讲话时的音调、音长、音高等特征，或者，韵律时长特征用于表征克隆对象讲话时的抑扬顿挫的特征。
58.从录音环境、音色、韵律时长三个维度进行特征提取，计算机设备可以充分学习参考语音的声学特征，并根据提取到的特征合成克隆语音。例如，相比于仅提取音色和韵律时长特征的方法，本技术实施例进一步提取了录音环境特征，若参考语音的录音环境较为嘈杂或带有混响效果，则可以将其提取为录音环境特征，并在合成克隆语音时使克隆语音也带有相似的录音环境效果。但若不提取录音环境特征，则该部分特征可能提取到了音色特
征中，使音色特征不准确，合成的克隆语音音色较假，且录音环境效果差。
59.步骤230，根据语音特征合成音素信息的克隆语音。
60.计算机设备根据从参考语音中提取的录音环境特征和音色特征，来合成音素信息的克隆语音。
61.或，计算机设备根据从参考语音中提取的录音环境特征、音色特征和韵律时长特征，来合成音素信息的克隆语音。
62.可选的，计算机设备根据参考语音中提取的录音环境特征、音色特征和韵律时长特征合成音素信息的声学特征，并将声学特征通过声码器转为克隆语音(克隆音频)。
63.可选的，计算机设备将录音环境特征、音色特征、韵律时长特征以及音素信息输入声学模型中，得到声学特征，将声学特征输入声码器得到克隆音频。
64.示例性的，声学特征可以是音频的梅尔频谱(mel spectrogram)或mel频率倒谱系数(mel frequency cepstrum coefficient，mfcc)。
65.克隆语音是以克隆对象的声音演绎待克隆文本的音频。克隆语音是模仿克隆对象(参考语音中的人声)的声音说出待克隆文本的音频。
66.综上所述，本实施例提供的方法，通过训练声学模型，使其能够提取参考语音在音色、录音环境维度的声学特征，或者提取音色、录音环境、韵律时长维度的声学特征，声学模型根据参考语音的声学特征生成克隆语音，相比于生硬模仿真实语音的方法，该方法中的声学模型输出的声音更符合克隆对象的实际发声特点，提高了克隆语音的真实度。
67.示例性的，计算机设备中存储有语音克隆模型，计算机设备通过调用语音克隆模型来执行本技术实施例提供的语音克隆方法。
68.可选的，如图2所示，语音克隆模型包括特征提取层和声学模型。
69.可选的，如图3所示，特征提取层包括环境特征提取层、音色特征提取层和韵律时长特征提取层。
70.可选的，声学模型包括编码器和解码器。或者，如图3所示，声学模型包括编码器、解码器和韵律时长估计层。
71.示例性的，给出一种基于图3所示的语音克隆模型实现的语音克隆方法。
72.图5示出了本技术一个示例性实施例提供的语音克隆方法的流程图。该方法可以由计算机设备来执行，例如，如图1所示的终端或服务器来执行。该方法包括以下步骤。
73.步骤210，获取待克隆文本的音素信息。
74.例如，计算机设备响应于用户的编辑操作，获取输入的待克隆文本。
75.或者，计算机设备获取文本音频，对文本音频进行语音识别得到待克隆文本，或者，对文本音频进行音素提取得到音素信息。例如，计算机设备通过麦克风录制用户讲的一段话，并对用户讲的话进行语音识别得到待克隆文本，将待克隆文本转为音素得到音素信息。
76.步骤221，将参考语音输入环境特征提取层，得到录音环境特征。
77.可选的，环境特征提取层包括x个卷积层，x为小于第一阈值的正整数。例如，环境特征提取层包括三层卷积层，每层卷积层中包括任意个卷积核。当然环境特征提取层的结构并不限于此实现方式。
78.示例性的，环境特征提取层为简单的卷积层结构，环境特征提取层通过简单的卷
积结构提取参考语音中的浅层特征，即，参考语音中从始至终都存在的录音环境特征。
79.步骤222，将参考语音输入音色特征提取层，得到音色特征。
80.可选的，音色特征提取层包括卷积层和循环神经网络。例如，音色特征提取层包括三层卷积层和一层卷积神经网络。当然音色特征提取层的结构并不限于此实现方式。
81.音色特征提取层通过复杂的网络结构提取参考语音中的深层特征，并在训练阶段训练音色特征提取层对同一克隆对象的语音输出相同的特征，以使音色特征提取层能够准确提取克隆对象的音色特征。
82.步骤223，将参考语音输入韵律时长特征提取层，得到韵律时长特征。
83.可选的，韵律时长特征提取层包括卷积层和循环神经网络。例如，韵律时长特征提取层包括三层卷积层和一层卷积神经网络。当然韵律时长特征提取层的结构并不限于此实现方式。
84.韵律时长特征提取层通过复杂的网络结构提取参考语音中的深层特征，即，参考语音中的克隆对象说话时音素的韵律特征，以表征克隆对象的说话特点。
85.可选的，该方法可以包括步骤221和步骤222；或者，该方法可以包括步骤221、步骤222和步骤223。
86.步骤231，将音素信息输入编码器得到音素编码信息。
87.可选的，计算机设备将音素信息输入编码器，由编码器对音素信息进行音素编码处理，得到音素编码信息。
88.其中，编码器可以由卷积神经网络(convolutional neural network，cnn)、转换器神经网络(transformer)或卷积增强的转换器网络(conformer)实现。例如，编码器可以采用四层的转换器神经网络(transformer)实现，当然编码器的结构并不限于此实现方式。
89.步骤232，将音素编码信息、录音环境特征、音色特征和韵律时长特征输入解码器得到克隆语音。
90.计算机设备将因素编码信息和语音特征输入解码器得到克隆语音。
91.可选的，计算机设备将音素编码信息、录音环境特征和音色特征级联或叠加后输入解码器，进行解码处理，得到克隆语音。
92.或，计算机设备将音素编码信息、录音环境特征、音色特征和韵律时长特征级联或叠加后输入解码器，进行解码处理，得到克隆语音。
93.计算机设备将音素编码信息、录音环境特征、音色特征和韵律时长特征级联或叠加，输入解码器，得到声学特征，将声学特征输入声码器输出克隆语音。
94.其中，解码器可以由卷积神经网络(convolutional neural network，cnn)、转换器神经网络(transformer)或卷积增强的转换器网络(conformer)实现。例如，解码器可以采用六层的转换器神经网络(transformer)实现，当然解码器的结构并不限于此实现方式。
95.可选的，如图6所示，步骤231之后还可以包括步骤233，步骤232还可以替换为步骤234。
96.步骤233，将音素编码信息和韵律时长特征信息输入韵律时长估计层得到音素信息中每个音素的第一音素持续时长。
97.第一音素持续时长是指根据步骤210中参考语音的韵律时长特征输出的音素持续时长。
98.计算机设备将音素编码信息和韵律时长特征信息级联或叠加后输入韵律时长估计层，进行韵律时长估计，输出每个音素的持续时长(音素持续时长)。
99.计算机设备根据参考语音的韵律时长特征输出音素编码信息中每个音素的音素持续时长。例如，音素编码信息中包括十个音素，则韵律时长估计层输出十个音素持续时长，十个音素持续时长与十个音素一一对应。音素持续时长为每个音素的音长，例如，第一音素的音长为1秒，或者，第二音素的音长为3帧。
100.可选地，韵律时长估计层由卷积层组成。例如，韵律时长估计层采用了三层的卷积神经网络实现，当然韵律时长估计层的结构并不限于此实现方式。
101.步骤234，将音素编码信息、第一音素持续时长、录音环境特征、音色特征和韵律时长特征输入解码器得到克隆语音。
102.计算机设备将音素编码信息、各个音素的第一音素持续时长、录音环境特征、音色特征和韵律时长特征级联或叠加后输入解码器，进行解码处理，得到克隆语音。
103.计算机设备将音素编码信息、各个音素的第一音素持续时长、录音环境特征、音色特征和韵律时长特征级联或叠加，输入解码器，得到声学特征，将声学特征输入声码器输出克隆语音。
104.其中，第一音素持续时长包括待克隆文本中每一个音素的音素持续时长。例如，待克隆文本包括十个音素，则第一音素持续时长包括10个音素持续时长。
105.综上所述，本实施例提供的方法，采用了多维度的声音特征提取层，能高效地提取录音环境信息特征、录音员的音色特征、韵律时长特征。这些信息能辅助声学模型，精准还原出包含上述声音信息的声学特征。提高了语音克隆的声音相似度，提高了声学模型的微调训练速度，以及提高了整个系统的鲁棒性。即提升了合成效果的同时，降低了对录音环境的要求，降低了模型训练成本。
106.本实施例提供的方法，提供了一种基于多维度声音特征提取的语音克隆声学模型能精准还原录音员的音色、朗读韵律，以及录音环境的底噪和混响。得益于多维度的声音特征提取模块，该方法可以很方便的调整合成音频的朗读韵律和环境底噪。
107.可选的，使用判别器对语音克隆模型进行对抗训练。即，使用判别器对抗训练特征提取层和声学模型。
108.图7示出了本技术一个示例性实施例提供的语音克隆模型训练方法的示意图。该方法可以由计算机设备来执行，例如，如图1所示的终端或服务器来执行。该方法包括以下步骤：
109.步骤一，调用特征提取层103对样本参考语音进行特征提取得到样本录音环境特征、样本音色特征和样本韵律时长特征，样本参考语音第二克隆对象的录音。
110.步骤二，获取样本待克隆文本的样本音素信息。
111.步骤三，调用声学模型104将样本音素信息与样本参考语音特征进行声学特征生成得到样本克隆语音。
112.步骤四，将样本克隆语音输入判别器105得到第一判别结果。
113.判别器用于判别输入的信息为模型生成的信息(假标签)还是真实信息(真标签)。当判别器判别输入的语音为模型生成的克隆语音时，判别器输出假标签(例如0)，当判别器判别输入的语音为真实录制的语音时，判别器输出真标签(例如1)。
114.可选地，声学模型输出样本克隆语音的声学特征，将样本克隆语音的声学特征输入判别器105得到第一判别结果。
115.对抗训练时，训练判别器的目标是使第一判别结果输出为假标签。训练语音克隆模型时的目标是使第一判别结果输出为真标签。
116.可选地，判别器由卷积层组成，例如，判别器采用五层二维卷积神经网络实现，当然，判别器的结构并不限于此实现方式。
117.步骤五，将样本真实语音输入判别器105得到第二判别结果，样本真实语音是以第二克隆对象的声音演绎样本待克隆文本的语音。
118.样本真实语音是第二克隆对象录制的阅读样本待克隆文本的语音。
119.可选地，将样本真实语音的声学特征输入判别器得到第二判别结果。
120.对抗训练时，训练判别器的目标是使第一判别结果输出为真标签。
121.步骤六，计算样本克隆语音与样本真实语音的第一损失。
122.调用损失函数计算样本克隆语音与样本真实语音的损失。
123.步骤七，计算第一判别结果与假标签的第二损失。
124.调用损失函数计算第一判别结果与假标签的损失。
125.步骤八，计算第二判别结果与真标签的第三损失。
126.调用损失函数计算第二判别结果与真标签的损失。
127.步骤九，根据第一损失、第二损失和第三损失对抗训练特征提取层、声学模型与判别器。
128.示例性的，固定特征提取层和声学模型的模型参数不变，根据第二损失和第三损失用反向传播算法训练判别器的模型参数，使判别器能够准确判断模型克隆语音和真实录制语音。
129.示例性的，固定判别器的模型参数，计算第一判别结果与真标签的第四损失，根据第一损失、第三损失和第四损失用反向传播算法训练语音克隆模型(包括特征提取层和声学模型)，使语音克隆模型输出的克隆语音贴近真实语音，并且，使判别器判断输出的克隆语音为真实语音(真标签)。
130.示例性的，计算机设备重复执行上述九个步骤直至语音克隆模型收敛。经实验验证，重复上述步骤五百次即可使模型很好的收敛，模型收敛后，即可使用训练好的语音克隆模型执行本技术实施例提供的语音克隆方法。
131.可选的，当特征提取层包括音色特征提取层时，训练音色特征提取层对同一克隆对象的参考语音输出的音色特征相似度高于阈值。
132.该阈值可以为任意数值，例如，为90％。示例性的，训练音色特征提取层的目标为使其对同一克隆对象的参考语音输出相同的音色特征，但实际输出的多个音色特征可能并不完全相同。
133.在采用上述对抗训练的方法训练语音克隆模型的同时，采用如下方法训练音色特征提取层。
134.调用音色特征提取层对第一样本参考语音进行特征提取得到第一样本音色特征，第一样本参考语音对应第三克隆对象；调用音色特征提取层对第二样本参考语音进行特征提取得到第二样本音色特征，第二样本参考语音对应第三克隆对象；计算第一样本音色特
征和第二样本音色特征的第四损失；根据第四损失训练音色特征提取层。
135.即，使用同一克隆对象的不同样本参考语音，都输入音色特征提取层，得到至少两个样本音色特征，根据至少两个样本音色特征的损失，训练音色特征提取层，使其对同一克隆对象的语音输出相同的音色特征。
136.综上所述，本实施例提供的方法，采用对抗训练的方式训练语音克隆模型，使语音克隆模型学习真实语音的特征，输出判别器无法识别真伪的克隆语音，有效改善了声学特征过平滑的问题，提升合成音质。
137.可选的，当参考语音的录音员(克隆对象)的阅读韵律不佳时，还可以使用其他录音员的韵律时长特征来生成该录音员的克隆语音，以提升克隆语音的阅读效果。
138.图8示出了本技术一个示例性实施例提供的语音克隆方法的流程图。该方法可以由计算机设备来执行，例如，如图1所示的终端或服务器来执行。该方法包括以下步骤。
139.步骤210，获取待克隆文本的音素信息。
140.步骤220，对参考语音进行特征提取得到录音环境特征、音色特征和韵律时长特征。
141.可选的，参考语音是第一克隆对象录制的语音。
142.步骤235，根据录音环境特征、音色特征以及第二克隆对象的韵律时长特征，合成音素信息的克隆语音。
143.可选的，对第二克隆对象的参考语音进行特征提取得到第二克隆对象的韵律时长特征，例如，将第二克隆对象的参考语音输入韵律时长特征提取层得到第二克隆对象的韵律时长特征。
144.然后，用第二克隆对象的韵律时长特征代替步骤220中第一克隆对象的韵律时长特征，即，使用第一克隆对象的音色特征、第一克隆对象的录音环境特征、第二克隆对象的韵律时长特征来合成音素信息的克隆语音。如此生成的克隆语音其音色为第一克隆对象的音色，其韵律为第二克隆对象的韵律。
145.可选的，将音素信息输入编码器得到音素编码信息；将音素编码信息和第二克隆对象的韵律时长特征输入韵律时长估计层得到音素信息中每个音素的第二音素持续时长；将音素编码信息、第二音素持续时长、录音环境特征、音色特征和第二克隆对象的韵律时长特征输入解码器得到克隆语音。
146.综上所述，本实施例提供的方法，由于特征提取层能够提取参考语音中各个声学特征维度的语音特征，当某个录音员在某个维度表现较差时，可以用其他录音员在该维度的特征来替代该录音员在该维度的特征，以提高最终生成的克隆语音的质量。例如，当录音员的阅读水平磕磕绊绊时，使用优质录音员的韵律时长特征来代替该录音员的韵律时长特征，进而生成克隆语音，可以使生成的克隆语音语言流畅。例如可以用普通录音用户的音色特征，结合专业主播的朗读韵律特征(韵律时长特征)，合成出音色与用户相似、朗读韵律自然的声音。
147.以下为本技术的装置实施例，对于装置实施例中未详细描述的细节，可以结合参考上述方法实施例中相应的记载，本文不再赘述。
148.图9示出了本技术的一个示例性实施例提供的语音克隆装置的结构示意图。该装置可以通过软件、硬件或者两者的结合实现成为计算机设备的全部或一部分，该装置包括：
149.音素模块401，用于获取待克隆文本的音素信息；
150.特征提取模块402，用于对参考语音进行特征提取得到语音特征；
151.合成模块403，用于根据所述语音特征合成所述音素信息的克隆语音；
152.其中，所述语音特征包括录音环境特征和音色特征，或，所述语音特征包括所述录音环境特征、所述音色特征和韵律时长特征。
153.在一个可选的实施例中，所述特征提取模块402，用于将所述参考语音输入环境特征提取层，得到录音环境特征；将所述参考语音输入音色特征提取层，得到音色特征；
154.或，将所述参考语音输入所述环境特征提取层，得到所述录音环境特征；将所述参考语音输入所述音色特征提取层，得到所述音色特征；将所述参考语音输入韵律时长特征提取层，得到韵律时长特征。
155.在一个可选的实施例中，所述环境特征提取层包括x个卷积层，x为小于第一阈值的正整数；
156.所述音色提取层包括卷积层和循环神经网络；
157.所述韵律时长提取层包括卷积层和循环神经网络。
158.在一个可选的实施例中，所述合成模块403，用于将所述音素信息输入编码器得到音素编码信息；
159.所述合成模块403，用于将所述音素编码信息、所述语音特征输入解码器得到所述克隆语音。
160.在一个可选的实施例中，所述语音特征包括所述韵律时长特征，；
161.所述合成模块403，用于将所述音素编码信息和所述韵律时长特征信息输入韵律时长估计层得到所述音素信息中每个音素的第一音素持续时长；
162.所述合成模块403，用于将所述音素编码信息、所述第一音素持续时长、所述语音特征输入解码器得到所述克隆语音。
163.在一个可选的实施例中，所述特征提取模块402，用于调用特征提取层对所述参考语音进行特征提取得到所述语音特征；
164.所述合成模块403，用于调用声学模型根据所述语音特征合成所述音素信息的所述克隆语音；
165.所述装置还包括：
166.训练模块404，用于使用判别器对抗训练所述特征提取层和所述声学模型。
167.在一个可选的实施例中，所述特征提取层包括音色特征提取层；
168.所述训练模块404，用于训练所述音色特征提取层对同一克隆对象的参考语音输出的音色特征相似度高于阈值。
169.在一个可选的实施例中，所述参考语音为第一克隆对象的语音；
170.所述合成模块403，用于根据所述所述录音环境特征、所述音色特征以及第二克隆对象的韵律时长特征，合成所述音素信息的所述克隆语音。
171.在一个可选的实施例中，所述合成模块403，用于将所述音素信息输入编码器得到音素编码信息；
172.所述合成模块403，用于将所述音素编码信息和所述第二克隆对象的韵律时长特征输入韵律时长估计层得到所述音素信息中每个音素的第二音素持续时长；
173.所述合成模块403，用于将所述音素编码信息、所述第二音素持续时长、所述录音环境特征、所述音色特征和所述第二克隆对象的韵律时长特征输入解码器得到所述克隆语音。
174.图10是本技术一个实施例提供的服务器的结构示意图。具体来讲：服务器800包括中央处理单元(英文：central processing unit，简称：cpu)801、包括随机存取存储器(英文：random access memory，简称：ram)802和只读存储器(英文：read-only memory，简称：rom)803的系统存储器804，以及连接系统存储器804和中央处理单元801的系统总线805。服务器800还包括帮助计算机内的各个器件之间传输信息的基本输入/输出系统(i/o系统)806，和用于存储操作系统813、应用程序814和其他程序模块815的大容量存储设备807。
175.基本输入/输出系统806包括有用于显示信息的显示器808和用于用户帐号输入信息的诸如鼠标、键盘之类的输入设备809。其中显示器808和输入设备809都通过连接到系统总线805的输入/输出控制器810连接到中央处理单元801。基本输入/输出系统806还可以包括输入/输出控制器810以用于接收和处理来自键盘、鼠标、或电子触控笔等多个其他设备的输入。类似地，输入/输出控制器810还提供输出到显示屏、打印机或其他类型的输出设备。
176.大容量存储设备807通过连接到系统总线805的大容量存储控制器(未示出)连接到中央处理单元801。大容量存储设备807及其相关联的计算机可读介质为服务器800提供非易失性存储。也就是说，大容量存储设备807可以包括诸如硬盘或者只读光盘(英文：compact disc read-only memory，简称：cd-rom)驱动器之类的计算机可读介质(未示出)。
177.不失一般性，计算机可读介质可以包括计算机存储介质和通信介质。计算机存储介质包括以用于存储诸如计算机可读指令、数据结构、程序模块或其他数据等信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动介质。计算机存储介质包括ram、rom、可擦除可编程只读存储器(英文：erasable programmable read-only memory，简称：eprom)、电可擦除可编程只读存储器(英文：electrically erasable programmable read-only memory，简称：eeprom)、闪存或其他固态存储器技术，cd-rom、数字通用光盘(英文：digital versatile disc，简称：dvd)或其他光学存储、磁带盒、磁带、磁盘存储或其他磁性存储设备。当然，本领域技术人员可知计算机存储介质不局限于上述几种。上述的系统存储器804和大容量存储设备807可以统称为存储器。
178.根据本技术的各种实施例，服务器800还可以通过诸如因特网等网络连接到网络上的远程计算机运行。也即服务器800可以通过连接在系统总线805上的网络接口单元811连接到网络812，或者说，也可以使用网络接口单元811来连接到其他类型的网络或远程计算机系统(未示出)。
179.本技术还提供了一种终端，该终端包括处理器和存储器，存储器中存储有至少一条指令，至少一条指令由处理器加载并执行以实现上述各个方法实施例提供的语音克隆方法。需要说明的是，该终端可以是如下图11所提供的终端。
180.图11示出了本技术一个示例性实施例提供的终端900的结构框图。该终端900可以是：智能手机、平板电脑、mp3播放器(moving picture experts group audio layer iii，动态影像专家压缩标准音频层面3)、mp4(moving picture experts group audio layer iv，动态影像专家压缩标准音频层面4)播放器、笔记本电脑或台式电脑。终端900还可能被
称为用户帐号设备、便携式终端、膝上型终端、台式终端等其他名称。
181.通常，终端900包括有：处理器901和存储器902。
182.处理器901可以包括一个或多个处理核心，比如4核心处理器、8核心处理器等。处理器901可以采用dsp(digital signal processing，数字信号处理)、fpga(field－programmable gate array，现场可编程门阵列)、pla(programmable logic array，可编程逻辑阵列)中的至少一种硬件形式来实现。处理器901也可以包括主处理器和协处理器，主处理器是用于对在唤醒状态下的数据进行处理的处理器，也称cpu(central processing unit，中央处理器)；协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中，处理器901可以在集成有gpu(graphics processing unit，语音克隆器)，gpu用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中，处理器901还可以包括ai(artificial intelligence，人工智能)处理器，该ai处理器用于处理有关机器学习的计算操作。
183.存储器902可以包括一个或多个计算机可读存储介质，该计算机可读存储介质可以是非暂态的。存储器902还可包括高速随机存取存储器，以及非易失性存储器，比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中，存储器902中的非暂态的计算机可读存储介质用于存储至少一个指令，该至少一个指令用于被处理器901所执行以实现本技术中方法实施例提供的语音克隆方法或语音克隆方法。
184.在一些实施例中，终端900还可选包括有：外围设备接口903和至少一个外围设备。处理器901、存储器902和外围设备接口903之间可以通过总线或信号线相连。各个外围设备可以通过总线、信号线或电路板与外围设备接口903相连。具体地，外围设备包括：射频电路904、显示屏905、摄像头组件906、音频电路907、定位组件908和电源909中的至少一种。
185.外围设备接口903可被用于将i/o(input/output，输入/输出)相关的至少一个外围设备连接到处理器901和存储器902。在一些实施例中，处理器901、存储器902和外围设备接口903被集成在同一芯片或电路板上；在一些其他实施例中，处理器901、存储器902和外围设备接口903中的任意一个或两个可以在单独的芯片或电路板上实现，本实施例对此不加以限定。
186.射频电路904用于接收和发射rf(radio frequency，射频)信号，也称电磁信号。射频电路904通过电磁信号与通信网络以及其他通信设备进行通信。射频电路904将电信号转换为电磁信号进行发送，或者，将接收到的电磁信号转换为电信号。示例性的，射频电路904包括：天线系统、rf收发器、一个或多个放大器、调谐器、振荡器、数字信号处理器、编解码芯片组、用户帐号身份模块卡等等。射频电路904可以通过至少一种无线通信协议来与其它终端进行通信。该无线通信协议包括但不限于：万维网、城域网、内联网、各代移动通信网络(2g、3g、4g及5g)、无线局域网和/或wifi(wireless fidelity，无线保真)网络。在一些实施例中，射频电路904还可以包括nfc(near field communication，近距离无线通信)有关的电路，本技术对此不加以限定。
187.显示屏905用于显示ui(user interface，用户帐号界面)。该ui可以包括图形、文本、图标、视频及其它们的任意组合。当显示屏905是触摸显示屏时，显示屏905还具有采集在显示屏905的表面或表面上方的触摸信号的能力。该触摸信号可以作为控制信号输入至处理器901进行处理。此时，显示屏905还可以用于提供虚拟按钮和/或虚拟键盘，也称软按
钮和/或软键盘。在一些实施例中，显示屏905可以为一个，设置终端900的前面板；在另一些实施例中，显示屏905可以为至少两个，分别设置在终端900的不同表面或呈折叠设计；在再一些实施例中，显示屏905可以是柔性显示屏，设置在终端900的弯曲表面上或折叠面上。甚至，显示屏905还可以设置成非矩形的不规则图形，也即异形屏。显示屏905可以采用lcd(liquid crystal display，液晶显示屏)、oled(organic light-emitting diode，有机发光二极管)等材质制备。
188.摄像头组件906用于采集图像或视频。示例性的，摄像头组件906包括前置摄像头和后置摄像头。通常，前置摄像头设置在终端的前面板，后置摄像头设置在终端的背面。在一些实施例中，后置摄像头为至少两个，分别为主摄像头、景深摄像头、广角摄像头、长焦摄像头中的任意一种，以实现主摄像头和景深摄像头融合实现背景虚化功能、主摄像头和广角摄像头融合实现全景拍摄以及vr(virtual reality，虚拟现实)拍摄功能或者其它融合拍摄功能。在一些实施例中，摄像头组件906还可以包括闪光灯。闪光灯可以是单色温闪光灯，也可以是双色温闪光灯。双色温闪光灯是指暖光闪光灯和冷光闪光灯的组合，可以用于不同色温下的光线补偿。
189.音频电路907可以包括麦克风和扬声器。麦克风用于采集用户帐号及环境的声波，并将声波转换为电信号输入至处理器901进行处理，或者输入至射频电路904以实现语音通信。出于立体声采集或降噪的目的，麦克风可以为多个，分别设置在终端900的不同部位。麦克风还可以是阵列麦克风或全向采集型麦克风。扬声器则用于将来自处理器901或射频电路904的电信号转换为声波。扬声器可以是传统的薄膜扬声器，也可以是压电陶瓷扬声器。当扬声器是压电陶瓷扬声器时，不仅可以将电信号转换为人类可听见的声波，也可以将电信号转换为人类听不见的声波以进行测距等用途。在一些实施例中，音频电路907还可以包括耳机插孔。
190.定位组件908用于定位终端900的当前地理位置，以实现导航或lbs(location based service，基于位置的服务)。定位组件908可以是基于美国的gps(global positioning system，全球定位系统)、中国的北斗系统或俄罗斯的伽利略系统的定位组件。
191.电源909用于为终端900中的各个组件进行供电。电源909可以是交流电、直流电、一次性电池或可充电电池。当电源909包括可充电电池时，该可充电电池可以是有线充电电池或无线充电电池。有线充电电池是通过有线线路充电的电池，无线充电电池是通过无线线圈充电的电池。该可充电电池还可以用于支持快充技术。
192.在一些实施例中，终端900还包括有一个或多个传感器910。该一个或多个传感器910包括但不限于：加速度传感器911、陀螺仪传感器912、压力传感器913、指纹传感器914、光学传感器915以及接近传感器916。
193.加速度传感器911可以检测以终端900建立的坐标系的三个坐标轴上的加速度大小。比如，加速度传感器911可以用于检测重力加速度在三个坐标轴上的分量。处理器901可以根据加速度传感器911采集的重力加速度信号，控制显示屏905以横向视图或纵向视图进行用户帐号界面的显示。加速度传感器911还可以用于游戏或者用户帐号的运动数据的采集。
194.陀螺仪传感器912可以检测终端900的机体方向及转动角度，陀螺仪传感器912可
以与加速度传感器911协同采集用户帐号对终端900的3d动作。处理器901根据陀螺仪传感器912采集的数据，可以实现如下功能：动作感应(比如根据用户帐号的倾斜操作来改变ui)、拍摄时的图像稳定、游戏控制以及惯性导航。
195.压力传感器913可以设置在终端900的侧边框和/或显示屏905的下层。当压力传感器913设置在终端900的侧边框时，可以检测用户帐号对终端900的握持信号，由处理器901根据压力传感器913采集的握持信号进行左右手识别或快捷操作。当压力传感器913设置在显示屏905的下层时，由处理器901根据用户帐号对显示屏905的压力操作，实现对ui界面上的可操作性控件进行控制。可操作性控件包括按钮控件、滚动条控件、图标控件、菜单控件中的至少一种。
196.指纹传感器914用于采集用户帐号的指纹，由处理器901根据指纹传感器914采集到的指纹识别用户帐号的身份，或者，由指纹传感器914根据采集到的指纹识别用户帐号的身份。在识别出用户帐号的身份为可信身份时，由处理器901授权该用户帐号执行相关的敏感操作，该敏感操作包括解锁屏幕、查看加密信息、下载软件、支付及更改设置等。指纹传感器914可以被设置终端900的正面、背面或侧面。当终端900上设置有物理按键或厂商logo时，指纹传感器914可以与物理按键或厂商logo集成在一起。
197.光学传感器915用于采集环境光强度。在一个实施例中，处理器901可以根据光学传感器915采集的环境光强度，控制显示屏905的显示亮度。具体地，当环境光强度较高时，调高显示屏905的显示亮度；当环境光强度较低时，调低显示屏905的显示亮度。在另一个实施例中，处理器901还可以根据光学传感器915采集的环境光强度，动态调整摄像头组件906的拍摄参数。
198.接近传感器916，也称距离传感器，通常设置在终端900的前面板。接近传感器916用于采集用户帐号与终端900的正面之间的距离。在一个实施例中，当接近传感器916检测到用户帐号与终端900的正面之间的距离逐渐变小时，由处理器901控制显示屏905从亮屏状态切换为息屏状态；当接近传感器916检测到用户帐号与终端900的正面之间的距离逐渐变大时，由处理器901控制显示屏905从息屏状态切换为亮屏状态。
199.本领域技术人员可以理解，图11中示出的结构并不构成对终端900的限定，可以包括比图示更多或更少的组件，或者组合某些组件，或者采用不同的组件布置。
200.所述存储器还包括一个或者一个以上的程序，所述一个或者一个以上程序存储于存储器中，所述一个或者一个以上程序包含用于进行本技术实施例提供的语音克隆方法。
201.本技术还提供一种计算机设备，该计算机设备包括：处理器和存储器，该存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，该至少一条指令、至少一段程序、代码集或指令集由处理器加载并执行以实现上述各方法实施例提供的语音克隆方法。
202.本技术还提供一种计算机可读存储介质，该存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，该至少一条指令、至少一段程序、代码集或指令集由处理器加载并执行以实现上述各方法实施例提供的语音克隆方法。
203.本技术还提供一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述可选实现方式中提供的语音克隆方法。
204.应当理解的是，在本文中提及的“多个”是指两个或两个以上。“和/或”，描述关联对象的关联关系，表示可以存在三种关系，例如，a和/或b，可以表示：单独存在a，同时存在a和b，单独存在b这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。
205.本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。
206.以上仅为本技术的可选实施例，并不用以限制本技术，凡在本技术的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本技术的保护范围之内。

再多了解一些

1/2 1 2 下一页尾页

本文用于创业者技术爱好者查询，仅供学习研究，如用于商业用途，请联系技术所有人。

语音克隆方法、装置、设备及存储介质与流程

相关文献

最热文献