一种实时变声的方法、装置及电子设备与流程

2021-09-07 20:30:00 来源：中国专利 TAG：变声电子设备实时语音装置

1.本发明涉及语音技术领域，特别涉及一种实时变声的方法、装置及电子设备。

背景技术：

2.随着语音识别技术的飞速发展，使得语音识别应用越广泛，例如实时语音翻译和变声等，在使用变声技术时，通常需要使用源说话人和目标说话人的平行语料，再平行语料对齐后再进行训练得到变声模型，以通过训练得到变声模型完成变声。
3.现有技术中，基于识别的变声技术模型需要采集大量的平行语料，再进行训练后得到变声模型，导致变声模型通常为大规模模型，难以做到在内存和计算资源极低的硬件上进行实时变声。

技术实现要素：

4.本发明实施例提供一种实时变声的方法、装置及电子设备，能够在内存和计算资源极低的硬件上进行实时变声。
5.本发明实施例第一方面提供一种实时变声的方法，所述方法包括：
6.获取源说话人的原语音数据；
7.通过语音识别模型提取所述原语音数据的原始音频识别特征，其中，所述语音识别模型的参数量小于第一设定参数量；
8.将所述原始音频识别特征输入到目标变声模型中，输出所述目标说话人的声学特征，其中，所述目标变声模型的参数量小于第二设定参数量；
9.将所述目标说话人的声学特征以所述目标语音进行输出。
10.可选的，所述目标变声模型的训练步骤，包括：
11.获取训练样本集，所述训练样本集包括至少一个说话人的语音数据；
12.针对所述训练样本集中的每个训练样本，将训练样本的语音数据输入到所述语音识别模型中进行特征提取，提取到训练样本的音频识别特征，以及提取训练样本的声学特征；
13.根据每个训练样本的音频识别特征和声学特征进行模型训练，得到所述目标变声模型。
14.可选的，所述根据每个训练样本的音频识别特征和声学特征进行模型训练，得到所述目标变声模型，包括：
15.针对每个训练样本，将训练样本的音频识别特征作为模型的输入数据，将训练样本的声学特征作为模型的输出数据进行模型训练，得到已训练的变声模型，并将所述已训练的变声模型作为所述目标变声模型。
16.可选的，在得到已训练的变声模型之后，所述方法还包括：
17.获取所述目标说话人的语音数据；
18.将所述目标说话人的语音数据输入到所述语音识别模型中进行特征提取，提取到
所述目标说话人的音频识别特征，以及所述目标说话人的声学特征；
19.利用所述目标说话人的音频识别特征和声学特征对所述已训练的变声模型进行自适应训练，得到自适应变声模型，并将所述自适应变声模型作为所述目标变声模型。
20.可选的，所述将所述目标说话人的声学特征以所述目标语音进行输出，包括：
21.将所述目标说话人的声学特征输入到声码器中以所述目标语音进行输出。
22.本发明实施例第二方面还提供一种实时变声的装置，包括：
23.语音数据采集单元，用于获取源说话人的原语音数据；
24.特征提取单元，用于通过语音识别模型提取所述原语音数据的原始音频识别特征，其中，所述语音识别模型的参数量小于第一设定参数量；
25.模型预测单元，用于将所述原始音频识别特征输入到目标变声模型中，输出目标说话人的声学特征，其中，所述目标变声模型的参数量小于第二设定参数量；
26.语音输出单元，用于将所述目标说话人的声学特征以所述目标语音进行输出。
27.可选的，还包括：
28.模型训练单元，用于获取训练样本集，所述训练样本集包括至少一个说话人的语音数据；针对所述训练样本集中的每个训练样本，将训练样本的语音数据输入到所述语音识别模型中进行特征提取，提取到训练样本的音频识别特征，以及提取训练样本的声学特征；根据每个训练样本的音频识别特征和声学特征进行模型训练，得到所述目标变声模型。
29.可选的，所述模型训练单元，用于针对每个训练样本，将训练样本的音频识别特征作为模型的输入数据，将训练样本的声学特征作为模型的输出数据进行模型训练，得到已训练的变声模型，并将所述已训练的变声模型作为所述目标变声模型。
30.可选的，所述模型训练单元，用于在得到已训练的变声模型之后，获取所述目标说话人的语音数据；将所述目标说话人的语音数据输入到所述语音识别模型中进行特征提取，提取到所述目标说话人的音频识别特征，以及所述目标说话人的声学特征；利用所述目标说话人的音频识别特征和声学特征对所述已训练的变声模型进行自适应训练，得到自适应变声模型，并将所述自适应变声模型作为所述目标变声模型。
31.可选的，所述语音输出单元，用于将所述目标说话人的声学特征输入到声码器中以所述目标语音进行输出。
32.本发明实施例第三方面提供了一种电子设备，包括有存储器，以及一个或者一个以上的程序，其中一个或者一个以上的程序存储于存储器中，且经配置以由一个或者一个以上的处理器执行所述一个或者一个以上的程序所包含的用于进行如第一方面提供的实时变声方法对应的操作指令。
33.本发明实施例第四方面提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如第一方面提供的实时变声方法对应的步骤。
34.本技术实施例中的上述一个或至少一个技术方案，至少具有如下技术效果：
35.基于上述技术方案，将源说话人的原语音数据输入到语音识别模型中进行特征提取，将提取的原始音频识别特征输入到目标变声模型中，输出所述目标说话人的声学特征，再将所述目标说话人的声学特征以所述目标语音进行输出；此时，由于语音识别模型的参数量小于第一设定参数量，且目标变声模型的参数量小于第二设定参数量，使得语音识别模型和目标变声模型均为小模型，且采用了流式调度特征提取，将语音识别模型提取的特
征输入到目标变声模型中，再将目标变声模型预测出的目标说话人的声学特征输入到声码器中，降低了特征提取的次数；如此，在语音识别模型和目标变声模型均为小模型且特征提取的次数降低的基础上，能够极大的缩减计算量，从而能够实现低响应延迟的实时变声的效果。
附图说明
36.图1为本技术实施例提供的一种实时变声的方法的流程示意图；
37.图2为本技术实施例提供的一种目标变声模型的训练方法的流程示意图；
38.图3为本技术实施例提供的一种目标变声模型自适应的训练方法的流程示意图；
39.图4为本技术实施例提供的一种实时变声的装置的方框图；
40.图5为本技术实施例提供的一种电子设备的结构示意图。
具体实施方式
41.在本技术实施例提供的技术方案中，提供一种实时变声的方法，将源说话人的原语音数据输入到语音识别模型中进行特征提取，将提取的原始音频识别特征输入到目标变声模型中，输出所述目标说话人的声学特征，再将所述目标说话人的声学特征以所述目标语音进行输出；此时，由于语音识别模型的参数量小于第一设定参数量，且目标变声模型的参数量小于第二设定参数量，使得语音识别模型和目标变声模型均为小模型，且采用了流式调度特征提取，将语音识别模型提取的特征输入到目标变声模型中，再将目标变声模型预测出的目标说话人的声学特征输入到声码器中，降低了特征提取的次数；如此，在语音识别模型和目标变声模型均为小模型且特征提取的次数降低的基础上，能够极大的缩减计算量，从而解决现有技术难以做到在内存和计算资源极低的硬件上进行实时变声的问题。
42.下面结合附图对本技术实施例技术方案的主要实现原理、具体实施方式及其对应能够达到的有益效果进行详细的阐述。
43.实施例
44.请参考图1，本技术实施例提供一种实时变声的方法，所述方法包括：
45.s101、获取源说话人的原语音数据；
46.s102、通过语音识别模型提取所述原语音数据的原始音频识别特征，其中，所述语音识别模型的参数量小于第一设定参数量；
47.s103、将所述原始音频识别特征输入到目标变声模型中，输出所述目标说话人的声学特征，其中，所述目标变声模型的参数量小于第二设定参数量；
48.s104、将所述目标说话人的声学特征以所述目标语音进行输出。
49.其中，在步骤s101中，先确定源说话人，在确定源说话人之后，获取源说话人的语音数据作为原语音数据。以及在确定源说话人之前或之后，还可以确定目标说话人。其中，源说话人和目标说话人，均可以由用户自行确定，也可以根据实际情况确定。下面具体以先确定目标说话人，后确定源说话人为例。
50.例如，在接收到用户指定目标说话人为a的确认指令时，确定出目标说话人为a，以及接收用户指定源说话人为b的确认指令之后，确定出源说话人为b，并采集b的语音数据作为原语音数据。
51.本说明书实施例中，源说话人和目标说话人为不同的说话人。
52.在获取到原语音数据之后，执行步骤s102。
53.在步骤s102之前，需要预先训练语音识别模型，进而得到语音识别模型，然后将原语音数据输入到语音识别模型中进行特征提取，提取原始音频识别特征，其中，语音识别模型的参数量小于第一设定参数量。
54.具体来讲，为了使得语音识别模型能够部署到终端中进行实时计算，可以控制语音识别模型的参数量小于第一设定参数量，从而使得语音识别模型为小模型能够部署在在内存和计算资源极低的硬件终端上，第一设定参数量例如可以为1m
‑
8m之间，例如可以为1m，5m和6m等。
55.本说明书实施例中，语音识别模型可以是通用识别模型，例如可以是基于神经网络的时序类分类(connectionist temporal classification，简称ctc)模型、长短时记忆网络(lstm，longshort term memory)、cnn模型和cldnn模型等，本说明书不作具体限制。
56.以及在确定通用识别模型之后，例如确定通用识别为lstm，还需使用至少一个说话人的语音数据进行模型训练，得到语音识别模型，其中，语音识别模型可以是结构为3层带project层的lstm。
57.具体来讲，在训练得到语音识别模型之后，将原语音数据输入到语音识别模型中进行特征提取，将语音识别模型的指定隐含层的特征作为原始音频识别特征，其中，指定隐含层包括语音识别模型的最后一层隐含层。当然，指定隐含层还可以包括最后一层隐含层之前的一层或多层隐含层，指定隐含层例如可以为最后一层隐含层和最后一层隐含层的前一隐含层等。
58.本说明书实施例中，原始音频识别特征通常为fbank特征，例如fbank特征可以为71维或65维；声学特征通常为mel谱特征，例如mel谱特征可以为80维或72维；且原始音频识别特征通常与声学特征具有不同的声音特征。当然，原始音频识别特征也可以与声学特征是相同的声音特征，但声音维度的特征可以不同，例如原始音频识别特征为72维的特征，声学特征为62维的特征。
59.在通过步骤s102获取到原始音频识别特征之后，执行步骤s103。
60.在执行步骤s103之前，还需训练得到目标变声模型，以及在训练得到目标变声模型之后，再将原始音频识别特征输入到目标变声模型中，输出目标说话人的声学特征，其中，目标变声模型的参数量小于第二设定参数量。
61.本说明书实施例中，为了使得目标变声模型能够部署到终端中进行实时计算，可以控制目标变声模型的参数量小于第二设定参数量，从而使得目标变声模型为小模型能够部署在在内存和计算资源极低的硬件终端上，第二设定参数量例如可以为0.5m
‑
4m之间，例如可以为0.8m，1m和1.6m等。
62.具体来讲，参见图2，目标变声模型的训练步骤，包括：
63.s201、获取训练样本集，所述训练样本集包括至少一个说话人的语音数据；
64.s202、针对所述训练样本集中的每个训练样本，将训练样本的语音数据输入到所述语音识别模型中进行特征提取，提取到训练样本的音频识别特征，以及提取训练样本的声学特征；
65.s203、根据每个训练样本的音频识别特征和声学特征进行模型训练，得到所述目
标变声模型。
66.其中，在步骤s201中，在获取训练样本集的过程中，收集至少一个说话人的语音数据，根据收集的至少一个说话人的语音数据，构建语料库；根据构建的语料库，获取训练样本集，其中，训练样本集中包括目标说话人的语音数据。当然，也可以直接根据收集的至少一个说话人的语音数据，获取训练样本集。
67.在获取到训练样本集之后，执行步骤s202。
68.在步骤s202中，首先获取步骤s102中的语音识别模型，在获取语音识别模型之后，针对训练样本集中的每个训练样本，将训练样本的语音数据输入到所述语音识别模型中进行特征提取，提取到训练样本的音频识别特征，以及提取训练样本的声学特征。如此，可以提取到每个训练样本的音频识别特征和声学特征。
69.当然，还可以针对训练样本集中的部分训练样本，执行上述操作，从而可以提取到部分训练样本中的每个训练样本的音频识别特征和声学特征。
70.具体来讲，在提取训练样本的声学特征时，可以通过梅尔倒谱系数(mel
‑
scalefrequency cepstral coefficients，简称mfcc)对训练样本的语音数据进行特征提取，进而提取到训练样本的声学特征。
71.以及，针对每个训练样本，将训练样本的语音数据输入到所述语音识别模型中进行特征提取，提取到训练样本的音频识别特征。其中，提取训练样本的音频识别特征的具体实施方式可以参考步骤s102中提取原始音频识别特征的步骤，为了说明书的简洁，在此就不再赘述了。
72.本说明书实施例中，针对每个训练样本，提取到训练样本的音频识别特征过程中，若训练样本的音频识别特征包括语音识别模型中的最后一层的特征和最后一层前一层的特征，此时，在训练过程中，可以针对每个训练样本，为训练样本的最后一层的特征创建一个具有第一卷积结构的卷积层，为训练样本的最后一层前一层的特征创建另一个具有第二卷积结构的卷积层，然后进行训练，其中，第一卷积结构和第二卷积结构不同。如此，标变声模型训练过程中对语音识别模型输出的不同特征采取不同的卷积结构、使用分频带对抗训练和使用多人数据预训练变声模型再用目标说话人数据进行自适应等方法提高变声音质和相似度，确保了目标变声模型的预测准确度。
73.例如，以某个训练样本为例，将该训练样本输入到语音识别模型中进行特征提取，提取的音频识别特征包括语音识别模型的最后一层过了softmax层后又经过处理得到的asr one
‑
hot特征，和识别模型输出层的前一层得到的asr bottleneck特征；然后将asr one
‑
hot特征输入到第一卷积结构的卷积层中，以及将asr bottleneck特征输入到第二卷积结构的卷积层中进行模型训练。
74.在获取到每个训练样本的音频识别特征和声学特征之后，执行步骤s203。
75.在步骤s203中，针对每个训练样本，将训练样本的音频识别特征作为模型的输入数据，将训练样本的声学特征作为模型的输出数据进行模型训练，得到已训练的变声模型，并将已训练的变声模型作为目标变声模型。
76.具体来讲，可以采用对抗训练的方式训练得到已训练的变声模型，例如将变声模型用g标识，而判别器用d表示，针对每个训练样本，将训练样本的音频识别特征输入到g中，得到输出声学特征；再使用d对输出声学特征和训练样本的声学特征进行区分，在g和d的不
断对抗优化中，最终使得d无法区分出输出声学特征和训练样本的声学特征，或者，使得d针对输出声学特征和训练样本的声学特征的区分率满足约束条件，此时，会使得g的输出声学特征与训练样本的声学特征极其相似，将此时的g作为已训练的变声模型，即为目标变声模型。
77.由于采用对抗训练方式进行模型训练，能够使得通过对抗训练得到的目标变声模型预测出的输出声学特征的精确度更高。
78.如此，在通过步骤s201
‑
s203训练得到目标变声模型之后，由于目标变声模型是采用对抗训练得到的，使得目标变声模型预测出的输出声学特征的精确度更高；如此，在将原始音频识别特征输入到目标变声模型中，输出目标说话人的声学特征。此时，由于目标变声模型预测出的输出声学特征的精确度更高，进而使得在使用目标变声模型预测出的目标说话人的声学特征的准确度也会随之提高。
79.本说明书另一实施例中，在得到已训练的变声模型之后，如图3所示，所述方法还包括：
80.s301、获取目标说话人的语音数据；
81.s302、将目标说话人的语音数据输入到语音识别模型中进行特征提取，提取到目标说话人的音频识别特征，以及目标说话人的声学特征；
82.s303、利用目标说话人的音频识别特征和声学特征对已训练的变声模型进行自适应训练，得到自适应变声模型，并将自适应变声模型作为目标变声模型。
83.其中，在步骤s301中，可以根据步骤s101中指定的目标说话人，获取到目标说话人的语音数据。
84.在获取到目标说话人的语音数据之后，执行步骤s302。
85.在该步骤中，可以将目标说话人的语音数据输入到所述语音识别模型中进行特征提取，提取到目标说话人的音频识别特征，以及提取目标说话人的声学特征。如此，可以提取到目标说话人的音频识别特征和声学特征。
86.具体来讲，在提取目标说话人的声学特征时，可以通过mfcc对目标说话人的语音数据进行特征提取，进而提取到目标说话人的声学特征。
87.以及，将目标说话人的语音数据输入到语音识别模型中进行特征提取，提取到目标说话人的音频识别特征。其中，提取目标说话人的音频识别特征的具体实施方式可以参考步骤s102中提取原始音频识别特征的步骤，为了说明书的简洁，在此就不再赘述了。
88.以及在提取到目标说话人的音频识别特征和声学特征之后，执行步骤s303。
89.在该步骤中，利用目标说话人的音频识别特征和声学特征对已训练的变声模型进行自适应训练，得到自适应变声模型，并将自适应变声模型作为目标变声模型。
90.如此，在通过至少一个说话人的语音数据进行模型训练，得到已训练的变声模型之后，即，对变声模型进行预训练，将得到的已训练的变声模型作为预训练模型；在得到预训练模型之后，再使用目标说话人的语音数据，采用与预训练相同的方法再对预训练模型进行自适应训练，得到自适应变声模型；此时，自适应变声模型与目标说话人的匹配度更高，进而使得在使用自适应变声模型对目标说话人进行预测时其预测的准确度也会更高。
91.如此，在通过步骤s301
‑
s303训练得到目标变声模型之后，将原始音频识别特征输入到目标变声模型中，输出目标说话人的声学特征。此时，由于目标变声模型与目标说话人
的匹配度较高，进而使得在使用自适应变声模型对目标说话人进行预测时其预测的准确度也会更高。
92.在通过目标变声模型预测出目标说话人的声学特征之后，执行步骤s104。
93.在该步骤中，可以将目标说话人的声学特征输入到声码器中以目标语音进行输出，其中，声码器例如可以是melgan声码器等。
94.具体来讲，将目标说话人的声学特征输入到声码器中生成语音信号，语音信号携带有目标语音，并输出语音信号，从而可以将任意源说话人语音转换为目标语音进行输出。
95.例如，在目标变声模型自适应训练阶段，若确定目标说话人为为a，首先获取a的语音数据，首先对a的语音数据行特征提取，提取到71维fbank特征；将71维fbank特征输入到已训练好的语音识别模型中，从语音识别模型的隐层(最后一层的前一层)和最后一层得到相应的特征作为音频识别特征用a1表示；再从a的语音数据中提取目标变声模型输出的80维mel谱特征用a2表示，然后以a1为输入数据，以a2为输出数据对预训练变声模型进行自适应训练，得到自适应变声模型为目标变声模型。
96.以及，在采用目标变声模型进行变声的阶段，输入源说话人b(源说话人可以为任意说话人)的语音数据，首先对b的语音进行特征提取，提取到71维fbank特征；将71维fbank特征输入到语音识别模型中，从语音识别模型的隐层(最后一层的前一层)和最后一层得到相应的特征作为音频识别特征用b1表示；在将b1输入到目标变声模型中，输出80维mel谱特征用b2表示。b2为a说话人的声学特征；再将b2输入到声码器中，还原为对应的声音，即以a的语音输出b的语音数据。
97.在实际应用过程中，由于经常面临目标说话人数据量较小，训练出的目标变声模型不太稳定的情况，因此需要先用至少一个说话人的语音数据通过语音识别模型的音频识别特征为输入数据，以至少一个说话人的语音数据的mel谱为输出数据，先对变声模型做一个预训练，得到预训练变声模型；然后再用目标a的语音数据，按上述方法对变声模型做自适应。
98.本说明书实施例中，由于在训练目标变声模型时，仅需要目标说话人的音频数据，不需要源说话人的平行语料，此时，与现有技术相比，不需要平行语料和特征对齐，数据采集成本较低；且目标变声模型和语音识别模型的参数量均较小，能够内存和计算资源较低的硬件上部署，进而能够在盒子端部署离线实时变声服务，且效果稳定，降低了在线服务容易面临的网络拥塞、服务器资源消耗大等问题；以及采用了流式调度特征提取，将语音识别模型提取的特征输入到目标变声模型中，再将目标变声模型预测出的目标说话人的声学特征输入到声码器中，能够实现低响应延迟的实时变声。
99.基于上述技术方案，在获取到源说话人的原语音数据之后，通过语音识别模型提取所述原语音数据的原始音频识别特征，将提取的原始音频识别特征输入到目标变声模型中，输出所述目标说话人的声学特征，再将所述目标说话人的声学特征以所述目标语音进行输出；此时，由于语音识别模型的参数量小于第一设定参数量，且目标变声模型的参数量小于第二设定参数量，使得语音识别模型和目标变声模型均为小模型，且采用了流式调度特征提取，将语音识别模型提取的特征输入到目标变声模型中，再将目标变声模型预测出的目标说话人的声学特征输入到声码器中，降低了特征提取的次数；如此，在语音识别模型和目标变声模型均为小模型且特征提取的次数降低的基础上，能够极大的缩减计算量，从
而能够实现低响应延迟的实时变声的效果。
100.针对上述实施例提供一种实时变声的方法，本技术实施例还对应提供一种实时变声的装置，请参考图4，该装置包括：
101.语音数据采集单元401，用于获取源说话人的原语音数据；
102.特征提取单元402，用于通过语音识别模型提取所述原语音数据的原始音频识别特征，其中，所述语音识别模型的参数量小于第一设定参数量；
103.模型预测单元403，用于将所述原始音频识别特征输入到目标变声模型中，输出所述目标说话人的声学特征，其中，所述目标变声模型的参数量小于第二设定参数量；
104.语音输出单元404，用于将所述目标说话人的声学特征以所述目标语音进行输出。
105.在一种可选的实施方式中，所述装置还包括：
106.模型训练单元，用于获取训练样本集，所述训练样本集包括至少一个说话人的语音数据；针对所述训练样本集中的每个训练样本，将训练样本的语音数据输入到所述语音识别模型中进行特征提取，提取到训练样本的音频识别特征，以及提取训练样本的声学特征；根据每个训练样本的音频识别特征和声学特征进行模型训练，得到所述目标变声模型。
107.在一种可选的实施方式中，所述模型训练单元，用于针对每个训练样本，将训练样本的音频识别特征作为模型的输入数据，将训练样本的声学特征作为模型的输出数据进行模型训练，得到已训练的变声模型，并将所述已训练的变声模型作为所述目标变声模型。
108.在一种可选的实施方式中，所述模型训练单元，用于在得到已训练的变声模型之后，获取所述目标说话人的语音数据；将所述目标说话人的语音数据输入到所述语音识别模型中进行特征提取，提取到所述目标说话人的音频识别特征，以及所述目标说话人的声学特征；利用所述目标说话人的音频识别特征和声学特征对所述已训练的变声模型进行自适应训练，得到自适应变声模型，并将所述自适应变声模型作为所述目标变声模型。
109.在一种可选的实施方式中，语音输出单元404，用于将所述目标说话人的声学特征输入到声码器中以所述目标语音进行输出。
110.关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。
111.图5是根据一示例性实施例示出的一种用于实时变声的方法的电子设备800的框图。例如，电子设备800可以是移动电话，计算机，数字广播终端，消息收发设备，游戏控制台，平板设备，医疗设备，健身设备，个人数字助理等。
112.参照图5，电子设备800可以包括以下一个或至少一个组件：处理组件802，存储器804，电源组件806，多媒体组件808，音频组件810，输入/展现(i/o)的接口812，传感器组件814，以及通信组件816。
113.处理组件802通常控制电子设备800的整体操作，诸如与显示，电话呼叫，数据通信，相机操作和记录操作相关联的操作。处理元件802可以包括一个或至少一个处理器820来执行指令，以完成上述的方法的全部或部分步骤。此外，处理组件802可以包括一个或至少一个模块，便于处理组件802和其他组件之间的交互。例如，处理部件802可以包括多媒体模块，以方便多媒体组件808和处理组件802之间的交互。
114.存储器804被配置为存储各种类型的数据以支持在设备800的操作。这些数据的示例包括用于在电子设备800上操作的任何应用程序或方法的指令，联系人数据，电话簿数
据，消息，图片，视频等。存储器804可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(sram)，电可擦除可编程只读存储器(eeprom)，可擦除可编程只读存储器(eprom)，可编程只读存储器(prom)，只读存储器(rom)，磁存储器，快闪存储器，磁盘或光盘。
115.电源组件806为电子设备800的各种组件提供电力。电源组件806可以包括电源管理系统，一个或多个电源，及其他与为电子设备800生成、管理和分配电力相关联的组件。
116.多媒体组件808包括在所述电子设备800和用户之间的提供一个展现接口的屏幕。在一些实施例中，屏幕可以包括液晶显示器(lcd)和触摸面板(tp)。如果屏幕包括触摸面板，屏幕可以被实现为触摸屏，以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界，而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中，多媒体组件808包括一个前置摄像头和/或后置摄像头。当设备800处于操作模式，如拍摄模式或视频模式时，前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。
117.音频组件810被配置为展现和/或输入音频信号。例如，音频组件810包括一个麦克风(mic)，当电子设备800处于操作模式，如呼叫模式、记录模式和语音识别模式时，麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器804或经由通信组件816发送。在一些实施例中，音频组件810还包括一个扬声器，用于展现音频信号。
118.i/o接口812为处理组件802和外围接口模块之间提供接口，上述外围接口模块可以是键盘，点击轮，按钮等。这些按钮可包括但不限于：主页按钮、音量按钮、启动按钮和锁定按钮。
119.传感器组件814包括一个或多个传感器，用于为电子设备800提供各个方面的状态评估。例如，传感器组件814可以检测到设备800的打开/关闭状态，组件的相对定位，例如所述组件为电子设备800的显示器和小键盘，传感器组件814还可以检测电子设备800或电子设备800一个组件的位置改变，用户与电子设备800接触的存在或不存在，电子设备800方位或加速/减速和电子设备800的温度变化。传感器组件814可以包括接近传感器，被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件814还可以包括光传感器，如cmos或ccd图像传感器，用于在成像应用中使用。在一些实施例中，该传感器组件814还可以包括加速度传感器，陀螺仪传感器，磁传感器，压力传感器或温度传感器。
120.通信组件816被配置为便于电子设备800和其他设备之间有线或无线方式的通信。电子设备800可以接入基于通信标准的无线网络，如wifi，2g或3g，或它们的组合。在一个示例性实施例中，通信部件816经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中，所述通信部件816还包括近场通信(nfc)模块，以促进短程通信。例如，在nfc模块可基于射频识别(rfid)技术，红外数据协会(irda)技术，超宽带(uwb)技术，蓝牙(bt)技术和其他技术来实现。
121.在示例性实施例中，电子设备800可以被一个或多个应用专用集成电路(asic)、数字信号处理器(dsp)、数字信号处理设备(dspd)、可编程逻辑器件(pld)、现场可编程门阵列(fpga)、控制器、微控制器、微处理器或其他电子元件实现，用于执行上述方法。
122.在示例性实施例中，还提供了一种包括指令的非临时性计算机可读存储介质，例
如包括指令的存储器804，上述指令可由电子设备800的处理器820执行以完成上述方法。例如，所述非临时性计算机可读存储介质可以是rom、随机存取存储器(ram)、cd
‑
rom、磁带、软盘和光数据存储设备等。
123.一种非临时性计算机可读存储介质，当所述存储介质中的指令由移动终端的处理器执行时，使得移动终端能够执行一种实时变声的方法，所述方法包括：
124.获取源说话人的原语音数据；
125.通过语音识别模型提取所述原语音数据的原始音频识别特征，其中，所述语音识别模型的参数量小于第一设定参数量；
126.将所述原始音频识别特征输入到目标变声模型中，输出所述目标说话人的声学特征，其中，所述目标变声模型的参数量小于第二设定参数量；
127.将所述目标说话人的声学特征以所述目标语音进行输出。
128.本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本发明的其它实施方案。本技术旨在涵盖本发明的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本发明的真正范围和精神由下面的权利要求指出。
129.应当理解的是，本发明并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本发明的范围仅由所附的权利要求来限制
130.以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：一种鼠标唤醒方法、装置、电子设备和存储介质与流程

一种实时变声的方法、装置及电子设备与流程

相关文章

最热文献