一种语音转换的方法、装置及电子设备与流程

2021-09-10 22:16:00 来源：中国专利 TAG：语音电子设备装置可读转换

1.本发明涉及语音处理技术领域，具体而言，涉及一种语音转换的方法、装置、电子设备及计算机可读存储介质。

背景技术：

2.变声技术指的是把某人的原始声音转换为其他人的特定声音，其保留原始语音信号的语义内容，但能够改变说话人的声音特性，使某人的声音听起来像另外一个人的声音。变声技术可以是男声、女声之间的转换，不同年龄层次之间的转换等，也可以将说话人a的声音转换为说话人b的声音。
3.传统变声技术需要对平行语料实现对齐，然后再进行音色转换。这种处理方式需要收集内容相同的音频语料，用对齐后的频谱特征训练转换模型；该方式得到的变声效果不佳，且无法满足一些有实时性需求的应用场景。
4.此外，部分方案建立语音识别的隐层特征与语音合成特征之间的变声模型，但该方案中采用的隐层特征中包含源说话人的部分信息，导致转换后的声音仍然保留了源说话人的特性，转换后的声音与目标声音相似度降低。

技术实现要素：

5.为解决现有存在的技术问题，本发明实施例提供一种语音转换的方法、装置、电子设备及计算机可读存储介质。
6.第一方面，本发明实施例提供了一种语音转换的方法，包括：
7.确定语音识别模型，确定目标用户的变声模型，并确定声码器模型；所述语音识别模型是基于文本标注不存在声调标注的音频数据训练得到的，所述变声模型是基于所述语音识别模型所提取出的音频数据的特征向量训练得到的；
8.获取源用户的源音频数据，基于所述语音识别模型提取所述源音频数据的特征向量，所述源音频数据的特征向量不存在声调标注；
9.基于所述变声模型将所述源音频数据的特征向量转换为所述目标用户的声学特征；
10.将所述目标用户的声学特征输入至所述声码器模型，将所述目标用户的声学特征转换为所述目标用户的音频信号。
11.第二方面，本发明实施例还提供了一种语音转换的装置，包括：
12.确定模块，用于确定语音识别模型，确定目标用户的变声模型，并确定声码器模型；所述语音识别模型是基于文本标注不存在声调标注的音频数据训练得到的，所述变声模型是基于所述语音识别模型所提取出的音频数据的特征向量训练得到的；
13.特征提取模块，用于获取源用户的源音频数据，基于所述语音识别模型提取所述源音频数据的特征向量，所述源音频数据的特征向量不存在声调标注；
14.转换模块，用于基于所述变声模型将所述源音频数据的特征向量转换为所述目标
用户的声学特征；
15.声码器模块，用于将所述目标用户的声学特征输入至所述声码器模型，将所述目标用户的声学特征转换为所述目标用户的音频信号。
16.第三方面，本发明实施例提供了一种电子设备，包括总线、收发器、存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述收发器、所述存储器和所述处理器通过所述总线相连，所述计算机程序被所述处理器执行时实现上述任意一项所述的语音转换的方法中的步骤。
17.第四方面，本发明实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述任意一项所述的语音转换的方法中的步骤。
18.本发明实施例提供的语音转换的方法、装置、电子设备及计算机可读存储介质，基于未标注声调的音频数据训练语音识别模型，使得语音识别模型所提取出的源音频数据的特征向量不存在声调信息，从而可以弱化训练阶段与转换阶段之间的声调差异，能够将源音频数据转换为与目标用户更接近的声学特征，从而提高了转换后的音频与所需音频之间的相似度，提高了转换效果。
附图说明
19.为了更清楚地说明本发明实施例或背景技术中的技术方案，下面将对本发明实施例或背景技术中所需要使用的附图进行说明。
20.图1示出了本发明实施例所提供的一种语音转换的方法的流程图；
21.图2示出了本发明实施例所提供的语音转换的方法中，模型处理过程的一种示意图；
22.图3示出了本发明实施例所提供的变声模型的一种结构示意图；
23.图4示出了本发明实施例所提供的使用该语音转换方法的一种详细示意图；
24.图5示出了本发明实施例所提供的一种语音转换的装置的结构示意图；
25.图6示出了本发明实施例所提供的一种用于执行语音转换的方法的电子设备的结构示意图。
具体实施方式
26.下面结合本发明实施例中的附图对本发明实施例进行描述。
27.图1示出了本发明实施例所提供的一种语音转换的方法的流程图。如图1所示，该方法包括：
28.步骤101：确定语音识别模型，确定目标用户的变声模型，并确定声码器模型；该语音识别模型是基于文本标注不存在声调标注的音频数据训练得到的，该变声模型是基于该语音识别模型所提取出的音频数据的特征向量训练得到的。
29.本发明实施例中，预先确定语音识别模型、变声模型和声码器模型。该语音识别模型用于提取出音频数据中的特征向量；变声模型用于将音频数据中的特征向量转换为相应的声学特征，例如梅尔(mel)谱特征等；声码器模型用于将声学特征转换为相应的音频信号。其中，该变声模型为目标用户对应的模型，即变声模型可以将特征向量转换为具有目标
用户特点的声学特征，进而使得声码器模型生成的音频信号具有目标用户的特点，从而可以将其他用户(如源用户)的音频数据转换为具有目标用户特点的音频信号。
30.由于传统语音识别模型所提取出的特征仍然保留了源用户的特性，并且，传统变声模型在训练阶段的输入与转换阶段的输入是不同的，导致变声后的音频与目标音频相似度较低。具体是因为，变声模型在训练阶段的输入是目标用户的音频数据，而在转换阶段时变声模型的输入是源用户的音频数据，不同的输入很难使得变声模型的输出相同。发明人从实验结果中发现，如果源用户刻意模仿目标用户的特色发音，变声后的音频与目标用户具有极高的相似度，明显提升了整体听感效果。但这要求每个使用者(即源用户)都去模仿目标用户的说话方式，会增加使用难度；并且很多时候是转换已经录制好的音频，也不能实现模仿目标用户。此外，通过对比，发明人发现，变声后的音频与所需的目标用户的音频之间的主要差异是声调不同，故本发明实施例通过优化特征向量中的声调信息，以尽量缩小训练阶段和转换阶段之间的差异。
31.具体地，本发明实施例中的语音识别模型是基于文本标注不存在声调标注的音频数据训练得到的，相应地，该变声模型是基于该语音识别模型所提取出的音频数据的特征向量训练得到的。即，在训练语音识别模型时，所用的音频数据的标注文本中不存在声调。例如，在汉语中，传统的音频数据的标注文本一般包含五个声调，即一声、二声、三声、四声、轻声；而在本实施例中，该标注文本中不包含与声调相关的标注。基于该音频数据训练得到的语音识别模型，其输出中也不包含声调信息；即使训练阶段与转换阶段时的输入不同，该语音识别模型也可以输出比较相似甚至一致的特征向量，从而可以弱化训练阶段与转换阶段之间声调信息的不同。并且，变声模型也是采用不含有声调信息的特征向量进行训练的，进而可以将源用户的音频数据转换为具有目标用户特色的声学特征。
32.其中，该语音识别模型可以是asr(automatic speech recognition，自动语音识别)声学模型。特征向量可以是语音识别模型输出的隐层特征，也可以是该语音识别模型最后一层所输出的特征。可选地，可以将语音识别模型最后一层输出的概率分布作为特征向量，该概率分布具体可以为语音后验概率(phonetic posteriorgrams，ppg)向量。
33.步骤102：获取源用户的源音频数据，基于语音识别模型提取源音频数据的特征向量，该源音频数据的特征向量不存在声调标注。
34.步骤103：基于变声模型将源音频数据的特征向量转换为目标用户的声学特征。
35.步骤104：将目标用户的声学特征输入至声码器模型，将目标用户的声学特征转换为目标用户的音频信号。
36.本发明实施例中，源用户为需要转换音频的用户，采集到的由源用户发出的音频数据即为源音频数据；目标用户即为语音转换时的转换目标。例如，若需要将用户a的音频数据a转换为具有用户b特点的音频，则该用户a即为源用户，音频数据a即为源音频数据，用户b为目标用户。在获取到需要转换的源音频数据之后，即可基于预先设置的语音识别模型、变声模型、声码器模型将该源音频数据转换为目标用户的音频信号。
37.如图2所示，在获取到源用户的源音频数据之后，基于该语音识别模型可以提取出源音频数据的特征向量，例如ppg等，如上所述，该特征向量不存在声调信息；之后，再将该特征向量输入到变声模型，从而可以将特征向量转换为相应的声学特征，且如上所述，该声学特征为目标用户的声学特征，即其具有目标用户的特点。再之后，将该声学特征输入到声
码器模型，即可得到具有目标用户特点的音频信号，即目标用户的音频信号，通过播放该音频信号即可使人听到与该目标用户相似的声音。
38.本发明实施例提供的一种语音转换的方法，基于未标注声调的音频数据训练语音识别模型，使得语音识别模型所提取出的源音频数据的特征向量不存在声调信息，从而可以弱化训练阶段与转换阶段之间的声调差异，能够将源音频数据转换为与目标用户更接近的声学特征，从而提高了转换后的音频与所需音频之间的相似度，提高了转换效果。
39.在上述实施例的基础上，上述步骤101“确定语音识别模型”可以包括：
40.步骤a1：获取样本音频数据，并去除样本音频数据的文本标注中的声调标注。
41.步骤a2：以样本音频数据作为输入、以相应的去除声调标注后的文本标注作为输出进行训练，生成语音识别模型。
42.本发明实施例中，基于样本音频数据训练得到语音识别模型。其中，可以将现有用于训练的音频数据作为样本音频数据，只是去除文本标注中的声调标注。之后，以该样本音频数据作为输入、以不含有声调标注的文本标注作为输出，即可对预设的模型进行训练，从而生成能够提取出不含有声调信息的特征向量的语音识别模型。
43.可选地，该语音识别模型具体用于将音频数据的语音特征转换为不含有声调信息的特征向量。具体地，上述步骤a2“以样本音频数据作为输入、以相应的去除声调标注后的文本标注作为输出进行训练”包括：
44.步骤a21：提取样本音频数据的语音特征。
45.步骤a22：以样本音频数据的语音特征作为输入、以相应的去除声调标注后的文本标注作为输出进行训练。
46.本发明实施例中，从样本音频数据中提取出相应的语音特征，基于该语音特征进行训练，可以更准确地提取出音频数据的特征向量。该语音特征可以包括mfcc(mel
‑
scale frequency cepstral coefficients，梅尔频率倒谱系数)、plp(perceptual linear predictive，感知线性预测)参数等；并且，可以采用现有成熟的技术提取语音特征，本实施例对提取语音特征的方式不做限定。
47.可选地，上述步骤101中“确定目标用户的变声模型”的过程具体可以包括：
48.步骤b1：获取样本用户的第一音频数据，并提取第一音频数据的声学特征；获取目标用户的第二音频数据，并提取第二音频数据的声学特征。
49.本发明实施例中，在训练变声模型时，基于两类音频数据，即样本用户的音频数据以及目标用户的音频数据，为方便描述，本实施例将前者称为第一音频数据，将后者称为第二音频数据。并且，可以基于声学特征提取技术来提取出每类音频数据中的声学特征，即第一音频数据的声学特征和第二音频数据的声学特征。其中，样本用户为普通的用户，第一音频数据的数据量可以很多，其可以是上述的样本音频数据；而目标用户为特定的用户，第二音频数据的数据量一般比较小。
50.需要说明的是，本实施例中的“声学特征”与上述的“语音特征”均是可以从音频数据中提取出的特征，且提取方式均为现有的成熟技术。其中，“声学特征”是比“语音特征”更深层次的特征，一般情况下需要在语音特征的基础上提取出声学特征。
51.步骤b2：根据语音识别模型提取第一音频数据的特征向量，根据语音识别模型提取第二音频数据的特征向量，第一音频数据的特征向量和第二音频数据的特征向量均不存
在声调标注。
52.步骤b3：以第一音频数据的特征向量作为输入、第一音频数据的声学特征作为输出进行训练，生成变声基线模型。
53.步骤b4：以第二音频数据的特征向量作为输入、第二音频数据的声学特征作为输出对变声基线模型进行微调，生成目标用户的变声模型。
54.本发明实施例中，需要在训练语音识别模型之后，才可以训练得到变声模型，即先训练语音识别模型，再训练变声模型。具体地，在训练得到语音识别模型之后，先基于该语音识别模型提取第一音频数据的特征向量和第二音频数据的特征向量，基于语音识别模型的特点可知，上述两种特征向量也均不存在声调标注，即不包含声调信息。
55.本发明实施例中，该变声模型用于将特征向量转换为相应的声学特征。在训练变声模型的过程中，首先基于大量的第一音频数据训练得到基线模型，即变声基线模型；之后再基于少量的第二音频数据对该变声基线模型进行微调训练，由于第二音频数据是目标用户的数据，使得微调后得到的变声模型可以用于生成具有目标用户特点的声学特征。在转换源音频数据时，也可以将源音频数据的特征向量转换为特定目标用户的声学特征，实现音频转换。
56.可选地，参见图3所示，该变声模型包括编码器、自注意力层(self
‑
attention)、双层长短期记忆(bilstm)层和解码器，且编码器和解码器均包含多个深度神经网络(dnn)层。其中，编码器用于将音频数据的特征向量编码为第一隐层特征；第一隐层特征依次经过自注意力层、双层长短期记忆层后生成第二隐层特征；解码器用于将第二隐层特征转换为相应的声学特征。
57.下面以一个例子详细解释本发明实施例能够将源音频数据转换为目标用户的声学特征。如图4所示，asr声学模型(即语音识别模型)用于提取出不含有声调的特征向量ppg，例如，“年轻人”对应的特征向量为“nian qing ren”，而不是“nian2 qing1 ren2”。
58.在训练变声模型的过程中，目标用户的第二音频数据为“耗子尾汁”，其声学特征(即mel谱)为“hao4 zi0 wei3 zhi1”；而由于asr声学模型不提取声调信息，故其提取出的特征向量ppg为“hao zi wei zhi”。因此，在训练变声模型时，其输入为“hao zi wei zhi”的特征向量，输出为“hao4 zi0 wei3 zhi1”的声学特征。
59.而训练完毕后，使用该变声模型进行转换时，若源用户输入的源音频数据为正常的“好自为之”，虽然其与目标用户的音频数据“耗子尾汁”不同，但因为特征向量不包含声调信息，故asr声学模型仍然可以提取出相同或相似的特征向量，即“hao zi wei zhi”，此时变声模型可以将输入的“hao zi wei zhi”更好地转换成具有目标用户特点的声学特征“hao4 zi0 wei3 zhi1”。因此，虽然在训练过程和转换过程中的输入不同，一个是“耗子尾汁”，另一个是“好自为之”，但基于本实施例提供的方法，在训练或者转换时可以提取出相同或相似的特征向量“hao zi wei zhi”，使得变声模型可以更好地将该特征向量转换为具有目标用户特点的声学特征“hao4 zi0 wei3 zhi1”，提高了转换效果。
60.在上述实施例的基础上，该声码器模型可以是通用型的声码器，也可以是更适用于目标用户的声码器，本实施例采用更适用于目标用户的声码器，以进一步提高转换效果。本实施例中，上述步骤101“确定声码器模型”具体包括：
61.步骤c1：获取样本用户的第三音频数据，并提取第三音频数据的声学特征和音频
信号；获取目标用户的第四音频数据，并提取第四音频数据的声学特征和音频信号。
62.本发明实施例中，在确定声码器模型时，也需要基于样本用户大量的音频数据(即第三音频数据)以及目标用户少量的音频数据(即第四音频数据)。其中，可以基于现有成熟技术提取出第三音频数据和第四音频数据的声学特征，并且，也可以提取出第三音频数据和第四音频数据的音频信号；本实施例中，音频信号为一种可被播放的数据，上述的“音频数据”与该音频信号并无本质上的区别，即一般情况下可以直接将音频数据作为相应的音频信号。
63.本发明实施例中，训练声码器模型的过程与上述训练语音识别模型和变声模型的过程无关，即可以先训练声码器模型，在训练语音识别模型，本实施例对训练声码器模型的时机不做限定。其中，该第三音频数据与上述的第一音频数据可以相同，也可以不同；第四音频数据与上述的第二音频数据可以相同，也可以不同。
64.步骤c2：以第三音频数据的声学特征作为输入、第三音频数据的音频信号作为输出进行训练，生成声码器基线模型。
65.步骤c3：以第四音频数据的声学特征作为输入、第四音频数据的音频信号作为输出对声码器基线模型进行微调，生成目标用户的声码器模型。
66.本发明实施例中，与上述训练变声模型的过程相似，在训练声码器模型时，也是基于大量的第三音频数据训练得到基线模型，即声码器基线模型，之后再基于少量的第四音频数据进行微调训练，从而生成更加适用于目标用户的声码器模型。之后在对源音频数据进行处理时，该声码器模型也可以更好地将其合成为目标用户的音频信号。
67.本领域技术人员可以理解，在训练变声模型和声码器模型时，可以基于多个样本用户的音频数据，即样本用户的数量可以是多个，但目标用户为特定的用户，其为一个用户。对于不同的目标用户，需要分别为其设置变声模型和声码器模型。
68.上文详细描述了本发明实施例提供的语音转换的方法，该方法也可以通过相应的装置实现，下面详细描述本发明实施例提供的语音转换的装置。
69.图5示出了本发明实施例所提供的一种语音转换的装置的结构示意图。如图5所示，该语音转换的装置包括：
70.确定模块51，用于确定语音识别模型，确定目标用户的变声模型，并确定声码器模型；所述语音识别模型是基于文本标注不存在声调标注的音频数据训练得到的，所述变声模型是基于所述语音识别模型所提取出的音频数据的特征向量训练得到的；
71.特征提取模块52，用于获取源用户的源音频数据，基于所述语音识别模型提取所述源音频数据的特征向量，所述源音频数据的特征向量不存在声调标注；
72.转换模块53，用于基于所述变声模型将所述源音频数据的特征向量转换为所述目标用户的声学特征；
73.声码器模块54，用于将所述目标用户的声学特征输入至所述声码器模型，将所述目标用户的声学特征转换为所述目标用户的音频信号。
74.在上述实施例的基础上，所述确定模块51确定语音识别模型包括：
75.获取样本音频数据，并去除所述样本音频数据的文本标注中的声调标注；
76.以所述样本音频数据作为输入、以相应的去除声调标注后的文本标注作为输出进行训练，生成语音识别模型。
77.在上述实施例的基础上，所述确定模块51以所述样本音频数据作为输入、以相应的去除声调标注后的文本标注作为输出进行训练，包括：
78.提取所述样本音频数据的语音特征；
79.以所述样本音频数据的语音特征作为输入、以相应的去除声调标注后的文本标注作为输出进行训练。
80.在上述实施例的基础上，所述确定模块51确定目标用户的变声模型包括：
81.获取样本用户的第一音频数据，并提取所述第一音频数据的声学特征；获取目标用户的第二音频数据，并提取所述第二音频数据的声学特征；
82.根据所述语音识别模型提取所述第一音频数据的特征向量，根据所述语音识别模型提取所述第二音频数据的特征向量，所述第一音频数据的特征向量和所述第二音频数据的特征向量均不存在声调标注；
83.以所述第一音频数据的特征向量作为输入、所述第一音频数据的声学特征作为输出进行训练，生成变声基线模型；
84.以所述第二音频数据的特征向量作为输入、所述第二音频数据的声学特征作为输出对所述变声基线模型进行微调，生成所述目标用户的变声模型。
85.在上述实施例的基础上，所述变声模型包括编码器、自注意力层、双层长短期记忆层和解码器，所述编码器和所述解码器均包含多个深度神经网络层；
86.所述编码器用于将音频数据的特征向量编码为第一隐层特征；所述第一隐层特征依次经过所述自注意力层、所述双层长短期记忆层后生成第二隐层特征；所述解码器用于将所述第二隐层特征转换为相应的声学特征。
87.在上述实施例的基础上，所述确定模块51确定声码器模型，包括：
88.获取样本用户的第三音频数据，并提取所述第三音频数据的声学特征和音频信号；获取目标用户的第四音频数据，并提取所述第四音频数据的声学特征和音频信号；
89.以所述第三音频数据的声学特征作为输入、所述第三音频数据的音频信号作为输出进行训练，生成声码器基线模型；
90.以所述第四音频数据的声学特征作为输入、所述第四音频数据的音频信号作为输出对所述声码器基线模型进行微调，生成所述目标用户的声码器模型。
91.在上述实施例的基础上，所述特征向量为语音后验概率向量。
92.此外，本发明实施例还提供了一种电子设备，包括总线、收发器、存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，该收发器、该存储器和处理器分别通过总线相连，计算机程序被处理器执行时实现上述语音转换的方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。
93.具体的，参见图6所示，本发明实施例还提供了一种电子设备，该电子设备包括总线1110、处理器1120、收发器1130、总线接口1140、存储器1150和用户接口1160。
94.在本发明实施例中，该电子设备还包括：存储在存储器1150上并可在处理器1120上运行的计算机程序，计算机程序被处理器1120执行时实现上述语音转换的方法实施例的各个过程。
95.收发器1130，用于在处理器1120的控制下接收和发送数据。
96.本发明实施例中，总线架构(用总线1110来代表)，总线1110可以包括任意数量互
联的总线和桥，总线1110将包括由处理器1120代表的一个或多个处理器与存储器1150代表的存储器的各种电路连接在一起。
97.总线1110表示若干类型的总线结构中的任何一种总线结构中的一个或多个，包括存储器总线以及存储器控制器、外围总线、加速图形端口(accelerate graphical port，agp)、处理器或使用各种总线体系结构中的任意总线结构的局域总线。作为示例而非限制，这样的体系结构包括：工业标准体系结构(industry standard architecture，isa)总线、微通道体系结构(micro channel architecture，mca)总线、扩展isa(enhanced isa，eisa)总线、视频电子标准协会(video electronics standards association，vesa)、外围部件互连(peripheral component interconnect，pci)总线。
98.处理器1120可以是一种集成电路芯片，具有信号处理能力。在实现过程中，上述方法实施例的各步骤可以通过处理器中硬件的集成逻辑电路或软件形式的指令完成。上述的处理器包括：通用处理器、中央处理器(central processing unit，cpu)、网络处理器(network processor，np)、数字信号处理器(digital signal processor，dsp)、专用集成电路(application specific integrated circuit，asic)、现场可编程门阵列(field programmable gate array，fpga)、复杂可编程逻辑器件(complex programmable logic device，cpld)、可编程逻辑阵列(programmable logic array，pla)、微控制单元(microcontroller unit，mcu)或其他可编程逻辑器件、分立门、晶体管逻辑器件、分立硬件组件。可以实现或执行本发明实施例中公开的各方法、步骤及逻辑框图。例如，处理器可以是单核处理器或多核处理器，处理器可以集成于单颗芯片或位于多颗不同的芯片。
99.处理器1120可以是微处理器或任何常规的处理器。结合本发明实施例所公开的方法步骤可以直接由硬件译码处理器执行完成，或者由译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存取存储器(random access memory，ram)、闪存(flash memory)、只读存储器(read
‑
only memory，rom)、可编程只读存储器(programmable rom，prom)、可擦除可编程只读存储器(erasable prom，eprom)、寄存器等本领域公知的可读存储介质中。所述可读存储介质位于存储器中，处理器读取存储器中的信息，结合其硬件完成上述方法的步骤。
100.总线1110还可以将，例如外围设备、稳压器或功率管理电路等各种其他电路连接在一起，总线接口1140在总线1110和收发器1130之间提供接口，这些都是本领域所公知的。因此，本发明实施例不再对其进行进一步描述。
101.收发器1130可以是一个元件，也可以是多个元件，例如多个接收器和发送器，提供用于在传输介质上与各种其他装置通信的单元。例如：收发器1130从其他设备接收外部数据，收发器1130用于将处理器1120处理后的数据发送给其他设备。取决于计算机系统的性质，还可以提供用户接口1160，例如：触摸屏、物理键盘、显示器、鼠标、扬声器、麦克风、轨迹球、操纵杆、触控笔。
102.应理解，在本发明实施例中，存储器1150可进一步包括相对于处理器1120远程设置的存储器，这些远程设置的存储器可以通过网络连接至服务器。上述网络的一个或多个部分可以是自组织网络(ad hoc network)、内联网(intranet)、外联网(extranet)、虚拟专用网(vpn)、局域网(lan)、无线局域网(wlan)、广域网(wan)、无线广域网(wwan)、城域网(man)、互联网(internet)、公共交换电话网(pstn)、普通老式电话业务网(pots)、蜂窝电话
网、无线网络、无线保真(wi
‑
fi)网络以及两个或更多个上述网络的组合。例如，蜂窝电话网和无线网络可以是全球移动通信(gsm)系统、码分多址(cdma)系统、全球微波互联接入(wimax)系统、通用分组无线业务(gprs)系统、宽带码分多址(wcdma)系统、长期演进(lte)系统、lte频分双工(fdd)系统、lte时分双工(tdd)系统、先进长期演进(lte
‑
a)系统、通用移动通信(umts)系统、增强移动宽带(enhance mobile broadband，embb)系统、海量机器类通信(massive machine type of communication，mmtc)系统、超可靠低时延通信(ultra reliable low latency communications，urllc)系统等。
103.应理解，本发明实施例中的存储器1150可以是易失性存储器或非易失性存储器，或可包括易失性存储器和非易失性存储器两者。其中，非易失性存储器包括：只读存储器(read
‑
only memory，rom)、可编程只读存储器(programmable rom，prom)、可擦除可编程只读存储器(erasable prom，eprom)、电可擦除可编程只读存储器(electrically eprom，eeprom)或闪存(flash memory)。
104.易失性存储器包括：随机存取存储器(random access memory，ram)，其用作外部高速缓存。通过示例性但不是限制性说明，许多形式的ram可用，例如：静态随机存取存储器(static ram，sram)、动态随机存取存储器(dynamic ram，dram)、同步动态随机存取存储器(synchronous dram，sdram)、双倍数据速率同步动态随机存取存储器(double data rate sdram，ddrsdram)、增强型同步动态随机存取存储器(enhanced sdram，esdram)、同步连接动态随机存取存储器(synchlink dram，sldram)和直接内存总线随机存取存储器(direct rambus ram，drram)。本发明实施例描述的电子设备的存储器1150包括但不限于上述和任意其他适合类型的存储器。
105.在本发明实施例中，存储器1150存储了操作系统1151和应用程序1152的如下元素：可执行模块、数据结构，或者其子集，或者其扩展集。
106.具体而言，操作系统1151包含各种系统程序，例如：框架层、核心库层、驱动层等，用于实现各种基础业务以及处理基于硬件的任务。应用程序1152包含各种应用程序，例如：媒体播放器(media player)、浏览器(browser)，用于实现各种应用业务。实现本发明实施例方法的程序可以包含在应用程序1152中。应用程序1152包括：小程序、对象、组件、逻辑、数据结构以及其他执行特定任务或实现特定抽象数据类型的计算机系统可执行指令。
107.此外，本发明实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述语音转换的方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。
108.计算机可读存储介质包括：永久性和非永久性、可移动和非可移动媒体，是可以保留和存储供指令执行设备所使用指令的有形设备。计算机可读存储介质包括：电子存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备以及上述任意合适的组合。计算机可读存储介质包括：相变内存(pram)、静态随机存取存储器(sram)、动态随机存取存储器(dram)、其他类型的随机存取存储器(ram)、只读存储器(rom)、非易失性随机存取存储器(nvram)、电可擦除可编程只读存储器(eeprom)、快闪记忆体或其他内存技术、光盘只读存储器(cd
‑
rom)、数字多功能光盘(dvd)或其他光学存储、磁盒式磁带存储、磁带磁盘存储或其他磁性存储设备、记忆棒、机械编码装置(例如在其上记录有指令的凹槽中的穿孔卡或凸起结构)或任何其他非传输介质、可用于存储可以被计算设备访问的信息。按照本发明实施
例中的界定，计算机可读存储介质不包括暂时信号本身，例如无线电波或其他自由传播的电磁波、通过波导或其他传输介质传播的电磁波(例如穿过光纤电缆的光脉冲)或通过导线传输的电信号。
109.在本技术所提供的几个实施例中，应该理解到，所披露的装置、电子设备和方法，可以通过其他的方式实现。例如，以上描述的装置实施例仅仅是示意性的，例如，所述模块或单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或可以集成到另一个系统，或一些特征可以忽略，或不执行。另外，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口、装置或单元的间接耦合或通信连接，也可以是电的、机械的或其他的形式连接。
110.所述作为分离部件说明的单元可以是或也可以不是物理上分开的，作为单元显示的部件可以是或也可以不是物理单元，既可以位于一个位置，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或全部单元来解决本发明实施例方案要解决的问题。
111.另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以是两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。
112.所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读存储介质中。基于这样的理解，本发明实施例的技术方案本质上或者说对现有技术作出贡献的部分，或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(包括：个人计算机、服务器、数据中心或其他网络设备)执行本发明各个实施例所述方法的全部或部分步骤。而上述存储介质包括如前述所列举的各种可以存储程序代码的介质。
113.在本发明实施例的描述中，所属技术领域的技术人员应当知道，本发明实施例可以实现为方法、装置、电子设备及计算机可读存储介质。因此，本发明实施例可以具体实现为以下形式：完全的硬件、完全的软件(包括固件、驻留软件、微代码等)、硬件和软件结合的形式。此外，在一些实施例中，本发明实施例还可以实现为在一个或多个计算机可读存储介质中的计算机程序产品的形式，该计算机可读存储介质中包含计算机程序代码。
114.上述计算机可读存储介质可以采用一个或多个计算机可读存储介质的任意组合。计算机可读存储介质包括：电、磁、光、电磁、红外或半导体的系统、装置或器件，或者以上任意的组合。计算机可读存储介质更具体的例子包括：便携式计算机磁盘、硬盘、随机存取存储器(ram)、只读存储器(rom)、可擦除可编程只读存储器(eprom)、闪存(flash memory)、光纤、光盘只读存储器(cd
‑
rom)、光存储器件、磁存储器件或以上任意组合。在本发明实施例中，计算机可读存储介质可以是任意包含或存储程序的有形介质，该程序可以被指令执行系统、装置、器件使用或与其结合使用。
115.上述计算机可读存储介质包含的计算机程序代码可以用任意适当的介质传输，包括：无线、电线、光缆、射频(radio frequency，rf)或者以上任意合适的组合。
116.可以以汇编指令、指令集架构(isa)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、集成电路配置数据或以一种或多种程序设计语言或其组合来编写用
于执行本发明实施例操作的计算机程序代码，所述程序设计语言包括面向对象的程序设计语言，例如：java、smalltalk、c ，还包括常规的过程式程序设计语言，例如：c语言或类似的程序设计语言。计算机程序代码可以完全的在用户计算机上执行、部分的在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行以及完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络，包括：局域网(lan)或广域网(wan)，可以连接到用户计算机，也可以连接到外部计算机。
117.本发明实施例通过流程图和/或方框图描述所提供的方法、装置、电子设备。
118.应当理解，流程图和/或方框图的每个方框以及流程图和/或方框图中各方框的组合，都可以由计算机可读程序指令实现。这些计算机可读程序指令可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器，从而生产出一种机器，这些计算机可读程序指令通过计算机或其他可编程数据处理装置执行，产生了实现流程图和/或方框图中的方框规定的功能/操作的装置。
119.也可以将这些计算机可读程序指令存储在能使得计算机或其他可编程数据处理装置以特定方式工作的计算机可读存储介质中。这样，存储在计算机可读存储介质中的指令就产生出一个包括实现流程图和/或方框图中的方框规定的功能/操作的指令装置产品。
120.也可以将计算机可读程序指令加载到计算机、其他可编程数据处理装置或其他设备上，使得在计算机、其他可编程数据处理装置或其他设备上执行一系列操作步骤，以产生计算机实现的过程，从而使得在计算机或其他可编程数据处理装置上执行的指令能够提供实现流程图和/或方框图中的方框规定的功能/操作的过程。
121.以上所述，仅为本发明实施例的具体实施方式，但本发明实施例的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明实施例披露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明实施例的保护范围之内。因此，本发明实施例的保护范围应以权利要求的保护范围为准。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：一种用于非对称语料的语音转换方法与流程

一种语音转换的方法、装置及电子设备与流程

相关文章

最热文献