声码器的降噪方法及其声码器、电子设备和存储介质与流程

2022-04-09 10:16:04 来源：中国专利 TAG：

1.本技术涉及语音技术领域，特别是涉及一种声码器的降噪方法及其声码器、电子设备和存储介质。

背景技术：

2.一般的声码器通常属于非通用声码器，即使用单音库训练，只能用于合成该音库发言人的声音，且只能合成训练音库的语种，对于未见的发言人或者未见的语种，合成效果就会明显下降。为了提高声码器的泛用性，通用声码器的需求应运而生。理论上，通用声码器对于任意语种、任意发言人、任意录音环境的声学特征，都能合成出具备理想效果的音频。
3.由于通用声码器具备较强的泛用性，所以在一些场景下用于合成音频的声学特征中通常带有噪声、混响或者背景音等非人声，而非人声的存在会极大地降低合成音频的品质。经过本技术发明人的长期研究发现，目前大部分通用声码器都没有降噪功能，而少数带有降噪功能的通用声码器，需要根据降噪需求对声码器结构进行重新设计，从而导致其方案没有泛用性，且无法控制降噪幅度。

技术实现要素：

4.本技术第一方面提供了一种声码器的降噪方法，该方法包括：声码器获取待合成声学特征和噪声标签，其中，噪声标签与待合成声学特征的降噪程度相关；声码器基于待合成声学特征和噪声标签进行音频合成，得到干净的合成音频数据；声码器以加噪训练音频的声学特征和噪声训练标签作为输入，干净训练音频作为输出，训练得到；其中，加噪训练音频由干净训练音频和噪声训练音频合成得到，噪声训练标签对应噪声训练音频的噪声程度。
5.本技术第二方面提供了一种声码器，该声码器包括：获取模块，用于获取待合成声学特征和噪声标签，其中，噪声标签与待合成声学特征的降噪程度相关；降噪合成模块，用于基于待合成声学特征和噪声标签进行音频合成，得到干净的合成音频数据；声码器以加噪训练音频和噪声训练标签作为输入，干净训练音频作为输出，训练得到；其中，加噪训练音频由干净训练音频和噪声训练音频合成得到，噪声训练标签对应噪声训练音频的噪声程度。
6.本技术第三方面提供了一种电子设备，该电子设备包括相互耦接的存储器和处理器，存储器用于存储程序数据，处理器用于执行程序数据以实现前述的方法。
7.本技术第四方面提供了一种计算机可读存储介质，该计算机可读存储介质中存储有程序数据，程序数据在被处理器执行时，用以实现前述的方法。
8.本技术的有益效果是：区别于现有技术的情况，本技术声码器获取待合成声学特征和噪声标签，其中，噪声标签与待合成声学特征的降噪程度相关，然后声码器基于待合成声学特征和噪声标签进行音频合成，得到干净的合成音频数据；其中，声码器以加噪训练音
频的声学特征和噪声训练标签作为输入，干净训练音频作为输出，训练得到；其中，加噪训练音频由干净训练音频和噪声训练音频合成得到，噪声训练标签对应噪声训练音频的噪声程度。由此，通过噪声训练音频的噪声程度添加对应的噪声训练标签进行训练，可以得到一个可以控制降噪程度的声码器，在应用阶段可通过修改噪声标签来控制待合成声学特征的降噪程度，从而控制合成音频的底噪强度，以适用不同的场景。此外，无需根据降噪需求对声码器结构进行重新设计，具有更广的泛用性。
附图说明
9.为了更清楚地说明本技术中的技术方案，下面将对实施例描述中所需要的附图作简单的介绍，显而易见地，下面描述的附图仅仅是本技术的一些实施例，对于本领域普通技术人员来说，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。其中：
10.图1是本技术声码器的降噪方法一实施例的流程示意图；
11.图2是相关技术中通用声码器合成音频的流程示意图；
12.图3是本技术提供的具有降噪功能的声码器合成音频的流程示意图；
13.图4是图1中步骤s12的一实施方式的流程示意图；
14.图5是图1中步骤s12的另一实施方式的流程示意图；
15.图6是声码器的训练方法的一实施例的流程示意图；
16.图7是声码器的训练方法的另一实施例的流程示意图；
17.图8是本技术声码器的训练方法的另一实施例的另一流程示意图
18.图9是声码器的训练方法的又一实施例的流程示意图；
19.图10是本技术声码器一实施例的结构示意框图；
20.图11是本技术电子设备一实施例的结构示意框图；
21.图12是本技术计算机可读存储介质一实施例的结构示意框图。
具体实施方式
22.在本技术中提及“实施例”意味着，结合实施例描述的特定特征、结构或特性可以包含在本技术的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是，本文所描述的实施例可以与其它实施例相结合。
23.本技术中的术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。本技术的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。此外，术语“包括”和“具有”以及它们任何变形，意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元，而是可选地还包括没有列出的步骤或单元，或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。
24.下面将结合本技术实施例中的附图，对本技术实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本技术的一部分实施例，而不是全部的实施例。基于本技术中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他
实施例，都属于本技术保护的范围。
25.针对通用声码器任务，早期通常使用基于信号处理的方案。此类声码器不依赖训练数据，天然具备通用合成能力，但整体效果一般，自然度和音质都比较差。目前主流的技术方案则是基于神经网络的声码器，这类声码器相比于前者，自然度和音质都有显著提升。神经网络通用声码器通常会使用大量的多人多语种的音库数据，部分方案还会结合说话人相关的编码器，训练后的声码器即可具备通用合成能力。
26.针对通用声码器的降噪任务，目前已有的方案类型较少。现有的一个方案是基于一个特定的神经网络声码器结构hinet，对其预测对数幅度谱部分的结构进行了改造，使其具备了去噪、去混响的能力。hinet声码器以声学特征作为输入，通过两个独立的网络分别预测对数幅度谱和相位，然后通过短时傅里叶合成还原音频。该方案对hinet声码器预测对数幅度谱的网络进行了重新设计，例如利用带噪声学特征分别预测混响波和噪声对数幅度谱，然后利用上述两者对带噪对数幅度谱进行去噪和去混响，之后增加了一个后滤波网络，进一步提升音质。
27.目前，大部分主流通用声码器方案都直接使用了音库级别的数据进行简单直接的训练。如果输入的声学特征比较复杂，如夹带环境音、底噪、混响、呼吸声等非人声，合成的音频效果就会显著下降，因此对训练数据要求极高。而现有带降噪的通用声码器存在以下问题：第一，通常局限于特定的网络结构，对其他声码器结构不具备适用性，因此应用范围较窄；第二，其在训练时，除了需要一般的目标音频以外，还需要提供混响波和噪声对数幅度谱作为训练目标，数据类型复杂，训练难度大；第三，该方案只能去除背景噪声和混响，对于其他非人声，如呼吸声等，无法去除干净；第四，该方案无法调节降噪幅度，不具备对降噪的控制能力。
28.由此，本技术提出了一种声码器的降噪方法，能够在声码器基于带噪声学特征合成音频时，对带噪声学特征进行降噪，以提升合成音频数据的音质，并且还能够以任何一个现有的主流声码器结构作为基础，应用范围广泛，部署成本低，同时，该系统训练过程清晰简单，稳定性高；另外，具备了对于降噪幅度的控制能力。
29.请参阅图1，图1是本技术声码器的降噪方法一实施例的流程示意图。其中，本技术的执行主体为声码器。
30.如图1所示，该方法可以包括以下步骤：
31.步骤s11：声码器获取待合成声学特征和噪声标签，其中，噪声标签与待合成声学特征的降噪程度相关。
32.其中，待合成声学特征可以是将带合成文本输入声学模型得到的。待合成文本例如是“今天的天气真好”，将其输入声学模型可以转换成对应的待合成声学特征，然后声码器可以基于待合成声学特征进行音频合成，得到干净的合成音频数据。由于声学模型输出的声学特征通常带噪，若采用带噪的声学特征进行音频合成，则会影响合成音频数据的音质。可选地，声学模型的类型可以根据实际需要进行选取。
33.其中，声学特征可以包括但不限于：频谱、倒谱等谱参数中的至少一种。此外，还可以包括基频、清音和浊音中的一种或多种。在本实施例中，待合成声学特征以频谱为例进行说明，具体可以是梅尔频谱(mel spectrogram)。在其他实施例中，待合成声学特征可以是倒谱基频，还可以结合清音和浊音。可以理解的，在应用时，需要根据训练声码器时使用的
声学特征，准备相同类别的声学特征作为输入。例如，训练时使用的声学特征为80维梅尔频谱，则在应用时也采用80维梅尔频谱作为输入。
34.噪声标签对应待合成声学特征的降噪程度。噪声标签的形式可以是数值的形式，例如0、1、2、3，其中，0表示完全不降噪，数值越大，则对应的降噪程度越大。当然，噪声标签还可以是其他具有一定顺序数据，例如字母等，在实际应用中可以根据需要进行选取，此处不做限定。
35.噪声标签的获取方式不限于以下两种：一种是根据待合成声学特征中的噪声强度确定噪声标签，例如噪声强度越大，噪声标签越大，对应的待合成声学特征的降噪程度越大；另一种是手动添加，即用户可以根据需要为待合成声学特征选取噪声标签，例如用户想要加大降噪程度，则可以选取较大的噪声标签，想要减小降噪程度，则可以选取较小的噪声标签。
36.在一些实施方式中，噪声标签的获取方式可以是上述两种方式结合，例如可以先根据待合成声学特征中的噪声程度确定噪声标签，然后用户可以根据该噪声标签了解待合成声学特征中的噪声强度，然后在该噪声标签的基础上进行修改。若未指定噪声标签，则将默认进行完全不降噪处理，从而设置对应的噪声标签，例如0。
37.步骤s12：声码器基于待合成声学特征和噪声标签进行音频合成，得到干净的合成音频数据；声码器以加噪训练音频的声学特征和噪声训练标签作为输入，干净训练音频作为输出，训练得到；其中，加噪训练音频由干净训练音频和噪声训练音频合成得到，噪声训练标签对应噪声训练音频的噪声程度。
38.在本实施例中，声码器获取待合成声学特征和噪声标签，其中，噪声标签与待合成声学特征的降噪程度相关，然后声码器基于待合成声学特征和噪声标签进行音频合成，得到干净的合成音频数据；其中，声码器以加噪训练音频的声学特征和噪声训练标签作为输入，干净训练音频作为输出，训练得到；其中，加噪训练音频由干净训练音频和噪声训练音频合成得到，噪声训练标签对应噪声训练音频的噪声程度。由此，通过噪声训练音频的噪声程度添加对应的噪声训练标签进行训练，可以得到一个可以控制降噪程度的声码器，在应用阶段可通过修改噪声标签来控制待合成声学特征的降噪程度，从而控制合成音频的底噪强度，以适用不同的场景。此外，无需根据降噪需求对声码器结构进行重新设计，具有更广的泛用性。
39.请参阅图2至图4，图2是相关技术中通用声码器合成音频的流程示意图，图3是本技术提供的具有降噪功能的声码器合成音频的流程示意图，图4是图1中步骤s12的一实施方式的流程示意图。
40.如图2所示，相关技术中，通用声码器基待合成声学特征进行音频合成，其中还可以结合说话人编码器对参考音频数据的处理得到的目标特征，进行辅助合成，得到干净的合成音频数据。关于说话人编码器的说明可以参见后面的实施例。
41.如图3和图4所示，在一些实施方式中，步骤s12可以包括子步骤s121至s123：
42.步骤s121：声码器将噪声标签转换成噪声特征。
43.其中，可以将噪声标签输入嵌入层(embeddings)，然后得到噪声特征(noise embedding)。
44.步骤s122：将噪声特征与待合成声学特征进行融合处理。
45.其中，可以通过concat将噪声特征和声学特征融合，即图3中的c。
46.步骤s123：基于融合后的特征进行音频合成，得到干净的合成音频数据。
47.例如，声码器包括降噪通用声码器，可以将融合后的特征输入降噪通用声码器，以使得降噪通用声码器基于融合后的特征进行音频合成，得到干净的合成音频数据。通用声码器在个性化合成(声音克隆)、跨语种合成(如翻译机等设备)、多风格合成等多种场景下均能发挥重要作用。其中，降噪通用声码器可以是任一通用声码器经过本技术提供的训练方法训练得到，可以实现在任何一个现有的主流声码器结构的基础上进行搭建泛用性强，部署成本低。
48.在一些实施方式，声码器包括自降噪编解码器，自降噪编码器用于在将噪声特征与待合成声学特征进行融合处理之前，将待合成声学特征进行编码处理，得到中间声学特征，然后将噪声特征与中间声学特征进行融合处理。由此，通过将待合成声学特征转化为中间声学特征，然后利用中间声学特征与噪声特征进行融合，中间声学特征能够将过滤噪声、混响等非人声，只保留干净的声学特征对应的信息，相当于降噪通用声码器借用了自降噪编码器的编码器部分(encoder)，对输入的待合成声学特征提前进行了一轮降噪。由此，可以进一步提升声码器的降噪能力。
49.请参阅图5并继续参阅图3，图5是图1中步骤s12的另一实施方式的流程示意图。
50.在另一些实施方式中，声码器还包括说话人编码器。如图5所示，步骤s12可以包括子步骤s124至s127，其中步骤s124至s127与步骤s121至s123之间并无固定的先后关系。
51.步骤s124：声码器将噪声标签转换成噪声特征。
52.关于本步骤可参见步骤s121，此处不作赘述。
53.步骤s125：将噪声特征与待合成声学特征进行融合处理。
54.其中，可以通过concat将噪声特征和声学特征进行融合。
55.步骤s126：说话人编码器用于对参考音频数据进行处理，得到目标特征，参考音频数据为对目标采集得到。
56.参考音频数据可以是任一内容，长度适中，用以提取目标的音色等特征信息。
57.目标特征可以反映不同目标的声音特点。例如，目标特征可以为音色特征，用于反映目标的音色。
58.步骤s127：基于融合后的特征和目标特征进行音频合成，得到干净的合成音频数据。
59.具体地，可以将融合后的特征和目标特征输入降噪通用声码器，以使得降噪通用声码器基于融合后的特征和目标特征进行音频合成，得到干净的合成音频数据。其中，说话人编码器可以使不同说话目标的音色等特点得到特有编码，即输出目标特征，从而利用目标特征辅助进行音频合成，能够在音频中很好的还原目标的音色等特点。
60.下面对声码器的训练方法进行介绍。声码器以加噪训练音频的声学特征和噪声训练标签作为输入，干净训练音频作为输出，训练得到；其中，加噪训练音频由干净训练音频和噪声训练音频合成得到，噪声训练标签对应噪声训练音频的噪声程度。
61.请参阅图6，图6是声码器的训练方法的一实施例的流程示意图。
62.首先，对加噪训练音频和噪声训练标签的获取方法进行介绍。
63.步骤s21：获取干净训练音频和噪声训练音频。
64.(1)获取干净训练音频
65.其中，可以从内部数据，开源数据等途径获取干净的音库数据，作为干净训练音频。干净训练音频可以是涉及多人、多语言，多场景，多年龄段，多风格，以保证数据分布的多样性，从而使得以此数据训练得到的声码器具有较好的通用性。
66.在一些实施方式中，可以进一步对干净训练音频进行能量规整，同时提取干净训练音频的声学特征。在一些场景下，因为不同人的音量有高有低，会增加模型训练负担，从而会把音频的音量规整到最大音量的一预设比例(例如75％)，便于模型训练。此外，还可以对提取的声学特征也进行统一的规范化，例如对所有声学特征求均值和方差，训练时减去均值和方差作为输入，以减少模型的计算量。之后，干净训练音频及其声学特征共同构成训练数据集中的未加噪部分。
67.(2)获取噪声训练音频
68.其中，考虑到实际的带噪音频数据中通常包含的是真实环境噪声而非白噪声，因此，在模型训练时使用的噪声数据也应以真实噪声为主。例如，可从专业的噪声网站、噪声数据集以及人工户外采集等方式，收集尽可能多的噪声数据，确保覆盖多种场景和多种噪声程度。
69.在一些实施方式中，可以进一步对噪声数据进行预设处理，以确保后续噪声标签的有效性。例如，每个噪声文件只截取其中噪声强度比较稳定的一段，作为噪声训练音频，通常为时长数秒的音频。其中，被截音频中不能包含人声，以防止与干净训练音频中的人声混杂，影响声码器的效果。
70.下面是对干净训练音频进行加噪处理，其中示例性两种加噪方法，分别为步骤s22和步骤s23：
71.步骤s22：按照随机选取的方式，将噪声训练音频对干净训练音频进行加噪，得到加噪训练音频。
72.具体地，每一个干净训练音频随机选取一个噪声训练音频进行加噪。
73.步骤s23：按照预设加噪强度，将噪声训练音频对干净训练音频进行加噪，得到加噪训练音频。
74.其中，加噪强度可以通过干净训练音频和噪声训练音频的信噪比进行调节。
75.具体地，可以按比例增加不同强度的噪声。例如可以将预设数量个干净训练音频划分为一组，然后为预设数量个干净训练音频按比例增加不同强度的噪声。
76.例如，可以将4份干净训练音频划分为一组，第一份不加噪，后三份加噪的信噪比分别为20,10,5。这种方式可以得到噪声强度各异的训练音频数据，增强模型的鲁棒性。之后，可以提取出加噪训练音频的声学特征，其作为训练数据集中的加噪部分。其中，加噪训练音频的加噪强度间接反映了对应的声学特征中的噪声程度。
77.本技术提及的降噪是指去除声学特征中的均泛指去除噪声，混响，呼吸声等非人声部分，而不是狭义的去除背景噪声。在训练时，加噪训练音频中对应泛指混杂各种非人声部分。
78.步骤s24：按照加噪训练音频的加噪强度，生成对应的噪声训练标签。
79.其中，可以根据加噪训练音频中干净训练音频和噪声训练音频的信噪比，生成对应的噪声训练标签。其中，若按照信噪比由弱到强，依次生成对应的噪声标签，此时，信噪比
越强，故对应的噪声训练标签越小。例如，上述4份加噪训练音频的噪声训练标签依次为0、1、2、3。其中，0表示没有加噪，3加噪最强。噪声训练标签同样作为训练数据集的一部分输入内容。当然，在其他实施方式中，也可以按照信噪比由强到弱，依次生成对应的噪声标签，此时，信噪比越强，故对应的噪声训练标签越大。
80.下面基于训练数据集进行加噪训练，具体可以包括步骤s25和步骤s26：
81.步骤s25：声码器以干净训练音频的声学特征作为输入，干净训练音频作为输出，训练得到预训练模型。
82.其中，通过对声码器进行预训练，得到预训练模型，以确保声码器具备基本的合成能力，防止噪声过早参与训练导致模型收敛失败。
83.在一些实施方式中，当声码器包括说话人编码器和降噪通用声码器时，这里说话人编码器已经训练完成，从而在对降噪通用声码器进行加噪训练中可以加入说话人编码器输出的目标特征，用于辅助声学特征合成具有说话人特征的音频数据。
84.具体地，说话人编码器对参考训练音频进行处理，得到对应目标的目标特征，从而降噪通用声码器可以以干净训练音频的声学特征和目标特征作为输入，干净训练音频作为输出，训练得到预训练模型。其中，参考训练音频与干净训练音频为对同一目标进行采集得到。参考训练音频可以是干净训练音频或干净训练音频的一部分，或也可以是与干净训练音频不同的音频。在本实施例中，为便于训练，可以直接选取干净训练音频作为参考训练音频。
85.步骤s26：声码器加载预训练模型，并以加噪训练音频的声学特征和噪声训练标签作为输入，干净训练音频作为输出，进行训练得到。
86.具体地，可以将声码器可以将噪声训练标签转换成噪声训练特征，然后将噪声训练特征与加噪训练音频的声学特征进行融合处理，然后将融合后的特征作为声码器的输入。这里可以参见上述应用实施例中的步骤s121至s123，此处不做赘述。
87.在一些实施方式中，当声码器包括说话人编码器和降噪通用声码器时，说话人编码器输出目标特征，降噪通用声码器可以以加噪训练音频的声学特征、噪声训练标签和目标特征作为输入，干净训练音频作为输出，进行训练得到。
88.这种训练方式下，模型将具备分辨声学特征中噪声部分的能力，并将噪声强度与噪声训练标签耦合。
89.进一步，在上述介绍的加噪训练方法的基础上，本技术还提出了两种额外的训练方法。一种是，当降噪通用声码器为自回归降噪通用声码器时，进行蒸馏训练，以解决因为自回归降噪通用声码器自身的特点，导致的漏音问题；另一种是，可以结合自降噪编解码器进行多任务训练，进一步过滤声学特征中的非人声部分，提高最终合成音频数据的音质。其中，上述两种方式还可以进行结合。
90.请参阅图7至图8，图7是本技术声码器的训练方法的另一实施例的流程示意图，图8是本技术声码器的训练方法的另一实施例的另一流程示意图。
91.本技术中，声码器可以包括任何主流神经网络声码器，包括非自回归声码器，例如hifigan，mel-gan等；也包括自回归声码器，例如wavenet，wavernn，lpcnet等。当声码器包括自回归降噪通用声码器时，如果在训练完毕进行音频合成时，声码器将合成的音频某一帧由正常发音误识别为噪声而对其进行降噪，误识别的错误将由于自回归的特性在后续放
大，导致漏音情况出现。例如部分清音、擦音，在声学表现上与环境噪音具备相似之处，就有可能被误判为噪音。这种误判被自回归特性放大后就可能导致整个音素被错误降噪，表现出漏音的情况。因此，本技术专为以自回归降噪通用声码器模型作为骨干的通用降噪声码器系统设计了一套蒸馏方法，以期解决漏音问题。
92.如图7所示，在上述实施例的步骤s24，即得到训练数据集之后，还可以包括步骤s35至s37。其中，当声码器包括自回归降噪通用声码器时，即降噪通用声码器为自回归降噪通用声码器(例如wavenet，wavernn，lpcnet等)时，可以采用本实施例提供的加噪训练方法进行训练，以解决自回归降噪通用声码器的漏音问题。
93.步骤s35：基线声码器以干净训练音频的声学特征作为输入和干净训练音频作为输出，训练得到。
94.首先，可以利用干净训练音频的声学特征作为输入和干净训练音频作为输出训练一个不带降噪能力的基线通用声码器，作为教师模型(teacher model)。其中，训练好的教师模型在后续的训练过程其参数将不再更新。
95.在一些实施方式中，基线声码器还可以结合说话人编码器输出的目标特征，将干净训练音频的声学特征和目标特征作为输入进行训练。
96.步骤s36：基线声码器基于干净训练音频的声学特征进行音频合成，得到干净合成音频。
97.利用训练好的基线声码器对干净训练音频进行处理，得到干净合成音频，以用于后续作为自回归降噪通用声码器的输出。
98.步骤s37：自回归降噪通用声码器以加噪训练音频的声学特征和噪声训练标签作为输入，干净合成音频作为输出，训练得到。
99.具体地，自回归降噪通用声码器可以采用步骤s25和s26的方式进行训练，不同的是，训练时，自回归降噪通用声码器的输出不再以干净训练音频作为输出，计算损失，而是以基线声码器输出的干净合成音频作为输出，计算损失，记为第三损失函数(loss3)。
100.在一些实施方式中，自回归降噪通用声码器与基线声码器在声码器内部进行至少一次损失计算。具体地，自回归降噪通用声码器可以包括编码器和解码器，在一个示例中，可以在声码器内部增加两个隐层损函数，其中一个隐层损失函数用于基线声码器和自回归降噪通用声码器在编码器输出时计算损失，记为第一损失函数(loss1)，另一个隐层损失函数用于基线声码器和自回归降噪通用声码器在解码器输出之前计算损失，记为第二损失函数(loss2)。如此，可以使得学生模型(自回归降噪通用声码器)的分布进一步向教师模型(基线声码器)靠拢。
101.可以理解的，对于不同声码器，隐层损失函数可能不同，故隐层损失函数的具体内容，以及计算损失函数的位置可以根据实际情况进行选择，这里并不构成对本技术方案的限定。
102.在一些实施方式中，基线声码器和自回归降噪通用声码器的模型结构相同，这样一方面降低了学生模型学习教师模型分布的难度，另一方面便于增加隐层损失函数。
103.在一些实施方式中，自回归降噪通用声码器还可以结合说话人编码器输出的目标特征，将加噪训练音频的声学特征和目标特征作为输入进行训练。
104.以上，采用这种蒸馏训练的方式有两方面的优势：
105.一方面，教师模型的输出的干净合成音频是由干净训练音频得到的，因此仍然能够保持学生模型的降噪能力。
106.另一方面，自回归降噪通用声码器学习的是由教师模型生成的干净合成音频，其分布相较于真实音频(即干净训练音频)来说简单许多。换言之，自回归降噪通用声码器的建模任务从复杂的带噪声学特征-》复杂的干净训练音频变成了复杂的带噪声学特征-》简单的干净合成音频，映射关系简单了许多。在对这种相对简单的映射关系的学习过程中，模型的映射能力得到强化。同时由于干净合成音频中只有目标声音(如人声)部分，这意味着模型能更好地学到目标声音部分的声学特征和音频的对应关系，从而隐性提升了模型对目标声音和噪声的分辨能力。因此，在这种蒸馏方案下，自回归降噪通用声码器容易漏音问题能够得到解决。
107.请参阅图9，图9是本技术声码器的训练方法的又一实施例的流程示意图。
108.为了进一步提升声码器的降噪能力，在可以在降噪通用声码器的基础上额外设计一个自降噪编解码器。降噪通用声码器与前者共享编码器，两者进行联合训练，使得降噪通用声码器能够借用自降噪编解码器的降噪能力，进一步提升降噪效果。
109.如图9所示，在本实施例中，声码器包括自降噪编解码器和降噪通用声码器。
110.具体地，自降噪编解码器以加噪训练音频的声学特征作为输入，干净训练音频的声学特征作为输出，降噪通用声码器将噪声训练标签和自降噪编解码器输出的中间声学特征作为输入，干净训练音频作为输出，进行联合训练，以得到声码器。
111.如图9所示，自降噪编解码器由一个编码器和一个解码器组成。其中，自降噪编解码器的输入为加噪训练音频的声学特征，输出为干净训练音频的声学特征。即自降噪编解码器的任务是将加噪训练音频的声学特征中的噪声去除。因此，自降噪编解码器中编码器输出的中间声学特征(hidden)能够过滤噪声、混响等非人声，只保留干净的声学特征对应的信息。
112.在此基础上，降噪通用声码器将中间声学特征替代加噪训练音频的声学特征，作为输入，其他部分保持不变，即其他部分与上述实施例中步骤s25和s26一致。相当于降噪通用声码器借用了自降噪编码器的编码器部分(encoder)，对输入的加噪训练音频的声学特征提前进行了一轮降噪。训练时，自降噪编码器的目标为干净的声学特征，降噪通用声码器的目标为干净的音频，整个系统进行多任务训练。训练完毕后，可以丢弃自降噪编解码器的解码器(decoder)部分，整个结构的剩余部分，即降噪编解码器的解码器部分和降噪通用声码器作为实际应用中的声码器。
113.其中，当降噪通用声码器采用自回归降噪通用声码器为骨干时，可以将上述第一种蒸馏方式的加噪训练方法与本实施例中多任务训练方法结合，即在多任务训练的情况下进行蒸馏训练，从而能够得到最佳的效果。
114.具体地，可以是基线声码器以干净训练音频的声学特征作为输入和干净训练音频作为输出，训练得到；基线声码器基于干净训练音频的声学特征进行音频合成，得到干净合成音频；自降噪编解码器以加噪训练音频的声学特征作为输入，干净训练音频的声学特征作为输出，自回归降噪通用声码器将噪声训练标签和自降噪编解码器输出的中间声学特征作为输入，干净合成音频作为输出，进行联合训练，以得到声码器。
115.以上，本技术提供了一套新的加噪训练方法：通过对干净训练音频进行不同程度、
不同比例的加噪，同时训练时根据加噪程度添加对应噪声训练标签，得到一个比较稳定的降噪通用声码器模型，且合成时可以通过修改噪声标签来控制降噪程度。且这套方法可以用在任何一个主流声码器上，泛用性很广。
116.进一步，提供了加噪训练背景下的蒸馏方法：在一些自回归降噪通用声码器上，加噪训练的声码器会有一定概率出现漏音问题。对此，本案采取了用干净训练音频的基线声码器对其进行蒸馏，并同时增加隐层损失函数的方式，在基本不损失降噪效果的情况下，有效解决漏音问题。
117.进一步，提供了一种利用多任务训练进一步提升降噪系统音质的方法：通过在原有的声码器结构上增加自降噪编解码器，对模型进行多任务训练。利用自降噪编解码器中的编码器部分过滤声学特征中的噪声和混响，从而进一步提高合成音频数据的音质。
118.请参阅图10，图10是本技术声码器一实施例的结构示意框图。
119.在本实施例中，声码器100可以包括获取模块110和降噪合成模块120，其中，获取模块110用于获取待合成声学特征和噪声标签，其中，噪声标签与待合成声学特征的降噪程度相关；降噪合成模块120，用于基于待合成声学特征和噪声标签进行音频合成，得到干净的合成音频数据；声码器以加噪训练音频的声学特征和噪声训练标签作为输入，干净训练音频作为输出，训练得到；其中，加噪训练音频由干净训练音频和噪声训练音频合成得到，噪声训练标签对应噪声训练音频的噪声程度。
120.在一些实施方式中，降噪合成模块120包括自降噪编解码器和降噪通用声码器，自降噪编解码器以加噪训练音频的声学特征作为输入，干净训练音频的声学特征作为输出，降噪通用声码器将噪声训练标签和自降噪编解码器输出的中间声学特征作为输入，干净训练音频作为输出，进行联合训练，以得到声码器。
121.在一些实施方式中，降噪合成模块120包括自回归降噪通用声码器时，基线声码器以干净训练音频的声学特征作为输入和干净训练音频作为输出，训练得到；基线声码器基于干净训练音频的声学特征进行音频合成，得到干净合成音频；自回归降噪通用声码器以加噪训练音频的声学特征和噪声训练标签作为输入，干净合成音频作为输出，训练得到。
122.在一些实施方式中，自回归降噪通用声码器与基线声码器在声码器内部进行至少一次损失计算。
123.在一些实施方式中，基线声码器和自回归降噪通用声码器的模型结构相同。
124.在一些实施方式中，声码器100以干净训练音频的声学特征作为输入，干净训练音频作为输出，训练得到预训练模型；声码器100加载预训练模型，并以加噪训练音频的声学特征和噪声训练标签作为输入，干净训练音频作为输出，进行训练得到。
125.在一些实施方式中，加噪训练音频的获取方法包括：获取干净训练音频和噪声训练音频；按照随机选取的方式，将噪声训练音频对干净训练音频进行加噪，得到加噪训练音频；和/或，按照预设加噪强度，将噪声训练音频对干净训练音频进行加噪，得到加噪训练音频。
126.在一些实施方式中，噪声训练标签的获取方法包括：按照加噪训练音频的加噪强度，生成对应的噪声训练标签。
127.在一些实施方式中，降噪合成模块120还用于将噪声标签转换成噪声特征；将噪声特征与待合成声学特征进行融合处理；基于融合后的特征进行音频合成，得到干净的合成
音频数据。
128.在一些实施方式中，降噪合成模块120包括自降噪编解码器，自降噪编解码器将待合成声学特征进行编码处理，得到中间声学特征；将噪声特征与中间声学特征进行融合处理。
129.在一些实施方式中，降噪合成模块120还包括说话人编码器，方法还包括：说话人编码器用于对参考音频数据进行处理，得到目标特征，参考音频数据为对目标采集得到；基于融合后的特征和目标特征进行音频合成，得到干净的合成音频数据。
130.关于上述各个步骤的说明，请参见方法实施例中的对应位置，此处不再赘述。
131.请参阅图11，图11是本技术电子设备一实施例的结构示意框图。
132.如图11所示，电子设备200可以包括相互耦接的存储器210和处理器220，存储器210用于存储程序数据，处理器220用于执行程序数据以实现上述任一方法实施例中的步骤。具体地，电子设备200可以包括但不限于：台式计算机、笔记本电脑、服务器、手机、平板电脑等等，在此不做限定。
133.具体而言，处理器220用于控制其自身以及存储器210以实现上述任一方法实施例中的步骤。处理器220还可以称为cpu(central processing unit，中央处理单元)。处理器220可能是一种集成电路芯片，具有信号的处理能力。处理器220还可以是通用处理器、数字信号处理器(digital signal processor,dsp)、专用集成电路(application specific integrated circuit,asic)、现场可编程门阵列(field-programmable gate array,fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。另外，处理器220可以由多个集成电路芯片共同实现。
134.请参阅图12，图12是本技术计算机可读存储介质一实施例的结构示意框图。
135.如图12所示，计算机可读存储介质300存储有程序数据310，程序数据310被处理器执行时，用以实现上述任一方法实施例中的步骤。
136.计算机可读存储介质300可以为u盘、移动硬盘、只读存储器(rom，read-only memory)、随机存取存储器(ram，random access memory)、磁碟或者光盘等可以存储计算机程序的介质，也可以为存储有该计算机程序的服务器，该服务器可将存储的计算机程序发送给其他设备运行，或者也可以自运行该存储的计算机程序。
137.在本技术所提供的几个实施例中，应该理解到，所揭露的方法和装置，可以通过其它的方式实现。例如，以上所描述的装置实施方式仅仅是示意性的，例如，模块或单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性、机械或其它的形式。
138.作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施方式方案的目的。
139.另外，在本技术各个实施例中的各功能单元可以集成在一个处理单元中，也可以
是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。
140.集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本技术的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)或处理器(processor)执行本技术各个实施方式方法的全部或部分步骤。而前述的存储介质包括：u盘、移动硬盘、只读存储器(rom，read-only memory)、随机存取存储器(ram，random access memory)、磁碟或者光盘等各种可以存储程序代码的介质。
141.以上所述仅为本技术的实施例，并非因此限制本技术的专利范围，凡是利用本技术说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本技术的专利保护范围内。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：视频处理方法、系统、装置及存储介质与流程

声码器的降噪方法及其声码器、电子设备和存储介质与流程

相关文献

最热文献