首页 > 乐器,声学设备的制造及制作,分析技术 > 正文

预训练模型的训练方法、编码特征获取方法及相关装置与流程

2021-08-13 19:22:00 来源：中国专利 TAG：训练方法装置模型特征

本公开涉及计算机领域，尤其涉及一种预训练模型的训练方法、编码特征获取方法及相关装置。

背景技术：

在当前教学分析、智能人工客服、自动语言翻译等涉及语音数据的运用和分析领域，通过深度神经网络技术对数据处理模型进行训练，使其具备强大的学习能力进而实现数据处理已经得到了越来越广泛的应用。

但现有的数据处理模型训练方法，需要基于不同的应用，对不同的模型进行训练，这就导致对数据进行不同的标注，标注的工作量很大，训练成本很高。

因此，如何在较小的标注量的基础上，提高模型训练的准确性，就成为亟需解决的技术问题。

技术实现要素：

本公开实施例提供一种预训练模型的训练方法、编码特征获取方法及相关装置，以实现在较小的标注量的基础上，提高模型训练的准确性。

根据本公开的一方面，提供了一种预训练模型的训练方法，包括：

获取待识别音频的各音频帧特征与所述待识别音频对应的文本的文本特征；

通过所述预训练模型的文本编码模块对所述文本特征进行编码，得到文本编码特征；

随机选择各所述音频帧特征中的第一预设比例的音频帧特征进行掩码处理，得到掩码音频帧特征序列；

通过所述预训练模型的音频编码模块，结合所述文本编码特征，对所述掩码音频帧特征序列中的各掩码音频帧特征进行编码，得到掩码音频帧编码特征序列；

根据所述掩码音频帧编码特征序列中的各个掩码音频帧编码特征，获取各个训练音频帧特征，根据各个相互对应的所述训练音频帧特征和所述音频帧特征得到的音频损失，调整所述预训练模型的参数，直至所述音频损失满足损失音频阈值，得到训练好的所述预训练模型。

根据本公开的另一方面，提供了一种编码特征获取方法，包括：

获取待编码音频的各个待编码音频帧特征和与所述待编码音频对应的待编码文本的待编码文本特征；

利用前述的预训练模型的训练方法训练得到的所述文本编码模块，对所述待编码文本特征进行编码，得到编码文本编码特征；

利用前述的预训练模型的训练方法训练得到的所述音频编码模块，对各个所述待编码音频帧特征结合所述编码文本编码特征进行编码，得到音频帧编码特征序列。

根据本公开的另一方面，提供了一种预训练模型的训练装置，包括：

音频帧特征和文本特征获取单元，用于获取所述待识别音频的各音频帧特征和所述待识别音频对应的文本的文本特征；

文本编码特征获取单元，用于通过所述预训练模型的文本编码模块对所述文本特征进行编码，得到文本编码特征；

掩码音频帧特征序列获取单元，用于随机选择各所述音频帧特征中的第一预设比例的音频帧特征进行掩码处理，得到掩码音频帧特征序列；

音频编码特征获取单元，用于通过所述预训练模型的音频编码模块，结合所述文本编码特征，对所述掩码音频帧特征序列中的各掩码音频帧特征进行编码，得到掩码音频帧编码特征序列；

参数调整单元，用于根据所述掩码音频帧编码特征序列中的各个掩码音频帧编码特征，获取各个训练音频帧特征，根据各个相互对应的所述训练音频帧特征和所述音频帧特征得到的音频损失，调整所述预训练模型的参数，直至所述音频损失满足损失音频阈值，得到训练好的所述预训练模型。

根据本公开的另一方面，提供了一种编码特征获取装置，包括：

待编码特征获取单元，用于获取待编码音频的各个待编码音频帧特征和与所述待编码音频对应的待编码文本的待编码文本特征；

文本编码单元，用于对所述待编码文本特征进行编码，得到编码文本编码特征；

音频编码单元，用于对各个所述待编码音频帧特征结合所述编码文本编码特征进行编码，得到音频帧编码特征序列。

根据本公开的另一方面，提供了计算机可读存储介质，其上存储有计算机指令，所述计算机指令运行时执行如前所述的预训练模型的训练方法。

根据本公开的另一方面，提供了一种终端，包括存储器和处理器，所述存储器上存储有能够在所述计算机上运行的计算机指令,所述处理器运行所述计算机指令时执行前述的预训练模型的训练方法。

与现有技术相比，本公开技术方案具有以下优点：

本公开实施例所提供的预训练模型的训练方法，通过分别获取待识别音频的音频帧特征和待识别音频对应的文本的文本特征，再随机选择所述音频帧特征中的预设比例的音频帧特征进行掩码处理，得到掩码音频帧特征序列，通过预训练模型的文本编码模块对文本特征进行编码，得到文本编码特征，通过预训练模型的音频编码模块，结合文本编码特征，对掩码音频帧特征序列中的各掩码音频帧特征进行编码，得到掩码音频帧编码特征序列，通过从掩码音频帧编码特征序列中的各个掩码音频帧编码特征得到的各个训练音频帧特征，根据各个相互对应的训练音频帧特征和音频帧特征得到的音频损失，调整预训练模型的参数，直至音频损失满足损失音频阈值，得到训练好的预训练模型。由此可见，本公开实施例所提供的预训练模型的训练方法，在对待训练的预训练模型进行训练时，通过预训练模型的文本编码模块对文本特征进行编码，得到文本编码特征，通过预训练模型的音频编码模块，结合文本编码特征，对掩码音频帧特征序列中的各掩码音频帧特征进行编码，这样，可以实现在编码时将音频帧特征和文本特征充分融合，从而能够通过训练使模型更准确地提取到音频帧编码特征和文本特征，提高模型训练的准确性；并且，在预训练模型的训练时，通过随机选择所述音频帧特征中的预设比例的音频帧特征进行掩码处理，再进行还原的方式实现训练，无需对训练数据进行标引，从而可以降低预训练模型的训练成本；另一方面，由于根据本公开实施例所提供的预训练模型的训练方法得到的音频编码模块和文本编码模块具有较高的准确性，在利用音频编码模块进行音频编码，以及利用文本编码模块进行文本编码时，能够得到准确的音频编码特征和文本编码特征，从而降低对于需要基于音频编码特征和文本编码特征进行进一步处理的各个模型（比如：说话人身份认证模型、说话人情感识别模型）的训练难度，利用较少的标注数据可以达到较好的训练效果，从而可以降低进行进一步处理的模型训练成本；同时，由于音频编码模块和文本编码模块可以应用于不同应用场景的模型，也保证了音频编码模块和文本编码模块具有较好的可迁移性和可扩展性。

可选方案中，本公开实施例所提供的预训练模型的训练方法，所述预训练模型的音频编码模块包含了至少两个编码层，在通过预训练模型的音频编码模块结合文本编码特征，对掩码音频帧特征序列中的各掩码音频帧特征进行编码时，先通过音频编码模块的第一编码层，结合文本编码特征对掩码音频帧特征序列中的各掩码音频帧特征进行编码，得到第一掩码音频帧编码特征序列，再通过第二编码层，结合文本编码特征，对第一掩码音频帧编码特征序列中的各第一掩码音频帧编码特征进行编码，得到第二掩码音频帧编码特征序列，根据第二掩码音频帧编码特征序列获取到掩码音频帧编码特征序列。这样，在进行预训练模型的训练时，在音频编码模块的每一个编码层都结合了文本编码特征进行编码，前一个编码层的编码输出和文本编码特征作为下一个编码层的编码输入，预训练模型在训练时能够更准确的提取到音频帧编码特征和文本特征，可以进一步提高模型训练的准确性。

附图说明

图1是本公开一实施例所提供的预训练模型的训练方法的流程示意图；

图2是本公开一实施例所提供的预训练模型的训练方法的获取各音频帧特征和文本特征的流程示意图；

图3是本公开一实施例所提供的预训练模型的训练方法的获取待识别音频的示意图；

图4是本公开一实施例所提供的预训练模型的训练方法的获取音频帧特征的示意图；

图5是本公开一实施例所提供的预训练模型的训练方法的文本编码模块的一种可选结构的示意图；

图6是本公开一实施例所提供的预训练模型的训练方法的获取掩码音频帧编码特征的流程示意图；

图7是本公开一实施例所提供的预训练模型的训练方法的另一种获取掩码音频帧编码特征的流程示意图；

图8是本公开一实施例所提供的预训练模型的训练方法的的音频编码模块的一种可选结构的示意图；

图9是本公开一实施例所提供的预训练模型的训练方法的的又一流程示意图；

图10是本公开一实施例所提供的一种编码特征获取方法的流程示意图；

图11是本公开一实施例所提供的一种预训练模型的训练装置的结构示意图；

图12是本公开一实施例所提供的一种编码特征获取装置的结构示意图；

图13是本公开一实施例所提供的一种可选硬件设备架构的结构示意图。

具体实施方式

现有技术难以在较小的标准量的基础上提高模型训练的准确性。

为了在较小标注量的基础上，提高模型训练的准确性，本公开提供了一种预训练模型的训练方法，包括：

获取待识别音频的各音频帧特征与所述待识别音频对应的文本的文本特征；

通过所述预训练模型的文本编码模块对所述文本特征进行编码，得到文本编码特征；

随机选择各所述音频帧特征中的第一预设比例的音频帧特征进行掩码处理，得到掩码音频帧特征序列；

可见，本公开实施例所提供的预训练模型的训练方法，通过分别获取待识别音频的音频帧特征和待识别音频对应的文本的文本特征，再随机选择所述音频帧特征中的预设比例的音频帧特征进行掩码处理，得到掩码音频帧特征序列，通过预训练模型的文本编码模块对文本特征进行编码，得到文本编码特征，通过预训练模型的音频编码模块，结合文本编码特征，对掩码音频帧特征序列中的各掩码音频帧特征进行编码，得到掩码音频帧编码特征序列，通过从掩码音频帧编码特征序列中的各个掩码音频帧编码特征得到的各个训练音频帧特征，根据各个相互对应的训练音频帧特征和音频帧特征得到的音频损失，调整预训练模型的参数，直至音频损失满足损失音频阈值，得到训练完成的预训练模型。

可以看出，本公开实施例所提供的预训练模型的训练方法，在对待训练的预训练模型进行训练时，通过预训练模型的文本编码模块对文本特征进行编码，得到文本编码特征，通过预训练模型的音频编码模块，结合文本编码特征，对掩码音频帧特征序列中的各掩码音频帧特征进行编码，这样，可以实现在编码时将音频帧特征和文本特征充分融合，从而能够通过训练使模型更准确地提取到音频帧编码特征和文本特征，提高模型训练的准确性；并且，在预训练模型的训练时，通过随机选择所述音频帧特征中的预设比例的音频帧特征进行掩码处理，再进行还原的方式实现训练，无需对训练数据进行标引，从而可以降低预训练模型的训练成本；另一方面，由于根据本公开实施例所提供的预训练模型的训练方法得到的音频编码模块和文本编码模块具有较高的准确性，在利用音频编码模块进行音频编码，以及利用文本编码模块进行文本编码时，能够得到准确的音频编码特征和文本编码特征，从而降低对于需要基于音频编码特征和文本编码特征进行进一步处理的各个模型（比如：说话人身份认证模型、说话人情感识别模型）的训练难度，利用较少的标注数据可以达到较好的训练效果，从而可以降低进行进一步处理的模型训练成本；同时，由于音频编码模块和文本编码模块可以应用于不同应用场景的模型，也保证了音频编码模块和文本编码模块具有较好的可迁移性和可扩展性。

下面将参照附图更详细地描述本公开的实施例。虽然附图中显示了本公开的某些实施例，然而应当理解的是，本公开可以通过各种形式来实现，而且不应该被解释为限于这里阐述的实施例，相反提供这些实施例是为了更加透彻和完整地理解本公开。应当理解的是，本公开的附图及实施例仅用于示例性作用，并非用于限制本公开的保护范围。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

应当理解，本公开的方法实施方式中记载的各个步骤可以按照不同的顺序执行，和/或并行执行。此外，方法实施方式可以包括附加的步骤和/或省略执行示出的步骤。本公开的范围在此方面不受限制。

本文使用的术语“包括”及其变形是开放性包括，即“包括但不限于”。术语“基于”是“至少部分地基于”。术语“一个实施例”表示“至少一个实施例”；术语“另一实施例”表示“至少一个另外的实施例”；术语“一些实施例”表示“至少一些实施例”。其他术语的相关定义将在下文描述中给出。需要注意，本公开中提及的“第一”、“第二”等概念仅用于对不同的装置、模块或单元进行区分，并非用于限定这些装置、模块或单元所执行的功能的顺序或者相互依存关系。

需要注意，本公开中提及的“一个”、“多个”的修饰是示意性而非限制性的，本领域技术人员应当理解，除非在上下文另有明确指出，否则应该理解为“一个或多个”。

本公开实施方式中的多个装置之间所交互的消息或者信息的名称仅用于说明性的目的，而并不是用于对这些消息或信息的范围进行限制。

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

以下结合附图对本公开的具体实施例做详细的说明。

请参考图1，图1是本公开一实施例所提供的预训练模型的训练方法的流程示意图。

如图中所示，本公开实例所提供的预训练模型的训练方法，包括以下步骤：

步骤s10，获取待识别音频的各音频帧特征和与所述待识别音频对应的文本的文本特征。

本公开所提供的预训练模型的训练方法，为了实现对待训练模型的训练，在训练时首先基于待识别音频提取音频帧特征和待识别音频对应的文本的文本特征，作为模型训练方法的训练数据。

容易理解的是，为了实现对于预训练模型的训练，待识别音频的数量不止一段，因此本文所述的待识别音频是指多段待识别音频。

具体地，待识别音频可以从记录的音频中获取，得到待识别音频后，进一步获取各音频帧特征和文本特征。

在一种具体实施方式中，为了提高所得到的各音频帧特征和文本特征的质量，请参考图2，图2为本公开一实施例所提供的预训练模型的训练方法的获取各音频帧特征和文本特征的流程示意图。

如图中所示，本公开实施例所提供的预训练模型的训练方法的获取待识别音频的各音频帧特征的步骤可以包括：

步骤s100:获取原始音频中的语音音频，得到所述待识别音频。

具体地，可以直接从录制的原始音频中获取待识别音频。

在一种具体实施例中，如果原始音频可以直接使用，则直接将原始音频作为待识别音频。

然而，由于从具体场景中获取的原始音频中包含众多随机的噪声、静音等无用音频，因此需要先将原始音频中的上述无用音频剔除或从原始音频中提取出训练需要的语音音频，获取原始音频中的语音音频，得到所述待识别音频，具体可以包括：

识别并标记所述原始音频中的语音音频；

依据所述标记提取所述原始音频中的语音音频，得到所述待识别音频。

具体地，可以参考图3，图3是本公开一实施例所提供的预训练模型的训练方法的获取待识别音频的示意图。

如图3所示，为了实现对于语音音频的识别和标记，可以运用端点检测技术，在环境干扰较少，原始音频信噪比较高的情景下，通过预设的时域或频域参数，或者时域和频域结合参数对原始音频进行自动识别并标记。进一步地，如果环境嘈杂，原始音频信噪比不高，为了保证识别和标记的准确性，需要利用隐马尔可夫模型（hmm）、多层感知器模型（mlp）、深度神经网络模型（dnn）等模型进行端点检测。通过端点检测得到对原始音频中有效语音部分的准确标记。

得到语音音频的标记后，依据该标记对原始音频进行切分得到一系列的语音片段，上述系列的语音片段均可以作为用于模型训练的待识别音频。

通过对原始音频进行识别获取待识别音频，可以有效地去除原始音频中的噪声、静音等无效音频，确保用于预训练模型的训练数据仅包含有效的语音音频，避免训练时的无效音频影响模型的训练精度。

步骤s101：根据预设帧长和预设滑动步长，依次获取所述待识别音频的各个音频帧，所述预设帧长大于所述预设滑动步长。

获得待识别音频后，无论提取音频特征或语音识别获取对应的文本前，由于音频的短时平稳特性，为了减少音频整体的非稳态和时变的影响，需要对音频进行分帧处理，为了使帧与帧之间平滑过渡,保持其连续性，分帧一般采用交叠分段的方法，保证相邻两帧相互重叠一部分，也就是相邻两帧的起始位置的时间差即预设滑动步长应小于预设帧长，这里将预设帧长设定为50毫秒，滑动步长设定为12.5毫秒，按此长度对待识别音频进行分帧，得到一系列音频帧。该系列音频帧包含了待识别音频的完整信息，使预训练模型的音频训练数据和文本训练数据包含一致且一一对应的信息，确保模型训练的准确性。

步骤s102：提取各个所述音频帧的特征，得到所述音频帧特征。

如图4所示，图4是本公开一实施例所提供的预训练模型的训练方法的获取音频帧特征的示意图。

如图所示，获得待识别音频对应的各个音频帧后，提取每个音频帧的特征并进行拼接。这里要获取的音频帧特征可以是梅尔频率倒谱系数（mfcc）特征，mfcc特征表征了对于人耳具有最高听觉敏感度的音频的频带，能够充分地反映音频中的语音特征，因此在此提取特征维度可以为80维，然后可以进一步提取特征的一阶差分并进行拼接，得到待识别音频对应的各音频帧特征，这样，经过拼接后得到的各音频帧特征的特征维度为160维。

这样得到的音频帧特征，不仅可以减小原始音频中的噪声等无效音频的影响，还可以包含待识别音频的完整信息，避免由于音频帧的获取方式不当总成音频帧特征的丢失，提高音频帧特征的完整性。

步骤s103:获取待识别音频对应的文本。

得到待识别音频后，为了获取文本特征，还需要进一步获取待识别音频对应的文本。

在一种具体实施方式中，可以将获取到的待识别音频对应的各音频帧特征和待识别音频通过语音识别模型进行识别，得到待识别音频对应的文本。

在其他实施方式中，可以通过其他方式获取对应的文本。

容易理解的是，文本的获取步骤（即步骤s102）与音频帧特征的获取步骤（即步骤s103）并不具有严格的前后顺序，只要得到待识别音频就可以进行文本的获取或者音频帧特征的获取。

步骤s104：获取所述文本的文本特征。

得到文本后，对文本进行进一步的处理，得到文本特征。

从而，通过上述处理，可以得到待识别音频的音频帧特征以及待识别音频对应文本的文本特征。

步骤s11：通过所述预训练模型的文本编码模块对所述文本特征进行编码，得到文本编码特征。

得到所述文本特征后，为了进一步实现对于预训练模型的训练，可以将其通过预训练模型的文本编码模块进行编码。

在一种具体实施方式中，请参考图5，图5是本公开一实施例所提供的预训练模型的训练方法的文本编码模块的一种可选结构的示意图。

如图所示，文本编码模块可以包含两个结构相同的文本编码层，每个文本编码层可以包含四个子层，子层的一种排列方式可以是：按从输入到输出的顺序依次为多头自注意力层、残差归一化层、前馈神经网络层、残差归一化层。

开始编码时，将文本特征输入第一个文本编码层，从该文本编码层的第一个子层即多头自注意力层开始逐个子层进行编码，直到通过该文本编码层最后一个子层即残差归一化层得到第一文本编码特征，再将该第一文本编码特征输入第二个文本编码层进行编码，依旧从该文本编码层的第一个子层即多头自注意力层开始按逐个子层进行编码直到通过该文本编码层最后一个子层即残差归一化层得到第二文本编码特征。

当文本编码模块仅包含两个文本编码层时，上述第二个编码层编码输出的第二文本编码特征即是文本编码模块编码输出的文本编码特征。

当然，在其他实施方式中，文本编码模块可以包含更多的文本编码层，而每个文本编码层所包含的子层的具体情况也可以根据需要进行确定。

容易理解的是，如果文本编码模块包含更多的文本编码层，则将获得的第二文本编码特征输入至下一个文本编码层，依旧按前两个文本编码层的编码顺序继续进行编码，直到得到最后一个文本编码层输出，从而得到文本编码特征。

多个文本编码层的设置可以使得文本编码模块能够更充分地获取文本特征中的信息，提高所获取的信息的准确性，从而提高模型训练的准确性。

进一步地，在文本编码层中设置多头自注意力层，可以让文本编码模块充分获取文本特征中每一个字词的特征的上下文关系，从而避免了文本编码过程中可能产生的特征损失，而编码层中的残差归一化层和前馈神经网络层可以使模型在训练时对参数的调整能够逐层有效传递，确保训练结果的准确。

另外，在对预训练模型进行训练时，为了达到预设的训练目标可以对文本编码模块的结构，包括文本编码层的层数、文本编码层中子层的组成或子层的堆叠次序进行相应调整，本公开在此不做限定。

步骤s12：随机选择各所述音频帧特征中的第一预设比例的音频帧特征进行掩码处理，得到掩码音频帧特征序列。

为了实现对于预训练模型的训练，并且减小训练所需要的标注量，可以通过对音频帧进行掩码，然后进行还原的方式实现。

由于在预训练模型的训练过程中，首先从各所述音频帧特征中随机选取进行掩码操作的音频帧特征，具体可以按照第一预设比例选择进行掩码的音频帧特征，具体地，所述第一预设比例可以为15%、20%，也可以根据实际需要修改为其他数值。

具体地，可以利用掩码音频帧特征或任意音频帧特征，对随机选择的各所述音频帧特征中的第一预设比例的音频帧特征进行掩码处理,得到掩码音频帧特征序列。这样，利用不同的音频帧特征进行掩码处理，可以进一步提高对音频帧进行掩码的效果，从而提高后续对于音频编码模块训练的效果。

在一种具体实施方式中，在将这些被随机选取的音频帧特征进行掩码操作时，还可以按照概率确定如何进行掩码，比如：每个被选取的音频帧特征以80%的概率被替换成掩码音频帧特征，另外以10%的概率被替换成其他随机音频帧特征，10%的概率保持不变，这样，可以进一步提高掩码的随机性，提高音频编码模块训练的效果；当然，也可以按照其他的方式，对被随机选取的音频帧特征进行掩码操作。

由此可见，在训练过程中，通过每次从各个音频帧特征中选择相同一部分的音频帧特征进行掩码处理，而所选择的各个音频帧特征每次以不同的概率分别被替换为掩码音频帧特征、其他随机音频帧特征或保持原有音频帧特征不变，将上述经过掩码处理后得到的掩码音频帧特征序列通过音频编码模块进行编码，在音频编码完成后识别各个掩码音频帧特征对应的原有音频帧特征，通过多次音频编码不断地收敛各个掩码音频帧特征和对应原有音频帧的误差可以实现对模型的特征识别能力的训练。

容易理解的是，由于经过前述的掩码处理，部分音频帧特征变为掩码音频帧特征，部分音频帧仍然为原本的音频帧特征，因此，此时得到的掩码音频帧特征序列是指包含了经过掩码处理且被掩码的掩码音频帧特征和经过掩码处理但未被掩码的音频帧特征，为方便描述，本文将不论实际是否被掩码，但只要经过掩码处理的音频帧特征均称为掩码音频帧特征。

步骤s13：通过所述预训练模型的音频编码模块，结合所述文本编码特征，对所述掩码音频帧特征序列中的各掩码音频帧特征进行编码，得到掩码音频帧编码特征序列。

通过掩码操作得到掩码音频帧特征序列后，将其通过音频编码模块并结合文本编码特征进行编码。

具体地，音频编码模块所包含的音频编码层的数量可以根据需要确定，比如：一层或者多层。

为了更准确地获取音频帧特征的信息，在一种具体实施方式中，音频编码模块可以包含至少两个音频编码层，即至少包括第一编码层和第二编码层，具体编码过程如图6所示，图6是本公开一实施例所提供的预训练模型的训练方法的获取掩码音频帧编码特征的流程示意图。

如图6所示，本公开实施例所提供的预训练模型的训练方法的通过音频编码模块中的音频编码层，结合文本编码特征对掩码音频帧特征进行编码的步骤可以包括：

步骤s130：通过音频编码模块的第一编码层，结合文本编码特征，对各掩码音频帧特征进行编码，得到第一掩码音频帧编码特征序列。

在编码过程中，为了提高所得到的待识别音频的信息，可以同时结合文本编码特征，并首先通过音频编码模块的第一编码层，对各个掩码音频帧特征进行编码。

容易理解的是，在利用第一编码层进行编码时，实际是对掩码音频帧特征序列的各个掩码音频帧特征，结合文本编码特征进行处理。

需要说明的是，本文所述的得到第一掩码音频帧特征序列，既包括利用第一编码层对掩码音频帧特征序列的各个掩码音频帧特征进行编码后得到各个第一掩码音频帧特征序列，然后再输入第二掩码层，也包括对一个掩码音频帧特征通过第一编码层处理，再利用第二掩码层处理，直至得到全部的第一掩码音频帧特征，得到第一掩码音频帧特征序列。

步骤s131：通过音频编码模块的第二编码层，结合文本编码特征，对各第一掩码音频帧编码特征进行编码，得到第二掩码音频帧编码特征序列。

得到至少一个第一掩码音频帧特征后，输入音频编码模块的第二编码层，结合文本编码特征，对第一掩码音频帧编码特征进行编码，获取第二掩码音频帧编码特征。

步骤s132:根据第二掩码音频获取掩码音频帧编码特征序列。

容易理解的是，当音频编码模块仅包含两个音频编码层时，上述第二个音频编码层编码输出的第二掩码音频帧编码特征序列即是音频编码模块编码输出的掩码音频帧编码特征序列。

如果音频编码模块包含更多的音频编码层，应将获得的第二掩码音频帧编码特征序列输入至下一个音频编码层，依旧按前两个音频编码层的编码顺序结合文本编码特征继续进行编码，直到最后一个音频编码层的输出得到掩码音频帧编码特征序列。

这样，在进行预训练模型的训练时，在音频编码模块的每一个音频编码层都结合了文本编码特征进行编码，前一个音频编码层的编码输出和文本编码特征作为下一个音频编码层的编码输入，预训练模型在训练时能够更准确的提取到音频帧编码特征和文本特征，可以进一步提高模型训练的准确性。

在一种具体实施方式中，为了使得各个音频编码层能够更好地实现对于文本编码特征的融合，本公开还提供一种预训练模型的训练方法，如图7所示，图7是本公开一实施例所提供的预训练模型的训练方法的另一种获取掩码音频帧编码特征的流程示意图。

如图所示，第一编码层和第二编码层均包含特征融合子层，步骤s130：通过音频编码模块的每一编码层中的特征融合子层，结合文本编码特征，对各掩码音频帧特征进行编码的步骤可以包括：

s1300：通过音频编码模块的第一编码层进行编码时，在第一编码层中的特征融合子层结合文本编码特征，对各掩码音频帧特征进行编码，得到第一掩码音频帧编码特征序列。

即通过第一编码层进行编码时，具体通过第一编码层中的特征融合子层结合文本编码特征，并进行编码，得到第一掩码音频帧编码特征序列。

为方便理解，现结合图8进行说明，其中，图8是本公开一实施例所提供的预训练模型的训练方法的的音频编码模块的一种可选结构的示意图。

如图所示，音频编码模块所包括的第一编码层和第二编码层的结构相同（当然，如果还有其他音频编码层，也可以具有相同的结果），每个编码层均包括特征融合子层，在一种具体实施方式中，每个编码层均可以包括六个子层，子层的一种排列方式可以是：按从输入到输出的顺序依次为多头自注意力层、残差归一化层、跨模态多头自注意力层、残差归一化层、前馈神经网络层、残差归一化层。

在通过音频编码模块编码时，在每个编码层中的特征融合子层结合文本编码特征进行编码，具体地特征融合子层可以为跨模态多头自注意力层。

开始编码时，首先将掩码音频帧特征序列中的各掩码音频帧特征输入第一个编码层，从该编码层的第一个子层即多头自注意力层开始逐个子层进行编码，编码到第三个子层即跨模态多头自注意力层时结合文本编码模块输出的文本编码特征继续编码，直到通过该编码层最后一个子层即残差归一化层得到第一掩码音频帧编码特征序列。

得到第一个编码层输出的第一掩码音频帧编码特征序列后，再将该第一掩码音频帧编码特征序列输入第二个编码层进行编码，依旧从该编码层的第一个子层即多头自注意力层开始按逐个子层进行编码，到第三个子层即跨模态多头自注意力层时结合文本编码模块输出的文本编码特征继续编码，直到通过该编码层最后一个子层即残差归一化层得到第二掩码音频帧编码特征序列。

跨模态多头自注意力层结合文本编码特征进行编码的具体方式可以为：

跨模态多头注意力层的query输入端接收来自上一个残差归一化层的编码输出，其key和value输入端均接收来自文本编码编码模块输出的文本编码特征，该跨模态多头自注意力层将所述三个输入端的输入结合进行编码，将其编码输出输入至下一个残差归一化层继续编码。

当然，在上述情况下，步骤s131：通过音频编码模块的第二编码层进行编码时，在第二编码层中的特征融合子层结合文本编码特征，对第一掩码音频帧编码特征序列中的各第一掩码音频帧编码特征进行编码的步骤可以包括：

步骤s1310：通过音频编码模块的第二编码层进行编码时，在第二编码层中的特征融合子层结合文本编码特征，对第一掩码音频帧编码特征序列中的各第一掩码音频帧编码特征进行编码，得到第二掩码音频帧编码特征序列。

在利用第二编码层进行编码时，由于第一编码层与第二编码层的结构相同，具体内容可以参考步骤s1300的描述，在此不再赘述。

需要说明的是，在利用第二编码层进行编码时，特征融合子层（具体可以为跨模态多头自注意力层）可以结合第一掩码音频帧编码特征进行编码。

这样，通过音频编码模块的两个甚至更多的音频编码层中的跨模态多头自注意力层，可以在音频编码时充分获取每一个掩码音频帧特征与对应的文本的文本编码特征的特征关系，进而能够依次充分提升模型对不同模态的特征的识别和结合处理能力。

进一步地，音频编码模块的两个甚至更多的音频编码层中的多头自注意力层，可以让音频编码模块充分获取输入的掩码音频帧特征序列中每一个掩码音频帧特征的上下文信息，从而在音频编码完成后更准确地预测每一个掩码音频帧特征对应的原始的音频帧特征，提高了模型对音频特征的识别能力。

当然，在其他实施方式中，音频编码模块可以包含更多的音频编码层，而每个音频编码层所包含的子层的具体情况也可以根据需要进行确定。

另外，在对预训练模型进行训练时，为了达到预设的训练目标可以对音频编码模块的结构，包括音频编码层的层数、音频编码层中子层的组成或子层的堆叠次序进行相应调整，本公开在此不做限定。

步骤s14：根据所述掩码音频帧编码特征序列中的各个掩码音频帧编码特征，获取各个训练音频帧特征，根据各个相互对应的所述训练音频帧特征和所述音频帧特征获取音频损失。

为了实现对于预训练模型的训练，需要对进行了掩码处理的各个掩码音频帧编码特征进行识别，进而对预训练模型进行参数调整，以使得预训练模型的文本编码模块和音频编码模块能够提取到准确的待识别音频的信息。

得到各个掩码音频帧编码特征后，进一步还原其在编码前的掩码音频帧特征对应的音频帧特征，得到还原结果即为训练音频帧特征。

然后通过，计算得到的每一个训练音频帧特征与对应的音频帧特征之间的损失，得到音频损失。

步骤s15：判断音频损失是否满足损失音频阈值，若是，执行步骤s17，若否，执行步骤s16。

如果当前音频损失值尚未满足预设的损失音频阈值，说明当前模型的识别能力还未达到训练要求，需要继续进行参数的调整以及调整参数后模型的训练，则执行步骤s16，如果满足，则说明模型的识别能力已经达到训练要求，已经完成了对预训练模型的训练，则执行步骤s17。

这里要说明的是，由于在步骤s100至s103中从原始音频中获取到一系列的待识别音频及对应的文本，将每一段待识别音频及对应的文本作为训练数据可能会进行多次编码，每次编码后得到的音频损失可能并不相同，衡量音频损失是否满足音频损失阈值的判断方式可以是要求每次得到的音频损失均满足音频损失阈值，也可以先计算多次音频损失的平均值，再判断得到的平均值是否满足音频损失阈值，具体方式可以依据训练目标灵活设定，本发明在此不做限定。

步骤s16:根据音频损失调整预训练模型的参数，转向执行步骤s13。

根据当前得到的音频损失，进行预训练模型的音频编码模块的参数的调整，然后再次进行音频编码，即执行步骤s13,并进行新一循环的编码和调整，执行步骤s13时，更新参数后的音频编码模块可以为新的音频编码模块，从而可以通过音频编码模块的更换提高预训练模型训练的准确性。

步骤s17：训练完毕，得到训练好的所述预训练模型。

在另一种具体实施方式中，为了提高训练效率，本公开实施例还提供一种预训练模型的训练方法，请参考图9，图9是本公开一实施例所提供的预训练模型的训练方法的又一流程示意图。

如图中所示，本公开实施例所提供的预训练模型的训练方法包括：

步骤s70:获取待识别音频。

步骤s70的具体内容请参考图2所示的步骤s100的描述，在此不再赘述。

步骤s71：获取待识别音频对应的各音频帧特征。

步骤s71的具体内容请参照图2所示的步骤s101到s102的描述，在此不再赘述。

步骤s72：获取待识别音频对应的文本的分词文本特征。

获取待识别音频对应文本的具体内容请参考图2所示的步骤s103的描述，在此不再赘述。

得到文本后，在一种具体实施方式中，可以运用分词算法对得到的文本进行分词，得到待识别音频对应的文本的分词文本。然后，获取所述分词文本的词向量，得到分词文本特征。

在另一种具体实施方式中，为了提高所得到的分词文本特征的准确性，可以在得到词向量后，进一步获取该分词文本对应的位置向量，将得到的词向量和位置向量相拼接，得到所述分词文本的特征向量，即是待识别音频对应的文本的分词文本特征。

更进一步的，考虑到对文本进行分词的传统方法需要运用分词表，而待识别音频对应的文本中可能包含分词表未包含的字词或字词分布定义，因此，对待识别音频对应的文本进行分词可以采用bpe分词算法，以获取包含完整文本内容的分词文本。

步骤s73：对待识音频对应的文本的分词文本特征进行掩码处理，得到掩码文本特征。

为了实现对于预训练模型的训练，并且减小训练所需要的标注量，可以通过对分词文本特征进行掩码，然后进行还原的方式实现。

由于在预训练模型的训练过程中，首先从各所述分词文本特征中随机选取进行掩码操作的分词文本特征，具体可以按照第一预设比例选择进行掩码的分词文本特征，具体地，所述第一预设比例可以为15%、20%，也可以根据实际需要修改为其他数值。

具体地，可以利用掩码文本特征或任意分词文本特征，对随机选择的各所述分词文本特征中的第一预设比例的分词文本特征进行掩码处理,得到掩码文本特征。这样，利用不同的分词文本特征进行掩码处理，可以进一步提高对分词文本特征进行掩码的效果，从而提高后续对于文本编码模块训练的效果。

在一种具体实施方式中，在将这些被随机选取的分词文本特征进行掩码操作时，还可以按照概率确定如何进行掩码，比如：每个被选取的分词文本特征以80%的概率被替换成掩码文本特征，另外以10%的概率被替换成其他随机分词文本特征，10%的概率保持不变，这样，可以进一步提高掩码的随机性，提高文本编码模块训练的效果；当然，也可以按照其他的方式，对被随机选取的分词文本特征进行掩码操作。

由此可见，在训练过程中，通过每次从各个分词文本特征中选择相同一部分的分词文本特征进行掩码处理，而所选择的各个分词文本特征每次以不同的概率分别被替换为掩码文本特征、其他随机分词文本特征或保持原有的分词文本特征不变，将上述经过掩码处理后得到的掩码文本特征通过文本编码模块进行编码，在文本编码完成后识别各个掩码文本特征对应的原有的分词文本特征，通过多次文本编码不断地收敛各个掩码文本特征和对应原有的分词文本特征的误差可以实现对模型的特征识别能力的训练。

容易理解的是，由于经过前述的掩码处理，部分分词文本特征变为掩码文本特征，部分分词文本特征仍然为原本的分词文本特征，因此，此时得到的掩码文本特征是指包含了经过掩码处理且被掩码的掩码文本特征和经过掩码处理但未被掩码的分词文本特征，为方便描述，本文将不论实际是否被掩码，但只要经过掩码处理的分词文本特征均称为掩码文本特征。

步骤s74：对待识别音频对应的各音频帧特征进行掩码处理，得到掩码音频帧特征序列。

步骤s74的具体内容请参照图1所示的步骤s12的描述，在此不再赘述。

步骤s75：通过文本编码模块对掩码文本特征进行编码，得到掩码文本编码特征。

步骤s75的具体内容可以参照图1所示的步骤s11中关于对文本特征进行编码的描述，在此不再赘述。

步骤s76：通过预训练模型的音频编码模块，结合掩码文本编码特征，对掩码音频帧特征序列中的各掩码音频帧特征进行编码，得到掩码音频帧编码特征序列。

步骤s76的具体内容可以参照图1所示的步骤s13或图7所示的步骤s1300到s1310的描述，此处不再赘述。

需要注意的是，由于前述文本编码过程所得到的为掩码文本编码特征，因此，在结合文本编码特征时，需要结合掩码文本编码特征。

步骤s77：根据掩码文本编码特征，利用预训练模型的文本识别模块获取训练识别分词文本特征。

通过文本编码模块的编码输出得到掩码文本编码特征后，在将掩码文本编码特征输入至音频编码模块参与音频编码的同时，也将掩码文本编码特征通过预训练模型的文本识别模块对编码前的掩码文本特征进行特征识别与还原，预测掩码文本特征中的各个分词掩码文本特征在进行掩码处理前所对应的的原始的分词文本特征，得到训练识别分词文本特征。由步骤s53的叙述可知，由于文本编码前仅从各个分词文本特征中选取了一部分进行掩码处理，因此文本编码模块能够在编码过程中通过各个掩码文本特征附近的未进行掩码的分词文本特征捕获到该掩码文本特征所对应的原始的分词文本特征中的信息，文本识别模块能够通过该信息尝试还原原始的分词文本特征，即得到训练识别分词文本特征。

容易理解的是，训练识别分词文本特征的步骤，仅需要在获取掩码文本编码特征之后，与掩码音频帧编码特征序列的获取，没有明确的前后关系。

步骤s78：根据掩码音频帧编码特征序列，利用预训练模型的音频识别模块获取训练音频帧特征。

通过音频编码模块的编码输出得到掩码音频帧编码特征序列后，通过预训练模型的音频识别模块对掩码音频帧编码特征序列中的各个掩码音频帧编码特征进行识别与还原，预测各个掩码音频帧特征在进行掩码处理前的原始的音频帧特征，得到训练音频帧特征。由步骤s54及s12的叙述可知，由于音频编码前仅从各个音频帧特征中选取了一部分进行掩码处理，因此音频编码模块能够在编码过程中通过各个掩码音频帧特征附近的未进行掩码的音频帧特征捕获到该掩码音频帧特征所对应的原始的音频帧特征中的信息，音频识别模块能够通过该信息尝试还原该原始的音频帧特征，得到训练音频帧特征。

步骤s79：根据相互对应的训练识别分词文本特征和分词文本特征得到文本损失。

由步骤s73可知，由于在文本编码前对输入的分词文本特征进行了掩码处理，通过文本编码得到的掩码文本编码特征除了通过音频编码模块与各个掩码音频帧特征结合进行编码之外，该掩码文本编码特征也能够被模型识别，尝试还原其在编码前的掩码文本特征对应的原始的分词文本特征，得到还原的结果即训练识别分词文本特征，综合获取每一个训练识别分词文本特征和对应的分词文本特征之间的损失，得到文本损失。

步骤s710:根据相互对应的训练音频帧特征和音频帧特征得到音频损失。

步骤s710的具体内容可以参照图1所示的步骤s14中关于获取音频损失的描述，在此不再赘述。

步骤s711：判断文本损失是否满足文本损失阈值，同时音频损失是否满足音频损失阈值，当文本损失满足文本损失阈值并且音频损失也满足音频损失阈值时，执行步骤s713,否则执行步骤s712。

参照步骤s79的描述可知，由于当前的文本损失和音频损失分别代表了当前模型对分词文本特征和音频帧特征的识别能力，此只有当文本损失满足文本损失阈值，同时音频损失也满足音频损失阈值时，才能说明模型对分词文本特征和音频帧特征的编码信息提取能力，以及识别能力达到了训练的预期，即便仅有文本损失或音频损失满足对应的损失阈值，仍说明模型需要继续进行参数的调整以及调整参数后模型的训练。

步骤s712：根据文本损失调整文本编码模块和文本识别模块的参数，根据音频损失调整音频编码模块、文本编码模块和预训练模型的音频识别模块的参数。

如前所述，当文本损失和音频损失不能分别同时满足文本损失阈值和音频损失阈值时，依据文本损失与音频损失，对文本编码模块和文本识别模块的参数，音频编码模块和音频识别模块的参数进行调整。

步骤s713：得到训练好的预训练模型。

可见，本公开实施例所公开的预训练模型的训练方法，不仅对音频帧特征进行掩码处理，还对分词文本特征进行掩码处理以及还原识别处理，并利用文本损失对文本编码模块的参数进行调整，可以提高文本编码模块对于文本信息的获取能力，以及训练效率，提高文本编码模块的编码准确性，从而可以提高掩码文本编码特征的准确性，进而提高对于音频编码模块训练的效率，提高音频编码模块的训练效果。

为了方便后续使用过程中，对于实现下游任务（比如：说话人认证、情感分类）的模型的训练，本公开实施例还提供一种编码特征获取方法，以实现编码特征的获取，请参考图10，图10是本公开一实施例所提供的一种编码特征获取方法的流程示意图。

如图中所示，本公开实施例所提供的编码特征获取方法包括：

步骤s80：获取待编码音频的各个待编码音频帧特征和与所述待编码音频对应的待编码文本的待编码文本特征。

为获取编码特征，首先获取待编码音频，然后，基于待编码音频获取待编码音频帧特征、待编码文本和待编码文本特征。

具体地，获取待编码音频的各个待编码音频帧特征的具体内容可以参照图2所示的步骤s100到s102的描述，在此不再赘述。

获取所述待编码音频对应的待编码文本的待编码文本特征的具体内容可以参照图2所示的步骤s103到s105的描述，在此不再赘述。

步骤s81：通过前述预训练模型训练方法训练好的文本编码模块，对待编码文本特征进行编码，得到编码文本特征。

通过前述预训练模型训练方法训练好的文本编码模块，对待编码文本特征进行编码，得到编码文本特征的具体内容可以参照图1所示的步骤s11的描述，在此不再赘述。

这里要说明的是，通过已经训练好的文本编码模块对待编码文本特征进行编码的方法，与步骤s11中所述的通过预训练模型的文本编码模块对文本特征进行编码的方法一致，只是文本编码模块是已经经过参数调整得到的，所得到的编码文本特征的准确性较高，从而可以提高下游模块的训练效率。

步骤s82：通过前述预训练模型训练方法训练好的音频编码模块，对待编码音频帧特征，结合编码文本特征进行编码，得到音频帧编码特征序列。

通过前述预训练模型训练方法训练好的音频编码模块，对待编码音频帧特征，结合步骤s81所得到的编码文本特征进行编码，得到音频帧编码特征序列的具体内容可以参照图1所示的步骤s13的描述，在此不再赘述。

需要说明的是，通过已经训练好的音频编码模块对待编码音频帧特征，结合编码文本特征进行编码的方法虽然与步骤s13中所述的通过所述预训练模型的音频编码模块，结合所述文本编码特征，对所述掩码音频帧特征序列中的各掩码音频帧特征进行编码的方法一致，但由于经过了训练时对音频编码模块的调整，所得到的音频帧编码特征序列的准确性较高，从而可以提高下游模块的训练效率。

可以看出，本公开实施例所提供的编码特征获取方法，通过已经训练好的文本编码模块和音频编码模块，能够较准确地获取到编码文本特征和音频帧编码特征序列，从而能够降低下游模型训练的难度，减少所需要的标注数据量，降低训练成本，并且可以提高下游模型训练的效率。

本公开实施例还提供一种预训练模型的训练装置，请参考图11，图11是本公开一实施例所提供的一种预训练模型的训练装置的结构示意图。

如图中所示，本公开实施例所提供的预训练模型的训练装置包括：

音频帧特征和文本特征获取单元90，适于获取待识别音频的各音频帧特征与所述待识别音频对应的文本的文本特征。

文本编码特征获取单元91，适于通过所述预训练模型的文本编码模块对所述文本特征进行编码，得到文本编码特征。

掩码音频帧特征序列获取单元92，适于随机选择各所述音频帧特征中的第一预设比例的音频帧特征进行掩码处理，得到掩码音频帧特征序列。

音频编码特征获取单元93，适于通过所述预训练模型的音频编码模块，结合所述文本编码特征，对所述掩码音频帧特征序列中的各掩码音频帧特征进行编码，得到掩码音频帧编码特征序列。

参数调整单元94，适于根据掩码音频帧编码特征序列中的各个掩码音频帧编码特征，获取各个训练音频帧特征，根据各个相互对应的训练音频帧特征和音频帧特征得到的音频损失，调整预训练模型的参数，直至音频损失满足损失音频阈值，得到训练好的预训练模型。

可选的，音频帧特征和文本特征获取单元90，适于获取待识别音频的各音频帧特征与所述待识别音频对应的文本的文本特征可以包括：

获取原始音频中的语音音频，得到所述待识别音频；

根据预设帧长和预设滑动步长，依次获取所述待识别音频的各个音频帧，所述预设帧长大于所述预设滑动步长；

提取各个所述音频帧的特征，得到所述音频帧特征；

其中，获取原始音频中的语音音频，得到所述待识别音频可以包括：

识别并标记所述原始音频中的语音音频；

依据所述标记提取所述原始音频中的语音音频，得到所述待识别音频。

可选的，文本编码特征获取单元91，适于通过所述预训练模型的文本编码模块对所述文本特征进行编码，得到文本编码特征可以包括：

对所述待识别音频对应的文本进行分词，得到各个分词文本，获取各个所述分词文本的分词文本特征；

随机选择各所述分词文本特征中的第二预设比例的分词文本特征进行掩码处理，得到掩码文本特征，通过所述文本编码模块对所述掩码文本特征进行编码，得到掩码文本编码特征；

其中，随机选择各所述分词文本特征中的第二预设比例的分词文本特征进行掩码处理，得到掩码文本特征，通过所述文本编码模块对所述掩码文本特征进行编码，得到掩码文本编码特征可以包括：

利用掩码文本特征或任意文本特征，对随机选择的各所述分词文本特征中的第二预设比例的分词文本特征进行掩码处理，得到掩码文本特征。

可选的，掩码音频帧特征序列获取单元92，适于随机选择各所述音频帧特征中的第一预设比例的音频帧特征进行掩码处理，得到掩码音频帧特征序列可以包括：

利用掩码音频帧特征或任意音频帧特征，对随机选择的各所述音频帧特征中的第一预设比例的音频帧特征进行掩码处理,得到掩码音频帧特征序列。

可选的，音频编码特征获取单元93，适于通过所述预训练模型的音频编码模块，结合所述文本编码特征，对所述掩码音频帧特征序列中的各掩码音频帧特征进行编码，得到掩码音频帧编码特征序列可以包括：

通过所述音频编码模块的所述第一编码层，结合所述文本编码特征，对所述掩码音频帧特征序列中的各掩码音频帧特征进行编码，得到第一掩码音频帧编码特征序列；

通过所述音频编码模块的所述第二编码层，结合所述文本编码特征，对所述第一掩码音频帧编码特征序列中的各第一掩码音频帧编码特征进行编码，得到第二掩码音频帧编码特征序列；

根据所述第二掩码音频获取所述掩码音频帧编码特征序列；

其中，通过所述音频编码模块的所述第一编码层，结合所述文本编码特征，对所述掩码音频帧特征序列中的各掩码音频帧特征进行编码，得到第一掩码音频帧编码特征序列可以包括：

通过所述音频编码模块的所述第一编码层的特征融合子层，结合所述文本编码特征，对所述掩码音频帧特征序列中的各掩码音频帧特征进行编码，得到第一掩码音频帧编码特征序列；

其中，通过所述音频编码模块的所述第二编码层，结合所述文本编码特征，对所述第一掩码音频帧编码特征序列中的各第一掩码音频帧编码特征进行编码，得到第二掩码音频帧编码特征序列可以包括：

通过所述第二编码层的特征融合子层结合所述文本编码特征和所述第一掩码音频帧编码特征序列中的各第一掩码音频帧编码特征，并进行编码，得到所述第二掩码音频帧编码特征序列。

可选的，参数调整单元94，适于根据掩码音频帧编码特征序列中的各个掩码音频帧编码特征，获取各个训练音频帧特征，根据各个相互对应的训练音频帧特征和音频帧特征得到的音频损失，调整预训练模型的参数，直至音频损失满足损失音频阈值，得到训练好的预训练模型可以包括：

根据所述掩码文本编码特征，利用所述预训练模型的文本识别模块获取训练识别分词文本特征，根据相互对应的所述训练识别分词文本特征和所述分词文本特征得到文本损失；

根据所述文本损失调整所述文本编码模块和所述文本识别模块的参数，根据所述音频损失调整所述音频编码模块、文本编码模块和所述预训练模型的音频识别模块的参数，直至所述文本损失满足文本损失阈值，且所述音频损失满足音频损失阈值，得到训练好的所述预训练模型。

由此可见，通过本公开实施例所提供的预训练模型的训练装置对待训练的预训练模型进行训练时，通过预训练模型的文本编码模块对文本特征进行编码，得到文本编码特征，通过预训练模型的音频编码模块，结合文本编码特征，对掩码音频帧特征序列中的各掩码音频帧特征进行编码，这样，可以实现在编码时将音频帧特征和文本特征充分融合，从而能够通过训练使模型更准确地提取到音频帧编码特征和文本特征，提高模型训练的准确性；并且，在预训练模型的训练时，通过随机选择所述音频帧特征中的预设比例的音频帧特征进行掩码处理，再进行还原的方式实现训练，无需对训练数据进行标引，从而可以降低预训练模型的训练成本；另一方面，由于通过本公开实施例所提供的预训练模型的训练装置对与训练模型进行训练得到的音频编码模块和文本编码模块具有较高的准确性，在利用音频编码模块进行音频编码，以及利用文本编码模块进行文本编码时，能够得到准确的音频编码特征和文本编码特征，从而降低对于需要基于音频编码特征和文本编码特征进行进一步处理的各个模型（比如：说话人身份认证模型、说话人情感识别模型）的训练难度，利用较少的标注数据可以达到较好的训练效果，从而可以降低进行进一步处理的模型训练成本；同时，由于音频编码模块和文本编码模块可以应用于不同应用场景的模型，也保证了音频编码模块和文本编码模块具有较好的可迁移性和可扩展性。

本公开实施例还提供一种编码特征获取装置，请参考图12，图12是本公开一实施例所提供的一种编码特征获取装置的结构示意图。

如图中所示，本公开实施例所提供的编码特征获取装置包括：

待编码特征获取单元100，适于获取待编码音频的各个待编码音频帧特征和与待编码音频对应的待编码文本的待编码文本特征。

文本编码单元101，适于对待编码文本特征进行编码，得到编码文本编码特征。

音频编码单元102，适于对各个待编码音频帧特征结合编码文本编码特征进行编码，得到音频帧编码特征序列。

这样，本公开实施例所提供的编码特征获取装置，该装置的文本编码单元中的文本编码模块和音频编码单元中的音频编码模块是通过训练过程中的参数调整得到的，可以分别得到准确性较高的文本编码特征和音频帧编码特征序列，从而能够降低下游模型训练的难度，减少所需要的标注数据量，降低训练成本，并且可以提高下游模型训练的效率。

本公开示例性实施例还提供一种电子设备，包括：至少一个处理器；以及与至少一个处理器通信连接的存储器。所述存储器存储有能够被所述至少一个处理器执行的计算机程序，所述计算机程序在被所述至少一个处理器执行时用于使所述电子设备执行根据本公开实施例的方法。

本公开示例性实施例还提供一种存储有计算机程序的非瞬时计算机可读存储介质，其中，所述计算机程序在被计算机的处理器执行时用于使所述计算机执行根据本公开实施例的方法。

本公开示例性实施例还提供一种计算机程序产品，包括计算机程序，其中，所述计算机程序在被计算机的处理器执行时用于使所述计算机执行根据本公开实施例的方法。

参考图13，现将描述可以作为本公开的服务器或客户端的电子设备1100的结构框图，其是可以应用于本公开的各方面的硬件设备的示例。电子设备旨在表示各种形式的数字电子的计算机设备，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。

如图13所示，电子设备1100包括计算单元1101，其可以根据存储在只读存储器（rom）1102中的计算机程序或者从存储单元1108加载到随机访问存储器（ram）1103中的计算机程序，来执行各种适当的动作和处理。在ram1103中，还可存储设备1100操作所需的各种程序和数据。计算单元1101、rom1102以及ram1103通过总线1104彼此相连。输入/输出（i/o）接口1105也连接至总线1104。

电子设备1100中的多个部件连接至i/o接口1105，包括：输入单元1106、输出单元1107、存储单元1108以及通信单元1109。输入单元1106可以是能向电子设备1100输入信息的任何类型的设备，输入单元1106可以接收输入的数字或字符信息，以及产生与电子设备的用户设置和/或功能控制有关的键信号输入。输出单元1107可以是能呈现信息的任何类型的设备，并且可以包括但不限于显示器、扬声器、视频/音频输出终端、振动器和/或打印机。存储单元1104可以包括但不限于磁盘、光盘。通信单元1109允许电子设备1100通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据，并且可以包括但不限于调制解调器、网卡、红外通信设备、无线通信收发机和/或芯片组，例如蓝牙tm设备、wifi设备、wimax设备、蜂窝通信设备和/或类似物。

计算单元1101可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元1101的一些示例包括但不限于中央处理单元（cpu）、图形处理单元（gpu）、各种专用的人工智能（ai）计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器（dsp）、以及任何适当的处理器、控制器、微控制器等。计算单元1101执行上文所描述的各个方法和处理。例如，在一些实施例中，方法s11即通过所述预训练模型的文本编码模块对所述文本特征进行编码，得到文本编码特征可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元1108。在一些实施例中，计算机程序的部分或者全部可以经由rom1102和/或通信单元1109而被载入和/或安装到电子设备1100上。在一些实施例中，计算单元1101可以通过其他任何适当的方式（例如，借助于固件）而被配置为执行方法s74即对待识别音频对应的各音频帧特征进行掩码处理，得到掩码音频帧特征序列。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器（ram）、只读存储器（rom）、可擦除可编程只读存储器（eprom或快闪存储器）、光纤、便捷式紧凑盘只读存储器（cd-rom）、光学储存设备、磁储存设备、或上述内容的任何合适组合。

如本公开使用的，术语“机器可读介质”和“计算机可读介质”指的是用于将机器指令和/或数据提供给可编程处理器的任何计算机程序产品、设备、和/或装置(例如，磁盘、光盘、存储器、可编程逻辑装置(pld))，包括，接收作为机器可读信号的机器指令的机器可读介质。术语“机器可读信号”指的是用于将机器指令和/或数据提供给可编程处理器的任何信号。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置（例如，crt（阴极射线管）或者lcd（液晶显示器）监视器）；以及键盘和指向装置（例如，鼠标或者轨迹球），用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈（例如，视觉反馈、听觉反馈、或者触觉反馈）；并且可以用任何形式（包括声输入、语音输入或者、触觉输入）来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统（例如，作为数据服务器）、或者包括中间件部件的计算系统（例如，应用服务器）、或者包括前端部件的计算系统（例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互）、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信（例如，通信网络）来将系统的部件相互连接。通信网络的示例包括：局域网（lan）、广域网（wan）和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。

对所公开的实施例的上述说明，使本领域技术人员能够实现或使用本公开。对这些实施例的多种修改对本领域技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本公开的精神或范围的情况下，在其他实施例中实现。因此，本公开将不会被限制于本文所示的这些实施例，而是符合与本文所公开的原理和新颖特点相一致的最宽的范围。

虽然本公开实施例披露如上，但本公开并非限定于此。任何本领域技术人员，在不脱离本公开的精神和范围内，均可作各种变动与修改，因此本公开的保护范围应当以权利要求所限定的范围为准。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：一种可录音、可播放、可存储的智能语音模块的制作方法

预训练模型的训练方法、编码特征获取方法及相关装置与流程

相关文章

最热文献