语音识别模型的训练方法及装置、语音识别方法与流程

2023-02-08 16:11:19 来源：中国专利 TAG：

1.本公开实施例涉及机器学习技术领域，具体而言，涉及一种语音识别模型的训练方法、语音识别模型的训练装置、语音识别方法、计算机可读存储介质以及电子设备。

背景技术：

2.近年来，随着深度学习技术的快速发展，基于端到端深度神经网络的自动语音识别(automatic speech recognition，asr)已经逐渐成为当前语音识别领域的主流技术，目前已经在智能客服、手机助手、人机交互等多种业务场景中获得了广泛应用。
3.在现有对asr模型进行训练的方法中，通常采用无监督领域自适应(unsupervised domain adaptation，uda)方法来实现；具体的，该方法旨在通过源领域的数据和标注，以及目标领域的无标注数据，训练获得一个模型，使得该模型能够对目标领域具有更好的泛化能力；同时，为了提高模型的泛化能力，可以通过将源领域数据和目标领域数据进行特征对齐来实现，例如通过设计一个分类器，并添加一个梯度反转层(gradient reversal layer，grl)来进行领域对抗训练，使得模型对源领域数据和目标领域数据获得的特征无法被这个分类网络有效区分。
4.但是，上述方法存在如下缺陷：由于asr的语音数据为序列数据，不同数据的音频长度各不相同，在对抗训练过程中，分类器的训练很容易过拟合，导致最终的特征对齐效果较差，进而使得语音识别模型的精确度较低。
5.因此，需要提供一种新的语音识别模型的训练方法及装置。
6.需要说明的是，在上述背景技术部分发明的信息仅用于加强对本公开的背景的理解，因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。

技术实现要素：

7.本公开的目的在于提供一种语音识别模型的训练方法、语音识别模型的训练装置、语音识别方法、计算机可读存储介质以及电子设备，进而至少在一定程度上克服由于相关技术的限制和缺陷而导致的语音识别模型的精确度较低的问题。
8.根据本公开的一个方面，提供一种语音识别模型的训练方法，包括：
9.根据源领域语音数据集以及预设的远场混响冲击响应集合，计算目标领域语音数据集，并将所述源领域语音数据集以及目标领域语音数据集分别输入至待训练的语音识别模型中，得到第一文本识别结果以及第二文本识别结果；
10.根据第一文本识别结果以及所述源领域语音数据集中包括的语音标注结果，构建第一损失函数，并计算所述第一文本识别结果以及第二文本识别结果的第一协方差以及第二协方差；
11.根据所述第一协方差以及第二协方差构建第二损失函数，并根据第一损失函数以及第二损失函数构建目标损失函数；
12.根据所述目标损失函数对所述待训练的语音识别模型中包括的参数进行更新，得
到训练完成的语音识别模型。
13.在本公开的一种示例性实施例中，根据源领域语音数据集以及预设的远场混响冲击响应集合，计算目标领域语音数据集，包括：
14.抽取所述源领域语音数据集中的原始音频数据以及预设的远场混合冲击响应集合中的冲击响应样本；其中，所述原始音频数据为中文语音数据；
15.对所述原始音频数据以及所述冲击响应样本进行卷积计算，得到目标音频数据；其中，所述原始音频数据以及目标音频数据的音频特征矩阵均为81维梅尔谱特征；
16.根据多个目标音频数据生成所述目标领域语音数据集。
17.在本公开的一种示例性实施例中，根据第一文本识别结果以及所述源领域语音数据集中包括的语音标注结果，构建第一损失函数，包括：
18.计算所述第一文本识别结果中所包括的输出矩阵中，构成所述源领域语音数据集中包括的语音标注结果的所有路径的路径集合；
19.计算所述路径集合中每一条路径中所包括的每一个元素属于所述语音标注结果中对应位置上的元素的概率的乘积；
20.对所述路径集合中所包括的所有路径的概率的乘积进行求和，并以求和结果为最大值为目标，构建所述第一损失函数。
21.在本公开的一种示例性实施例中，计算所述第一文本识别结果以及第二文本识别结果的第一协方差以及第二协方差，包括：
22.根据所述源领域语音数据集中包括的原始音频数据的第一音频时长以及目标领域语音数据集中包括目标音频数据的第二音频时长，计算第一特征时间维长度以及第二特征时间维长度；
23.根据所述第一文本识别结果、第一特征时间维长度以及预设的第一矢量，计算所述第一协方差；
24.根据所述第二文本识别结果、第二特征时间维长度以及预设的第二矢量，计算所述第二协方差。
25.在本公开的一种示例性实施例中，根据所述第一协方差以及第二协方差构建第二损失函数，包括：
26.获取所述待训练的语音识别模型中包括的自注意力模块的特征维长度；
27.计算所述第一协方差以及第二协方差的矩阵范数，并根据所述矩阵范数以及所述自注意力模块的特征维长度，构建所述第二损失函数。
28.在本公开的一种示例性实施例中，根据第一损失函数以及第二损失函数构建目标损失函数，包括：
29.对所述第二损失函数以及预设的平衡参数进行求积运算，并对所述第一损失函数以及求积运算结果，构建所述目标损失函数；
30.其中，所述预设的平衡参数用于对第一损失函数以及第二损失函数进行平衡，所述第一损失函数用于对所述待训练的语音识别模型进行训练，所述第二损失函数用于对所述源领域语音数据集以及目标领域语音数据集进行对齐。
31.在本公开的一种示例性实施例中，将所述源领域语音数据集以及目标领域语音数据集分别输入至待训练的语音识别模型中，得到第一文本识别结果以及第二文本识别结
果，包括：
32.利用所述待识别的语音识别模型中包括的卷积神经网络分别提取所述源领域语音数据集中的原始音频数据以及目标领域语音数据集中的目标音频数据的第一局部特征以及第二局部特征；
33.利用所述待识别的语音识别模型中包括的自注意力模块分别根据所述第一局部特征以及第二局部特征，计算所述原始音频数据的第一全局特征以及目标音频数据的第二全局特征；
34.利用所述待识别的语音识别模型中包括的全连接层分别对所述第一全局特征以及第二全局特征进行分类，得到所述原始音频数据的第一文本识别结果以及目标音频数据的第二文本识别结果。
35.根据本公开的一个方面，提供一种语音识别方法，包括：
36.采集待识别语音数据；其中，所述待识别语音数据包括近场语音数据和远场语音数据中的至少一种；所述远场语音数据包括背景噪音和/或远场混响；
37.将所述待识别语音数据输入至训练完成的语音识别模型中，得到语音识别结果；
38.其中，所述训练完成的语音识别模型是通过前述任一项所述的语音识别模型的训练方法对待训练的语音识别模型进行训练得到的。
39.根据本公开的一个方面，提供一种语音识别模型的训练装置，包括：
40.第一计算模块，用于根据源领域语音数据集以及预设的远场混响冲击响应集合，计算目标领域语音数据集，并将所述源领域语音数据集以及目标领域语音数据集分别输入至待训练的语音识别模型中，得到第一文本识别结果以及第二文本识别结果；
41.第二计算模块，用于根据第一文本识别结果以及所述源领域语音数据集中包括的语音标注结果，构建第一损失函数，并计算所述第一文本识别结果以及第二文本识别结果的第一协方差以及第二协方差；
42.目标损失函数构建模块，用于根据所述第一协方差以及第二协方差构建第二损失函数，并根据第一损失函数以及第二损失函数构建目标损失函数；
43.语音识别模型训练模块，用于根据所述目标损失函数对所述待训练的语音识别模型中包括的参数进行更新，得到训练完成的语音识别模型。
44.根据本公开的一个方面，提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述任意一项所述的语音识别模型的训练方法，以及前述所述的语音识别方法。
45.根据本公开的一个方面，提供一种电子设备，包括：
46.处理器；以及
47.存储器，用于存储所述处理器的可执行指令；
48.其中，所述处理器配置为经由执行所述可执行指令来执行上述任意一项所述的语音识别模型的训练方法，以及前述所述的语音识别方法。
49.本公开实施例提供的一种语音识别模型的训练方法，一方面，由于在构建损失函数的过程中，同时考虑到了预测结果(第一文本识别结果)与语音标注结果之间的损失函数，还考虑到了源领域语音数据集以及目标领域语音数据集之间对齐的损失函数(第一协方差以及第二协方差)，并且，在对齐的过程中，是通过协方差进行对齐的，并不需要通过分
类器来实现特征对齐，进而避免了由于分类器的训练很容易过拟合，导致最终的特征对齐效果较差，进而使得语音识别模型的精确度较低的问题；另一方面，由于目标领域语音数据集是在源领域语音数据集的基础上通过添加远场混响冲击响应得到的，且在构建损失函数的过程中，同时考虑到了源领域语音数据集以及目标领域语音数据集，进而可以避免现有技术中由于仅通过源领域语音数据集对语音识别模型进行训练，导致的在对具有远场混响的待识别语音数据进行识别时，识别结果准确率较低的问题。
50.应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。
附图说明
51.此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理。显而易见地，下面描述中的附图仅仅是本公开的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。
52.图1示意性示出根据本公开示例实施例的一种语音识别模型的训练方法的流程图。
53.图2示意性示出根据本公开示例实施例的一种语音识别模型的结构示例图。
54.图3示意性示出根据本公开示例实施例的一种81维梅尔谱特征矩阵的示例图。
55.图4示意性示出根据本公开示例实施例的一种根据第一文本识别结果以及所述源领域语音数据集中包括的语音标注结果，构建第一损失函数的方法流程图。
56.图5示意性示出根据本公开示例实施例的一种计算所述第一文本识别结果以及第二文本识别结果的第一协方差以及第二协方差的方法流程图。
57.图6示意性示出根据本公开示例实施例的一种根据所述第一协方差以及第二协方差构建第二损失函数的方法流程图。
58.图7示意性示出根据本公开示例实施例的另一种语音识别模型的训练方法的流程图。
59.图8示意性示出根据本公开示例实施例的一种语音识别模型的训练装置的框图。
60.图9示意性示出根据本公开示例实施例的一种用于实现上述语音识别模型的训练方法的电子设备。
具体实施方式
61.现在将参考附图更全面地描述示例实施方式。然而，示例实施方式能够以多种形式实施，且不应被理解为限于在此阐述的范例；相反，提供这些实施方式使得本公开将更加全面和完整，并将示例实施方式的构思全面地传达给本领域的技术人员。所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施方式中。在下面的描述中，提供许多具体细节从而给出对本公开的实施方式的充分理解。然而，本领域技术人员将意识到，可以实践本公开的技术方案而省略所述特定细节中的一个或更多，或者可以采用其它的方法、组元、装置、步骤等。在其它情况下，不详细示出或描述公知技术方案以避免喧宾夺主而使得本公开的各方面变得模糊。
62.此外，附图仅为本公开的示意性图解，并非一定是按比例绘制。图中相同的附图标记表示相同或类似的部分，因而将省略对它们的重复描述。附图中所示的一些方框图是功能实体，不一定必须与物理或逻辑上独立的实体相对应。可以采用软件形式来实现这些功能实体，或在一个或多个硬件模块或集成电路中实现这些功能实体，或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。
63.在asr(automatic speech recognition，自动语音识别)模型的训练或优化过程中，通常的隐含假设是语音数据的训练集和测试集的数据分布相同。然而，在很多实际情况下，语音数据测试集中可能因为存在口音、背景噪音、远场混响等特地点，导致测试集和训练集的分布存在较大的差异，降低由训练集获得的asr模型在实际应用场景中的效果。例如，通过利用近场语音数据(例如说话人距离麦克风《20厘米)训练获得的一个asr模型，在对远场语音数据(例如说话人距离麦克风》1米)的测试集进行识别时，准确率通常会出现严重下降。
64.为了提高目标领域(target domain，td)的语音识别准确率，一种最直接的方法是收集并标注对应场景的语音数据用于asr模型训练。通常情况下，由于端到端asr模型的网络参数量较大，训练一个准确的asr模型往往需要大规模的语音数据及对应的人工标注。然而，由于语音数据的标注需要人工听取至少一遍，标注成本往往较高；特别是，当语音数据中含有口音、背景噪音、远场混响等导致语音清晰度或辨识度较差的语音数据集，其人工标注的费用和周期也会更高。
65.为了提高td的语音识别性能的同时避免大规模的人工数据标注，现有技术通常会采用迁移学习(transfer learning，tl)的方法。该方法的思想是在已有的源领域(source domain,sd)的语音数据和标注的基础上，利用少量或不用目标领域语音数据的标注，来提高模型在目标领域上的性能。
66.在基于tl的技术中，最典型的一类方法是微调(fine-tuning)，该类方法利用sd的语音数据和标注训练一个预训练模型，然后，利用少量的目标领域语音数据和标注，对模型的参数进行微调。然而，微调asr模型的方法依然需要人工标注；且由于训练数据量较少，可能会面临模型训练过拟合的问题。
67.最理想的asr迁移学习技术是完全不用语音数据标注，来提高asr模型的泛化能力，也即基于无监督的asr迁移学习技术。例如，如果在sd模型的训练数据和标注中有“您好”这句话，我们希望模型能够在不同场景下(口音、背景噪音、远场混响等)，都能够对“您好”进行有效识别，而不用依赖于利用各种复杂场景下含有“您好”这句话作为td的标注数据样本，才能优化模型在这些场景中对“您好”这句话的识别效果。
68.为了解决上述问题，通常采用无监督领域自适应(unsupervised domain adaptation，uda)技术来进行解决。该方法属于迁移学习中的一种，旨在通过源领域的数据和标注，以及目标领域的无标注数据，训练获得一个模型，使得该模型能够对目标领域具有更好的泛化能力。为了实现这一点，现有技术均通过将源领域数据和目标领域数据进行特征对齐来实现，例如通过设计一个分类器，并添加一个梯度反转层(gradient reversal layer，grl)来进行领域对抗训练，使得模型对sd数据和td数据获得的特征无法被这个分类网络有效区分。
69.然而，该技术主要存在两点不足：首先，由于asr的语音数据为序列数据，不同数据
的音频长度各不相同，在对抗训练过程中，分类器的训练很容易过拟合，导致最终的特征对齐效果较差；其次，在很多实际场景中，极少会遇到绝对的源领域数据和目标领域数据二分类的任务，大多数语音数据的分类往往较为模糊，并不适用于采用分类器问题进行无监督领域自适应。
70.基于此，本示例实施方式中首先提供了一种语音识别模型的训练方法，该方法可以运行于服务器、服务器集群或云服务器等；当然，本领域技术人员也可以根据需求在其他平台运行本公开的方法，本示例性实施例中对此不做特殊限定。参考图1所示，该语音识别模型的训练方法可以包括以下步骤：
71.步骤s110.根据源领域语音数据集以及预设的远场混响冲击响应集合，计算目标领域语音数据集，并将所述源领域语音数据集以及目标领域语音数据集分别输入至待训练的语音识别模型中，得到第一文本识别结果以及第二文本识别结果；
72.步骤s120.根据第一文本识别结果以及所述源领域语音数据集中包括的语音标注结果，构建第一损失函数，并计算所述第一文本识别结果以及第二文本识别结果的第一协方差以及第二协方差；
73.步骤s130.根据所述第一协方差以及第二协方差构建第二损失函数，并根据第一损失函数以及第二损失函数构建目标损失函数；
74.步骤s140.根据所述目标损失函数对所述待训练的语音识别模型中包括的参数进行更新，得到训练完成的语音识别模型。
75.上述语音识别模型的训练方法中，一方面，由于在构建损失函数的过程中，同时考虑到了预测结果(第一文本识别结果)与语音标注结果之间的损失函数，还考虑到了源领域语音数据集以及目标领域语音数据集之间对齐的损失函数(第一协方差以及第二协方差)，并且，在对齐的过程中，是通过协方差进行对齐的，并不需要通过分类器来实现特征对齐，进而避免了由于分类器的训练很容易过拟合，导致最终的特征对齐效果较差，进而使得语音识别模型的精确度较低的问题；另一方面，由于目标领域语音数据集是在源领域语音数据集的基础上通过添加远场混响冲击响应得到的，且在构建损失函数的过程中，同时考虑到了源领域语音数据集以及目标领域语音数据集，进而可以避免现有技术中由于仅通过源领域语音数据集对语音识别模型进行训练，导致的在对具有远场混响的待识别语音数据进行识别时，识别结果准确率较低的问题。
76.以下，将结合附图对本公开示例实施例语音识别模型的训练方法进行详细的解释以及说明。
77.首先，对本公开示例实施例的发明目的进行解释以及说明。具体的，为了高效地、低成本地提高asr模型在td上的识别性能，本公开提出了一种基于coral的无监督领域自适应语音识别方法。该方法在sd音频数据和标注的基础上，利用td无标注数据，来提高模型在td上的性能。在模型的训练过程中，采用一种改进的coral(correlation alignment,coral)技术，来将sd语音数据和td语音数据进行特征对齐，克服基于grl方法在变长数据特征对齐上的不足，提升变长语音数据的特征对齐效果，并最终提高模型在td上的泛化能力；并且，本公开所提供的基于改进的coral的变长输入下的特征对齐方法，显著提升了端到端asr模型在td上的准确率。
78.其次，对本公开示例实施例中所涉及到的语音识别模型进行解释以及说明。参考
图2所示，该语音识别模型可以包括输入层201、卷积神经网络(convolutional neural network，cnn)202、自注意力模块((self-attention block，sab)203、全连接层(fully connected，fc)204以及输出层205。其中，输入层、卷积神经网络、自注意力模块、全连接层以及输出层依次连接。
79.具体的，卷积神经网络可以用于提取输入数据局部特征、自注意力模块可以用于根据局部特征提取全局特征、全连接层可以用于对全局特征进行分类，进而通过输出层输出。并且，本示例实施例中所涉及到的语音识别模型，卷积神经网络包括3层、自注意力模块包括10层、全连接层包括2层。
80.以下，结合图2对语音识别模型的训练方法中所包括的各步骤进行详细的解释以及说明。
81.在本公开示例实施例提供的一种语音识别模型的训练方法中：
82.在步骤s110中，根据源领域语音数据集以及预设的远场混响冲击响应集合，计算目标领域语音数据集，并将所述源领域语音数据集以及目标领域语音数据集分别输入至待训练的语音识别模型中，得到第一文本识别结果以及第二文本识别结果。
83.在本示例实施例中，首先，需要获取历史语音数据，该历史语音数据可以为中文语音数据然后可以通过传统短时傅立叶变换(short-time fourier transform，stft)对各历史语音数据进行采样，进而得到多条语音数据，并基于各语音数据生成原始音频数据集；其中，在对各语音数据采样的过程中，该短时傅里叶变换所选用的窗口大小可以为20ms，窗口滑动步长可以为10ms语音数据的采样率为16khz，每条语音数据的时长在0.5s到15s之间，原始音频数据集总的时长可以为150小时。此处需要补充说明的是，上述窗口大小、窗口滑动步长的大小可以根据实际需要自行调整，本示例对此不做特殊限制。
84.其次，当得到原始音频数据集以后，即可根据源领域语音数据集以及预设的远场混响冲击响应集合，计算目标领域语音数据集。具体的可以包括：抽取所述源领域语音数据集中的原始音频数据以及预设的远场混合冲击响应集合中的冲击响应样本；对所述原始音频数据以及所述冲击响应样本进行卷积计算，得到目标音频数据；其中，所述原始音频数据以及目标音频数据的音频特征矩阵均为81维梅尔谱特征；根据多个目标音频数据生成所述目标领域语音数据集。
85.举例来说，本公开所涉及的源领域语音数据集可以记为ds，且有：
[0086][0087]
目标领域语音数据集可以记为d
t
，且有：
[0088][0089]
其中，以及分别为源领域语音数据集和目标领域语音数据集的音频特征矩阵，为与音频特征对应的文本标注结果(源领域数据集包含源领域语音数据及其对应的标注文本，而目标领域数据集仅包含目标领域语音数据，不包含标注信息)，ns以及n
t
分别为源领域语音数据集以及目标领域语音数据集的训练样本数量。
[0090]
进一步的，目标领域语音数据集为在源领域语音数据集的基础上，随机添加远场混响冲击响应生成的语音数据。例如，从sd数据集中随机选取一个音频数据样本xs，并从远
场混响冲击响应集合h中随机选取一个冲击响应h∈h，则可计算获取一个目标领域数据样本其中，代表卷积。同时，本公开采用的音频特征矩阵均为81维梅尔谱特征，具体可以如图3所示。
[0091]
进一步的，在得到源领域语音数据集以及目标领域语音数据集以后，可以将所述源领域语音数据集以及目标领域语音数据集分别输入至待训练的语音识别模型中，得到第一文本识别结果以及第二文本识别结果。具体的，可以包括：首先，利用所述待识别的语音识别模型中包括的卷积神经网络分别提取所述源领域语音数据集中的原始音频数据以及目标领域语音数据集中的目标音频数据的第一局部特征以及第二局部特征；其次，利用所述待识别的语音识别模型中包括的自注意力模块分别根据所述第一局部特征以及第二局部特征，计算所述原始音频数据的第一全局特征以及目标音频数据的第二全局特征；进一步的，利用所述待识别的语音识别模型中包括的全连接层分别对所述第一全局特征以及第二全局特征进行分类，得到所述原始音频数据的第一文本识别结果以及目标音频数据的第二文本识别结果。
[0092]
在步骤s120中，根据第一文本识别结果以及所述源领域语音数据集中包括的语音标注结果，构建第一损失函数，并计算所述第一文本识别结果以及第二文本识别结果的第一协方差以及第二协方差。
[0093]
在本示例实施例中，首先，根据第一文本识别结果以及源领域语音数据集中包括的语音标注结果，构建第一损失函数。具体的，参考图4所示，可以包括以下步骤：
[0094]
步骤s410，计算所述第一文本识别结果中所包括的输出矩阵中，构成所述源领域语音数据集中包括的语音标注结果的所有路径的路径集合；
[0095]
步骤s420，计算所述路径集合中每一条路径中所包括的每一个元素属于所述语音标注结果中对应位置上的元素的概率的乘积；
[0096]
步骤s430，对所述路径集合中所包括的所有路径的概率的乘积进行求和，并以求和结果为最大值为目标，构建所述第一损失函数。
[0097]
以下，将对步骤s410-步骤s430进行解释以及说明。具体的，在本示例实施例中，采用现有连接时间分类(connectionist temporal classification：ctc)损失函数作为端到端asr损失函数(第一损失函数)。该第一损失函数记可以为la，具体可以如下公式(1)所示：
[0098][0099]
其中，代表第一文本识别结果的模型输出矩阵p(xs)∈rm×k的第ck行第k列元素，m为p(xs)的行数，代表输出字符的类别个数加上一个空字符“_”，k为p(xs)的列数，代表输出的时间帧长度。c(ys,k)代表长度为k的构成音频文本标注ys的所有路径的集合。例如，音频文本标注ys为“您好”，k为3，则集合c(ys,k)中包括“您_好”,“_您好”,“您好_”，“您您好”等等。ck代表c(ys,k)中一条路径(c1,...ck)中的第k个元素。此处需要补充说明的是，可以利用ds的语音数据和标注训练asr模型，让模型具有特定的语音识别能力。
[0100]
其次，计算所述第一文本识别结果以及第二文本识别结果的第一协方差以及第二协方差。具体的，参考图5所示，可以包括以下步骤：
[0101]
步骤s510，根据所述源领域语音数据集中包括的原始音频数据的第一音频时长以
及目标领域语音数据集中包括目标音频数据的第二音频时长，计算第一特征时间维长度以及第二特征时间维长度；
[0102]
步骤s520，根据所述第一文本识别结果、第一特征时间维长度以及预设的第一矢量，计算所述第一协方差；
[0103]
步骤s530，根据所述第二文本识别结果、第二特征时间维长度以及预设的第二矢量，计算所述第二协方差。
[0104]
以下，将对步骤s510-步骤s530进行解释以及说明。具体的，在本示例实施例中，选取10层自注意力模块中的最后一层的输出，作为深层语义特征；并且，记样本序号p∈[1,ns]且q∈[1,n
t
]，对应的样本且记和在模型注意力模块最后一层的输出分别为：(第一文本识别结果)和(第二文本识别结果)，其中，t
p
和tq分别为和的第一特征时间维长度以及第二特征时间维长度，且第一特征时间维长度以及第二特征时间维长度和对应样本音频的时长成正比。此处需要补充说明的是，第一音频时长与第二音频时长可以相同，也可以不同，本示例对此不做特殊限定。
[0105]
进一步的，分别计算源领域语音数据和目标领域语音数据的第一协方差以及第二协方差，分别为cs∈rd×d(第一协方差)和c
t
∈rd×d(第二协方差)，计算方法可以如下公式(3)以及公式(4)所示：
[0106][0107][0108]
其中，(预设的第一矢量)，(预设的第二矢量)分别为元素全为1的矢量，*表示矩阵或矢量的转置。
[0109]
在步骤s130中，根据所述第一协方差以及第二协方差构建第二损失函数，并根据第一损失函数以及第二损失函数构建目标损失函数。
[0110]
在本示例实施例中，首先，根据所述第一协方差以及第二协方差构建第二损失函数。具体的，参考图6所示，可以包括以下步骤：
[0111]
步骤s610，获取所述待训练的语音识别模型中包括的自注意力模块的特征维长度；
[0112]
步骤s620，计算所述第一协方差以及第二协方差的矩阵范数，并根据所述矩阵范数以及所述自注意力模块的特征维长度，构建所述第二损失函数。
[0113]
以下，将对步骤s610以及步骤s620进行解释以及说明。具体的，第二损失函数lc的具体计算方法可以如下公式(5)所示：
[0114][0115]
其中，||
·
||f表示frobenius范数，简称f-范数，也即矩阵范数，可以被定义为矩阵各项元素的绝对值平方的总和；d为自注意力模块的特征维长度，在本示例中，d＝256。
[0116]
进一步的，当得到第二损失函数以后，即可根据第一损失函数以及第二损失函数构建目标损失函数。具体的，可以包括：对所述第二损失函数以及预设的平衡参数进行求积运算，并对所述第一损失函数以及求积运算结果，构建所述目标损失函数；其中，所述预设的平衡参数用于对第一损失函数以及第二损失函数进行平衡，所述第一损失函数用于对所述待训练的语音识别模型进行训练，所述第二损失函数用于对所述源领域语音数据集以及目标领域语音数据集进行对齐。
[0117]
具体的，利用asr损失函数la(第一损失函数)和coral损失函数lc(第二损失函数)，计算获得最终的目标损失函数l，具体可以如下公式(6)所示：
[0118]
l＝la λlc；
ꢀꢀꢀ
公式(6)
[0119]
其中，参数λ可以用来平衡asr训练和coral特征对齐；当λ＝0时，该方法退化为基于sd数据的模型训练，最终得到的模型在sd数据上性能可能很差；当λ
→
∞时，该方法将忽略对asr的学习，而是仅关注sd和td的特征对齐，最终可能收敛得到的模型会将所有的音频数据输出同样的结果；在本公开中，λ设置为1.5
×
104。
[0120]
基于此可以得知，在目标损失函数中，由于第二损失函数为特征对齐损失函数，该第二损失函数可以让语音识别模型在学习过程中，使得源领域语音数据集以及目标领域语音数据集在模型中的深层语义特征保持一致，从而在没有源领域语音数据的文本标注结果的情况下，通过训练好的语音识别模型对包括远场混响冲击响应的待识别语音数据进行识别时，可以继承源领域语音数据集的知识，进而进一步的提高识别结果的准确率。
[0121]
在步骤s140中，根据所述目标损失函数对所述待训练的语音识别模型中包括的参数进行更新，得到训练完成的语音识别模型。
[0122]
在本示例实施例中，可以采用反向传播算法进行待训练的语音识别模型(神经网络模型)中包括的参数进行更新，具体的，可以采用现有adam优化算法。其中，最终的模型性能如下表1所示。
[0123]
表1
[0124][0125]
基于上表1可以得出，仅采用sd语音数据及标注训练得到的asr模型，在td测试集准确率为78.58％。相比较而言，采用本公开提出的基于coral的无监督领域自适应语音识别方法，在td测试集准确率为82.99％，准确率提升4.4％。在无td标注数据的情况下，最终测试集提升效果非常显著，验证了本公开方法的有效性。
[0126]
以下，结合图7对本公开示例实施例的语音识别模型的训练方法进行进一步的解释以及说明。参考图7所示，该语音识别模型的训练方法可以包括以下步骤：
[0127]
步骤s701，准备sd语音数据和文本标注，以及td无标注语音数据；其中，sd数据集为中文语音数据，共150小时，音频采样率为16khz，td数据集为在sd数据集的基础上，随机
添加远场混响冲击响应的语音数据
[0128]
步骤s702，设计端到端深度神经网络asr模型结构；其中，端到端asr模型结构包括3层卷积神经网络(convolutional neural network：cnn)，10层自注意力模块(self-attention block，sab)，和2层全连接层(fully connected：fc)组成；该asr模型能够将输入端的一段音频特征矩阵直接转成输出端的文本识别结果，易于模型训练、推理和优化；
[0129]
步骤s703，设计基于coral的uda损失函数；其中，损失函数包括也即asr损失函数和coral损失函数；
[0130]
步骤s704，采用反向传播算法进行神经网络模型训练。
[0131]
至此，可以毫无疑问的得出，本公开示例实施例所提供的语音识别模型的训练方法，不仅可以避免现有技术中存在的在很多实际场景中，极少会遇到绝对的sd数据和td数据二分类的任务，大多数语音数据的分类往往较为模糊，并不适用于采用分类器问题进行uda的问题，还可以解决由于微调asr模型的方法依然需要人工标注，且由于训练数据量较少，可能会面临模型训练过拟合的问题；同时，也无需对目标领域语音数据集进行标注，避免了当语音数据中含有口音、背景噪音、远场混响等导致语音清晰度或辨识度较差，需要浪费大量的人力成本的问题；进一步的，由于第二损失函数为特征对齐损失函数，该第二损失函数可以让语音识别模型在学习过程中，使得源领域语音数据集以及目标领域语音数据集在模型中的深层语义特征保持一致，从而在没有源领域语音数据的文本标注结果的情况下，通过训练好的语音识别模型对包括远场混响冲击响应的待识别语音数据进行识别时，可以继承源领域语音数据集的知识，进而进一步的提高识别结果的准确率。
[0132]
需要进一步补充说明的是，本公开所提供的语音识别模型的训练方法，在sd音频数据和标注的基础上，利用td无标注数据，来提高模型在td上的性能；并且，还克服了基于grl方法在变长音频数据特征对齐上的不足，并最终显著提升了端到端asr模型在td上的准确率。
[0133]
最后，当得到上述训练完成的语音识别模型以后，即可根据该训练完成的语音识别模型对待识别语音数据进行识别，具体的可以包括：首先，采集待识别语音数据；其中，所述待识别语音数据包括近场语音数据和远场语音数据中的至少一种；所述远场语音数据包括背景噪音和/或远场混响；其次，将所述待识别语音数据输入至训练完成的语音识别模型中，得到语音识别结果；其中，所述训练完成的语音识别模型是通过前述所述的语音识别模型的训练方法对待训练的语音识别模型进行训练得到的。
[0134]
此处需要补充说明的是，上述待识别语音数据可以是近场语音数据(例如语音数据的发起者距离麦克风《20厘米)，也可以是包括背景噪音和/或远场混响的远场语音数据(例如语音数据的发起者距离麦克风＞1米，或者存在口音、背景噪音以及远场混响等特定场景的语音数据)，本示例对此不做特殊限制。
[0135]
本公开还提供了一种语音识别模型的训练装置。参考图8所示，该语音识别模型的训练装置可以包括第一计算模块810、第二计算模块820、目标损失函数构建模块830以及语音识别模型训练模块840。其中：
[0136]
第一计算模块810可以用于根据源领域语音数据集以及预设的远场混响冲击响应集合，计算目标领域语音数据集，并将所述源领域语音数据集以及目标领域语音数据集分别输入至待训练的语音识别模型中，得到第一文本识别结果以及第二文本识别结果；
[0137]
第二计算模块820可以用于根据第一文本识别结果以及所述源领域语音数据集中包括的语音标注结果，构建第一损失函数，并计算所述第一文本识别结果以及第二文本识别结果的第一协方差以及第二协方差；
[0138]
目标损失函数构建模块830可以用于根据所述第一协方差以及第二协方差构建第二损失函数，并根据第一损失函数以及第二损失函数构建目标损失函数；
[0139]
语音识别模型训练模块840可以用于根据所述目标损失函数对所述待训练的语音识别模型中包括的参数进行更新，得到训练完成的语音识别模型。
[0140]
在本公开的一种示例性实施例中，根据源领域语音数据集以及预设的远场混响冲击响应集合，计算目标领域语音数据集，包括：
[0141]
抽取所述源领域语音数据集中的原始音频数据以及预设的远场混合冲击响应集合中的冲击响应样本；其中，所述原始音频数据为中文语音数据；
[0142]
对所述原始音频数据以及所述冲击响应样本进行卷积计算，得到目标音频数据；其中，所述原始音频数据以及目标音频数据的音频特征矩阵均为81维梅尔谱特征；
[0143]
根据多个目标音频数据生成所述目标领域语音数据集。
[0144]
在本公开的一种示例性实施例中，根据第一文本识别结果以及所述源领域语音数据集中包括的语音标注结果，构建第一损失函数，包括：
[0145]
计算所述第一文本识别结果中所包括的输出矩阵中，构成所述源领域语音数据集中包括的语音标注结果的所有路径的路径集合；
[0146]
计算所述路径集合中每一条路径中所包括的每一个元素属于所述语音标注结果中对应位置上的元素的概率的乘积；
[0147]
对所述路径集合中所包括的所有路径的概率的乘积进行求和，并以求和结果为最大值为目标，构建所述第一损失函数。
[0148]
在本公开的一种示例性实施例中，计算所述第一文本识别结果以及第二文本识别结果的第一协方差以及第二协方差，包括：
[0149]
根据所述源领域语音数据集中包括的原始音频数据的第一音频时长以及目标领域语音数据集中包括目标音频数据的第二音频时长，计算第一特征时间维长度以及第二特征时间维长度；
[0150]
根据所述第一文本识别结果、第一特征时间维长度以及预设的第一矢量，计算所述第一协方差；
[0151]
根据所述第二文本识别结果、第二特征时间维长度以及预设的第二矢量，计算所述第二协方差。
[0152]
在本公开的一种示例性实施例中，根据所述第一协方差以及第二协方差构建第二损失函数，包括：
[0153]
获取所述待训练的语音识别模型中包括的自注意力模块的特征维长度；
[0154]
计算所述第一协方差以及第二协方差的矩阵范数，并根据所述矩阵范数以及所述自注意力模块的特征维长度，构建所述第二损失函数。
[0155]
在本公开的一种示例性实施例中，根据第一损失函数以及第二损失函数构建目标损失函数，包括：
[0156]
对所述第二损失函数以及预设的平衡参数进行求积运算，并对所述第一损失函数
以及求积运算结果，构建所述目标损失函数；
[0157]
其中，所述预设的平衡参数用于对第一损失函数以及第二损失函数进行平衡，所述第一损失函数用于对所述待训练的语音识别模型进行训练，所述第二损失函数用于对所述源领域语音数据集以及目标领域语音数据集进行对齐。
[0158]
在本公开的一种示例性实施例中，将所述源领域语音数据集以及目标领域语音数据集分别输入至待训练的语音识别模型中，得到第一文本识别结果以及第二文本识别结果，包括：
[0159]
利用所述待识别的语音识别模型中包括的卷积神经网络分别提取所述源领域语音数据集中的原始音频数据以及目标领域语音数据集中的目标音频数据的第一局部特征以及第二局部特征；
[0160]
利用所述待识别的语音识别模型中包括的自注意力模块分别根据所述第一局部特征以及第二局部特征，计算所述原始音频数据的第一全局特征以及目标音频数据的第二全局特征；
[0161]
利用所述待识别的语音识别模型中包括的全连接层分别对所述第一全局特征以及第二全局特征进行分类，得到所述原始音频数据的第一文本识别结果以及目标音频数据的第二文本识别结果。
[0162]
本公开还提供了一种语音识别装置。该语音识别装置可以包括数据采集模块以及语音识别模块。其中：
[0163]
数据采集模块，可以用于采集待识别语音数据；其中，所述待识别语音数据包括近场语音数据和远场语音数据中的至少一种；所述远场语音数据包括背景噪音和/或远场混响；
[0164]
语音识别模块，可以用于将所述待识别语音数据输入至训练完成的语音识别模型中，得到语音识别结果；其中，所述训练完成的语音识别模型是通过前述所述的语音识别模型的训练方法对待训练的语音识别模型进行训练得到的。
[0165]
上述语音识别模型的训练装置以及语音识别装置中各模块的具体细节已经在对应的语音识别模型的训练方法以及语音识别方法中进行了详细的描述，因此此处不再赘述。
[0166]
应当注意，尽管在上文详细描述中提及了用于动作执行的设备的若干模块或者单元，但是这种划分并非强制性的。实际上，根据本公开的实施方式，上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之，上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。
[0167]
此外，尽管在附图中以特定顺序描述了本公开中方法的各个步骤，但是，这并非要求或者暗示必须按照该特定顺序来执行这些步骤，或是必须执行全部所示的步骤才能实现期望的结果。附加的或备选的，可以省略某些步骤，将多个步骤合并为一个步骤执行，以及/或者将一个步骤分解为多个步骤执行等。
[0168]
在本公开的示例性实施例中，还提供了一种能够实现上述方法的电子设备。
[0169]
所属技术领域的技术人员能够理解，本公开的各个方面可以实现为系统、方法或程序产品。因此，本公开的各个方面可以具体实现为以下形式，即：完全的硬件实施方式、完全的软件实施方式(包括固件、微代码等)，或硬件和软件方面结合的实施方式，这里可以统
称为“电路”、“模块”或“系统”。
[0170]
下面参照图9来描述根据本公开的这种实施方式的电子设备900。图9显示的电子设备900仅仅是一个示例，不应对本公开实施例的功能和使用范围带来任何限制。
[0171]
如图9所示，电子设备900以通用计算设备的形式表现。电子设备900的组件可以包括但不限于：上述至少一个处理单元910、上述至少一个存储单元920、连接不同系统组件(包括存储单元920和处理单元910)的总线930以及显示单元940。
[0172]
其中，所述存储单元存储有程序代码，所述程序代码可以被所述处理单元910执行，使得所述处理单元910执行本说明书上述“示例性方法”部分中描述的根据本公开各种示例性实施方式的步骤。例如，所述处理单元910可以执行如图1中所示的步骤s110：根据源领域语音数据集以及预设的远场混响冲击响应集合，计算目标领域语音数据集，并将所述源领域语音数据集以及目标领域语音数据集分别输入至待训练的语音识别模型中，得到第一文本识别结果以及第二文本识别结果；步骤s120：根据第一文本识别结果以及所述源领域语音数据集中包括的语音标注结果，构建第一损失函数，并计算所述第一文本识别结果以及第二文本识别结果的第一协方差以及第二协方差；步骤s130：根据所述第一协方差以及第二协方差构建第二损失函数，并根据第一损失函数以及第二损失函数构建目标损失函数；步骤s140：根据所述目标损失函数对所述待训练的语音识别模型中包括的参数进行更新，得到训练完成的语音识别模型。
[0173]
存储单元920可以包括易失性存储单元形式的可读介质，例如随机存取存储单元(ram)9201和/或高速缓存存储单元9202，还可以进一步包括只读存储单元(rom)9203。
[0174]
存储单元920还可以包括具有一组(至少一个)程序模块9205的程序/实用工具9204，这样的程序模块9205包括但不限于：操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。
[0175]
总线930可以为表示几类总线结构中的一种或多种，包括存储单元总线或者存储单元控制器、外围总线、图形加速端口、处理单元或者使用多种总线结构中的任意总线结构的局域总线。
[0176]
电子设备900也可以与一个或多个外部设备1000(例如键盘、指向设备、蓝牙设备等)通信，还可与一个或者多个使得用户能与该电子设备900交互的设备通信，和/或与使得该电子设备900能与一个或多个其它计算设备进行通信的任何设备(例如路由器、调制解调器等等)通信。这种通信可以通过输入/输出(i/o)接口950进行。并且，电子设备900还可以通过网络适配器960与一个或者多个网络(例如局域网(lan)，广域网(wan)和/或公共网络，例如因特网)通信。如图所示，网络适配器960通过总线930与电子设备900的其它模块通信。应当明白，尽管图中未示出，可以结合电子设备900使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、raid系统、磁带驱动器以及数据备份存储系统等。
[0177]
通过以上的实施方式的描述，本领域的技术人员易于理解，这里描述的示例实施方式可以通过软件实现，也可以通过软件结合必要的硬件的方式来实现。因此，根据本公开实施方式的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质(可以是cd-rom，u盘，移动硬盘等)中或网络上，包括若干指令以使得一台计算设备(可以是个人计算机、服务器、终端装置、或者网络设备等)执行根据本公开实施方式的
方法。
[0178]
在本公开的示例性实施例中，还提供了一种计算机可读存储介质，其上存储有能够实现本说明书上述方法的程序产品。在一些可能的实施方式中，本公开的各个方面还可以实现为一种程序产品的形式，其包括程序代码，当所述程序产品在终端设备上运行时，所述程序代码用于使所述终端设备执行本说明书上述“示例性方法”部分中描述的根据本公开各种示例性实施方式的步骤。
[0179]
根据本公开的实施方式的用于实现上述方法的程序产品，其可以采用便携式紧凑盘只读存储器(cd-rom)并包括程序代码，并可以在终端设备，例如个人电脑上运行。然而，本公开的程序产品不限于此，在本文件中，可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
[0180]
所述程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以为但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(ram)、只读存储器(rom)、可擦式可编程只读存储器(eprom或闪存)、光纤、便携式紧凑盘只读存储器(cd-rom)、光存储器件、磁存储器件、或者上述的任意合适的组合。
[0181]
计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了可读程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任何可读介质，该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。
[0182]
可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于无线、有线、光缆、rf等等，或者上述的任意合适的组合。
[0183]
可以以一种或多种程序设计语言的任意组合来编写用于执行本公开操作的程序代码，所述程序设计语言包括面向对象的程序设计语言-诸如java、c 等，还包括常规的过程式程序设计语言-诸如“c”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中，远程计算设备可以通过任意种类的网络，包括局域网(lan)或广域网(wan)，连接到用户计算设备，或者，可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。
[0184]
此外，上述附图仅是根据本公开示例性实施例的方法所包括的处理的示意性说明，而不是限制目的。易于理解，上述附图所示的处理并不表明或限制这些处理的时间顺序。另外，也易于理解，这些处理可以是例如在多个模块中同步或异步执行的。
[0185]
本领域技术人员在考虑说明书及实践这里发明的发明后，将容易想到本公开的其他实施例。本技术旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未发明的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由权利要求指出。

再多了解一些

1/2 1 2 下一页尾页

本文用于创业者技术爱好者查询，仅供学习研究，如用于商业用途，请联系技术所有人。

上一篇：返回列表
下一篇：用于处理嵌入在MPEG-H3D音频流中的辅媒体流的方法及设备与流程

语音识别模型的训练方法及装置、语音识别方法与流程

相关文献

最热文献