模型处理方法、装置、电子设备及可读存储介质与流程

2022-02-19 03:41:55 来源：中国专利 TAG：

1.本发明属于网络技术领域，特别是涉及一种模型处理方法、装置、电子设备及可读存储介质。

背景技术：

2.目前，随着网络技术的不断发展，语音识别的应用越来越广泛。具体进行语音识别时，往往需要结合声学模型来实现语音识别。
3.相关技术中，使用声学模型进行语音识别时，会出现处理效率较低，耗时较长的问题。

技术实现要素：

4.本发明提供一种模型处理方法、装置、电子设备及可读存储介质，以解决问题发现的效率低的问题。
5.第一方面，本发明提供一种模型处理方法，所述方法包括：
6.将待识别音频的帧特征作为目标声学模型的输入；
7.对于任一帧特征，利用所述目标声学模型中的注意力模块，基于所述帧特征以及所述帧特征的第一范围内的相邻帧特征，计算第一注意力权重矩阵；所述目标声学模型在训练过程中使用的相邻帧特征的范围为第二范围，所述第二范围小于所述第一范围；
8.基于所述第一注意力权重矩阵，生成所述目标声学模型的输出，以确定所述待识别音频对应的文本。
9.第二方面，本发明提供一种模型处理装置，所述装置包括：
10.输入模块，用于将待识别音频的帧特征作为目标声学模型的输入；
11.第一计算模块，用于对于任一帧特征，利用所述目标声学模型中的注意力模块，基于所述帧特征以及所述帧特征的第一范围内的相邻帧特征，计算第一注意力权重矩阵；所述目标声学模型在训练过程中使用的相邻帧特征的范围为第二范围，所述第二范围小于所述第一范围；
12.生成模块，用于基于所述第一注意力权重矩阵，生成所述目标声学模型的输出，以确定所述待识别音频对应的文本。
13.第三方面，本发明提供一种电子设备，包括：处理器、存储器以及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现上述方法。
14.第四方面，本发明提供一种可读存储介质，当所述存储介质中的指令由电子设备的处理器执行时，使得电子设备能够执行上述方法。
15.在本发明实施例中，将待识别音频的帧特征作为目标声学模型的输入。对于任一帧特征，利用目标声学模型中的注意力模块，基于帧特征以及帧特征的第一范围内的相邻帧特征，计算第一注意力权重矩阵，目标声学模型在训练过程中使用的相邻帧特征的范围
为第二范围，第二范围小于第一范围；基于第一注意力权重矩阵，生成目标声学模型的输出，以确定待识别音频对应的文本。相较于直接使用整句音频中的所有其他帧特征的方式，本发明中由于训练过程中仅是使用第二范围内的相邻帧特征，即，仅使用部分相邻的帧特征，因此，一定程度上可以缩短声学模型在训练过程中的处理时长，从而提高处理效率。同时，在对待识别语音进行处理时，结合更大的第一范围内的相邻帧特征计算第一注意力权重矩阵，实现语音识别，由于采用的相邻帧特征更多，进而一定程度上可以提高音频识别的准确性。
附图说明
16.为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。
17.图1是本发明实施例提供的一种模型处理方法的步骤流程图；
18.图2是本发明实施例示出的一种全局示意图；
19.图3是本公开实施例提供的一种初始声学模型的权重示意图；
20.图4是本发明实施例提供的一种局部示意图；
21.图5是本发明实施例示出的一种模型结构示意图；
22.图6是本发明实施例示出的一种读取方式示意图；
23.图7是本发明实施例提供的另一种读取方式示意图；
24.图8是本发明实施例提供的一种准确率的示意图；
25.图9是本发明实施例提供的一种实时率的示意图；
26.图10是本发明实施例提供的一种模型处理装置的结构图；
27.图11是本发明实施例提供的一种电子设备的结构图。
具体实施方式
28.下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。
29.图1是本发明实施例提供的一种模型处理方法的步骤流程图，如图1所示，该方法可以包括：
30.步骤101、将待识别音频的帧特征作为目标声学模型的输入。
31.本发明实施例提供的模型处理方法可以应用于电子设备。本发明实施例中的待识别音频可以是需要被识别为文本的音频，示例的，待识别音频可以是网络平台中用户输入的语音。目标声学模型可以是预先训练好的声学模型。具体的，可以先按照预设长度将待识别音频分成多段，从而得到多个音频帧。示例的，假设预设长度为10毫秒(ms)，那么可以将待识别音频中每10ms的一个音频段作为一个音频帧。接着，可以对各个音频帧进行特征提取，得到帧特征。具体的，可以先进行语音端点检测(voice activity detection，vad)，然
后基于傅里叶变化等预设操作实现特征提取。最后，可以将帧特征输入至目标声学模型，以通过目标声学模型进行处理。
32.步骤102、对于任一帧特征，利用所述目标声学模型中的注意力模块，基于所述帧特征以及所述帧特征的第一范围内的相邻帧特征，计算第一注意力权重矩阵；所述目标声学模型在训练过程中使用的相邻帧特征的范围为第二范围，所述第二范围小于所述第一范围。
33.本发明实施例中，因为音频信息往往具有上下文相关性，因此，通过在目标声学模型中设置注意力模块，通过注意力模型根据帧特征以及帧特征附近的相邻帧特征，计算第一注意力权重矩阵，使得声学模型可以关注到上下文相关性，从而一定程度上可以确保声学模型的识别效果。其中，相邻帧特征可以包括与该帧特征直接相邻的帧特征以及与该帧特征间接相邻的帧特征。进一步地，第一范围以及第二范围可以是根据实际情况预先设置的，示例的，第一范围内的相邻帧特征可以为待计算的帧特征位于同一行的部分/全局帧特征。由于目标声学模型在训练过程中使用的第二范围内的相邻帧特征，即，结合帧特征的附近的部分帧特征，因此，可以确保模型在训练过程中学习到上下文相关性的同时，避免耗时过长的问题。进一步地，在使用训练好的目标声学模型进行音频识别的过程中，采用第一范围，即，更大范围内的相邻帧特征，从而一定程度上可以为实际识别过程提供更充分的上下文信息，从而确保实际识别效果。
34.步骤103、基于所述第一注意力权重矩阵，生成所述目标声学模型的输出，以确定所述待识别音频对应的文本。
35.本发明实施例中，可以将第一注意力权重矩阵作为目标声学模型中注意力模块之后的模块的输入，经过后续模块的处理，得到目标声学模型的输出。其中，目标声学模型可以用于构建输入语音和输出声学单元之间的概率映射关系，即，可以用于根据输入的音频帧的帧特征，输出每帧音频的发音概率(每帧特征属于某个类别的概率，一个类别表征一种发音)。进一步地，在得到目标声学模型的输出之后，可以由解码器结合目标声学模型的输出以及预设语言模型在不同词组搭配上的打分进行筛选，从而得到待识别语音的最终识别结果，即，待识别音频对应的文本。
36.本发明实施例提供的模型处理方法，将待识别音频的帧特征作为目标声学模型的输入。对于任一帧特征，利用目标声学模型中的注意力模块，基于帧特征以及帧特征的第一范围内的相邻帧特征，计算第一注意力权重矩阵，目标声学模型在训练过程中使用的相邻帧特征的范围为第二范围，第二范围小于第一范围；基于第一注意力权重矩阵，生成目标声学模型的输出，以确定待识别音频对应的文本。相较于直接使用整句音频中的所有其他帧特征的方式，本发明中由于仅使用部分相邻的帧特征，因此，一定程度上可以缩短声学模型在训练过程中的处理时长，从而提高处理效率。同时，在对待识别语音进行处理时，结合更大的第一范围内的相邻帧特征计算第一注意力权重矩阵，实现语音识别，由于采用的相邻帧特征更多，进而一定程度上可以提高音频识别的准确性。
37.可选的，本发明实施例的一种实现方式中，上述目标声学模型可以通过下述方式训练得到：
38.步骤s21、获取已训练的初始声学模型；所述初始声学模型中的注意力模块在训练过程中使用的相邻帧特征的范围为第三范围，所述第三范围大于所述第二范围。
39.本发明实施例中，初始声学模型可以是预先训练好的声学模型，第三范围可以是根据实际需求设置的，示例的，第三范围可以覆盖输入至初始声学模型的所有帧特征，即，初始声学模型是在训练过程中结合输入至初始声学模型的音频的整句话范围内的相邻帧特征训练得到的。示例的，可以将与帧特征位于同一行，即，左右相邻的所有其他帧特征作为相邻帧特征，初始声学模型可以是使用全局的帧特征训练的。示例的，图2是本发明实施例示出的一种全局示意图，如图2所示，声学模型在训练中是一帧一帧处理数据的，斜线覆盖的方框可以表示每次计算时的帧特征，与该帧特征位于同一行的其他帧特征(其他方框)，即为该帧特征的第三范围内的相邻帧特征，可以看出，这种方式下相当于使用了整句话的范围确定注意力权重矩阵。进一步地，可以获取开源的采用全局帧特征训练得到的声学模型，以作为初始声学模型，从而实现获取已训练的初始声学模型。或者，也可以基于全局帧特征自主训练获取初始声学模型，本发明实施例对此不作限定。
40.步骤s22、以所述第二范围作为调整阶段中相邻帧特征的范围，并对所述初始声学模型进行调整训练，以获取所述目标声学模型。
41.本发明实施例中，调整阶段可以是对初始声学模型进行微调(fine tune)的阶段。对初始声学模型进行调整训练的操作本质上可以相当于对初始声学模型进行微调。需要说明的是，训练获取目标声学模型的操作的执行主体可以与对待识别音频进行识别的执行主体相同，即，均为前述电子设备。或者，也可以不同，即，训练获取目标声学模型的操作的执行主体可以为其他设备，例如，为服务器，本发明实施例对此不做限制。
42.本发明实施例中，获取训练过程中使用所有的相邻帧特征训练得到的已训练的声学模型作为初始声学模型。然后，在该初始声学模型的基础上，以第二范围作为调整阶段中相邻帧特征的范围，并对初始声学模型进行调整训练，以获取目标声学模型，其中，第二范围小于第三范围。这样，由于初始声学模型已经通过更大范围内的相邻帧特征训练。因此，在该初始声学模型的基础上，通过调整获取目标声学模型，一定程度上可以在确保最终获取到的目标声学模型的处理效果的同时，降低调整过程的计算量，从而降低目标声学模型的获取成本。同时，在已训练的初始声学模型的基础上，进一步基于第二范围进行训练，使得训练过程更为充分，从而可以提高训练效果。
43.进一步地，由于使用全局帧特征的已训练的初始声学模型往往具备局部相关性，因此，本发明实施例中，获取采用全局帧特征训练得到的声学模型，以作为初始声学模型，后续可以该初始模型的基础上，结合局部相邻帧特征进行调整的方式，一定程度上可以确保最终调整得到的目标声学模型的准确率。示例的，图3是本公开实施例提供的一种初始声学模型的权重示意图，图3是使用初始声学模型对一句随机选取的具有208帧的音频数据进行处理，并对其在第104帧所学到的注意力权重进行可视化得到的，以便于查看初始声学模型在语音数据上所学习到的关系。如图3所示，图3表示网络的第6层中注意力模块中不同的组成部分(head)：“layer6_head0”、“layer6_head1”、“layer6_head2”、“layer6_head3”以及“layer6_head_ave”，在这条语句中所学习到的权重之间的关系。从图中可以看出，注意力模块中的不同head学习到了明显不同的关注点，并且主要相关部分都在第104帧附近，即，不同于大多数的文本处理任务，声学模型中的语音信息具有局部相关性的特点。进一步地，下述表1示出了结合全局帧特征解码的方式(表1中以“global”表示)以及结合第二范围内的局部帧特征解码的方式(表1中以“local(50)”表示)在不同长度的语音上的准确率：
[0044][0045]
表1
[0046]
从上述表1可以看出，当使用结合第二范围内的局部帧特征解码的方式直接去解码时，声学模块出现了性能损失(准确率下降)，但声学模块的准确率并没有明显恶化。由此可见，这种解码方式可以保留声学模型中大多数学习到的信息，这与前述的得到的局部相关性是相符合的。因此，获取采用全局帧特征训练得到的声学模型，作为初始声学模型，后续可以该初始模型的基础上，结合局部相邻帧特征进一步地进行调整优化的方式，一定程度上可以确保最终调整得到的目标声学模型的准确率以及确保处理性能。
[0047]
可选的，上述以所述第二范围作为调整阶段中相邻帧特征的范围，并对所述初始声学模型进行调整训练，以获取所述目标声学模型的操作，可以具体包括：
[0048]
步骤s31、将训练音频的样本帧特征作为所述初始声学模型的输入，并从所述初始声学模型对应的指定处理阶段开始，基于所述样本帧特征以及所述样本帧特征的第二范围内的相邻样本帧特征，计算第二注意力权重矩阵。
[0049]
本发明实施例中，训练音频可以是基于实际需求选取的，示例的，训练音频可以包括网络平台中不同场景下用户输入的历史音频，训练音频可以包括多条，每条训练音频的样本帧特征的获取方式，可以参照前述获取待识别音频的帧特征的实现方式，本发明实施例对此不作限制。进一步地，指定处理阶段可以是涉及到计算注意力权重矩阵的阶段，注意力权重矩阵可以用于表征帧特征之间的帧相关性，指定处理阶段可以是根据实际需求预先设置的，例如，从指定处理阶段开始训练，可以覆盖初始声学模型对应的整个训练阶段，也可以仅覆盖部分训练阶段。进一步地，计算注意力权重矩阵时，可以基于初始声学模型中的注意力模块，按照预设计算公式进行计算。其中，该预设计算公式可以为：
[0050][0051]
进一步地，在获取样本帧特征以及样本帧特征的第二范围内的相邻样本帧特征参与计算时，可以通过加窗的方式实现选定第二范围内的相邻样本帧特征。示例的，可以使用滑动窗口来限制某一帧特征在计算时对于其他帧的可见范围，使其更好的专注于计算该帧特征与附近部分帧特征的关系。示例的，图4是本发明实施例提供的一种局部示意图，如图4所示，斜线覆盖的方框可以表示每次计算时的帧特征，网状覆盖的方框表示计算该帧特征时使用的第二范围内的相邻帧特征。由于每次参与计算的相邻帧特征为局部的部分帧特征，这样，一定程度上可以减少attention操作的计算量，进而可以确保不管句子多长，均可以确保声学模型具有线性的复杂度，从而缩短处理长语句所需要的时间，降低时间复杂度。
示例的，可以将复杂度由o(n2)降为o(n)。
[0052]
步骤s32、基于所述第二注意力权重矩阵，对所述初始声学模型进行参数调整，以获取所述目标声学模型。
[0053]
本步骤中，可以先基于该第二注意力权重矩阵，获取初始声学模型的输出。然后基于输出以及训练音频的样本帧特征对应的标签，对初始声学模型进行参数调整，直至初始声学模块满足预设停止条件为止，从而得到目标声学模型。其中，训练音频对应的标签可以是预先获取的。具体的，声学模型的训练数据可以是音频信息，即，训练音频，标注数据可以是字符级别的文本信息。为了在帧的层面进行神经网络训练，可以在获取样本帧特征的环节，将训练音频划分为音频帧，得到样本音频帧。然后提取样本音频帧的帧特征，得到样本帧特征。进一步地，与常规有监督任务不同，由于标注数据中字符的数量往往远小于训练数据中样本帧特征的数量，且无法预先确定帧特征和字符之间的关系。因此，可以进行hmm
‑
gmm模型的训练，以根据帧特征以及标注数据来确定这些帧特征可分为多少种类的状态以及每一帧特征在状态层面的对齐结果(即，发音概率)，从而得到样本帧特征的标签(label)。
[0054]
进一步地，可以基于初始声学模型的输出以及标签计算损失值，然后基于损失值进行模型参数调整，以优化声学模型。通过多轮循环调整，可以使得声学模型在微调阶段中逐渐趋于收敛。最后，可以在达到预设停止条件的情况下，停止微调。其中，预设停止条件可以是根据实际需求设置的，示例的，预设停止条件可以为参数调整次数达到预设次数阈值，或者，也可以为当前损失值小于预设阈值，等等。
[0055]
本发明实施例中，将训练音频的样本帧特征作为初始声学模型的输入，并从初始声学模型对应的指定处理阶段开始，基于样本帧特征以及样本帧特征的第二范围内的相邻样本帧特征，计算第二注意力权重矩阵；基于第二注意力权重矩阵，对初始声学模型进行参数调整，以获取目标声学模型。这样，以使用大范围的相邻帧特征训练的初始声学模型为基础，在微调阶段继续以更小范围内的相邻帧特征对初始声学模型进行加强训练，可以使得声学模型能够更好的专注于计算帧特征与其附近帧特征的关系的能力，同时，在后续通过进一步对初始声学模型的参数进行调整，可以进一步优化声学模型，从而得到处理效果更好的目标声学模型。
[0056]
实际应用场景中，声学模型的训练过程可能有多个阶段，例如，hybrid声学模型的训练过程往往有多个阶段。可选的，本发明实施例中的初始声学模型可以是通过第一训练阶段以及第二训练阶段训练得到，第二训练阶段位于第一训练阶段之后。相应地，前述指定处理阶段可以为第二训练阶段。其中，第一训练阶段以及第二训练阶段均是能够完整实现声学模型训练的阶段，第一训练阶段以及第二训练阶段中可以均涉及注意力权重矩阵的计算操作。本发明实施例中，先进行第一训练阶段，然后进行第二训练阶段，得到初始声学模型，这样可以确保初始声学模型的准确率，从而确保初始声学模型的处理性能。示例的，第一训练阶段可以为“lf
‑
mmi”，第二训练阶段可以为“smbr”。其中，smbr以及lf
‑
mmi训练过程中使用全局范围内的相邻帧特征，即，进行global lf
‑
mmi以及global smbr。相应地，本发明实施例中，可以以采用global attention的smbr模型为基础，直接以smbr作为指定处理阶段，开始微调。即，可以先经过global lf
‑
mmi训练，然后在训练结果的基础上进一步进行global smbr训练。接着，从smbr阶段开始微调，即，在global smbr训练的结果上，进一步进
行local smbr，从而得到目标声学模型。其中，local smbr训练过程中使用局部范围内的相邻帧特征。
[0057]
当然，实际应用场景，也可以将第一训练阶段作为指定处理阶段，即，从lf
‑
mmi阶段开始进行微调，以使得微调阶段可以进行local lf
‑
mmi以及local smbr。或者，初始声学模型也可以是仅采用单个训练阶段训练得到，本发明实施例对此不作限制。示例的，初始声学模型可以是仅经过global lf
‑
mmi得到声学模型，相应地，可以从lf
‑
mmi阶段开始进行微调，即，在微调过程中可以通过local lf
‑
mmi以及local smbr操作，训练获取目标声学模型。
[0058]
本发明实施例中，从初始声学模型涉及的后半部分训练阶段开始微调训练，可以在通过微调优化初始声学模型的同时，减少实现成本。同时，通过选用经过两个训练阶段训练得到的声学模型作为初始声学模型，一定程度上可以确保选取的初始声学模型具备更好的处理性能，从而为微调阶段提供处理性能更好的模型基础，进而提高最终得到的目标声学模型的模型性能。
[0059]
可选的，在本发明的一种实现方式中，上述所述初始声学模型以及所述指定处理阶段，可以通过下述步骤选定：
[0060]
步骤s41、获取已训练的备选声学模型；所述备选声学模型中的注意力模块在训练过程中使用的相邻帧特征的范围为所述第三范围，不同备选声学模型经过的训练阶段不同。
[0061]
示例的，备选声学模型可以包括上述经过global lf
‑
mmi以及global smbr训练得到的声学模型，以及，上述仅经过global lf
‑
mmi训练得到的声学模型。其中，各个备选声学模型在训练过程中结合全局的相邻帧特征训练得到。
[0062]
步骤s42、对于任一备选声学模型，从所述备选声学模型的各训练阶段开始，基于测试样本的帧特征以及所述帧特征的第二范围内的相邻样本帧特征，计算第三注意力权重矩阵，以获取优化后的所述备选声学模型。
[0063]
本步骤中，计算第三注意力权重矩阵的实现方式可以参照前述相关步骤的实现方式，此处不再赘述。进一步地，在计算得到第三注意力权重矩阵之后，可以进一步基于第三注意力权重矩阵确定备选声学模型的输出，然后基于备选声学模型的输出以及测试样本的帧特征对应的标签，对备选声学模型进行参数调整，从而实现优化。最终在满足预设停止条件之后，得到优化后的所述备选声学模型。其中，这些步骤的具体实现方式可以参照前述相关步骤的实现方式，此处不再赘述。
[0064]
步骤s43、基于各优化后的所述备选声学模型的性能参数，从所述备选声学模型中选择初始声学模型，并确定所述初始声学模型对应的指定处理阶段。
[0065]
本步骤中，性能参数可以是备选声学模型的准确率。示例的，可以使用各优化后的所述备选声学模型对不同场景下的音频集进行处理，以确定该备选声学模型的准确率。进一步地，可以基于性能参数选择初始声学模型。示例的，可以从准确率满足预设要求的备选声学模型中选择训练成本最低的。示例的，得到的性能参数可以如下表2所示：
[0066][0067]
表2
[0068]
其中，global base model表示备选声学模型，global base model中的“smbr”表示经过global lf
‑
mmi以及global smbr训练得到的声学模型，global base model中的“lf
‑
mmi”表示仅经过global lf
‑
mmi训练得到的声学模型。fine tune stage表示开始的训练阶段，fine tune stage中的“lf
‑
mmi”表示从lf
‑
mmi阶段开始，经过local lf
‑
mmi以及local smbr实现优化，fine tune stage中的“smbr”表示从smbr阶段开始，经过local smbr实现优化。call center、clean、noise以及privacy分别表示不同场景下的音频集。可以看出这几种方式的准确率均较高，因此，考虑到训练成本，可以以经过global lf
‑
mmi以及global smbr训练得到的声学模型作为初始声学模型，将smbr阶段作为指定处理阶段。
[0069]
需要说明的是，上述步骤s41～步骤s43中的执行主体可以与目标声学模型的应用环节中的执行主体、训练目标声学模型的执行主体相同，或者，也可以不同，本发明实施例对此不作限定。
[0070]
本发明实施例中，获取已训练的备选声学模型，备选声学模型中的注意力模块在训练过程中使用的相邻帧特征的范围为第三范围，不同备选声学模型经过的训练阶段不同。对于任一备选声学模型，从备选声学模型的各训练阶段开始，基于测试样本的帧特征以及帧特征的第二范围内的相邻样本帧特征，计算第三注意力权重矩阵，以获取优化后的备选声学模型。基于各优化后的备选声学模型的性能参数，从备选声学模型中选择初始声学模型，并确定初始声学模型对应的指定处理阶段。这样，通过选择确定出性能参数，以性能参数选择初始声学模型以及指定处理阶段，一定程度上可以确保最终训练获取的目标声学模型的性能。
[0071]
可选的，上述将待识别音频的帧特征作为目标声学模型的输入之前，还可以执行下述步骤：步骤s51、将所述目标声学模型部署至预设的线上打分库。其中，待识别音频可以为线上应用环节中的用户发送的音频，线上打分库可以为网络平台的各种工程提供语音识别的在线支持，从而实现网络平台的各种功能，实现工程和算法模型上的联合优化。示例的，在段式的语音识别场景下，可以通过部署线上打分库，实现隐私号转录，客服转录等功能。其中，段式场景是可以等一句话说完再进行识别的场景，在识别过程中可以利用到一整句话的信息。
[0072]
相应地，上述所述基于所述第一注意力权重矩阵，生成所述目标声学模型的输出，以确定所述待识别音频对应的文本的操作，可以具体包括：
[0073]
步骤s61、通过所述线上打分库，基于所述第一注意力权重矩阵获取所述目标声学模型的输出。
[0074]
示例的，可以将第一注意力权重矩阵作为目标声学模型中注意力模块之后的模块
的输入，经过后续模块的处理，得到目标声学模型的输出。示例的，以声学模型为transformer的encoder，其中，transformer是一种使用attention来对序列关系进行建模的端到端结构，可分为encoder和decoder两部分，声学模型可以看做其中的encoder部分。图5是本发明实施例示出的一种模型结构示意图，如图5所示，mha(multiheadattention)表示attention模块的主要组成部分，mha执行的操作可视为独立进行的n个attention操作，mha的计算方法可以如下述公式所述：multihead(q,k,v)＝concat(head1,
…
,head
n
)w
o
。其中，head
i
＝attention(qw
iq
，kw
ik
，vw
iv
)。进一步地，在attention模块计算出第一注意力权重矩阵之后，ffn模块可以进一步进行处理，以获取目标声学模型的输出。ffn模块可以由线性层(linear)和激活函数(relu)组成，相应地，ffn模块的计算方法可以如下述公式所述：ffn(x)＝max(0,xw1 b1)w2 b2。在图5所示的结构中，通过在最后设置layernorm(ln)层，可以避免在计算过程中完全跳过整个transformer层，以获得更好的性能。同时，在开始以及中间部分设置ln层(即，采用preln作为基础结构)，可以使得模型在训练过程中更加稳定。当然，也可以采用encoder的其他结构，例如，采用postln结构，本发明实施例对此不作限制。
[0075]
在一种实现方式中，往往是采用循环网络结构对音频帧的特征序列进行训练，例如，采用lstm、bilstm进行训练。循环网络结构是按顺序来处理数据的，隐藏层的循环操作使其可以保留之前学习到的内容，将它在时间步上进行展开。具体的，第t时刻隐层的计算需要第t
‑
1时刻的隐层的输出，循环网络结构以此来进行不同时刻的信息传递。这种方式中，由于循环机制本身的限制，在t时刻的计算依赖于t
‑
1时刻的结果，大大限制了模型的并行能力，且由于计算过程中的信息丢失，无法对长依赖关系很好的进行建模。
[0076]
本发明实施例中，采用包括注意力模块的声学模型，由于attention作为序列间关系建模的方法，可以计算任意两个帧特征之间的相关性，平等的建模更长的距离，而不必遭受传输过程中的信息损失，同时帧特征之间相关性的计算可以并行进行，进而可以提高模型的并行计算能力，增强其对于长距离关系的建模能力，优化语音识别任务的准确率，获得更快的速度，从而确保本发明实施例中声学模型的处理能力。进一步地，相较于采用循环网络的方式，本发明实施例中采用transformer的网络结构作为声学模型的基础结构，一定程度上可以提高模型的处理性能。示例的，transformer与bilstm在不同测试集上的错误率可以如下表3所示：
[0077][0078][0079]
表3
[0080]
可以看出，transformer encode作为声学模型的错误率低于bilstm的错误率。可见，transformer encode的处理性能更好，本发明实施例中采用transformer的网络结构作为声学模型的基础结构，一定程度上可以实现性能提升。
[0081]
进一步地，由于采用全局帧特征计算注意力权重矩阵时，会导致attention模块会同时计算当前帧特征与其他所有帧特征之间的相关性，对于音频的局部相关性来说，存在很多的冗余计算，进而会导致attention模块相对于句长l具备o(n2)的复杂度，从而使得声学模型在处理长数据时会存在较多计算以及内存上的开销，导致实时率降低。且对于transformer encode的网络结构，相关技术中往往是应用于其他领域的数据，由于数据也各自具有不同的特点，因此对于语音任务还存在一定的优化空间。示例的，将原本按照场景分类的测试集数据按照长度重新分类并测试他们的实时率后，可以得到如下表4所示：
[0082][0083]
表4
[0084]
可以看到，当数据的长度超过5s时，实时率就会开始变差，出现比较明显的识别速度的下降。而实际应用场景中往往会存在大量超过5s的音频，因此，单纯的transformer encode往往无法用于对速度有较高要求的任务，存在使用限制。且在极端条件下会带来系统性能和体验上的问题。本发明实施例中，采用transformer的网络结构作为声学模型的基础结构，结合语音数据的特点，在训练过程中以第二范围内的帧特征进行attention操作，同时，在使用训练得到的目标声学模型进行识别时，结合第一范围内的帧特征进行attention操作，做出适合于语音识别中声学建模任务的优化，一定程度上可以在确保识别准确率的同时，降低复杂度，确保对于长语句的识别速度。
[0085]
步骤s62、基于所述目标声学模型的输出，生成所述待识别音频对应的文本，以作为所述线上打分库的输出。
[0086]
本发明实施例中，声学模型的输出即为声学得分，相应地，部署有目标声学模型的线上打分库可以得到目标声学模型输出的声学得分。进一步地，线上语音识别系统可以基于声学得分进一步生成待识别音频对应的文本，从而实现基于线上打分库在线输出待识别音频对应的文本。示例的，获取声学得分的操作可以为语音识别系统中的部分环节，进一步地，可以基于语音识别系统中的其他环节，实现生成待识别音频对应的文本。示例的，可以通过语言模型基于语料获取语言得分，然后通过解码器结合语言得分以及声学得分，生成最终的识别结果，该识别结果即为待识别音频对应的文本。
[0087]
本发明实施例中，先将目标声学模型部署至预设的线上打分库，然后，通过线上打分库，基于第一注意力权重矩阵，生成获取目标声学模型的输出。基于目标声学模型的输出，生成待识别音频对应的文本，以作为线上语音识别系统的输出。这样，通过在线上打分库中部署目标声学模型，基于部署的目标声学模型进行线上打分，即可实现在线音频识别。同时，由于目标声学模型处理时的准确率更高，因此，一定程度上可以确保在线音频识别的准确性。
[0088]
可选的，本发明实施例中的第二范围可以与训练阶段可承受的最低处理效率正相关。由于第二范围越大，每次参与计算的相邻帧特征会更多，相应地，处理性能会更好，但是会导致对音频的处理效率更低。因此，本发明实施例中可以先确定训练阶段可承受的最低
处理效率，其中，最低处理效率可以是根据实际情况预先设定。然后测试不同值作为第二范围时处理性能以及处理效率。最后，综合处理性能以及处理效率选择第二范围。例如，选择处理效率不小于最低处理效率中处理性能最好的数值，设置为第二范围。其中，处理效率可以通过耗时表征，处理性能可以通过准确率表征。
[0089]
示例的，以数值20，50，35为例，同时以全局范围为参照，模型在不同数据集上的准确率可以如下表5所示：
[0090][0091]
表5
[0092]
其中，context size表示第二范围的数值。可以看出，当context size的数值为50的时，准确率已经较为接近采用全局范围内的相邻帧特征的模型的准确率，即，处理性能已经接近global attention的性能。因此，可以在满足最低处理效率要求的情况下，选择数值50设置为第二范围。即，微调阶段计算第二注意力权重矩阵时，可以使用样本帧特征以样本帧特征同一行中的左边以及右边的50个相邻样本帧特征。
[0093]
可选的，上述基于所述帧特征以及所述帧特征的第一范围内的相邻帧特征，计算第一注意力权重矩阵的操作之前，还可以还执行下述操作：
[0094]
步骤s71、基于预设滑窗单元读取多个帧特征及各个所述帧特征的第一范围相邻帧特征；所述第一范围内的相邻帧特征以及所述帧特征的总数量为所述预设滑窗单元在可覆盖行中可覆盖的帧特征的整数倍，所述相邻帧特征以及所述帧特征位于同一行。
[0095]
本发明实施例中，预设滑窗单元可以是预先设置的，示例的，预设滑窗单元可以为chunk形式的滑窗。预设滑窗单元可以同时覆盖多行，预设滑窗单元每次读取时所覆盖的帧特征行即为可覆盖行，可覆盖行随着预设滑窗单元滑动读取时发生变化，从而确保读取效率。对于每一行而言，由于第一范围内的相邻帧特征以及帧特征的总数量为预设滑窗单元在每行帧特征中可覆盖的帧特征的整数倍，因此，在通过预设滑窗单元读取到n次之后，可以直接使用n次读取到的帧特征，避免执行不必要的掩码(mask)操作，从而提高计算效率。示例的，图6是本发明实施例示出的一种读取方式示意图，如图6所示，为了在识别过程中获取到与训练过程中使用的相同数量(图4中所示的数量)的帧特征，与训练过程保持一致。相关技术中，需要基于预设滑窗单元01读取多次之后，再对读取到的帧特征进行mask的操作，才能使得最终保留的帧特征的数量符合需求，即，达到图6中所示的数量。进一步地，图7是
本发明实施例提供的另一种读取方式示意图，如图7所示，由于识别过程中设置的第一范围更大，且第一范围内的相邻帧特征以及帧特征的总数量为预设滑窗单元在每行帧特征中可覆盖的帧特征的整数倍，因此，本发明实施例中，通过chunk多次读取，读取到的帧特征均为可以参与计算的帧特征，因此，可以省略mask的操作，使得运算更加高效，提高处理速度。同时，相较于图6所示，由于多出来了额外的相邻帧特征，因此，一定程度上可以进一步确保识别的准确性，使得目标声学模型在识别准确性和处理速度方面均获取提升。示例的，图8是本发明实施例提供的一种准确率的示意图，如图8所示，a线条表示直接使用global模型进行解码的方式的准确率，b线条表示直接在目标声学模型的基础上，采用图6所示的方式对不同平均数据长度下的音频数据进行解码的方式的准确率，c线条表示直接在目标声学模型的基础上，采用图7所示的方式对不同平均数据长度下的音频数据进行解码的方式的准确率。从图8可以看出，采用图6所示的方式进行解码的方式的准确率相对于a线条降低，即，这种方式相对于基础global模型存在性能损失。而采用图7所示的方式进行解码的方式的准确率性能损失较小，甚至在某些部分超过基础global模型的性能。
[0096]
进一步地，图9是本发明实施例提供的一种实时率的示意图，如图9所示，由于本发明实施例中结合了语音数据的特点，在不损失识别准确率的前提下将原有的复杂度o(n2)降为了o(n)，因此，相对于基础global模型的实时率(以d线条表示)，采用图7所示的方式进行解码的方式的实时率(以e线条表示)更小，即，本发明实施例中可以获得更优的实时率。
[0097]
进一步地，由于在采用全局帧特征训练得到的global模型上通过fine tune获取local模型(即，目标声学模型)，使用全局帧特征进行解码时，会获得比local解码更好的性能。示例的，以“context50 local打分”表示在目标声学模型的基础上使用local解码的方式，以“context50 global打分”表示在目标声学模型的基础上使用全局帧特征进行解码的方式，这两种方式在不同长度的语音上的准确率可以如下表6所示：
[0098][0099]
表6
[0100]
可以看出，“context50 global打分”的方式整体表现优于“context50local打分”的方式。因此，本发明实施例中读取更大的第一范围内的相邻帧特征对待识别语音进行识别的方式，可以在确保处理性能的同时，提高识别准确率。
[0101]
下面结合语音识别的背景对本发明进行说明。随着第一个能识别英文数字发音的实验系统的诞生，开始了语音识别的进程。在语音识别发展的第一个阶段，主要使用hmm
‑
gmm模型来对声学进行建模，准确率的提升较为缓慢。在语音识别发展的第二个阶段，使用dnn模型显著提升了语音识别的准确率。第三阶段中，得益于端到端技术的发展，语音识别
网络变得更深、更复杂，同时利用端到端技术进一步提升了语音识别的性能。但是，目前声学模型对长语句的处理复杂度较高。在一种相关技术中，是通过performer进行近似attention计算。具体的，performer直接通过一个函数φ将q和k映射为维度为l乘m的q’和k’，使得q’和k’的乘积近似等于a，这样就可以使用乘法结合律先令(k’)t和v相乘，然后再和q’相乘，将attention的计算变为了句长l的线性复杂度。但是，这种方式中会存在较大的性能损失。因此，m往往会设置的很大，仅适合超长语句，对于实际应用场景中的普通长语句而言，反而会导致计算量的增加，如果m设置的较小，会导致性能损失较大，难以较好的权衡(trade off)计算量与性能损失。在另一种相关技术中，是直接通过加mask的方式，减少参与计算的帧特征。但是这种方式中，需要先计算attention然后加mask，才能实现，因此实际的处理速度往往较低，且往往需要底层的特殊实现，推广难度较大。
[0102]
本发明实施例中，从语音识别任务本身出发，结合音频数据的特点，以已训练的global模型作为初始声学模型，在初始声学模型的基础上，结合第二范围内的相邻帧特征进行局部attention计算，以获取目标声学模型。因此，可以降低计算量，实际应用场景中的普通长语句处理时的复杂度、提高处理速度的以及避免出现较大的性能损失。同时在应用目标声学模型的过程中，使用更大的第一范围内的相邻帧特征进行解码，使得可以在降低复杂度的同时，进一步确保识别准确率，确保处理性能。
[0103]
图10是本发明实施例提供的一种模型处理装置的结构图，该装置20可以包括：
[0104]
输入模块201，用于将待识别音频的帧特征作为目标声学模型的输入；
[0105]
第一计算模块202，用于对于任一帧特征，利用所述目标声学模型中的注意力模块，基于所述帧特征以及所述帧特征的第一范围内的相邻帧特征，计算第一注意力权重矩阵；所述目标声学模型在训练过程中使用的相邻帧特征的范围为第二范围，所述第二范围小于所述第一范围；
[0106]
生成模块203，用于基于所述第一注意力权重矩阵，生成所述目标声学模型的输出，以确定所述待识别音频对应的文本。
[0107]
可选的，所述目标声学模型通过下述模块训练获得：
[0108]
第一获取模块，用于获取已训练的初始声学模型；所述初始声学模型中的注意力模块在训练过程中使用的相邻帧特征的范围为第三范围，所述第三范围大于所述第二范围；
[0109]
调整模块，用于以所述第二范围作为调整阶段中相邻帧特征的范围，并对所述初始声学模型进行调整训练，以获取所述目标声学模型。
[0110]
可选的，所述调整模块，具体用于：
[0111]
将训练音频的样本帧特征作为所述初始声学模型的输入，并从所述初始声学模型对应的指定处理阶段开始，基于所述样本帧特征以及所述样本帧特征的第二范围内的相邻样本帧特征，计算第二注意力权重矩阵；
[0112]
基于所述第二注意力权重矩阵，对所述初始声学模型进行参数调整，以获取所述目标声学模型。
[0113]
可选的，所述初始声学模型通过第一训练阶段以及第二训练阶段训练得到，所述第二训练阶段位于所述第一训练阶段之后，所述指定处理阶段为所述第二训练阶段。
[0114]
可选的，所述初始声学模型以及所述指定处理阶段通过下述模块选择：
[0115]
第二获取模块，用于获取已训练的备选声学模型；所述备选声学模型中的注意力模块在训练过程中使用的相邻帧特征的范围为所述第三范围，不同备选声学模型经过的训练阶段不同；
[0116]
第二计算模块，用于对于任一备选声学模型，从所述备选声学模型的各训练阶段开始，基于测试样本的帧特征以及所述帧特征的第二范围内的相邻样本帧特征，计算第三注意力权重矩阵，以获取优化后的所述备选声学模型；
[0117]
选择模块，用于基于各优化后的所述备选声学模型的性能参数，从所述备选声学模型中选择初始声学模型，并确定所述初始声学模型对应的指定处理阶段。
[0118]
可选的，所述装置还包括：
[0119]
读取模块，用于基于预设滑窗单元读取多个帧特征及各个所述帧特征的第一范围相邻帧特征；所述第一范围内的相邻帧特征以及所述帧特征的总数量为所述预设滑窗单元在可覆盖行中可覆盖的帧特征的整数倍，所述相邻帧特征以及所述帧特征位于同一行。
[0120]
可选的，所述装置还包括：部署模块，用于将所述目标声学模型部署至预设的线上打分库；
[0121]
所述生成模块，具体用于：
[0122]
通过所述线上打分库，基于所述第一注意力权重矩阵获取所述目标声学模型的输出；
[0123]
基于所述目标声学模型的输出，生成所述待识别音频对应的文本，以作为所述线上打分库的输出。
[0124]
本发明实施例提供的模型处理装置，将待识别音频的帧特征作为目标声学模型的输入。对于任一帧特征，利用目标声学模型中的注意力模块，基于帧特征以及帧特征的第一范围内的相邻帧特征，计算第一注意力权重矩阵，目标声学模型在训练过程中使用的相邻帧特征的范围为第二范围，第二范围小于第一范围；基于第一注意力权重矩阵，生成目标声学模型的输出，以确定待识别音频对应的文本。相较于直接使用整句音频中的所有其他帧特征的方式，本发明中由于训练过程中仅是使用第二范围内的相邻帧特征，即，仅使用部分相邻的帧特征，因此，一定程度上可以缩短声学模型在训练过程中的处理时长，从而提高处理效率。同时，在对待识别语音进行处理时，结合更大的第一范围内的相邻帧特征计算第一注意力权重矩阵，实现语音识别，由于采用的相邻帧特征更多，进而一定程度上可以提高音频识别的准确性。
[0125]
本发明还提供一种目标声学模型获取方法，该方法可以应用于模型获取端，该方法可以包括上述步骤s21～步骤s22。其中，该方法中各步骤的实现方式以及所能达到的技术效果可以参照前述相关描述，此处不再赘述。
[0126]
本发明还提供了一种电子设备，参见图11，包括：处理器301、存储器302以及存储在所述存储器上并可在所述处理器上运行的计算机程序3021，所述处理器执行所述程序时实现前述实施例的方法。
[0127]
本发明还提供了一种可读存储介质，当所述存储介质中的指令由电子设备的处理器执行时，使得电子设备能够执行前述实施例的方法。
[0128]
对于装置实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。
[0129]
在此提供的算法和显示不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与基于在此的示教一起使用。根据上面的描述，构造这类系统所要求的结构是显而易见的。此外，本发明也不针对任何特定编程语言。应当明白，可以利用各种编程语言实现在此描述的本发明的内容，并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。
[0130]
在此处所提供的说明书中，说明了大量具体细节。然而，能够理解，本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中，并未详细示出公知的方法、结构和技术，以便不模糊对本说明书的理解。
[0131]
类似地，应当理解，为了精简本发明并帮助理解各个发明方面中的一个或多个，在上面对本发明的示例性实施例的描述中，本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而，并不应将该公开的方法解释成反映如下意图：即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说，如下面的权利要求书所反映的那样，发明方面在于少于前面公开的单个实施例的所有特征。因此，遵循具体实施方式的权利要求书由此明确地并入该具体实施方式，其中每个权利要求本身都作为本发明的单独实施例。
[0132]
本领域那些技术人员可以理解，可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件，以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外，可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述，本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。
[0133]
本发明的各个部件实施例可以以硬件实现，或者以在一个或者多个处理器上运行的软件模块实现，或者以它们的组合实现。本领域的技术人员应当理解，可以在实践中使用微处理器或者数字信号处理器(dsp)来实现根据本发明的排序设备中的一些或者全部部件的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序。这样的实现本发明的程序可以存储在计算机可读介质上，或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到，或者在载体信号上提供，或者以任何其他形式提供。
[0134]
应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制，并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中，不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中，这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。
[0135]
所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统、
装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。
[0136]
以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。
[0137]
以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：语音信息的处理方法和装置、存储介质及电子装置与流程

模型处理方法、装置、电子设备及可读存储介质与流程

相关文献

最热文献