一种基于对比学习的端到端音障语音识别方法与流程

2021-09-28 22:44:00 来源：中国专利 TAG：音障语音识别神经网络端到特别

1.本发明涉及计算机技术领域，设计语音识别技术，特别涉及一种基于对比学习和端到端神经网络的音障语音识别方法。

背景技术：

2.背景技术涉及：音障语音识别技术，transformer模型及对比学习。
3.1)音障语音识别技术
4.音障语音识别技术是将有发音障碍患者的说话音频信号转化为文本语言的一种技术。语音识别的建模包括语言模型、声学模型两部分。语言模型通常用状态转移图来表示，通过上下文产生概率计算一个序列产生的联合概率。这些概率在状态图的构建中就已经固定，和待识别的语音无关。声学模型则匹配了语音和音素，是语音识别当中最主要的部分。在过去的研究中，常将有效的语音识别模型迁移到音障语音识别模型上，在进行一些微调后提升实验效果。
5.语音识别的探索过程经历了以下几个阶段：早期通过发音规律进行模版匹配；用概率统计模型对语音识别问题进行建模；用深度神经网络进行特征提取；直接用端到端网络进行训练。对于长逻辑的语句而言，不仅需要准确地识别出声音，还要将其翻译成完整的句子。
6.声音输入一般是语音数据经过信号处理得到的梅尔频谱系数以及感知线性预测系数。它们丢弃了大量的波形中的无效信息，保留了语音数据的有效特征，通过隐马尔可夫模型(hidden markov models，hmm)来提取出隐层的音素信息。高斯混合模型(gaussianmixture models，gmm)能丰富地建模隐马尔可夫模型中的隐状态和声音输入之间的关系。自从引入期望最大化算法进行训练以来，gmm
‑
hmm就开始在语音识别领域取得不错的成绩。然而，gmm也存在其局限性。由于其固定了发射概率的形式，即使是建模简单的非线性映射关系，也需要大量的参数。实际上，语音是通过调节一个动力学系统中的少量参数而产生的，这意味着过多的参数是对语音任务的复杂化建模。因此，如何有效地利用帧中的信息是语音建模任务的关键。实际上，利用一些非线性网络去建模hmm中的隐状态和声音输入之间的关系曾获得一定的成功，但由于当时的计算能力不足以支持更深的网络层，并没有引起足够多的关注。
7.随着机器学习算法和计算机硬件的进步，构建包含多层非线性隐层的大规模深度神经网络(deep neural networks，dnn)变得可能。在大词汇量的数据集上，dnn在语音识别的声学模型表现上甚至超越了gmm，形成混合hmm
‑
dnn模型(hybrid hmm
‑
dnn systems)。然而，这些模型的转移过程仍旧使用了传统的hmm中的马尔可夫性质，即每个隐状态只依赖于它前一个时刻的隐状态。这样的依赖并不足以刻画更复杂的转移关系，如长距离依赖关系等。由于语音在本质上是一个动态过程，因此现有的方法抛弃hmm，直接用时序网络建模内在的转移关系，训练出端到端的语音识别网络。它们取消了hmm中帧与帧相互独立的假设，使模型能直接学习潜在的语言模型并优化识别错误率(word error rate，wer)。其中的一
些模型由于构建了更深层的编码器获得了更低的wer。此外，还有一些使用单纯的注意力机制的模型也取得了不错的效果。尽管端到端模型在语音识别任务中取得了成功，但他们存在一个显著的缺点：训练速度慢。例如，以循环神经网络(recurrent neural networks，rnn)为主要的动态时序网络的模型中，编码器和解码器在处理数据时，往往依赖前一个状态下的编码或解码表示，使得训练不能并行化。并且，由于语音序列相较于文本数据通常很长，在处理时相当耗时。因此如何结耦时序数据的时间关系，将计算并行化是一个严峻的问题。
8.此外，与正常发音相比，构音障碍具有以下的语音特征：可懂度低、音位存在限制、语速慢、发音不清、声音不自然、韵律不一致和语音特征不规则等。通常，构音障碍的严重程度是根据病变部位和神经损伤程度来衡量的。这需要进一步的医疗手段才能发现确切的病灶并进行相应的治疗。然而，在dsr中，构音障碍的严重程度可以根据患者说话的清晰度来衡量，例如：严重(severe)、较为严重(severe
‑
moderate)、中度(moderate)和轻度(mild)。在临床上，这些等级基于听者的主观评估，主要考量发音的模糊程度和语言的可理解性。以往的语音识别系统往往针对正常的发音者，为构音障碍患者建立起可靠的音障语音识别系统仍然是一项非常艰巨的任务，主要有以下几个挑战：
9.a.音障患者的发音由于肌肉无力、速度缓慢等原因而模糊不清，与正常人的发音存在较大差异；
10.b.不同的音障患者之间由于患病程度不一，说话风格差异较大，同一说话者在不同场景下的发音亦有差异；
11.c.音障患者在研究机构中进行音频采集与处理较为耗时，语音标注成本较高，因此采集到的音频数据稀少，不构成庞大的语音数据集。
12.2)transformer模型
13.transformer模型通过自注意力机制(self
‑
attention mechanism)将一个序列中所有位置的数据的两两关系对应起来，而不用等待前一个数据处理后的结果。因此，所有位置的计算能并行化，提高了运算效率。
14.transformer模型基于编码器、解码器的结构。经过编码器，语音特征序列(x1，...，x
t
)转化为隐层的隐表示h＝(h1，...，h
l
)；经过解码器，给定的隐表示h转化为一个输出序列(y1，...，y
s
)。在解码过程中，上一时刻的输出会被再次利用，作为额外信息输入到解码器中，有助于下一个时刻信息的输出。作为一个非循环结构的端到端模型，transformer模型相对于其他的rnn模型改进在于以下两个方面：
15.其一，编码器和解码器基于多头注意力机制和逐位置的前向神经网络；
16.其二，编码器的输出h分别输出到编码器的每个模块中，而不是作为一步到位的中间信息。
17.注意力机制是用于提取一个询问向量query和一个上下文向量集合context之间关系的机制。它取消了向量本身的位置信息，使得学习到的向量之间的依赖关系与距离无关。当询问向量在上下文向量集合中时，学习到的注意力网络称为自注意力层；反之，当询问向量不在上下文向量集合中时，学习到的注意力网络称为交叉注意力层。
18.假设q是一个询问向量，c
j
为上下文向量集合中第j个上下文向量，注意力权重a
j
通过以下公式进行计算并进行正则化表示：
19.a
j
＝score(q，c
j
)
ꢀꢀꢀꢀ
(5)
[0020][0021]
其中得到的α
j
为c
j
对q的作用权重，即：
[0022][0023]
缩放点积注意力机制(scaled dot
‑
product attention)进一步引入了询问向量(queries)、关键词向量(keys)和值向量(values)，用键值对向量集合(key
‑
value)替换了原本的上下文向量集合。在实际的计算中，三组向量被排列后统一写成更凝练的矩阵形式q、k和v。这改写了原本的注意力公式(7)，得到如下表达式：
[0024][0025]
其中，d
k
是矩阵k的第二维，也作为缩放系数调整权重大小，用来保证softmax函数不会梯度消失。
[0026]
多头注意力机制进一步增强了缩放点积注意力的效果。它平行地设置了d
h
个缩放点积注意力模块，在输入到模块前，三个矩阵做各自的线性变换。每个模块之间相互独立，产生了更为丰富的注意力表示。在分别计算得到注意力权重后，将所有的输出拼接在一起，作线性变换以后作为最终的输出。其计算如下所示：
[0027][0028]
其中head
i
为各个模块产生的注意力权重，其计算如下所示：
[0029][0030]
逐位置的前向神经网络(position
‑
wise feed
‑
forward network)出现在编码器和解码器的每一层子网络中。该网络是一个完全连接层，用于提取特征。它包含了两个线性映射和一个中间的激活层：
[0031]
ffn＝max(0，xw1 b1)w2 b2ꢀꢀꢀꢀꢀꢀ
(11)
[0032]
相对于自然语言处理的任务，语音识别任务中的识别网络要处理更长的时序数据。为了利用频谱图的结构局部性，该方法通过时间域上的cnn提取特征。为了避免gpu的显存溢出，cnn的掩蔽矩阵设置为3
×
3，用以减少特征向量的维度。
[0033]
在训练阶段，最大化输出概率作为最后的目标优化模块中的参数。在测试阶段，固定编解码器的参数，让测试序列经过声音特征提取和位置编码进入编码器，得到隐表示；再使用开始符作为解码器的开头字符，依次对隐表示进行解码，并得到最后的字符输出。transformer模型的预训练技术大幅减少了基于transformer模型的系统的训练时间，加速了高性能模型的推广。
[0034]
为了加速transformer模型的计算，通常会设置一个较低的编码维度。然而，这样会使得训练得到的编码器将信息高度压缩，丢失了部分信息。通过编码器得到的隐表示直接被解码时不能得到充分的信息。因此，如何在快速并行计算的前提下保留充分的有效信息是一个需要解决的问题。
[0035]
3)对比学习
[0036]
对比学习是近年来在图像、文本等领域发挥作用的机器学习方法，通过在隐空间上拉近正例和远离负例的准则来学习表征，即使在标注缺失的情况下仍可通过自监督学习的方法进行训练。其主要目的是学习出一个紧凑的隐层表示。
[0037]
对于一个样本数据点x而言，数据集中存在两类数据：x

是与x相似的数据点，称之为正例(正样本)；x
‑
是与x不同的数据点，称之为负例(负样本)。对比学习在训练过程中拉近正例的隐表示之间的距离，加大负例的隐表示之间的距离，可表示为如下形式：
[0038]
score(f(x)，f(x

))＞＞score(f(x)，f(x
‑
))
ꢀꢀꢀꢀꢀ
(12)
[0039]
其中多视图对比学习方法假设第一个视图上的数据再选取一小批来自第二个视图的数据使得所有i≠j的与互为负例。所有j的下标构成集合s
j
，即j∈s
i
。其模型图如图2所示。两个视图的数据分别经过各自的特征提取网络得到隐层表示z。在不同视图下的同源数据互为正例，其对应的隐表示在隐空间上靠得更近；而其他数据则为负例，其对应的隐表示在隐空间上离得更远。
[0040]
第一个视图下的对比损失定义如下：
[0041][0042]
其中h
θ
是两个隐表示的距离的度量函数，表示两者的相似程度，通常取为余弦相似度，公式表示如下：
[0043][0044]
这里，τ是一个调控比例的超参数；第v个视图下的是经过神经网络得到的隐表示，即对于另外一个视图，公式(13)经过视图替换得到该视图下的对比损失整体的对比损失的公示表示如下：
[0045][0046]
随着视图数目的进一步增加，表示的质量进一步提升。不失一般性，这里仅给出了两个视图的情况。

技术实现要素：

[0047]
本发明的目的在于提供一种基于对比学习的端到端音障语音识别方法，该方法在音障语音数据集上达到良好的识别效果。本发明以transformer模型为基础的预训练模型，引入对比学习框架，通过数据增强的方式有效缓解了音障语音数据集数据量稀少、音障语音发音模糊不清的问题，得到了一个鲁棒的语音识别模型。
[0048]
实现本发明目的的具体技术方案是：
[0049]
一种基于对比学习的端到端音障语音识别方法，该方法包括如下步骤：
[0050]
步骤一：基于大量正常发音的语音数据集预训练出基本的语音识别模型
[0051]
所述预训练模型为transformer模型，是一种端对端的神经网络，包括编码器和解码器两部分，预训练后可得到网络的初始参数；
[0052]
步骤二：对音障语音数据进行信号处理得到频谱图，在频谱图上进行数据增强操作，生成多视图数据
[0053]
步骤a1：对不同频域的信号进行预加重操作，补充高频部分的能量，使得信号在不同频段的能量均匀，进而在求频谱图时使用相同的信噪比；
[0054]
步骤a2：对语音信号进行分帧、加窗操作，将原来由于波形特性变化而没有规律的非平稳信号转化为多个帧，在分帧后的每个小片段被认为是平稳信号；
[0055]
步骤a3：对每个小片段进行快速傅立叶变换，将时域信号转到频域，获得线性谱；傅里叶变换以及傅立叶逆变换符合下列式子：
[0056][0057]
其中，t、w分别是时间和频率，f(t)、f(w)分别是信号的时域和频域的表示；f(w)是f(t)的象函数，f(w)到f(t)的过程实际上是将频率域的函数表示为时间域函数的积分；f(t)是f(w)的象原函数，其过程正好相反。象函数和象原函数构成一个傅立叶变换对，当t
→
∞时，ω＝2π/t
→
dw，nω
→
w；
[0058]
步骤a4：通过一组模拟人耳听觉特性的梅尔滤波器，将线性谱转化为梅尔频谱图，获得准确的频谱特征；
[0059]
步骤a5：在梅尔频谱图上进行数据增强操作，包括时域扭曲、频域掩蔽或时域掩蔽变换；原始数据x经由变换得到了两个视图下的数据x
i
与x
j
，符合下列式子：
[0060]
x
i
＝a(x)，x
j
＝a
′
(x)
，
ꢀꢀꢀꢀꢀꢀꢀ
(2)
[0061]
其中a与a
′
为变换族中的两种变换，即且
[0062]
步骤三：多视图数据通过共享参数的transformer模型中的编码器作为非线性神经网络提取隐层信息；所述的transformer模型中的编码器f运用了attention机制，提取出两个视图间共有的信息；经过编码器得到两个对应的隐层信息h
i
＝f(x
i
)以及h
j
＝f(x
j
)；
[0063]
步骤四：经过投影模块对隐层信息进一步提取得到低维空间中的隐表示
[0064]
步骤b1：将长度为t的d维向量划分为n个子集，其中每个子集内含有n个分块，n＝1，2，4，其中每个分块是长度为t/n的特征向量；
[0065]
步骤b2：将子集输入到n
×
m的注意力权重矩阵当中，获得每个分块的权重，其中m表示分块的个数；
[0066]
步骤b3：特征向量经过注意力权重矩阵的加权操作在隐空间得到最低维的隐表示z
i
；
[0067]
步骤五：在隐空间中计算不同视图数据的隐表示之间的对比损失，将其作为整个端到端模型即目标模型训练时的优化目标
[0068]
通过在隐空间上拉近正例和远离负例的准则来学习表征，符合下列式子：
[0069][0070]
[0071]
是对于一对正例样本(i，j)经过投影模块产生的隐表示之间的对比损失；sim(
·
，
·
)表示两个样本之间的相似程度；分子描述了两个正例样本的隐表示的相似度，分母描述了一个批集合中所有负例样本的隐表示的相似度之和；其中τ是一个调控比例的超参数；是一个指示函数，仅当k≠i时取1，否则取0；
[0072]
步骤c1：在所有数据中选择一个批集合，在其中选择经过同一个数据增强得到的一对数据(i，j)作为正样本；剩余的数据与数据i构成负样本；
[0073]
步骤c2：计算对于一对正例样本(i，j)经过投影模块产生的隐表示之间的对比损失并轮换；
[0074]
步骤c3：对本批集合中的对比损失求和并使用adam优化器和倾斜三角形学习率进行梯度更新；
[0075]
步骤c4：处理其他批集合中的数据，重复c1
‑
c3直到对比损失下降到收敛停止训练；
[0076]
步骤六：在解码过程中直接使用隐层信息解码进行音障语音识别；在解码过程中，无需进行投影模块的变换，直接将transformer模型中的编码器的输出结果传入到解码器中，从而保留足够的信息量。
[0077]
本发明的有益效果在于：本发明结合以上技术训练出一种音障语音识别模型，这个模型在识别音障语音数据上具有良好的性能并缓解了音障语音数据集数据量稀少、音障语音发音模糊不清的问题。具体包括：
[0078]
1)将大量正常发音数据预训练得到的基本模型迁移到音障语音识别的任务中。
[0079]
2)通过数据增强的操作缓解了音障语音数据集数据量稀缺的问题，并生成了成对的多视图数据用于对比学习框架。
[0080]
3)通过共享网络参数的编码器网络学习到了一个有效的隐空间，产生有效的隐表示，增加了模型的泛化能力。
[0081]
4)通过对比学习得到鲁棒的音障语音识别模型，引入的投影模块保留隐表示的信息、加速损失函数的计算。
附图说明
[0082]
图1为本发明流程图；
[0083]
图2为多视图的对比学习框架示意图；
[0084]
图3为基于对比学习的端到端音障语音识别模型图。
具体实施方式
[0085]
以下结合具体实施例和附图，对本发明作进一步的详细说明。实施本发明的过程、条件、实验方法等，除以下专门提及的内容之外，均为本领域的普遍知识和公知常识，本发明没有特别限制内容。
[0086]
本发明提出一种基于对比学习的端到端音障语音识别方法，该方法以transformer模型为基础的预训练模型，引入对比学习框架，通过数据增强的方式有效缓解了音障语音数据集数据量稀少、音障语音发音模糊不清的问题，得到了一个鲁棒的语音识别模型。
[0087]
本发明中运用到的transformer模型是语音识别模型的基础。但是transformer模型的网络深度深、参数数目多，仅依靠稀少的音障数据集无法直接进行大规模的训练；直接训练后的参数并不能有效反映音障语音的特征信息。因此，本发明在大量正常的语音数据集中进行预训练，使得参数从中得到初始化。
[0088]
本发明采用数据增强的方式对稀少的音障数据集进行进一步的扩充。梅尔频谱图反映了人声中准确的频谱特征。在梅尔频谱图上进行数据增强操作，包括时域扭曲、频域掩蔽或时域掩蔽变换，将音障数据转化为多组同源的多视图数据。在训练过程中，大量的数据弥补了单视图信息的不足。同时，生成的多视图数据配对成为后续对比学习框架中的输入。
[0089]
本发明通过共享网络参数的编码器网络学习到了一个有效的隐空间，产生有效的隐表示，增加了模型的泛化能力。该编码器为transformer模型中的多层多头注意力网络与逐位置的前向神经网络构成，使得所有位置之间的依赖关系通过并行计算得到。同时，多视图数据之间共享编码器的网络参数使得该网络学习出一个与视图无关的更为泛化的非线性网络，有效避免了音障数据因发音模糊、缓慢而引起的识别问题。
[0090]
此外本发明还在对比学习的框架下使用了对比损失，通过在隐空间上拉近正例和远离负例的准则来学习表征。为方便隐表示在低维空间中的运算，本发明增加了投影模块，使得投影后的低维隐表示进行快速运算；同时，又保留了投影前有效的隐层信息用于直接解码，保证解码后的信息足够准确；投影模块本身还可直接并行计算，加快了运行速度。
[0091]
本发明包括如下步骤：
[0092]
1、在大量正常语音数据集上进行transformer模型的预训练。
[0093]
transformer模型的神经网络深、参数多，直接在稀疏的音障数据集上无法直接进行训练。本发明通过在大量正常语音数据集上的大规模训练对transformer模型参数进行初始化，学习出一般语音的发音规律，得到泛化的特征提取网络。
[0094]
2、对音频数据做信号处理得到频谱图，确定数据增强的变化组合。
[0095]
音频信号处理包含了预加重、分帧、加窗、傅里叶变换、梅尔频谱滤波等操作得到频谱图，获得准确的频谱特征。为了适应音障数据模糊不清的特点，本发明采取不同数据增强方法组合的方式得到若干组变换对。原始数据经过一组变换对得到一对同源的多视图数据，可用于后续对比损失的计算。其中，不同的变换组合方式是可选择的。经过不同的变换组会得到不同的识别效果。
[0096]
3、确定投影模块的非线性网络。
[0097]
投影模块的目标是将初级的隐层表示到更低维隐表示的非线性映射剥离出来。经过投影模块产生的低维隐表示可用于计算对比损失，在训练过程中投影模块也可进行并行计算，加速整个训练流程。在解码时，投影模块之前的初级的隐层表示含有更多信息，可直接将输入到解码器中，得到更完备的语音识别结果。投影模块的选择是多种非线性网络，其中注意力时序金字塔网络是兼具并行效率与特征提取功能的非线性网络之一。此外，自映射、线性映射的网络也可用于投影模块，具有不同的识别效果。
[0098]
4、确定对比损失函数中的相似度。
[0099]
本发明在对比学习的框架下对多视图的语音数据的隐表示计算对比损失。为了在隐空间上拉近正例和远离负例的准则来学习表征，需要定义样本之间的距离函数，也称之为相似度。常用的距离函数有欧几里得距离、曼哈顿距离、明可夫斯基距离、余弦相似度等
函数，分别从不同的角度描述低维隐表示之间的距离以及相似程度。
[0100]
5、训练端到端音障语音识别网络。
[0101]
端到端网络以对比损失为优化目标，对直接对网络进行训练并对参数进行优化。本发明使用adam算法训练模型，adam算法利用指数滑动平均估计梯度的一阶矩和二阶矩，缩小了随机梯度的方差，使模型能够更快收敛。
[0102]
6、训练完毕后进行测试，对音障语音数据集进行测试。
[0103]
在对比损失的数值趋于收敛时，模型训练完毕，模型参数达到最优。此时固定模型参数，将音障数据集中划分出来的测试集输入到模型中进行测试。在测试时，音频数据在经过信号处理后经过共享参数的编码器得到初级的隐层表示，无需经过投影模块的特征提取，直接将其输入到解码器中进行解码，得到最终的测试结果。
[0104]
实施例
[0105]
以下是训练音障语音识别模型的具体实施例。在这个实施例中用于预训练的正常语音数据集为librispeech，迁移到音障语音数据集torgo中。训练过程分为预训练与迁移学习后的训练两部分。
[0106]
1、在时长约为500小时的librispeech数据集上利用交叉熵损失进行transformer模型的预训练，得到transformer模型的初始化参数。
[0107]
2、对音障数据集torgo进行留一验证法划分，得到训练集、验证集和测试集，并将其按照疾病严重程度分为四类：严重(severe)、较为严重(severe
‑
moderate)、中度(moderate)和轻度(mild)。将一些未有效录制或时长过短的语音进行删除和清理。
[0108]
3、对音频数据做信号处理得到频谱图，通过数据增强的不同变化组合生成多视图数据。选用的变换方式有：时域扭曲、频域掩蔽与时域掩蔽。当测试单一变换方式的数据增强效果时，将经过一种变换方式后得到的数据和原始数据加以组合，成为多视图的一对相关联数据。当测试一对变换方式组合的数据增强效果时，将各自经过一种变换后的一对数据加以组合，成为多视图的一对相关联数据。原始数据x经由变换得到了两个视图下的数据x
i
与x
j
，符合下列式子：
[0109]
x
i
＝a(x)，x
j
＝a
′
(x)，
ꢀꢀ
(2)
[0110]
其中a与a
′
为变换族中的两种变换，即且
[0111]
4、将投影模块的非线性网络设置为如图3的注意力时序金字塔网络，详细步骤包括：
[0112]
步骤a1：将长度为t的d维向量划分为n个子集，其中每个子集内含有n个分块，n＝1，2，4，其中每个分块是长度为t/n的特征向量；
[0113]
步骤a2：将子集输入到n
×
m的注意力权重矩阵当中，获得每个分块的权重，其中m表示分块的个数；
[0114]
步骤a3：特征向量经过注意力权重矩阵的加权操作在隐空间得到最低维的隐表示z
i
；
[0115]
5、将对比损失函数中的相似度设置为余弦相似度。计算多视图数据的隐表示之间的对比损失，公式表述如下：
[0116][0117][0118]
是对于一对正例样本(i，j)经过投影模块产生的隐表示之间的对比损失；sim(
·
，
·
)表示两个样本之间的相似程度；分子描述了两个正例样本的隐表示的相似度，分母描述了一个批集合中所有负例样本的隐表示的相似度之和；其中τ是一个调控比例的超参数；是一个指示函数，仅当k≠i时取1，否则取0；
[0119]
6、训练对比学习框架下的transformer模型，以对比损失作为端对端神经网络的优化目标，详细步骤包括：
[0120]
步骤b1：在所有数据中选择一个批集合，在其中选择经过同一个数据增强得到的一对数据(i，j)作为正样本；剩余的数据与数据i构成负样本；
[0121]
步骤b2：计算对于一对正例样本(i，j)经过投影模块产生的隐表示之间的对比损失并轮换；
[0122]
步骤b3：对本批集合中的对比损失求和并使用adam优化器和倾斜三角形学习率进行梯度更新；
[0123]
步骤b4：处理其他批集合中的数据，重复c1
‑
c3直到对比损失下降到收敛停止训练；
[0124]
7、训练完毕后，对音障语音数据集torgo中的测试集进行性能测试。对语音识别的文本结果进行单词错误率的计算。本模型与其他基线模型的性能进行比较如表1所示。这些基线模型包括了hmm
‑
dnn、vggbilstm、vggbilstmp和s
‑
transformer模型。这些监督模型和本发明提出的模型具有一样的编码器，本发明在两种设置下对本模型和传统的监督模型进行比较：冻结测试(frozen test)和微调测试(fine
‑
tuned test)。冻结测试是指基本的编码器参数在迁移到音障语音识别的训练中固定保持不变，仅让解码器进行更新。与之相对应，微调测试允许在迁移到音障语音识别的训练后更新编码器和解码器整个网络的参数。在微调测试中，随机化模型的网络不带有预训练的权重，而仅仅用网格搜索得到超参数的值，便直接在torgo数据集上进行训练。结果发现，无论是冻结测试还是微调测试，本发明的模型的性能与传统监督模型性能相当甚至优于传统监督模型。并且随机模型的效果要差于预训练后的本模型与监督模型，证实了在librispeech数据集上进行预训练的必要性。
[0125]
表1基于对比学习的transformer模型与其他基线模型的wer比较
[0126][0127]
表2编码器模块与投影模块的模型消融实验
[0128][0129]
表2展示了编码器模块与投影模块的消融实验。上半部分显示了固定投影模块为金字塔网络时，改变编码器的深度和宽度都能提高模型的性能。表2的下半部分显示了固定编码器的宽度和深度时，改变投影模块对模型性能的影响。这些投影模块包含了映射(identity mapping)、线性映射(linear mapping)、非线性映射(nonlinear mapping)、三层金字塔网络(pbilstm)和采用的注意力时序金字塔网络。其中自映射即保持不变的映射，线性映射采用了mlp网络，非线性映射采用了具有relu层激活的mlp，pbilstm即三层金字塔bilstm。结果显示：自映射的效果最差，非线性映射优于线性映射，注意力时序金字塔网络取得了最好的性能。投影模块保证了编码器模块得到的隐表示不直接被损失模块使用，保护了潜在的有效信息。另一方面，投影模块起到数据降维的功能，提高了后期对比损失的计算速度。
[0130]
本发明的保护内容不局限于以上实施例。在不背离发明构思的精神和范围下，本
领域技术人员能够想到的变化和优点都被包括在本发明中，并且以所附的权利要求书为保护范围。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：一种带有显示屏幕的可调音智能音舌鼓的制作方法

一种基于对比学习的端到端音障语音识别方法与流程

相关文章

最热文献