一种基于对比学习的端到端音障语音识别方法与流程

2021-09-28 22:44:00 来源：中国专利 TAG：音障语音识别神经网络端到特别

技术特征：
1.一种基于对比学习的端到端音障语音识别方法，其特征在于，该方法包括如下步骤：步骤一：基于大规模正常发音的语音数据集预训练出基本的语音识别模型所述语音识别模型为transformer模型中的端对端神经网络，包括编码器和解码器两部分，预训练后可得到网络的初始参数；步骤二：对开源的音障语音数据进行信号处理得到频谱图，在频谱图上进行数据增强操作，生成多视图数据；步骤三：多视图数据通过共享参数的transformer模型中的编码器作为非线性神经网络提取隐层信息；步骤四：隐层信息经过投影模块对隐层信息进一步提取得到低维空间中的隐表示；步骤五：计算不同视图数据的隐表示之间的对比损失，并将其作为模型训练时的优化目标；步骤六：在解码过程中直接使用隐层信息解码进行音障语音识别。2.如权利要求1所述的基于对比学习的端到端音障语音识别方法，其特征在于，步骤二所述的数据增强操作是指：对于音频经过信号处理得到的频谱图，进行时域扭曲、频域掩蔽或时域掩蔽变换；详细步骤包括：步骤a1：对不同频域的信号进行预加重操作，补充高频部分的能量，使得信号在不同频段的能量均匀，进而在求频谱图时使用相同的信噪比；步骤a2：对语音信号进行分帧、加窗操作，将原来由于波形特性变化而没有规律的非平稳信号转化为多个帧，在分帧后的每个小片段被认为是平稳信号；步骤a3：对每个小片段进行快速傅立叶变换，将时域信号转到频域，获得线性谱；傅里叶变换以及傅立叶逆变换符合下列式子：其中，t、w分别是时间和频率，f(t)、f(w)分别是信号的时域和频域的表示；f(w)是f(t)的象函数，f(w)到f(t)的过程实际上是将频率域的函数表示为时间域函数的积分；f(t)是f(w)的象原函数，其过程正好相反；象函数和象原函数构成一个傅立叶变换对，当t
→
∞时，ω＝2π/t
→
dw，nω
→
w；步骤a4：通过一组模拟人耳听觉特性的梅尔滤波器，将线性谱转化为梅尔频谱图，获得准确的频谱特征；步骤a5：在梅尔频谱图上进行数据增强操作，包括时域扭曲、频域掩蔽或时域掩蔽变换；原始数据x经由变换得到了两个视图下的数据x
i
与x
j
，符合下列式子：x
i
＝a(x)，x
j
＝a
′
(x)
，
ꢀꢀꢀꢀꢀꢀ
(2)其中a与a
′
为变换族中的两种变换，即且3.如权利要求1所述的基于对比学习的端到端音障语音识别方法，其特征在于，步骤三所述的transformer模型中的编码器f运用了attention机制，提取出两个视图间共有的信息；经过编码器得到隐层信息h
i
＝f(x
i
)以及h
j
＝f(x
j
)。
4.如权利要求1所述的基于对比学习的端到端音障语音识别方法，其特征在于，步骤四所述的投影模块是一种保留隐层表示的信息、加速损失函数的计算而增设的非线性网络g，采用注意力时序金字塔网络实现投影模块的功能，将隐层信息映射到隐表示，z
l
＝g(h
l
)，详细步骤包括：步骤b1：将长度为t的d维向量划分为n个子集，其中每个子集内含有n个分块，n＝1，2，4，其中每个分块是长度为t/n的特征向量；步骤b2：将子集输入到n
×
m的注意力权重矩阵当中，获得每个分块的权重，其中m表示分块的个数；步骤b3：特征向量经过注意力权重矩阵的加权操作在隐空间得到最低维的隐表示z
i
。5.如权利要求1所述的基于对比学习的端到端音障语音识别方法，其特征在于，步骤五所述的对比损失是模型训练时的优化目标，它通过在隐表示构成的隐空间上拉近正例和远离负例来学习表征，符合下列式子：离负例来学习表征，符合下列式子：离负例来学习表征，符合下列式子：是对于一对正例样本(i，j)经过投影模块产生的隐表示之间的对比损失；sim(
·
，
·
)表示两个样本之间的相似程度；分子描述了两个正例样本的隐表示的相似度，分母描述了一个批集合中所有负例样本的隐表示的相似度之和；其中τ是一个调控比例的超参数；ii
[k≠i]
是一个指示函数，仅当k≠i时取1，否则取0；详细步骤包括：步骤c1：在所有数据中选择一个批集合，在其中选择经过同一个数据增强得到的一对数据(i，j)作为正样本；剩余的数据与数据i构成负样本；步骤c2：计算对于一对正例样本(i，j)经过投影模块产生的隐表示之间的对比损失并轮换；步骤c3：对本批集合中的对比损失求和并使用adam优化器和倾斜三角形学习率进行梯度更新；步骤c4：处理其他批集合中的数据，重复c1
‑
c3直到对比损失下降到收敛停止训练。6.如权利要求1所述的基于对比学习的端到端音障语音识别方法，其特征在于，步骤六所述的在解码过程中直接使用隐层信息解码是指：在解码过程中，无需进行投影模块的变换，直接将transformer模型中的编码器的输出结果传入到解码器中，从而保留足够的信息量。

技术总结
本发明公开了一种基于对比学习的端到端音障语音识别方法，该方法具备语音识别能力前需要使用大量正常发音数据预训练得到一个基本模型，再迁移到音障语音识别的任务中。在训练完成后，本方法就有了音障语音识别的能力。本发明首先对音障语音数据进行频谱图上的数据增强，再通过Transformer模型中的编码器提取隐层信息，然后该隐层信息经过投影模块被提取出低维的隐表示。最后本方法在隐表示所在的低维隐空间上进行对比损失的计算。在解码过程中，解码器直接使用隐层信息进行解码。本发明的创新点在于将对比学习与Transformer模型中的编码器引入到音障语音识别的领域，并通过投影模块得到的隐表示在隐空间上加速计算，同时在投影模块前保留足够多的信息供解码器使用。在投影模块前保留足够多的信息供解码器使用。在投影模块前保留足够多的信息供解码器使用。

技术研发人员：孙仕亮吴丽丹赵静张楠
受保护的技术使用者：华东师范大学
技术研发日：2021.05.28
技术公布日：2021/9/27

再多了解一些

2/2 首页上一页 1 2

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：一种带有显示屏幕的可调音智能音舌鼓的制作方法

一种基于对比学习的端到端音障语音识别方法与流程

相关文章

最热文献