一种端到端长时语音识别方法与流程

2021-10-19 20:07:00 来源：中国专利 TAG：语音识别端到方法端长时

技术特征：
1.一种端到端长时语音识别方法，其特征在于，包括：选取语料库为训练数据集，对所述训练数据集中的语音数据进行数据预处理和特征提取，生成语音特征，并组成测试和验证数据集；构造融合外部语言模型和长时语音识别算法的改进的rnn
‑
t模型，将所述语音特征输入所述改进的rnn
‑
t模型进行训练，得到训练好的改进的rnn
‑
t模型；将训练好的改进的rnn
‑
t模型作为互学习知识蒸馏算法中的教师模型，利用互学习知识蒸馏算法训练互学习知识蒸馏算法中的学生模型，并利用测试和验证数据集对学生模型进行测试和验证，得到训练和验证好的学生模型；利用所述训练和验证好的学生模型对待识别的长时语音数据进行识别，输出语音识别结果。2.根据权利要求1所述的方法，其特征在于，所述的选取语料库为训练数据集，对所述训练数据集中的语音数据进行数据预处理和特征提取，生成语音特征，并组成测试和验证数据集，包括：选取aishell
‑
1语料库为训练数据集，利用sox音频处理工具对aishell
‑
1中的语音数据进行合成长时语音数据处理，调用kaldi工具包对合成的长时语音数据进行特征提取处理，生成验证和测试学生网络的语音特征，利用语音特征组成测试和验证数据集。3.根据权利要求1所述的方法，其特征在于，所述的构造融合外部语言模型和长时语音识别算法的改进的rnn
‑
t模型，包括：构造改进的rnn
‑
t模型，所述改进的rnn
‑
t模型完成语音识别任务、语言建模任务和指导语言建模的知识蒸馏任务，所述语音识别任务中将训练数据的语音特征x
t
输入到编码网络中得到声学信息高级表示将声学信息高级表示长时语音识别算法得到的输出c
k
和预测网络得到的输出在联合网络中进行融合，计算得到语音识别任务损失l
rnn
‑
t
；语言建模任务在rnn
‑
t模型通过预测网络进行语言建模的基础上加入训练好的外部语言模型，训练好的外部语言模型根据先前非空标签y
u
‑1为预测网络提供软化标签，指导预测网络的语言建模，将蒸馏损失函数l
kd
与预测网络语言建模的损失函数l
lm
加权相加作为预测网络语言模型的优化函数。4.根据权利要求3所述的方法，其特征在于，所述的长时语音识别算法包括模拟长时音频训练模块和跨句上下文模块，所述模拟长时音频训练模块通过修改模型隐层初始状态模拟长时音频训练，实现等价长时语音识别模型训练，所述跨句上下文模块，用于保留跨句历史上下文信息。5.根据权利要求4所述的方法，其特征在于：所述的模拟长时音频训练模块，具体用于在训练到第k条语句时，对模型隐层状态进行初始化，用第k
‑
1条语句训练结束后编码网络和预测网络的最终隐层状态e
k
‑1(t)和p
k
‑1(u)来初始化e
k
(0)和p
k
(0)，在模拟长时音频训练过程中设置随机种子，控制模拟长音频句子的长度，在训练rnn
‑
t模型过程中设置传递lstm状态的概率p＝0.5，否则将lstm的初始状态置为0向量，如式(2
‑
4)所示：
所述的跨句上下文模块，具体用于将模型预测的历史语句文本输入进入跨距上下文模块进行特征编码得到使用注意力机制对和历史上下文向量c
k
‑1计算得到注意力分数α
u,i
，使用文本特征与注意力得分计算得到当前语句的历史上下文向量c
k
，计算过程如式(2
‑
5)至(2
‑
6)所示：6)所示：其中，表示跨句上下文模块的输出，整个模型将声学特征x
t
、文本特征及跨句上下文向量c
k
、预测网络输出输入进入联合网络计算得到z
t,u
，如式(2
‑
7)所示：其中，u和v分别表示为投影矩阵，ψ表示非线性激活函数，b
z
表示偏置。6.根据权利要求3所述的方法，其特征在于：所述的语言建模任务，用于在rnn
‑
t模型基础上融入外部语言模型，将模型预测的先前非空标签y
u
‑1作为rnn
‑
t预测网络的输入，经过rnn
‑
t预测网络生成高级表示通过全连接层和softmax对进行分类并计算概率进而进行语言建模，所述外部语言模型在文本数据上训练循环神经网络语言模型rnnlm模型，将rnn
‑
t预测网络预测的先前非空标签y
u
‑1和历史隐藏状态h
t
‑1输入训练好的rnnlm模型，rnnlm模型输出软化标签为k的概率计算如式(2
‑
1)所示：其中z
i
表示rnnlm模型的输出，t表示为温度系数，用于标签平滑；所述的指导语言建模的知识蒸馏任务，将rnn
‑
t预测网络预测的先前非空标签y
u
‑1输入训练好的外部语言模型，使用kl散度作为蒸馏损失l
kd
来最小化外部语言模型与rnn
‑
t预测网络模型的后验概率，如式(2
‑
2)所示：将蒸馏损失函数l
kd
与预测网络语言建模的l
lm
损失函数加权相加作为预测网络语言模型的优化函数，在训练阶段，模型总损失函数如式(2
‑
3)所示，包括三个部分：一是rnn
‑
t模型损失函数l
rnn
‑
t
，二是预测网络语言模型的lm损失函数l
lm
，三是外部语言模型蒸馏损失函数l
kd
。
l
total
＝l
rnn
‑
t
α((1
‑
β)l
lm
βl
kd
)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(2
‑
3)其中α、β分别为预测网络语言模型加权系数和外部语言模型知识蒸馏加权系数，用于平衡不同损失函数的尺度差异。7.根据权利要求1所述的方法，其特征在于，所述的将训练好的改进的rnn
‑
t模型作为互学习知识蒸馏算法中的教师模型，利用互学习知识蒸馏算法训练互学习知识蒸馏算法中的学生模型，并利用测试和验证数据集对学生模型进行测试和验证，得到训练和验证好的学生模型，包括：(1)教师模型训练：将训练好的改进的rnn
‑
t模型作为互学习知识蒸馏算法中的教师模型，将上述语音特征作为训练数据，利用训练数据对教师模型进行监督训练；(2)教师模型输出获取：将教师模型输出的预测标签保存为伪标签，利用伪标签指导学生模型学习；(3)学生模型训练：学生基线模型为标准rnn
‑
t模型，学生模型a为加入外部语言模型的rnn
‑
t模型，学生模型b为加入跨距上下文算法模块的rnn
‑
t模型，利用教师模型输出的伪标签和真实标签对学生模型进行监督训练，采用从头训练的方式同时对多个学生模型进行训练，实现训练过程中的相互学习；(4)将测试和验证数据集输入至所述教师模型与训练后的学生模型，得到训练和验证好的学生模型。

技术总结
本发明提供了一种端到端长时语音识别方法。该方法包括：选取语料库为训练数据集，对训练数据集中的语音数据进行数据预处理和特征提取，生成语音特征；构造融合外部语言模型和长时语音识别算法的改进的RNN

技术研发人员：明悦邹俊伟温志刚李泽瑞吕柏阳
受保护的技术使用者：北京邮电大学
技术研发日：2021.06.07
技术公布日：2021/10/18

再多了解一些

2/2 首页上一页 1 2

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

一种端到端长时语音识别方法与流程

相关文章

最热文献