技术特征:
1.一种基于长短期记忆网络的语音端点检测方法,其特征是,包括:
从语音数据中针对每一语音帧提取多分辨率耳蜗图特征,在一定范围内选取其数个上下文帧,将这些上下文帧按照时间顺序生成输入数据;
将输入数据输入到训练后的注意力增强型长短期记忆网络中,生成局部增强的上下文帧语境信息;
将局部增强后的数据输入到多头注意力层,生成全面增加权重的上下文帧信息;
将全面增加权重的数据输入到神经网络(分类器)中,进行语音端点检测并生成预测结果。
2.如权利要求1所述的一种基于长短期记忆网络的语音端点检测方法,其特征是,从语音数据中针对每一帧提取多分辨率耳蜗图特征时,通过提取具有小帧长度和小平滑窗口的耳蜗图特征来产生局部信息,通过提取具有大帧长度和大平滑窗口的耳蜗图特征来产生全局信息。
3.如权利要求1所述的一种基于长短期记忆网络的语音端点检测方法,其特征是,为每一个输入帧选取上下文帧,具体为:
设置一个(w,u)参数,w限制选取范围,u是步长,每一帧及其左右相邻两帧固定,其余部分按照步长选取,计算得到每个数据包含的相邻帧的个数。
4.如权利要求1所述的一种基于长短期记忆网络的语音端点检测方法,其特征是,所述注意力增强型长短期记忆网络即编码器,包括:
增强注意力的长短期记忆单元,该单元按照时刻紧密连接,时刻与单元的个数是每一帧上下文帧的个数。
优选的,所述增强注意力的长短期记忆单元包括单元输入模块、多头注意力模块及长短期记忆模块;
所述输入模块用于在某一时刻产生自注意力结构的组合输入,并根据实际情况选择使用k个历史时刻单元状态;
所述多头注意力模块将组合输入经过全连接层线性变换生成q表示,将k个历史状态经过全连接层线性变换生成k、v表示,利用q、k、v表示生成上下文帧与历史时刻帧的关联信息;将关联信息经过全连接层线性变换,生成全新的单元输入;
所述长短期记忆模块接收所述多头注意力模块的输出,生成t时刻上下文帧之间的语境信息。
5.如权利要求1所述的一种基于长短期记忆网络的语音端点检测方法,其特征是,将局部增强后的数据输入到解码器多头注意力层,多头注意力层计算每一个上下文帧与其所有上下文帧之间的关联度分值。
优选的,所述解码器多头注意力层还包括位置信息,所述位置信息代表每一帧出现的时序顺序,相当于为每一帧编码,以便解码器能够准确识别所处理的帧的前后顺序。
6.如权利要求1所述的一种基于长短期记忆网络的语音端点检测方法,其特征是,将全面增加权重的数据输入到解码器神经网络(分类器)中,进行语音端点检测并生成预测结果,具体为:
输出层激活函数采用sigmoid函数,sigmoid函数输出每一帧是语音帧的概率。
7.如权利要求1所述的一种基于长短期记忆网络的语音端点检测方法,其特征是,注意力增强型长短期记忆网络在训练时,具体包括:
针对训练数据进行预处理,之后选取上下文帧;
初始化编码器,得到初始化的注意力增强型长短期记忆网络;
将训练数据输入注意力增强型长短期记忆网络中,得到局部增强的上下文帧信息;
对解码器进行初始化:初始化解码器的多头注意力模块,注意力头的数量与编码器的多头注意力模块相同;
确定解码器多头注意力层的参数;
将解码器多头注意力层的参数输入到多头注意力层,生成全面增加权重的上下文帧信息;
对全面增加权重的上下文帧信息进行批量标准化操作;
改变全面增加权重的上下文帧信息维度,将全面增加权重的数据输入到解码器的神经网络(分类器)中,生成最后的预测结果。
优选的,选取上下文帧时,标签也同步选取对应上下文帧标签,目标标签与解码器的预测输出维度一致;
利用解码器的预测输出概率与目标标签对编码器和解码器进行权值优化。
优选的,利用解码器的预测输出概率与目标标签对编码器和解码器进行权值优化的步骤包括:
损失函数使用交叉熵误差,计算模型一个batch数据的loss;
确定模型优化器;
优化器根据模型loss值更新编码器中多头注意力模块的全连接层权值、长短期记忆网络权值、dropout层权值;
优化器根据模型loss值更新解码器中多头注意力模块的全连接层权值、三层神经网络权值、批量标准化的数据均值e(x)与数据方差var(x)。
8.一种基于长短期记忆网络的语音端点检测系统,其特征是,包括:
特征模块,其被配置为:从语音数据中针对每一语音帧提取多分辨率耳蜗图特征;
上下文帧选取模块,其被配置为:在一定范围内选取其数个上下文帧,将这些上下文帧按照时间顺序生成输入数据;
编码器模块,其被配置为:将输入数据输入到训练后的注意力增强型长短期记忆网络中,生成局部增强的上下文帧语境信息;
解码器多头注意力模块,其被配置为:将局部增强后的数据输入到多头注意力层,生成全面增加权重的上下文帧信息;
解码器神经网络(分类器)模块,其被配置为:将全面增加权重的数据输入到分类器中,进行语音端点检测并生成预测结果。
9.一种计算装置,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征是,所述处理器执行所述程序时实现上述权利要求1-7任一所述方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征是,该程序被处理器执行时执行上述权利要求1-7任一所述方法的步骤。
技术总结
本公开提出了一种基于长短期记忆网络的语音端点检测方法及系统,包括:从语音数据中针对每一语音帧提取多分辨率耳蜗图特征,在一定范围内选取其数个上下文帧,将这些上下文帧按照时间顺序生成输入数据;将输入数据输入到训练后的注意力增强型长短期记忆网络中,生成局部增强的上下文帧语境信息;将局部增强后的数据输入到多头注意力层,生成全面增加权重的上下文帧信息;将全面增加权重的数据输入到神经网络(分类器)中,进行语音端点检测并生成预测结果。在编码器中使用一个注意力增强型LSTM网络,不但解决了多头注意力的位置模糊问题,同时利用数个历史时刻的状态信息,增强记忆的长、短期效果,比单一的LSTM更能突出重要的某几帧的效果。
技术研发人员:张鹏;李姝;李晔;冯涛;汪付强
受保护的技术使用者:山东省计算中心(国家超级计算济南中心)
技术研发日:2021.02.26
技术公布日:2021.06.15
本文用于企业家、创业者技术爱好者查询,结果仅供参考。