技术特征:
1.一种流式和非流式混合语音识别系统,其特征在于,包括:流式编码器、联结时序分类解码器和注意力机制解码器;所述流式编码器采用基于局部自注意力机制的transformer来进行构建,输出编码状态;所述联结时序分类解码器包含一个线性映射层,负责将编码状态映射到预先设计好的词表空间,得到编码状态映射表示,使编码状态映射表示的维度与所述词表空间的维度相同,然后通过softmax计算预测到的标记,用于流式解码;所述注意力机制解码器采用transformer解码器来构建,由前端卷积层和多层重复的单向transformer编码层组成,最后一层为线性映射层,使编码状态映射表示的维度与所述词表空间的维度相同,并计算最终输出的概率;
模型在训练过程中,所述联结时序分类解码器计算ctc损失函数,所述注意力机制解码器计算交叉熵损失函数;将所述ctc损失函数和所述交叉熵损失函数进行加权求和作为识别系统的模型损失函数;
在流式推理过程中,以所述联结时序分类解码器作为主导,所述注意力机制解码器为辅助,所述联结时序分类解码器采用beamsearch搜索算法将编码状态生成n条流式候选声学序列和所述n条流式候选声学序列的ctc流式声学分数,由所述注意力机制解码器对所述n条流式候选声学序列进行重打分,根据每条流式候选声学序列的分数对n条流式候选声学序列重新排列,采用分数最高的流式候选声学序列作为最终的流式识别结果;
在非流式推理过程中,以所述注意力机制解码器作为主导,所述联结时序分类解码器作为辅助,所述注意力机制解码器采用beamsearch搜索算法在对解码过程中生成的得分最高的m条非流序列作为m条非流候选声学序列,由所述联结时序分类解码器对所述m条非流候选声学序列进行重打分,根据每条非流候选声学序列的分数对m条非流候选声学序列重新排列,采用分数最高的非流候选声学序列作为最终的非流识别结果。
2.根据权利要求1所述的流式和非流式混合语音识别系统,其特征在于,所述模型损失函数的具体形式为:
模型损失函数=λ*ctc损失函数 (1-λ)*交叉熵损失函数;
其中,
λ:设置参数,0.1≤λ≤0.3。
3.根据权利要求1所述的流式和非流式混合语音识别系统,其特征在于,所述注意力机制解码器对所述n条流式候选声学序列进行重打分的具体方法为:
在每条流式候选声学序列前端扩增一个句子开始标记作为输入流式候选序列;
所述注意力机制解码器采用n条输入流式候选序列和所述n条流式候选序列对应的编码状态作为输入,预测包含结束标记不包含开始标记的流式目标候选序列,对流式目标候选序列每个位置上的概率进行求和,计算得到流式注意力分数,所述流式注意力分数作为对所述n条流式候选声学序列进行重打分的分数。
4.根据权利要求3所述的流式和非流式混合语音识别系统,其特征在于,所述重打分的分数还包括:将所述流式注意力分数和所述ctc流式声学分数进行加权求和作为对所述n条流式候选声学序列进行重打分的分数。
5.根据权利要求4所述的流式和非流式混合语音识别系统,其特征在于,所述n为设置参数,10≤n≤100。
6.根据权利要求1所述的流式和非流式混合语音识别系统,其特征在于,所述注意力机制解码器采用beamsearch搜索算法在对解码过程中生成的得分最高的m条非流序列作为m条非流候选声学序列的具体过程为:
从开始标记开始进行预测,每一步都需要输入完整的编码状态和上一步预测得到的标记,然后计算预测标记的得分;重复这一过程,直到预测到结束标记停止;然后将所述注意力机制解码器解码过程中生成的得分最高的m条非流序列作为m条非流候选声学序列和m条非流候选声学序列的非流注意力分数,剔除掉开始标记和结束标记。
7.根据权利要求6所述的流式和非流式混合语音识别系统,其特征在于,所述由所述联结时序分类解码器对所述m条非流候选声学序列进行重打分的具体方法为:将ctc非流声学分数与所述非流注意力分数进行加权求和得到所述联结时序分类解码器对所述m条非流候选声学序列进行重打分的分数。
8.根据权利要求7所述的流式和非流式混合语音识别系统,其特征在于,所述m为设置参数,10≤m≤100。
9.一种流式语音识别方法,其特征在于,包括:
(1)输入的音频流每达到一个固定长度就被计算为声学特征流输入到流式编码器中;
(2)流式的声学特征流经过流式编码器之后转变为流式编码状态输入到联结时序分类解码器中;
(3)联结时序分类解码器采用beamsearch搜索算法,对流式编码状态进行预测;
(4)重复上述(1)-(3),如果遇到句子结束,则流式编码状态结束,最终生成n条流式候选声学序列和所述n条流式候选声学序列的ctc流式声学分数;
(5)注意力机制解码器对所述n条流式候选声学序列进行重打分,在每条流式候选序列前端扩增一个句子开始标记作为输入流式候选序列;所述注意力机制解码器采用n条输入流式候选序列和所述n条流式候选序列对应的编码状态作为输入,预测包含结束标记不包含开始标记的流式目标候选序列,对流式目标候选序列每个位置上的概率进行求和,计算得到流式注意力分数,所述流式注意力分数作为对所述n条流式候选声学序列进行重打分的分数;
或者将所述流式注意力分数和所述ctc流式声学分数进行加权求和作为对所述n条流式候选声学序列进行重打分的分数;
(6)据每条流式候选声学序列的分数对n条流式候选声学序列重新排列,采用分数最高的流式候选声学序列作为最终的流式识别结果,通过提高流式候选声学序列的数量n来提升流式语音识别的表现,n的典型值是10,参数设置范围:10≤n≤100。
10.一种非流式语音识别方法,其特征在于,包括:
(1)音频输入结束后,对整段音频提取特征,并输入流式编码器中进行编码;
(2)注意力机制解码器依赖流式编码器的全部输出和起始标记作为输入,从开始标记开始进行预测,每一步都需要输入完整的编码状态和上一步预测得到的标记,然后计算预测标记的得分;
(3)重复步骤(2),直到预测到结束标记停止;然后将所述注意力机制解码器解码过程中生成的得分最高的m条非流序列作为m条非流候选声学序列和m条非流候选声学序列的非流注意力分数,剔除掉开始标记和结束标记;
(4)使用联结时序分类解码器对全部m条非流候选声学序列进行重打分,使用动态规划算法,计算在输入完整语音输入条件下预测得到目标非流候选声学序列的概率作为ctc非流声学分数;
(5)将ctc非流声学分数与所述非流注意力分数进行加权求和得到所述联结时序分类解码器对所述m条非流候选声学序列进行重打分的分数,并重新排序;
(6)最终输出所述m条非流候选声学序列进行重打分的分数最高的分支作为识别结果。
技术总结
本发明提供一种流式和非流式混合语音识别系统,包括:流式编码器、联结时序分类解码器和注意力机制解码器;流式编码器采用基于局部自注意力机制的Transformer来进行构建;联结时序分类解码器包含一个线性映射层,负责将编码状态映射到预先设计好的词表空间,使编码状态映射表示的维度与词表空间的维度相同,然后通过Softmax计算预测到的标记,用于流式解码;注意力机制解码器采用Transformer解码器来构建,由前端卷积层和多层重复的单向Transformer编码层组成,最后一层为线性映射层,使编码状态映射表示的维度与词表空间的维度相同,并计算最终输出的概率。
技术研发人员:陶建华;田正坤;易江燕
受保护的技术使用者:中国科学院自动化研究所
技术研发日:2021.06.18
技术公布日:2021.08.13
本文用于企业家、创业者技术爱好者查询,结果仅供参考。