技术特征:
1.少量重口音数据下的端到端语音转文本模型优化方法,其特征在于,包括以下步骤,所述端到端语音识别模型las的构建;
根据少量重口音数据的声学特点;
设计并构造基于注意力机制的序列到序列的端到端声学模型las。
2.根据权利要求1所述的少量重口音数据下的端到端语音转文本模型优化方法,其特征在于,所构建的端到端声学模型主要由编码器模块、注意力模块和解码器模块三部分构成;
其中,所述编码器模块用于学习和挖掘语音特征序列的上下文关联信息,从原始特征中提取高层信息,增强特征的区分度和表征能力;
所述注意力模块用于学习编码器模块和解码器模块之间的关联度;解码器模块对输入的高层语义特征进行解码,再结合激活函数计算得到序列每个位置上各个音素出现的后验概率。
3.根据权利要求2所述的少量重口音数据下的端到端语音转文本模型优化方法,其特征在于,常用大规模普通话语音识别模型的训练;
首先,使用已有的已标注的大规模普通话语料对权利要求1中所构建的端到端语音识别模型进行训练,得到普通话数据下的通用端到端语音识别模型。
4.根据权利要求3所述的少量重口音数据下的端到端语音转文本模型优化方法,其特征在于,少量重口音语音数据下的模型优化;
针对标准普通话语音数据下训练得到的通用语音识别模型,使用少量重口音语音数据对其进行优化。
5.根据权利要求4所述的少量重口音数据下的端到端语音转文本模型优化方法,其特征在于,少量重口音数据下的模型训练;
首先,冻结编码器模块的模型参数,即固定编码器模块在普通话语料下训练得到的模型参数;
其次,使用少量重口音数据对注意力模块和解码器模块进行优化,即使用少量重口音语音数据对模型注意力模块和解码器模块参数进行微调,使其适应重口音语音特征的空间分布;
最后,训练得到少量重口音数据下的端到端语音转文本模型。
6.根据权利要求5所述的少量重口音数据下的端到端语音转文本模型优化方法,其特征在于,重口音场景下的语音解码;
首先,使用束搜索解码技术对重口音语音识别模型进行解码搜索,得到声学模型分数;
然后,使用已有的大规模语言模型对搜索得到的解码路径进行语言模型分数计算;
最后,使用语言模型分数对声学模型分数进行重打分,得到解码搜索最终的分数,由该分数计算得到重口音语音对应的解码文本。
7.根据权利要求1所述的少量重口音数据下的端到端语音转文本模型优化方法,其特征在于,包括以下步骤:
s1,所述端到端声学模型las结构主要由编码器网络、注意力层和解码器网络构成;
编码器由一层包含512个神经节点的blstm和3层金字塔双向长短时记忆网络(pyramidbidirectionallong-shorttermmemory,pblstm)构成。对于输入的声学特征序列x=[x1,x2,...,xn,...,xn],xn为声学特征第n个位置的特征向量,将该特征序列作为长短时记忆网络层(long-shorttermmemory,lstm)的输入特征,通过公式(1)~(5)可计算得到lstm对应的输出序列h=(h1,h2,…,hn,…,hn);
fn=σ(wfxn ufhn-1 bf)\*mergeformat(1)
in=σ(wixn uihn-1 bi)\*mergeformat(2)
on=σ(woxn uohn-1 bo)\*mergeformat(3)
其中,fn,in,on和cn分别表示输入门、遗忘门、输出门和记忆单元第n步的激活向量,σ是sigmoid激活函数,wf和uf、wi和ui、wo和uo、wc和uc分别是输入门、遗忘门、输出门和记忆单元的权重矩阵;bf、bi、bo、bc分别是输入门、遗忘门、输出门和记忆单元的偏置向量;xn为第n个时间步的输入特征;hn-1为第n-1个时间步的输出特征;tanh是激活函数;
在las的编码器中,使用双向长短时记忆网络(bidirectionallong-shorttermmemory,blstm)对输入的序列特征x进行时序关系建模,其形式化表示如公式(6)所示;
同时使用非线性激活可以得到最终的隐向量
在blstm层之后堆叠了三层pblstm层,pblstm层的计算方式如公式(7)所示;
由于每个时间步的输出特征对于语音转文本任务来说并不都是同等重要的;因此,引入上下文依赖的注意力机制可以使模型专注于序列中上下文相关语义显著特征的学习,从而提升模型推理的准确率;对于解码器输出的中间层语义特征h=(h1,h2,…,hu,…,hu),注意力层首先计算序列中第i个时间步输出特征h对应的权重αi,u,计算方式如公式(8)~(9)所示;
上下文依赖的语义特征ci是输入序列的加权之和,是对一段语音整体语义的表征,其加权求和的方法如公式(10)所示;
解码器网络由两层各包含512个神经节点的单向lstm网络构成,其形式化表示如公式(11)~(12)所示;
si=lstm(si-1,yi-1,ci-1)\*mergeformat(11)
p(yi|x,y<i)=mlp(si,ci)\*mergeformat(12);
s2,常用大规模标准普通话语音模型训练。本发明构建的las模型的编码器、注意力层和解码器可以进行端到端联合训练,其目标函数如公式(13)所示;
其中,θe、θa、θd分别为las的编码器模块、注意力模块、解码器模块的模型参数;
s3,少量重口音模型优化;在获得大规模普通话语音识别模型后,使用少量重口音语音数据对其进行优化;首先,冻结模型中编码器模块的参数;然后,使用少量的重口音语音数据对注意力模块和解码器模块进行微调;通过少量的重口音数据即可完成模型对重口音语音特征的适应,从而能够有效提升端到端语音模型对重口音语音的转写准确率;与所述步骤s2相同,重口音模型优化同样采用端到端的优化方式,其形式化表示如公式(14)所示;
s4,重口音模型解码和重打分;由于基于贪心的解码策略每次都在当前位置直接取最优路径,不能保证生成整个序列的概率是最优的。此外,在实际的应用中,词表一般都很大,在有限的搜索时间内无法完成所有可能路径的解码搜索;因此,在实际的应用中,一般采用束搜索(beamsearch)的方法进行语音解码;同时,为了引入语音模型对解码结果进行校正,该技术中引入了语言模型对搜索出的路径进行重打分,其形式化表达如公式(15)所示;
8.根据权利要求1所述的少量重口音数据下的端到端语音转文本模型优化方法,其特征在于,所述blstm的隐向量表征分别来自正向和反向lstm(使用
9.根据权利要求1所述的少量重口音数据下的端到端语音转文本模型优化方法,其特征在于,所述exp为以自然常数e为底的指数函数,φ、
10.根据权利要求1所述的少量重口音数据下的端到端语音转文本模型优化方法,其特征在于,所述|y|c表示字符个数;logplm(y)表示语言模型分数;λ表示语言模型分数权重,可由验证集确定。实际应用中的解码搜索采用beam数为32的束搜索,语言模型分数权重λ为0.008;
所述θa、θd分别为las的注意力模块、解码器模块的模型参数;
技术总结
本发明公开了少量重口音数据下的端到端语音转文本模型优化方法,包括以下步骤,所述端到端语音识别模型LAS的构建;根据少量重口音数据的声学特点,设计并构造基于注意力机制的序列到序列的端到端声学模型LAS;这些优点使其能够大大简化语音识别模型的构建和训练,并提升语音识别准确率;与已有的端到端模型相比,本发明所提出的少量重口音数据下的端到端语音转文本模型优化方法仅需要标注少量的重口音语音数据即可完成重口音场景下的模型训练,该发明将已有的普通话语音特征知识迁移到重口语音模型中,能够显著提升重口音场景下的语音识别准确率;该模型能够利用现有的大规模普通话语音语料,能够有效降低重口音语音语料的获取和标注的成本。
技术研发人员:赵雨嫣
受保护的技术使用者:南京迪港科技有限责任公司
技术研发日:2021.01.29
技术公布日:2021.06.15
本文用于企业家、创业者技术爱好者查询,结果仅供参考。