一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种基于元音和谐的土耳其语的语音识别方法及系统与流程

2021-06-25 11:20:00 来源:中国专利 TAG:土耳其 语音识别 自然语言 元音 和谐

技术特征:
1.一种基于元音和谐的土耳其语的语音识别方法,该方法包括:将待识别语音进行识别,得到多个候选语句,再将每个候选语句拆分成多个子词;将每个子词依次输入土耳其语子词级别神经网络语言模型,获得下一个子词的预测概率的对数值;根据该候选语句中所有子词的预测概率的对数值,获得该候选语句的概率的对数值;按照从大到小的顺序对各个候选语句的概率的对数值进行排序,将最大概率的对数值对应的候选语句作为语音识别结果。2.根据权利要求1所述的方法,其特征在于,所述土耳其语子词级别神经网络语言模型的处理过程,具体包括:将当前子词对应的独热码输入至词向量矩阵,输出当前子词的低维词向量;截取到当前子词为止的最后一个元音和辅音,并抽取其对应的独热码作为当前子词的辅助特征;将当前子词的低维词向量与当前子词的辅助特征串联,并将其输入至长短时记忆神经网络单元的隐层,输出当前子词的隐层特征向量;将当前子词的隐层特征向量与当前子词的辅助特征串联,获得串联后的特征向量,并将其输入至长短时记忆神经网络单元的softmax层,依据softmax函数:y
t
=softmax(w
e
[h
t
;f
t
] b
e
)其中,y
t
为下一个子词的预测概率向量;w
e
为仿射矩阵,b
e
为偏置;h
t
为当前子词的隐层特征向量;f
t
为当前子词的辅助特征;其中,辅助特征f
t
表示为到当前子词为止的最后一个元音和辅音,其包含最后一个元音和辅音的独热码;具体来说,土耳其语字母表中包含8个元音21个辅音;因此,最后一个元音和辅音的独热码两部分的维度分别为8和21;最终的辅助特征为最后一个元音和辅音的独热码两部分的串联,即特征长度d=29;输出下一个子词的预测概率向量y
t
。3.根据权利要求2所述的方法,其特征在于,所述方法还包括:土耳其语子词级别神经网络语言模型的训练步骤,具体包括:建立训练集,将训练集中的每个单词拆分成多个子词;对于当前子词w
t
,其输入为该当前子词的独热码;其中,v表示词汇表的大小;当前子词w
t
经过在词向量矩阵c的查表操作后,得到该当前子词w
t
的低维词向量e
t
;其中,c∈r
v
×
m
,e
t
∈r
m
中,v为词汇表的大小;m为子词级别神经网络语言模型的lstm单元的隐层单元个数;截取到当前子词为止的最后一个元音和辅音,并抽取其对应的独热码作为当前子词的辅助特征f
t
;将通过词向量矩阵c得到的低维词向量e
t
与辅助特征f
t
串联,送入长短时记忆神经网络单元中,得到的输出为当前子词的隐层特征向量h
t
;其中,h
t
∈r
m
;将当前子词的隐层特征向量h
t
通过一层只有一个节点线性层和sigmoid层得到结果z
t
;其中,该结果z
t
为该子词级别神经网络语言模型的词边界预测分支的结果;词边界预测标签g
t
∈{0,1}为下一子词是否为单词第一个子词;其中,1表示下一次是单词第一次,0表示不是;t时刻对应的损失函数l1为:
l1=-g
t
log(z
t
)-(1-g
t
)log(1-z
t
)其中,z
t
为该长短时记忆神经网络单元的词边界预测分支的结果;g
t
为词边界预测标签;将当前子词的隐层特征向量h
t
与辅助特征f
t
串联,通过一层节点个数为子词词表大小的线性层和softmax层,得到下一个子词的预测概率;对应的损失函数l2:其中,v为词汇表的大小;w
(t 1)v
为序列第(t 1)子词是否为词表中第vg个单词,是为1,否为0;;(y
tv
)为输出yt向量中第v个元素;则最优目标函数l为:l=αl1 (1-α)l2其中,α为长短时记忆神经网络单元的损失函数的权重;其中,0≤α≤1;采用随机梯度下降的方式进行训练,得到土耳其语子词级别神经网络语言模型的参数。4.根据权利要求3所述的方法,其特征在于,所述根据该候选语句中所有子词的预测概率的对数值,获得该候选语句的概率的对数值;具体包括:依次获得所有子词的预测概率后,分别取对数并依次相加:其中,p
s
为第s个候选语句的概率的对数值;|s|为语句中所包含的子词个数;得到每个候选语句的概率的对数值。5.一种基于元音和谐的土耳其语的语音识别系统,其特征在于,该系统包括:拆分模块,用于将待识别语音进行识别,得到多个候选语句,再将每个候选语句拆分成多个子词;识别模块,用于将每个子词依次输入土耳其语子词级别神经网络语言模型,获得下一个子词的预测概率的对数值;对数获取模块,用于根据该候选语句中所有子词的预测概率的对数值,获得该候选语句的概率的对数值;和语音获取模块,用于按照从大到小的顺序对各个候选语句的概率的对数值进行排序,将最大概率的对数值对应的候选语句作为语音识别结果。6.一种计算机设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现上述权利要求1-4中任一所述的方法。7.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序当被处理器执行时使所述处理器执行上述权利要求1-4中任一所述的方法。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文章

  • 日榜
  • 周榜
  • 月榜