一种基于先验概率的声学解码方法与流程

2021-07-09 10:40:00 来源：中国专利 TAG：先验声学解码概率语音识别

技术特征：
1.一种基于先验概率的声学解码方法，其特征在于，包括如下步骤：(1)在训练阶段，将训练语音文本中的所有字都用音节代替，得到音节序列；(2)统计训练语音文本音节序列中每个音节向其他音节转移的概率，得到音节上下文模型；(3)用每个音节的全部训练语音进行模型训练，得到该音节的隐马尔可夫模型，所有音节的隐马尔可夫模型组成语音识别系统的声学模型；(4)在识别阶段，用所述每个声学模型对当前语音特征向量计算输出概率，并将输出概率从大到小排序，存储前若干个概率值；(5)读取上一个语音的声学模型输出概率值，若最大值远大于其他值，则用上一个语音的音节转移到每个音节的先验概率对声学模型的输出概率进行加权，并将加权概率最大的声学模型对应的音节作为当前语音声学解码的结果；否则，若上一个语音的声学模型输出概率的最大值与后面的几个值比较接近，则不用音节转移的先验概率进行加权，直接用输出概率最大的声学模型对应的音节作为当前语音声学解码的结果。2.如权利要求1所述的基于先验概率的声学解码方法，其特征在于，所述步骤(2)中，具体包括统计训练语音文本音节序列中每个音节向其他音节转移的先验概率，设音节a在训练语音中出现n次，其中，设音节w1在训练语音中出现n次，其中，有m次下一个音节是音节w2，则音节w1向音节w2转移的先验概率为所有音节转移的先验概率构成所述音节上下文模型。3.如权利要求1所述的基于先验概率的声学解码方法，其特征在于，所述步骤(3)用每个音节的全部训练语音进行模型训练之前先对训练语音进行预处理，包括加窗、分帧和快速傅里叶变换，然后提取训练语音和测试语音的美尔频率倒谱系数，将所述美尔顿率倒谱系数作为训练语音的特征向量。4.如权利要求1所述的基于先验概率的声学解码方法，其特征在于，所述隐马尔可夫模型第i个状态的概率密度函数表示为：其中，o
t
表示第t帧mfcc特征向量，c
im
、μ
im
和σ
im
分别表示第i个状态的第m个高斯单元的混合系数、均值向量和协方差矩阵，m表示每个状态的高斯混合数，d表示特征向量的维数。5.如权利要求1所述的基于先验概率的声学解码方法，其特征在于，所述步骤(5)具体包括：(51)用每个音节的隐马尔可夫模型对当前测试语音的特征向量计算输出概率，并对所述输出概率取对数，得到每个隐马尔可夫模型的似然值l
j
，j＝0,1,2
…
n
‑
1，其中，n是音节的数量；(52)将似然值从大到小排序，存储前q个音节的似然值，其中，q≥2，对当前语音进行声学解码时，读取上一个语音的隐马尔可夫模型的输出似然值；(53)如果其最大值远大于其他q
‑
1个值，则用音节转移的先验概率对隐马尔可夫模型的输出概率进行加权：
其中，p
ij
是上一个语音的识别结果；是加权后的输出概率似然值；否则，若上一个语音的隐马尔可夫模型的输出概率最大值与其他q
‑
1个值中的前几个较大值比较接近，则令即不进行先验概率加权，直接用hmm的输出似然值进行声学解码；(54)比较得到的所有的大小，用最大值对应的音节作为声学解码的识别结果。

再多了解一些

2/3 首页上一页 1 2 3 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：多人佛乐生成方法、装置、设备及存储介质与流程

一种基于先验概率的声学解码方法与流程

相关文章

最热文献