技术特征:
1.一种语音识别方法,其特征在于,所述方法包括:
使用语音样本分别对多个第一语音识别模型进行模型训练,以获取多个初始的语音识别模型以及获取经每个所述初始的语音识别模型分别得到的每个所述语音样本的初始hclg解码图;
针对每个所述语音样本,对每个所述语音样本对应的多个所述初始hclg解码图进行融合,以获取每个所述语音样本各自对应的融合后的hclg解码图;
采用知识蒸馏算法,同时使用每个所述初始的语音识别模型获取到的语音样本的音素识别结果以及所述融合后的hclg解码图指导第二语音识别模型使用所述语音样本进行模型训练,得到最终的语音识别模型;
采用所述最终的语音识别模型对待识别语音信号进行语音识别。
2.根据权利要求1所述的语音识别方法,其特征在于,“采用知识蒸馏算法,同时使用每个所述初始的语音识别模型获取到的语音样本的音素识别结果以及所述融合后的hclg解码图指导第二语音识别模型使用所述语音样本进行模型训练”的步骤具体包括:
采用知识蒸馏算法并且按照下式所示的知识蒸馏目标函数l对所述第二语音识别模型进行模型训练:
l=λ×l1 (1-λ)×l2
其中,所述l1表示利用所述融合后的hclg解码图对所述第二语音识别模型使用所述语音样本进行训练指导学习时确定的第一知识蒸馏函数,所述l2表示利用所述音素识别结果对所述第二语音识别模型使用所述语音样本进行训练指导学习时确定的第二知识蒸馏函数;所述λ表示预设的函数权重。
3.根据权利要求2所述的语音识别方法,其特征在于,所述第一知识蒸馏函数l1如下式所示:
其中,所述x表示语音样本,所述w是所述语音样本x的样本标签中的信息,所述w表示语音样本x对应的正确的单词序列,所述p(x|w)表示在所述单词序列w下出现所述语音样本x的概率,所述p(w)表示所述单词序列w出现的概率;
所述w′i表示利用所述语音样本x对应的融合后的hclg解码图中解码得到的第i个单词序列,i=1...n,所述n表示利用所述语音样本x对应的融合后的hclg解码图中解码得到的单词序列的总数;所述p(x|w′i)表示在所述单词序列w′i下出现所述语音样本x的概率,所述p(w′i)表示所述单词序列w′i出现的概率;
并且/或者,
所述第二知识蒸馏函数l2如下式所示:
其中,所述xi表示第j个语音样本,所述n表示语音样本的总数,所述
4.根据权利要求1所述的语音识别方法,其特征在于,“获取每个所述语音样本各自对应的融合后的hclg解码图”的步骤具体包括:
获取当前语音样本对应的每个初始hclg解码图;
对所述当前语音样本的初始hclg解码图进行合并和/或组合和/或确定化操作,以获取所述当前语音样本对应的融合后的hclg解码图;
或者,
“获取每个所述语音样本各自对应的融合后的hclg解码图”的步骤具体包括:
获取当前语音样本对应的每个初始hclg解码图;
采用最小贝叶斯风险解码方法,从所述当前语音样本的初始hclg解码图中获取一个或多个最优单词序列的解码路径;
根据所述最优单词序列的解码路径构建所述当前语音样本对应的融合后的hclg解码图。
5.根据权利要求1至4中任一项所述的语音识别方法,其特征在于,所述方法还包括通过下列步骤获取语音样本:
获取初始的语音样本;
对所述初始的语音样本进行数据增强处理,以获取最终的语音样本;
其中,所述数据增强处理包括在所述初始的语音样本上加入对所述初始的语音样本进行去噪后得到的音频数据。
6.一种语音识别装置,其特征在于,所述装置包括:
第一模型训练模块,其被配置成使用语音样本分别对多个第一语音识别模型进行模型训练,以获取多个初始的语音识别模型以及获取经每个所述初始的语音识别模型分别得到的每个所述语音样本的初始hclg解码图;
数据获取模块,其被配置成针对每个所述语音样本,对每个所述语音样本对应的多个所述初始hclg解码图进行融合,以获取每个所述语音样本各自对应的融合后的hclg解码图;
第二模型训练模块,其被配置成采用知识蒸馏算法,同时使用每个所述初始的语音识别模型获取到的语音样本的音素识别结果以及所述融合后的hclg解码图指导第二语音识别模型使用所述语音样本进行模型训练,得到最终的语音识别模型;
语音识别模块,其被配置成采用所述最终的语音识别模型对待识别语音信号进行语音识别。
7.根据权利要求6所述的语音识别装置,其特征在于,所述第二模型训练模块被进一步配置成采用知识蒸馏算法并且按照下式所示的知识蒸馏目标函数l对所述第二语音识别模型进行模型训练:
l=λ×l1 (1-λ)×l2
其中,所述l1表示利用所述融合后的hclg解码图对所述第二语音识别模型使用所述语音样本进行训练指导学习时确定的第一知识蒸馏函数,所述l2表示利用所述音素识别结果对所述第二语音识别模型使用所述语音样本进行训练指导学习时确定的第二知识蒸馏函数;所述λ表示预设的函数权重。
8.根据权利要求7所述的语音识别装置,其特征在于,所述第一知识蒸馏函数l1如下式所示:
其中,所述x表示语音样本,所述w是所述语音样本x的样本标签中的信息,所述w表示语音样本x对应的正确的单词序列,所述p(x|w)表示在所述单词序列w下出现所述语音样本x的概率,所述p(w)表示所述单词序列w出现的概率;
所述w′i表示利用所述语音样本x对应的融合后的hclg解码图中解码得到的第i个单词序列,i=1...n,所述n表示利用所述语音样本x对应的融合后的hclg解码图中解码得到的单词序列的总数;所述p(x|w′i)表示在所述单词序列w′i下出现所述语音样本x的概率,所述p(w′i)表示所述单词序列w′i出现的概率;
并且/或者,
所述第二知识蒸馏函数l2如下式所示:
其中,所述xi表示第j个语音样本,所述n表示语音样本的总数,所述
9.根据权利要求6所述的语音识别装置,其特征在于,所述数据获取模块包括第一数据获取单元和/或第二数据获取单元;
所述第一数据获取单元被配置成执行下列操作:
获取当前语音样本对应的每个初始hclg解码图;
对所述当前语音样本的初始hclg解码图进行合并和/或组合和/或确定化操作,以获取所述当前语音样本对应的融合后的hclg解码图;
所述第二数据获取单元被配置成执行下列操作:
获取当前语音样本对应的每个初始hclg解码图;
采用最小贝叶斯风险解码方法,从所述当前语音样本的初始hclg解码图中获取一个或多个最优单词序列的解码路径;
根据所述最优单词序列的解码路径构建所述当前语音样本对应的融合后的hclg解码图。
10.根据权利要求6至9中任一项所述的语音识别装置,其特征在于,所述装置还包括语音样本获取模块,所述语音样本获取模块被配置成执行下列操作:
获取初始的语音样本;
对所述初始的语音样本进行数据增强处理,以获取最终的语音样本;
其中,所述数据增强处理包括在所述初始的语音样本上加入对所述初始的语音样本进行去噪后得到的音频数据。
11.一种语音识别装置,包括处理器和存储装置,所述存储装置适于存储多条程序代码,其特征在于,所述程序代码适于由所述处理器加载并运行以执行权利要求1至5中任一项所述的语音识别方法。
12.一种计算机可读存储介质,其中存储有多条程序代码,其特征在于,所述程序代码适于由处理器加载并运行以执行权利要求1至5中任一项所述的语音识别方法。
技术总结
本发明涉及语音处理技术领域,具体提供了一种语音识别方法、装置以及计算机可读存储介质,旨在解决如何准确与高效地进行语音识别的技术问题。为此目的,根据本发明实施例的方法,可以采用知识蒸馏算法使训练好的多个第一语音识别模型指导第二语音识别模型进行模型训练,使训练好的第二语音识别模型无论是对输入语音的音素识别能力还是解码能力都接近于多个第一语音识别模型的音素识别与解码能力,从而只需在计算机设备上运行一个第二语音识别模型就可以达到并行运行多个第一语音识别模型的语音识别效果,因而显著提高了语音识别的效率与准确性。
技术研发人员:王金超
受保护的技术使用者:云从科技集团股份有限公司
技术研发日:2021.03.10
技术公布日:2021.07.23
本文用于企业家、创业者技术爱好者查询,结果仅供参考。