一种基于循环神经网络语言模型的在线语音识别方法和系统与流程

2021-09-10 22:42:00 来源：中国专利 TAG：在线语音识别提出了模型循环

技术特征：
1.一种基于循环神经网络语言模型的在线语音识别方法，其特征在于，所述方法包括：针对原始音频进行特征提取，获得完成特征提取的语音音频；将所述语音音频输入至声学模型中进行打分，获得声学模型得分；将重新打分后的语音音频输入至wfst和rnn语音模型中进行解码并重新打分，获得解码后的语音音频；将解码后的语音音频作为识别结果进行输出。2.根据权利要求1所述在线语音识别方法，其特征在于，将重新打分后的语音音频输入至wfst和rnn语音模型中进行解码并重新打分包括：利用多元文法构建wfst模型；将所述完成特征提取的语音音频输入至所述wfst模型中进行解码，获得若干条最优词串信息，并将所述若干条最优词串信息保留在当前帧，形成历史词信息；利用rnn语音模型所有历史词信息进行重新打分。3.根据权利要求2所述在线语音识别方法，其特征在于，所述wfst模型进行解码的过程为按照时间顺序一帧一帧向前计算搜索。4.根据权利要求2所述在线语音识别方法，其特征在于，利用rnn语音模型所有历史词信息进行重新打分，包括：利用神经网络对所述打分后的语音音频进行向前计算，获得向前计算后的语音音频；利用将向前计算后的语音音频输入至rnn语音模型中；所述rnn语音模型利用延迟打分策略，通过解码器根据实时的幸存路径和解码参数确定重新打分的时机；在到达重新打分的时机时，立即对语音音频进行重新打分。5.一种基于循环神经网络语言模型的在线语音识别系统，其特征在于，所述系统包括：提取模块，用于针对原始音频进行特征提取，获得完成特征提取的语音音频；打分模块，用于将所述语音音频输入至声学模型中进行打分，获得声学模型得分；重新打分模块，用于将重新打分后的语音音频输入至wfst和rnn语音模型中进行解码并重新打分，获得解码后的语音音频；将解码后的语音音频作为识别结果进行输出。6.根据权利要求5所述在线语音识别系统，其特征在于，所述重新打分模块包括：构建模块，用于利用多元文法构建wfst模型；解码模块，用于将所述完成特征提取的语音音频输入至所述wfst模型中进行解码，获得若干条最优词串信息，并将所述若干条最优词串信息保留在当前帧，形成历史词信息；重新打分子模块，用于利用rnn语音模型所有历史词信息进行重新打分。7.根据权利要求6所述在线语音识别系统，其特征在于，所述wfst模型进行解码的过程为按照时间顺序一帧一帧向前计算搜索。8.根据权利要求6所述在线语音识别系统，其特征在于，所述重新打分子模块包括：向前计算模块，用于利用神经网络对所述打分后的语音音频进行向前计算，获得向前计算后的语音音频；输入模块，用于利用将向前计算后的语音音频输入至rnn语音模型中；解码打分模块，用于所述rnn语音模型利用延迟打分策略，通过解码器根据实时的幸存
路径和解码参数确定重新打分的时机；打分子模块，用于在到达重新打分的时机时，立即对语音音频进行重新打分。9.根据权利要求5所述在线语音识别系统，其特征在于，所述系统还包括：批量处理模块，用于当在同一重新打分的时机时，存在多条路径的语音音频需要进行重新打分时，采用gpu芯片通过高并行处理方式，对多条路径的语音音频进行批量重新打分处理。

技术总结
本发明提出了一种基于循环神经网络语言模型的在线语音识别方法和系统，所述方法包括：针对原始音频进行特征提取，获得完成特征提取的语音音频；将所述语音音频输入至声学模型中进行打分，获得声学模型得分；将重新打分后的语音音频输入至WFST和RNN语音模型中进行解码并重新打分，获得解码后的语音音频；将解码后的语音音频作为识别结果进行输出。码后的语音音频作为识别结果进行输出。码后的语音音频作为识别结果进行输出。

技术研发人员：欧智坚刘岩肖吉孙磊
受保护的技术使用者：北京它思智能科技有限公司
技术研发日：2021.06.08
技术公布日：2021/9/9

再多了解一些

2/2 首页上一页 1 2

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：中英文混合的语音合成方法、装置、电子设备和存储介质与流程

一种基于循环神经网络语言模型的在线语音识别方法和系统与流程

相关文章

最热文献