技术总结
本发明公开了一种基于深度神经网络声学模型的语音识别方法及系统,对待识别的语音进行滑动加窗预处理操作,提取声学特征;构建深度神经网络声学模型并进行训练;利用深度神经网络声学模型计算提取的声学特征对应的似然概率;构建静态解码图,解码器通过静态解码图和似然概率,基于动态规划的维特比算法构建一个包含所有识别结果的有向无环图作为解码网络,从解码网络中获取状态级别的词图并通过确定化得到词级别的词图;获取词级别词图的最优代价路径词图,得到词图最优状态序列对应的词序列,作为最终的识别结果,完成语音识别。本发明能够解决复杂结构网络模型带来的梯度弥散和梯度爆炸,在保证解码速度的同时降低词错误率,提高识别准确度。提高识别准确度。
技术研发人员:范建存 马一航 周世豪 景海婷 杨涛 左良玉
受保护的技术使用者:西安交通大学
技术研发日:2021.04.16
技术公布日:2021/6/7
本发明公开了一种基于深度神经网络声学模型的语音识别方法及系统,对待识别的语音进行滑动加窗预处理操作,提取声学特征;构建深度神经网络声学模型并进行训练;利用深度神经网络声学模型计算提取的声学特征对应的似然概率;构建静态解码图,解码器通过静态解码图和似然概率,基于动态规划的维特比算法构建一个包含所有识别结果的有向无环图作为解码网络,从解码网络中获取状态级别的词图并通过确定化得到词级别的词图;获取词级别词图的最优代价路径词图,得到词图最优状态序列对应的词序列,作为最终的识别结果,完成语音识别。本发明能够解决复杂结构网络模型带来的梯度弥散和梯度爆炸,在保证解码速度的同时降低词错误率,提高识别准确度。提高识别准确度。
技术研发人员:范建存 马一航 周世豪 景海婷 杨涛 左良玉
受保护的技术使用者:西安交通大学
技术研发日:2021.04.16
技术公布日:2021/6/7
再多了解一些
本文用于企业家、创业者技术爱好者查询,结果仅供参考。