技术特征:
1.一种语音识别方法,其特征在于,包括:
对待识别的音频数据进行特征提取以获得对应于所述音频数据的声学特征;
将所述声学特征输入预先训练的多个语音识别模型,以分别获得对应于各个语音识别模型的多个目标概率分布,所述多个目标概率分布对应于多个级别的声学标签体系,相应的目标概率分布表征在该级别的声学标签体系下,各声学标签与所述声学特征之间的匹配程度;
对所述多个目标概率分布进行融合解码,以得到所述音频数据的识别结果。
2.根据权利要求1所述的方法,其特征在于,所述多个级别的声学标签体系包括以下至少两种:文字级别的声学标签体系,音节级别的声学标签体系,音素级别的声学标签体系,以及带有上下文背景信息的音素级别的标签体系。
3.根据权利要求1所述的方法,其特征在于,所述对所述多个目标概率分布进行融合解码,以得到所述音频数据的识别结果,包括:
根据所述多个目标概率分布构造各个语音识别模型的解码路径,所述解码路径表征对应语音识别模型对声学特征的识别过程,识别结束时得到的解码路径表征针对该声学特征识别到的声学标签;
基于所述各个语音识别模型的解码路径计算解码目标函数,找到使所述解码目标函数最大的解码路径,将该解码路径作为所述音频数据的识别结果。
4.根据权利要求3所述的方法,其特征在于,所述根据所述多个目标概率分布构造各个语音识别模型的解码路径,包括:
确定每个语音识别模型对应声学标签体系内的元素,以元素为前缀并基于该语音识别模型对应的目标概率分布,构造该语音识别模型的解码路径。
5.根据权利要求4所述的方法,其特征在于,所述以元素为前缀并基于该语音识别模型对应的目标概率分布,构造该语音识别模型的解码路径,包括:
以所述语音识别模型对应声学标签体系内的首个元素为前缀,根据下一个元素的目标概率分布选出该下一个元素的候选结果,由所述前缀与候选结果构造出当前的解码路径进行解码;
以此类推,每一次解码将上一次的解码路径作为当前的前缀,结合下一个元素构造出当前的解码路径,直至得到完整的解码路径。
6.根据权利要求3所述的方法,其特征在于,所述基于所述各个语音识别模型的解码路径计算解码目标函数,包括:
基于所述各个语音识别模型的解码路径计算对应于所述各个语音识别模型的前缀得分;
将所述各个语音识别模型的前缀得分与设置的对应权重相乘,然后对得到的所有乘积求和,得到解码目标函数。
7.根据权利要求3所述的方法,其特征在于,所述找到使所述解码目标函数最大的解码路径,将该解码路径作为所述音频数据的识别结果,包括:
采用预设的稀疏矩阵,将所述解码目标函数内各个语音识别模型的解码路径统一转换为指定级别的解码路径,所述稀疏矩阵为不同级别的声学标签体系元素之间的映射关系,用于将一个级别的声学标签体系元素转换至另一个级别的声学标签体系元素;
找到使所述解码目标函数最大的解码路径,将该解码路径作为所述指定级别下的所述音频数据的识别结果。
8.一种语音识别装置,其特征在于,包括:
提取模块,用于对待识别的音频数据进行特征提取以获得对应于所述音频数据的声学特征;
识别模块,用于将所述声学特征输入预先训练的多个语音识别模型,以分别获得对应于各个语音识别模型的多个目标概率分布,所述多个目标概率分布对应于多个级别的声学标签体系,相应的目标概率分布表征在该级别的声学标签体系下,各声学标签与所述声学特征之间的匹配程度;
融合模块,用于对所述多个目标概率分布进行融合解码,以得到所述音频数据的识别结果。
9.一种介质,其存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-7中任一所述的方法。
10.一种计算设备,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现如权利要求1-7中任一所述的方法。
技术总结
本公开的实施方式提供了一种语音识别方法、介质、装置和计算设备。该方法包括:对待识别的音频数据进行特征提取以获得对应于音频数据的声学特征;将声学特征输入预先训练的多个语音识别模型,以分别获得对应于各个语音识别模型的多个目标概率分布,对多个目标概率分布进行融合解码,以得到音频数据的识别结果。本公开实施例可以提高中文语音识别的准确度,能够适用于各种场景,提高了模型的鲁棒性。
技术研发人员:杨震
受保护的技术使用者:网易(杭州)网络有限公司
技术研发日:2021.06.23
技术公布日:2021.08.31
本文用于企业家、创业者技术爱好者查询,结果仅供参考。