技术特征:
1.一种特定场景下语音识别的方法,其特征在于,包括:
获取待识别的音频数据;
提取所述音频数据的特征;
将所述音频数据的特征输入到第一解码网络中得到识别文本;
其中,所述第一解码网络是通过以下步骤确定的:
将领域语音数据库的特征训练进声学模型得到领域声学模型;
所述领域声学模型、词典和语音模型组成所述第一解码网络。
2.根据权利要求1所述的特定场景下语音识别的方法,其特征在于,所述领域语音数据库的特征是通过以下步骤确定的:
获取领域语音数据库;
提取所述领域语音数据库的特征。
3.根据权利要求2所述的特定场景下语音识别的方法,其特征在于,所述领域语音数据库是带标注的领域语音数据库。
4.根据权利要求2所述的特定场景下语音识别的方法,其特征在于,所述提取所述领域语音数据库的特征,至少包括:预加重、分帧、加窗和离散傅里叶变换。
5.根据权利要求2所述的特定场景下语音识别的方法,其特征在于,所述领域语音数据库是不同的领域对应不同的领域语音数据库。
6.一种特定场景下语音识别的装置,其特征在于,包括:
获取模块:用于获取待识别的音频数据;
提取模块:用于提取所述音频数据的特征;
输入模块:用于将所述音频数据的特征输入到第一解码网络中得到识别文本
其中,所述第一解码网络是通过以下步骤确定的:
将领域语音数据库的特征训练进声学模型得到领域声学模型;
所述领域声学模型、词典和语音模型组成上述第一解码网络。
7.根据权利要求6所述的特定场景下语音识别的装置,其特征在于,所述领域语音数据库的特征是通过以下步骤确定的:
获取领域语音数据库;
提取所述领域语音数据库的特征。
8.根据权利要求7所述的特定场景下语音识别的装置,其特征在于,所述领域语音数据库是带标注的领域语音数据库。
9.一种电子设备,其特征在于,包括:处理器和存储器;
所述处理器通过调用所述存储器存储的程序或指令,用于执行如权利要求1至5任一项所述特定场景下语音识别的方法。
10.一种计算机可读存储介质,其特征在于,所述非暂态计算机可读存储介质存储程序或指令,所述程序或指令使计算机执行如权利要求1至5任一项所述特定场景下语音识别的方法。
技术总结
本发明涉及一种特定场景下语音识别的方法、电子设备和存储介质,该方法包括:获取待识别的音频数据;提取音频数据的特征;将音频数据的特征输入到第一解码网络中得到识别文本;其中,第一解码网络是通过以下步骤确定的:将领域语音数据库的特征训练进声学模型得到领域声学模型;领域声学模型、词典和语音模型组成第一解码网络。本申请中的待识别的音频数据在经过特征提取以后,输入到第一解码网络中,可以从第一解码网络中找出对应的领域声学模型,领域声学模型由于学习到了特定场景下的声学信号特征,与待识别的音频数据更匹配,得到的识别文本性能也会更好,提升了特定应用领域下的语音识别准确率,节省了时间和资源投入。
技术研发人员:范红亮;李轶杰;梁家恩
受保护的技术使用者:云知声(上海)智能科技有限公司
技术研发日:2021.06.02
技术公布日:2021.08.31
本文用于企业家、创业者技术爱好者查询,结果仅供参考。