技术特征:
1.一种语音识别方法,其特征在于,所述方法包括:
获取训练数据,所述训练数据包括标准普通话训练数据和非标准普通话训练数据;
将所述标准普通话训练数据输入主神经网络进行训练,获得普通话声学模型;
在所述普通话声学模型中增加分支神经网络,其中,所述分支神经网络包括多个网络层,每个所述网络层的网络层信息与所述主神经网络中对应网络层的网络层信息一致;
将所述标准普通话训练数据和所述非标准普通话训练数据分别输入包含所述分支神经网络的所述普通话声学模型进行多任务训练,获得多任务训练后的所述普通话声学模型;
对多任务训练后的所述普通话声学模型进行模型更新,生成初始声学模型;
将所述训练数据输入所述初始声学模型进行训练,获得对应的目标声学模型;
获取待识别的语音信息,将所述语音信息输入至所述目标声学模型中得到所述语音信息的语义信息,其中,所述语音信息包含标准普通话和/或非标准普通话。
2.根据权利要求1所述的语音识别方法,其特征在于,所述获取训练数据,包括:
采集标准普通话音频数据和非标准普通话音频数据;
将所述标准普通话音频数据和所述非标准普通话音频数据进行标注;
对标注的所述标准普通话音频数据进行特征提取,获得对应的所述标准普通话训练数据,以及对标注的所述非标准普通话音频数据进行特征提取,获得对应的所述非标准普通话训练数据。
3.根据权利要求1所述的语音识别方法,其特征在于,所述主神经网络包括多个tdnnf层,所述多个tdnnf层中部分为底层共用tdnnf层,部分为上层非共用tdnnf层;
所述在所述普通话声学模型中增加分支神经网络,包括:
在所述主神经网络的多个tdnnf层中最后一个底层共用tdnnf层之后增加所述分支神经网络。
4.根据权利要求3所述的语音识别方法,其特征在于,所述主神经网络还包括输出层,所述分支神经网络包括输出层多个tdnnf层,所述分支神经网络的每个tdnnf层的节点数与所述主神经网络中对应tdnnf层的节点数相同,所述分支神经网络的输出层的节点数与所述主神经网络的输出层的节点数相同。
5.根据权利要求1至4任一项所述的语音识别方法,其特征在于,所述将所述标准普通话训练数据和所述非标准普通话训练数据分别输入包含所述分支神经网络的所述普通话声学模型进行多任务训练,包括:
将所述标准普通话训练数据输入所述普通话声学模型进行训练,对所述主神经网络的多个网络层的参数进行更新;
将所述非标准普通话训练数据输入所述普通话声学模型进行训练,对所述分支神经网络的多个网络层的参数进行更新。
6.根据权利要求4所述的语音识别方法,其特征在于,所述对多任务训练后的所述普通话声学模型进行模型更新,生成初始声学模型,包括:
将所述主神经网络的输出层以及所述分支神经网络移除;
增加attention层和新输出层,获得所述初始声学模型,其中,所述主神经网络的多个tdnnf层中最后一个tdnnf层的输出作为所述attention层的输入,所述attention层的输出作为所述新输出层的输入。
7.根据权利要求6所述的语音识别方法,其特征在于,所述将所述训练数据输入所述初始声学模型进行训练,获得对应的目标声学模型,包括:
将所述标准普通话训练数据和所述非标准普通话训练数据混合,获得混合数据;
对所述初始声学模型的各网络层的参数进行初始化,其中,所述初始声学模型的各网络层包括多个tdnnf层、所述attention层和所述新输出层;
将所述混合数据输入所述初始声学模型进行迭代训练,对所述初始声学模型的所述各网络层的参数进行更新,直至所述初始声学模型收敛,获得所述目标声学模型。
8.一种语音识别装置,其特征在于,所述装置包括:
数据获取模块,用于获取训练数据,所述训练数据包括标准普通话训练数据和非标准普通话训练数据;
第一模型训练模块,用于将所述标准普通话训练数据输入主神经网络进行训练,获得普通话声学模型;
第一模型处理模块,用于在所述普通话声学模型中增加分支神经网络,其中,所述分支神经网络包括多个网络层,每个所述网络层的网络层信息与所述主神经网络中对应网络层的网络层信息一致;
第二模型训练模块,用于将所述标准普通话训练数据和所述非标准普通话训练数据分别输入包含所述分支神经网络的所述普通话声学模型进行多任务训练,获得多任务训练后的所述普通话声学模型;
第二模型处理模块,用于对多任务训练后的所述普通话声学模型进行模型更新,生成初始声学模型;
第三模型训练模块,用于将所述训练数据输入所述初始声学模型进行训练,获得对应的目标声学模型;
语音识别模块,用于获取待识别的语音信息,将所述语音信息输入至所述目标声学模型中得到所述语音信息的语义信息,其中,所述语音信息包含标准普通话和/或非标准普通话。
9.一种计算机设备,其特征在于,所述计算机设备包括存储器和处理器;
所述存储器,用于存储计算机程序;
所述处理器,用于执行所述的计算机程序并在执行所述的计算机程序时实现如权利要求1至7任一项所述的语音识别方法。
10.一种计算机可读存储介质,所述计算机的可读存储介质存储有计算机程序,其特征在于,若所述计算机程序被处理器执行,实现如权利要求1至7任一项所述的语音识别方法。
技术总结
本申请涉及一种语音识别方法、装置、计算机设备及存储介质,该方法包括:获取训练数据,包括标准普通话训练数据和非标准普通话训练数据;将标准普通话训练数据输入主神经网络进行训练获得普通话声学模型;在普通话声学模型中增加分支神经网络;将标准普通话训练数据和非标准普通话训练数据输入普通话声学模型进行多任务训练;对普通话声学模型进行模型更新,生成初始声学模型;将训练数据输入初始声学模型进行训练,获得目标声学模型;将语音信息输入至目标声学模型中得到语音信息的语义信息,不仅提高了ASR识别效率;并且也避免了由于口音识别错误而影响ASR识别的准确性。本申请还涉及区块链技术,目标声学模型可以存储在区块链节点中。
技术研发人员:王瑞璋;魏韬;马骏;王少军
受保护的技术使用者:平安科技(深圳)有限公司
技术研发日:2021.04.28
技术公布日:2021.07.30
本文用于企业家、创业者技术爱好者查询,结果仅供参考。