语音识别模型的训练方法和语音识别方法及装置与流程

2021-12-14 22:57:00 来源：中国专利 TAG：

技术特征：
1.一种语音识别模型的训练方法，其中，所述语音识别模型包括对象分离网络、n个文本预测网络和语音识别网络，n为大于1的整数；所述方法包括：针对涉及n个对象的语音帧序列，将当前帧的语音特征输入所述对象分离网络，得到分别与所述n个对象相对应的n个第一内容特征；所述语音帧序列包括针对所述n个对象的n个实际文本；将所述n个实际文本中针对所述n个对象、且属于所述当前帧的在前帧的n个目标字符输入所述n个文本预测网络，得到n个第一文本特征；将所述n个第一内容特征和所述n个第一文本特征输入所述语音识别网络，得到针对所述当前帧的预测字符向量；基于针对所述语音帧序列中每个语音帧的预测字符向量，确定预测文本包括所述n个实际文本的概率；以及基于所述概率，训练所述语音识别模型。2.根据权利要求1所述的方法，其中，所述对象分离网络包括混合编码子网络、n个对象编码子网络和n个识别编码子网络；所述将当前帧的语音特征输入所述对象分离网络，得到分别与所述n个对象相对应的n个第一内容特征包括：将所述当前帧的语音特征输入所述混合编码子网络，得到混合内容特征；将所述混合内容特征输入所述n个对象编码子网络，得到n个中间特征；以及将所述n个中间特征分别输入所述n个识别编码子网络，得到所述n个第一内容特征。3.根据权利要求2所述的方法，其中，所述语音识别网络包括组合子网络和预测子网络；将所述n个第一内容特征和所述n个第一文本特征输入所述语音识别网络，得到针对所述当前帧的预测字符向量包括：将所述n个第一内容特征与所述n个第一文本特征输入所述组合子网络，得到由所述n个第一内容特征与所述n个第一文本特征彼此组合得到的n！个特征对组，作为所述当前帧的特征对组；以及将所述n！个特征对组依次输入所述预测子网络，得到与所述n！个特征对组相对应的n！个字符向量组，作为针对所述当前帧的预测字符向量，其中，所述n！个特征对组中的每个特征对组包括n个第一特征对，所述n个第一特征对中的n个第一内容特征分别来自所述n个识别编码子网络；所述n个第一特征对中的n个第一文本特征分别来自所述n个文本预测网络；所述n！个字符向量组中的每个字符向量组包括与所述n个第一特征对相对应的n个字符向量。4.根据权利要求3所述的方法，其中，所述确定预测文本包括所述n个实际文本的概率包括：针对所述语音帧序列中各语音帧的特征对组：确定与n！个特征对集合相对应的字符向量集合，得到n！个字符向量集合，其中，所述n！个特征对集合中的每个特征对集合由来源相同的m个特征对组成；以及基于所述每个字符向量集合，确定预测文本包括所述n个实际文本中每个实际文本的概率，得到针对所述每个字符向量集合的概率集合，其中，m为所述语音帧序列包括的帧数。5.根据权利要求4所述的方法，其中，所述基于所述每个字符向量集合，确定预测文本
包括所述n个实际文本中每个实际文本的概率包括：针对所述每个字符向量集合中的m个字符向量组：确定与来源相同的m个特征对相对应、且依据获得顺序依次排列的m个字符向量各自的目标元素，得到n个目标元素序列；以及确定所述n个目标元素序列中每个元素序列的元素的和，作为所述预测文本包括一个实际文本的概率，其中，所述每个元素序列中的元素依次对应的字符组成所述n个实际文本中的一个实际文本，不同元素序列中的元素依次对应的字符组成的实际文本不同。6.根据权利要求4所述的方法，其中，所述基于所述概率，训练所述语音识别模型包括：基于针对所述每个字符向量集合的概率集合中的n个概率，分别确定预测得到所述n个实际文本中每个实际文本的损失，得到n个损失；确定所述n个损失的和，作为针对所述每个字符向量集合的损失；以及基于针对所述n！个字符向量集合的n！个损失中的最小损失，训练所述语音识别模型。7.根据权利要求1所述的方法，还包括：确定所述当前帧的声学特征；基于所述当前帧的声学特征及所述当前帧的在后帧的声学特征，确定针对所述当前帧的差分特征；以及拼接所述当前帧的声学特征和针对所述当前帧的差分特征，获得所述当前帧的语音特征。8.根据权利要求1所述的方法，还包括：对涉及所述n个对象的语音样本进行分帧处理，得到多个语音帧；以及对所述多个语音帧基于预定采样间隔进行采样，得到所述语音帧序列，其中，所述预定采样间隔大于等于1帧。9.根据权利要求1所述的方法，其中：所述基于所述概率，训练所述语音识别模型包括：基于所述概率，训练所述对象分离网络和所述语音识别网络；所述方法还包括：基于多个文本样本，对所述n个文本预测网络进行预训练，其中，所述n个文本预测网络的网络结构相同，且所述n个文本预测网络共享网络权重。10.一种语音识别方法，包括：针对涉及n个对象的待识别语音帧序列，将待识别语音帧序列中的待识别当前帧的语音特征输入语音识别模型的对象分离网络，得到分别与所述n个对象相对应的n个第二内容特征，n为大于1的整数；将针对所述待识别当前帧的在前语音帧的n个预测字符分别输入所述语音识别模型的n个文本预测网络，得到n个第二文本特征；将所述n个第二内容特征与所述n个第二文本特征输入所述语音识别模型包括的语音识别网络，得到针对所述待识别当前帧的n个预测字符向量；以及基于针对所述待识别语音帧序列的p*n个预测字符向量，确定针对所述待识别语音帧序列的预测文本，其中，p为所述待识别语音帧序列的帧数，所述语音识别模型是采用权利要求1～9中任一项所述的方法训练得到的。
11.根据权利要求10所述的方法，其中，所述语音识别网络包括组合子网络和预测子网络；所述将所述n个第二内容特征与所述n个第二文本特征输入所述语音识别模型包括的语音识别网络，得到针对所述待识别当前帧的n个预测字符向量包括：将所述n个第二内容特征和所述n个第二文本特征输入所述组合子网络，由所述组合子网络基于预定组合方式对所述n个第二内容特征和所述n个第二文本特征彼此组合，得到n个第二特征对；以及将所述n个第二特征对输入所述预测子网络，得到与所述n个第二特征对相对应的n个预测字符向量，其中，所述预定组合方式是通过训练所述语音识别模型确定的。12.一种语音识别模型的训练装置，其中，所述语音识别模型包括对象分离网络、n个文本预测网络和语音识别网络，n为大于1的整数；所述装置包括：第一内容特征获得模块，用于针对涉及n个对象的语音帧序列，将当前帧的语音特征输入所述对象分离网络，得到分别与所述n个对象相对应的n个第一内容特征；所述语音帧序列包括针对所述n个对象的n个实际文本；第一文本特征获得模块，用于将所述n个实际文本中针对所述n个对象、且属于所述当前帧的在前帧的n个目标字符输入所述n个文本预测网络，得到n个第一文本特征；第一向量预测模块，用于将所述n个第一内容特征和所述n个第一文本特征输入所述语音识别网络，得到针对所述当前帧的预测字符向量；概率确定模块，用于基于针对所述语音帧序列中每个语音帧的预测字符向量，确定预测文本包括所述n个实际文本的概率；以及模型训练模块，用于基于所述概率，训练所述语音识别模型。13.根据权利要求12所述的装置，其中，所述对象分离网络包括混合编码子网络、n个对象编码子网络和n个识别编码子网络；所述第一内容特征获得模块包括：混合特征获得子模块，用于将所述当前帧的语音特征输入所述混合编码子网络，得到混合内容特征；中间特征获得子模块，用于将所述混合内容特征输入所述n个对象编码子网络，得到n个中间特征；以及内容特征获得子模块，用于将所述n个中间特征分别输入所述n个识别编码子网络，得到所述n个第一内容特征。14.根据权利要求13所述的装置，其中，所述语音识别网络包括组合子网络和预测子网络；所述第一向量预测模块包括：第一特征对获得子模块，用于将所述n个第一内容特征与所述n个第一文本特征输入所述组合子网络，得到由所述n个第一内容特征与所述n个第一文本特征彼此组合得到的n！个特征对组，作为所述当前帧的特征对组；以及第一向量获得子模块，用于将所述n！个特征对组依次输入所述预测子网络，得到与所述n！个特征对组相对应的n！个字符向量组，作为针对所述当前帧的预测字符向量，其中，所述n！个特征对组中的每个特征对组包括n个第一特征对，所述n个第一特征对中的n个第一内容特征分别来自所述n个识别编码子网络；所述n个第一特征对中的n个第一文本特征分别来自所述n个文本预测网络；所述n！个字符向量组中的每个字符向量组包括
与所述n个第一特征对相对应的n个字符向量。15.根据权利要求14所述的装置，其中，所述概率确定模块包括：向量集合确定子模块，用于针对所述语音帧序列中各语音帧的特征对组：确定与n！个特征对集合相对应的字符向量集合，得到n！个字符向量集合，其中，所述n！个特征对集合中的每个特征对集合由来源相同的m个特征对组成；以及概率确定子模块，用于基于所述每个字符向量集合，确定预测文本包括所述n个实际文本中每个实际文本的概率，得到针对所述每个字符向量集合的概率集合，其中，m为所述语音帧序列包括的帧数。16.根据权利要求15所述的方法，其中，所述概率确定子模块包括：序列确定单元，用于针对所述每个字符向量集合中的m个字符向量组：确定与来源相同的m个特征对相对应、且依据获得顺序依次排列的m个字符向量各自的目标元素，得到n个目标元素序列；以及概率确定单元，用于确定所述n个目标元素序列中每个元素序列的元素的和，作为所述预测文本包括一个实际文本的概率，其中，所述每个元素序列中的元素依次对应的字符组成所述n个实际文本中的一个实际文本，不同元素序列中的元素依次对应的字符组成的实际文本不同。17.根据权利要求15所述的装置，其中，所述模型训练模块包括：第一损失确定子模块，用于基于针对所述每个字符向量集合的概率集合中的n个概率，分别确定预测得到所述n个实际文本中每个实际文本的损失，得到n个损失；第二损失确定子模块，用于确定所述n个损失的和，作为针对所述每个字符向量集合的损失；以及模型训练子模块，用于基于针对所述n！个字符向量集合的n！个损失中的最小损失，训练所述语音识别模型。18.根据权利要求12所述的装置，还包括：声学特征确定模块，用于确定所述当前帧的声学特征；差分特征确定模块，用于基于所述当前帧的声学特征及所述当前帧的在后帧的声学特征，确定针对所述当前帧的差分特征；以及语音特征获得模块，用于拼接所述当前帧的声学特征和针对所述当前帧的差分特征，获得所述当前帧的语音特征。19.根据权利要求12所述的装置，还包括：分帧模块，用于对涉及所述n个对象的语音样本进行分帧处理，得到多个语音帧；以及采样模块，用于对所述多个语音帧基于预定采样间隔进行采样，得到所述语音帧序列，其中，所述预定采样间隔大于等于1帧。20.根据权利要求12所述的装置，其中：所述模型训练模块用于：基于所述概率，训练所述对象分离网络和所述语音识别网络；所述装置还包括预训练模块，用于基于多个文本样本，对所述n个文本预测网络进行预训练，其中，所述n个文本预测网络的网络结构相同，且所述n个文本预测网络共享网络权重。21.一种语音识别装置，包括：
第二内容特征获得模块，用于针对涉及n个对象的待识别语音帧序列，将待识别语音帧序列中的待识别当前帧的语音特征输入语音识别模型的对象分离网络，得到分别与所述n个对象相对应的n个第二内容特征，n为大于1的整数；第二文本特征获得模块，用于将针对所述待识别当前帧的在前语音帧的n个预测字符分别输入所述语音识别模型的n个文本预测网络，得到n个第二文本特征；第二向量预测模块，用于将所述n个第二内容特征与所述n个第二文本特征输入所述语音识别模型包括的语音识别网络，得到针对所述待识别当前帧的n个预测字符向量；以及文本确定模块，用于基于针对所述待识别语音帧序列的p*n个预测字符向量，确定针对所述待识别语音帧序列的预测文本，其中，所述语音识别模型是采用权利要求12～20中任一项所述的装置训练得到的。22.根据权利要求21所述的装置，其中，所述语音识别网络包括组合子网络和预测子网络；所述第二向量预测模块包括：第二特征对获得子模块，用于将所述n个第二内容特征和所述n个第二文本特征输入所述组合子网络，由所述组合子网络基于预定组合方式对所述n个第二内容特征和所述n个第二文本特征彼此组合，得到n个第二特征对；以及第二向量获得子模块，用于将所述n个第二特征对输入所述预测子网络，得到与所述n个第二特征对相对应的n个预测字符向量，其中，所述预定组合方式是通过训练所述语音识别模型确定的。23.一种电子设备，包括：至少一个处理器；以及与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1～11中任一项所述的方法。24.一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行根据权利要求1～11中任一项所述的方法。25.一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现根据权利要求1～11中任一项所述的方法。

技术总结
本公开提供了一种语音识别模型的训练方法和语音识别方法，涉及人工智能领域，具体涉及语音识别和深度学习领域。具体实现方案为：将涉及N个对象的语音帧序列中当前帧的语音特征输入语音识别模型的对象分离网络，得到分别对应N个对象的N个第一内容特征；该语音帧序列包括针对N个对象的N个实际文本；将N个实际文本中针对N个对象、且属于当前帧的在前帧的N个目标字符输入语音识别模型的N个文本预测网络，得到N个第一文本特征；将N个第一内容特征和N个第一文本特征输入语音识别模型的语音识别网络，得到预测字符向量；基于根据语音帧序列中各帧得到的预测字符向量，确定预测文本包括N个实际文本的概率，以根据该概率训练语音识别模型。识别模型。识别模型。

技术研发人员：赵情恩
受保护的技术使用者：北京百度网讯科技有限公司
技术研发日：2021.09.15
技术公布日：2021/12/13

再多了解一些

2/2 首页上一页 1 2

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：智能语音提示方法、装置、设备及存储介质与流程

语音识别模型的训练方法和语音识别方法及装置与流程

相关文献

最热文献