技术特征:
1.一种声学模型的训练方法,其特征在于,包括:
获取训练集中各训练语句分别对应的音频数据;
将各所述音频数据分别输入分解的时延神经网络,得到各所述音频数据分别对应的推测状态序列;
将各所述音频数据分别输入预训练的语言模型,得到各所述音频数据分别对应的推测词序列;
获取各所述音频数据分别对应的标注状态序列和标注词序列;
将各所述音频数据分别对应的推测状态序列、推测词序列、标注状态序列和标注词序列填充至预设函数架构中形成第一损失函数;
依次将所述训练集上训练语句输入至所述分解的时延神经网络,调整所述分解的时延神经网络的参数至所述第一损失函数收敛,得到第一声学模型。
2.根据权利要求1所述的声学模型的训练方法,其特征在于,所述将各所述音频数据分别对应的推测状态序列、推测词序列、标注状态序列和标注词序列填充至预设函数架构中形成第一损失函数的步骤,包括:
获取词图中所述标注状态序列对应的第一路径概率,以及所述标注词序列对应的第二路径概率;
获取分母图中所有推测状态序列分别对应的第一推测路径的概率,以及所有推测词序列分别对应的第二推测路径的概率;
将所述训练集中各训练语句分别对应的第一路径概率和第二路径概率,代入所述预设函数架构的分子部分;
将所述训练集中各训练语句分别对应的第一推测路径的概率和第二推测路径的概率,代入所述预设函数架构的分母部分;
根据代入后的所述分子部分和所述分母部分形成所述第一损失函数。
3.根据权利要求2所述的声学模型的训练方法,其特征在于,所述依次将所述训练集上训练语句输入至所述分解的时延神经网络,调整所述分解的时延神经网络的参数至所述第一损失函数收敛,得到第一声学模型的步骤之后,包括:
获取指定训练语句对应的推测状态序列和标注状态序列对应的相似度因子项,其中,所述指定训练语句为所述训练集中任一训练语句;
将所述训练集中所有训练语句分别对应的相似度因子项,依次填充至所述分母部分得到修正后的分母部分;
根据所述分子部分和所述修正后的分母部分,形成第二损失函数;
通过所述第二损失函数在所述训练集上训练所述第一声学模型至收敛,得到第二声学模型。
4.根据权利要求3所述的声学模型的训练方法,其特征在于,所述分解的时延神经网络中设置瓶颈层,所述将各所述音频数据分别输入分解的时延神经网络,得到各所述音频数据分别对应的推测状态序列的步骤之前,包括:
获取时延神经网络对应的预设权重矩阵;
将所述预设权重矩阵分解为第一矩阵和第二矩阵,其中,所述第二矩阵为半正交矩阵;
获取所述半正交矩阵处理各所述音频数据后的第一输出数据;
将所述第一输出数据经过所述瓶颈层输入所述第一矩阵进行深度计算,输出各所述音频数据分别对应的推测状态序列。
5.根据权利要求3所述的声学模型的训练方法,其特征在于,所述获取词图中所述标注状态序列对应的第一路径概率的步骤,包括:
获取所述指定训练语句对应的指定词图以及所述指定词图对应的起始节点;
计算与所述起始节点连接的各阶段对应的后验概率;
将最大后验概率对应的节点,作为连接与所述起始节点时序之后的第二节点;
按照所述第二节点的确定方式,依次确定所述起始节点时序之后的所有节点,连接形成所述指定训练语句对应的第一路径;
求和所述第一路径中各节点分别对应的概率值,得到所述指定训练语句对应的第一路径概率;
根据所述指定训练语句对应的第一路径概率的计算方式,得到词图中所述标注状态序列对应的第一路径概率。
6.根据权利要求3所述的声学模型的训练方法,其特征在于,所述分母图为基于音素的n-gram语言模型,所述获取分母图中所有推测状态序列分别对应的第一推测路径的概率的步骤,包括:
获取所述分母图中所述指定训练语句的各帧数据分别对应节点的所有概率值;
确定指定节点对应的概率最高的n个指定概率,其中,所述指定节点为所述分母图中的任一节点;
依据所述指定训练语句的各帧数据分别对应n个指定概率,形成所述指定训练语句对应的所有推测状态序列的概率图;
根据所述指定训练语句的概率图的确定方式,确定所述训练集中所有训练语句分别对应的概率图;
组合所述训练集中所有训练语句分别对应的概率图,形成分母图中所有推测状态序列分别对应的第一推测路径的概率。
7.根据权利要求3所述的声学模型的训练方法,其特征在于,所述第一损失函数的公式为
8.一种声学模型的训练装置,其特征在于,包括:
第一获取模块,用于获取训练集中各训练语句分别对应的音频数据;
第一输入模块,用于将各所述音频数据分别输入分解的时延神经网络,得到各所述音频数据分别对应的推测状态序列;
第二输入模块,用于将各所述音频数据分别输入预训练的语言模型,得到各所述音频数据分别对应的推测词序列;
第二获取模块,用于获取各所述音频数据分别对应的标注状态序列和标注词序列;
第一形成模块,用于将各所述音频数据分别对应的推测状态序列、推测词序列、标注状态序列和标注词序列填充至预设函数架构中形成第一损失函数;
第一训练模块,用于依次将所述训练集上训练语句输入至所述分解的时延神经网络,调整所述分解的时延神经网络的参数至所述第一损失函数收敛,得到第一声学模型。
9.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。
技术总结
本申请涉及人工智能领域,揭示了声学模型的训练方法,包括:获取训练集中各训练语句分别对应的音频数据;将各音频数据分别输入分解的时延神经网络,得到各音频数据分别对应的推测状态序列;将各音频数据分别输入预训练的语言模型,得到各音频数据分别对应的推测词序列;获取各音频数据分别对应的标注状态序列和标注词序列;将各音频数据分别对应的推测状态序列、推测词序列、标注状态序列和标注词序列填充至预设函数架构中形成第一损失函数;依次将训练集上训练语句输入至分解的时延神经网络,调整分解的时延神经网络的参数至第一损失函数收敛,得到第一声学模型。使声学模型体积较小的情况下提高训练效果,具有良好的识别效果。
技术研发人员:冷金强;王瑞璋;马骏;王少军
受保护的技术使用者:平安科技(深圳)有限公司
技术研发日:2021.04.30
技术公布日:2021.08.06
本文用于企业家、创业者技术爱好者查询,结果仅供参考。