技术特征:
1.一种语言识别方法,其特征在于,所述语言识别方法包括:
获取待处理数据,将所述待处理数据输入至预设目标语言模型中;
基于所述预设目标语言模型对所述待处理数据进行识别处理,得到所述待处理数据的语言识别结果;
其中,所述预设目标语言模型是基于具有预设标签的预设训练数据,对预设初始语言模型进行自动迭代训练后得到的目标模型,在迭代训练过程中,对处于迭代轮次的所述预设初始语言模型,进行不同场景化的调整处理,以选择目标候选模型进行下一轮调整迭代,直至得到所述目标模型。
2.如权利要求1所述语言识别方法,其特征在于,所述基于所述预设目标语言模型对所述待处理数据进行识别处理,得到所述待处理数据的语言识别结果的步骤之前,所述方法包括:
获取具有预设标签的预设训练数据,基于所述预设训练数据对预设初始语言模型进行自动迭代训练;
在迭代轮次训练过程中,对处于迭代轮次的所述预设初始语言模型,进行不同场景化的调整处理,以从多个调整后的模型中选择目标候选模型进行下一轮的调整迭代训练,直至得到目标模型;
将所述目标模型设置为所述预设目标语言模型。
3.如权利要求2所述的语言识别方法,其特征在于,在迭代轮次训练过程中,获取被错误识别词语,得到词错率,并获取所述被错误识别词语的关联类型信息,基于所述词错率以及所述关联类型信息,对处于迭代轮次的所述预设初始语言模型,进行有方向的场景化调整处理,以从多个调整后的模型中选择目标候选模型进行下一轮的调整迭代训练。
4.如权利要求2所述的语言识别方法,其特征在于,所述获取具有预设标签的预设训练数据,基于所述预设训练数据对预设初始语言模型进行迭代训练的步骤,包括:
获取具有预设标签的预设训练数据,将所述预设训练数据输入至预设初始语言模型中,以得到预设初始语言模型对所述预设训练数据识别后得到的训练识别结果;
将所述训练识别结果与所述预设标签进行比对,得到词错率;
基于所述词错率对所述预设初始语言模型进行不同场景化调整,以得到多个候选模型;
将所述预设训练数据输入至所述候选模型中,从候选模型中选择得到目标候选模型;
判断所述目标候选模型是否满足预设训练完成条件,若不满足时,获取所述目标候选模型的训练识别结果,并返回将所述训练识别结果与所述预设标签进行比对,得到词错率的步骤,直至迭代训练完成。
5.如权利要求4所述语言识别方法,其特征在于,所述基于所述词错率对所述预设初始语言模型进行不同场景化调整,以得到多个候选模型的步骤,包括:
基于所述词错率,调整所述预设初始语言模型的权重参数,得到调整权重,并调整所述预设初始语言模型的梯度,得到调整梯度;
基于所述调整权重和所述调整梯度,对所述预设初始语言模型进行不同场景化调整,以得到多个候选模型。
6.如权利要求1所述语言识别方法,其特征在于,所述获取待处理数据,将所述待处理数据输入至预设目标语言模型中的步骤,包括:
获取待处理数据,获取所述待处理数据的场景信息,基于所述场景信息,将所述待处理数据输入至对应预设目标语言模型中;
其中,所述基于所述预设目标语言模型对所述待处理数据进行识别处理,得到所述待处理数据的语言识别结果的步骤,包括:
基于所述对应预设目标语言模型对所述待处理数据进行识别处理,得到所述待处理数据的语言识别结果;
其中,所述预设目标语言模型是对基于具有预设标签的预设训练数据,对预设初始语言模型进行迭代训练后得到的目标模型,在迭代训练过程中,对处于不同迭代轮次的所述预设初始语言模型,进行与所述场景信息对应预设场景设置匹配的场景化调整处理,并进行下一轮调整迭代,直至得到所述目标模型。
7.如权利要求1所述语言识别方法,其特征在于,所述待处理数据为待处理科技词语条目,所述获取待处理数据,获取所述待处理数据的场景信息,基于所述场景信息,将所述待处理数据输入至对应预设目标语言模型中的步骤,包括:
获取待处理科技词语条目,获取所述待处理科技词语条目的科技场景信息;
基于所述科技场景信息,将所述待处理科技词语条目输入至对应预设目标语言模型中。
8.一种语言识别装置,其特征在于,所述语言识别装置包括:
第一获取模块,用于获取待处理数据,将所述待处理数据输入至预设目标语言模型中;
识别模块,用于基于所述预设目标语言模型对所述待处理数据进行识别处理,得到所述待处理数据的语言识别结果;
其中,所述预设目标语言模型是基于具有预设标签的预设训练数据,对预设初始语言模型进行迭代训练后得到的目标模型,在迭代训练过程中,对处于迭代轮次的所述预设初始语言模型,进行不同场景化的调整处理,并进行下一轮调整迭代,直至得到所述目标模型。
9.一种语言识别设备,其特征在于,所述语言识别设备包括:存储器、处理器以及存储在存储器上的用于实现所述语言识别方法的程序,
所述存储器用于存储实现语言识别方法的程序;
所述处理器用于执行实现所述语言识别方法的程序,以实现如权利要求1至7中任一项所述语言识别方法的步骤。
10.一种可读存储介质,其特征在于,所述可读存储介质上存储有实现语言识别方法的程序,所述实现语言识别方法的程序被处理器执行以实现如权利要求1至7中任一项所述语言识别方法的步骤。
11.一种计算机程序产品,包括计算机程序,其特征在于,该计算机程序被处理器执行时实现权利要求1至7任一项所述的方法。
技术总结
本申请公开了一种语言识别方法、装置、设备以及存储介质,所述方法包括:获取待处理数据,将所述待处理数据输入至预设目标语言模型中;基于所述预设目标语言模型对所述待处理数据进行识别处理,得到语言识别结果;其中,所述预设目标语言模型是基于具有预设标签的预设训练数据,对预设初始语言模型进行自动迭代训练后得到的目标模型,在迭代训练过程中,对处于迭代轮次的所述预设初始语言模型,进行不同场景化的调整处理,以选择目标候选模型进行下一轮调整迭代,直至得到所述目标模型。在本申请中,在本申请中自动完成针对于不同场景的语言模型的优化,因而,对语言模型的调整更有针对性,且由于迭代训练是自动完成的,减少了人力消耗。
技术研发人员:姜迪
受保护的技术使用者:深圳前海微众银行股份有限公司
技术研发日:2021.04.16
技术公布日:2021.07.20
本文用于企业家、创业者技术爱好者查询,结果仅供参考。