一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

语言识别方法、装置、设备以及存储介质与流程

2021-07-20 17:10:00 来源:中国专利 TAG:人工智能 识别 装置 语言 申请
语言识别方法、装置、设备以及存储介质与流程

本申请涉及人工智能领域,尤其涉及一种语言识别方法、装置、设备以及存储介质。



背景技术:

随着金融科技,尤其是互联网科技金融的不断发展,越来越多的技术应用在金融领域,但金融业也对技术提出了更高的要求,如金融业对语言识别释也有更高的要求。

语音识别在日常生活中应用越来越普遍,然而,语音识别在具体场景下的识别准确率通常较低,现有技术中,通常通过对语言模型(languagemodel)进行整体微调,以将微调后的语言模型应用于任意的具体场景,然而,对语言模型(languagemodel)进行整体微调往往缺乏针对性,且耗费多,实际应用效果欠佳。



技术实现要素:

本申请的主要目的在于提供一种语言识别方法、装置、设备以及存储介质,旨在解决现有语音识别缺乏针对性,且耗费多的技术问题。

为实现上述目的,本申请提供一种语言识别方法,所述语言识别方法包括:

获取待处理数据,将所述待处理数据输入至预设目标语言模型中;

基于所述预设目标语言模型对所述待处理数据进行识别处理,得到所述待处理数据的语言识别结果;

其中,所述预设目标语言模型是基于具有预设标签的预设训练数据,对预设初始语言模型进行自动迭代训练后得到的目标模型,在迭代训练过程中,对处于迭代轮次的所述预设初始语言模型,进行不同场景化的调整处理,以选择目标候选模型进行下一轮调整迭代,直至得到所述目标模型。

可选地,所述基于所述预设目标语言模型对所述待处理数据进行识别处理,得到所述待处理数据的语言识别结果的步骤之前,所述方法包括:

获取具有预设标签的预设训练数据,基于所述预设训练数据对预设初始语言模型进行自动迭代训练;

在迭代轮次训练过程中,对处于迭代轮次的所述预设初始语言模型,进行不同场景化的调整处理,以从多个调整后的模型中选择目标候选模型进行下一轮的调整迭代训练,直至得到目标模型;

将所述目标模型设置为所述预设目标语言模型。

可选地,在迭代轮次训练过程中,获取被错误识别词语,得到词错率,并获取所述被错误识别词语的关联类型信息,基于所述词错率以及所述关联类型信息,对处于迭代轮次的所述预设初始语言模型,进行有方向的场景化调整处理,以从多个调整后的模型中选择目标候选模型进行下一轮的调整迭代训练。

可选地,所述获取具有预设标签的预设训练数据,基于所述预设训练数据对预设初始语言模型进行迭代训练的步骤,包括:

获取具有预设标签的预设训练数据,将所述预设训练数据输入至预设初始语言模型中,以得到预设初始语言模型对所述预设训练数据识别后得到的训练识别结果;

将所述训练识别结果与所述预设标签进行比对,得到词错率;

基于所述词错率对所述预设初始语言模型进行不同场景化调整,以得到多个候选模型;

将所述预设训练数据输入至所述候选模型中,从候选模型中选择得到目标候选模型;

判断所述目标候选模型是否满足预设训练完成条件,若不满足时,获取所述目标候选模型的训练识别结果,并返回将所述训练识别结果与所述预设标签进行比对,得到词错率的步骤,直至迭代训练完成。

可选地,所述基于所述词错率对所述预设初始语言模型进行不同场景化调整,以得到多个候选模型的步骤,包括:

基于所述词错率,调整所述预设初始语言模型的权重参数,得到调整权重,并调整所述预设初始语言模型的梯度,得到调整梯度;

基于所述调整权重和所述调整梯度,对所述预设初始语言模型进行不同场景化调整,以得到多个候选模型。

可选地,所述获取待处理数据,将所述待处理数据输入至预设目标语言模型中的步骤,包括:

获取待处理数据,获取所述待处理数据的场景信息,基于所述场景信息,将所述待处理数据输入至对应预设目标语言模型中;

其中,所述基于所述预设目标语言模型对所述待处理数据进行识别处理,得到所述待处理数据的语言识别结果的步骤,包括:

基于所述对应预设目标语言模型对所述待处理数据进行识别处理,得到所述待处理数据的语言识别结果;

其中,所述预设目标语言模型是对基于具有预设标签的预设训练数据,对预设初始语言模型进行迭代训练后得到的目标模型,在迭代训练过程中,对处于不同迭代轮次的所述预设初始语言模型,进行与所述场景信息对应预设场景设置匹配的场景化调整处理,并进行下一轮调整迭代,直至得到所述目标模型。

可选地,所述待处理数据为待处理科技词语条目,所述获取待处理数据,获取所述待处理数据的场景信息,基于所述场景信息,将所述待处理数据输入至对应预设目标语言模型中的步骤,包括:

获取待处理科技词语条目,获取所述待处理科技词语条目的科技场景信息;

基于所述科技场景信息,将所述待处理科技词语条目输入至对应预设目标语言模型中。

本申请还提供一种语言识别装置,所述语言识别装置包括:

第一获取模块,用于获取待处理数据,将所述待处理数据输入至预设目标语言模型中;

识别模块,用于基于所述预设目标语言模型对所述待处理数据进行识别处理,得到所述待处理数据的语言识别结果;

其中,所述预设目标语言模型是基于具有预设标签的预设训练数据,对预设初始语言模型进行迭代训练后得到的目标模型,在迭代训练过程中,对处于迭代轮次的所述预设初始语言模型,进行不同场景化的调整处理,并进行下一轮调整迭代,直至得到所述目标模型。

可选地,所述语言识别装置还包括:

第二获取模块,用于获取具有预设标签的预设训练数据,基于所述预设训练数据对预设初始语言模型进行自动迭代训练;

场景化模块,用于在迭代轮次训练过程中,对处于迭代轮次的所述预设初始语言模型,进行不同场景化的调整处理,以从多个调整后的模型中选择目标候选模型进行下一轮的调整迭代训练,直至得到目标模型;

设置模块,用于将所述目标模型设置为所述预设目标语言模型。

可选地,在迭代轮次训练过程中,获取被错误识别词语,得到词错率,并获取所述被错误识别词语的关联类型信息,基于所述词错率以及所述关联类型信息,对处于迭代轮次的所述预设初始语言模型,进行有方向的场景化调整处理,以从多个调整后的模型中选择目标候选模型进行下一轮的调整迭代训练。

可选地,所述第二获取模块包括:

第一获取单元,用于获取具有预设标签的预设训练数据,将所述预设训练数据输入至预设初始语言模型中,以得到预设初始语言模型对所述预设训练数据识别后得到的训练识别结果;

比对单元,用于将所述训练识别结果与所述预设标签进行比对,得到词错率;

调整单元,用于基于所述词错率对所述预设初始语言模型进行不同场景化调整,以得到多个候选模型;

选择单元,用于将所述预设训练数据输入至所述候选模型中,从候选模型中选择得到目标候选模型;

判断单元,用于判断所述目标候选模型是否满足预设训练完成条件,若不满足时,获取所述目标候选模型的训练识别结果,并返回将所述训练识别结果与所述预设标签进行比对,得到词错率的步骤,直至迭代训练完成。

可选地,所述选择单元包括:

调整子单元,用于基于所述词错率,调整所述预设初始语言模型的权重参数,得到调整权重,并调整所述预设初始语言模型的梯度,得到调整梯度;

场景化子单元,用于基于所述调整权重和所述调整梯度,对所述预设初始语言模型进行不同场景化调整,以得到多个候选模型。

可选地,所述第一获取模块包括:

第二获取单元,用于获取待处理数据,获取所述待处理数据的场景信息,基于所述场景信息,将所述待处理数据输入至对应预设目标语言模型中;

其中,所述识别模块包括:

识别单元,用于基于所述对应预设目标语言模型对所述待处理数据进行识别处理,得到所述待处理数据的语言识别结果;

其中,所述预设目标语言模型是对基于具有预设标签的预设训练数据,对预设初始语言模型进行迭代训练后得到的目标模型,在迭代训练过程中,对处于不同迭代轮次的所述预设初始语言模型,进行与所述场景信息对应预设场景设置匹配的场景化调整处理,并进行下一轮调整迭代,直至得到所述目标模型。

可选地,所述待处理数据为待处理科技词语条目,所述第二获取单元包括:

获取子单元,用于获取待处理科技词语条目,获取所述待处理科技词语条目的科技场景信息;

输入子单元,用于基于所述科技场景信息,将所述待处理科技词语条目输入至对应预设目标语言模型中。

本申请还提供一种语言识别设备,所述语言识别设备为实体设备,所述语言识别设备包括:存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的所述语言识别方法的程序,所述语言识别方法的程序被处理器执行时可实现如上述的语言识别方法的步骤。

本申请还提供一种可读存储介质,所述可读存储介质上存储有实现语言识别方法的程序,所述语言识别方法的程序被处理器执行时实现如上述的语言识别方法的步骤。

本申请还提供一种计算机程序产品、包括计算机程序,该计算机程序被处理器执行时实现上述的语言识别方法的步骤。

本申请提供一种语言识别方法、装置、设备以及存储介质,与现有技术中任意场景下都是通过整体微调的语言模型(languagemodel)进行语音识别,致使语音识别缺乏针对性,且耗费多相比,本申请通过获取待处理数据,将所述待处理数据输入至预设目标语言模型中;基于所述预设目标语言模型对所述待处理数据进行识别处理,得到所述待处理数据的语言识别结果;其中,所述预设目标语言模型是基于具有预设标签的预设训练数据,对预设初始语言模型进行自动迭代训练后得到的目标模型,在迭代训练过程中,对处于迭代轮次的所述预设初始语言模型,进行不同场景化的调整处理,以选择目标候选模型进行下一轮调整迭代,直至得到所述目标模型。在本申请中,预设目标语言模型是对预设初始语言模型进行自动迭代训练后得到的目标模型,且在迭代训练过程中,对处于迭代轮次的所述预设初始语言模型,进行不同场景化的调整处理,以选择候选模型进行下一轮调整迭代,即在本申请中自动完成针对于不同场景的语言模型的优化,因而,对语言模型的调整更有针对性,且由于迭代训练是自动完成的,减少了人力消耗。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本申请的实施例,并与说明书一起用于解释本申请的原理。

为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。

图1为本申请语言识别方法第一实施例的流程示意图;

图2为本申请语言识别方法第一实施例种步骤s10的细化流程示意图;

图3为本申请实施例方案涉及的硬件运行环境的设备结构示意图。

本申请目的实现、功能特点及优点将结合实施例,参照附图做进一步说明。

具体实施方式

应当理解,此处所描述的具体实施例仅用以解释本申请,并不用于限定本申请。

本发明实施例提供了语言识别方法的实施例,需要说明的是,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。

本申请实施例提供一种语言识别方法,在本申请语言识别方法的第一实施例中,参照图1,所述语言识别方法包括:

步骤s10,获取待处理数据,将所述待处理数据输入至预设目标语言模型中;

步骤s20,基于所述预设目标语言模型对所述待处理数据进行识别处理,得到所述待处理数据的语言识别结果;

其中,所述预设目标语言模型是基于具有预设标签的预设训练数据,对预设初始语言模型进行自动迭代训练后得到的目标模型,在迭代训练过程中,对处于迭代轮次的所述预设初始语言模型,进行不同场景化的调整处理,以选择目标候选模型进行下一轮调整迭代,直至得到所述目标模型。

具体步骤如下:

步骤s10,获取待处理数据,将所述待处理数据输入至预设目标语言模型中;

在本实施例中,需要说明的是,语言识别方法可以应用于语言识别系统,该语言识别系统从属于语言识别设备,对于语言识别系统而言,内置有预设目标语言模型,该预设目标语言模型是已经训练好的模型,具体地,该预设目标语言模型可以是已经训练好的具有针对性的模型,该针对性指的是针对具体场景,或者是针对具体领域,需要说明的是,预设目标语言模型是在预设初始语言模型上通过训练得到的,其中,预设初始语言模型也可以是已经训练好的模型,但是预设初始语言模型是通用的模型,也即,不针对具体领域或者具体场景的模型,也即,在本实施例中,预设目标语言模型是预设初始语言模型经过针对性优化的语言模型。

在本实施例中,获取待处理数据,将所述待处理数据输入至预设目标语言模型中,具体地,待处理数据可以是科技场景,或者是生活场景等,其场景类型不做限定,更为具体地,科技场景又可以细分为相机场景,或者手机场景,或者电脑场景等,生活场景又可以细分为甜点场景,主食场景或者是水果场景等。

获取待处理数据,将所述待处理数据输入至预设目标语言模型中,具体地,若所述待处理数据是科技场景,将所述待处理数据输入至预设科技语言模型中,若所述待处理数据是生活场景,将所述待处理数据输入至预设生活语言模型中,其中,预设科技语言模型和预设生活语言模型都是预设目标语言模型,该预设科技语言模型和预设生活语言模型都是经过预设初始语言模型优化得到的。

在本实施例中,需要说明的是,该预设目标语言模型还可以是临时生成的,即是在检测到待处理数据时,基于预设初始语言模型进行优化调整至预设目标语言模型,进而,对待处理数据进行处理。

在本实施例中,通过预设目标语言模型,调整对应场景中语言条目的概率,或者调整对应场景中关键词条目的概率,进而,实现提升识别准确率,也即,在语言模型进行识别时,需要具体识别对应词条的概率,一般来说语言模型中的每个条目的格式为<词条,概率>,例如:

白饭,0.9

电脑,0.9

当在进行科技领域的语音识别的时候,需要提升电脑的概率,而当进行餐饮(生活)领域的语音识别的时候,需要提升白饭的概率,在本实施例中,通过automl的思想来实现,即在本实施例中,可以基于automl对预设初始语言模型进行优化,得到针对具体场景,或者是针对具体领域的预设目标语言模型,即实现在进行科技领域的语音识别的时候,提升电脑的概率,而当进行餐饮领域的语音识别的时候,提升白饭的概率。

步骤s20,基于所述预设目标语言模型对所述待处理数据进行识别处理,得到所述待处理数据的语言识别结果;

其中,所述预设目标语言模型是基于具有预设标签的预设训练数据,对预设初始语言模型进行自动迭代训练后得到的目标模型,在迭代训练过程中,对处于迭代轮次的所述预设初始语言模型,进行不同场景化的调整处理,以选择目标候选模型进行下一轮调整迭代,直至得到所述目标模型。

在本实施例中,所述预设目标语言模型是基于具有预设标签的预设训练数据,对预设初始语言模型进行自动迭代训练后得到的目标模型,该预设训练数据可以是具体场景或者具体领域的训练数据,且在本实施例中,语言模型的调整过程完全自动化,即实现对预设初始语言模型进行自动迭代训练,而不需要人为参与。

在迭代训练过程中,对处于迭代轮次的所述预设初始语言模型,进行不同场景化的调整处理,以选择目标候选模型进行下一轮调整迭代,直至得到所述目标模型。

具体地,在迭代训练过程中,对处于迭代轮次的所述预设初始语言模型,进行场景化的调整处理,进行场景化的调整处理即是在预设初始语言模型识别词语时,调整将词语识别为场景相关词语的概率或者权重,例如,在科技场景中,上述语言模型的例子被优化为白饭,0.8;电脑,0.97,而不是白饭,0.9;电脑,0.9,进行不同场景化的调整处理即是在预设初始语言模型识别词语时,调整将词语识别为不同场景相关词语的概率或者权重,需要说明的是,在本实施例中,在预设初始语言模型进行迭代的过程中,调整是随机的,因而,可以得到不同的候选模型。例如,调整过程中,若预设初始语言模型识别的白饭,0.9;电脑,0.9,则调整过程后,可以是白饭,0.8;电脑,0.97,或者白饭,0.9;电脑,0.8,或者白饭,0.7;电脑,0.8。

所述基于所述预设目标语言模型对所述待处理数据进行识别处理,得到所述待处理数据的语言识别结果的步骤之前,所述方法包括:

步骤s01,获取具有预设标签的预设训练数据,基于所述预设训练数据对预设初始语言模型进行自动迭代训练;

步骤s02,在迭代轮次训练过程中,对处于迭代轮次的所述预设初始语言模型,进行不同场景化的调整处理,以从多个调整后的模型中选择目标候选模型进行下一轮的调整迭代训练,直至得到目标模型;

步骤s03,将所述目标模型设置为所述预设目标语言模型。

在迭代轮次训练过程中,对处于迭代轮次的所述预设初始语言模型,进行不同场景化的调整处理,以从多个调整后的模型中选择目标候选模型进行下一轮的调整迭代训练,直至得到目标模型,具体地,可以是:基于预设初始语言模型,进行随机调整后,得到10个模型,然后利用具有标签的预设训练数据从多个调整后的模型中(10个模型)选择目标候选模型,然后利用目标候选模型再进行下一轮的处理,或者在本实施例中,也可以基于预设初始语言模型,进行随机调整后,得到10个模型,然后利用具有标签的预设训练数据从多个调整后的模型中(10个模型)选择全部的模型或者部分模型作为目标候选模型,然后利用目标候选模型再进行下一轮的处理,在下一轮的过程中,需要再选择目标候选模型,直至得到目标模型。

在本实施例中,选择全部的模型或者部分模型作为目标候选模型,而不只是一个目标候选模型再进行下一轮的处,可以避免偶然因素造成的误差。

其中,所述获取具有预设标签的预设训练数据,基于所述预设训练数据对预设初始语言模型进行迭代训练的步骤,包括:

步骤a1,获取具有预设标签的预设训练数据,将所述预设训练数据输入至预设初始语言模型中,以得到预设初始语言模型对所述预设训练数据识别后得到的训练识别结果;

在本实施例中,先基于当前的预设初始语言模型进行一轮语音识别。

步骤a2,将所述训练识别结果与所述预设标签进行比对,得到词错率;

在本实施例中,将训练识别结果和groundtruth(正确的标注或者预设标签)进行对比,计算出词错率(worderrorrate)。

步骤a3,基于所述词错率对所述预设初始语言模型进行不同场景化调整,以得到多个候选模型;

步骤a4,将所述预设训练数据输入至所述候选模型中,从候选模型中选择得到目标候选模型;

步骤a5,判断所述目标候选模型是否满足预设训练完成条件,若不满足时,获取所述目标候选模型的训练识别结果,并返回将所述训练识别结果与所述预设标签进行比对,得到词错率的步骤,直至迭代训练完成。

在本实施例中,通过将词错率看做预设初始语言模型进行学习的reward(反馈),并配合梯度等信息更新网络模型,得到词错率最低的语言模型,在得到词错率最低的语言模型后,判断所述目标候选模型是否满足预设训练完成条件,若不满足时,获取所述目标候选模型的训练识别结果,并返回将所述训练识别结果与所述预设标签进行比对,得到词错率的步骤,直至迭代训练完成,将迭代训练完成的模型作为最适配对应场景的语言模型。

在得到目标模型后,会提升模型的预测准确率,比如,在科技场景中,上述语言模型的例子被优化为

白饭,0.8

电脑,0.97

这样,该场景中的词被误识别为白饭等餐饮惨景中的词的概率会大大减少,进而提升预测准确率。

在本实施例中,为了减少测试的次数,或者训练的次数,在迭代轮次训练过程中,获取被错误识别词语,得到词错率,并获取所述被错误识别词语的关联类型信息,基于所述词错率以及所述关联类型信息,对处于迭代轮次的所述预设初始语言模型,进行有方向的场景化调整处理,以从多个调整后的模型中选择目标候选模型进行下一轮的调整迭代训练。

其中,关联类型信息可以是待处理数据的来源引擎(或者来源类型,主营类型),由于基于所述词错率以及所述关联类型信息,对处于迭代轮次的所述预设初始语言模型,进行有方向的场景化调整处理,其中,有方向的场景化调整处理可以指的是对模型参数如权重进行有方向的调整(如正向调整,即调大),以从多个调整后的模型中选择目标候选模型进行下一轮的调整迭代训练,直至得到目标模型,即预设目标语言模型。

本申请提供一种语言识别方法、装置、设备以及存储介质,与现有技术中任意场景下都是通过整体微调的语言模型(languagemodel)进行语音识别,致使语音识别缺乏针对性,且耗费多相比,本申请通过获取待处理数据,将所述待处理数据输入至预设目标语言模型中;基于所述预设目标语言模型对所述待处理数据进行识别处理,得到所述待处理数据的语言识别结果;其中,所述预设目标语言模型是基于具有预设标签的预设训练数据,对预设初始语言模型进行自动迭代训练后得到的目标模型,在迭代训练过程中,对处于迭代轮次的所述预设初始语言模型,进行不同场景化的调整处理,以选择目标候选模型进行下一轮调整迭代,直至得到所述目标模型。在本申请中,预设目标语言模型是对预设初始语言模型进行自动迭代训练后得到的目标模型,且在迭代训练过程中,对处于迭代轮次的所述预设初始语言模型,进行不同场景化的调整处理,以选择候选模型进行下一轮调整迭代,即在本申请中自动完成针对于不同场景的语言模型的优化,因而,对语言模型的调整更有针对性,且由于迭代训练是自动完成的,减少了人力消耗。

进一步地,基于本申请中第一实施例,提供本申请的另一实施例,在本申请的另一实施例中,所述基于所述词错率对所述预设初始语言模型进行不同场景化调整,以得到多个候选模型的步骤,包括:

步骤b1,基于所述词错率,调整所述预设初始语言模型的权重参数,得到调整权重,并调整所述预设初始语言模型的梯度,得到调整梯度;

步骤b2,基于所述调整权重和所述调整梯度,对所述预设初始语言模型进行不同场景化调整,以得到多个候选模型。

在本实施例中,除了基于所述词错率,调整所述预设初始语言模型的权重参数外,还调整所述预设初始语言模型的梯度,得到调整梯度,基于所述调整权重和所述调整梯度,对所述预设初始语言模型进行不同场景化调整,以得到多个候选模型,其中,在基于所述调整权重和所述调整梯度,对所述预设初始语言模型进行不同场景化调整过程中,可以在同一个梯度下,对梯度进行不同场景的调整,或者在同一权重下,对不同梯度进行调整,进而得到多个候选模型。

在本实施例中,通过基于所述词错率,调整所述预设初始语言模型的权重参数,得到调整权重,并调整所述预设初始语言模型的梯度,得到调整梯度;基于所述调整权重和所述调整梯度,对所述预设初始语言模型进行不同场景化调整,以得到多个候选模型。在本实施例中,有序得到多个候选模型。

进一步地,基于本申请中第一实施例和第二实施例,在本申请的另一实施例中,

所述获取待处理数据,将所述待处理数据输入至预设目标语言模型中的步骤,包括:

步骤c1,获取待处理数据,获取所述待处理数据的场景信息,基于所述场景信息,将所述待处理数据输入至对应预设目标语言模型中;

其中,所述基于所述预设目标语言模型对所述待处理数据进行识别处理,得到所述待处理数据的语言识别结果的步骤,包括:

步骤c2,基于所述对应预设目标语言模型对所述待处理数据进行识别处理,得到所述待处理数据的语言识别结果;

其中,所述预设目标语言模型是对基于具有预设标签的预设训练数据,对预设初始语言模型进行迭代训练后得到的目标模型,在迭代训练过程中,对处于不同迭代轮次的所述预设初始语言模型,进行与所述场景信息对应预设场景设置匹配的场景化调整处理,并进行下一轮调整迭代,直至得到所述目标模型。

在本实施例中,还获取待处理数据的场景信息,进而,基于所述场景信息,快速查找到对应的预设目标语言模型,将所述待处理数据输入至对应预设目标语言模型中,基于预设目标语言模型对所述待处理数据进行处理,其中,所述预设目标语言模型是对基于具有预设标签的预设训练数据,对预设初始语言模型进行迭代训练后得到的目标模型,在迭代训练过程中,对处于不同迭代轮次的所述预设初始语言模型,进行与所述场景信息对应预设场景设置匹配的场景化调整处理,并进行下一轮调整迭代,直至得到所述目标模型。

在本实施例中,通过获取待处理数据,获取所述待处理数据的场景信息,基于所述场景信息,将所述待处理数据输入至对应预设目标语言模型中,实现快速得到预设目标语言模型,为快速对所述待处理数据进行处理奠定基础。

进一步地,基于本申请中第一实施例、第二实施例和第三实施例,提供本申请另一实施例,在本申请的另一实施例中,所述待处理数据为待处理科技词语条目,所述获取待处理数据,获取所述待处理数据的场景信息,基于所述场景信息,将所述待处理数据输入至对应预设目标语言模型中的步骤,包括:

步骤d1,获取待处理科技词语条目,获取所述待处理科技词语条目的科技场景信息;

步骤d2,基于所述科技场景信息,将所述待处理科技词语条目输入至对应预设目标语言模型中。

在本实施例中,具体待处理数据为待处理科技词语条目,进而,获取待处理科技词语条目如“xx电脑的费用”,“xx电脑的性能”,获取所述待处理科技词语条目的科技场景信息,基于所述科技场景信息,将所述待处理科技词语条目输入至对应预设目标语言模型中即对应预设科技语言模型中,得到对应的识别结果。

在本实施例中,通过获取待处理科技词语条目,获取所述待处理科技词语条目的科技场景信息;基于所述科技场景信息,将所述待处理科技词语条目输入至对应预设目标语言模型中。在本实施例中,实现快速对待处理科技词语条目进行处理。

参照图3,图3是本申请实施例方案涉及的硬件运行环境的设备结构示意图。

如图3所示,该语言识别设备可以包括:处理器1001,例如cpu,存储器1005,通信总线1002。其中,通信总线1002用于实现处理器1001和存储器1005之间的连接通信。存储器1005可以是高速ram存储器,也可以是稳定的存储器(non-volatilememory),例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储设备。

可选地,该语言识别设备还可以包括矩形用户接口、网络接口、摄像头、rf(radiofrequency,射频)电路,传感器、音频电路、wifi模块等等。矩形用户接口可以包括显示屏(display)、输入子模块比如键盘(keyboard),可选矩形用户接口还可以包括标准的有线接口、无线接口。网络接口可选的可以包括标准的有线接口、无线接口(如wi-fi接口)。

本领域技术人员可以理解,图3中示出的语言识别设备结构并不构成对语言识别设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。

如图3所示,作为一种计算机存储介质的存储器1005中可以包括操作系统、网络通信模块以及语言识别方法程序。操作系统是管理和控制语言识别设备硬件和软件资源的程序,支持语言识别方法程序以及其它软件和/或程序的运行。网络通信模块用于实现存储器1005内部各组件之间的通信,以及与语言识别方法系统中其它硬件和软件之间通信。

在图3所示的语言识别设备中,处理器1001用于执行存储器1005中存储的语言识别方法程序,实现上述任一项所述的语言识别方法的步骤。

本申请语言识别设备具体实施方式与上述语言识别方法各实施例基本相同,在此不再赘述。

本申请实施例还提供一种语言识别装置,所述语言识别装置包括:

第一获取模块,用于获取待处理数据,将所述待处理数据输入至预设目标语言模型中;

识别模块,用于基于所述预设目标语言模型对所述待处理数据进行识别处理,得到所述待处理数据的语言识别结果;

其中,所述预设目标语言模型是基于具有预设标签的预设训练数据,对预设初始语言模型进行迭代训练后得到的目标模型,在迭代训练过程中,对处于迭代轮次的所述预设初始语言模型,进行不同场景化的调整处理,并进行下一轮调整迭代,直至得到所述目标模型。

可选地,所述语言识别装置还包括:

第二获取模块,用于获取具有预设标签的预设训练数据,基于所述预设训练数据对预设初始语言模型进行自动迭代训练;

场景化模块,用于在迭代轮次训练过程中,对处于迭代轮次的所述预设初始语言模型,进行不同场景化的调整处理,以从多个调整后的模型中选择目标候选模型进行下一轮的调整迭代训练,直至得到目标模型;

设置模块,用于将所述目标模型设置为所述预设目标语言模型。

可选地,在迭代轮次训练过程中,获取被错误识别词语,得到词错率,并获取所述被错误识别词语的关联类型信息,基于所述词错率以及所述关联类型信息,对处于迭代轮次的所述预设初始语言模型,进行有方向的场景化调整处理,以从多个调整后的模型中选择目标候选模型进行下一轮的调整迭代训练。

可选地,所述第二获取模块包括:

第一获取单元,用于获取具有预设标签的预设训练数据,将所述预设训练数据输入至预设初始语言模型中,以得到预设初始语言模型对所述预设训练数据识别后得到的训练识别结果;

比对单元,用于将所述训练识别结果与所述预设标签进行比对,得到词错率;

调整单元,用于基于所述词错率对所述预设初始语言模型进行不同场景化调整,以得到多个候选模型;

选择单元,用于将所述预设训练数据输入至所述候选模型中,从候选模型中选择得到目标候选模型;

判断单元,用于判断所述目标候选模型是否满足预设训练完成条件,若不满足时,获取所述目标候选模型的训练识别结果,并返回将所述训练识别结果与所述预设标签进行比对,得到词错率的步骤,直至迭代训练完成。

可选地,所述选择单元包括:

调整子单元,用于基于所述词错率,调整所述预设初始语言模型的权重参数,得到调整权重,并调整所述预设初始语言模型的梯度,得到调整梯度;

场景化子单元,用于基于所述调整权重和所述调整梯度,对所述预设初始语言模型进行不同场景化调整,以得到多个候选模型。

可选地,所述第一获取模块包括:

第二获取单元,用于获取待处理数据,获取所述待处理数据的场景信息,基于所述场景信息,将所述待处理数据输入至对应预设目标语言模型中;

其中,所述识别模块包括:

识别单元,用于基于所述对应预设目标语言模型对所述待处理数据进行识别处理,得到所述待处理数据的语言识别结果;

其中,所述预设目标语言模型是对基于具有预设标签的预设训练数据,对预设初始语言模型进行迭代训练后得到的目标模型,在迭代训练过程中,对处于不同迭代轮次的所述预设初始语言模型,进行与所述场景信息对应预设场景设置匹配的场景化调整处理,并进行下一轮调整迭代,直至得到所述目标模型。

可选地,所述待处理数据为待处理科技词语条目,所述第二获取单元包括:

获取子单元,用于获取待处理科技词语条目,获取所述待处理科技词语条目的科技场景信息;

输入子单元,用于基于所述科技场景信息,将所述待处理科技词语条目输入至对应预设目标语言模型中。

本申请语言识别装置的具体实施方式与上述语言识别方法各实施例基本相同,在此不再赘述。

本申请还提供一种计算机程序产品、包括计算机程序,该计算机程序被处理器执行时实现上述的语言识别方法的步骤。

本申请计算机程序产品的具体实施方式与上述语言识别方法各实施例基本相同,在此不再赘述。

以上仅为本申请的优选实施例,并非因此限制本申请的专利范围,凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本申请的专利处理范围内。

再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文章

  • 日榜
  • 周榜
  • 月榜