本申请涉及语音识别技术领域,特别涉及一种识别方法、装置、电子设备及存储介质。
背景技术:
目前,语音识别系统的识别结果可能会含有一些错误,为了提高识别结果的准确率,可以借助纠错模块对语音识别系统的识别结果进行纠错。
但是,纠错模块纠错的精度并不高,导致纠错的准确率不高。
技术实现要素:
本申请提供如下技术方案:
本申请一方面提供一种识别方法,包括:
获取语音识别系统识别出的待处理文本中每个词的词特征;
将所述词特征输入到标点预测模型,获得所述标点预测模型得到的所述词特征的第一上下文信息;
将所述词特征输入到语音识别纠错模型,获得所述语音识别纠错模型得到的所述词特征的第二上下文信息,所述语音识别纠错模型为利用训练数据训练得到的,所述训练数据包含对训练文本进行纠错的数据及所述标点预测模型基于所述训练样本,得到的上下文信息;
基于所述词特征的第一上下文信息和第二上下文信息,确定所述词特征的第三上下文信息;
将所述词特征以及所述词特征的第三上下文信息输入到所述语音识别纠错模型,获得所述语音识别纠错模型对所述待处理文本进行纠错处理后得到的文本。
所述基于所述词特征的第一上下文信息和第二上下文信息,确定所述词特征的第三上下文信息,包括:
对所述词特征的第一上下文信息和第二上下文信息进行拼接处理,得到第三上下文信息。
所述基于所述词特征的第一上下文信息和第二上下文信息,得到所述词特征的第三上下文信息,包括:
对所述词特征的第一上下文信息和第二上下文信息进行点积运算处理,得到第三上下文信息。
所述基于所述词特征的第一上下文信息和第二上下文信息,得到所述词特征的第三上下文信息,包括:
将所述词特征的第一上下文信息和第二上下文信息输入到用于进行特征融合的第一机器学习模型中,得到所述第一机器学习模型输出的第三上下文信息。
所述标点预测模型包含标点预测子模型和自编码器;
所述将所述词特征输入到标点预测模型,获得所述标点预测模型得到的所述词特征的第一上下文信息,包括:
将所述词特征输入到所述自编码器,获得所述自编码器的中间层对待处理词特征的第一子上下文信息进行处理时所使用的参数,所述待处理词特征为所述待处理文本中排列在所述词特征之前的第一个词特征;
基于所述自编码器的中间层对所述待处理词特征的第一子上下文信息进行处理时所使用的参数及所述词特征,得到待使用特征;
将所述待使用特征输入到所述标点预测子模型的中间层,获得所述标点预测子模型的中间层对所述待使用特征进行处理,得到的所述词特征的第一上下文信息。
所述基于所述自编码器的中间层对所述待处理词特征的第一子上下文信息进行处理时所使用的参数及与所述词特征,得到待使用特征,包括:
将所述自编码器的中间层对所述待处理词特征的第一子上下文信息进行处理时所使用的参数与所述词特征进行相乘运算处理,得到待使用特征。
所述基于所述自编码器的中间层对所述待处理词特征的第一子上下文信息进行处理时所使用的参数及与所述词特征,得到待使用特征,包括:
将所述自编码器的中间层对所述待处理词特征的第一子上下文信息进行处理时所使用的参数及所述词特征输入到用于进行特征融合的第二机器学习模型中,得到所述第二机器学习模型输出的待使用特征。
本申请另一方面提供一种识别装置,包括:
获取模块,用于获取语音识别系统识别出的待处理文本中每个词的词特征;
第一获得模块,用于将所述词特征输入到标点预测模型,获得所述标点预测模型得到的所述词特征的第一上下文信息;
第二获得模块,用于将所述词特征输入到语音识别纠错模型,获得所述语音识别纠错模型得到的所述词特征的第二上下文信息,所述语音识别纠错模型为利用训练数据训练得到的,所述训练数据包含对训练文本进行纠错的数据及所述标点预测模型基于所述训练样本,得到的上下文信息;
确定模块,用于基于所述词特征的第一上下文信息和第二上下文信息,确定所述词特征的第三上下文信息;
第三获得模块,用于将所述词特征以及所述词特征的第三上下文信息输入到所述语音识别纠错模型,获得所述语音识别纠错模型对所述待处理文本进行纠错处理后得到的文本。
本申请第三方面提供一种电子设备,包括:
存储器和处理器。
存储器,用于至少存储一组指令集;
处理器,用于调用并执行所述存储器中的所述指令集,通过执行所述指令集进行以下处理:
获取语音识别系统识别出的待处理文本中每个词的词特征;
将所述词特征输入到标点预测模型,获得所述标点预测模型得到的所述词特征的第一上下文信息;
将所述词特征输入到语音识别纠错模型,获得所述语音识别纠错模型得到的所述词特征的第二上下文信息,所述语音识别纠错模型为利用训练数据训练得到的,所述训练数据包含对训练文本进行纠错的数据及所述标点预测模型基于所述训练样本,得到的上下文信息;
基于所述词特征的第一上下文信息和第二上下文信息,确定所述词特征的第三上下文信息;
将所述词特征以及所述词特征的第三上下文信息输入到所述语音识别纠错模型,获得所述语音识别纠错模型对所述待处理文本进行纠错处理后得到的文本。
本申请第四方面提供一种存储介质,存储有实现如上述任意一项所述的识别方法的计算机程序,所述计算机程序被处理器执行,实现如上述任意一项所述的识别方法的各步骤。
与现有技术相比,本申请的有益效果为:
在本申请中,语音识别纠错模型为利用训练数据训练得到的,训练数据包含对训练文本进行纠错的数据及标点预测模型基于训练样本,得到的上下文信息,可以使语音识别纠错模型的训练数据更加丰富,保证语音识别纠错模型能够学习到更丰富的上下文信息,提高语音识别纠错模型的精度。在此基础上,基于词特征的第一上下文信息和第二上下文信息,确定词特征的第三上下文信息,将词特征以及词特征的第三上下文信息输入到语音识别纠错模型,可以提高语音识别纠错模型纠错的准确率。
并且,在对识别结果进行纠错的准确率得到提高的基础上,标点预测模型对准确率更高的识别结果进行标点预测,可以提高标点预测的准确率。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例1提供的一种识别方法的流程示意图;
图2是本申请实施例2提供的一种识别方法的流程示意图;
图3是本申请实施例3提供的一种识别方法的流程示意图;
图4是本申请实施例4提供的一种识别方法的流程示意图;
图5是本申请实施例5提供的一种识别方法的流程示意图;
图6是本申请提供的一种电子设备的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
为了解决上述问题,本申请提供了一种识别方法,接下来对本申请提供的识别方法进行介绍。
参照图1,为本申请实施例1提供的一种识别方法的流程示意图,本申请提供的一种识别方法可以应用于电子设备,本申请对电子设备的产品类型不做限定,如图1所示,该方法可以包括但并不局限于以下步骤:
步骤s101、获取语音识别系统识别出的待处理文本中每个词的词特征。
获取语音识别系统识别出的待处理文本中每个词的词特征的过程,可以包括但不局限于:
在语音识别系统识别出待处理文本时,提取待处理文本中每个词的词特征。
当然,获取语音识别系统识别出的待处理文本中每个词的词特征的过程,也可以包括:
从预先构建的词特征数据库中,查找与语音识别系统识别出的待处理文本中每个词对应的词特征。
其中,词特征数据库是通过对大量的文本进行词特征提取,由提取到的词特征及词的映射关系组成的。本实施例中,并不限制大量的文本的获得方式,从网络上下载文本;或者,获得语音识别系统识别出的文本的方式均可以作为获得大量的文本的具体实施方式。
步骤s102、将词特征输入到标点预测模型,获得标点预测模型得到的词特征的第一上下文信息。
标点预测模型具备进行标点预测及词特征的上下文信息的能力,具体地,将词特征输入到标点预测模型,标点预测模型可以得到标点预测结果及词特征的第一上下文信息。
标点预测模型可以为但不局限于:单向长短时记忆循环神经网络模型或双向长短时记忆循环神经网络模型。
若标点预测模型为双向长短时记忆循环神经网络模型,则将词特征输入到标点预测模型,获得标点预测模型得到的词特征的第一上下文信息可以但不局限于通过以下公式确定:
上述公式中,
将词特征输入到标点预测模型,除了可以获得标点预测模型得到的词特征的第一上下文信息,还可以获得标点预测模型得到的标点预测结果。获得标点预测模型得到的标点预测结果,可以通过以下公式确定:
ypunc=softmax(hpunc)
上述公式中,ypunc表示标点预测结果,softmax()表示概率归一化操作函数,hpunc表示待处理文本中词特征的第一上下文信息。
步骤s103、将词特征输入到语音识别纠错模型,获得语音识别纠错模型得到的词特征的第二上下文信息。
本实施例中,语音识别纠错模型可以为但不局限于:单向长短时记忆循环神经网络模型或双向长短时记忆循环神经网络模型。
在语音识别纠错模型为双向长短时记忆循环神经网络模型的情况下,将词特征输入到语音识别纠错模型,获得语音识别纠错模型得到的词特征的第二上下文信息,可以采用以下公式确定:
上述公式中,表示待处理文本中第t个词的词特征对应的第二上下文信息,bilstm表示双向长短时记忆循环神经网络模型,xt 1表示待处理文本中第t 1个词的词特征,
语音识别纠错模型为利用训练数据训练得到的,训练数据包含对训练文本进行纠错的数据及标点预测模型基于训练样本,得到的上下文信息。
具体地,语音识别纠错模型的训练过程,可以包括:
s1031、获取训练文本中每个词的词特征及训练文本的标点符号及针对每个词标注的纠错标签。
s1032、将多个词特征输入到标点预测模型,获得标点预测模型得到的标点预测结果及各词特征的第一上下文信息。
本实施例中,标点预测模型的参数可以是预先经过多个完整的训练文本训练得到的。当然,标点预测模型的参数也可以是初始设置的,未经过完整的训练样本训练过的参数。
s1033、将多个词特征输入到语音识别纠错模型,获得语音识别纠错模型得到的各词特征的第二上下文信息。
s1034、基于词特征的第一上下文信息和第二上下文信息,确定词特征的第三上下文信息。
若标点预测模型的参数是预先经过多个完整的训练文本训练得到的,则说明标点预测模型已经学习到比较丰富的上下文信息,因此,将多个词特征输入到标点预测模型,获得的标点预测模型得到的各词特征的第一上下文信息的准确率较高,进而可以保证词特征的第三上下文信息的丰富性及准确性。
基于词特征的第一上下文信息和第二上下文信息,确定词特征的第三上下文信息的过程,可以包括但不局限于:
s10341、对词特征的第一上下文信息和第二上下文信息进行拼接处理,得到第三上下文信息。
现举例对步骤s10341进行说明,例如,若词特征的第一上下文信息为[p1,p2,p3,…,pn],词特征的第二上下文信息为[e1,e2,e3,…,en],对词特征的第一上下文信息和第二上下文信息进行拼接处理,得到第三上下文信息为[p1,p2,p3,…,pn,e1,e2,e3,…,en]。
对词特征的第一上下文信息和第二上下文信息进行拼接处理,得到第三上下文信息,能够第一上下文信息和第二上下文信息不受到损失,进而保证在提高语音识别纠错模型的训练精度。
基于词特征的第一上下文信息和第二上下文信息,确定词特征的第三上下文信息的过程,也可以包括但不局限于:
s10342、对词特征的第一上下文信息和第二上下文信息进行点积运算处理,得到第三上下文信息。
对词特征的第一上下文信息和第二上下文进行点积运算处理,得到第三上下文信息,能够节省运算的时间,提高得到第三上下文信息的效率,实现在提高语音识别纠错模型的训练精度的同时,提高训练效率。
或者,基于词特征的第一上下文信息和第二上下文信息,确定词特征的第三上下文信息的过程,也可以包括但不局限于:
s10343、将词特征的第一上下文信息和第二上下文信息输入到用于进行特征融合的第一机器学习模型中,得到第一机器学习模型输出的第三上下文信息。
将词特征的第一上下文信息和第二上下文信息输入到用于进行特征融合的第一机器学习模型时,使第一机器学习模型与语音识别纠错模型一起进行训练,保证第一机器学习模型训练的准确性,进而保证第一机器学习模型输出的第三上下文信息的准确性,实现在保证语音识别纠错模型的训练数据的丰富性及准确性的基础上,提高语音识别纠错模型的训练精度。
s1035、将第三上下文信息及词特征输入到语音识别纠错模型,获得语音识别纠错模型输出的纠错结果,纠错结果为对词特征进行纠错的结果。
s1036、基于标点预测结果、每个词特征的纠错结果、训练文本的标点符号及针对每个词标注的纠错标签,判断标点预测模型及语音识别纠错模型是否满足训练结束条件。
若不满足,则执行步骤s1037。
本实施例中,训练结束条件可以根据需要进行设置,在本申请中不做限制。例如,训练结束条件可以为但不局限于:标点预测模型的损失函数值收敛且语音识别纠错模型的损失函数值收敛;或,基于标点预测模型的损失函数值及语音识别纠错模型的损失函数值,得到的综合损失函数值收敛。
步骤s1031-s1037可以理解为在对语音识别纠错模型进行训练的同时,对标点预测模型进行训练,实现语音识别纠错模型和标点预测模型的联合学习。
基于标点预测结果、每个词特征的纠错结果、训练文本的标点符号及针对每个词标注的纠错标签,判断标点预测模型及语音识别纠错模型是否满足训练结束条件的一种具体实施过程,可以为:
s10361、基于词特征的纠错结果以及针对词标注的纠错标签之间的差异,确定纠错损失函数值;
s10362、基于标点预测结果与训练文本的标点符号之间的差异,确定标点损失函数值;
s10363、基于纠错损失函数值和标点损失函数值,得到综合损失函数值。
基于纠错损失函数值和标点损失函数值,得到综合损失函数值,可以包括但不局限于:
将纠错损失函数值和标点损失函数值相加,得到综合损失函数值。
当然,基于纠错损失函数值和标点损失函数值,得到综合损失函数值,也可以包括但不局限于:
利用如下公式,计算得到综合损失函数值:
losscp=a×lossec b×losspunc
上述公式中,losscp表示综合损失函数值,lossec表示纠错损失函数值,a和b表示不同的权重,a和b可以根据需要设置,在本申请中对a和b的值不做限制。
s10364、判断综合损失函数值是否收敛。
s1037、更新标点预测模型的参数和语音识别纠错模型的参数,并返回执行步骤s1031,直至满足所训练结束条件。
步骤s104、基于词特征的第一上下文信息和第二上下文信息,确定词特征的第三上下文信息。
基于词特征的第一上下文信息和第二上下文信息,确定词特征的第三上下文信息,使第三上下文信息相比于第二上下文信息,包含更多的上下文信息。
步骤s105、将词特征以及词特征的第三上下文信息输入到语音识别纠错模型,获得语音识别纠错模型对待处理文本进行纠错处理后得到的文本。
将词特征以及词特征的第三上下文信息输入到语音识别纠错模型,获得语音识别纠错模型对待处理文本进行纠错处理后得到的文本,可以理解为:
将各词特征以及各词特征的第三上下文信息输入到语音识别纠错模型,获得语音识别纠错模型对待处理文本进行纠错处理后得到的文本。
将各词特征以及各词特征的第三上下文信息输入到语音识别纠错模型,获得语音识别纠错模型对待处理文本进行纠错处理后得到的文本的过程,可以包括:
s1051、将各词特征及各词特征的第三上下文信息输入到语音识别纠错模型,采用以下公式得到待处理文本中第t 1个词的词特征的上下文信息:
其中,
s1052、采用以下公式得到对待处理文本中各个词的词特征进行纠错处理后的词特征:
yec=softmax(hec)
上述公式中,yec表示进行纠错处理后的词特征,softmax()表示概率归一化操作函数,hec表示待处理文本中词的词特征的上下文信息。
s1053、基于对待处理文本中各个词的词特征进行纠错处理后的词特征,获得对待处理文本进行纠错处理后得到的文本。
在本申请中,语音识别纠错模型为利用训练数据训练得到的,训练数据包含对训练文本进行纠错的数据及标点预测模型基于训练样本,得到的上下文信息,可以使语音识别纠错模型的训练数据更加丰富,保证语音识别纠错模型能够学习到更丰富的上下文信息,提高语音识别纠错模型的精度。在此基础上,基于词特征的第一上下文信息和第二上下文信息,确定词特征的第三上下文信息,将词特征以及词特征的第三上下文信息输入到语音识别纠错模型,可以提高语音识别纠错模型纠错的准确率。
并且,在对识别结果进行纠错的准确率得到提高的基础上,标点预测模型对准确率更高的识别结果进行标点预测,可以提高标点预测的准确率。
作为本申请另一可选实施例,参照图2,为本申请实施例2提供的一种识别方法的流程示意图,本实施例主要是对上述实施例1描述的识别方法的细化方案,如图2所示,该方法可以包括但并不局限于以下步骤:
步骤s201、获取语音识别系统识别出的待处理文本中每个词的词特征。
步骤s202、将词特征输入到标点预测模型,获得标点预测模型得到的词特征的第一上下文信息。
步骤s203、将词特征输入到语音识别纠错模型,获得语音识别纠错模型得到的词特征的第二上下文信息。
语音识别纠错模型为利用训练数据训练得到的,训练数据包含对训练文本进行纠错的数据及标点预测模型基于训练样本,得到的上下文信息。
步骤s201-s203的详细过程可以参见实施例1中步骤s101-s103的相关介绍,在此不再赘述。
步骤s204、对词特征的第一上下文信息和第二上下文信息进行拼接处理,得到第三上下文信息。
现举例对步骤s204进行说明,例如,若词特征的第一上下文信息为[p1,p2,p3,…,pn],词特征的第二上下文信息为[e1,e2,e3,…,en],对词特征的第一上下文信息和第二上下文信息进行拼接处理,得到第三上下文信息为[p1,p2,p3,…,pn,e1,e2,e3,…,en]。
步骤s204为实施例1中步骤s104的一种具体实施方式。
步骤s205、将词特征以及词特征的第三上下文信息输入到语音识别纠错模型,获得语音识别纠错模型对待处理文本进行纠错处理后得到的文本。
步骤s205的详细过程可以参见实施例1中步骤s105的相关介绍,在此不再赘述。
本实施例中,对词特征的第一上下文信息和第二上下文信息进行拼接处理,得到第三上下文信息,能够保证第一上下文信息和第二上下文信息不受到损失,进而保证语音识别纠错模型进行纠错的准确率。
作为本申请另一可选实施例,参照图3,为本申请实施例3提供的一种识别方法的流程示意图,本实施例主要是对上述实施例1描述的识别方法的细化方案,如图3所示,该方法可以包括但并不局限于以下步骤:
步骤s301、获取语音识别系统识别出的待处理文本中每个词的词特征。
步骤s302、将词特征输入到标点预测模型,获得标点预测模型得到的词特征的第一上下文信息。
步骤s303、将词特征输入到语音识别纠错模型,获得语音识别纠错模型得到的词特征的第二上下文信息。
语音识别纠错模型为利用训练数据训练得到的,训练数据包含对训练文本进行纠错的数据及标点预测模型基于训练样本,得到的上下文信息。
步骤s301-s303的详细过程可以参见实施例1中步骤s101-s103的相关介绍,在此不再赘述。
步骤s304、对词特征的第一上下文信息和第二上下文信息进行点积运算处理,得到第三上下文信息。
步骤s304为实施例1中步骤s104的一种具体实施方式。
步骤s305、将词特征以及词特征的第三上下文信息输入到语音识别纠错模型,获得语音识别纠错模型对待处理文本进行纠错处理后得到的文本。
步骤s305的详细过程可以参见实施例1中步骤s105的相关介绍,在此不再赘述。
对词特征的第一上下文信息和第二上下文进行点积运算处理,得到第三上下文信息,能够节省运算的时间,提高得到第三上下文信息的效率,实现在保证语音识别纠错模型对待处理文本进行纠错处理后得到的文本的准确性的同时,提高纠错效率。
作为本申请另一可选实施例,参照图4,为本申请实施例4提供的一种识别方法的流程示意图,本实施例主要是对上述实施例1描述的识别方法的细化方案,如图4所示,该方法可以包括但并不局限于以下步骤:
步骤s401、获取语音识别系统识别出的待处理文本中每个词的词特征。
步骤s402、将词特征输入到标点预测模型,获得标点预测模型得到的词特征的第一上下文信息。
步骤s403、将词特征输入到语音识别纠错模型,获得语音识别纠错模型得到的词特征的第二上下文信息。
语音识别纠错模型为利用训练数据训练得到的,训练数据包含对训练文本进行纠错的数据及标点预测模型基于训练样本,得到的上下文信息。
步骤s401-s403的详细过程可以参见实施例1中步骤s101-s103的相关介绍,在此不再赘述。
步骤s404、将词特征的第一上下文信息和第二上下文信息输入到用于进行特征融合的第一机器学习模型中,得到第一机器学习模型输出的第三上下文信息。
步骤s404为实施例1中步骤s104的一种具体实施方式。
步骤s405、将词特征以及词特征的第三上下文信息输入到语音识别纠错模型,获得语音识别纠错模型对待处理文本进行纠错处理后得到的文本。
步骤s405的详细过程可以参见实施例1中步骤s105的相关介绍,在此不再赘述。
将词特征的第一上下文信息和第二上下文信息输入到用于进行特征融合的第一机器学习模型,由第一机器学习模型输出第三上下文信息,可以保证第三上下文信息的准确性,将准确的第三上下文信息输入到语音识别纠错模型中,可以提高语音识别纠错模型纠错的准确率。
作为本申请另一可选实施例,主要是对上述实施例1描述的识别方法的细化方案,在本实施例中,标点预测模型可以包括标点预测子模型和自编码器。在标点预测模型包括标点预测子模型和自编码器的情况下,语音识别纠错模型的训练过程,可以包括以下步骤:
s2001、获取训练文本中每个词的词特征及训练文本的标点符号及针对每个词标注的纠错标签。
步骤s2001的详细过程可以参见实施例1中步骤s1031的相关介绍,在此不再赘述。
s2002、将词特征输入到自编码器,获得自编码器的中间层对待处理词特征的第一子上下文信息进行处理时所使用的参数,待处理词特征为训练文本中排列在词特征之前的第一个词特征。
自编码器可以理解为:学习到输入对象在其特征空间内的特性信息(如,标点分布信息)的机器学习模型。
自编码器可以为但不局限于:单向长短时记忆循环神经网络模型或双向长短时记忆循环神经网络模型。
在自编码器为单向长短时记忆循环神经网络模型或双向长短时记忆循环神经网络模型时,自编码器的中间层可以理解为:单向长短时记忆循环神经网络模型或双向长短时记忆循环神经网络模型的隐藏层。
本实施例中,自编码器的中间层可以采用如下公式对词特征进行处理,得到词特征的第一子上下文信息:
上述公式中,
可以理解的是,待处理词特征为训练文本中的其中一个词特征,待处理词特征的第一子上下文信息同样是利用上述公式计算得到。
步骤s2003、基于自编码器的中间层对待处理词特征的第一子上下文信息进行处理时所使用的参数及词特征,得到待使用特征。
基于自编码器的中间层对待处理词特征的第一子上下文信息进行处理时所使用的参数及词特征,得到待使用特征,可以理解为:利用自编码器的中间层对待处理词特征的第一子上下文信息进行处理时所使用的参数,将词特征映射至符合标点预测子模型要求的特征空间,得到待使用特征,使待使用特征符合标点预测子模型要求的特征空间,且包含有词特征在原特征空间中的特性信息(如,标点分布信息)。
基于自编码器的中间层对词特征进行处理时所使用的参数及与所述词特征,得到待使用特征,可以包括但不局限于:
将自编码器的中间层对待处理词特征的第一子上下文信息进行处理时所使用的参数与词特征进行相乘运算处理,得到待使用特征。
当然,基于自编码器的中间层对待处理词特征的第一子上下文信息进行处理时所使用的参数及与词特征,得到待使用特征,也可以包括:
将自编码器的中间层对待处理词特征的第一子上下文信息进行处理时所使用的参数及词特征输入到用于进行特征融合的第二机器学习模型中,得到第二机器学习模型输出的待使用特征。
步骤s2004、将待使用特征输入到标点预测子模型的中间层,获得标点预测子模型的中间层对待使用特征进行处理,得到的词特征的第一上下文信息。
将待使用特征输入到标点预测子模型的中间层,获得标点预测子模型的中间层对待使用特征进行处理,得到的词特征的第一上下文信息,可以理解为:
将待使用特征输入到标点预测子模型的中间层,获得标点预测子模型的中间层利用以下公式对待使用特征进行处理,得到的词特征的第一上下文信息:
上述公式中,
由于待使用特征符合标点预测子模型要求的特征空间,且包含有词特征在原特征空间中的特性信息,因此将待使用特征输入到标点预测子模型的中间层可以保证标点预测子模型的中间层对未丢失词特征在原特征空间中的特性信息的待使用特征进行处理,保证词特征的第一上下文信息的准确性。
步骤s2002-s2004为实施例1中步骤s1032的一种具体实施方式。
本实施例中,标点预测子模型的参数可以是预先经过多个完整的训练文本训练得到的。当然,标点预测子模型的参数也可以是初始设置的,未经过完整的训练样本训练过的参数。
s2005、将多个词特征输入到语音识别纠错模型,获得语音识别纠错模型得到的各词特征的第二上下文信息。
s2006、基于词特征的第一上下文信息和第二上下文信息,确定词特征的第三上下文信息。
若标点预测子模型的参数是预先经过多个完整的训练文本训练得到的,则说明标点预测模型已经学习到比较丰富的上下文信息,因此,将待使用特征输入到标点预测子模型,获得的标点预测子模型得到的待使用特征的第一上下文信息的准确率较高,进而可以保证待使用词特征的第三上下文信息的丰富性及准确性。
s2007、将第三上下文信息及词特征输入到语音识别纠错模型,获得语音识别纠错模型输出的纠错结果,纠错结果为对词特征进行纠错的结果。
s2008、基于自编码器得到的每个词特征的第一子上下文信息,确定自编码器损失函数值。
基于自编码器得到的每个词特征的第一子上下文信息,确定自编码器损失函数值的过程,可以包括但不局限于:
利用如下公式,计算自编码器损失函数值:
上述公式中,lae表示自编码器损失函数值,hae表示词特征的第一子上下文信息,mle()表示最大似然估计函数。
s2009、基于每个词特征的第一上下文信息,确定标点预测子模型损失函数值。
基于每个词特征的第一上下文信息,确定标点预测子模型损失函数值的过程,可以包括:
利用如下公式,计算标点预测子模型损失函数值:
lpunc=mle(hpunc)
上述公式中,lpunc表示标点预测子模型损失函数值,hpunc表示词特征的第一上下文信息,mle()表示最大似然估计函数。
s2010、基于自编码器损失函数值与标点预测子模型损失函数值,得到标点预测损失函数值。
基于自编码器损失函数值与标点预测子模型损失函数值,得到标点预测损失函数值,可以包括但不局限于:
将自编码器损失函数值与标点预测子模型损失函数值进行相加运算,得到标点预测损失函数值。
基于自编码器损失函数值与标点预测子模型损失函数值,得到标点预测损失函数值的另外一种实施方式,可以为:
利用如下公式计算标点预测损失函数值:
l=γlpunc (1-γ)lac;
上述公式中,lpunc表示标点预测子模型损失函数值,lae表示自编码器损失函数值,υ表示超参数,υ的取值范围为0-1,l表示标点预测损失函数值。
s2011、基于词特征的纠错结果以及针对词标注的纠错标签之间的差异,确定纠错损失函数值。
s2012、基于纠错损失函数值和标点损失函数值,得到综合损失函数值。
步骤s2012的详细过程可以参见实施例1中步骤s10363的相关介绍,在此不再赘述。
s2013、判断综合损失函数值是否收敛。
若未收敛,则执行步骤s2014。
步骤s2008-s2013为实施例1中步骤s1036的一种具体实施方式。
s2014、更新标点预测模型的参数和语音识别纠错模型的参数,并返回执行步骤s2001,直至满足所训练结束条件。
本实施例中,训练结束条件可以根据需要进行设置,在本申请中不做限制。例如,训练结束条件可以为但不局限于:标点预测模型的损失函数值收敛且语音识别纠错模型的损失函数值收敛;或,基于标点预测模型的损失函数值及语音识别纠错模型的损失函数值,得到的综合损失函数值收敛。
本实施例中,在保证词特征的第一上下文信息的准确性的基础上,可以保证词特征的第三上下文信息的准确性,进而保证语音识别纠错模型的训练精度。
与上述自编码器、标点预测子模型和语音识别纠错模型的训练过程相对应,参照图5,为本申请实施例5提供的一种识别方法的流程示意图,本实施例主要是对上述实施例1描述的识别方法的细化方案,如图5所示,该方法可以包括但并不局限于以下步骤:
步骤s501、获取语音识别系统识别出的待处理文本中每个词的词特征。
步骤s501的详细过程可以参见实施例1中步骤s101的相关介绍,在此不再赘述。
步骤s502、将词特征输入到自编码器,获得自编码器的中间层对待处理词特征的第一子上下文信息进行处理时所使用的参数,待处理词特征为待处理文本中排列在词特征之前的第一个词特征。
步骤s503、基于自编码器的中间层对待处理词特征的第一子上下文信息进行处理时所使用的参数及与词特征,得到待使用特征。
基于自编码器的中间层对待处理词特征的第一子上下文信息进行处理时所使用的参数及与所述词特征,得到待使用特征,包括:
将自编码器的中间层对待处理词特征的第一子上下文信息进行处理时所使用的参数与词特征进行相乘运算处理,得到待使用特征。
当然,基于自编码器的中间层对待处理词特征的第一子上下文信息进行处理时所使用的参数及与词特征,得到待使用特征,也可以包括:
将自编码器的中间层对待处理词特征的第一子上下文信息进行处理时所使用的参数及词特征输入到用于进行特征融合的第二机器学习模型中,得到第二机器学习模型输出的待使用特征。
步骤s504、将待使用特征输入到标点预测子模型的中间层,获得标点预测子模型的中间层对待使用特征进行处理,得到的词特征的第一上下文信息。
步骤s502-s504为实施例1中步骤s102的一种具体实施方式。
步骤s505、将词特征输入到语音识别纠错模型,获得语音识别纠错模型得到的词特征的第二上下文信息。
语音识别纠错模型为利用训练数据训练得到的,训练数据包含对训练文本进行纠错的数据及标点预测模型基于训练样本,得到的上下文信息。
步骤s506、基于词特征的第一上下文信息和第二上下文信息,确定词特征的第三上下文信息。
步骤s507、将词特征以及词特征的第三上下文信息输入到语音识别纠错模型,获得语音识别纠错模型对待处理文本进行纠错处理后得到的文本。
步骤s505-s507的详细过程可以参见实施例1中步骤s103-s105的相关介绍,在此不再赘述。
本实施例中,由于待使用特征符合标点预测子模型要求的特征空间,且包含有词特征在原特征空间中的特性信息,因此将待使用特征输入到标点预测子模型的中间层,可以保证标点预测子模型的中间层对未丢失词特征在原特征空间中的特性信息的待使用特征进行处理,保证词特征的第一上下文信息的准确性,进而提高语音识别纠错模型纠错的准确性。
与上述本申请提供的一种识别方法实施例相对应的,本申请还提供了应用该识别方法的电子设备实施例。
如图6所示的为本申请提供的一种电子设备实施例1的结构示意图,该电子设备可以包括以下结构:
存储器100和处理器200。
存储器100,用于至少存储一组指令集;
处理器200,用于调用并执行所述存储器100中的所述指令集,通过执行所述指令集进行以下处理:
获取语音识别系统识别出的待处理文本中每个词的词特征;
将所述词特征输入到标点预测模型,获得所述标点预测模型得到的所述词特征的第一上下文信息;
将所述词特征输入到语音识别纠错模型,获得所述语音识别纠错模型得到的所述词特征的第二上下文信息,所述语音识别纠错模型为利用训练数据训练得到的,所述训练数据包含对训练文本进行纠错的数据及所述标点预测模型基于所述训练样本,得到的上下文信息;
基于所述词特征的第一上下文信息和第二上下文信息,确定所述词特征的第三上下文信息;
将所述词特征以及所述词特征的第三上下文信息输入到所述语音识别纠错模型,获得所述语音识别纠错模型对所述待处理文本进行纠错处理后得到的文本。
与上述本申请提供的一种识别方法实施例相对应的,本申请还提供了一种识别装置的实施例。
本实施例中,识别装置可以包括:
获取模块,用于获取语音识别系统识别出的待处理文本中每个词的词特征;
第一获得模块,用于将所述词特征输入到标点预测模型,获得所述标点预测模型得到的所述词特征的第一上下文信息;
第二获得模块,用于将所述词特征输入到语音识别纠错模型,获得所述语音识别纠错模型得到的所述词特征的第二上下文信息,所述语音识别纠错模型为利用训练数据训练得到的,所述训练数据包含对训练文本进行纠错的数据及所述标点预测模型基于所述训练样本,得到的上下文信息;
确定模块,用于基于所述词特征的第一上下文信息和第二上下文信息,确定所述词特征的第三上下文信息;
第三获得模块,用于将所述词特征以及所述词特征的第三上下文信息输入到所述语音识别纠错模型,获得所述语音识别纠错模型对所述待处理文本进行纠错处理后得到的文本。
本实施例中,确定模块,具体可以用于:
对词特征的第一上下文信息和第二上下文信息进行拼接处理,得到第三上下文信息;
或,对词特征的第一上下文信息和第二上下文信息进行点积运算处理,得到第三上下文信息;
或,将词特征的第一上下文信息和第二上下文信息输入到用于进行特征融合的第一机器学习模型中,得到第一机器学习模型输出的第三上下文信息。
本实施例中,标点预测模型可以包含标点预测子模型和自编码器;
相应地,第一获得模块,具体可以用于:
将词特征输入到所述自编码器,获得自编码器的中间层对待处理词特征的第一子上下文信息进行处理时所使用的参数,待处理词特征为待处理文本中排列在词特征之前的第一个词特征;
基于自编码器的中间层对待处理词特征的第一子上下文信息进行处理时所使用的参数及词特征,得到待使用特征;
将待使用特征输入到标点预测子模型的中间层,获得标点预测子模型的中间层对待使用特征进行处理,得到的词特征的第一上下文信息。
本实施例中,第一获得模块基于自编码器的中间层对待处理词特征的第一子上下文信息进行处理时所使用的参数及词特征,得到待使用特征的过程,具体可以为:
将自编码器的中间层对待处理词特征的第一子上下文信息进行处理时所使用的参数与词特征进行相乘运算处理,得到待使用特征;
或,将自编码器的中间层对待处理词特征的第一子上下文信息进行处理时所使用的参数及词特征输入到用于进行特征融合的第二机器学习模型中,得到第二机器学习模型输出的待使用特征。
与上述本申请提供的一种识别方法实施例相对应的,本申请还提供了一种存储介质的实施例。
本实施例中,存储介质存储有实现如前述任意一个实施例所述的识别方法的计算机程序,所述计算机程序被处理器执行,实现如前述任意一个实施例所述的识别方法的各步骤。
需要说明的是,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。对于装置类实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
为了描述的方便,描述以上装置时以功能分为各种单元分别描述。当然,在实施本申请时可以把各单元的功能在同一个或多个软件和/或硬件中实现。
通过以上的实施方式的描述可知,本领域的技术人员可以清楚地了解到本申请可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如rom/ram、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例或者实施例的某些部分所述的方法。
以上对本申请所提供的一种控制方法、装置及电子设备进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的一般技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。
本文用于企业家、创业者技术爱好者查询,结果仅供参考。