一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

文本处理、数据处理和语音处理方法、装置和电子设备与流程

2021-08-17 13:39:00 来源:中国专利 TAG:数据处理 电子设备 语音 装置 可读
文本处理、数据处理和语音处理方法、装置和电子设备与流程

本公开涉及计算机技术领域,具体涉及文本处理、数据处理和语音处理方法、装置、电子设备和可读存储介质。



背景技术:

近年来,随着计算机技术的发展和人们的要求,文本处理、语音处理等技术正变得越来越重要。需要处理的文本和语音来源非常复杂,可能是即时消息中的输入,也可能是演讲的实时文字转换。例如,在进行语音识别时,如何识别中特定语言元素(例如,代词)的准确率带来了较大的挑战,在进行文本处理、语音处理处理时,特定语言元素的错误可能会进一步影响下游任务的效果,比如翻译的准确性。



技术实现要素:

为了解决相关技术中的问题,本公开实施例提出文本处理、数据处理和语音处理方法、装置、电子设备和可读存储介质。

第一方面,本公开实施例中提供了一种文本处理方法,包括:

根据所述待纠错文本包括第一语言元素,对含有所述第一语言元素的待纠错文本生成第一掩码,并且利用所述第一掩码对所述待纠错文本中的第一语言元素进行掩盖以生成替换文本;

将所述第一掩码和所述替换文本输入纠错模型以预测与所述第一语言元素对应的第一语言元素向量;

根据预测出的第一语言元素向量生成目标语言元素;

利用所生成的目标语言元素替代所述待纠错文本中的第一语言元素以获得经纠错的文本。

结合第一方面,本公开在第一方面的第一种实现方式中,还包括:

从无标注数据中筛选出含有所述第一语言元素的语句以训练所述纠错模型。

结合第一方面的第一种实现方式,本公开在第一方面的第二种实现方式中,所述从无标注数据中筛选出含有所述第一语言元素的文本以训练所述纠错模型,包括:

对含有第一语言元素的第一语句生成第二掩码,并且利用所述第二掩码对所述第一语句中的第一语言元素进行掩盖以生成第一训练数据;

获取通过预设转换处理从所述第一语句转换而来的第二语句,其中,所述第二语句包含所述第一语言元素且包含与第一语句中的语言元素不同的语言元素;

对所述第二语句生成第三掩码,并且利用所述第三掩码对所述第二语句中的第一语言元素进行掩盖以生成第二训练数据;

根据所述第一语言元素、所述第二掩码、所述第一训练数据、所述第三掩码和所述第二训练数据生成第三训练数据,并且利用所述第三训练数据训练纠错模型。

结合第一方面、第一方面的第一种实现方式和第二种实现方式中的任一项,本公开在第一方面的第三种实现方式中,所述第一掩码为包括与所述待纠错文本中的语言元素一一对应的数字的数组,其中,与所述待纠错文本中的所述第一语言元素以外的语言元素对应的数字彼此相同且不同于与所述第一语言元素对应的数字;所述第二掩码为包括与所述第一语句中的语言元素一一对应的数字的数组,其中,与所述第一语句中的所述第一语言元素以外的语言元素对应的数字彼此相同且不同于与所述第一语言元素对应的数字;所述第三掩码为包括与所述第二语句中的语言元素一一对应的数字的数组,其中,与所述第二语句中的所述第一语言元素以外的语言元素对应的数字彼此相同且不同于与所述第一语言元素对应的数字。

结合第一方面的第三种实现方式,本公开在第一方面的第四种实现方式中,所述根据所述待纠错文本包括第一语言元素,对含有所述第一语言元素的待纠错文本生成第一掩码,并且利用所述第一掩码对所述待纠错文本中的第一语言元素进行掩盖以生成替换文本,包括:

利用所述第一掩码中的与所述第一语言元素对应的数字掩盖所述第一语言元素,其中,所得到的替换文本与所述待纠错文本的区别在于所述第一语言元素被替换为特定标志。

结合第一方面的第二种实现方式,本公开在第一方面的第五种实现方式中,所述获取通过预设转换处理从所述第一语句转换而来的第二语句,其中,所述第二语句包含所述第一语言元素且包含与第一语句中的语言元素不同的语言元素,包括:

将所述第一语句转换为音频信号;

对所述音频信号添加噪声;

将添加有噪声的音频信号转换为第二语句,其中,所述第二语句包含所述第一语言元素且包含与第一语句中的语言元素不同的语言元素。

结合第一方面的第二种实现方式,本公开在第一方面的第六种实现方式中,所述根据所述第一语言元素、所述第二掩码、所述第一训练数据、所述第三掩码和所述第二训练数据生成第三训练数据,并且利用所述第三训练数据训练纠错模型,包括:

对与所述第一语言元素对应的第一语言元素向量、所述第二掩码、所述第一训练数据、所述第三掩码和所述第二训练数据进行数据混合以生成第三训练数据;

利用所述第三训练数据训练所述纠错模型。

结合第一方面的第六种实现方式,本公开在第一方面的第七种实现方式中,所述纠错模型为bi-lstm序列标注模型。

结合第一方面,本公开在第一方面的第八种实现方式中,所述第一语言元素包括至少一个语言元素。

结合第一方面的第八种实现方式,本公开在第一方面的第九种实现方式中,所述从无标注数据中筛选出含有所述第一语言元素的语句以训练所述纠错模型,包括:

从筛选出的含有所述第一语言元素的语句中排除包含符合预设条件的第一语言元素的语句。

第二方面,本公开实施例中提供了一种文本处理装置,包括:

掩盖模块,被配置为根据所述待纠错文本包括第一语言元素,对含有所述第一语言元素的待纠错文本生成第一掩码,并且利用所述第一掩码对所述待纠错文本中的第一语言元素进行掩盖以生成替换文本;

第一生成模块,被配置为将所述第一掩码和所述替换文本输入纠错模型以预测与所述第一语言元素对应的第一语言元素向量;

第二生成模块,被配置为根据预测出的第一语言元素向量生成目标语言元素;

纠错模块,被配置为利用所生成的目标语言元素替代所述待纠错文本中的第一语言元素以获得经纠错的文本。

第三方面,本公开实施例中提供了一种数据处理方法,包括:

对含有第一语言元素的第一语句生成第一掩码,并且利用所述第一掩码对所述第一语句中的第一语言元素进行掩盖以生成第一训练数据;

获取通过预设转换处理从所述第一语句转换而来的第二语句,其中,所述第二语句包含所述第一语言元素且包含与第一语句中的语言元素不同的语言元素;

对含有第一语言元素的所述第二语句生成第二掩码,并且利用所述第二掩码对所述第二语句中的第一语言元素进行掩盖以生成第二训练数据;

根据所述第一语言元素、所述第一掩码、所述第一训练数据、所述第二掩码和所述第二训练数据生成第三训练数据,并且利用所述第三训练数据训练预设纠错模型。

结合第三方面,本公开在第三方面的第一种实现方式中,所述第一掩码为包括与所述第一语句中的语言元素一一对应的数字的数组,其中,与所述第一语句中的所述第一语言元素以外的语言元素对应的数字彼此相同且不同于与所述第一语言元素对应的数字;所述第二掩码为包括与所述第二语句中的语言元素一一对应的数字的数组,其中,与所述第二语句中的所述第一语言元素以外的语言元素对应的数字彼此相同且不同于与所述第一语言元素对应的数字。

结合第三方面的第一种实现方式,本公开在第三方面的第二种实现方式中,所述对含有第一语言元素的第一语句生成第一掩码,并且利用所述第一掩码对所述第一语句中的第一语言元素进行掩盖以生成第一训练数据,包括:

利用所述第一掩码中的与所述第一语言元素对应的数字掩盖所述第一语言元素,其中,所得到的第一训练数据与所述第一语句的区别在于所述第一语言元素被替换为特定标志。

结合第三方面、第三方面的第一种实现方式和第二种实现方式中的任一项,本公开在第三方面的第三种实现方式中,所述获取通过预设转换处理从所述第一语句转换而来的第二语句,其中,所述第二语句包含所述第一语言元素且包含与第一语句中的语言元素不同的语言元素,包括:

将所述第一语句转换为音频信号;

对所述音频信号添加噪声;

将添加有噪声的音频信号转换为第二语句,其中,所述第二语句包含所述第一语言元素且包含与第一语句中的语言元素不同的语言元素。

结合第三方面的第三种实现方式,本公开在第三方面的第四种实现方式中,所述对含有第一语言元素的所述第二语句生成第二掩码,并且利用所述第二掩码对所述第二语句中的第一语言元素进行掩盖以生成第二训练数据,包括:

利用所述第二掩码中的与所述第一语言元素对应的数字掩盖所述第一语言元素,其中,所得到的第二训练数据与所述第二语句的区别在于所述第一语言元素被替换为特定标志。

结合第三方面的第四种实现方式,本公开在第三方面的第五种实现方式中,所述根据所述第一语言元素、所述第一掩码、所述第一训练数据、所述第二掩码和所述第二训练数据生成第三训练数据,并且利用所述第三训练数据训练预设纠错模型,包括:

对与所述第一语言元素对应的第一语言元素向量、所述第一掩码、所述第一训练数据、所述第二掩码和所述第二训练数据进行数据混合以生成第三训练数据;

利用所述第三训练数据训练所述预设纠错模型。

结合第三方面的第五种实现方式,本公开在第三方面的第六种实现方式中,所述预设纠错模型为bi-lstm序列标注模型。

结合第三方面,本公开在第三方面的第七种实现方式中,还包括:

利用训练好的纠错模型对待纠错文本进行纠错。

结合第三方面的第七种实现方式,本公开在第三方面的第八种实现方式中,所述利用训练好的纠错模型对待纠错文本进行纠错,包括:

检测待纠错文本是否包括所述第一语言元素;

根据所述待纠错文本不包括所述第一语言元素,输出所述待纠错文本。

结合第三方面的第八种实现方式,本公开在第三方面的第九种实现方式中,所述利用训练好的纠错模型对待纠错文本进行纠错,还包括:

根据所述待纠错文本包括所述第一语言元素,对含有第一语言元素的待纠错文本生成第三掩码,并且利用所述第三掩码对所述待纠错文本中的第一语言元素进行掩盖以生成第四训练数据;

将所述第三掩码和所述第四训练数据输入训练好的纠错模型以预测与所述第一语言元素对应的第一语言元素向量;

根据预测出的第一语言元素向量生成目标语言元素;

利用所生成的目标语言元素替代所述待纠错文本中的第一语言元素以获得经纠错的文本。

结合第三方面,本公开在第三方面的第十种实现方式中,所述第一语言元素包括至少一个语言元素。

结合第三方面,本公开在第三方面的第十一种实现方式中,在对含有第一语言元素的第一语句生成第一掩码,并且利用所述第一掩码对所述第一语句中的第一语言元素进行掩盖以生成第一训练数据之前,包括:

从无标注数据中筛选出含有第一语言元素的第一语句。

结合第三方面的第十一种实现方式,本公开在第三方面的第十二种实现方式中,还包括:

从筛选出的第一语句中排除包含符合预设条件的第一语言元素的第一语句。

第四方面,本公开实施例中提供了一种数据处理装置,包括:

第一生成模块,被配置为对含有第一语言元素的第一语句生成第一掩码,并且利用所述第一掩码对所述第一语句中的第一语言元素进行掩盖以生成第一训练数据;

获取模块,被配置为获取通过预设转换处理从所述第一语句转换而来的第二语句,其中,所述第二语句包含所述第一语言元素且包含与第一语句中的语言元素不同的语言元素;

第二生成模块,被配置为对含有第一语言元素的所述第二语句生成第二掩码,并且利用所述第二掩码对所述第二语句中的第一语言元素进行掩盖以生成第二训练数据;

训练模块,被配置为根据所述第一语言元素、所述第一掩码、所述第一训练数据、所述第二掩码和所述第二训练数据生成第三训练数据,并且利用所述第三训练数据训练预设纠错模型。

第五方面,本公开实施例中提供了一种语音处理方法,包括:

从无标注数据中筛选出含有第一语言元素的第一语句;

对含有第一语言元素的第一语句生成第一掩码,并且利用所述第一掩码对所述第一语句中的第一语言元素进行掩盖以生成第一训练数据;

获取通过语音识别处理从所述第一语句转换而来的第二语句,其中,所述第二语句包含所述第一语言元素且包含与第一语句中的语言元素不同的语言元素;

对含有第一语言元素的所述第二语句生成第二掩码,并且利用所述第二掩码对所述第二语句中的第一语言元素进行掩盖以生成第二训练数据;

根据所述第一语言元素、所述第一掩码、所述第一训练数据、所述第二掩码和所述第二训练数据生成第三训练数据,并且利用所述第三训练数据训练预设纠错模型。

结合第五方面,本公开在第五方面的第一种实现方式中,所述获取通过语音识别处理从所述第一语句转换而来的第二语句,其中,所述第二语句包含所述第一语言元素且包含与第一语句中的语言元素不同的语言元素,包括:

将所述第一语句转换为音频信号;

对所述音频信号添加噪声;

将添加有噪声的音频信号转换为第二语句,其中,所述第二语句包含所述第一语言元素且包含与第一语句中的语言元素不同的语言元素。

结合第五方面,本公开在第五方面的第二种实现方式中,还包括:

利用训练好的纠错模型对语音识别出的文本进行纠错。

第六方面,本公开实施例中提供了一种语音处理装置,包括:

筛选模块,被配置为从无标注数据中筛选出含有第一语言元素的第一语句;

第一生成模块,被配置为对含有第一语言元素的第一语句生成第一掩码,并且利用所述第一掩码对所述第一语句中的第一语言元素进行掩盖以生成第一训练数据;

获取模块,被配置为获取通过语音识别处理从所述第一语句转换而来的第二语句,其中,所述第二语句包含所述第一语言元素且包含与第一语句中的语言元素不同的语言元素;

第二生成模块,被配置为对含有第一语言元素的所述第二语句生成第二掩码,并且利用所述第二掩码对所述第二语句中的第一语言元素进行掩盖以生成第二训练数据;

训练模块,被配置为根据所述第一语言元素、所述第一掩码、所述第一训练数据、所述第二掩码和所述第二训练数据生成第三训练数据,并且利用所述第三训练数据训练预设纠错模型。

第七方面,本公开实施例中提供了一种电子设备,包括存储器和处理器;其中,

所述存储器用于存储一条或多条计算机指令,其中,所述一条或多条计算机指令被所述处理器执行以实现如第一方面、第一方面的第一种实现方式至第九种实现方式、第三方面、第三方面的第一种实现方式至第十二种实现方式、第五方面、第五方面的第一种实现方式和第二种实现方式任一项所述的方法。

第八方面,本公开实施例中提供了一种可读存储介质,其上存储有计算机指令,该计算机指令被处理器执行时实现如第一方面、第一方面的第一种实现方式至第九种实现方式、第三方面、第三方面的第一种实现方式至第十二种实现方式、第五方面、第五方面的第一种实现方式和第二种实现方式任一项所述的方法。

本公开实施例提供的技术方案可以包括以下有益效果:

根据本公开实施例提供的技术方案,通过根据所述待纠错文本包括第一语言元素,对含有所述第一语言元素的待纠错文本生成第一掩码,并且利用所述第一掩码对所述待纠错文本中的第一语言元素进行掩盖以生成替换文本;将所述第一掩码和所述替换文本输入纠错模型以预测与所述第一语言元素对应的第一语言元素向量;根据预测出的第一语言元素向量生成目标语言元素;利用所生成的目标语言元素替代所述待纠错文本中的第一语言元素以获得经纠错的文本,可以将待纠错文本的替换文本以及第一掩码输入纠错模型,生成第一语言元素以替代待纠错文本中的第一语言元素,从而提高对待纠错文本中的第一语言元素的识别准确率。

根据本公开实施例提供的技术方案,通过从无标注数据中筛选出含有所述第一语言元素的语句以训练所述纠错模型,可以在不需要对数据进行标注的情况下,构建语言纠错模型,提高对经过转换处理的语句中的第一语言元素的识别准确率。还可以将待纠错文本的替换文本以及第一掩码输入纠错模型,生成第一语言元素以替代待纠错文本中的第一语言元素,从而提高对待纠错文本中的第一语言元素的识别准确率。

根据本公开实施例提供的技术方案,通过所述从无标注数据中筛选出含有所述第一语言元素的文本以训练所述纠错模型,包括:对含有第一语言元素的第一语句生成第二掩码,并且利用所述第二掩码对所述第一语句中的第一语言元素进行掩盖以生成第一训练数据;获取通过预设转换处理从所述第一语句转换而来的第二语句,其中,所述第二语句包含所述第一语言元素且包含与第一语句中的语言元素不同的语言元素;对所述第二语句生成第三掩码,并且利用所述第三掩码对所述第二语句中的第一语言元素进行掩盖以生成第二训练数据;根据所述第一语言元素、所述第二掩码、所述第一训练数据、所述第三掩码和所述第二训练数据生成第三训练数据,并且利用所述第三训练数据训练纠错模型,可以在不需要对数据进行标注的情况下,构建语言纠错模型,提高对经过转换处理的语句中的第一语言元素的识别准确率。还可以将待纠错文本的替换文本以及第一掩码输入纠错模型,生成第一语言元素以替代待纠错文本中的第一语言元素,从而提高对待纠错文本中的第一语言元素的识别准确率。

根据本公开实施例提供的技术方案,通过所述第一掩码为包括与所述待纠错文本中的语言元素一一对应的数字的数组,其中,与所述待纠错文本中的所述第一语言元素以外的语言元素对应的数字彼此相同且不同于与所述第一语言元素对应的数字;所述第二掩码为包括与所述第一语句中的语言元素一一对应的数字的数组,其中,与所述第一语句中的所述第一语言元素以外的语言元素对应的数字彼此相同且不同于与所述第一语言元素对应的数字;所述第三掩码为包括与所述第二语句中的语言元素一一对应的数字的数组,其中,与所述第二语句中的所述第一语言元素以外的语言元素对应的数字彼此相同且不同于与所述第一语言元素对应的数字,可以在不需要对数据进行标注的情况下,构建语言纠错模型,提高对经过转换处理的语句中的第一语言元素的识别准确率。还可以将待纠错文本的替换文本以及第一掩码输入纠错模型,生成第一语言元素以替代待纠错文本中的第一语言元素,从而提高对待纠错文本中的第一语言元素的识别准确率。

根据本公开实施例提供的技术方案,通过所述根据所述待纠错文本包括第一语言元素,对含有所述第一语言元素的待纠错文本生成第一掩码,并且利用所述第一掩码对所述待纠错文本中的第一语言元素进行掩盖以生成替换文本,包括:利用所述第一掩码中的与所述第一语言元素对应的数字掩盖所述第一语言元素,其中,所得到的替换文本与所述待纠错文本的区别在于所述第一语言元素被替换为特定标志,可以将待纠错文本的替换文本以及第一掩码输入纠错模型,生成第一语言元素以替代待纠错文本中的第一语言元素,从而提高对待纠错文本中的第一语言元素的识别准确率。

根据本公开实施例提供的技术方案,通过所述获取通过预设转换处理从所述第一语句转换而来的第二语句,其中,所述第二语句包含所述第一语言元素且包含与第一语句中的语言元素不同的语言元素,包括:将所述第一语句转换为音频信号;对所述音频信号添加噪声;将添加有噪声的音频信号转换为第二语句,其中,所述第二语句包含所述第一语言元素且包含与第一语句中的语言元素不同的语言元素,可以在不需要对数据进行标注的情况下,构建语言纠错模型,提高对经过转换处理的语句中的第一语言元素的识别准确率。还可以将待纠错文本的替换文本以及第一掩码输入纠错模型,生成第一语言元素以替代待纠错文本中的第一语言元素,从而提高对待纠错文本中的第一语言元素的识别准确率。

根据本公开实施例提供的技术方案,通过所述根据所述第一语言元素、所述第二掩码、所述第一训练数据、所述第三掩码和所述第二训练数据生成第三训练数据,并且利用所述第三训练数据训练纠错模型,包括:对与所述第一语言元素对应的第一语言元素向量、所述第二掩码、所述第一训练数据、所述第三掩码和所述第二训练数据进行数据混合以生成第三训练数据;利用所述第三训练数据训练所述纠错模型,可以在不需要对数据进行标注的情况下,构建语言纠错模型,提高对经过转换处理的语句中的第一语言元素的识别准确率。还可以将待纠错文本的替换文本以及第一掩码输入纠错模型,生成第一语言元素以替代待纠错文本中的第一语言元素,从而提高对待纠错文本中的第一语言元素的识别准确率。

根据本公开实施例提供的技术方案,通过所述纠错模型为bi-lstm序列标注模型,可以在不需要对数据进行标注的情况下,构建语言纠错模型,提高对经过转换处理的语句中的第一语言元素的识别准确率。

根据本公开实施例提供的技术方案,通过所述第一语言元素包括至少一个语言元素,可以构建语言纠错模型,提高对经过转换处理的语句中的第一语言元素的识别准确率。还可以将待纠错文本的替换文本以及第一掩码输入纠错模型,生成第一语言元素以替代待纠错文本中的第一语言元素,从而提高对待纠错文本中的第一语言元素的识别准确率。

根据本公开实施例提供的技术方案,通过所述从无标注数据中筛选出含有所述第一语言元素的语句以训练所述纠错模型,包括:从筛选出的含有所述第一语言元素的语句中排除包含符合预设条件的第一语言元素的语句,可以构建语言纠错模型,提高对经过转换处理的语句中的第一语言元素的识别准确率。还可以将待纠错文本的替换文本以及第一掩码输入纠错模型,生成第一语言元素以替代待纠错文本中的第一语言元素,从而提高对待纠错文本中的第一语言元素的识别准确率。

根据本公开实施例提供的技术方案,通过掩盖模块,被配置为根据所述待纠错文本包括第一语言元素,对含有所述第一语言元素的待纠错文本生成第一掩码,并且利用所述第一掩码对所述待纠错文本中的第一语言元素进行掩盖以生成替换文本;第一生成模块,被配置为将所述第一掩码和所述替换文本输入纠错模型以预测与所述第一语言元素对应的第一语言元素向量;第二生成模块,被配置为根据预测出的第一语言元素向量生成目标语言元素;纠错模块,被配置为利用所生成的目标语言元素替代所述待纠错文本中的第一语言元素以获得经纠错的文本,可以将待纠错文本的替换文本以及第一掩码输入纠错模型,生成第一语言元素以替代待纠错文本中的第一语言元素,从而提高对待纠错文本中的第一语言元素的识别准确率。

根据本公开实施例提供的技术方案,通过对含有第一语言元素的第一语句生成第一掩码,并且利用所述第一掩码对所述第一语句中的第一语言元素进行掩盖以生成第一训练数据;获取通过预设转换处理从所述第一语句转换而来的第二语句,其中,所述第二语句包含所述第一语言元素且包含与第一语句中的语言元素不同的语言元素;对含有第一语言元素的所述第二语句生成第二掩码,并且利用所述第二掩码对所述第二语句中的第一语言元素进行掩盖以生成第二训练数据;根据所述第一语言元素、所述第一掩码、所述第一训练数据、所述第二掩码和所述第二训练数据生成第三训练数据,并且利用所述第三训练数据训练预设纠错模型,可以通过对原语句以及经过转换处理后的语句中的第一语言元素的掩盖操作,训练纠错模型对于第一语言元素的建模能力,并且可以在不需要对数据进行标注的情况下,构建语言纠错模型,提高对经过转换处理的语句中的第一语言元素的识别准确率。

根据本公开实施例提供的技术方案,通过所述第一掩码为包括与所述第一语句中的语言元素一一对应的数字的数组,其中,与所述第一语句中的所述第一语言元素以外的语言元素对应的数字彼此相同且不同于与所述第一语言元素对应的数字;所述第二掩码为包括与所述第二语句中的语言元素一一对应的数字的数组,其中,与所述第二语句中的所述第一语言元素以外的语言元素对应的数字彼此相同且不同于与所述第一语言元素对应的数字,可以通过对原语句以及经过转换处理后的语句中的第一语言元素的掩盖操作,训练纠错模型对于第一语言元素的建模能力,并且可以在不需要对数据进行标注的情况下,构建语言纠错模型,提高对经过转换处理的语句中的第一语言元素的识别准确率。

根据本公开实施例提供的技术方案,通过所述对含有第一语言元素的第一语句生成第一掩码,并且利用所述第一掩码对所述第一语句中的第一语言元素进行掩盖以生成第一训练数据,包括:利用所述第一掩码中的与所述第一语言元素对应的数字掩盖所述第一语言元素,其中,所得到的第一训练数据与所述第一语句的区别在于所述第一语言元素被替换为特定标志,可以通过对原语句以及经过转换处理后的语句中的第一语言元素的掩盖操作,训练纠错模型对于第一语言元素的建模能力,并且可以在不需要对数据进行标注的情况下,构建语言纠错模型,提高对经过转换处理的语句中的第一语言元素的识别准确率。

根据本公开实施例提供的技术方案,通过所述获取通过预设转换处理从所述第一语句转换而来的第二语句,其中,所述第二语句包含所述第一语言元素且包含与第一语句中的语言元素不同的语言元素,包括:将所述第一语句转换为音频信号;对所述音频信号添加噪声;将添加有噪声的音频信号转换为第二语句,其中,所述第二语句包含所述第一语言元素且包含与第一语句中的语言元素不同的语言元素,可以通过对原语句以及经过语音识别处理后的语句中的第一语言元素的掩盖操作,训练纠错模型对于第一语言元素的建模能力,并且可以在不需要对数据进行标注的情况下,构建语言纠错模型,提高对经过转换处理的语句中的第一语言元素的识别准确率。

根据本公开实施例提供的技术方案,通过所述对含有第一语言元素的所述第二语句生成第二掩码,并且利用所述第二掩码对所述第二语句中的第一语言元素进行掩盖以生成第二训练数据,包括:利用所述第二掩码中的与所述第一语言元素对应的数字掩盖所述第一语言元素,其中,所得到的第二训练数据与所述第二语句的区别在于所述第一语言元素被替换为特定标志,可以通过对原语句以及经过语音识别处理后的语句中的第一语言元素的掩盖操作,训练纠错模型对于第一语言元素的建模能力,并且可以在不需要对数据进行标注的情况下,构建语言纠错模型,提高对经过转换处理的语句中的第一语言元素的识别准确率。

根据本公开实施例提供的技术方案,通过所述根据所述第一语言元素、所述第一掩码、所述第一训练数据、所述第二掩码和所述第二训练数据生成第三训练数据,并且利用所述第三训练数据训练预设纠错模型,包括:对与所述第一语言元素对应的第一语言元素向量、所述第一掩码、所述第一训练数据、所述第二掩码和所述第二训练数据进行数据混合以生成第三训练数据;利用所述第三训练数据训练所述预设纠错模型,可以通过对原语句以及经过语音识别处理后的语句中的第一语言元素的掩盖操作,训练纠错模型对于第一语言元素的建模能力,并且可以在不需要对数据进行标注的情况下,构建语言纠错模型,提高对经过转换处理的语句中的第一语言元素的识别准确率。

根据本公开实施例提供的技术方案,通过所述预设纠错模型为bi-lstm序列标注模型,可以在不需要对数据进行标注的情况下,构建语言纠错模型,提高对经过转换处理的语句中的第一语言元素的识别准确率。

根据本公开实施例提供的技术方案,通过利用训练好的纠错模型对待纠错文本进行纠错,可以通过对原语句以及经过转换处理后的语句中的第一语言元素的掩盖操作,训练纠错模型对于第一语言元素的建模能力,并且可以在不需要对数据进行标注的情况下,构建语言纠错模型,提高对经过转换处理的语句中的第一语言元素的识别准确率,实现对经过转换处理的语句中的第一语言元素的准确识别。

根据本公开实施例提供的技术方案,通过所述利用训练好的纠错模型对待纠错文本进行纠错,包括:检测待纠错文本是否包括所述第一语言元素;根据所述待纠错文本不包括所述第一语言元素,输出所述待纠错文本,可以通过对原语句以及经过转换处理后的语句中的第一语言元素的掩盖操作,训练纠错模型对于第一语言元素的建模能力,并且可以在不需要对数据进行标注的情况下,构建语言纠错模型,提高对经过转换处理的语句中的第一语言元素的识别准确率,实现对经过转换处理的语句中的第一语言元素的准确识别。

根据本公开实施例提供的技术方案,通过所述利用训练好的纠错模型对待纠错文本进行纠错,还包括:根据所述待纠错文本包括所述第一语言元素,对含有第一语言元素的待纠错文本生成第三掩码,并且利用所述第三掩码对所述待纠错文本中的第一语言元素进行掩盖以生成第四训练数据;将所述第三掩码和所述第四训练数据输入训练好的纠错模型以预测与所述第一语言元素对应的第一语言元素向量;根据预测出的第一语言元素向量生成目标语言元素;利用所生成的目标语言元素替代所述待纠错文本中的第一语言元素以获得经纠错的文本,可以通过对原语句以及经过转换处理后的语句中的第一语言元素的掩盖操作,训练纠错模型对于第一语言元素的建模能力,并且可以在不需要对数据进行标注的情况下,构建语言纠错模型,提高对经过转换处理的语句中的第一语言元素的识别准确率,实现对经过转换处理的语句中的第一语言元素的准确识别。

根据本公开实施例提供的技术方案,通过所述第一语言元素包括至少一个语言元素,可以通过对原语句以及经过转换处理后的语句中的第一语言元素的掩盖操作,训练纠错模型对于第一语言元素的建模能力,并且可以在不需要对数据进行标注的情况下,构建语言纠错模型,提高对经过转换处理的语句中的第一语言元素的识别准确率。

根据本公开实施例提供的技术方案,通过在对含有第一语言元素的第一语句生成第一掩码,并且利用所述第一掩码对所述第一语句中的第一语言元素进行掩盖以生成第一训练数据之前,包括:从无标注数据中筛选出含有第一语言元素的第一语句,可以通过对原语句以及经过转换处理后的语句中的第一语言元素的掩盖操作,训练纠错模型对于第一语言元素的建模能力,并且可以在不需要对数据进行标注的情况下,构建语言纠错模型,提高对经过转换处理的语句中的第一语言元素的识别准确率,实现对经过转换处理的语句中的第一语言元素的准确识别。

根据本公开实施例提供的技术方案,通过从筛选出的第一语句中排除包含符合预设条件的第一语言元素的第一语句,可以排除与第一语言元素相关的干扰,并且可以在不需要对数据进行标注的情况下,构建语言纠错模型,提高对经过转换处理的语句中的第一语言元素的识别准确率。

根据本公开实施例提供的技术方案,通过第一生成模块,被配置为对含有第一语言元素的第一语句生成第一掩码,并且利用所述第一掩码对所述第一语句中的第一语言元素进行掩盖以生成第一训练数据;获取模块,被配置为获取通过预设转换处理从所述第一语句转换而来的第二语句,其中,所述第二语句包含所述第一语言元素且包含与第一语句中的语言元素不同的语言元素;第二生成模块,被配置为对含有第一语言元素的所述第二语句生成第二掩码,并且利用所述第二掩码对所述第二语句中的第一语言元素进行掩盖以生成第二训练数据;训练模块,被配置为根据所述第一语言元素、所述第一掩码、所述第一训练数据、所述第二掩码和所述第二训练数据生成第三训练数据,并且利用所述第三训练数据训练预设纠错模型,可以通过对原语句以及经过转换处理后的语句中的第一语言元素的掩盖操作,训练纠错模型对于第一语言元素的建模能力,并且可以在不需要对数据进行标注的情况下,构建语言纠错模型,提高对经过转换处理的语句中的第一语言元素的识别准确率。

根据本公开实施例提供的技术方案,通过从无标注数据中筛选出含有第一语言元素的第一语句;对含有第一语言元素的第一语句生成第一掩码,并且利用所述第一掩码对所述第一语句中的第一语言元素进行掩盖以生成第一训练数据;获取通过语音识别处理从所述第一语句转换而来的第二语句,其中,所述第二语句包含所述第一语言元素且包含与第一语句中的语言元素不同的语言元素;对含有第一语言元素的所述第二语句生成第二掩码,并且利用所述第二掩码对所述第二语句中的第一语言元素进行掩盖以生成第二训练数据;根据所述第一语言元素、所述第一掩码、所述第一训练数据、所述第二掩码和所述第二训练数据生成第三训练数据,并且利用所述第三训练数据训练预设纠错模型,可以通过对原语句以及经过语音识别处理后的语句中的第一语言元素的掩盖操作,训练纠错模型对于第一语言元素的建模能力,并且可以在不需要对数据进行标注的情况下,构建语言纠错模型,提高对经过转换处理的语句中的第一语言元素的识别准确率。

根据本公开实施例提供的技术方案,通过所述获取通过语音识别处理从所述第一语句转换而来的第二语句,其中,所述第二语句包含所述第一语言元素且包含与第一语句中的语言元素不同的语言元素,包括:将所述第一语句转换为音频信号;对所述音频信号添加噪声;将添加有噪声的音频信号转换为第二语句,其中,所述第二语句包含所述第一语言元素且包含与第一语句中的语言元素不同的语言元素,可以通过对原语句以及经过语音识别处理后的语句中的第一语言元素的掩盖操作,训练纠错模型对于第一语言元素的建模能力,并且可以在不需要对数据进行标注的情况下,构建语言纠错模型,提高对经过转换处理的语句中的第一语言元素的识别准确率。

根据本公开实施例提供的技术方案,通过利用训练好的纠错模型对语音识别出的文本进行纠错,可以通过对原语句以及经过语音识别处理后的语句中的第一语言元素的掩盖操作,训练纠错模型对于第一语言元素的建模能力,并且可以在不需要对数据进行标注的情况下,构建语言纠错模型,提高对经过转换处理的语句中的第一语言元素的识别准确率。

根据本公开实施例提供的技术方案,通过筛选模块,被配置为从无标注数据中筛选出含有第一语言元素的第一语句;第一生成模块,被配置为对含有第一语言元素的第一语句生成第一掩码,并且利用所述第一掩码对所述第一语句中的第一语言元素进行掩盖以生成第一训练数据;获取模块,被配置为获取通过语音识别处理从所述第一语句转换而来的第二语句,其中,所述第二语句包含所述第一语言元素且包含与第一语句中的语言元素不同的语言元素;第二生成模块,被配置为对含有第一语言元素的所述第二语句生成第二掩码,并且利用所述第二掩码对所述第二语句中的第一语言元素进行掩盖以生成第二训练数据;训练模块,被配置为根据所述第一语言元素、所述第一掩码、所述第一训练数据、所述第二掩码和所述第二训练数据生成第三训练数据,并且利用所述第三训练数据训练预设纠错模型,可以通过对原语句以及经过语音识别处理后的语句中的第一语言元素的掩盖操作,训练纠错模型对于第一语言元素的建模能力,并且可以在不需要对数据进行标注的情况下,构建语言纠错模型,提高对经过转换处理的语句中的第一语言元素的识别准确率。

应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。

附图说明

结合附图,通过以下非限制性实施方式的详细描述,本公开的其它标签、目的和优点将变得更加明显。在附图中:

图1示出根据本公开一实施方式的数据处理方法的流程图;

图2示出根据本公开一实施方式的数据处理方法中的步骤s120的流程图;

图3示出根据本公开一实施方式的数据处理方法中的纠错模型训练过程示例的流程图;

图4示出根据图3所示的实施方式的数据处理方法中的纠错模型训练过程的实现场景示例的示意图;

图5示出根据本公开一实施方式的数据处理方法中的纠错过程示例的流程图;

图6示出根据本公开一实施方式的数据处理装置的结构示意图;

图7示出根据本公开一实施方式的文本处理方法的流程图;

图8示出根据本公开一实施方式的文本处理装置的结构示意图;

图9示出根据本公开一实施方式的语音处理方法的流程图;

图10示出根据本公开一实施方式的语音处理装置的结构示意图;

图11是是适于用来实现根据本公开实施方式的电子设备的结构示意图;

图12是适于用来实现根据本公开一实施方式的计算机装置的结构示意图。

具体实施方式

下文中,将参考附图详细描述本公开的示例性实施方式,以使本领域技术人员可容易地实现它们。此外,为了清楚起见,在附图中省略了与描述示例性实施方式无关的部分。

在本公开中,应理解,诸如“包括”或“具有”等的术语旨在指示本说明书中所公开的标签、数字、步骤、行为、部件、部分或其组合的存在,并且不欲排除一个或多个其他标签、数字、步骤、行为、部件、部分或其组合存在或被添加的可能性。

另外还需要说明的是,在不冲突的情况下,本公开中的实施例及实施例中的标签可以相互组合。下面将参考附图并结合实施例来详细说明本公开。

根据本公开实施例提供的技术方案,通过对含有第一语言元素的第一语句生成第一掩码,并且利用第一掩码对第一语句中的第一语言元素进行掩盖以生成第一训练数据;获取通过预设转换处理从第一语句转换而来的第二语句,其中,第二语句包含第一语言元素且包含与第一语句中的语言元素不同的语言元素;对含有第一语言元素的第二语句生成第二掩码,并且利用第二掩码对第二语句中的第一语言元素进行掩盖以生成第二训练数据;根据第一语言元素、第一掩码、第一训练数据、第二掩码和第二训练数据生成第三训练数据,并且利用第三训练数据训练预设纠错模型,可以通过对原语句以及经过转换处理后的语句中的第一语言元素的掩盖操作,训练纠错模型对于第一语言元素的建模能力,并且可以在不需要对数据进行标注的情况下,构建语言纠错模型,提高对经过转换处理的语句中的第一语言元素的识别准确率。

图1示出根据本公开一实施方式的数据处理方法的流程图。如图1所示,数据处理方法包括以下步骤s110、s120、s130和s140:

在步骤s110中,对含有第一语言元素的第一语句生成第一掩码,并且利用第一掩码对第一语句中的第一语言元素进行掩盖以生成第一训练数据。

在步骤s120中,获取通过预设转换处理从第一语句转换而来的第二语句,其中,第二语句包含第一语言元素且包含与第一语句中的语言元素不同的语言元素。

在步骤s130中,对含有第一语言元素的第二语句生成第二掩码,并且利用第二掩码对第二语句中的第一语言元素进行掩盖以生成第二训练数据。

在步骤s140中,根据第一语言元素、第一掩码、第一训练数据、第二掩码和第二训练数据生成第三训练数据,并且利用第三训练数据训练预设纠错模型。

在本公开的一个实施例中,数据处理方法可以训练纠错模型以对经过转换所得的语句中的第一语言元素进行准确识别,从而提高对语句进行识别的准确率。在本公开的一个实施例中,语言元素可以指的是语句中的基本单位,例如,字(字符)或词。语句包括至少一个语言元素。在本公开的实施例中,语句也可以被称为句子。

在本公开的一个实施例中,掩码可以通过向量表示,具体而言,通过数组构成的向量表示。该向量的维数,即,数组中的数字的个数,可以与其所要掩盖的语句的语言元素的数量相同。在本公开的实施例中,掩码中与相应语句中的第一语言元素对应的数字可以掩盖该第一语言元素,语句中的其余语言元素可以不被掩码掩盖。在本公开的实施例中,利用第一掩码对第一语句中的第一语言元素进行掩盖以生成第一训练数据,并且利用第二掩码对第二语句中的第一语言元素进行掩盖以生成第二训练数据。

在本公开的一个实施例中,第一掩码为包括与第一语句中的语言元素一一对应的数字的数组,其中,与第一语句中的第一语言元素以外的语言元素对应的数字彼此相同且不同于与第一语言元素对应的数字;第二掩码为包括与第二语句中的语言元素一一对应的数字的数组,其中,与第二语句中的第一语言元素以外的语言元素对应的数字彼此相同且不同于与第一语言元素对应的数字。

根据本公开实施例提供的技术方案,通过第一掩码为包括与第一语句中的语言元素一一对应的数字的数组,其中,与第一语句中的第一语言元素以外的语言元素对应的数字彼此相同且不同于与第一语言元素对应的数字;第二掩码为包括与第二语句中的语言元素一一对应的数字的数组,其中,与第二语句中的第一语言元素以外的语言元素对应的数字彼此相同且不同于与第一语言元素对应的数字,可以通过对原语句以及经过转换处理后的语句中的第一语言元素的掩盖操作,训练纠错模型对于第一语言元素的建模能力,并且可以在不需要对数据进行标注的情况下,构建语言纠错模型,提高对经过转换处理的语句中的第一语言元素的识别准确率。

在本公开的一个实施例中,步骤s110包括:利用第一掩码中的与第一语言元素对应的数字掩盖第一语言元素,其中,所得到的第一训练数据与第一语句的区别在于第一语言元素被替换为特定标志。

根据本公开实施例提供的技术方案,通过对含有第一语言元素的第一语句生成第一掩码,并且利用第一掩码对第一语句中的第一语言元素进行掩盖以生成第一训练数据,包括:利用第一掩码中的与第一语言元素对应的数字掩盖第一语言元素,其中,所得到的第一训练数据与第一语句的区别在于第一语言元素被替换为特定标志,可以通过对原语句以及经过转换处理后的语句中的第一语言元素的掩盖操作,训练纠错模型对于第一语言元素的建模能力,并且可以在不需要对数据进行标注的情况下,构建语言纠错模型,提高对经过转换处理的语句中的第一语言元素的识别准确率。

在本公开的一个实施例中,将第三人称代词,例如,“他”、“她”或“它”,定义为第一语言元素。对于包含第一语言元素的第一语句s=“他们是祖国的花朵”,生成第一掩码m,即向量(数组)[10000000]。利用掩码m掩盖语句s中的第三人称代词“他”之后,得到语句x=[ta们是祖国的花朵],其中,“ta”是替代第三人称代词的特定标志。语句x即为第一训练数据。正确的第三人称代词向量y=[他]。

在本公开的一个实施例中,获取通过预设转换处理从第一语句转换而来的第二语句,其中,第二语句包含第一语言元素且包含与第一语句中的语言元素不同的语言元素。预设转换处理可以被认为是一种“人工污染”处理,即,将第一语句转化为受到人工污染的数据。例如,对于第一语句s=“他们是祖国的花朵”,经预设转换处理得到的第二语句为s’=“他们是足骨的花朵”。对于包含第一语言元素的第二语句s’,生成第二掩码m’,即向量(数组)[10000000]。利用掩码m’掩盖语句s’中的第三人称代词“他”之后,得到语句x’=[ta们是足骨的花朵],其中,“ta”是替代第三人称代词的特定标志。语句x’即为第二训练数据。正确的第三人称代词向量y’=[他]。应该注意,对于第一训练数据和第二训练数据,正确的第三人称代词向量都是[他],即,与第一语言元素对应的第三人称代词向量。

在本公开的一个实施例中,可以根据第一语言元素、第一掩码、第一训练数据、第二掩码和第二训练数据生成第三训练数据,并且利用第三训练数据训练预设纠错模型。根据以上将第三人称代词“他”、“她”或“它”定义为第一语言元素的例子,以可以生成第三训练数据x=x1∪x2,其中,x1=[(x,m,y)…],x2=[(x’,m’,y’)…]。利用第三训练数据x训练纠错模型,训练好的纠错模型对于语句中的第一语言元素具有高识别准确率。

以下参照图2描述根据本公开一实施方式的数据处理方法中的步骤s120的示例。

图2示出根据本公开一实施方式的数据处理方法中的步骤s120的流程图。如图2所示,步骤s120包括步骤s210、s220和s230。

在步骤s210中,将第一语句转换为音频信号。

在步骤s220中,对音频信号添加噪声。

在步骤s230中,将添加有噪声的音频信号转换为第二语句,其中,第二语句包含第一语言元素且包含与第一语句中的语言元素不同的语言元素。

根据本公开实施例提供的技术方案,获取通过预设转换处理从第一语句转换而来的第二语句,其中,第二语句包含第一语言元素且包含与第一语句中的语言元素不同的语言元素,包括:将第一语句转换为音频信号;对音频信号添加噪声;将添加有噪声的音频信号转换为第二语句,其中,第二语句包含第一语言元素且包含与第一语句中的语言元素不同的语言元素,可以通过对原语句以及经过语音识别处理后的语句中的第一语言元素的掩盖操作,训练纠错模型对于第一语言元素的建模能力,并且可以在不需要对数据进行标注的情况下,构建语言纠错模型,提高对经过转换处理的语句中的第一语言元素的识别准确率。

在本公开的一个实施例中,步骤s120中的预设转换处理可以为语音识别处理。例如,语音识别处理可以包括对含有诸如第三人称代词之类的第一语言元素的语句先使用语音合成技术将文本转化为音频,再对音频信号添加噪声,最后使用asr(automaticspeechrecognition,自动语音识别)系统,把添加有噪声的音频重新转换为文本。本领域技术人员可以理解,在相关技术领域中,asr是一种将声音转换为文本的技术,一般指将人的语音转化为文本。可以理解,经asr处理得到的第二语句与第一语句可能存在差异,因此,asr可以被认为是用于对第一语句进行“人工污染”的技术。例如,对于第一语句s=“他们是祖国的花朵”,经语音识别处理得到的第二语句为s’=“他们是足骨的花朵”。在此情况下,第一语句中的“祖国”在结果语音识别处理得到的第二语句中被识别为“足骨”。因此,第二语句s’包含与第一语句s中相同的第一语言元素“他”,且包含与第一语句s中的语言元素“祖”不同的语言元素“足”以及与语言元素“国”不同的语言元素“骨”,或者说,第二语句s’包含与第一语句s中的语言元素“祖国”不同的语言元素“足骨”。应该注意,在该实施例中,需要针对性地提高其识别准确率的第一语言元素是第三人称代词“他”。

在本公开的一个实施例中,由于中文中第三人称代词“他”、“她”和“它”的发音是一样的,这导致中文asr语音识别对这些第三人称代词的识别存在困难。一方面,asr模型训练使用的人工标注数据来源相对单一,比如新闻。另一方面,asr模型使用的人工标注数据整体数据量相对受限,其中包含的第三人称代词的句子就更为有限。在实际应用场景中,asr需要识别的语音来源非常复杂,可能是即时消息中的语音输入,也可能是演讲的实时文字转换。而且日常对话中,第三人称代词的使用频率也相对较高。这给asr识别中第三人称代词的准确率带来了较大的挑战,而第三人称代词的错误可能会进一步影响下游任务的效果,比如翻译。在本公开的实施例中,以第三人称代词作为第一语言元素是比较有代表性的。本领域技术人员可以理解,本公开的实施例中使用第三人称代词作为第一语言元素仅仅是示例,还可以使用其他语言元素作为第一语言元素,以比较有针对性地提高对第一语言元素的识别准确率。

在本公开的一个实施例中,由于同一种语言的不同口音之间的差别,可能导致asr识别出的文本与原文之间存在差异,因此本公开实施例的方案可以对口音导致的asr识别出的语句中的与原文不同的语言元素进行纠错。在此情况下,在训练纠错模型时,可以利用掩码对同一语句中的由口音导致不同的特定语言元素(第一语言元素)进行掩盖,从而训练出纠错模型,提高针对特定语言元素的识别准确率。本领域技术人员可以理解,不同口音可能是由不同对象的发音特点决定的,也可能是由于诸如方言之类的特定发音规则所导致的。在本公开的一个实施例中,用于训练纠错模型的语料可以包含具备不同口音特点的语料,例如,从特定方言识别出的语料。在基于不同口音的语料训练好纠错模型的情况下,可以利用训练好的纠错模型实现针对不同口音的特定语言元素的准确识别。

在本公开的一个实施例中,以语音识别处理作为预设转换处理仅仅是示例,本公开的实施例还可以采用诸如图像识别之类的其他转换处理方式作为预设转换处理的方式。

在本公开的一个实施例中,步骤s130包括:利用第二掩码中的与第一语言元素对应的数字掩盖第一语言元素,其中,所得到的第二训练数据与第二语句的区别在于第一语言元素被替换为特定标志。

根据本公开实施例提供的技术方案,通过对含有第一语言元素的第二语句生成第二掩码,并且利用第二掩码对第二语句中的第一语言元素进行掩盖以生成第二训练数据,包括:利用第二掩码中的与第一语言元素对应的数字掩盖第一语言元素,其中,所得到的第二训练数据与第二语句的区别在于第一语言元素被替换为特定标志,可以通过对原语句以及经过语音识别处理后的语句中的第一语言元素的掩盖操作,训练纠错模型对于第一语言元素的建模能力,并且可以在不需要对数据进行标注的情况下,构建语言纠错模型,提高对经过转换处理的语句中的第一语言元素的识别准确率。

在本公开的一个实施例中,特定标志的相关描述可以参照前述将第三人称代词作为第一语言元素的示例。

在本公开的一个实施例中,步骤s140包括:对与第一语言元素对应的第一语言元素向量、第一掩码、第一训练数据、第二掩码和第二训练数据进行数据混合以生成第三训练数据;利用第三训练数据训练预设纠错模型。

根据本公开实施例提供的技术方案,通过根据第一语言元素、第一掩码、第一训练数据、第二掩码和第二训练数据生成第三训练数据,并且利用第三训练数据训练预设纠错模型,包括:对与第一语言元素对应的第一语言元素向量、第一掩码、第一训练数据、第二掩码和第二训练数据进行数据混合以生成第三训练数据;利用第三训练数据训练预设纠错模型,可以通过对原语句以及经过语音识别处理后的语句中的第一语言元素的掩盖操作,训练纠错模型对于第一语言元素的建模能力,并且可以在不需要对数据进行标注的情况下,构建语言纠错模型,提高对经过转换处理的语句中的第一语言元素的识别准确率。

在本公开的一个实施例中,预设纠错模型为bi-lstm序列标注模型。

根据本公开实施例提供的技术方案,通过预设纠错模型为bi-lstm序列标注模型,可以在不需要对数据进行标注的情况下,构建语言纠错模型,提高对经过转换处理的语句中的第一语言元素的识别准确率。

在本公开的一个实施例中,bi-lstm序列标注模型指的是双向lstm序列标注模型。lstm指的是长短期记忆网络(lstm,longshort-termmemory),是一种时间循环神经网络,是为了解决一般的rnn(循环神经网络)存在的长期依赖问题而专门设计出来的可以学习长期依赖信息。在本公开的一个实施例中,序列标注指的是给一个汉语语句作为输入,以“bems”组成的序列串作为输出,然后再进行切词,进而得到输入语句的划分。其中,b代表该字是词语中的起始字,m代表是词语中的中间字,e代表是词语中的结束字,s则代表是单字成词。bi-lstm序列标注模型的细节可以从相关技术中获取,本公开对此不作赘述。

在本公开的一个实施例中,在使用第三训练数据训练纠错模型时,纠错模型结构可以采用多层bi-lstm序列标注模型,模型输入为第三训练数据(例如,前述x集合)。在采用前述x集合作为第三训练数据的情况下,大致流程可以是先将x变换为字向量,再使用多层bi-lstm纠错模型得到包含上下文信息的向量h,最后包含上下文信息的向量h中对应掩码m中为1的位置与第三人称代词词表计算softmax得到各个第三人称代词的概率,再与第三人称代词向量y中各个代词计算交叉熵损失函数,最后通过梯度反向传播进行参数更新。在机器学习尤其是深度学习中,softmax是个常用而且比较重要的函数,尤其在多分类的场景中使用广泛。softmax把一些输入映射为0-1之间的实数,并且归一化保证和为1,因此多分类的概率之和也刚好为1。本领域技术人员可以理解,以上基于多层bi-lstm序列标注模型讨论训练纠错模型仅仅是示例,本公开还可以采用其他模型作为纠错模型进行训练,其细节可以从相关技术中得到,在此不作赘述。

在本公开的一个实施例中,数据处理方法还可以包括:利用训练好的纠错模型对待纠错文本进行纠错。

根据本公开实施例提供的技术方案,通过利用训练好的纠错模型对待纠错文本进行纠错,可以通过对原语句以及经过转换处理后的语句中的第一语言元素的掩盖操作,训练纠错模型对于第一语言元素的建模能力,并且可以在不需要对数据进行标注的情况下,构建语言纠错模型,提高对经过转换处理的语句中的第一语言元素的识别准确率,实现对经过转换处理的语句中的第一语言元素的准确识别。

在本公开的一个实施例中,利用训练好的纠错模型对待纠错文本进行纠错,包括:检测待纠错文本是否包括第一语言元素;根据待纠错文本不包括第一语言元素,输出待纠错文本。

根据本公开实施例提供的技术方案,通过利用训练好的纠错模型对待纠错文本进行纠错,包括:检测待纠错文本是否包括第一语言元素;根据待纠错文本不包括第一语言元素,输出待纠错文本,可以通过对原语句以及经过转换处理后的语句中的第一语言元素的掩盖操作,训练纠错模型对于第一语言元素的建模能力,并且可以在不需要对数据进行标注的情况下,构建语言纠错模型,提高对经过转换处理的语句中的第一语言元素的识别准确率,实现对经过转换处理的语句中的第一语言元素的准确识别。

在本公开的一个实施例中,根据以上将第三人称代词“他”、“她”或“它”定义为第一语言元素的例子,当检测到待纠错文本不包括第一语言元素时,返回不包括第三人称代词的原句。

在本公开的一个实施例中,利用训练好的纠错模型对待纠错文本进行纠错,还包括:根据待纠错文本包括第一语言元素,对含有第一语言元素的待纠错文本生成第三掩码,并且利用第三掩码对待纠错文本中的第一语言元素进行掩盖以生成第四训练数据;将第三掩码和第四训练数据输入训练好的纠错模型以预测与第一语言元素对应的第一语言元素向量;根据预测出的第一语言元素向量生成目标语言元素;利用所生成的目标语言元素替代待纠错文本中的第一语言元素以获得经纠错的文本。

根据本公开实施例提供的技术方案,通过利用训练好的纠错模型对待纠错文本进行纠错,还包括:根据待纠错文本包括第一语言元素,对含有第一语言元素的待纠错文本生成第三掩码,并且利用第三掩码对待纠错文本中的第一语言元素进行掩盖以生成第四训练数据;将第三掩码和第四训练数据输入训练好的纠错模型以预测与第一语言元素对应的第一语言元素向量;根据预测出的第一语言元素向量生成目标语言元素;利用所生成的目标语言元素替代待纠错文本中的第一语言元素以获得经纠错的文本,可以通过对原语句以及经过转换处理后的语句中的第一语言元素的掩盖操作,训练纠错模型对于第一语言元素的建模能力,并且可以在不需要对数据进行标注的情况下,构建语言纠错模型,提高对经过转换处理的语句中的第一语言元素的识别准确率,实现对经过转换处理的语句中的第一语言元素的准确识别。

在本公开的一个实施例中,根据以上将第三人称代词“他”、“她”或“它”定义为第一语言元素的例子,对包含第三人称代词的待纠错文本,生成掩码m对其中的第三人称代词进行掩盖,得到语句x。将语句x和掩码m输入纠错模型,纠错模型预测得到第一语言元素向量(第三人称代词向量)y,即纠错模型生成第三人称代词,用纠错模型计算出的结果目标目标语言元素替代原有语句中的第三人称代词并返回经纠错的语句(文本)。由于第一语言元素已经被掩盖,因此,纠错模型需要预测与被掩盖的第一语言元素对应的第一语言元素向量。例如,预测出的第一语言元素向量可能是y=[他],或者y=[她],或者是y=[它]。因此,根据纠错模型预测出的第一语言元素向量生成的目标语言元素与待纠错文本中的第一语言元素可能一致,也可能不一致。无论目标语言元素与待纠错文本中的第一语言元素是否一致,在本公开的实施例中用目标语言元素替代待纠错文本中的第一语言元素以获取准确的文本。

在本公开的一个实施例中,第一语言元素包括至少一个语言元素。

根据本公开实施例提供的技术方案,通过第一语言元素包括至少一个语言元素,可以通过对原语句以及经过转换处理后的语句中的第一语言元素的掩盖操作,训练纠错模型对于第一语言元素的建模能力,并且可以在不需要对数据进行标注的情况下,构建语言纠错模型,提高对经过转换处理的语句中的第一语言元素的识别准确率。

在本公开的一个实施例中,第一语言元素可以被定义为一类语言元素。例如,第一语言元素可以是第三人称代词,第三人称代词包括至少三个语言元素“他”、“她”和“它”。

在本公开的一个实施例中,在步骤s110之前,包括:从无标注数据中筛选出含有第一语言元素的第一语句。

根据本公开实施例提供的技术方案,通过在对含有第一语言元素的第一语句生成第一掩码,并且利用第一掩码对第一语句中的第一语言元素进行掩盖以生成第一训练数据之前,包括:从无标注数据中筛选出含有第一语言元素的第一语句,可以通过对原语句以及经过转换处理后的语句中的第一语言元素的掩盖操作,训练纠错模型对于第一语言元素的建模能力,并且可以在不需要对数据进行标注的情况下,构建语言纠错模型,提高对经过转换处理的语句中的第一语言元素的识别准确率,实现对经过转换处理的语句中的第一语言元素的准确识别。

在本公开的一个实施例中,由于人工标注数据整体数据量相对受限,其中包含的第一语言元素的语句就更为有限,不适合用于训练纠错模型。因此,本公开可以采用无标注数据生成大量包含第一语言元素的语句,也可以被称为伪语料,使用伪语料训练纠错模型,即可明显提高数据处理结果中识别第一语言元素的准确率。因此,本公开实施例中的数据处理方案的重点在于从无标注数据中生成训练数据的过程,通过对原语句和人工污染后语句中第一语言元素的掩盖操作,训练纠错模型对于第一语言元素的建模能力。

在本公开的一个实施例中,数据处理方法还包括:从筛选出的第一语句中排除包含符合预设条件的第一语言元素的第一语句。

根据本公开实施例提供的技术方案,通过从筛选出的第一语句中排除包含符合预设条件的第一语言元素的第一语句,可以排除与第一语言元素相关的干扰,并且可以在不需要对数据进行标注的情况下,构建语言纠错模型,提高对经过转换处理的语句中的第一语言元素的识别准确率。

在本公开的一个实施例中,根据以上将第三人称代词“他”、“她”或“它”定义为第一语言元素的例子,可以去除一些特殊情况,比如从第一语言元素中去除“其他”之类的形式上包含第三人称代词但不包含其意义的词汇,从而得到含有第三人称代词的语句集合。

以下参照图3和图4描述本公开一实施方式的数据处理方法中的纠错模型训练过程的流程图。

图3示出根据本公开一实施方式的数据处理方法中的纠错模型训练过程示例的流程图。图4示出根据图3所示的实施方式的数据处理方法中的纠错模型训练过程的实现场景示例的示意图。

如图3所示,在步骤s310和s320中,从大量的多领域的无标注数据中筛选出含有第三人称代词的语句。从图4可见,对于包含第三人称代词的第一语句s=“他们是祖国的花朵”,生成第一掩码m(步骤s340),即向量(数组)[10000000]。利用掩码m掩盖语句s中的第三人称代词“他”之后,得到语句x=[ta们是祖国的花朵],其中,“ta”是替代第三人称代词的特定标志。语句x即为第一训练数据。正确的第三人称代词向量y=[他]。

在步骤s330中,生成人工污染数据。从图4可见,获取通过语音识别处理从第一语句转换而来的第二语句,其中,第二语句包含第三人称代词且包含与第一语句中的第三人称代词不同的语言元素。语音识别处理可以被认为是一种“人工污染”处理,即,将第一语句转化为受到人工污染的数据。例如,对于第一语句s=“他们是祖国的花朵”,经语音识别处理得到的第二语句为s’=“他们是足骨的花朵”。对于包含第三人称代词的第二语句s’,生成第二掩码m’(步骤s340),即向量[10000000]。利用掩码m’掩盖语句s’中的第三人称代词“他”之后,得到语句x’=[ta们是足骨的花朵],其中,“ta”是替代第三人称代词的特定标志。语句x’即为第二训练数据。正确的第三人称代词向量y’=[他]。

在步骤s350中,训练纠错模型。如图4所示,可以根据第一掩码、第一训练数据、第三人称代词向量y、第二掩码、第二训练数据、第三人称代词向量y’生成第三训练数据(混合数据),并且利用混合数据训练预设纠错模型。可以生成混合数据x=x1∪x2,其中,x1=[(x,m,y)…],x2=[(x’,m’,y’)…]。利用混合数据x训练纠错模型,训练好的纠错模型对于语句中的第三人称代词具有高识别准确率。

以下参照图5描述本公开一实施方式的数据处理方法中的纠错过程的流程图。

图5示出根据本公开一实施方式的数据处理方法中的纠错过程示例的流程图。

如图5所示,在步骤s510中,输入待纠错文本。在步骤s510中,检测待纠错文本并是否含有第三人称代词。在步骤s530中,如果待纠错文本并不含有第三人称代词,则直接返回原句。在步骤s540中,对包含第三人称代词的文本,则对其中的第三人称代词生成代词掩码,进行掩盖,得到语句x和掩码m。在步骤s550中,将语句x和掩码m输入纠错模型,纠错模型预测得到第三人称代词向量y,即纠错模型生成第三人称代词,用纠错模型计算的结果替代原有语句中的第三人称代词并返回语句。

以下参照图6描述根据本公开一实施方式的数据处理装置的示例。

图6示出根据本公开一实施方式的数据处理装置600的结构示意图。如图6所示,数据处理装置600包括以下第一生成模块610、获取模块620、第二生成模块630和训练模块640。

第一生成模块610被配置为对含有第一语言元素的第一语句生成第一掩码,并且利用第一掩码对第一语句中的第一语言元素进行掩盖以生成第一训练数据。

获取模块620被配置为获取通过预设转换处理从第一语句转换而来的第二语句,其中,第二语句包含第一语言元素且包含与第一语句中的语言元素不同的语言元素。

第二生成模块630被配置为对含有第一语言元素的第二语句生成第二掩码,并且利用第二掩码对第二语句中的第一语言元素进行掩盖以生成第二训练数据。

训练模块640被配置为根据第一语言元素、第一掩码、第一训练数据、第二掩码和第二训练数据生成第三训练数据,并且利用第三训练数据训练预设纠错模型。

根据本公开实施例提供的技术方案,通过第一生成模块,被配置为对含有第一语言元素的第一语句生成第一掩码,并且利用第一掩码对第一语句中的第一语言元素进行掩盖以生成第一训练数据;获取模块,被配置为获取通过预设转换处理从第一语句转换而来的第二语句,其中,第二语句包含第一语言元素且包含与第一语句中的语言元素不同的语言元素;第二生成模块,被配置为对含有第一语言元素的第二语句生成第二掩码,并且利用第二掩码对第二语句中的第一语言元素进行掩盖以生成第二训练数据;训练模块,被配置为根据第一语言元素、第一掩码、第一训练数据、第二掩码和第二训练数据生成第三训练数据,并且利用第三训练数据训练预设纠错模型,可以通过对原语句以及经过转换处理后的语句中的第一语言元素的掩盖操作,训练纠错模型对于第一语言元素的建模能力,并且可以在不需要对数据进行标注的情况下,构建语言纠错模型,提高对经过转换处理的语句中的第一语言元素的识别准确率。

本领域技术人员可以理解,参照图6描述的技术方案的可以与参照图1至图5描述的实施例结合,从而具备参照图1至图5描述的实施例所实现的技术效果。具体内容可以参照以上根据图1至图5进行的描述,其具体内容在此不再赘述。

以下参照图7描述根据本公开一实施方式的文本处理方法的示例。

图7示出根据本公开一实施方式的文本处理方法的流程图。如图7所示,文本处理方法包括以下步骤s710、s720、s730和s740:

在步骤s710中,根据待纠错文本包括第一语言元素,对含有第一语言元素的待纠错文本生成第一掩码,并且利用第一掩码对待纠错文本中的第一语言元素进行掩盖以生成替换文本。

在步骤s720中,将第一掩码和替换文本输入纠错模型以预测与第一语言元素对应的第一语言元素向量。

在步骤s730中,根据预测出的第一语言元素向量生成目标语言元素。

在步骤s740中,利用所生成的目标语言元素替代待纠错文本中的第一语言元素以获得经纠错的文本。

根据本公开实施例提供的技术方案,通过根据待纠错文本包括第一语言元素,对含有第一语言元素的待纠错文本生成第一掩码,并且利用第一掩码对待纠错文本中的第一语言元素进行掩盖以生成替换文本;将第一掩码和替换文本输入纠错模型以预测与第一语言元素对应的第一语言元素向量;根据预测出的第一语言元素向量生成目标语言元素;利用所生成的目标语言元素替代待纠错文本中的第一语言元素以获得经纠错的文本,可以将待纠错文本的替换文本以及第一掩码输入纠错模型,生成第一语言元素以替代待纠错文本中的第一语言元素,从而提高对待纠错文本中的第一语言元素的识别准确率。

在本公开的一个实施例中,待纠错文本可以是通过各种方式获得的文本,例如,经语音识别获得的文本、经图像识别获得的需要纠错的文本等。

在本公开的一个实施例中,文本处理方法还包括:从无标注数据中筛选出含有第一语言元素的语句以训练纠错模型。

根据本公开实施例提供的技术方案,通过从无标注数据中筛选出含有第一语言元素的语句以训练纠错模型,可以在不需要对数据进行标注的情况下,构建语言纠错模型,提高对经过转换处理的语句中的第一语言元素的识别准确率。还可以将待纠错文本的替换文本以及第一掩码输入纠错模型,生成第一语言元素以替代待纠错文本中的第一语言元素,从而提高对待纠错文本中的第一语言元素的识别准确率。

在本公开的一个实施例中,从无标注数据中筛选出含有第一语言元素的文本以训练纠错模型,包括:对含有第一语言元素的第一语句生成第二掩码,并且利用第二掩码对第一语句中的第一语言元素进行掩盖以生成第一训练数据;获取通过预设转换处理从第一语句转换而来的第二语句,其中,第二语句包含第一语言元素且包含与第一语句中的语言元素不同的语言元素;对第二语句生成第三掩码,并且利用第三掩码对第二语句中的第一语言元素进行掩盖以生成第二训练数据;根据第一语言元素、第二掩码、第一训练数据、第三掩码和第二训练数据生成第三训练数据,并且利用第三训练数据训练纠错模型。

根据本公开实施例提供的技术方案,通过从无标注数据中筛选出含有第一语言元素的文本以训练纠错模型,包括:对含有第一语言元素的第一语句生成第二掩码,并且利用第二掩码对第一语句中的第一语言元素进行掩盖以生成第一训练数据;获取通过预设转换处理从第一语句转换而来的第二语句,其中,第二语句包含第一语言元素且包含与第一语句中的语言元素不同的语言元素;对第二语句生成第三掩码,并且利用第三掩码对第二语句中的第一语言元素进行掩盖以生成第二训练数据;根据第一语言元素、第二掩码、第一训练数据、第三掩码和第二训练数据生成第三训练数据,并且利用第三训练数据训练纠错模型,可以在不需要对数据进行标注的情况下,构建语言纠错模型,提高对经过转换处理的语句中的第一语言元素的识别准确率。还可以将待纠错文本的替换文本以及第一掩码输入纠错模型,生成第一语言元素以替代待纠错文本中的第一语言元素,从而提高对待纠错文本中的第一语言元素的识别准确率。

在本公开的一个实施例中,第一掩码为包括与待纠错文本中的语言元素一一对应的数字的数组,其中,与待纠错文本中的第一语言元素以外的语言元素对应的数字彼此相同且不同于与第一语言元素对应的数字;第二掩码为包括与第一语句中的语言元素一一对应的数字的数组,其中,与第一语句中的第一语言元素以外的语言元素对应的数字彼此相同且不同于与第一语言元素对应的数字;第三掩码为包括与第二语句中的语言元素一一对应的数字的数组,其中,与第二语句中的第一语言元素以外的语言元素对应的数字彼此相同且不同于与第一语言元素对应的数字。

根据本公开实施例提供的技术方案,通过第一掩码为包括与待纠错文本中的语言元素一一对应的数字的数组,其中,与待纠错文本中的第一语言元素以外的语言元素对应的数字彼此相同且不同于与第一语言元素对应的数字;第二掩码为包括与第一语句中的语言元素一一对应的数字的数组,其中,与第一语句中的第一语言元素以外的语言元素对应的数字彼此相同且不同于与第一语言元素对应的数字;第三掩码为包括与第二语句中的语言元素一一对应的数字的数组,其中,与第二语句中的第一语言元素以外的语言元素对应的数字彼此相同且不同于与第一语言元素对应的数字,可以在不需要对数据进行标注的情况下,构建语言纠错模型,提高对经过转换处理的语句中的第一语言元素的识别准确率。还可以将待纠错文本的替换文本以及第一掩码输入纠错模型,生成第一语言元素以替代待纠错文本中的第一语言元素,从而提高对待纠错文本中的第一语言元素的识别准确率。

在本公开的一个实施例中,根据待纠错文本包括第一语言元素,对含有第一语言元素的待纠错文本生成第一掩码,并且利用第一掩码对待纠错文本中的第一语言元素进行掩盖以生成替换文本,包括:利用第一掩码中的与第一语言元素对应的数字掩盖第一语言元素,其中,所得到的替换文本与待纠错文本的区别在于第一语言元素被替换为特定标志。

根据本公开实施例提供的技术方案,通过根据待纠错文本包括第一语言元素,对含有第一语言元素的待纠错文本生成第一掩码,并且利用第一掩码对待纠错文本中的第一语言元素进行掩盖以生成替换文本,包括:利用第一掩码中的与第一语言元素对应的数字掩盖第一语言元素,其中,所得到的替换文本与待纠错文本的区别在于第一语言元素被替换为特定标志,可以将待纠错文本的替换文本以及第一掩码输入纠错模型,生成第一语言元素以替代待纠错文本中的第一语言元素,从而提高对待纠错文本中的第一语言元素的识别准确率。

在本公开的一个实施例中,获取通过预设转换处理从第一语句转换而来的第二语句,其中,第二语句包含第一语言元素且包含与第一语句中的语言元素不同的语言元素,包括:将第一语句转换为音频信号;对音频信号添加噪声;将添加有噪声的音频信号转换为第二语句,其中,第二语句包含第一语言元素且包含与第一语句中的语言元素不同的语言元素。

根据本公开实施例提供的技术方案,通过获取通过预设转换处理从第一语句转换而来的第二语句,其中,第二语句包含第一语言元素且包含与第一语句中的语言元素不同的语言元素,包括:将第一语句转换为音频信号;对音频信号添加噪声;将添加有噪声的音频信号转换为第二语句,其中,第二语句包含第一语言元素且包含与第一语句中的语言元素不同的语言元素,可以在不需要对数据进行标注的情况下,构建语言纠错模型,提高对经过转换处理的语句中的第一语言元素的识别准确率。还可以将待纠错文本的替换文本以及第一掩码输入纠错模型,生成第一语言元素以替代待纠错文本中的第一语言元素,从而提高对待纠错文本中的第一语言元素的识别准确率。

在本公开的一个实施例中,根据第一语言元素、第二掩码、第一训练数据、第三掩码和第二训练数据生成第三训练数据,并且利用第三训练数据训练纠错模型,包括:对与第一语言元素对应的第一语言元素向量、第二掩码、第一训练数据、第三掩码和第二训练数据进行数据混合以生成第三训练数据;利用第三训练数据训练纠错模型。

根据本公开实施例提供的技术方案,通过根据第一语言元素、第二掩码、第一训练数据、第三掩码和第二训练数据生成第三训练数据,并且利用第三训练数据训练纠错模型,包括:对与第一语言元素对应的第一语言元素向量、第二掩码、第一训练数据、第三掩码和第二训练数据进行数据混合以生成第三训练数据;利用第三训练数据训练纠错模型,可以在不需要对数据进行标注的情况下,构建语言纠错模型,提高对经过转换处理的语句中的第一语言元素的识别准确率。还可以将待纠错文本的替换文本以及第一掩码输入纠错模型,生成第一语言元素以替代待纠错文本中的第一语言元素,从而提高对待纠错文本中的第一语言元素的识别准确率。

在本公开的一个实施例中,纠错模型为bi-lstm序列标注模型。

根据本公开实施例提供的技术方案,通过纠错模型为bi-lstm序列标注模型,可以在不需要对数据进行标注的情况下,构建语言纠错模型,提高对经过转换处理的语句中的第一语言元素的识别准确率。

在本公开的一个实施例中,第一语言元素包括至少一个语言元素。

根据本公开实施例提供的技术方案,通过第一语言元素包括至少一个语言元素,可以构建语言纠错模型,提高对经过转换处理的语句中的第一语言元素的识别准确率。还可以将待纠错文本的替换文本以及第一掩码输入纠错模型,生成第一语言元素以替代待纠错文本中的第一语言元素,从而提高对待纠错文本中的第一语言元素的识别准确率。

在本公开的一个实施例中,从无标注数据中筛选出含有第一语言元素的语句以训练纠错模型,包括:从筛选出的含有第一语言元素的语句中排除包含符合预设条件的第一语言元素的语句。

根据本公开实施例提供的技术方案,通过从无标注数据中筛选出含有第一语言元素的语句以训练纠错模型,包括:从筛选出的含有第一语言元素的语句中排除包含符合预设条件的第一语言元素的语句,可以构建语言纠错模型,提高对经过转换处理的语句中的第一语言元素的识别准确率。还可以将待纠错文本的替换文本以及第一掩码输入纠错模型,生成第一语言元素以替代待纠错文本中的第一语言元素,从而提高对待纠错文本中的第一语言元素的识别准确率。

本领域技术人员可以理解,参照图7描述的技术方案的可以与参照图1至图6描述的实施例结合,从而具备参照图1至图6描述的实施例所实现的技术效果。具体内容可以参照以上根据图1至图6进行的描述,其具体内容在此不再赘述。

以下参照图8描述根据本公开一实施方式的文本处理装置的示例。

图8示出根据本公开一实施方式的文本处理装置800的结构示意图。如图8所示,文本处理装置800包括以下掩盖模块810、第一生成模块820、第二生成模块830和纠错模块840。

掩盖模块810被配置为根据待纠错文本包括第一语言元素,对含有第一语言元素的待纠错文本生成第一掩码,并且利用第一掩码对待纠错文本中的第一语言元素进行掩盖以生成替换文本。

第一生成模块820被配置为将第一掩码和替换文本输入纠错模型以预测与第一语言元素对应的第一语言元素向量。

第二生成模块830被配置为根据预测出的第一语言元素向量生成目标语言元素。

纠错模块840被配置为利用所生成的目标语言元素替代待纠错文本中的第一语言元素以获得经纠错的文本。

根据本公开实施例提供的技术方案,通过掩盖模块,被配置为根据待纠错文本包括第一语言元素,对含有第一语言元素的待纠错文本生成第一掩码,并且利用第一掩码对待纠错文本中的第一语言元素进行掩盖以生成替换文本;第一生成模块,被配置为将第一掩码和替换文本输入纠错模型以预测与第一语言元素对应的第一语言元素向量;第二生成模块,根据预测出的第一语言元素向量生成目标语言元素;纠错模块,被配置为利用所生成的目标语言元素替代待纠错文本中的第一语言元素以获得经纠错的文本,可以将待纠错文本的替换文本以及第一掩码输入纠错模型,生成第一语言元素以替代待纠错文本中的第一语言元素,从而提高对待纠错文本中的第一语言元素的识别准确率。

本领域技术人员可以理解,参照图8描述的技术方案的可以与参照图1至图7描述的实施例结合,从而具备参照图1至图7描述的实施例所实现的技术效果。具体内容可以参照以上根据图1至图7进行的描述,其具体内容在此不再赘述。

以下参照图9描述根据本公开一实施方式的语音处理方法的示例。

图9示出根据本公开一实施方式的语音处理方法的流程图。如图9所示,数据处理方法包括以下步骤s910、s920、s930、s940和s950:

在步骤s910中,从无标注数据中筛选出含有第一语言元素的第一语句。

在步骤s920中,对含有第一语言元素的第一语句生成第一掩码,并且利用第一掩码对第一语句中的第一语言元素进行掩盖以生成第一训练数据。

在步骤s930中,获取通过语音识别处理从第一语句转换而来的第二语句,其中,第二语句包含第一语言元素且包含与第一语句中的语言元素不同的语言元素。

在步骤s940中,对含有第一语言元素的第二语句生成第二掩码,并且利用第二掩码对第二语句中的第一语言元素进行掩盖以生成第二训练数据。

在步骤s950中,根据第一语言元素、第一掩码、第一训练数据、第二掩码和第二训练数据生成第三训练数据,并且利用第三训练数据训练预设纠错模型。

根据本公开实施例提供的技术方案,通过从无标注数据中筛选出含有第一语言元素的第一语句;对含有第一语言元素的第一语句生成第一掩码,并且利用第一掩码对第一语句中的第一语言元素进行掩盖以生成第一训练数据;获取通过语音识别处理从第一语句转换而来的第二语句,其中,第二语句包含第一语言元素且包含与第一语句中的语言元素不同的语言元素;对含有第一语言元素的第二语句生成第二掩码,并且利用第二掩码对第二语句中的第一语言元素进行掩盖以生成第二训练数据;根据第一语言元素、第一掩码、第一训练数据、第二掩码和第二训练数据生成第三训练数据,并且利用第三训练数据训练预设纠错模型,可以通过对原语句以及经过语音识别处理后的语句中的第一语言元素的掩盖操作,训练纠错模型对于第一语言元素的建模能力,并且可以在不需要对数据进行标注的情况下,构建语言纠错模型,提高对经过转换处理的语句中的第一语言元素的识别准确率。

在本公开的一个实施例中,获取通过语音识别处理从第一语句转换而来的第二语句,其中,第二语句包含第一语言元素且包含与第一语句中的语言元素不同的语言元素,包括:将第一语句转换为音频信号;对音频信号添加噪声;将添加有噪声的音频信号转换为第二语句,其中,第二语句包含第一语言元素且包含与第一语句中的语言元素不同的语言元素。

根据本公开实施例提供的技术方案,通过获取通过语音识别处理从第一语句转换而来的第二语句,其中,第二语句包含第一语言元素且包含与第一语句中的语言元素不同的语言元素,包括:将第一语句转换为音频信号;对音频信号添加噪声;将添加有噪声的音频信号转换为第二语句,其中,第二语句包含第一语言元素且包含与第一语句中的语言元素不同的语言元素,可以通过对原语句以及经过语音识别处理后的语句中的第一语言元素的掩盖操作,训练纠错模型对于第一语言元素的建模能力,并且可以在不需要对数据进行标注的情况下,构建语言纠错模型,提高对经过转换处理的语句中的第一语言元素的识别准确率。

在本公开的一个实施例中,语音处理方法还包括:利用训练好的纠错模型对语音识别出的文本进行纠错。

根据本公开实施例提供的技术方案,通过利用训练好的纠错模型对语音识别出的文本进行纠错,可以通过对原语句以及经过语音识别处理后的语句中的第一语言元素的掩盖操作,训练纠错模型对于第一语言元素的建模能力,并且可以在不需要对数据进行标注的情况下,构建语言纠错模型,提高对经过转换处理的语句中的第一语言元素的识别准确率。

本领域技术人员可以理解,根据本公开实施例的语音处理技术适合于诸如语音消息、实时音视频、语音文字转换、同声传译、游戏语音处理之类的各个领域。

本领域技术人员可以理解,参照图9描述的技术方案的可以与参照图1至图8描述的实施例结合,从而具备参照图1至图8描述的实施例所实现的技术效果。具体内容可以参照以上根据图1至图8进行的描述,其具体内容在此不再赘述。

以下参照图10描述根据本公开一实施方式的语音处理装置的示例。

图10示出根据本公开一实施方式的语音处理装置1000的结构示意图。如图10所示,语音处理装置1000包括以下筛选模块1010、第一生成模块1020、获取模块1030、第二生成模块1040和训练模块1050。

筛选模块1010被配置为从无标注数据中筛选出含有第一语言元素的第一语句。

第一生成模块1020被配置为对含有第一语言元素的第一语句生成第一掩码,并且利用第一掩码对第一语句中的第一语言元素进行掩盖以生成第一训练数据。

获取模块1030被配置为获取通过语音识别处理从第一语句转换而来的第二语句,其中,第二语句包含第一语言元素且包含与第一语句中的语言元素不同的语言元素。

第二生成模块1040被配置为对含有第一语言元素的第二语句生成第二掩码,并且利用第二掩码对第二语句中的第一语言元素进行掩盖以生成第二训练数据。

训练模块1050被配置为根据第一语言元素、第一掩码、第一训练数据、第二掩码和第二训练数据生成第三训练数据,并且利用第三训练数据训练预设纠错模型。

根据本公开实施例提供的技术方案,通过筛选模块,被配置为从无标注数据中筛选出含有第一语言元素的第一语句;第一生成模块,被配置为对含有第一语言元素的第一语句生成第一掩码,并且利用第一掩码对第一语句中的第一语言元素进行掩盖以生成第一训练数据;获取模块,被配置为获取通过语音识别处理从第一语句转换而来的第二语句,其中,第二语句包含第一语言元素且包含与第一语句中的语言元素不同的语言元素;第二生成模块,被配置为对含有第一语言元素的第二语句生成第二掩码,并且利用第二掩码对第二语句中的第一语言元素进行掩盖以生成第二训练数据;训练模块,被配置为根据第一语言元素、第一掩码、第一训练数据、第二掩码和第二训练数据生成第三训练数据,并且利用第三训练数据训练预设纠错模型,可以通过对原语句以及经过语音识别处理后的语句中的第一语言元素的掩盖操作,训练纠错模型对于第一语言元素的建模能力,并且可以在不需要对数据进行标注的情况下,构建语言纠错模型,提高对经过转换处理的语句中的第一语言元素的识别准确率。

本领域技术人员可以理解,参照图10描述的技术方案的可以与参照图1至图9描述的实施例结合,从而具备参照图1至图9描述的实施例所实现的技术效果。具体内容可以参照以上根据图1至图9进行的描述,其具体内容在此不再赘述。

前述实施例描述了文本处理装置、数据处理装置和语音处理装置的内部功能和结构,在一个可能的设计中,文本处理装置、数据处理装置和语音处理装置的结构可实现为电子设备,如图11中所示,该电子设备1100可以包括处理器1101以及存储器1102。

所述存储器1102用于存储支持定位装置执行上述任一实施例中的文本处理方法、数据处理方法或语音处理方法的程序,所述处理器1101被配置为用于执行所述存储器1102中存储的程序。

在本公开的一个实施例中,所述存储器1102用于存储一条或多条计算机指令,其中,所述一条或多条计算机指令被所述处理器1101执行以实现以下步骤:

根据所述待纠错文本包括第一语言元素,对含有所述第一语言元素的待纠错文本生成第一掩码,并且利用所述第一掩码对所述待纠错文本中的第一语言元素进行掩盖以生成替换文本;

将所述第一掩码和所述替换文本输入纠错模型以预测与所述第一语言元素对应的第一语言元素向量;

根据预测出的第一语言元素向量生成目标语言元素;

利用所生成的目标语言元素替代所述待纠错文本中的第一语言元素以获得经纠错的文本。

在本公开的一个实施例中,所述一条或多条计算机指令还被所述处理器1101执行以实现以下步骤:

从无标注数据中筛选出含有所述第一语言元素的语句以训练所述纠错模型。

在本公开的一个实施例中,所述从无标注数据中筛选出含有所述第一语言元素的文本以训练所述纠错模型,包括:

对含有第一语言元素的第一语句生成第二掩码,并且利用所述第二掩码对所述第一语句中的第一语言元素进行掩盖以生成第一训练数据;

获取通过预设转换处理从所述第一语句转换而来的第二语句,其中,所述第二语句包含所述第一语言元素且包含与第一语句中的语言元素不同的语言元素;

对所述第二语句生成第三掩码,并且利用所述第三掩码对所述第二语句中的第一语言元素进行掩盖以生成第二训练数据;

根据所述第一语言元素、所述第二掩码、所述第一训练数据、所述第三掩码和所述第二训练数据生成第三训练数据,并且利用所述第三训练数据训练纠错模型。

在本公开的一个实施例中,所述第一掩码为包括与所述待纠错文本中的语言元素一一对应的数字的数组,其中,与所述待纠错文本中的所述第一语言元素以外的语言元素对应的数字彼此相同且不同于与所述第一语言元素对应的数字;所述第二掩码为包括与所述第一语句中的语言元素一一对应的数字的数组,其中,与所述第一语句中的所述第一语言元素以外的语言元素对应的数字彼此相同且不同于与所述第一语言元素对应的数字;所述第三掩码为包括与所述第二语句中的语言元素一一对应的数字的数组,其中,与所述第二语句中的所述第一语言元素以外的语言元素对应的数字彼此相同且不同于与所述第一语言元素对应的数字。

在本公开的一个实施例中,所述根据所述待纠错文本包括第一语言元素,对含有所述第一语言元素的待纠错文本生成第一掩码,并且利用所述第一掩码对所述待纠错文本中的第一语言元素进行掩盖以生成替换文本,包括:

利用所述第一掩码中的与所述第一语言元素对应的数字掩盖所述第一语言元素,其中,所得到的替换文本与所述待纠错文本的区别在于所述第一语言元素被替换为特定标志。

在本公开的一个实施例中,所述获取通过预设转换处理从所述第一语句转换而来的第二语句,其中,所述第二语句包含所述第一语言元素且包含与第一语句中的语言元素不同的语言元素,包括:

将所述第一语句转换为音频信号;

对所述音频信号添加噪声;

将添加有噪声的音频信号转换为第二语句,其中,所述第二语句包含所述第一语言元素且包含与第一语句中的语言元素不同的语言元素。

在本公开的一个实施例中,所述根据所述第一语言元素、所述第二掩码、所述第一训练数据、所述第三掩码和所述第二训练数据生成第三训练数据,并且利用所述第三训练数据训练纠错模型,包括:

对与所述第一语言元素对应的第一语言元素向量、所述第二掩码、所述第一训练数据、所述第三掩码和所述第二训练数据进行数据混合以生成第三训练数据;

利用所述第三训练数据训练所述纠错模型。

在本公开的一个实施例中,所述纠错模型为bi-lstm序列标注模型。

在本公开的一个实施例中,所述第一语言元素包括至少一个语言元素。

在本公开的一个实施例中,所述从无标注数据中筛选出含有所述第一语言元素的语句以训练所述纠错模型,包括:

从筛选出的含有所述第一语言元素的语句中排除包含符合预设条件的第一语言元素的语句。

在本公开的一个实施例中,所述存储器1102用于存储一条或多条计算机指令,其中,所述一条或多条计算机指令被所述处理器1101执行以实现以下步骤:

对含有第一语言元素的第一语句生成第一掩码,并且利用所述第一掩码对所述第一语句中的第一语言元素进行掩盖以生成第一训练数据;

获取通过预设转换处理从所述第一语句转换而来的第二语句,其中,第二语句包含第一语言元素且包含与第一语句中的语言元素不同的语言元素;

对含有第一语言元素的所述第二语句生成第二掩码,并且利用所述第二掩码对所述第二语句中的第一语言元素进行掩盖以生成第二训练数据;

根据所述第一语言元素、所述第一掩码、所述第一训练数据、所述第二掩码和所述第二训练数据生成第三训练数据,并且利用所述第三训练数据训练预设纠错模型。

在本公开的一个实施例中,所述第一掩码为包括与所述第一语句中的语言元素一一对应的数字的数组,其中,与所述第一语句中的所述第一语言元素以外的语言元素对应的数字彼此相同且不同于与所述第一语言元素对应的数字;所述第二掩码为包括与所述第二语句中的语言元素一一对应的数字的数组,其中,与所述第二语句中的所述第一语言元素以外的语言元素对应的数字彼此相同且不同于与所述第一语言元素对应的数字。

在本公开的一个实施例中,所述对含有第一语言元素的第一语句生成第一掩码,并且利用所述第一掩码对所述第一语句中的第一语言元素进行掩盖以生成第一训练数据,包括:

利用所述第一掩码中的与所述第一语言元素对应的数字掩盖所述第一语言元素,其中,所得到的第一训练数据与所述第一语句的区别在于所述第一语言元素被替换为特定标志。

在本公开的一个实施例中,所述获取通过预设转换处理从所述第一语句转换而来的第二语句,其中,第二语句包含第一语言元素且包含与第一语句中的语言元素不同的语言元素,包括:

将所述第一语句转换为音频信号;

对所述音频信号添加噪声;

将添加有噪声的音频信号转换为第二语句,其中,第二语句包含第一语言元素且包含与第一语句中的语言元素不同的语言元素。

在本公开的一个实施例中,所述对含有第一语言元素的所述第二语句生成第二掩码,并且利用所述第二掩码对所述第二语句中的第一语言元素进行掩盖以生成第二训练数据,包括:

利用所述第二掩码中的与所述第一语言元素对应的数字掩盖所述第一语言元素,其中,所得到的第二训练数据与所述第二语句的区别在于所述第一语言元素被替换为特定标志。

在本公开的一个实施例中,所述根据所述第一语言元素、所述第一掩码、所述第一训练数据、所述第二掩码和所述第二训练数据生成第三训练数据,并且利用所述第三训练数据训练预设纠错模型,包括:

对与所述第一语言元素对应的第一语言元素向量、所述第一掩码、所述第一训练数据、所述第二掩码和所述第二训练数据进行数据混合以生成第三训练数据;

利用所述第三训练数据训练所述预设纠错模型。

在本公开的一个实施例中,所述预设纠错模型为bi-lstm序列标注模型。

在本公开的一个实施例中,所述一条或多条计算机指令还被所述处理器1101执行以实现以下步骤:

利用训练好的纠错模型对待纠错文本进行纠错。

在本公开的一个实施例中,所述利用训练好的纠错模型对待纠错文本进行纠错,包括:

检测待纠错文本是否包括所述第一语言元素;

根据所述待纠错文本不包括所述第一语言元素,输出所述待纠错文本。

在本公开的一个实施例中,所述利用训练好的纠错模型对待纠错文本进行纠错,还包括:

根据所述待纠错文本包括所述第一语言元素,对含有第一语言元素的待纠错文本生成第三掩码,并且利用所述第三掩码对所述待纠错文本中的第一语言元素进行掩盖以生成第四训练数据;

将所述第三掩码和所述第四训练数据输入训练好的纠错模型以预测与所述第一语言元素对应的第一语言元素向量;

根据预测出的第一语言元素向量生成目标语言元素;

利用所生成的目标语言元素替代所述待纠错文本中的第一语言元素以获得经纠错的文本。

在本公开的一个实施例中,所述第一语言元素包括至少一个语言元素。

在本公开的一个实施例中,在对含有第一语言元素的第一语句生成第一掩码,并且利用所述第一掩码对所述第一语句中的第一语言元素进行掩盖以生成第一训练数据之前,所述一条或多条计算机指令被所述处理器1101执行以实现以下步骤:

从无标注数据中筛选出含有第一语言元素的第一语句。

在本公开的一个实施例中,所述一条或多条计算机指令还被所述处理器1101执行以实现以下步骤:

从筛选出的第一语句中排除包含符合预设条件的第一语言元素的第一语句。

在本公开的一个实施例中,所述存储器1102用于存储一条或多条计算机指令,其中,所述一条或多条计算机指令被所述处理器1101执行以实现以下步骤:

从无标注数据中筛选出含有第一语言元素的第一语句;

对含有第一语言元素的第一语句生成第一掩码,并且利用所述第一掩码对所述第一语句中的第一语言元素进行掩盖以生成第一训练数据;

获取通过语音识别处理从所述第一语句转换而来的第二语句,其中,第二语句包含第一语言元素且包含与第一语句中的语言元素不同的语言元素;

对含有第一语言元素的所述第二语句生成第二掩码,并且利用所述第二掩码对所述第二语句中的第一语言元素进行掩盖以生成第二训练数据;

根据所述第一语言元素、所述第一掩码、所述第一训练数据、所述第二掩码和所述第二训练数据生成第三训练数据,并且利用所述第三训练数据训练预设纠错模型。

在本公开的一个实施例中,所述获取通过语音识别处理从所述第一语句转换而来的第二语句,其中,第二语句包含第一语言元素且包含与第一语句中的语言元素不同的语言元素,包括:

将所述第一语句转换为音频信号;

对所述音频信号添加噪声;

将添加有噪声的音频信号转换为第二语句,其中,第二语句包含第一语言元素且包含与第一语句中的语言元素不同的语言元素。

在本公开的一个实施例中,所述一条或多条计算机指令还被所述处理器1101执行以实现以下步骤:

利用训练好的纠错模型对语音识别出的文本进行纠错。

本公开示例性实施例还提供了一种计算机存储介质,用于储存所述电子设备所用的计算机软件指令,其包含用于执行上述任一实施例所涉及的程序,从而具备方法所带来的技术效果。

图12是适于用来实现根据本公开一实施方式的计算机装置的结构示意图。

如图12所示,计算机装置1200包括处理器(cpu、gpu、fpga等)1201,其可以根据存储在只读存储器(rom)1202中的程序或者从存储部分1208加载到随机访问存储器(ram)1203中的程序而执行上述附图所示的实施方式中的各种处理。在ram1203中,还存储有装置1200操作所需的各种程序和数据。处理器1201、rom1202以及ram1203通过总线1204彼此相连。输入/输出(i/o)接口1205也连接至总线1204。

以下部件连接至i/o接口1205:包括键盘、鼠标等的输入部分1206;包括诸如阴极射线管(crt)、液晶显示器(lcd)等以及扬声器等的输出部分1207;包括硬盘等的存储部分1208;以及包括诸如lan卡、调制解调器等的网络接口卡的通信部分1209。通信部分1209经由诸如因特网的网络执行通信处理。驱动器1210也根据需要连接至i/o接口1205。可拆卸介质1211,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器1210上,以便于从其上读出的计算机程序根据需要被安装入存储部分1208。

特别地,根据本公开的实施方式,上文参考附图描述的方法可以被实现为计算机软件程序。例如,本公开的实施方式包括一种计算机程序产品,其包括有形地包含在及其可读介质上的计算机程序,所述计算机程序包含用于执行附图中的方法的程序代码。在这样的实施方式中,该计算机程序可以通过通信部分1209从网络上被下载和安装,和/或从可拆卸介质1211被安装。

附图中的流程图和框图,图示了按照本公开各种实施方式的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,路程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的装置来实现,或者可以用专用硬件与计算机指令的组合来实现。

描述于本公开实施方式中所涉及到的单元或模块可以通过软件的方式实现,也可以通过硬件的方式来实现。所描述的单元或模块也可以设置在处理器中,这些单元或模块的名称在某种情况下并不构成对该单元或模块本身的限定。

作为另一方面,本公开还提供了一种计算机可读存储介质,该计算机可读存储介质可以是上述实施方式中所述装置中所包含的计算机可读存储介质;也可以是单独存在,未装配入设备中的计算机可读存储介质。计算机可读存储介质存储有一个或者一个以上程序,所述程序被一个或者一个以上的处理器用来执行描述于本公开的方法,从而具备方法所带来的技术效果。

以上描述仅为本公开的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解,本公开中所涉及的发明范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离所述发明构思的情况下,由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本公开中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文章

  • 日榜
  • 周榜
  • 月榜