技术特征:
1.一种文本处理方法,其特征在于,包括:
根据所述待纠错文本包括第一语言元素,对含有所述第一语言元素的待纠错文本生成第一掩码,并且利用所述第一掩码对所述待纠错文本中的第一语言元素进行掩盖以生成替换文本;
将所述第一掩码和所述替换文本输入纠错模型以预测与所述第一语言元素对应的第一语言元素向量;
根据预测出的第一语言元素向量生成目标语言元素;
利用所生成的目标语言元素替代所述待纠错文本中的第一语言元素以获得经纠错的文本。
2.根据权利要求1所述的方法,其特征在于,还包括:
从无标注数据中筛选出含有所述第一语言元素的语句以训练所述纠错模型。
3.根据权利要求2所述的方法,其特征在于,所述从无标注数据中筛选出含有所述第一语言元素的文本以训练所述纠错模型,包括:
对含有第一语言元素的第一语句生成第二掩码,并且利用所述第二掩码对所述第一语句中的第一语言元素进行掩盖以生成第一训练数据;
获取通过预设转换处理从所述第一语句转换而来的第二语句,其中,所述第二语句包含所述第一语言元素且包含与第一语句中的语言元素不同的语言元素;
对所述第二语句生成第三掩码,并且利用所述第三掩码对所述第二语句中的第一语言元素进行掩盖以生成第二训练数据;
根据所述第一语言元素、所述第二掩码、所述第一训练数据、所述第三掩码和所述第二训练数据生成第三训练数据,并且利用所述第三训练数据训练纠错模型。
4.根据权利要求1至3任一项所述的方法,其特征在于,所述第一掩码为包括与所述待纠错文本中的语言元素一一对应的数字的数组,其中,与所述待纠错文本中的所述第一语言元素以外的语言元素对应的数字彼此相同且不同于与所述第一语言元素对应的数字;所述第二掩码为包括与所述第一语句中的语言元素一一对应的数字的数组,其中,与所述第一语句中的所述第一语言元素以外的语言元素对应的数字彼此相同且不同于与所述第一语言元素对应的数字;所述第三掩码为包括与所述第二语句中的语言元素一一对应的数字的数组,其中,与所述第二语句中的所述第一语言元素以外的语言元素对应的数字彼此相同且不同于与所述第一语言元素对应的数字。
5.根据权利要求4所述的方法,其特征在于,所述根据所述待纠错文本包括第一语言元素,对含有所述第一语言元素的待纠错文本生成第一掩码,并且利用所述第一掩码对所述待纠错文本中的第一语言元素进行掩盖以生成替换文本,包括:
利用所述第一掩码中的与所述第一语言元素对应的数字掩盖所述第一语言元素,其中,所得到的替换文本与所述待纠错文本的区别在于所述第一语言元素被替换为特定标志。
6.根据权利要求3所述的方法,其特征在于,所述获取通过预设转换处理从所述第一语句转换而来的第二语句,其中,所述第二语句包含所述第一语言元素且包含与第一语句中的语言元素不同的语言元素,包括:
将所述第一语句转换为音频信号;
对所述音频信号添加噪声;
将添加有噪声的音频信号转换为第二语句,其中,所述第二语句包含所述第一语言元素且包含与第一语句中的语言元素不同的语言元素。
7.根据权利要求3所述的方法,其特征在于,所述根据所述第一语言元素、所述第二掩码、所述第一训练数据、所述第三掩码和所述第二训练数据生成第三训练数据,并且利用所述第三训练数据训练纠错模型,包括:
对与所述第一语言元素对应的第一语言元素向量、所述第二掩码、所述第一训练数据、所述第三掩码和所述第二训练数据进行数据混合以生成第三训练数据;
利用所述第三训练数据训练所述纠错模型。
8.根据权利要求7所述的方法,其特征在于,所述纠错模型为bi-lstm序列标注模型。
9.根据权利要求1所述的方法,其特征在于,所述第一语言元素包括至少一个语言元素。
10.根据权利要求9所述的方法,其特征在于,所述从无标注数据中筛选出含有所述第一语言元素的语句以训练所述纠错模型,包括:
从筛选出的含有所述第一语言元素的语句中排除包含符合预设条件的第一语言元素的语句。
11.一种文本处理装置,其特征在于,包括:
掩盖模块,被配置为根据所述待纠错文本包括第一语言元素,对含有所述第一语言元素的待纠错文本生成第一掩码,并且利用所述第一掩码对所述待纠错文本中的第一语言元素进行掩盖以生成替换文本;
第一生成模块,被配置为将所述第一掩码和所述替换文本输入纠错模型以预测与所述第一语言元素对应的第一语言元素向量;
第二生成模块,被配置为根据预测出的第一语言元素向量生成目标语言元素;
纠错模块,被配置为利用所生成的目标语言元素替代所述待纠错文本中的第一语言元素以获得经纠错的文本。
12.一种数据处理方法,其特征在于,包括:
对含有第一语言元素的第一语句生成第一掩码,并且利用所述第一掩码对所述第一语句中的第一语言元素进行掩盖以生成第一训练数据;
获取通过预设转换处理从所述第一语句转换而来的第二语句,其中,所述第二语句包含所述第一语言元素且包含与第一语句中的语言元素不同的语言元素;
对含有第一语言元素的所述第二语句生成第二掩码,并且利用所述第二掩码对所述第二语句中的第一语言元素进行掩盖以生成第二训练数据;
根据所述第一语言元素、所述第一掩码、所述第一训练数据、所述第二掩码和所述第二训练数据生成第三训练数据,并且利用所述第三训练数据训练预设纠错模型。
13.根据权利要求12所述的方法,其特征在于,所述第一掩码为包括与所述第一语句中的语言元素一一对应的数字的数组,其中,与所述第一语句中的所述第一语言元素以外的语言元素对应的数字彼此相同且不同于与所述第一语言元素对应的数字;所述第二掩码为包括与所述第二语句中的语言元素一一对应的数字的数组,其中,与所述第二语句中的所述第一语言元素以外的语言元素对应的数字彼此相同且不同于与所述第一语言元素对应的数字。
14.根据权利要求13所述的方法,其特征在于,所述对含有第一语言元素的第一语句生成第一掩码,并且利用所述第一掩码对所述第一语句中的第一语言元素进行掩盖以生成第一训练数据,包括:
利用所述第一掩码中的与所述第一语言元素对应的数字掩盖所述第一语言元素,其中,所得到的第一训练数据与所述第一语句的区别在于所述第一语言元素被替换为特定标志。
15.根据权利要求12至14任一项所述的方法,其特征在于,所述获取通过预设转换处理从所述第一语句转换而来的第二语句,其中,所述第二语句包含所述第一语言元素且包含与第一语句中的语言元素不同的语言元素,包括:
将所述第一语句转换为音频信号;
对所述音频信号添加噪声;
将添加有噪声的音频信号转换为第二语句,其中,所述第二语句包含所述第一语言元素且包含与第一语句中的语言元素不同的语言元素。
16.根据权利要求15所述的方法,其特征在于,所述对含有第一语言元素的所述第二语句生成第二掩码,并且利用所述第二掩码对所述第二语句中的第一语言元素进行掩盖以生成第二训练数据,包括:
利用所述第二掩码中的与所述第一语言元素对应的数字掩盖所述第一语言元素,其中,所得到的第二训练数据与所述第二语句的区别在于所述第一语言元素被替换为特定标志。
17.根据权利要求16所述的方法,其特征在于,所述根据所述第一语言元素、所述第一掩码、所述第一训练数据、所述第二掩码和所述第二训练数据生成第三训练数据,并且利用所述第三训练数据训练预设纠错模型,包括:
对与所述第一语言元素对应的第一语言元素向量、所述第一掩码、所述第一训练数据、所述第二掩码和所述第二训练数据进行数据混合以生成第三训练数据;
利用所述第三训练数据训练所述预设纠错模型。
18.根据权利要求17所述的方法,其特征在于,所述预设纠错模型为bi-lstm序列标注模型。
19.根据权利要求12所述的方法,其特征在于,还包括:
利用训练好的纠错模型对待纠错文本进行纠错。
20.根据权利要求19所述的方法,其特征在于,所述利用训练好的纠错模型对待纠错文本进行纠错,包括:
检测待纠错文本是否包括所述第一语言元素;
根据所述待纠错文本不包括所述第一语言元素,输出所述待纠错文本。
21.根据权利要求20所述的方法,其特征在于,所述利用训练好的纠错模型对待纠错文本进行纠错,还包括:
根据所述待纠错文本包括所述第一语言元素,对含有第一语言元素的待纠错文本生成第三掩码,并且利用所述第三掩码对所述待纠错文本中的第一语言元素进行掩盖以生成第四训练数据;
将所述第三掩码和所述第四训练数据输入训练好的纠错模型以预测与所述第一语言元素对应的第一语言元素向量;
根据预测出的第一语言元素向量生成目标语言元素;
利用所生成的目标语言元素替代所述待纠错文本中的第一语言元素以获得经纠错的文本。
22.根据权利要求12所述的方法,其特征在于,所述第一语言元素包括至少一个语言元素。
23.根据权利要求12所述的方法,其特征在于,在对含有第一语言元素的第一语句生成第一掩码,并且利用所述第一掩码对所述第一语句中的第一语言元素进行掩盖以生成第一训练数据之前,包括:
从无标注数据中筛选出含有第一语言元素的第一语句。
24.根据权利要求23所述的方法,其特征在于,还包括:
从筛选出的第一语句中排除包含符合预设条件的第一语言元素的第一语句。
25.一种数据处理装置,其特征在于,包括:
第一生成模块,被配置为对含有第一语言元素的第一语句生成第一掩码,并且利用所述第一掩码对所述第一语句中的第一语言元素进行掩盖以生成第一训练数据;
获取模块,被配置为获取通过预设转换处理从所述第一语句转换而来的第二语句,其中,所述第二语句包含所述第一语言元素且包含与第一语句中的语言元素不同的语言元素;
第二生成模块,被配置为对含有第一语言元素的所述第二语句生成第二掩码,并且利用所述第二掩码对所述第二语句中的第一语言元素进行掩盖以生成第二训练数据;
训练模块,被配置为根据所述第一语言元素、所述第一掩码、所述第一训练数据、所述第二掩码和所述第二训练数据生成第三训练数据,并且利用所述第三训练数据训练预设纠错模型。
26.一种语音处理方法,其特征在于,包括:
从无标注数据中筛选出含有第一语言元素的第一语句;
对含有第一语言元素的第一语句生成第一掩码,并且利用所述第一掩码对所述第一语句中的第一语言元素进行掩盖以生成第一训练数据;
获取通过语音识别处理从所述第一语句转换而来的第二语句,其中,所述第二语句包含所述第一语言元素且包含与第一语句中的语言元素不同的语言元素;
对含有第一语言元素的所述第二语句生成第二掩码,并且利用所述第二掩码对所述第二语句中的第一语言元素进行掩盖以生成第二训练数据;
根据所述第一语言元素、所述第一掩码、所述第一训练数据、所述第二掩码和所述第二训练数据生成第三训练数据,并且利用所述第三训练数据训练预设纠错模型。
27.根据权利要求26所述的方法,其特征在于,所述获取通过语音识别处理从所述第一语句转换而来的第二语句,其中,所述第二语句包含所述第一语言元素且包含与第一语句中的语言元素不同的语言元素,包括:
将所述第一语句转换为音频信号;
对所述音频信号添加噪声;
将添加有噪声的音频信号转换为第二语句,其中,所述第二语句包含所述第一语言元素且包含与第一语句中的语言元素不同的语言元素。
28.根据权利要求26所述的方法,其特征在于,还包括:
利用训练好的纠错模型对语音识别出的文本进行纠错。
29.一种语音处理装置,其特征在于,包括:
筛选模块,被配置为从无标注数据中筛选出含有第一语言元素的第一语句;
第一生成模块,被配置为对含有第一语言元素的第一语句生成第一掩码,并且利用所述第一掩码对所述第一语句中的第一语言元素进行掩盖以生成第一训练数据;
获取模块,被配置为获取通过语音识别处理从所述第一语句转换而来的第二语句,其中,所述第二语句包含所述第一语言元素且包含与第一语句中的语言元素不同的语言元素;
第二生成模块,被配置为对含有第一语言元素的所述第二语句生成第二掩码,并且利用所述第二掩码对所述第二语句中的第一语言元素进行掩盖以生成第二训练数据;
训练模块,被配置为根据所述第一语言元素、所述第一掩码、所述第一训练数据、所述第二掩码和所述第二训练数据生成第三训练数据,并且利用所述第三训练数据训练预设纠错模型。
30.一种电子设备,其特征在于,包括存储器和处理器;其中,
所述存储器用于存储一条或多条计算机指令,其中,所述一条或多条计算机指令被所述处理器执行以实现如权利要求1-10、12-24、26-28任一项所述的方法。
31.一种可读存储介质,其上存储有计算机指令,其特征在于,该计算机指令被处理器执行时实现如权利要求1-10、12-24、26-28任一项所述的方法。
技术总结
本公开实施例公开了文本处理、数据处理和语音处理方法、装置和电子设备,文本处理方法包括:通过根据待纠错文本包括第一语言元素,对含有第一语言元素的待纠错文本生成第一掩码,并且利用第一掩码对待纠错文本中的第一语言元素进行掩盖以生成替换文本;将第一掩码和替换文本输入纠错模型以预测与第一语言元素对应的第一语言元素向量;根据预测出的第一语言元素向量生成目标语言元素;利用所生成的目标语言元素替代待纠错文本中的第一语言元素以获得经纠错的文本,可以将待纠错文本的替换文本以及第一掩码输入纠错模型,生成第一语言元素以替代待纠错文本中的第一语言元素,从而提高对待纠错文本中的第一语言元素的识别准确率。
技术研发人员:包祖贻;李辰;黄非
受保护的技术使用者:阿里巴巴集团控股有限公司
技术研发日:2020.02.14
技术公布日:2021.08.17
本文用于企业家、创业者技术爱好者查询,结果仅供参考。