一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

文本纠错语料生成方法、装置、设备及存储介质与流程

2023-02-04 12:27:42 来源:中国专利 TAG:

技术特征:
1.一种文本纠错语料生成方法,其特征在于,所述方法包括:将原始语料进行预处理,得到待处理语料;获取所述待处理语料的实体信息,并根据所述待处理语料的实体信息确定所述待处理语料的多个错误位置;根据错误类型共存策略,在所述待处理语料的多个错误位置设置错误文本,以生成初步文本纠错语料;通过语言困惑模型过滤所述初步文本纠错语料,得到目标文本纠错语料。2.根据权利要求1所述的方法,其特征在于,所述获取所述待处理语料的实体信息,并根据所述待处理语料的实体信息确定所述待处理语料的多个错误位置,包括:获取所述待处理语料的实体词以及所述实体词的实体位置;以词粒度作为分割单位,将所述待处理语料输入分词模型进行分割,得到具有分词结构的待处理语料;设定预设错误频次,以避开所述实体词以及所述实体词的实体位置为原则,在所述具有分词结构的待处理语料中确定多个错误位置。3.根据权利要求2所述的方法,其中,所述错误类型包括:音相似错误类型、形相似错误类型、颠倒错误类型、多字错误类型以及少字错误类型,相应的,所述根据错误类型共存策略,在所述待处理语料的多个错误位置设置错误文本,以生成初步文本纠错语料,包括:在基于同一句待处理语料中音相似错误和形相似错误不共存的前提下,按照预设错误类型比例,在所述待处理语料的多个错误位置设置相应的错误类型文本,以生成初步文本纠错语料;其中,所述音相似错误类型包括:“的地得”错误类型。4.根据权利要求3所述的方法,其特征在于,在所述待处理语料的多个错误位置设置相应的错误类型文本,包括:若所述错误类型为音相似错误类型,则基于音相似混淆数据集,在所述待处理语料的当前错误位置设置具有音相似错误类型的错误文本,其中,所述音相似混淆数据集为具有拼音内部的声母、韵母、以及声调相似读音的混淆数据集;或者,若所述错误类型为形相似错误类型,则基于形相似混淆数据集,在所述待处理语料的当前错误位置设置具有形相似错误类型的错误文本,其中,所述形相似混淆数据集为具有形相近或者混淆字词的混淆数据集;或者,若所述错误类型为颠倒错误类型,则通过设置邻词颠倒与单字颠倒的预设颠倒比例,以及预设颠倒词范围长度,在所述待处理语料的当前错误位置设置具有颠倒错误类型的错误文本;或者,若所述错误类型为多字错误类型,则通过设置与当前错误位置中的边缘字进行成词以及随机插字的预设多字比例,在当前错误位置的相邻位置设置具有多字错误类型的错误文本;或者,若所述错误类型为少字错误类型,则通过在当前错误位置的文本中随机删除预设字数的文字,以形成具有少字错误类型的错误文本;或者,若所述错误类型为“的地得”错误类型,且满足“的地得”位于当前错误位置的末端位置处,或者“的地得”在当前错误位置属于单字结构的条件下,则在所述当前错误位置设置具有“的地得”错误类型的错误文本。
5.根据权利要求4所述的方法,其特征在于,所述通过语言困惑模型过滤所述初步文本纠错语料,得到目标文本纠错语料,包括:分别将所述待处理语料以及与其对应的所述初步文本纠错语料输入所述语言困惑模型,得到所述待处理语料的第一分数和所述初步文本纠错语料的第二分数;确定所述待处理语料的第一分数和所述初步文本纠错语料的第二分数的分数差值,将不满足预设差别阈值的分数差值筛选出来,删除与其对应的初步文本纠错语料,并将剩余的初步文本纠错语料作为目标文本纠错语料。6.根据权利要求5所述的方法,其特征在于,所述将原始语料进行预处理,得到待处理语料,包括:通过正则表达式对所述原始语料进行处理,去除所述原始语料中的噪声语料数据,得到所述待处理语料。7.一种文本纠错语料生成装置,其特征在于,所述装置包括:语料生成模块,用于将原始语料进行预处理,得到待处理语料;错误位置模块,用于获取所述待处理语料的实体信息,并根据所述待处理语料的实体信息确定所述待处理语料的多个错误位置;初步语料生成模块,用于根据错误类型共存策略,在所述待处理语料的多个错误位置设置错误文本,以生成初步文本纠错语料;目标语料生成模块,用于通过语言困惑模型过滤所述初步文本纠错语料,得到目标文本纠错语料。8.根据权利要求7所述的装置,其特征在于,所述错误位置模块,具体用于:获取所述待处理语料的实体词以及所述实体词的实体位置;以词粒度作为分割单位,将所述待处理语料输入分词模型进行分割,得到具有分词结构的待处理语料;设定预设错误频次,以避开所述实体词以及所述实体词的实体位置为原则,在所述具有分词结构的待处理语料中确定多个错误位置。9.一种电子设备,其特征在于,包括:至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-6中任一项所述的方法。10.一种存储有计算机指令的非瞬时计算机可读存储介质,其特征在于,所述计算机指令用于使计算机执行根据权利要求1-6中任一项所述的方法。

技术总结
本公开提供了一种文本纠错语料生成方法、装置、设备及存储介质,通过将原始语料进行预处理,得到待处理语料,获取所述待处理语料的实体信息,并根据所述待处理语料的实体信息确定所述待处理语料的多个错误位置,根据错误类型共存策略,在所述待处理语料的多个错误位置设置错误文本,以生成初步文本纠错语料,通过语言困惑模型过滤所述初步文本纠错语料,得到目标文本纠错语料,本公开可以更加高效、便捷的获得多样化本文本纠错语料,以满足各种类型的供后续文本纠错模型训练使用。的供后续文本纠错模型训练使用。的供后续文本纠错模型训练使用。


技术研发人员:王亭 李志飞
受保护的技术使用者:出门问问创新科技有限公司
技术研发日:2022.11.11
技术公布日:2023/2/3
再多了解一些

本文用于创业者技术爱好者查询,仅供学习研究,如用于商业用途,请联系技术所有人。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献