一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

中文文本纠错方法、装置、设备与介质与流程

2022-10-13 06:03:34 来源:中国专利 TAG:

技术特征:
1.一种中文文本纠错方法,其特征在于,所述中文文本纠错方法包括如下步骤:获取待纠错文本,并通过序列标签模型进行纠错,确定建议纠错文本;基于所述待纠错文本,对所述建议纠错文本进行后处理,生成纠错后的文本;将所述待纠错文本和所述纠错后的文本进行差异比对,生成文本报错提示。2.如权利要求1所述的中文文本纠错方法,其特征在于,所述获取待纠错文本,并通过序列标签模型进行纠错,确定建议纠错文本的步骤之前,所述中文文本纠错方法还包括:获取样本文本以及各个样本文本对应的目标文本,并根据预设词元表和预设分词算法对各个样本文本和各个目标文本进行分词操作,生成各个样本文本对应的样本分词列表、以及各个目标文本对应的目标分词列表;根据所述目标分词列表对所述样本分词列表进行分类标注,生成序列标注的训练样本,其中,所述分类标注包括别字标签、多字标签以及少字标签;获取所述序列标注的训练样本中的最大序列长度,并根据所述最大序列长度对所述序列标注的训练样本中的每一序列进行填充,生成原文分词序列,以及将所述原文分词序列输入到初始模型;其中,所述原文分词序列的序列长度与所述最大序列长度相同;所述序列标注的训练样本包括原文分词位置;对所述原文分词序列和所述原文分词位置同时进行编码和嵌入,生成所述原文分词序列和所述原文分词位置对应的嵌入特征;基于所述嵌入特征,获取所述序列标注的训练样本对应的样本操作标签张量和样本概率标记张量;根据预设交叉熵损失函数对所述样本操作标签张量和所述样本概率标记张量进行迭代训练,获得序列标签模型。3.如权利要求1所述的中文文本纠错方法,其特征在于,所述基于所述嵌入特征,获取所述序列标注的训练样本对应的样本操作标签张量和样本概率标记张量的步骤包括:步骤f1,将所述嵌入特征输入到所述初始模型的模型层,并通过所述模型层的注意力机制组对所述嵌入特征进行上下文语义分析,获得融合嵌入特征;步骤f2,通过所述模型层的线性全连接组对所述融合嵌入特征进行线性全连接加权处理,获得中间特征;步骤f3,通过所述模型层的相加组和标准化组对所述中间特征进行处理,获得初始操作标签张量和初始概率标记张量;步骤f4,重复执行步骤f1到步骤f3,直到达到预设迭代次数或损失函数值不再减小为止,输出样本操作标签张量和样本概率标记张量。4.如权利要求1所述的中文文本纠错方法,其特征在于,所述获取待纠错文本,并通过序列标签模型进行纠错,确定建议纠错文本的步骤包括:根据预设正则表达式对所述待纠错文本进行粗切分,生成分割文本;若所述分割文本的文本长度小于预设文本长度,则对所述分割文本进行文本内容提取,生成短文本列表;根据预设词元表和预设分词算法对所述短文本列表进行分词,生成预处理后的文本;通过所述序列标签模型对所述预处理后的文本进行纠错,输出所述预处理后的文本对应的操作标签张量和概率标记张量;
根据所述操作标签张量、所述概率标记张量以及预设错误容忍概率,生成具体操作列表;其中,所述具体操作包括保留、删除、添加以及替换;根据所述具体操作列表对所述预处理后的文本进行纠错处理,确定对应的建议纠错文本。5.如权利要求4所述的中文文本纠错方法,其特征在于,所述根据预设的正则表达式对所述待纠错文本进行粗切分,生成分割文本的步骤之后,所述中文文本纠错方法还包括:若存在所述分割文本的文本长度大于所述预设文本长度,则对所述分割文本进行硬分割,生成子分割文本,并对所述子分割文本执行文本内容提取及后续分词步骤。6.如权利要求4所述的中文文本纠错方法,其特征在于,所述根据预设的词元表和预设分词算法对所述短文本列表进行分词,生成预处理后的文本的步骤包括:对所述短文本列表进行文本清洗,生成清洗后的短文本列表;对所述清洗后的短文本列表进行遍历和字符切分,生成切分列表;根据预设词元表和预设分词算法对所述切分列表进行分词,生成预处理后的文本。7.如权利要求1所述的中文文本纠错方法,其特征在于,所述基于所述待纠错文本,对所述建议纠错文本进行后处理,生成纠错后的文本的步骤包括:将所述待纠错文本与所述建议纠错文本进行差异对比,确定正确分割文本;根据所述待纠错文本对所述正确分割文本进行切割位置和符号还原,生成纠错后的文本。8.一种中文文本纠错装置,其特征在于,所述中文文本纠错装置包括:获取模块,用于获取待纠错文本,并通过序列标签模型进行纠错,确定建议纠错文本;后处理模块,用于基于所述待纠错文本,对所述建议纠错文本进行后处理,生成纠错后的文本;比对模块,用于将所述待纠错文本和所述纠错后的文本进行差异比对,生成文本报错提示。9.一种设备,所述设备为中文文本纠错设备,其特征在于,所述中文文本纠错设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的中文文本纠错程序,所述中文文本纠错程序被所述处理器执行时实现如权利要求1至7中任一项所述的中文文本纠错方法的步骤。10.一种介质,所述介质为计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有中文文本纠错程序,所述中文文本纠错程序被处理器执行时实现如权利要求1至7中任一项所述的中文文本纠错方法的步骤。

技术总结
本发明涉及自然语言处理技术领域,公开了一种中文文本纠错方法、装置、设备与介质。本发明通过获取待纠错文本,并通过序列标签模型对待纠错文本进行纠错,确定待纠错文本对应的建议纠正文本;根据待纠错文本对建议纠正文本进行后处理,生成纠错后的文本;将待纠错文本和纠错后的文本进行差异比对,生成文本报错提示;从而提高中文文本纠错的全面性和准确性、以及提高文本纠错的效率。以及提高文本纠错的效率。以及提高文本纠错的效率。


技术研发人员:宋红梅 徐洁馨 李金龙
受保护的技术使用者:招商银行股份有限公司
技术研发日:2022.07.20
技术公布日:2022/10/11
再多了解一些

本文用于创业者技术爱好者查询,仅供学习研究,如用于商业用途,请联系技术所有人。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献