一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

基于人工智能的文本纠错方法、装置、设备及存储介质与流程

2022-02-19 11:40:26 来源:中国专利 TAG:

技术特征:
1.一种基于人工智能的文本纠错方法,其特征在于,所述方法包括:获取待纠错文本,对所述待纠错文本进行待评估错误短语检测;对每个所述待评估错误短语进行候选短语确定;对每个所述候选短语分别进行通用领域词频计算和行业领域词频计算;根据每个所述待评估错误短语和各个所述候选短语分别进行编辑距离计算和第一拼音距离计算;根据所述待纠错文本,对每个所述候选短语进行gram候选评分计算;基于获取的目标评分模型,根据各个所述通用领域词频、各个所述行业领域词频、各个所述编辑距离、各个所述第一拼音距离和各个所述gram候选评分,针对每个所述候选短语进行统计评分计算;根据各个所述统计评分,对每个所述待评估错误短语进行替换词确定;根据各个所述替换词,对所述待纠错文本进行替换,得到纠错后文本。2.根据权利要求1所述的基于人工智能的文本纠错方法,其特征在于,所述对所述待纠错文本进行待评估错误短语检测的步骤,包括:对所述待纠错文本进行分词处理,得到待评估短语集;获取拼音及实体映射字典,对所述拼音及实体映射字典中的各个拼音与所述待评估短语集中的每个待评估短语进行第二拼音距离计算;获取第一阈值,将存在所述第二拼音距离小于所述第一阈值的每个所述待评估短语作为所述待评估错误短语;对所述待评估短语集分别进行分句和第一相邻短语对确定;根据采用通用领域训练样本和行业领域训练样本训练2

gram模型和训练3

gram模型得到的各个模型,对每个所述第一相邻短语对进行评分,得到待分析的评分集;获取第二阈值,根据所述待分析的评分集和所述第二阈值进行所述待评估错误短语检测;采用第一语言模型,针对每个所述待评估短语进行在预测字典中的每个预设短语的概率预测,得到每个所述待评估短语对应的待评估概率集;获取第三阈值,将每个所述待评估概率集中的值的大于所述第三阈值的各个待评估概率作为目标概率集;将所述目标概率集对应的各个所述预设短语作为待处理短语集;当目标短语不位于所述目标短语对应的所述待处理短语集中时,将所述目标短语作为所述待评估错误短语,其中,所述目标短语是任一个所述待评估短语。3.根据权利要求2所述的基于人工智能的文本纠错方法,其特征在于,所述根据采用通用领域训练样本和行业领域训练样本训练2

gram模型和训练3

gram模型得到的各个模型,对每个所述第一相邻短语对进行评分,得到待分析的评分集的步骤,包括:采用第一搭配评分模型,对每个所述第一相邻短语对进行评分,得到第一搭配评分,所述第一搭配评分模型是采用所述通用领域训练样本训练所述2

gram模型得到的模型;采用第二搭配评分模型,对每个所述第一相邻短语对进行评分,得到第二搭配评分,所述第二搭配评分模型是采用所述行业领域训练样本训练所述2

gram模型得到的模型;采用第三搭配评分模型,对每个所述第一相邻短语对进行评分,得到第三搭配评分,所
述第三搭配评分模型是采用所述通用领域训练样本训练所述3

gram模型得到的模型;采用第四搭配评分模型,对每个所述第一相邻短语对进行评分,得到第四搭配评分,所述第四搭配评分模型是采用所述行业领域训练样本训练3

gram模型得到的模型;所述根据所述待分析的评分集和所述第二阈值进行所述待评估错误短语检测的步骤,包括:当存在所述待评估短语对应的所述第一搭配评分、所述第二搭配评分、所述第三搭配评分、所述第四搭配评分均小于所述第二阈值时,将所述待评估短语作为所述待评估错误短语。4.根据权利要求2所述的基于人工智能的文本纠错方法,其特征在于,所述第一语言模型依次包括:输入层、编码层、预测层和输出层;其中,所述编码层包括:cbow模型的编码层、拼音编码层、五笔编码层、编码融合层,所述预测层是所述cbow模型的预测层,所述输出层是对所述预测字典中的每个所述预设短语的概率进行输出,所述cbow模型的编码层、所述拼音编码层、所述五笔编码层的输出端均与所述编码融合层的输入端连接。5.根据权利要求1所述的基于人工智能的文本纠错方法,其特征在于,所述对每个所述待评估错误短语进行候选短语确定的步骤,包括:将每个所述待评估错误短语输入第二语言模型进行预测字典中的每个预设短语的概率预测,得到每个所述待评估错误短语对应的待处理概率集;获取第四阈值,将所述待处理概率集中的大于所述第四阈值的每个待处理概率对应的短语作为一个所述候选短语;获取混淆词典,将每个所述待评估错误短语输入所述混淆词典进行所述候选短语确定。6.根据权利要求3所述的基于人工智能的文本纠错方法,其特征在于,所述根据所述待纠错文本,对每个所述候选短语进行gram候选评分计算的步骤,包括:将任一所述候选短语作为目标候选短语;采用所述目标候选短语,对所述待评估短语集进行替换,得到替换后的短语集;对所述替换后的短语集分别进行分句和第二相邻短语对确定;采用所述第一搭配评分模型,对所述第二相邻短语对进行评分,得到第一gram评分;采用所述第二搭配评分模型,对所述第二相邻短语对进行评分,得到第二gram评分;采用所述第三搭配评分模型,对所述第二相邻短语对进行评分,得到第三gram评分;采用所述第四搭配评分模型,对所述第二相邻短语对进行评分,得到第四gram评分;根据所述第一gram评分、所述第二gram评分、所述第三gram评分和所述第四gram评分确定所述目标候选短语对应的所述gram候选评分。7.根据权利要求1所述的基于人工智能的文本纠错方法,其特征在于,所述根据各个所述统计评分,对每个所述待评估错误短语进行替换词确定的步骤,包括:获取第五阈值;将任一个所述待评估错误短语作为待处理的短语;当所述待处理的短语存在大于所述的第五阈值的所述统计评分时,从所述待处理的短语对应的各个所述统计评分中找出值最大的所述统计评分作为目标统计评分;将所述目标统计评分对应的所述候选短语作为所述待处理的短语对应的所述替换词。
8.一种基于人工智能的文本纠错装置,其特征在于,所述装置包括:待评估错误短语确定模块,用于获取待纠错文本,对所述待纠错文本进行待评估错误短语检测;候选短语确定模块,用于对每个所述待评估错误短语进行候选短语确定;词频计算模块,用于对每个所述候选短语分别进行通用领域词频计算和行业领域词频计算;距离计算模块,用于根据每个所述待评估错误短语和各个所述候选短语分别进行编辑距离计算和第一拼音距离计算;gram候选评分确定模块,用于根据所述待纠错文本,对每个所述候选短语进行gram候选评分计算;统计评分确定模块,用于基于获取的目标评分模型,根据各个所述通用领域词频、各个所述行业领域词频、各个所述编辑距离、各个所述第一拼音距离和各个所述gram候选评分,针对每个所述候选短语进行统计评分计算;替换词确定模块,用于根据各个所述统计评分,对每个所述待评估错误短语进行替换词确定;纠错后文本确定模块,用于根据各个所述替换词,对所述待纠错文本进行替换,得到纠错后文本。9.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述方法的步骤。10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。

技术总结
本申请涉及人工智能技术领域,揭示了一种基于人工智能的文本纠错方法、装置、设备及存储介质,其中方法包括:对待纠错文本进行待评估错误短语检测;对每个待评估错误短语进行候选短语确定,对候选短语进行通用领域词频计算、行业领域词频计算、Gram候选评分计算;根据每个待评估错误短语和各个候选短语分别进行编辑距离计算和第一拼音距离计算;基于获取的目标评分模型,根据各个通用领域词频、各个行业领域词频、各个编辑距离、各个第一拼音距离和各个Gram候选评分,针对每个候选短语进行统计评分计算;根据各个统计评分确定替换词确定和对待纠错文本进行替换。通过错误短语检测、候选短语和替换词筛选提高了文本纠错的实时性和准确率。性和准确率。性和准确率。


技术研发人员:莫琪
受保护的技术使用者:平安普惠企业管理有限公司
技术研发日:2021.09.29
技术公布日:2022/1/4
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献