一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种中文文本多字自动检测识别的实现方法与流程

2022-02-20 13:52:31 来源:中国专利 TAG:

技术特征:
1.一种中文文本多字自动检测识别的实现方法,其特征在于,包括对中文文本的整体处理流程和对中文短句的具体处理流程,具体包括运行开始,随机输入中文文本,对中文文本进行utf-8统一编码处理,然后根据标点符号切分中文文本,输出切分后的短句列表,循环处理中文短句列表中的每个中文短句,获取中文短句中可能的多字和多字位置信息等,然后判断中文短句列表是否全部处理,如否则继续循环处理中文短句列表中的每个中文短句,如是则将所有短句中可能存在的多字信息整理后输出,运行结束。2.根据权利要求1所述的中文文本多字自动检测识别的实现方法,其特征在于:所述对中文文本的整体处理流程具体包括:s1.1:通过输入或者主动加载的方式获取到要检测的中文文本;s1.2:对中文文本做预处理,进行utf-8统一编码处理;s1.3:将编码后中文文本依据中文本文中的“。”、“?”、“!”符号进行切分,并保留切分后的标点符号在上一句的句尾,切分后的中文文本组成中文短句列表;s1.4:切分后的中文短句列表,依次循环处理每个中文短句,使用pycorrector的bert模型对可能多余的字进行预测,得到可能多余的字和和可能多余的字位置等信息,并对结果进行整理输出。3.根据权利要求1所述的中文文本多字自动检测识别的实现方法,其特征在于:所述对中文短句的具体处理流程具体包括:s2.1:取到一个中文短句;s2.2:对中文短句下标n的字和后面一个字,两个字一块添加[mask]遮罩;s2.3:使用bert模型对[mask]遮罩后的中文短句进行预测合适的字,预测结果取top5即可,预测的top5信息示例如下:
s2.4:提取出预测结果top5中的预测信息,并循环依次判断中文短句在当前[mask]位置多字的可能性,依据以下条件:(1)预测结果中'score'分值大于0.90('score'分值的取值在0-1之间,数值越大,代表中文短句[mask]位置加入预测的文字后更合适,判定'score'的阈值可以根据实际情况调
整);(2)预测结果中'token_str'预测的文字和中文短句当前[mask]位置的两个字中的第一个字相同;如果上面2点都满足,则认为当前[mask]位置可能多字[mask]两个字的第二个字,保留预测结果,并整理预测结果为:每个字段代表含义如下:'context':原中文短句,'correct_content':去掉预测多字后中文短句,'correct_word':预测多字位置替换文字,'score':多字去掉后的算分,'pos_start'多字的起始位置,'pos_end':多字的结束位置,'text_pos_start'多字在整个中文文本中的起始位置,text_pos_end':多字在整个中文文本中的结束位置;s2.5:中文短句下标n 1,然后重复2-4步骤,直到n的值为中文短句长度-2结束;s2.6:将所有保留的预测后整理的结果输出。

技术总结
本发明提供了一种中文文本多字自动检测识别的实现方法,其特征在于,包括对中文文本的整体处理流程和对中文短句的具体处理流程,具体包括运行开始,随机输入中文文本,对中文文本进行utf-8统一编码处理,然后根据标点符号切分中文文本,输出切分后的短句列表,循环处理中文短句列表中的每个中文短句,获取中文短句中可能的多字和多字位置信息等,然后判断中文短句列表是否全部处理,如否则继续循环处理中文短句列表中的每个中文短句,如是则将所有短句中可能存在的多字信息整理后输出,运行结束。本发明实现了提前查看中文文本是否错字、多字,解决了人工查看费事费力的问题,大大减少了人力成本;适用于各种中文文本中,具有广泛的应用前景。广泛的应用前景。广泛的应用前景。


技术研发人员:孟奥 王宁 张发雨 党章 吴兴龙 冯立二 杨正云
受保护的技术使用者:江苏省未来网络创新研究院
技术研发日:2021.10.15
技术公布日:2022/1/14
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献