一种中文文本多字自动检测识别的实现方法与流程

2022-02-20 13:52:31 来源：中国专利 TAG：

技术特征：
1.一种中文文本多字自动检测识别的实现方法，其特征在于，包括对中文文本的整体处理流程和对中文短句的具体处理流程，具体包括运行开始，随机输入中文文本，对中文文本进行utf-8统一编码处理，然后根据标点符号切分中文文本，输出切分后的短句列表，循环处理中文短句列表中的每个中文短句，获取中文短句中可能的多字和多字位置信息等，然后判断中文短句列表是否全部处理，如否则继续循环处理中文短句列表中的每个中文短句，如是则将所有短句中可能存在的多字信息整理后输出，运行结束。2.根据权利要求1所述的中文文本多字自动检测识别的实现方法，其特征在于：所述对中文文本的整体处理流程具体包括：s1.1：通过输入或者主动加载的方式获取到要检测的中文文本；s1.2：对中文文本做预处理，进行utf-8统一编码处理；s1.3：将编码后中文文本依据中文本文中的“。”、“？”、“！”符号进行切分，并保留切分后的标点符号在上一句的句尾，切分后的中文文本组成中文短句列表；s1.4：切分后的中文短句列表，依次循环处理每个中文短句，使用pycorrector的bert模型对可能多余的字进行预测，得到可能多余的字和和可能多余的字位置等信息，并对结果进行整理输出。3.根据权利要求1所述的中文文本多字自动检测识别的实现方法，其特征在于：所述对中文短句的具体处理流程具体包括：s2.1：取到一个中文短句；s2.2：对中文短句下标n的字和后面一个字，两个字一块添加[mask]遮罩；s2.3：使用bert模型对[mask]遮罩后的中文短句进行预测合适的字，预测结果取top5即可，预测的top5信息示例如下：
s2.4：提取出预测结果top5中的预测信息，并循环依次判断中文短句在当前[mask]位置多字的可能性，依据以下条件：(1)预测结果中'score'分值大于0.90('score'分值的取值在0-1之间，数值越大，代表中文短句[mask]位置加入预测的文字后更合适，判定'score'的阈值可以根据实际情况调
整)；(2)预测结果中'token_str'预测的文字和中文短句当前[mask]位置的两个字中的第一个字相同；如果上面2点都满足，则认为当前[mask]位置可能多字[mask]两个字的第二个字，保留预测结果，并整理预测结果为：每个字段代表含义如下：'context'：原中文短句，'correct_content'：去掉预测多字后中文短句，'correct_word'：预测多字位置替换文字，'score'：多字去掉后的算分，'pos_start'多字的起始位置，'pos_end'：多字的结束位置，'text_pos_start'多字在整个中文文本中的起始位置，text_pos_end'：多字在整个中文文本中的结束位置；s2.5：中文短句下标n 1，然后重复2-4步骤，直到n的值为中文短句长度-2结束；s2.6：将所有保留的预测后整理的结果输出。

技术总结
本发明提供了一种中文文本多字自动检测识别的实现方法，其特征在于，包括对中文文本的整体处理流程和对中文短句的具体处理流程，具体包括运行开始，随机输入中文文本，对中文文本进行utf-8统一编码处理，然后根据标点符号切分中文文本，输出切分后的短句列表，循环处理中文短句列表中的每个中文短句，获取中文短句中可能的多字和多字位置信息等，然后判断中文短句列表是否全部处理，如否则继续循环处理中文短句列表中的每个中文短句，如是则将所有短句中可能存在的多字信息整理后输出，运行结束。本发明实现了提前查看中文文本是否错字、多字，解决了人工查看费事费力的问题，大大减少了人力成本；适用于各种中文文本中，具有广泛的应用前景。广泛的应用前景。广泛的应用前景。

技术研发人员：孟奥王宁张发雨党章吴兴龙冯立二杨正云
受保护的技术使用者：江苏省未来网络创新研究院
技术研发日：2021.10.15
技术公布日：2022/1/14

再多了解一些

2/2 首页上一页 1 2

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：一种水厂用基于TPM全员设备管理系统的制作方法

一种中文文本多字自动检测识别的实现方法与流程

相关文献

最热文献