一种具有在线自动优化功能的OCR识别方法及系统与流程

2023-02-04 15:53:18 来源：中国专利 TAG：

技术特征：
1.一种具有在线自动优化功能的ocr识别方法，其特征在于，该方法包括以下步骤：步骤s1、获取待识别的ocr识别训练图像集并进行标注，得到初始训练数据集；步骤s2、采用目标检测算法和文本识别算法，对初始训练数据集依次进行文本定位和文本识别，训练得到初始ocr识别模型；步骤s3、将初始ocr识别模型部署到实际生产中，每隔设定时间进行识别结果和校对结果的比对，并收集识别错误的原始图像样本；当触发设定的优化信号阈值时，转步骤s4，启动模型优化进程；步骤s4、进行异常要素统计，并按照设定的概率合成图像样本，与错误样本和异常时间段区间样本合并构成优化数据集；步骤s5、基于优化数据集，对初始ocr识别模型进行优化训练，得到优化后的ocr识别模型，并将其作为步骤s3中的初始ocr模型部署至实际生产中，进行ocr识别。2.根据权利要求1所述的一种具有在线自动优化功能的ocr识别方法，其特征在于，所述步骤s1中的标注包括对识别要素的文本区域和每个文本区域对应的文本内容信息进行标注。3.根据权利要求2所述的一种具有在线自动优化功能的ocr识别方法，其特征在于，所述文本区域为完整覆盖文本在图像中位置的矩形区域；所述文本区域的标注结果为四个坐标的形式，分别对应矩形区域四个边角的坐标。4.根据权利要求1所述的一种具有在线自动优化功能的ocr识别方法，其特征在于，所述步骤s2中的目标检测算法包括yolo v3、yolo v4和mask rcnn算法。5.根据权利要求1所述的一种具有在线自动优化功能的ocr识别方法，其特征在于，所述步骤s2中的文本识别算法包括crnn、srn和rare算法。6.根据权利要求1所述的一种具有在线自动优化功能的ocr识别方法，其特征在于，所述步骤s3中的优化信号为识别准确率。7.根据权利要求1所述的一种具有在线自动优化功能的ocr识别方法，其特征在于，所述步骤s4中的异常要素统计包括异常字统计、错误语料统计、相似语料搜索、文本位置区间统计、字体背景分离、相似字体收集以及相似背景收集，分别为：1)异常字统计：对出现识别错误图片对应的校验结果逐个统计，筛选出训练样本中未出现或出现频次低于设定值的字符，进行重点标记，在后续的合成过程中提高异常字出现在优化数据集中的频率；2)错误语料统计：逐个记录出现识别错误图片对应的校验结果语料，生成错误语料库，并统计语料字数范围；3)相似语料搜索：根据统计出的错误语料在构建的语料数据库中通过相似度检索算法进行检索；4)文本位置区间统计：统计文本识别错误位于图像中的位置；5)字体背景分离：从识别错误的图像分离出识别背景和识别字体；6)相似字体收集：采用生成对抗神经网络将分离得到的字体图像在预先设置的字体图像数据库通过相似字体图像检索网络进行检索，得到最相似的字体；7)相似背景收集：将分离得到的背景图像在预先设置的背景图像数据库通过相似背景图像检索网络进行检索，得到最相似的背景图像。
8.根据权利要求7所述的一种具有在线自动优化功能的ocr识别方法，其特征在于，所述文本位置区间统计具体包括以下子步骤：41)使用基于卷积神经网络的图像校正方法将原图像校正到正常的水平区域；42)计算识别结果与校验结果的文本编辑距离；当编辑距离小于设定阈值时，转43)，否则转44)；43)当编辑距离小于设定阈值时，视为文本内容识别错误，直接将文本的定位信息记录到文本位置区域集中，同时记录对应的错误文本所属的原始图像；44)当编辑距离大于等于设定阈值时，视为文本定位错误造成的文本识别错误，采用训练后的通用定位模型在相对位置附近寻找指定的文本目标区域，根据文本长度因素综合判断文本位置区间的准确性，当符合一般的规则时，则将该目标区域记录到文本位置区域集合中，同时记录对应的错误文本所属的原图像；45)根据目标识别区域对每一张包含识别错误文本的图像进行裁剪，得到错误文本识别子图。9.根据权利要求8所述的一种具有在线自动优化功能的ocr识别方法，其特征在于，所述字体背景分离具体为：使用生成对抗神经网络从识别错误的图像分离出识别背景和识别字体。10.一种具有在线自动优化功能的ocr识别系统，其特征在于，权利要求1～9任一项所述的方法，所述系统包括：ocr识别训练集采集及标注模块，用于获取待识别的ocr识别训练图像集并进行标注，得到初始训练数据集；初始ocr识别模型部署模块，用于构建基于深度学习的初始ocr识别模型，并训练后部署至实际生产环境中；识别率监测和错误样本收集模块，用于每隔一定时间进行识别结果和正确结果的比对，计算出识别率并进行基于阈值的监测，并同时收集识别错误的原始图像样本；异常要素统计收集模块，用于收集异常要素统计信息；优化数据集合成模块，用于将提取到异常要素按照设定概率合成图像样本，与错误样本和异常时间段区间样本合并组成优化数据集；优化模型训练部署模块，用于使用优化数据集对初始ocr识别模型进行优化训练，得到优化后的ocr识别模型并替换部署到实际生产环境中。

技术总结
本发明涉及一种具有在线自动优化功能的OCR识别方法及系统，该方法包括：S1、获取待识别OCR识别训练图像集，预处理得到初始训练数据集；S2、采用目标检测算法和文本识别算法，对初始训练数据集依次进行文本定位和文本识别，训练得到初始OCR识别模型；S3、将初始OCR识别模型部署到实际生产中，每隔设定时间进行识别结果和校对结果的比对，并收集识别错误的原始图像样本；触发优化信号阈值时，转S4；S4、进行异常要素统计，构建优化数据集；S5、基于优化数据集，对初始OCR识别模型进行优化训练，得到优化后的OCR识别模型，并将其作为S3中的初始OCR模型部署至实际生产中，进行OCR识别。与现有技术相比，本发明可实现对图像的在线自动优化OCR识别。OCR识别。OCR识别。

技术研发人员：郭宇轩
受保护的技术使用者：交通银行股份有限公司
技术研发日：2022.10.30
技术公布日：2023/2/3

再多了解一些

2/2 首页上一页 1 2

本文用于创业者技术爱好者查询，仅供学习研究，如用于商业用途，请联系技术所有人。

一种具有在线自动优化功能的OCR识别方法及系统与流程

相关文献

最热文献