一种具有在线自动优化功能的OCR识别方法及系统与流程

2023-02-04 15:53:18 来源：中国专利 TAG：

一种具有在线自动优化功能的ocr识别方法及系统
技术领域
1.本发明涉及ocr识别技术领域，尤其是涉及一种具有在线自动优化功能的ocr识别方法及系统。

背景技术：

2.现代社会生活特别是金融行业中使用到了大量的纸质凭证、表单等，用于各类申请、管理等业务。随着社会信息化程度的进一步加深，有越来越多的场景需要将实际生活中的纸质材料信息录入到计算机中。传统的方式是人工进行录入，录入过程重复且繁琐。随着扫描技术和深度学习技术的发展，用于替代人工录入方式的ocr识别技术也得到了进一步发展。ocr文字识别，即光学字符识别，是指将纸面上的文字灰度变换成电信号，输入到计算机中去，文字识别技术大大降低了重复的工作量，可以为人们提供便利的将图片转为文字的方法。
3.现在的ocr识别技术基本多以深度学习技术为基础，基本流程为根据已有数据训练文字定位和识别模型，将训练好的模型部署到实际生产环境中。这里会出现的问题是训练使用的数据可能无法完全满足生产的实际需求，部分实际场景中的凭证不符合训练拟合的标准，或者由于实际情况的变化，例如凭证的版面、录入设别环境等因素发生了变化影响了模型的识别过程，造成识别错误。通常的解决方案是收集错误样本积累到一定规模之后优化训练模型，优化周期较长，人工干预较多，且可能出现生产数据泄露等风险。
4.针对上述缺陷，继续设计一种能够在线自动优化的ocr识别方法及系统。

技术实现要素：

5.本发明的目的就是为了克服上述现有技术存在的缺陷而提供了一种具有在线自动优化功能的ocr识别方法及系统。
6.本发明的目的可以通过以下技术方案来实现：
7.根据本发明的第一方面，提供了一种具有在线自动优化功能的ocr识别方法，该方法包括以下步骤：
8.步骤s1、获取待识别的ocr识别训练图像集并进行标注，得到初始训练数据集；
9.步骤s2、采用目标检测算法和文本识别算法，对初始训练数据集依次进行文本定位和文本识别，训练得到初始ocr识别模型；
10.步骤s3、将初始ocr识别模型部署到实际生产中，每隔设定时间进行识别结果和校对结果的比对，并收集识别错误的原始图像样本；当触发设定的优化信号阈值时，转步骤s4，启动模型优化进程；
11.步骤s4、进行异常要素统计，并按照设定的概率合成图像样本，与错误样本和异常时间段区间样本合并构成优化数据集；
12.步骤s5、基于优化数据集，对初始ocr识别模型进行优化训练，得到优化后的ocr识别模型，并将其作为步骤s3中的初始ocr模型部署至实际生产中，进行ocr识别。
13.优选地，所述步骤s1中的标注包括对识别要素的文本区域和每个文本区域对应的文本内容信息进行标注。
14.优选地，所述文本区域为完整覆盖文本在图像中位置的矩形区域；所述文本区域的标注结果为四个坐标的形式，分别对应矩形区域四个边角的坐标。
15.优选地，所述步骤s2中的目标检测算法包括yolo v3、yolo v4和mask rcnn算法。
16.优选地，所述步骤s2中的文本识别算法包括crnn、srn和rare算法。
17.优选地，所述步骤s3中的优化信号为识别准确率。
18.优选地，所述步骤s4中的异常要素统计包括异常字统计、错误语料统计、相似语料搜索、文本位置区间统计、字体背景分离、相似字体收集以及相似背景收集，分别为：
19.1)异常字统计：对出现识别错误图片对应的校验结果逐个统计，筛选出训练样本中未出现或出现频次低于设定值的字符，进行重点标记，在后续的合成过程中提高该部分异常字出现在优化数据集中的频率；
20.2)错误语料统计：逐个记录出现识别错误图片对应的校验结果语料，生成错误语料库，并统计语料字数范围；
21.3)相似语料搜索：根据统计出的错误语料在构建的语料数据库中通过相似度检索算法进行检索；
22.4)文本位置区间统计：统计文本识别错误位于图像中的位置；
23.5)字体背景分离：从识别错误的图像分离出识别背景和识别字体；
24.6)相似字体收集：采用生成对抗神经网络将分离得到的字体图像在预先设置的字体图像数据库通过相似字体图像检索网络进行检索，得到最相似的字体；
25.7)相似背景收集：将分离得到的背景图像在预先设置的背景图像数据库通过相似背景图像检索网络进行检索，得到最相似的背景图像。
26.优选地，所述文本位置区间统计具体包括以下子步骤：
27.41)使用基于卷积神经网络的图像校正方法将原图像校正到正常的水平区域；
28.42)计算识别结果与校验结果的文本编辑距离；当编辑距离小于设定阈值时，转43)，否则转44)；
29.43)当编辑距离小于设定阈值时，视为文本内容识别错误，直接将文本的定位信息记录到文本位置区域集中，同时记录对应的错误文本所属的原始图像；
30.44)当编辑距离大于等于设定阈值时，视为文本定位错误造成的文本识别错误，采用训练后的通用定位模型在相对位置附近寻找指定的文本目标区域，根据文本长度因素综合判断文本位置区间的准确性，当符合一般的规则时，则将该目标区域记录到文本位置区域集合中，同时记录对应的错误文本所属的原图像；
31.45)根据目标识别区域对每一张包含识别错误文本的图像进行裁剪，得到错误文本识别子图。
32.优选地，所述字体背景分离具体为：使用生成对抗神经网络从识别错误的图像分离出识别背景和识别字体。
33.根据本发明的第二方面，提供了一种具有在线自动优化功能的ocr识别系统，采用任一项所述的方法，所述系统包括：
34.ocr识别训练集采集及标注模块，用于获取待识别的ocr识别训练图像集并进行标
注，得到初始训练数据集；
35.初始ocr识别模型部署模块，用于构建基于深度学习的初始ocr识别模型，并训练后部署至实际生产环境中；
36.识别率监测和错误样本收集模块，用于每隔一定时间进行识别结果和正确结果的比对，计算出识别率并进行基于阈值的监测，并同时收集识别错误的原始图像样本；
37.异常要素统计收集模块，用于收集异常要素统计信息；
38.优化数据集合成模块，用于将提取到异常要素按照设定概率合成图像样本，与错误样本和异常时间段区间样本合并组成优化数据集；
39.优化模型训练部署模块，用于使用优化数据集对初始ocr识别模型进行优化训练，得到优化后的ocr识别模型并替换部署到实际生产环境中。
40.与现有技术相比，本发明具有以下优点：
41.1)本发明通过每隔一定的识别统计该时间段内的识别率，当识别率低于设定阈值时在线自动进行样本分析、语料检索、样本合成、模型优化训练、自动部署上线，整个流程人工干预较少，优化周期短，能够最大限度地满足实际生产的需要；
42.2)本发明采用基于深度学习的ocr识别技术，使用yolo v4目标检测算法和crnn文本识别算法训练得到初始的识别模型，能够保证基础的识别准确率，而且增加了在线优化功能，跟以往的ocr识别模型相比具有更加优越的性能；
43.3)本发明使用生成对抗神经网络来进行背景图和字体图的分离，能够根据背景和字体的特征进行分别检索，得到的合成样本更符合实际情况；
44.4)本发明使用多种图像和语料数据库进行图像合成，无需积累足量的错误样本即可进行优化训练，且能够覆盖影响识别准确率全方位的因素，优化性能提升效果更为明显。
附图说明
45.图1为本发明的方法流程图。
具体实施方式
46.下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明的一部分实施例，而不是全部实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都应属于本发明保护的范围。
47.实施例
48.本实施例以实际生产中的支票凭证ocr识别为例，系统分为初始训练集收集和标注、初始ocr识别模型训练和部署、识别率监测和错误样本收集、异常要素统计收集、优化数据集合成、优化模型训练部署模块。
49.1)对支票样本数据集进行标注，得到每张图对应要素的正确结果，使用yolo v4和crnn技术训练得到初始ocr识别模型，并部署到生产环境中。
50.2)每隔一定时间对支票识别准确率进行监测，并实时收集错误样本，当发现识别率异常或错误样本累计到一定数量后启动优化程序。
51.3)在线自动进行错误样本分析、语料检索，并根据对应算法获取文本区域区间、相
似的背景图像和字体图像样本，随机抽取相似语料、背景图像、字体图像，进行样本合成生成支票优化训练数据集。
52.4)使用支票优化训练数据集在初始ocr识别模型的基础上进行模型优化训练，得到优化后的识别模型，将该模型重新部署到生产环境中。重复识别率监控、模型优化流程。
53.接下来，如图1所示，对方法进行详细介绍。
54.s1：收集待识别的图像样本，对图像样本进行人工标注，得到初始训练数据集。
55.s11：待识别的图像样本主要来源于该类图像的历史记录，用于训练的图像样本需要满足一定的数量要求，如果数量未达到要求，可以收集相关的空白样本或者相似背景图，以及相关的语料信息。预料信息可用过搜索引擎搜索，也可提取历史数据库的信息，利用上述素材使用指定字体文件合成部分样本图像，归入到待识别样本中。
56.s12：对待识别的样本进行人工标注，人工标注分为两部分，一部分是待识别要素的文本区域，一般为矩形区域，能够完整覆盖文本在图像中的位置，标注结果为四个坐标的形式，分别对应矩形区域四个边角的坐标。另一部分标注的是每个文本区域对应的文本内容信息。标注后得到初始训练数据集。
57.s2：使用s1得到的初始训练数据集进行深度学习训练，使用yolo v4算法进行文本定位，使用crnn算法进行文本识别，得到初始ocr识别模型。将初始ocr识别模型部署到实际生产中。
58.s21：使用yolo v4算法进行文本定位，输入为初始训练数据集中的图像和标注的文本区域信息，使用resnet50作为backbone部分，训练时使用在yolo v4网络下的coco数据集预训练权重文件作为预训练模型,然后使用输入的图像和标注区域信息进行微调训练，损失函数包括类别损失、置信度损失、位置损失。训练得到的文本定位模型能够定位出待识别图像中的文本区域。
59.s22：根据标注的文本区域坐标对原始图像进行裁剪，得到文本识别子图，用作文本内容识别训练数据集。
60.s23：使用的crnn方法进行文本内容识别，包括图像特征提取、循环网络和转换层，输入为s22得到的文本内容识别训练数据集。图像特征提取使用的是调整之后的vgg网络，循环网络使用的是深层双向lstm网络，转换层是将循环网络得到的特征向量进行ctc翻译，作为字符输出，损失函数使用最小化负对数似然函数。训练得到的文本内容识别模型能够根据文本区域推理出文本内容。
61.s24：将训练获得的文本定位模型和文本内容识别模型部署到实际生产环境中，识别服务请求方通过http请求发送图像二级制信息到模型所用服务的url调用识别模型，模型返回文本识别结果到请求方完成文本识别流程。
62.s3：在模型使用过程中每隔一定时间进行识别结果和校对结果的比对，计算出识别率，同时收集识别错误的原始图像样本，设置识别率阈值或其他优化条件作为优化信号，启动模型优化流程。
63.s31：模型使用过程中将模型识别结果和识别校对结果存储到数据库中，每隔一定的时间将识别结果和校对结果进行比对，得到该时间段内的模型识别准确率，将识别错误的样本和对应正确的校对结果进行存储。
64.s32：设置模型优化信号，当一段时间内的识别准确率低于某提前设定的阈值时，
启动模型优化流程，保存该时间段内的样本图像归入到优化训练数据集。也可设置其他的模型优化信号，例如当错误样本积累到一定数量或者设置固定的时间间隔进行强制优化等。
65.s4：当s3启动模型优化流程后，进行异常要素统计收集，包括异常字的统计、错误语料统计、相似语料的搜索、文本位置区间统计、字体背景分离、相似字体收集、相似背景收集等。
66.s41：异常字统计主要是对出现识别错误图片对应的校验结果逐个统计，筛选出训练样本中未出现或极少出现的字、符号等，进行重点标记，在后续的合成过程中提高该部分异常字出现在优化训练数据集中的频率。
67.s42：错误语料统计主要是对出现识别错误图片对应的校验结果语料逐个记录，生成错误语料库，并统计语料字数范围等基本信息。
68.s43：相似语料搜索是根据统计出的错误语料在构建的语料数据库中通过相似度检索算法进行检索。根据s42统计获得的语料字数范围等基本信息初步筛选语料数据库中的语料，使用word2vec算法同时对语料数据库中的语料和识别错误的语料信息生成对应的文本向量，应用大规模向量检索算法hnswlib检索每一条识别错误的语料前n个最相似的语料文本(n根据实际的训练需求灵活设置)，收集到相似语料集合中。如果需要更新语料数据库，可以连接搜索引擎，通过爬虫技术和nlp中的命名实体识别技术获取相似的文本信息更新到语料数据库中。
69.s44：文本位置区间统计是统计文本识别错误位于图像中的位置，首先使用卷积神经网络图像校正方法原图像校正到正常的水平区域。由于实际生产中大部分的校验结果不包含文本区域信息，只包含文本内容信息，所以这里分为两种情况处理，一种是由于文本内容识别错误造成的，计算识别结果与校验结果的文本编辑距离，当编辑距离小于一定的阈值时，认为是文本内容识别错误，直接将文本的定位信息记录到文本位置区域集合中，同时记录对应的错误文本所属的原图。另一种是由于文本定位错误造成的文本识别错误，即当编辑距离大于设定的阈值时，运行在大规模通用定位文本上训练获得的mask rcnn通用定位模型在相对位置附近寻找指定的文本目标区域，根据文本长度等因素综合判断文本位置区间的准确性，当符合一般的规则时，则将该目标区域记录到文本位置区域集合中，同时记录对应的错误文本所属的原图。根据目标识别区域对每一张包含识别错误文本的图像进行裁剪，得到错误文本识别子图。
70.s45：字体背景分离是将识别错误的图像分离出识别背景和识别字体，使用的方法为生成对抗神经网络，输入为s44获得的错误文本识别子图，生成器使用u-net编码解码结构，判别器使用卷积神经网络进行判断生成图像的真伪，网络生成不包含文字的背景图像和不包含背景的文字图像，使用的损失函数为l1范数损失、生成对抗损失和vgg风格损失的，对生成的两部分图像分别应用这三部分损失函数，最后求和得到最终的损失函数。训练集使用人工合成的包含背景的文本图像，通过训练可以分离文本图像和背景图像。
71.s46：相似字体收集是将s45分离得到的字体图像在预先设置的字体图像数据库通过相似字体图像检索网络进行检索，得到最相似的字体。相似字体图像数据库是收集常用的字体文件，使用opencv等图像处理库生成识别失败的文本对应该字体的文本图像，这些图像组合形成了相似字体图像数据库。相似字体图像检索网络包括resnet50网络特征提
取、softmax分类器，损失函数使用交叉熵损失。记录的相似字体图像对应的字体名称得到相似字体集合。
72.s47：相似背景收集是将s45分离得到的背景图像在预先设置的背景图像数据库通过相似背景图像检索网络进行检索，得到最相似的背景图像。相似背景图像数据库是使用爬虫技术获取常用的各种背景图像。相似背景图像检索网络结构同s46中的相似字体图像检索网络。记录到的相似背景图像即为相似背景集合。
73.s5：将s4中提取到的相似语料、相似字体、相似背景、文本区间按照一定的概率合成图像样本，与错误样本和异常时间段区间样本合并组成优化数据集。
74.s51：随机抽取s4中的相似语料、相似字体，使用opencv等图像处理库生成对应抽取的相似语料和相似字体的合成字体图像，其中字体的字号、倾斜度、颜色、粗细等字体属性根据在实际需求的范围内随机设定。
75.s52：随机抽取s4中的相似背景，使用opencv等图像处理库将s51中的合成字体图像和抽取到的背景图像生成合成文本子图，背景图像要根据字体图像的尺寸使用双线性插值算法进行缩放，与字体图像尺寸保持一致。合成的子图可以根据实际需要使用旋转、透视等数据增广技术进行扩展。
76.s53：随机抽取s4中的文本区间，抽取的文本区间尺寸要与s51生成的合成字体图像尺寸相匹配。使用erasenet算法对文本区间对应的文本原图进行文本擦除，具体操作是根据文本区间裁剪掉文本原图的对应区域，使用opencv等图像处理库将对应区域输入到erasenet网络中擦除文本保留背景图像，将生成的背景图像粘贴到原图的对应位置。使用opencv等图像处理库将合成字体图像粘贴到文本区间对应的位置，得到合成定位图像。
77.s6：使用s5得到的合成文本子图和合成定位图像使用yolo v4和crnn算法在s2的初始ocr识别模型的基础上优化训练得到优化识别模型。预训练模型改为s2的初始ocr识别模型，其他模型训练和部署配置同s2。
78.s7：将s6得到的优化识别模型部署到实际生产环境中后，重复s3-s6的过程进行持续优化，其中s6中用到的初始ocr识别模型改为上一轮获得的优化识别模型。
79.以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。

再多了解一些

1/2 1 2 下一页尾页

本文用于创业者技术爱好者查询，仅供学习研究，如用于商业用途，请联系技术所有人。

一种具有在线自动优化功能的OCR识别方法及系统与流程

相关文献

最热文献