一种基于融合直线与深度学习的图像倾斜校正方法与流程

2022-03-22 20:03:22 来源：中国专利 TAG：

1.本发明属于图像识别、视频分析领域，尤其涉及一种基于融合直线与深度学习的图像倾斜校正方法。

背景技术：

2.在一个图像处理的系统中，获得图像后，一般要对其进行预处理。在银行、财税、证券等行业的金融票据电子影像系统、汽车牌照的抓拍识别系统，选票自动识别系统以及ocr识别等系统中，通过输入设备获得的图像不可避免地会发生倾斜，这会给后面的图像分割、字符识别等图像处理与分析带来很多困难。因此，在这些系统中，倾斜校正是图像预处理的重要部分。
3.现代社会，尽管电子支付、电子票据等发展日益增多，传统纸质票据仍然被广泛使用，如各类纸质发票、金融票据等。目前，财务部门平均每天有大量的票据影像，多岗位员工需要对同一张票据进行重复稽核，不仅耗费人力，而且降低了报账效率。通过图像ocr技术实现票面信息的提取，将提取的票面信息与报账信息进行对比，实现自动稽核；ocr提取的票据信息存入数据库中，相当于一个具有极强记忆力的大脑，可以很容易发现报账名称和纳税人识别号不一致，拆分报账等问题。同时，在互联网财务的发展趋势背景下，借助ocr技术，将非结构化扫描影像数据中的有用信息转换为结构化的字符串数据，为有效数据挖掘和财务大数据分析提供数据基础。然而，很多扫描件，票据影像以及文字图表等出现不同程度的倾斜，降低票据图像的文字识别准确率。
4.传统方法通过图像二值化，将二值化后的黑白间隙作为倾斜校正的依据。此方法对于边缘区域色差较大以及黑白线条明显的图像效果显著。但对于边缘区域区分度较少、黑白线条间断的图像会产生误判，导致角度倾斜偏差。

技术实现要素：

5.（一）解决的技术问题本发明的目的在于提供一种基于融合直线与深度学习的图像倾斜校正方法，以解决上述背景技术中提出的实际问题。
6.（二）技术方案为实现上述目的，本发明提供如下技术方案：一种基于融合直线与深度学习的图像倾斜校正方法，包括以下步骤：步骤1：图像二值化，突出图像中文字以及直线的特征；步骤2：通过霍夫直线进行直线检测，计算直线角度θ；步骤3：采用种子区域生长算法将满足生长准则的直线进行融合，选取融合后线段长度的top k；步骤4：滑动窗口进行top k直线归类，将角度相差小于β的直线归为一类，寻找直线密集区，根据密集区的密集度判断直线角度是否可信；
步骤5：若直线角度可信，则进行倾斜校正，若密集度不可信，则通过文字角度，进行倾斜校正；步骤6：截取影像上下左右各四分之一大小，设置文字抬头的长宽比阈值g，获取图像的抬头信息，通过大量样本作为训练数据进行深度学习；步骤7：将校正后的图像进行抬头轮廓获取，若在上部区域获得抬头轮廓，则保存倾斜后的图像。若在左部区域获得抬头轮廓，则进行90
°
顺时针旋转；若在右部区域获得抬头轮廓，则进行90
°
逆时针旋转；若在下部区域获得抬头轮廓，则进行180
°
旋转。至此，完成倾斜校正。
7.优选的，所述的步骤3包括以下步骤：（a）设置生长准则即角度差阈值α，距离差阈值d；（b）选取种子直线，若邻域直线满足生长准则，则合并到种子直线所在的区域中；（c）将种子区域的直线进行融合，选取融合后线段长度的top k；（d）从堆栈中取出一条直线，把它当做种子直线返回到所述步骤（b）。
8.优选的，所述的步骤4包括以下步骤：（a）采用角度为β的滑动窗口进行k条直线归类，若直线角度相差范围小于β，则归为一类密集区；（b）遍历直线密集区，若某密集区的直线数量最多，即密集度最大，判断直线角度可信；若密集度区分度不高，则判断直线角度不可信。
9.优选的，所述步骤5包括以下步骤：（a）若角度可信，则进行倾斜校正；（b）若角度不可信，则利用文字最小区域获取矩形计算角度，进行倾斜校正。
10.优选的，所述的步骤6包括以下步骤：（a）截取影像上下左右各四分之一大小，设置文字抬头的长宽比阈值g，获取图像的抬头信息；（b）通过大量样本作为训练数据进行机器学习。
11.（三）有益效果在票据影像以及文字图表的扫描过程中，输入的文档图像不可避免地会发生倾斜现象。ocr识别算法对页面倾斜都十分敏感，因此倾斜检测和校正是文档分析预处理的重要环节。对于材料包含表格的扫描图像，可以通过跟踪表格线，找出较长表格横线的方法来确定当前图像的旋转角度。然而，如果表格线由于噪声发生间断，或表格线本身是虚线时，这种方法就缺乏鲁棒性。虽然ocr识别的文字一般不存在真正直线，但文字行间有很强的方向性，也可通过识别文字的倾斜角度进行校正。
12.本发明的目的是提供一种基于融合直线与深度学习的图像倾斜校正方法。首先，分析图像二值化的直线特征：（一）直线连续，边缘明显；（二）直线间断，边缘特征不明显。其次，通过霍夫直线进行直线检测，采用种子区域生长算法将角度差小于α、距离差小于d的线段进行区域生长。融合区域内的直线，得到融合后的线段长度top k。然后，采用滑动窗口进行直线归类，将top k直线中角度差小于β的直线归为一类，寻找直线密集区。根据密集区的密集度判断直线角度是否可信：（一）可信；（二）不可信。若密集度可信，则通过密集度最高直线的角度进行校正。若密集度不可信，则通过文字倾斜角度计算，进行倾斜校正。最后，通
过大量样本进行深度学习，寻找发票文档影像等抬头轮廓。为防止影像翻转为垂直方向，将校正后的图像进行抬头轮廓的获取，根据抬头位置判断结果，进行对应旋转。至此，图像倾斜校正完成。
附图说明
13.为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。
14.图1为本发明具体步骤算法流程图。
具体实施方式
15.下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。
16.请参阅图1，本发明提供一种技术方案：一种基于融合直线与深度学习的图像倾斜校正方法，包括以下步骤：步骤1：图像二值化，突出图像中文字以及直线的特征；步骤2：通过霍夫直线进行直线检测，计算直线角度θ；步骤3：采用种子区域生长算法将满足生长准则的直线进行融合，选取融合后线段长度的top k；步骤4：滑动窗口进行top k直线归类，将角度相差小于β的直线归为一类，寻找直线密集区，根据密集区的密集度判断直线角度是否可信；步骤5：若直线角度可信，则进行倾斜校正，若密集度不可信，则通过文字角度，进行倾斜校正；步骤6：截取影像上下左右各四分之一大小，设置文字抬头的长宽比阈值g，获取图像的抬头信息，通过大量样本作为训练数据进行深度学习；步骤7：将校正后的图像进行抬头轮廓获取，若在上部区域获得抬头轮廓，则保存倾斜后的图像。若在左部区域获得抬头轮廓，则进行90
°
顺时针旋转；若在右部区域获得抬头轮廓，则进行90
°
逆时针旋转；若在下部区域获得抬头轮廓，则进行180
°
旋转。至此，完成倾斜校正。
17.步骤3包括以下步骤：（a）设置生长准则即角度差阈值α，距离差阈值d；（b）选取种子直线，若邻域直线满足生长准则，则合并到种子直线所在的区域中；（c）将种子区域的直线进行融合，选取融合后线段长度的top k；（d）从堆栈中取出一条直线，把它当做种子直线返回到所述步骤（b）。
18.步骤4包括以下步骤：（a）采用角度为β的滑动窗口进行k条直线归类，若直线角度相差范围小于β，则归为一
类密集区；（b）遍历直线密集区，若某密集区的直线数量最多，即密集度最大，判断直线角度可信；若密集度区分度不高，则判断直线角度不可信。
19.步骤5包括以下步骤：（a）若角度可信，则进行倾斜校正；（b）若角度不可信，则利用文字最小区域获取矩形计算角度，进行倾斜校正。
20.步骤6包括以下步骤：（a）截取影像上下左右各四分之一大小，设置文字抬头的长宽比阈值g，获取图像的抬头信息；（b）通过大量样本作为训练数据进行机器学习。
21.在票据影像以及文字图表的扫描过程中，输入的文档图像不可避免地会发生倾斜现象。ocr识别算法对页面倾斜都十分敏感，因此倾斜检测和校正是文档分析预处理的重要环节。对于材料包含表格的扫描图像，可以通过跟踪表格线，找出较长表格横线的方法来确定当前图像的旋转角度。然而，如果表格线由于噪声发生间断，或表格线本身是虚线时，这种方法就缺乏鲁棒性。虽然ocr识别的文字一般不存在真正直线，但文字行间有很强的方向性，也可通过识别文字的倾斜角度进行校正。
22.本发明的目的是提供一种基于融合直线与深度学习的图像倾斜校正方法。首先，分析图像二值化的直线特征：（一）直线连续，边缘明显；（二）直线间断，边缘特征不明显。其次，通过霍夫直线进行直线检测，采用种子区域生长算法将角度差小于α、距离差小于d的线段进行区域生长。融合区域内的直线，得到融合后的线段长度top k。然后，采用滑动窗口进行直线归类，将top k直线中角度差小于β的直线归为一类，寻找直线密集区。根据密集区的密集度判断直线角度是否可信：（一）可信；（二）不可信。若密集度可信，则通过密集度最高直线的角度进行校正。若密集度不可信，则通过文字倾斜角度计算，进行倾斜校正。最后，通过大量样本进行深度学习，寻找发票文档影像等抬头轮廓。为防止影像翻转为垂直方向，将校正后的图像进行抬头轮廓的获取，根据抬头位置判断结果，进行对应旋转。至此，图像倾斜校正完成。
23.在本说明书的描述中，参考术语“一个实施例”、“示例”、“具体示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
24.以上公开的本发明优选实施例只是用于帮助阐述本发明。优选实施例并没有详尽叙述所有的细节，也不限制该发明仅为所述的具体实施方式。显然，根据本说明书的内容，可作很多的修改和变化。本说明书选取并具体描述这些实施例，是为了更好地解释本发明的原理和实际应用，从而使所属技术领域技术人员能很好地理解和利用本发明。本发明仅受权利要求书及其全部范围和等效物的限制。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：一种用于自动驾驶车辆的多传感器标定方法及装置与流程

一种基于融合直线与深度学习的图像倾斜校正方法与流程

相关文献

最热文献