一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种基于深度学习的档案扫描件图像自动纠偏方法与流程

2022-04-16 12:52:06 来源:中国专利 TAG:


1.本发明属于计算机视觉与模式识别、图像处理和图像自动纠偏系统领域,尤其涉及一种基于深度学习的档案扫描件图像自动纠偏方法。


背景技术:

2.银行平时运营的过程中,会产生大量的纸质档案。纸质档案不便于存储和查阅,故需要将纸质档案进行数字化。对纸质材料进行扫描是纸质档案进行数据化的常用手段。然而,扫描后得到的档案电子版图片,难免会发生倾斜,影响图片的美观、可读性、甚至影响后续的ocr识别等操作。目前现有的纠偏软件,通常只能进行小范围(90度范围内)的较有效纠偏,当扫描件图片的角度大于90度(现实中的扫描件的偏斜角度范围为全角度,即0~360度),效果不理想,无法实用。
3.目前,图片纠偏类型的算法研究比较多,但极大部分都只能对0~90度的特定图片进行纠偏、而且只采用传统的图像处理方法实现。然而可以对0~360图片进行纠偏并且能较好地适应文字类型图片、内嵌图文的图片、内嵌表格类型的图片进行纠偏的算法,还比较少或研究不充分。原因可能是纠偏范围大、图片类型多样(尤其是现实场景中的扫描件图片),导致相关算法设计具有较大的挑战性。
4.项璟等(项璟,张汝峰,褚俊英,等.结合横向投影和仿射变换的文本图像倾斜矫正[j].造纸装备及材料,2020,v.49;no.185(02):257-257.)研究了文本图像的纠偏方法,主要思想为像素投影方式,具体地,首先对获取的扫描文本图像进行灰度化,利用最大类间方差法实现二值化,并采用形态学滤波去除噪点,然后根据文本图像的特点,利用仿射变换在-90~90度范围内旋转图像,每旋转1度计算一次横向投影直方图,并计算投影直方图小于一定阈值的个数即零值个数,最后求出零值个数最大时该角度为需旋转角度,从而实现文本图像矫正。该方法在图像分割阶段使用的是最大类间方法,当图像不符合双峰分布时,分割效果较差。该方法还存在一个明显的缺陷,当图像的偏斜角度较大时,对于某些竖排分布的扫描件、内嵌有突破图片的扫描件,单纯基于像素投影的方式(未利用深度学习技术),精度较差。
[0005]
明德烈等(明德烈,柳健,胡家忠,等.小角度倾斜图像的快速检测和校正方法[j].华中科技大学学报(自然科学版),2000,28(5):66-68.)基于文字识别系统中图像的自身特点,提出一种对于小角度倾斜(
±
5度以内)文本图像的倾斜角度快速计算及校正算法,有效克服了几何失真对文字识别系统的影响,通过采用逐段整块搬移的线性校正方法,成倍提高了校正算法的执行速度。虽然该算法速度快,然而只能对(
±
5度以内)的倾斜进行校正适用范围较小。
[0006]
王恒友等(王恒友,余沾,张长伦,等.基于低秩矩阵分解的批量扫描文档图像纠偏.2017年11月22日[j].计算机工程与应用,2017.)传统的基于图片自身纹理结构的算法,如hough变换、radon变换,不仅易受文档自身特殊结构或噪声影响,而且单幅图像纠偏的平均耗时较长。提出了一种基于低秩矩阵分解理论扫描文档图像的批量纠偏方法,该方法将
批量图像构造成一个较大的矩阵,通过迭代对每一列进行适当地旋转,达到矩阵具有较低秩的目的,进而实现对每副图像偏转角度的恰当估计及纠偏。该方法运行速度较快,然而对于内嵌有图片加文字的扫描件图片,纠偏效果不佳。
[0007]
综上所述,虽然图像的自动纠偏方法已经取得了一定的成果,但是,由于扫描件图片类型(单纯文字类型的扫描件、内嵌图片的扫描件、内嵌表格的扫描件、内嵌印章的扫描件、扫描件图片底色不一定是白色等等)多样,目前的算法均难以比较好地适用各种图片类型。目前的方法基本都是基于传统方法进行图片纠偏,纠偏的效果不理想,据我们调研,目前还未见能利用深度学习的高精度特征提取技术、同时有机结合将传统方法进行有机结合的扫描件图片纠偏方法。为了满足实际应用的要求,迫切需要在图片纠偏的准确率、实时性方面做出进一步的改进。本发明创造性地提出利用深度学习目标识别技术,检测出图像的主要成分,从而避免了扫描件四周的黑白、白边对后续图片纠偏的影响;进一步,创造性地提出两阶段的纠偏方式,第一阶段,通过改进目前的vgg16网络,通过深度学习图片分类技术对图片进行4方向的初步纠偏(第一阶段),第二阶段,则通过结合91个方向的深度学习图片分类和改进的投影纠偏实现精细纠偏(第二阶段)。此外,在图像预处理阶段,利用深度学习图片分类技术,通过智能预判图片亮度的方式,决定gamma矫正的关键参数,改进了传统的gamma矫正图像亮度修正方法,从而进一步确保了后续纠偏识别的准确性,并通过深度学习目标检测技术,识别出扫描件图片的主要成分,缩减了纠偏需要处理的图像区域,完成候选区域的提取,提升了相对于整张原始图片进行纠偏的精度。


技术实现要素:

[0008]
本发明实施例的目的在于提供一种基于深度学习的档案扫描件图像自动纠偏方法,旨在解决现有的纠偏算法对于全角度(0~360度)纠偏、适应多种类型扫描件图片时的准确率不达标和/或不尽如人意、鲁棒性不强的问题。
[0009]
其特征在于针对档案扫描件图像的成像的特点,提出通过将深度学习亮度分类结果去自适应调整图片的亮度,改善扫描件的亮度,并通过深度学习目标检测技术,检测扫描件全图的主成分,避免图片四周黑边或白边对后续图片纠偏角度估计的影响。设计两阶段的纠偏策略(大方向纠偏和小方向纠偏),完成对扫描件图片的纠偏,具体包括:
[0010]
步骤一,将深度学习亮度分类结果去调整图片亮度,改善扫描件的亮度;
[0011]
步骤二,标注扫描件的主要成分,进行深度学习训练得到模型后,检测得到扫描件的主要成分;
[0012]
步骤三,深度学习模型进行第一阶段4个方向纠偏(大方向纠偏);
[0013]
步骤四,深度学习联合像素投影纠偏(小方向纠偏)完成第二阶段的纠偏。
[0014]
进一步,权利要求1所述一种基于深度学习的档案扫描件图像自动纠偏方法,其特征在于,步骤一所述的深度学习亮度分类指,收集真实场景中的档案扫描件图像8000张,然后分5个亮度等级,人工将图片分为5个对亮度类别,利用自行加深的vgg16深度网络进行训练,获得图片亮度分类网络模型(传统的vgg16包含了16个隐藏层(13个卷积层和3个全连接层),本专利自行加深的vgg网络有15个卷积层和5个全连接层。实验表明,如此加深后的分类网络,检测准确率提升了5%),然后利用该模型,对原始输入的图片进行深度学习模型推理,获得测试图片的深度学习亮度分类结果,设为lever(简称l),lever的范围为1~5。
[0015]
进一步,权利要求1所述一种基于深度学习的档案扫描件图像自动纠偏方法,其特征在于,步骤一所述的将深度学习亮度分类结果去调整图片亮度指,利用自行加深的vgg深度学习分类网络所得的分类标签lever值,去调整原始扫描件图片的亮度,调整的规则为,将gamma矫正的指数值设置为基于深度学习所得结果l的式子:1/(5-l 1)。
[0016]
进一步,权利要求1所述一种基于深度学习的档案扫描件图像自动纠偏方法,其特征在于,步骤二所述的标注扫描件的主要成分,进行深度学习训练得到模型后,检测得到扫描件的主要成分,指人工标注8000张原始扫描件中只需要保留的图像区域(主要成分),以用于后续深度学习的主成分检测训练数据。所述的检测得到扫描件的主要成分,指利用yolov2深度学习目标检测网络训练所标注的主成分,得到主成分检测模型,执行深度网络前向推理,以获得原始扫描图像的主要成分图像区域。
[0017]
进一步,权利要求1所述一种基于深度学习的档案扫描件图像自动纠偏方法,其特征在于,步骤三所述的深度学习模型进行第一阶段4个方向纠偏(大方向纠偏)指,收集8000张0度偏斜的原始图片(若原始图片不为0度,则手工纠偏为0度),然后通过将图片顺时针旋转,得到另外90度、180度和270度偏斜的图片集合,结合原始图片集合,得到4类用于大方向纠偏的图片训练集合。从而用自行加深的vgg,训练对原始扫描件图片进行4方向分类的深度学习网络模型。进而,对每一张原始扫描件图片,利用该4方向分类深度学习网络对其进行4方向的分类,得到类标c(取值范围为0、1、2、3),从而根然后通过将图片逆时针旋转,即逆时针旋转c
×
90度,从而完成第一阶段4个方向的纠偏(大方向纠偏)。
[0018]
进一步,权利要求1所述一种基于深度学习的档案扫描件图像自动纠偏方法,其特征在于,步骤四所述的深度学习联合像素投影纠偏(小方向纠偏)完成第二阶段的纠偏指,第二阶段的纠偏,在第一阶段纠偏得到的图像的基础上,分两个分支进行,第一分支,是使用自行加深的vgg深度学习网络实施91类小方向估计、第二分支是基于sobel边缘投影法的小方向估计。当第一分支的结果与第二分支的结果相差小于5度时,采用第一分支的结果作为最终小纠偏角度估计,否则采用第二分支的结果作为最终的小纠偏角度估计,最终完成对小纠偏结果的选择。所述的自行加深的vgg深度学习网络实施91类小方向估计指收集16000张0度偏斜的原始图片(若原始图片不为0度,则手工纠偏为0度),然后通过将图片旋转,得到另外0~90度偏斜的图片集合,结合原始图片集合,得到91类用于大方向纠偏的图片训练集合。从而用自行加深的vgg,训练对原始扫描件图片进行91方向分类的深度学习网络模型。进而,对每一张原始扫描件图片,利用该4方向分类深度学习网络对其进行91方向的分类,得到类标c1(范围为整数的0~90),即对应得到使用自行加深的vgg深度学习网络实施91类小方向估计的结果。所述的基于sobel边缘投影法的小方向估计指利用自行设计的sobel加权分割算法对原始图像进行分割,然后对分割图像进行角度旋转遍历,进一步,对分割图的像素进行水平方向的像素值投影,并找到投影值为0值最多的纠偏方向,即为基于sobel边缘投影法的小方向估计所得的纠偏角度。
[0019]
本发明提供的一种基于深度学习的档案扫描件图像自动纠偏方法,关注于提出一种能同时兼容多种类型的扫描件图片进行纠偏的方法,与现有的图片污迹检测及去除技术相比,本发明具有如下优点和效果:为了矫正扫描件的亮度,提升后续矫正的精度,提出将扫描件进行深度学习图片分类,从而得到后续调整gamma亮度矫正的关键参数,提出将深度学习亮度分类结果去改进的传统gamma亮度矫正,改善扫描件的亮度矫正效果;在对图片进
行纠偏之前,提出标注扫描件的主要成分,进行深度学习训练得到模型后,检测得到扫描件的主要成分,克服了图片四周轮廓、阴影等对后续图片纠偏的影响,从而完成纠偏候选区域的选取;对图片进行纠偏时,设计了一种两阶段的渐进式纠偏方式,第一阶段基于改进的vgg16网络实施4分类进行初步纠偏,第二阶段基于改进的vgg16网络实施91类分类并同时与传统的投影纠偏综合判决,完成精细纠偏。本发明方法能有效应对扫描件图片亮度差异、银行扫描件类型(文字类型、图文类型、表格类型等)多样性对扫描件污迹的影响、通过设计主成分识别避免四周轮廓、阴影等对后续图片纠偏的影响、通过两阶段由粗到细的方式纠偏方式有效实现了扫描件的全角度的纠偏、改进了传统的sobel分割算法使得像素投影分割精度更高。
附图说明
[0020]
图1是本发明实施例提供的一种基于深度学习的档案扫描件图像自动纠偏系统结构示意图;
[0021]
图1中:a为候选区域选取模块、b为亮度分类离线训练模块、c为主成分检测离线训练模块、d为深度学习纠偏离线训练模块、e为两阶段图像纠偏模块
[0022]
图2是本发明实施例提供的一种基于深度学习的档案扫描件图像自动纠偏方法的包括的主要步骤
具体实施方式
[0023]
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
[0024]
下面结合附图及具体实施例对本发明的应用原理作进一步描述。
[0025]
如图2所示,本发明实施例的一种基于深度学习的档案扫描件图像自动纠偏方法包括以下步骤:
[0026]
s101,将深度学习亮度分类结果去调整图片亮度,改善扫描件的亮度;
[0027]
s102,标注扫描件的主要成分,进行深度学习训练得到模型后,检测得到扫描件的主要成分;
[0028]
s103,深度学习模型进行第一阶段4个方向纠偏(大方向纠偏);
[0029]
s104,深度学习联合像素投影纠偏(小方向纠偏)完成第二阶段的纠偏。
[0030]
步骤s101所述的深度学习亮度分类指,收集真实场景中的档案扫描件图像8000张,然后分5个亮度等级,人工将图片分为5个对亮度类别,利用自行加深的vgg16深度网络进行训练,获得图片亮度分类网络模型(传统的vgg16包含了16个隐藏层(13个卷积层和3个全连接层),本专利自行加深的vgg网络有15个卷积层和5个全连接层。实验表明,如此加深后的分类网络,检测准确率提升了5%),然后利用该模型,对原始输入的图片进行深度学习模型推理,获得测试图片的深度学习亮度分类结果,设为lever(简称l),lever的范围为1~5。
[0031]
步骤s101所述的将深度学习亮度分类结果去调整图片亮度指,利用自行加深的vgg深度学习分类网络所得的分类标签lever值,去调整原始扫描件图片的亮度,调整的规
则为,将gamma矫正的指数值设置为基于深度学习所得结果l的式子:1/(5-l 1)。
[0032]
步骤s102所述的标注扫描件的主要成分,进行深度学习训练得到模型后,检测得到扫描件的主要成分,指人工标注8000张原始扫描件中只需要保留的图像区域(主要成分),以用于后续深度学习的主成分检测训练数据。所述的检测得到扫描件的主要成分,指利用yolov2深度学习目标检测网络训练所标注的主成分,得到主成分检测模型,执行深度网络前向推理,以获得原始扫描图像的主要成分图像区域。
[0033]
步骤s103所述的深度学习模型进行第一阶段4个方向纠偏(大方向纠偏)指,收集8000张0度偏斜的原始图片(若原始图片不为0度,则手工纠偏为0度),然后通过将图片顺时针旋转,得到另外90度、180度和270度偏斜的图片集合,结合原始图片集合,得到4类用于大方向纠偏的图片训练集合。从而用自行加深的vgg,训练对原始扫描件图片进行4方向分类的深度学习网络模型。进而,对每一张原始扫描件图片,利用该4方向分类深度学习网络对其进行4方向的分类,得到类标c(取值范围为0、1、2、3),从而根然后通过将图片逆时针旋转,即逆时针旋转c
×
90度,从而完成第一阶段4个方向的纠偏(大方向纠偏)。
[0034]
步骤s104所述的深度学习联合像素投影纠偏(小方向纠偏)完成第二阶段的纠偏指,第二阶段的纠偏,在第一阶段纠偏得到的图像的基础上,分两个分支进行,第一分支,是使用自行加深的vgg深度学习网络实施91类小方向估计、第二分支是基于sobel边缘投影法的小方向估计。当第一分支的结果与第二分支的结果相差小于5度时,采用第一分支的结果作为最终小纠偏角度估计,否则采用第二分支的结果作为最终的小纠偏角度估计,最终完成对小纠偏结果的选择。所述的自行加深的vgg深度学习网络实施91类小方向估计指收集16000张0度偏斜的原始图片(若原始图片不为0度,则手工纠偏为0度),然后通过将图片旋转,得到另外0~90度偏斜的图片集合,结合原始图片集合,得到91类用于大方向纠偏的图片训练集合。从而用自行加深的vgg,训练对原始扫描件图片进行91方向分类的深度学习网络模型。进而,对每一张原始扫描件图片,利用该4方向分类深度学习网络对其进行91方向的分类,得到类标c1(范围为整数的0~90),即对应得到使用自行加深的vgg深度学习网络实施91类小方向估计的结果。所述的基于sobel边缘投影法的小方向估计指利用自行设计的sobel加权分割算法对原始图像进行分割,然后对分割图像进行角度旋转遍历,进一步,对分割图的像素进行水平方向的像素值投影,并找到投影值为0值最多的纠偏方向,即为基于sobel边缘投影法的小方向估计所得的纠偏角度。
[0035]
如图1所示,本发明实施例的一种基于深度学习的档案扫描件图像自动纠偏方法主要由候选区域选取模块a、亮度分类离线训练模块b、主成分检测离线训练模块c、深度学习纠偏离线训练模块d、两阶段图像纠偏模块e组成。
[0036]
候选区域选取模块a,用于通过深度学习亮度分类,改进传统gamma亮度矫正,并利用主成分检测模型识别出候选区域。
[0037]
亮度分类器离线训练模块b,利用改进的vgg16深度学习图片分类网络,对扫描件的亮度进行分类。
[0038]
主成分检测离线训练模块c,利用yolov2深度学习目标检测网络,检测扫描件图片的主成分。
[0039]
深度学习纠偏离线训练模块d,利用改进的vgg16深度学习图片分类网络,训练两个图片方向预测网络,一个为4角度(类)预测,一个为91角度(类)预测。
[0040]
两阶段图像纠偏模块e,与模块a、d连接,实现两阶段的纠偏,第一阶段利用深度学习模型进行4个方向纠偏(大方向纠偏)、第二阶利用段深度学习模型进91个方向预测并同时考虑像素投影的结果,完成小方向纠偏。
[0041]
本发明的具体实施例:
[0042]
本发明方法的整体流程如图1所示,本发明方法主体包括四部分:1)将深度学习亮度分类结果去调整图片亮度,改善扫描件的亮度;2)标注扫描件的主要成分,进行深度学习训练得到模型后,检测得到扫描件的主要成分;3)深度学习模型进行第一阶段4个方向纠偏(大方向纠偏);4)深度学习联合像素投影纠偏(小方向纠偏)完成第二阶段的纠偏。
[0043]
1.将深度学习亮度分类结果去调整图片亮度,改善扫描件的亮度
[0044]
银行扫描件类型(文字类型、图文类型、表格类型等)多种多样,导致鲁棒的扫描件纠偏方法研发难度大。随着计算机视觉、深度学习技术的迅猛发展,使得将深度学习技术应用于扫描件纠偏成为可能。在自然场景下的扫描件图片,亮度问题尤为严重。为提升扫描件图片纠偏的准确率和鲁棒性,提出首先利用自行加深后的vgg16深度学习网络进行亮度的分类,得到亮度等级,将其作为后续通过传统gamma图像亮度矫正的关键参数,改进目前的gamma图像亮度矫正方法。具体地,利用自行加深的vgg深度学习分类网络所得的分类标签lever值,去调整原始扫描件图片的亮度,具体方法是设计了改进传统gamma图像亮度矫正,改进传统gamma图像亮度矫正的的具体实现方法请见1.2节。
[0045]
1.1亮度分类离线训练模块和亮度在线分类模块
[0046]
离线训练采用的自行加深的vgg16网络实现,vgg16相对于alexnet而言,采用连续的3x3的卷积核代替alexnet中的较大卷积核(11x11,7x7,5x5)。对于给定的感受野,采用堆积的小卷积核,达到了优于采用大的卷积核的效果,vgg16网络中包含13个卷积层和3个全连接层,是一个比较大的网络,总共包含约1.38亿个参数,即便以现在的标准来看都算是非常大的网络。但vgg-16的结构并不复杂,而且这种网络结构很规整,都是几个卷积层后面跟着可以压缩图像大小的池化层,池化层缩小图像的高度和宽度。同时,卷积层的过滤器数量变化存在一定的规律,由64翻倍变成128,再到256和512。传统的vgg16包含了16个隐藏层,本专利自行加深的vgg网络具有更多的卷积层和全连接层(能提取更具表征能力的特征):有15个卷积层和5个全连接层。实验表明,如此加深后的分类网络,检测准确率提升了5%,速度下降不到0.5%),故,如此加深后的网络准确率显著提升,而速度下降不明显。
[0047]
表1展示了自行加深后的vgg16网络结构,整个网络都使用了同样大小的卷积核尺寸(3x3)和最大池化尺寸(2x2)。几个小滤波器(3x3)卷积层的组合比一个大滤波器(5x5或7x7)卷积层好。
[0048]
表1自行加深后的vgg16网络结构
[0049]
[0050][0051]
训练自行加深的vgg网络时,首先,收集真实场景中的档案扫描件图像8000张(具有各自亮度等级),然后人工分5个亮度等级(类别),标签id为[0,5]直接的整数,学习率设置为5
×
10-3
,并且所有模型学习率都增加0.8的权重衰减,批大小(batchszie)设置为40,使用adam算法优化损失函数,进行55次迭代训练,从而完成亮度分类离线训练,得到亮度分类模型。在进行亮度在线分类时,则将原始的扫描件图片输入亮度分类深度学习模型,从而得到5个亮度等级类别l。将l作为后续通过传统gamma亮度矫正的关键参数。
[0052]
1.2改进传统gamma图像亮度矫正
[0053]
改进后的矫正的规则为,将gamma矫正的指数值设置为基于深度学习所得结果l的式子:1/(5-l 1),假设图像原始图像为i,对其中的某个像素i(i,j)进行校正的具体步骤为:
[0054]
1)归一化。将i(i,j)按公式(1)转换为[0,1]之间的实数。
[0055]
i(i,j)=(i(i,j) 0.5)/256
ꢀꢀꢀꢀꢀꢀꢀ
(1)
[0056]
2)预补偿。根据公式改进的(2)完成预补偿。
[0057]
i(i,j)=i(i,j)
1/(5-l 1)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(2)
[0058]
3)反归一化。根据公式(3),将经过预补偿的实数值i(i,j)反变换为[0,255]之间的整数值。
[0059]
i(i,j)=i(i,j)
×
256-0.5
ꢀꢀꢀꢀꢀꢀꢀ
(3)
[0060]
在进行亮度分类时,采用基于深度学习的亮度分类,具体地,利用自行加深后的vgg网络实现。包括亮度分类离线训练模块和亮度在线分类模块。
[0061]
2.标注扫描件的主要成分,进行深度学习训练得到模型后,检测得到扫描件的主要成分
[0062]
yolov2相比yolov1做了很多方面的改进,这也使得yolov2的准确率有显著的提升,并且yolov2的速度依然很快,保持着自己作为单阶段(one-stage)目标检测方法的优势。所以本专利采用yolov2进行主成分的检测。yolov2算法采用一个单独的卷积网络模型实现end-to-end的目标检测,首先将输入图片缩放到448x448,然后送入卷积网络,最后处理网络预测结果得到检测的目标。yolov2采用卷积网络来提取特征,然后使用全连接层来得到预测值。网络结构参考了goolenet模型,包含24个卷积层和2个全连接层。对于卷积层,主要使用1x1卷积来做降低特征通道维数,然后紧跟3x3卷积,但是最后一层却采用线性激活函数。批归一化(batch normalization)也是yolov2的一个重要特点,批归一化可以不仅提升模型收敛速度,而且可以起到正则化的效果,降低模型的过拟合情形。在yolov2中,每
个卷积层后面都添加了批归一化层,并且不再使用随机删减(droput)层。使用批归一化后,yolov2的map提升了2.4%。
[0063]
yolov2的训练方面,提出了一种检测与分类联合训练方法,使用这种联合训练方法在coco检测数据集和imagenet分类数据集上训练出了yolo9000模型,其可以检测超过9000多类物体,本专利通过迁移学习,使用该深度学习模型进行1类主成分模板检测。对于扫描件图片中的标注基准(ground truth),若某标注框的中心点落在某个单元(cell)内,那么该单元内的5个先验框所对应的边界框负责预测它,具体是哪个边界框预测它,需要在训练中确定,即由那个与标注基准的iou最大的边界框预测它,而剩余的4个边界框则不与该标注基准匹配。yolov2借鉴了faster r-cnn中候选区域生成网络的先验框策略。rpn对cnn特征提取器得到的特征图进行卷积来预测每个位置的边界框以及置信度(是否含有物体),并且各个位置设置不同尺度和比例的先验框,所以候选区域生成网络预测的是边界框相对于先验框的偏移值,采用先验框使得模型更容易学习。所以yolov2移除了yolov1中的全连接层而采用了卷积和anchor boxes来预测边界框。本发明,yolov2的损失函数改为交叉熵损失函数。本发明,总共标注了8000张扫描件图片的主要成分,每张衰减系数、动量参数和学习率分别设置为0.0003、0.85和0.001,并选择指数衰减模式更新学习率,训练迭代次数达到15000和17000时,学习率分别降低至初始学习率的15%和7%,使交叉熵损失函数进一步收敛。
[0064]
训练得到主成分深度学习模型后,将通过亮度增强的扫描件图片输入到主成分深度学习模型,执行前向推理。对置信度高于0.5的检测框,即认为是当前扫描件图片的主要成分。
[0065]
3.深度学习模型进行第一阶段4个方向纠偏(大方向纠偏)
[0066]
对图片进行纠偏时,设计了一种两阶段的渐进式纠偏方式,第一阶段基于改进的vgg16网络实施4分类进行初步纠偏,第二阶段基于改进的vgg16网络实施91类分类并同时与传统的投影纠偏综合判决,完成精细纠偏。
[0067]
第一阶段纠偏时,采用自行加深的vgg16网络进行训练。训练数据集制作方面,收集8000张0度偏斜的原始图片(若原始图片不为0度,则利用photoshop修图软件,手工纠偏为0度),然后通过python的rotate函数,编写python脚本,将图片旋转,得到另外90度、180度和270度偏斜的图片集合,结合原始图片集合(1类),可以得到4类用于大方向纠偏的训练图片集合,达到半自动构建训练数据集的效果。从而用自行加深的vgg16网络,训练对原始扫描件图片进行4方向分类的深度学习网络模型的训练。进而,对每一张原始扫描件图片,利用该4方向分类的深度学习网络对其进行4方向的分类,得到类标c(取值范围为0、1、2、3),从而根据类标c值,将原始图片进行反方向旋转,即逆时针旋转c
×
90度,从而完成第一阶段4个方向的纠偏(大方向纠偏)。
[0068]
4.深度学习联合像素投影纠偏(小方向纠偏)完成第二阶段的纠偏
[0069]
第二阶段基于改进的vgg16网络实施91类分类并同时与传统的投影纠偏综合判决,完成精细纠偏。
[0070]
4.1深度学习模型进行第二阶段91个方向纠偏(小方向纠偏/精细纠偏)
[0071]
第二阶段纠偏时的91类分类,具体实现为:采用自行加深的vgg16网络进行训练。训练数据集制作方面,收集16000张0度偏斜的原始图片(若原始图片不为0度,则利用
photoshop修图软件,手工纠偏为0度),然后通过python的rotate函数,编写python脚本,将图片顺时针旋转,得到另外[1,90]度偏斜的图片集合,结合原始图片集合(1类),可以得到91类用于大方向纠偏的训练图片集合,达到半自动构建训练数据集的效果。从而用自行加深的vgg16网络,训练对原始扫描件图片进行91方向分类的深度学习网络模型的训练。进而,对每一张原始扫描件图片,利用该91方向分类的深度学习网络对其进行91方向的分类,得到类标c2(范围为0、1、2、3,...,90),从而根据类标c2值,将原始图片进行反方向旋转,即逆时针旋转c2度,从而完成第一阶段4个方向的纠偏(大方向纠偏)。
[0072]
4.2改进的传统的投影纠偏(小方向纠偏/精细纠偏)
[0073]
传统的投影纠偏,首先对检测图形进行角度旋转的遍历,然后进行水平方向原始像素的投影,找到投影所得的0值最多的方向,即认为是图像偏斜的方向。本专利在传统的投影纠偏算法基础上,考虑到银行扫描件原始图片本身噪声较多,通过设计一种改进的soble分割,来避免传统的在原始像素进行投影。具体地,改进的sobel分割方法为:1)对原始rgb彩色图像进行灰度化得到灰度图像r;2)分别执行3
×
3的sobel算子和5
×
5的sobel算子,得到灰度图r2和r3,将r2和r3的相同位置的像素进行加权相加(其中r2的权重为0.7、r1的权重为0.3),得到加权后的新灰度图r4;3)对r4执行分水岭分割算法的分割,得到最终的分割图像r5。本专利将r5替换到传统的投影纠偏算法中,从而完成对传统投影纠偏的改进。改进后的算法,不仅能避免传统基于原始像素投影时易于被图像噪声干扰、而且能较好地适应不同的表格、文字边缘大小。
[0074]
第二阶段基于改进的vgg16网络实施91类分类并同时与改进传统的投影纠偏综合判决,完成精细纠偏。所述的综合判决,指的是分两个分支进行,第一分支,是使用自行加深的vgg深度学习网络实施91类小方向估计、第二分支是改进基于sobel边缘投影法的小方向估计。当第一分支的结果与第二分支的结果相差小于5度时,采用第一分支的结果作为最终小纠偏角度估计,否则采用第二分支的结果作为最终的小纠偏角度估计,最终完成对小纠偏结果的选择。这样做的理由是,本专利的深度学习91方向纠偏是基于图片分类所得的纠偏结果,如果准确,会特别准确,但如何不准确,纠偏的结果可能差别比较大;而改进的基于sobel边缘投影法的小方向估计,则相反。所以,提出同时联合这两种方法得到的小纠偏结果,综合判决,以得到最优的小纠偏结果,从而完成对银行扫描件图片的纠偏。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献