一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

基于多尺度特征融合的网络图像文本识别方法及系统

2022-04-16 12:43:55 来源:中国专利 TAG:


1.本发明涉及文本识别技术领域,具体涉及一种基于多尺度特征融合的网络图像文本识别方法及系统。


背景技术:

2.文本识别,是利用计算机自动识别字符的技术,是计算机视觉任务应用的一个重要领域。在计算机视觉领域中,由于文本作为重要线索为计算机视觉任务提供更丰富更准确的信息,文本识别一直是一项重要任务。目前文本识别技术已经广泛运用于生活中的各种场景,例如:文本验证码应用、文档分析以及数学公式识别。
3.目前,文本识别方法分为两类,第一类方法是将其分为文本检测和文本识别两个独立的子任务。基于深度学习的方法在这两个子任务中都占据了主导地位。在文本检测中,通常使用卷积神经网络从场景图像中提取特征映射,然后使用不同的解码器对文本区域进行解码。而文本识别,则是在预测的文本区域基础上进行序列预测。但是这类方法在识别有很多文本区域的图像时,需要大量的时间成本。同时此类方法忽略了检测和识别中共享的视觉线索的相关性。单一的检测网络不能被来自文本识别的标签所监督,同样,单一的识别网络也不能被检测网络的标签监督。
4.第二类方法是端到端文本识别方法,这类方法同时考虑文本检测和识别的相互监督。与之前的方法相比,这类方法通过卷积神经网络学习更多的一般性特征,这些特征在文本检测和文本识别之间共享,两个任务的监督是互补的。然而目前中英文混合场景文本识别的端到端方法主要集中于背景简单、排版比较规则的水平文本,对于背景复杂、文本方向多样的网络图像文本并不适用。


技术实现要素:

5.本发明为了克服以上技术的不足,提供了一种基于多尺度特征融合的网络图像文本识别方法,还提供了一种基于多尺度特征融合的网络图像文本识别系统。
6.本发明中,首先使用基于残差网络的u-net多尺度特征提取网络提取原始图片的文本特征图,然后利用全卷积网络输出文本预测框和文本预测框水平角度,旋转模块再根据文本预测框水平角度对文本特征图进行仿射变换后,使用文本识别模块进行文本标签转录,最后联合文本检测模块共同完成网络图像的端到端识别任务。
7.本发明克服其技术问题所采用的技术方案是:
8.一种基于多尺度特征融合的网络图像文本识别方法,至少包括步骤:
9.通过残差网络的u-net网络结构,提取出训练数据集中每张网络原始图片所有文本信息的特征图;
10.基于残差网络提取的全部文本信息的特征图,利用全卷积网络输出文本预测框和文本预测框水平角度;
11.将残差网络提取的全部文本信息的特征图结合文本预测框水平角度,对特征图有
向特征区域进行仿射变换的旋转操作,得到轴向对齐的特征图;
12.对轴向对齐的特征图进行文本标签转录,并配合全卷积网络输出的文本检测结果,输出原始图片所有文本的检测和识别结果。
13.进一步地,通过残差网络的u-net网络结构,提取出训练数据集中每张网络原始图片所有文本信息的特征图,具体包括:
14.对网络原始图片采用u-net网络结构,在自下而上的路径融合了1/32到1/4原始图片的分辨率特征,融合过程通过公式(1)和(2)表示:
[0015][0016][0017]
上式(1)和(2)描述了上采样的过程,其中,ti是每一上采样层级输出的特征张量,ui是融合后的特征图,fi是正常卷积的特征张量,[t
i-1
;fi]表示上一层级的上采样结果和本层级特征进行连接融合。
[0018]
进一步地,基于残差网络提取的全部文本信息的特征图,利用全卷积网络输出文本预测框和文本预测框水平角度,具体包括:
[0019]
采用全卷积网络用于文本检测,卷积输出的结果包括两部分:
[0020]
第一部分,完成分类任务的输出,生成文本得分图;分类任务的输出有1个通道,用于计算每个像素属于正样本的概率;
[0021]
第二部分,输出文本预测框;文本预测框的输出有5个通道,其中4个通道分别输出该像素与文本预测框的顶部、底部、左侧和右侧的距离,另外1个通道输出文本预测框水平角度;
[0022]
对每个正样本进行阈值化和非极大值抑制算法处理,得到最终文本检测结果,阈值化和非极大值抑制算法通过公式(3)表示:
[0023][0024]
上式中,b为当前得分最大的文本预测框,n
t
为抑制阈值,si为分数,bi为同一文本行的其他文本预测框,iou等于b和bi的面积之和与b和bi的并集的面积之比。
[0025]
进一步地,全卷积网络的卷积核大小为1
×
1,输出通道为6。
[0026]
进一步地,将残差网络提取的全部文本信息的特征图结合文本预测框水平角度,对特征图有向特征区域进行仿射变换的旋转操作,得到轴向对齐的特征图,具体包括:
[0027]
步骤1:首先计算特征图仿射变换后,像素点和原像素点的位移偏差,作为仿射变换矩阵的平移变换参数,使变换前后的中心点对齐,计算通过公式(4)和(5)表示:
[0028]
δx=lcosθ-tsinθ-x
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(4)
[0029]
δy=tcosθ lsinθ-y
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(5)
[0030]
上式中,δx和δy分别特征图中某个点仿射变换前后x轴和y轴上的位移偏差;
[0031]
然后通过固定高度h
t
计算特征图的缩放比例s,对宽度w
t
进行同比例的缩放,公式如(6)和(7)所示:
[0032]
s=h
t
/(t b)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(6)
[0033]wt
=s
×
(l r)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(7)
[0034]
最后结合文本预测框水平角度θ进行旋转变换,最终的仿射变换矩阵如公式(8)所示:
[0035][0036]
上式(4)-(8)中,m代表最终的仿射变换矩阵,h
t
和w
t
分别代表特征图仿射变换后的高度和宽度,(x,y)表示特征图中某个点的坐标,t、b、l、r分别表示点(x,y)到文本预测框的顶部、底部、左侧和右侧的距离,θ代表预测框水平角度;
[0037]
步骤2:利用上述仿射变换参数,得到最终的轴向对齐的特征图,通过公式(8)表示:
[0038][0039]
上式中,其中为仿射变换前某点的坐标,表示仿射变换后某点的坐标。
[0040]
本发明还公开了一种基于多尺度特征融合的网络图像文本识别系统,至少包括:
[0041]
特征提取模块,被配置为用于通过残差网络的u-net网络结构,提取出训练数据集中每张网络原始图片所有文本信息的特征图;
[0042]
文本检测模块,被配置为用于基于残差网络提取的全部文本信息的特征图,利用全卷积网络输出文本预测框和文本预测框水平角度;
[0043]
旋转模块,被配置为用于将残差网络提取的全部文本信息的特征图结合文本预测框水平角度,对特征图有向特征区域进行仿射变换的旋转操作,得到轴向对齐的特征图;
[0044]
文本识别模块,被配置为用于对轴向对齐的特征图进行文本标签转录,并配合全卷积网络输出的文本检测结果,输出原始图片所有文本的检测和识别结果。
[0045]
进一步地,网络原始图片空间大小为512
×
512。
[0046]
进一步地,u-net网络结构采用se_resnext50作为基础网络。
[0047]
进一步地,所述文本识别模块包括顺序卷积层、池化层、双向长短期记忆网络、一个全连接层和ctc解码器。
[0048]
进一步地,所述顺序卷积层为7个,顺序卷积层的卷积核大小为3
×
3;所述池化层为2个,池化层的卷积核大小为2
×
1。
[0049]
本发明的有益效果是:
[0050]
1、与现有技术相比,本发明使用u-net的特征提取网络,将特征提取时不同尺度的特征图进行了融合,实现了网络图像中不同尺度的文本的识别,提高了系统的鲁棒性。
[0051]
2、与现有技术相比,本发明使用基于仿射变换的旋转模块得到轴向对齐的特征图,实现了对不同方向的文本的检测识别效果,提高了系统的精确性。
[0052]
3、与现有技术相比,本发明将文本检测模块和文本识别模块集成到一个系统中,实现了检测模块和识别模块的互补,减少了训练中需要使用的数据。
附图说明
[0053]
图1为本发明实施例的基于多尺度特征融合的网络图像文本识别方法及系统的整体框架图;
[0054]
图2为本发明实施例的基于残差网络的多尺度特征融合的网络图像文本特征提取图。
具体实施方式
[0055]
为了便于本领域人员更好的理解本发明,下面结合附图和具体实施例对本发明做进一步详细说明,下述仅是示例性的不限定本发明的保护范围。
[0056]
本发明公开了一种基于多尺度特征融合的网络图像文本识别系统,至少包括:
[0057]
特征提取模块,被配置为用于通过残差网络的u-net网络结构,提取出训练数据集中每张网络原始图片所有文本信息的特征图;
[0058]
文本检测模块,被配置为用于基于残差网络提取的全部文本信息的特征图,利用全卷积网络输出文本预测框和文本预测框水平角度;
[0059]
旋转模块,被配置为用于将残差网络提取的全部文本信息的特征图结合文本预测框水平角度,对特征图有向特征区域进行仿射变换的旋转操作,得到轴向对齐的特征图;
[0060]
文本识别模块,被配置为用于对轴向对齐的特征图进行文本标签转录,并配合全卷积网络输出的文本检测结果,输出原始图片所有文本的检测和识别结果。
[0061]
作为本实施例优选的,网络原始图片空间大小为512
×
512;u-net网络结构采用se_resnext50作为基础网络。
[0062]
采用基于多尺度特征融合的网络图像文本识别系统的方法,如图1所示,至少包括步骤:
[0063]
步骤s1、通过残差网络的u-net网络结构(即通过特征提取模块),提取出训练数据集中每张网络原始图片所有文本信息的特征图。
[0064]
以图2所示基于残差网络的端到端网络图像文本特征提取图为例。特征图分辨率增大是自下而上的,最下面的特征图首先进行上采样,将分辨率放大为原来的两倍。然后与上一层的特征进行连接,一个1
×
1的卷积层将多个通道合并为一个通道,接着用3
×
3的卷积层融合高语义和高分辨率信息,最后将融合后的特征张量传递到下一层,直到最顶层再通过一个3
×
3的卷积层进行最终的合并,输出网络图像文本的特征图。融合过程通过公式(1)和(2)表示:
[0065][0066][0067]
上式(1)和(2)描述了上采样的过程,其中,ti是每一上采样层级输出的特征张量,
ui是融合后的特征图,fi是正常卷积的特征张量,[t
i-1
;fi]表示上一层级的上采样结果和本层级特征进行连接融合。
[0068]
步骤s2、基于步骤s1残差网络提取的文本信息的特征图,利用全卷积网络输出文本预测框和文本预测框水平角度。
[0069]
具体地,文本检测模块使用全卷积网络的文本检测器,通过多个通道得到文本预测框和文本预测框水平角度,本实施例优选全卷积网络的卷积核大小为1
×
1,输出通道为6。
[0070]
采用全卷积网络用于文本检测,卷积输出的结果包括两部分:
[0071]
第一部分,完成分类任务的输出,生成文本得分图;分类任务的输出有1个通道,用于计算每个像素属于正样本的概率。
[0072]
第二部分,输出文本预测框;文本预测框的输出有5个通道,其中4个通道分别输出该像素与文本预测框的顶部、底部、左侧和右侧的距离,另外1个通道输出文本预测框水平角度。
[0073]
最后,对每个正样本进行阈值化和非极大值抑制算法处理,得到最终文本检测结果,阈值化和非极大值抑制算法通过公式(3)表示:
[0074][0075]
上式中,b为当前得分最大的文本预测框,n
t
为抑制阈值,si为分数,bi为同一文本行的其他文本预测框,iou等于b和bi的面积之和与b和bi的并集的面积之比。
[0076]
步骤s3、将特征提取模块提取的文本信息的特征图与文本检测模块输出的文本预测框水平角度作为旋转模块的输入,对特征图有向特征区域进行仿射变换的旋转操作,得到轴向对齐的特征图。旋转模块的操作具体包括两个步骤:
[0077]
步骤1:首先计算特征图仿射变换后,像素点和原像素点的位移偏差,作为仿射变换矩阵的平移变换参数,使变换前后的中心点对齐,计算通过公式(4)和(5)表示:
[0078]
δx=lcosθ-tsinθ-x
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(4)
[0079]
δy=tcosθ lsinθ-y
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(5)
[0080]
然后通过固定高度h
t
计算特征图的缩放比例s,对宽度w
t
进行同比例的缩放,公式如(6)和(7)所示:
[0081]
s=h
t
/(t b)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(6)
[0082]wt
=s
×
(l r)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(7)
[0083]
最后结合文本预测框水平角度θ进行旋转变换,最终的仿射变换矩阵如公式(8)所示:
[0084][0085]
上式(4)-(8)中,m代表最终的仿射变换矩阵,h
t
和w
t
分别代表特征图仿射变换后的高度和宽度,(x,y)表示特征图中某个点的坐标,t、b、l、r分别表示点(x,y)到文本预测框的顶部、底部、左侧和右侧的距离,θ代表预测框水平角度,δx和δy分别特征图中某个点仿射变换前后x轴和y轴上的位移偏差;
[0086]
步骤2:利用上述仿射变换参数,得到最终的水平特征图,通过公式(8)表示:
[0087][0088]
上式中,其中为仿射变换前某点的坐标,表示仿射变换后某点的坐标。
[0089]
步骤s4、对轴向对齐的特征图进行文本标签转录,并配合全卷积网络输出的文本检测结果,输出原始图片所有文本的检测和识别结果。
[0090]
作为本实施例优选的,所述文本识别模块包括顺序卷积层、池化层、双向长短期记忆网络、一个全连接层和ctc解码器,所述顺序卷积层为7个,顺序卷积层的卷积核大小为3
×
3,所述池化层为2个,池化层的卷积核大小为2
×
1。如表1所示。表1中conv_bn_relu表示卷积之后进行批标准化和relu激活函数处理,height-max-pool的目的是沿高度轴减小特征维度,bi-directional_lstm表示双向lstm,fully-connect表示全连接层。首先将空间特征沿高度轴输入到多个卷积层和池化层中进行降维,提取更高层次的特征;然后将提取的高级特征图l∈rc×h×w转换为时间戳,作为特征序列l1,l2,

,lw∈rc×h,并输入循环神经网络(rnn)进行编码。在rnn中使用每个方向为256(d)个输出通道的双向lstm,以捕获输入序列特征的范围依赖性。之后在两个方向上的每个时间步长计算隐藏状态h1,h2,

,hw∈rd的和,输入全连接层,全连接层输出每个状态xw∈r
|s|
在字符类别集合s上的分布,最后ctc解码器将逐帧分类分数转录为文本标签序列。字符类别集合s包括常用汉字3000个,大小写英文字符52个,数字10个以及特殊符号“*!~@#$%^&(){}[]”。
[0091]
表1文本识别模块结构
[0092]
[0093][0094]
如表2所示,将本发明方法与现有的fots方法、ntai方法、ccflab方法在网络图像文本数据集mtwi上进行比较,分别使用网络图像文本识别的精确率和该方法需要使用的额外数据量作为评价指标,其中精确率越高,额外数据使用越少,方法的性能更好。可以看出,本发明方法在网络图像文本数据集上的两个指标都达到了最好的效果。
[0095]
表2本发明方法与现有端到端网络图像文本识别方法的性能对比(%)
[0096]
方法精确率额外数据量fots66.18034ntai68.8110万ccflab56.33万本发明方法68.98034
[0097]
以上仅描述了本发明的基本原理和优选实施方式,本领域人员可以根据上述描述做出许多变化和改进,这些变化和改进应该属于本发明的保护范围。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献