一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种基于语义分割的自然场景文本检测方法与流程

2022-02-19 01:22:55 来源:中国专利 TAG:


1.本发明属于人工智能技术领域,涉及到深度学习和计算机视觉内容,特别涉及到一种自然场景文本检测方法。


背景技术:

2.文本检测是计算机获取人类社会重要信息、实现人机交互的重要步骤,其目的在于让计算机像人一样能够快速获视界中包含有效信息的文字区域。通常在自然场景图像中,信息密度最大的部分就是文字,获取信息的第一步就是要找出文字的位置。通过筛选出的包含有效信息的文字区域,计算机获取到信息的过程不仅更加精准和高效,也减少了后期的计算和存储资源的冗余,从而提高了图像理解整体性能。通常,图像中包含有效信息的文本区域和其它无用信息的背景区域,而理解图像只需要关注其中的有效信息,忽略无用信息,这与计算机视觉中的语义分割区分前景和背景异曲同工。因此,利用计算机模拟人类视觉系统进行场景文本检测具有可行性。
3.以前的文本检测利用传统机器学习方式,对图像中的像素分布进行统计并分析,这种方式无法充分考虑全局信息,只是在图像中通过固定的算法进行遍历查找,导致速度和准确度都不理想。基于深度学习的方法有效地解决了速度和准确度的问题,初期提出的方法主要使用神经网络预测文本区域的边框信息,受限于网络的表达能力,这种直接对文本边框回归的方法只能检测简单文本区域。如果背景和文本相互掺杂难以分离、文本的样式呈现弯曲等情况,这种方式就无能为力了。而语义分割能够很好地解决上述问题。首先,得益于深度学习的发展和目前计算机算力的迅速提高,神经网络对图像的处理速度已经能够满足实时性的要求。再者,语义分割方式能够精确分离目标前景和背景,即使目标具有复杂的轮廓,这样复杂场景和复杂文本情况下得检测也能够进行。通过对检测到的语义信息进行描边,就能得到文本区域的精确轮廓,这使得自然场景中复杂的文字提取变得更加高效。


技术实现要素:

4.本发明要解决的技术问题是:弥补目前场景文本检测的不足,提出一种基于语义分割的边缘强化自然场景文本检测方法,达到高精度高效率检测的目的。
5.本发明的技术方案:
6.一种基于语义分割的自然场景文本检测方法,步骤如下:
7.(1)构建基础特征提取网络
8.特征提取网络采用resnet或mobilenet等经典网络结构作为骨干,分别从不同层提取输入图像尺寸的1/4、1/8、1/16、1/32特征作为输出,且输出特征对应的通道数分别为64、128、256、512通道;
9.(2)构建特征筛选模块
10.特征筛选模块输入为i和h两部分,i表示特征提取网络的输出特征,h表示上一级
特征筛选模块的输出特征,对这两部分进行卷积融合后使用sigmoid函数归一化,将归一化结果作为权重再对i和h两个输入进行选择融合,最后得出融合后的输出特征;整个运算过程定义如下:
11.s=sigmoid(conv3(conv1(h),conv2(i)))
12.out=conv4((1

s)
·
h s
·
i)
13.其中,s表示归一化的特征筛选热图,conv(x)表示一系列自网络结构,由卷积、批归一化、relu激活函数组成,out代表最终的输出特征图,固定为64通道。需要注意的是,上述运算过程中还隐含着通道变换的步骤;
14.(3)构建特征金字塔网络
15.特征金字塔网络是对特征筛选模块的输出进行融合的步骤。网络中共有3处用到了特征筛选模块,但是该模块的网络结构只有一个,即1个模块3处复用。首先,将特征提取网络输出的1/32尺寸特征图使用金字塔池化网络(aspp)进行特征扩展,得到1/32尺寸特征图res4。将res4进行上采样变为1/16尺寸,再将它和特征提取网络输出的1/16尺寸特征图分别作为特征筛选模块的h和i两个输入,此时特征筛选模块输出1/16尺寸特征图res3;重复上述步骤得到res2和res1,尺寸分别为1/8、1/4。最后将res2、res3、res4上采样至res1的尺寸,然后进行通道上的级联,得出通道数为256的多尺度融合特征图;
16.(4)构建边缘强化网络
17.边缘强化网络由3层神经网络组成,其中前两层神经网络都是由卷积、批归一化、relu激活函数组成,最后一层神经网络由卷积、偏置、sigmoid激活函数组成。最后得出通道数为1的边缘强化热图,其中像素点取值范围为[0,1],数值越大表示越靠近边缘位置;
[0018]
(5)构建语义分割网络
[0019]
首先,将特征金字塔网络输出的256通道特征图和边缘强化网络输出的1通道特征图在通道上进行级联,再将结果输入到3层卷积神经网络,前2层网络结构都是由上采样、卷积、批归一化、relu激活函数组成,其中上采样运算采用双线性插值方法将特征图尺寸扩大为原来的2倍。最后一层网络采用卷积、偏置、sigmoid激活函数,得到1通道的语义分割热图,其中值的范围在0和1之间。通过设定0.7为阈值,将上述热图转化为只有0和1两个值的二值化图;
[0020]
(6)轮廓成型
[0021]
采用opencv软件先从二值化图中分离出不同文本区域,再对每个区域求出包含该区域的周长最小的闭合多边形,则该多边形的顶点坐标就是该文本区域在图像中的位置坐标。对于矩形文字区域,其坐标由4个点组成。对于其他不规则文本区域,opencv软件能自行确定多边形顶点个数。
[0022]
(7)训练方法
[0023]
对于resnet50网络作为骨干结构,首先将其在图像分类数据集imagenet上进行预训练,并保存预训练网络权重参数。然后整个网络在人工合成数据集synthtext上进行预热,使模型对该任务场景达到收敛。最后在特定场景数据集下进行最后正式训练。此外,在损失函数的设计中使用了ohem算法,进行难例挖掘,平衡前景和背景之间的面积差距。
[0024]
本发明的有益效果:本发明充分利用了语义分割算法在前景背景之间的强区分能力,通过特征金字塔网络进行多尺度特征提取,保证了图像中小尺寸文本和大尺寸文本均
能够被有效检测出来。通过引入信息选择门结构,在上采样和特征融合部分选择有效信息进行传播和输出,使得网络之中的冗余信息得以被剔除。此外,语义分割算法和边框成型算法在处理不规则区域上的共性,保证了整个方案对于不规则文本区域的精确检测能力。
附图说明
[0025]
图1表示多尺度特征提取网络。其中最上面一行代表特征提取骨干网络,大小不同表示提取的特征图尺寸逐渐减小。中间一行代表特征筛选门,它有两个输入,aspp表示金字塔池化网络。下面一行大小不同的框表示提取出的不同尺度特征图。特征图最后要经过上采样步骤聚合在一起;
[0026]
图2为特征筛选门的内部具体结构,conv(x)表示若干层卷积网络,
×
表示像素乘法运算, 表示像素加法运算;
[0027]
图3为边缘强化网络、语义分割网络以及二值化过程示意图,其中conv(x)表示若干层卷积网络;
[0028]
图4为边缘强化结构的真值示意图,三条线中最里面的线表示将文本轮廓缩小为原来0.5后的边界,在它内部的所有像素值都设为0。最外层的边界表示将文本轮廓扩大为原来1.25倍之后的边界,在它之外的所有像素值都设为0。中间黑线的值为1,表示原边界,对三条边界线之间的像素值进行线性插值;
[0029]
图5是输入图像示例;
[0030]
图6是语义分割结果示例;
[0031]
图7是文本区域的边框示例。
具体实施方式
[0032]
以下结合附图和技术方案,进一步说明本发明的具体实施方式。
[0033]
一种基于语义分割的自然场景文本检测方法,步骤如下:
[0034]
(1)构建基础特征提取网络
[0035]
特征提取网络采用resnet50网络结构作为骨干,如图1中上面一行conv(x)所示。它的输入为3通道rgb图像,如图5所示。从resnet50的第4、6、9、13层分别提取输入图像尺寸的1/4、1/8、1/16、1/32特征作为输出,且输出特征对应的通道数分别为64、128、256、512通道;
[0036]
(2)构建特征筛选模块
[0037]
如图2所示,特征筛选模块输入为i和h两部分,i表示特征提取网络的输出特征,h表示上一级特征筛选模块的输出特征,对这两部分进行卷积融合后使用sigmoid函数归一化,将归一化结果作为权重再对i和h两个输入进行选择融合,最后得出融合后的输出特征;整个运算过程定义如下:
[0038]
s=sigmoid(conv3(conv1(h),conv2(i)))
[0039]
out=conv4((1

s)
·
h s
·
i)
[0040]
其中,s是归一化的特征筛选热图,out是最终的输出特征图,它具有64通道,尺寸和i、h相同;
[0041]
(3)构建特征金字塔网络
[0042]
特征金字塔网络是对特征筛选模块的输出进行融合的步骤。如图1所示,网络中共有3处用到了特征筛选模块,但是该模块的网络结构只有一个,即1个模块3处复用。首先,将特征提取网络输出的1/32尺寸特征图使用金字塔池化网络(aspp)进行特征扩展,得到1/32尺寸特征图res4。将res4进行上采样变为1/16尺寸,再将它和特征提取网络输出的1/16尺寸特征图分别作为特征筛选模块的h和i两个输入,此时特征筛选模块输出1/16尺寸特征图res3;重复上述步骤得到res2和res1,尺寸分别为1/8、1/4。最后将res2、res3、res4上采样至res1的尺寸,然后进行通道上的级联,得出通道数为256的多尺度融合特征图;
[0043]
(4)构建边缘强化网络
[0044]
边缘强化网络由3层神经网络组成,其中前两层神经网络都是由卷积、批归一化、relu激活函数组成,最后一层神经网络由卷积、偏置、sigmoid激活函数组成。最后得出通道数为1的边缘强化热图,其中像素点取值范围为[0,1],数值越大表示越接近边缘位置。图4展示了热图中像素值在文本边缘位置的分布情况;
[0045]
(5)构建语义分割网络
[0046]
首先,将特征金字塔网络输出的256通道特征图和边缘强化网络输出的1通道特征图在通道上进行级联,再将结果输入到3层卷积神经网络,前2层网络结构都是由上采样、卷积、批归一化、relu激活函数组成,其中上采样运算采用双线性插值方法将特征图尺寸扩大为原来的2倍。最后一层网络采用卷积、偏置、sigmoid激活函数,得到1通道的语义分割热图,其中值的范围在0和1之间。通过设定0.7为阈值,将上述热图转化为只有0和1两个值的二值化图,如图6所示,其中黑色区域表示文字所在位置,白色区域为背景区域;
[0047]
(6)轮廓成型
[0048]
采用opencv软件先从二值化图中分离出不同文本区域,再对每个区域求出包含该区域的周长最小的闭合多边形,则该多边形的顶点坐标就是该文本区域在图像中的位置坐标。在图6中,通过语义分割和二值化,共检测出3个文本区域,图7中是使用opencv从二值化图中得出的每个文本区域的边框。对于图7中的3个矩形文本区域,opencv将分别输出4个顶点的坐标。最后,将这些坐标点作为文本区域坐标。对于其他不规则文本区域,opencv软件也能自行确定多边形顶点个数。
[0049]
(7)训练方法
[0050]
使用resnet50作为骨干网络,先将其在图像分类数据集imagenet上进行预训练,并保存预训练网络权重参数。然后整个网络在人工合成数据集synthtext上进行预训练,使模型对该任务场景达到收敛。最后在特定场景数据集下进行最后正式训练。此外,在损失函数的设计中使用了ohem算法,进行正负样本平衡,平衡前景和背景之间的面积差距。网络优化器采用了adam,批大小设为8,使用指数衰减的学习率曲线,初始学习率设为0.0001,并在每1万次迭代后将学习率减小为原来的0.95,共进行10万次迭代。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献