一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种基于GR和对抗学习的弱监督曲面文本检测方法

2022-06-08 11:16:51 来源:中国专利 TAG:

一种基于gr和对抗学习的弱监督曲面文本检测方法
技术领域
1.本发明属于图像处理领域,具体涉及一种gr和对抗学习的弱监督曲面文本检测方法。


背景技术:

2.近年来,从现实场景图像中提取文本信息已经成为计算机视觉领域的研究热点。场景文本检测是指对自然场景图片中存在文字的区域进行定位,即找到单词或者文本行的边界框。因为自然场景中的文字展现形式极其丰富,如文字可以出现在平面、曲面或折皱面上;文字区域附近有复杂的干扰纹理、或者非文字区域有近似文字的纹理等。因为干扰十分严重,算法在定位边界框时会难以判定文本实例。
3.文本检测算法可以分为传统的方法和深度学习的方法,传统的文本检测主要依靠人为设计的经验特征。随着深度学习技术的崛起,传统方法在准确性和适应性方面都远远落后于基于深度学习的算法。基于深度学习的场景文本检测可以分为两种:第一类基于普通的物体检测网络,如ssd、yolo等,可以直接预测候选文本区域边界框;第二类基于全卷积语义分割网络,可以生成场景文本分割图,通过后处理给出最终的文本区域边界框。相比较而言,全卷积语义分割网络的优点在于可以接受任意大小的输入图像,而且避免了由于使用像素块而带来的重复存储和计算卷积的问题,因此更加高效。但是,因为曲面文本的表现形式具有一定的空间特殊性,以及对曲面文本标注较为困难,所以难以获得大量的训练数据,因此场景文本检测的应用受到很大的限制。


技术实现要素:

4.基于此,本发明的目的在于提供一种基于gr和对抗学习的弱监督曲面文本检测方法,不需要任何强监督的像素级标注样本,简单高效地解决场景文本检测中的文本分割问题,大大降低算法成本,提高场景文本检测效率。
5.为达到上述目标,本发明采用的技术方案是:
6.一种基于gr和对抗学习的弱监督曲面文本检测方法,其特征在于,包括以下步骤:
7.步骤1:将场景图片与任意文本叠加生成场景文本图片作为训练样本,标签为场景图片本身;
8.步骤2:采用resnet-50作为特征提取网络,逐级提取图像的高层语义特征,输出特征图的分辨率缩小2倍;
9.步骤3:通过反卷积进行上采样,使高层语义特征图逐步恢复到输入训练样本大小;
10.步骤4:对不同深度的特征图,将卷积层与反卷积层输出的特征图进行多尺度融合,得到更为丰富的语义信息;
11.步骤5:将融合后的特征图经过sigmoid函数激活,输出黑白场景文本分割图;
12.步骤6:采用slic生成超像素,获取每一超像素i在cie lab下的显著值;
13.步骤7:获取超像素在位置空间下的显著值;
14.步骤8:将颜色空间下得到的显著图和位置空间下得到的显著图进行融合,得到初始显著图;
15.步骤9:以超像素为节点、相邻两超像素之间的距离为边设计一个连通图g=(v,e),加入像素间关联信息;
16.步骤10:将视觉显著性检测gr模型得到的显著图与对抗学习得到的文本候选区域进行特征融合,得到特征融合后的文本候选区域。
17.进一步的,在步骤3中所述上采样具体包括:在图片尺度恢复过程中,将特征提取网络得到的高层语义输入第一反卷积层,每一个转置卷积层的上采样倍数与对应的下采样倍数一致,随着网络进行多次转置卷积,经过最后一个转置卷积之后输出特征图通道数为1,尺度大小与初始输入图片一致。
18.进一步的,在步骤6中所述获取颜色空间下的显著值具体包括:计算每一超像素i在cie lab色彩空间下的颜色均值ci和归一化后的坐标pi,每一超像素的显著值由如下公式得到:
[0019][0020]
其中,σ
p
为权重。乘号左侧是衡量超像素之间色彩相似度,相似度大则表明显著值大;乘号右侧衡量超像素之间的空间远近,值越小则说明超像素相距较远,这个值可以当作色彩相似度的权重。
[0021]
进一步的,所述步骤7具体包括:首先初始化包含感兴趣区域的凸包以预估显著区域,使用此区域的中心坐标(x0,y0)进行中心先验,则每一超像素的显著计算公式如下式所示:
[0022][0023]
其中,xi表示超像素i归一化后的水平坐标均值,yi表示垂直坐标均值,并令σ
x
=σy。经过上式的计算可知,超像素i显著值越大则与显著中心距离越近。
[0024]
进一步的,所述步骤8具体包括:所述将颜色空间下得到的显著图和位置空间下的显著图进行融合,得到初始显著图如下式所示:
[0025]sin
(i)=s
co
(in)
×sce
(in)
[0026]
其中,s
co
(in)代表颜色空间下的显著值,s
ce
(in)代表位置空间下的显著值。s
in
(i)代表两者经过融合后得到的初始显著图。
[0027]
为实现权利要求1所述的一种基于gr和对抗学习的弱监督曲面文本检测方法,上述步骤10可以进一步地理解为,将gr模型生成的显著图与基于对抗学习的弱监督曲面文本检测算法生成的黑白场景文本分割图进行融合以填补对抗学习没有检测出的文本部分,并对已经检测出的文本进行加强。
[0028]
如上述所示的一种基于gr和对抗学习的弱监督曲面文本检测方法,其特征在于,将gr模型生成的显著图与基于对抗学习的弱监督曲面文本检测算法生成的黑白场景文本
分割图进行逐像素特征融合得到最终的候选文本区域。
[0029]
与现有技术相比,本发明能够带来以下至少一种有益效果:
[0030]
1.采用弱监督的思想,将场景文本分割所需要的像素级标注替换为简单的背景图片,其训练样本不需要任何强监督的标注信息,可以简单高效地解决场景文本检测中的文本分割问题。
[0031]
2.对基于对抗学习的弱监督曲面文本检测算法所得的黑白文本分割图和gr区域进行融合得到文本候选框,利用gr区域去填补弱监督没有检测出的文本部分,并对已经检测出的文本部分进行加强。
附图说明
[0032]
图1为本发明的总体流程示意图;
[0033]
图2为训练样本生成流程图;
具体实施方式
[0034]
应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
[0035]
本发明第一实施例,一种基于gr和对抗学习的弱监督曲面文本检测方法,如图1所示,用户使用过程包括以下具体步骤:
[0036]
s01生成训练数据,将场景图片与任意文本叠加生成场景文本图片作为训练数据,标签为场景图片本身;
[0037]
s02采用resnet-50提取图片的特征,得到高层语义特征图;
[0038]
s03通过反卷积层进行上采样,将高层语义特征图恢复到输入训练样本大小;
[0039]
s04融合卷积层与反卷积层对应深度的特征图,得到更为丰富的语义信息;
[0040]
s05融合后的特征图经过sigmoid函数激活,输出黑白场景文本分割图;
[0041]
s06采用slic生成超像素,获取每一超像素在颜色空间下的显著值;
[0042]
s07获取超像素在位置空间下的显著值;
[0043]
s08将颜色空间下得到的显著图和位置空间下得到的显著图进行融合,得到初始显著图;
[0044]
s09将视觉显著性检测gr模型得到的显著图与对抗学习得到的文本候选区域进行特征融合,得到特征融合后的文本候选区域;
[0045]
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助系统加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以系统产品的形式体现出来,该计算机系统产品存储在一个存储介质(如rom/ram、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机或者网络设备等)执行本发明各个实施例所述的方法。
[0046]
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献