一种基于增强特征金字塔网络的任意形状场景文本检测方法

2022-04-24 22:58:54 来源：中国专利 TAG：

1.本发明涉及图像处理领域，具体涉及一种基于增强特征金字塔网络的任意形状场景文本检测方法。

背景技术：

2.随着经济社会的高速发展以及智能终端的快速普及，人们感知外界事物的渠道也越来越多样化。图像作为一种传输信息的载体，逐渐成为人们日常生活中获取信息的重要渠道。不同于一般图像中的视觉元素，自然场景图像中的文本包含着丰富的语义信息，能够更好的帮助人们分析和理解这些自然场景图像所蕴含的更深层次的信息。因此场景文本检测也开始逐渐应用于人们的生产和生活中，如在智慧交通系统建设、办公自动化以及视觉辅助等领域发挥着巨大的作用。
3.自然场景下文本的出现具有很大的随机性和多样性，常规的水平或者竖直方向的文本，复杂一点的有斜向文本，更为复杂的弯曲型甚至不规则形状的文本。同时由于场景图像在获取过程中受光照条件、拍摄角度等客观因素的影响，通过机器视觉实现对自然场景下的文本检测依然是一项非常具有挑战性的任务。
4.早期的自然场景文本检测方法主要依赖人工设计的特征以及一些文本的先验信息，如纹理、颜色或笔画宽度等。这类场景文本检测方法大致可以分为两类：基于连通域分析的场景文本检测方法和基于滑动窗口的场景文本检测方法。连通域方法首先利用边缘提取等数字图像处理技术对输入图像进行预处理，获取文本候选区域，进而采用不同的连通域分析方法对该区域进行细化分工，实现字符和文本的连通的定位。基于滑动窗口的方法则采用人工特征对候选区域进行表示，并利用该特征训练分类器，对候选区域进行预测和验证。这两类文本检测方法在检测背景单一、形状规则的场景文本能表现出不错的检测效果，但是过度的依赖人工设计的特征，该方法不能有效的应对复杂多变的场景图像中文本的检测。
5.近年来，深度学习如深度卷积神经网络在计算机视觉领域的成功应用促进了自然场景文本检测的研究与发展，这一方法通常利用特定的数据集训练以深度卷积神经网络为基础的网络模型用于自动提取输入图像的基本特征，然后再通过一系列后处理算法得到最终的文本区域。与传统的场景文本检测算法相比，该方法有效的避免了人工设计特征的局限性。目前基于深度学习的场景文本检测方法主要基于分割的方法和基于回归的方法，其中基于分割的方法一般先将文本从图像中分割出来，然后进行阈值处理来得到文本区域的边界框。而基于回归的方法一般直接回归出文本区域的边界框，速度通常比基于分割的方法快，但是对长文本以及弯曲型等不规则形状场景文本检测的效果仍然难以令人满意，从而影响场景文本检测方法在实际生活中的应用。

技术实现要素：

6.针对基于深度学习的场景文本检测方法在长文本以及弯曲型等不规则形状场景
文本检测的效果不理想的问题，本发明提供了一种基于增强特征金字塔网络的任意形状场景文本检测方法，具体包括如下模块：
7.特征提取模块，用于提取输入图像的特征；
8.比率不变特征增强模块，用于语义信息的增强；
9.重构空间分辨率模块，用于空间信息的增强；
10.特征融合模块，用于将语义信息增强的特征和空间信息增强的特征进行融合，生成多个不同比例的分割结果；
11.渐近扩展模块，作为后处理模块采用渐近扩展算法对所述特征融合模块生成的多个不同尺度的分割结果进行逐步扩展融合，得到最终的文本检测结果。
12.特征提取模块使用resnet50作为主干网络提取输入图像的原始特征{c2,c3,c4,c5}。
13.比率不变特征增强模块使用3个并行分支处理高层语义特征图c5，将3个并行分支的输出结果进行融合以增强高层语义信息。
14.重构空间分辨率模块使用1*1的卷积操作将所述特征提取模块获取的原始特征{c2,c3,c4,c5}的通道数均调整为256维，{c3,c4,c5}通过上采样操作将分辨率调整为c2相同，形成新的特征{r2,r3,r4,r5}。
15.特征融合模块用于将重构空间分辨率的多层特征图与增强特征金字塔结构中对应层级上采样之后的特征进行融合，得到{p2,p3,p4,p5}的融合特征p并生成n个不同的分割结果s1,s2,
…
,sn。
16.渐近扩展模块使用渐近尺度扩展算法对特征融合模块所述的n个分割结果s1,s2,
…
,sn按从小到大依次进行扩展，得到最终的文本预测结果。
17.本文公开了一种基于增强特征金字塔网络的任意形状场景文本检测方法，该方法通过使用比率不变特征增强模块用于增强特征提取模块提取的高层语义信息，进行形成增强型特征金字塔结构；通过使用重构空间分辨率模块用于增强特征提取模块提取原始特征的空间信息；通过融合增强语义信息的特征和增强空间信息的特征，加深了文本检测模型对输入图像的理解，提高文本的检测精度；后处理模块采用渐近尺度扩展算法对不同尺度的分割图从小到大依次进行扩展，在有效预测场景文本真实形状的同时还能很好的区分开距离较近的文本实例，因此公开的场景文本检测方法能很好的实现任意形状场景文本的检测。
附图说明
18.图1.本发明基于增强特征金字塔网络的任意形状场景文本检测方法的模型结构图；
19.图2.本发明比率不变特征增强模块结构图；
具体实施方式
20.如图1所示是本发明方法的文本检测模型结构图：本发明提供了一种基于增强特征金字塔网络的任意形状场景文本检测方法，具体包括如下模块：
21.特征提取模块，用于提取输入图像的特征；
22.具体的，特征提取模块使用resnet50作为骨干网络提取输入图像的原始特征{c2,c3,c4,c5}。
23.比率不变特征增强模块，用于语义信息的增强；
24.具体的，为降低复杂背景对文本检测的影响，比率不变特征增强模块使用三个并行分支对特征提取模块的高层语义信息c5进行处理，并将并行分支的输出的特征直接相加并经过relu函数的激活以实现对高层语义信息的增强，具体结构如图2所示。
25.重构空间分辨率模块，用于空间信息的增强；
26.具体的，重构空间分辨率模块对特征提取模块获取的原始特征{c2,c3,c4,c5}的空间分辨率进行重建，具体操作细节如下：首先使用1*1的卷积运算将原始特征{c2,c3,c4,c5}的通道数调整为256维，将{c3,c4,c5}特征上采样至与c2的分辨率相同，从而得到空间信息增强后的特征{r2,r3,r4,r5}，充分利用了输入图像细致的空间信息，从而降低了无效的上下文信息对文本区域定位的影响，提高文本区域定位的精度。
27.特征融合模块，用于将语义信息增强的特征和空间信息增强的特征进行融合，生成多个不同比例的分割结果；
28.具体的，顶层特征c5经过比率不变特征增强模块的处理后生成增强的语义信息m5，结合特征提取模块提取的原始特征{c2,c3,c4,c5}，使用1*1的卷积操作调整特征图的通道数且进行横向连接，自上而下的融合信息构造增强型特征金字塔结构{m2,m3,m4,m5}；将增强型特征金字塔{m2,m3,m4,m5}上采样后与重构空间分辨率的多层特征图{r2,r3,r4,r5}的对应层特征相加构造融合特征{p2,p3,p4,p5}；使用通道注意力机制将融合特征{p2,p3,p4,p5}进行融合得到融合特征p，并根据融合特征p生成n个不同的分割结果s1,s2,
…
,sn。
29.渐近扩展模块，作为后处理模块采用渐近扩展算法多所述特征融合模块生成的多个不同尺度的分割结果进行逐步扩展融合，得到最终的文本检测结果。
30.具体的，渐近扩展模块使用渐近尺度扩展算法对特征融合模块所述的n个分割结果s1,s2,
…
,sn按从小到大依次进行扩展，得到最终的文本预测结果。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

一种基于增强特征金字塔网络的任意形状场景文本检测方法

相关文献

最热文献