一种基于注意力机制的自然场景文字检测方法与流程

2022-03-26 13:35:02 来源：中国专利 TAG：

技术特征：
1.一种基于注意力机制的自然场景文字检测方法，其特征在于，包括以下步骤：s1、搭建候选文本实例预测网络，在卷积特征提取网络中同时添加上下文特征提取模块、双向长短时记忆和特征融合模块以及基于注意力的特征整合模块构成对于自然场景文字特征提取的候选文本实例预测网络；s2、获取场景文字图像，并将所述场景文字图像进行分类标签，获取场景文字图像数据集；所述场景文字图像数据集包括场景文字图像和对应的二值标签图像，所述二值标签图像包括文本中心块标签和字符笔画区域标签；s3、通过步骤s1构建的所述候选文本实例预测网络对所述场景文字图像进行特征提取，具体包括以下步骤：s301、通过卷积特征提取网络对所述场景文字图像进行特征提取，得到对应的场景文字图像的卷积特征图，选用vgg-16卷积网络的五个卷积阶段中的第三、第四和第五个卷积阶段对所述场景文字图像提取卷积特征图，标记为：f＝{f3，f4，f5}，其中，f表示场景文字图像的卷积特征图集合，并将每个卷积阶段最后一个卷积层标记为：l＝{conv33，conv43，conv53}；s302、将所述卷积特征图输入至所述上下文特征提取模块中，得到相应的多尺度的上下文信息特征图，标记为f
‘
＝{f
′3，f
′4，f
′5}；f
‘
表示所述多尺度的上下文信息特征图的集合，f
′
i
表示每一个卷积阶段的所述多尺度的上下文信息特征图的集合，其中i∈{3，4，5}；s303、对每一个卷积阶段中的所有所述多尺度的上下文信息特征图进行编码，并使用3*3的滑动窗在所述多尺度的上下文信息特征图上从左向右滑动，从而得到相应的特征序列集合，标记为列集合，标记为其中c表示通道数，h
i
和w
i
是特征图f
′
i
的高和宽的位置序列，i∈{3，4，5}，表示卷积阶段的序号，将所述特征序列集合s
i
以向前和向后的次序输入至所述双向长短时记忆和特征融合模块中，得到每一个卷积阶段中所述多尺度的上下文信息特征图中每一个滑动窗的状态图中存在场景文字的概率图标记为：记为：其中d∈{0，1}表示每一个所述状态图中显示有场景文字的两种预测类别；s304、根据所述状态图映射在预测类别(0，1)取值的概率分布，得到所述状态图中显示场景文字的权重图w
m
＝{w
conv33
，w
conv43
，w
conv53
}，从而输出所述场景文字图像中每一个像素位置中显示有场景文字的概率图：位置中显示有场景文字的概率图：其中，σ[
·
]是一个激活函数，
⊙
表示元素相乘，w
l
、b
l
是显示场景文字的卷积层l∈l的权重和偏置，w
l
反应了在不同位置对特征图的关注程度；s4、对文本中心块模型和字符笔画区域模型进行训练，通过步骤s2中所述场景文字图像数据集的训练集中的文本中心块标签和所述字符笔画区域标签对所述文本中心块模型进行预训练至收敛，并同时在所述训练集的基础上进行微调，生成所述文本中心模块和字符笔画区域模型；s5、通过所述文本中心模型和所述字符笔画区域模型对经过步骤s3处理后的待测的所述场景文字图像的测试图像f
out
进行计算，最终生成所述场景文字图像对应的文本中心块
的概率图和字符笔画区域的概率图；s6、通过所述文本中心块的面积限制对所述文本中心块进行判断，剔除虚假的候选文本中心块，最终得到所述场景文字图像中检测出的文字文本，并进行标记。2.根据权利要求1所述基于注意力机制的自然场景文字检测方法，其特征在于，上下文特征提取模块包括四个平行的空洞卷积层构成，其膨胀系数分别为1、3、5、7，卷积核大小为3
×
3，在所述在卷积特征提取网络中的每一个卷积层后均添加有所述上下文特征提取模块。3.根据权利要求1所述基于注意力机制的自然场景文字检测方法，其特征在于，所述双向长短时记忆和特征融合模块包括前向的lstm层、后向的lstm层和concat层，所述双向长短时记忆和特征融合模块中的特征提取步骤为：将特征序列s∈s
i
输入到所述双向长短时记忆和特征融合模块中；对于特征序列分别使用一个前向和后向的lstm层计算隐藏层的状态序列，在每个时间步，将所有隐藏层的状态进行拼接，从而获得所有隐藏层的状态图其中其中b表示每一个特征图的隐藏层的状态图，i∈{3，4，5}，表示卷积阶段的序号；再将所述隐藏层序列分别映射至对应的去卷积层中，并分别输出得到每一个卷积阶段中所述多尺度的上下文信息特征图中每一个滑动窗的状态图中存在场景文字的概率图，标记为：其中d∈{0，1}表示每一个所述状态图中显示有场景文字的两种预测类别；将m
a
裁剪成为与输入的所述场景文字图像相同大小的特征图，标记为经过concat层进行拼接，输入到两个卷积层中，第一个卷积层含有512通道，卷积核的大小为3
×
3；第二个卷积层含有3个通道，卷积核大小为1
×
1。4.根据权利要求3所述基于注意力机制的自然场景文字检测方法，其特征在于，所述基于注意力的特征整合模块包括两个卷积层、一个softmax层、一个slice层和三个spatialproduct层；所述基于注意力的特征整合模块的执行步骤为：所述第二个卷积层的三个通道分别对应于特征图所述第二个卷积层的三个通道分别对应于特征图的注意力特征权重，在所述softmax层中，将所述特征图f
c
的权重映射到在(0，1)取值的概率分布，得到所述概率分布；在所述slice层中，将所述概率分布划分为权重图w
m
＝{w
conv33
，w
conv43
，w
conv53
}；所述基于注意力的特征整合模块根据所述特征图f
c
的权重图，输出所述场景文字图像中每一个像素位置显示有场景文字的概率图f
out
。5.根据权利要求1所述基于注意力机制的自然场景文字检测方法，其特征在于，所述文本中心块的判断条件为：s
min
≤s
tcb
≤s
max
其中s
min
和s
max
分别为所述文本中心块最小面积的阈值和最大面积的阈值，s
tcb
表示候选文本中心块的面积。6.根据权利要求1所述基于注意力机制的自然场景文字检测方法，其特征在于，步骤s6中对于检测出的文字文本的标记方式为：对于弯曲形状的文本，采用文本区域的轮廓对文
本实例进行标记；对于直线形的文本，利用最小矩形对文本区域的轮廓进行拟合，采用矩形框对文本实例进行标记。7.根据权利要求1所述基于注意力机制的自然场景文字检测方法，其特征在于，步骤s4中所述文本中心模块和字符笔画区域模型的损失函数为l＝-∑
i，j
g
ij
log(p
ij
) (1-g
ij
)log(1-p
ij
)，其中，g
ij
是像素在(i，j)处的标签，p
ij
表示(i，j)处的像素属于前景的概率。

技术总结
一种基于注意力机制的自然场景文字检测方法，根据文本中心块和笔画区域的特征信息，设计提取文本目标的卷积神经网络模型，利用文本中心块和笔画信息作为监督数据来训练模型；在模型测试阶段，将测试图像分别输入到文本中心块模型和笔画模型，获得文本中心块和单词笔画区域的概率图；经过推理，得到最后的文本区域，并进行标记，完成场景图像文字检测任务；本发明克服了现有技术在场景文字检测中遇到的弯曲文本的方向信息不易回归、相近不同文本行间的粘连和多级特征整合产生信息冗余等问题。间的粘连和多级特征整合产生信息冗余等问题。间的粘连和多级特征整合产生信息冗余等问题。

技术研发人员：刘占东张海军
受保护的技术使用者：新疆师范大学
技术研发日：2021.12.24
技术公布日：2022/3/25

再多了解一些

2/2 首页上一页 1 2

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：一种主板双开机的软体保护方法、系统、装置及存储介质与流程

一种基于注意力机制的自然场景文字检测方法与流程

相关文献

最热文献