一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种轻量级移动状态下工业货箱的文本检测方法

2022-06-22 22:51:06 来源:中国专利 TAG:


1.本发明属于场景文字检测技术领域,涉及一种轻量级移动状态下工业货箱的文本检测方法,用于对生产制造流程的快速精确地识别与检测,通过摄像机等传感器捕获视频流,并从视频流中截取图片,然后通过神经网络处理,在图片中定位出文字所在的区域。


背景技术:

2.随着人工智能技术的飞速发展,智能制造、物联网等概念相继被提出。如今的制造业工厂中许多生产技术也由人工转向大规模的自动化,而人工只需负责操控机器即可完成任务。然而许多生产应用往往依赖于文字检测与识别的技术支撑,比如货车车牌检测、货箱文本检测等。
3.传统的文本检测识别技术首先是将图像或视频数据进行处理以及检测并标记出图像或视频中文字的具体位置,最终提出文字内容进行识别。与传统的文本检测技术不同,工厂环境下的文本检测识别通常面临以下挑战:一是工厂环境的背景复杂且文本的载体不一,文本可以出现在各种背景中,例如货箱,标识牌,墙体等。这些因素为文本检测与识别过程带来了很大的干扰。二是工厂环境下的文本非规则文本,容易出现扭曲,残缺,方向不一的文本。三是工厂环境图像的质量具有不确定性,即使图片中的字符具有相似的外观,但是仅在像素上稍有变化就会造成文本识别的错误。因此工厂环境下的文本检测识别成为了一项具有挑战性的任务。
4.文本检测识别任务可以被分解为文本检测任务和文本识别任务,在工厂环境中,由于某些场景处于快速移动的状态,因此需要文本检测达到一定的速度,才可以流畅地显示。而对于文本识别则更注重于精度,低精度的文本识别容易传递错误的信息,使人们产生误解。因此对于图像中的文本我们需要足够高的准确度来获取其所表达的语义。在近年来的研究中,得益于深度学习在目标检测等研究领域的巨大成就,文本检测也因此取得了巨大进步。同时轻量网络的出现,促进了文本检测速度的大幅上涨。
5.在以上背景条件下,将文本检测识别技术应用于工业货箱运输有着重要的意义,用以检测复杂环境下货箱编号的存在,判断是否为标有编号的货箱,提升运输的准确性。并且为下一步的文本别技术奠定坚实的基础。


技术实现要素:

6.本发明的第一个目的是针对现有技术的不足,提供一种轻量级移动状态下工业货箱的文本检测方法。
7.本发明一种轻量级移动状态下工业货箱的文本检测方法,包括以下步骤:
8.步骤(1)、对生产制造流程中移动状态下搬运货箱的货箱标识牌图像;
9.步骤(2)、利用基于双线性特征向量融合的工业货箱文本检测模型对上述货箱标识牌图像实现货箱标识牌上文本信息位置的检测;
10.所述基于双线性特征向量融合的工业货箱文本检测模型包括ghost-resnet骨干
网络、双线性特征向量融合模块、特征金字塔增强和特征融合模块、db语义分割检测头;
11.该模型首先采用resnet18作为骨干网络,用改进的ghost模块替换resnet18的基础残差块。其次采用双分支结构,第一分支使用特征金字塔增强模块提取图像高级和低级信息,第二分支利用本文提出的双线性特征融合向量模块融合不同尺度的特征向量,增强尺度多变的文本特征表达能力,而后特征融合模块级联所有特征向量。最后,采用db语义分割检测头获得最终结果,其中修改损失函数diceloss和maskloss。同时在推理阶段采用自适应阈值分割算法替换固定阈值,更能适应工厂环境的光线变化。
12.(1)、ghost-resnet骨干网络
13.所述ghost-resnet骨干网络采用现有resnet网络为基本框架,将现有resnet网络的每一个基础残差块替换为一个改进的ghost模块,然后在全连接层后加一个卷积层,最终得到所有通道相等的特征图;ms
14.所述改进的ghost模块采用在现有ghost模块嵌入特征增强层squeeze-and-excitation,实现对现有ghost模块中第一个部分卷积之后的特征进行重标定,即通过第一个部分卷积获得特征图α,然后对特征图α进行squeeze-and-excitation特征增强、线性操作、第二个部分卷积得到特征图β,最后将特征图α和特征图β进行拼接得到最终结果;提高重要特征的权重,保证了文本检测网络的精确率和网络的实时性。
15.作为优选,resnet网络采用resnet18,resnet18在提取特征方面有较好的性能,同时网络计算量小。深层卷积神经网络中通常由大量的卷积操作组成,这就需要大量的计算量,大多数方法采用逐点卷积来处理跨通道的特征,然后采用深度卷积来处理空间信息,以此来减少网络的计算量。普通的卷积操作会产生大量的冗余信息。
16.(2)、双线性特征向量融合模块
17.工厂环境复杂,在不同视角下存在大量尺度不同的文本,因此为了融合不同尺度的文本特征,增强尺度多变的文本特征表达能力,大多数目标检测选择了注意力融合机制,但是注意力融合机制的运算量普遍较大,为了提高检测速度,本发明在注意力机制的基础上做了进一步的改进,即双线性特征向量融合模块。
18.所述双线性特征向量融合模块包括依次级联的池化层、特征向量融合模块;双线性特征融合向量模块融合不同尺度的特征向量,增强尺度多变的文本特征表达能力。
19.所述池化层用于接收所述ghost-resnet骨干网络输出的若干通道相等的特征图,然后将所有特征图大小统一;其中每个特征图包括m个特征向量;
20.所述特征向量融合模块采用针对当前工厂环境改进的改进lstm网络,抛弃了现有lstm中的长期记忆,只保留短期记忆以提高检测效率,用于将所述池化层输出的所有特征图融合;
21.所述改进lstm网络具体操作如下:
[0022][0023]ft
=conv([h
t-1
,x
t
])
[0024]it
=σ(wi×
[h
t-1
,x
t
] bi)
[0025]ct
=tanh(wc×
[h
t-1
,x
t
] bc)
[0026]
其中conv为卷积层,c
t
为tanh函数,σ为sigmoid函数,h
t
为改进lstm网络对某一特
征图中第t个特征向量x
t
的输出,wi,bi分别为sigmoid函数的权重和偏置,wc,bc分别为sigmoid函数的权重和偏置,m为特征向量的数量,[h
t-1
,x
t
]表示对h
t-1
和x
t
的拼接;
[0027]
(2)、特征金字塔增强和特征融合模块
[0028]
所述特征金字塔增强和特征融合模块包括依次级联的特征金字塔增强层(fpem)和特征融合层(ffm);
[0029]
所述特征金字塔增强层(fpem)接收ghost-resnet骨干网络输出的特征图进行级联,产生不同层次的特征f1,f2…fm
,并送入特征融合层(ffm);实现对高低层的语义信息进行融合,提高网络检测不同尺度的目标的精度。
[0030]
所述特征融合层(ffm)接收双线性特征向量融合模块的输出,并利用上采样操作将特征向量扩张为通道数为128、大小为原图1/4的特征图f;然后将所述特征金字塔增强层(fpem)产生的特征f1,f2…fm
进行逐层次融合,再将其与特征图f进行拼接操作获得通道数为5
×
128,大小为原图1/4的最终特征图;
[0031]
所述特征金字塔增强模型(fpem)能够通过融合低级和高级信息来增强不同尺度的特征,且fpem是可级联的模块,随着级联层数的增加,不同尺度的特征图会得到更充分的融合,特征图的感受野也随之增大。此外,因为fpem是通过可分解卷积构建的,其计算开销非常小,仅为fpn的1/5左右。
[0032]
(4)、db语义分割检测头
[0033]
所述db语义分割检测头用于根据所述特征金字塔增强和特征融合模块输出的特征图进行处理,获取包围框置信度、大小和位置;
[0034]
所述db语义分割检测头包括卷积层、自适应阈值db算法层、交运算层、膨胀层;
[0035]
所述卷积层根据所述特征金字塔增强和特征融合模块输出的特征图,得到概率图;
[0036]
所述自适应阈值db算法层采用将现有db算法中固定阈值更换为自适应阈值;
[0037]
推理阶段,所述自适应阈值db算法层通过设置九宫格掩模对概率图进行如下公式自适应阈值计算,获得阈值图;
[0038][0039][0040]
其中x,y为概率图中的坐标,f
x,y
是坐标为(x,y)的像素值,c为自适应阈值算法求得的阈值,p
x i,y j
为概率图坐标为(x i,y j)的像素值,f'
x,y
是阈值图中坐标为(x,y)的像素;
[0041]
所述交运算层对概率图和阈值图进行交运算,获取包围框;
[0042]
所述膨胀层对包围框进行膨胀,膨胀的倍数为d'=(a'
×
r')/l',a'为包围框的面积,l'为包围框的周长,r'为膨胀系数,被设定为1.8;
[0043]
本发明的第二个目的是提供轻量级移动状态下工业货箱的文本检测系统,包括:
[0044]
货箱标识牌图像采集模块,获取生产制造流程中移动状态下搬运货箱的货箱标识牌图像;
[0045]
文本检测模块,利用训练好的基于双线性特征向量融合的工业货箱文本检测模型对货箱标识牌图像识别货箱标识牌上文本信息位置。
[0046]
本发明的第三个目的是提供一种计算机可读存储介质,其上存储有计算机程序,当所述计算机程序在计算机中执行时,令计算机执行所述的方法。
[0047]
本发明的第四个目的是提供一种计算设备,包括存储器和处理器,所述存储器中存储有可执行代码,所述处理器执行所述可执行代码时,实现所述的方法。
[0048]
本发明有益效果如下:
[0049]
为了能够训练新型轻量网络框架并评估它的优势,本发明创建了一个复杂工厂环境下的货箱文字数据集,数据集中包含了不同种类的货箱,不同视角下、不同形状的文字。实验表明,在实际工厂环境下,本发明提出的新型轻量级网络框架rgffd对货箱上的文字在实时性和精确度方面都优于其他的网络框架。
[0050]
本发明提出了新型的轻量网络架构来解决实际工业场景中移动设备的文字检测,并达到了可观的精确度。制作了一个货箱文字数据集对模型进行训练和评估,并最终在线部署。在自定义数据集上,本发明的模型在识别精度和泛化能力上都超过了主流的文字检测方法。
[0051]
本发明引入改进的ghost模块,网络计算量更少;本发明采用双线性特征向量融合模块只需要经过简单的线性操作,就可以完成不同尺度特征向量的融合,因此在不影响实时性的同时,增加了网络检测的精确率;本发明在检测头中采用db的算法,用动态的自适应阈值代替固定阈值,能更好地汇集周围的环境特征来提高检测精度。
附图说明
[0052]
图1为基于双线性特征向量融合的工业货箱文本检测模型架构图;
[0053]
图2为ghost模块改进图;
[0054]
图3为squeeze-and-excitation结构图;
[0055]
图4为特征融合模块细节图;
[0056]
图5为ffm细节图;
[0057]
图6为db算法图。
具体实施方式
[0058]
下面结合附图和实施例对本发明作进一步说明。
[0059]
一种轻量级移动状态下工业货箱的文本检测方法,其特征在于包括以下步骤:
[0060]
步骤(1)、对生产制造流程中移动状态下搬运货箱的货箱标识牌图像;
[0061]
步骤(2)、利用基于双线性特征向量融合的工业货箱文本检测模型对上述货箱标识牌图像实现货箱标识牌上文本信息位置的检测;
[0062]
如图1所述基于双线性特征向量融合的工业货箱文本检测模型包括ghost-resnet骨干网络、双线性特征向量融合模块、特征金字塔增强和特征融合模块、db语义分割检测头;
[0063]
1)ghost-resnet骨干网络:
[0064]
首先将resnet18中的所有基础残差块替换为改进的ghost模块,如附图1的骨干网
络所示,最后将网络的输出结果进行1
×
1卷积得到所有通道相等的特征图。附图2展示了ghost模块的改进方法,该方法首先通过部分卷积获得特征图α,然后对特征图α进行squeeze-and-excitation特征增强、线性操作、部分卷积得到特征图β,最后将特征图α和特征图β进行拼接得到最终结果。该方法在进行特征增强时所需要的网络计算量更少,ghost模块部分卷积操作只产生通道数为n/2的特征图,因此只需要对一半的特征图进行特征增强。在高速运动环境下,需要网络检测图片的速率达到20fps以上,才可以清晰地显示图片,所以该方法能减少网络计算量,提升网络检测速率。
[0065]
如附图3所示,squeeze-and-excitation模块采用特征重标定的策略,通过学习的方式来自动获取每个特征通道的重要程度,并依照重要程度去提升关键的特征并抑制非关键的特征。其中有三个关键的技术部分:squeeze,excitation,reweight。
[0066]
squeeze操作,通过空间维度来进行特征压缩,利用全局平均池化操作将每个二维的特征通道变成一个实数,且输出的维度和输入的特征通道数是相同的。其计算公式为:
[0067][0068]
其中,h,w分别表示特征图的高度和宽度,uc(i,j)为特征图每个通道中坐标为(i,j)的特征值。
[0069]
excitation操作,引入了循环神经网络中门机制,通过两个全连接操作组成bottleneck结构,以此建模通道间的相关性。首个全连接层将特征维度降低到输入的1/16,然后经过relu激活后再通过一个全连接层恢复到原来的维度。该操作可以极大地减少了参数量和计算量。其计算公式为:
[0070]
sc=f
ex
(zc,w)=σ(g(zc,w))=σ(w2δ(w1zc))
[0071]
其中,zc为squeeze的输出,w1,w2为权重,δ为relu操作。
[0072]
reweight操作将excitation的输出的权重看作是经过特征选择后的每个特征通道的重要性,通过乘法逐通道加权到先前的特征上,完成原特征的重标定,公式为:
[0073][0074]
其中,us为特征图中的一个通道,sc为excitation输出的权重。而后再进行残差模块的网络短接操作。
[0075]
2)双线性特征向量融合模块:
[0076]
特征向量融合模块的核心成分是lstm网络,lstm首先被应用在文本识别,有效解决了长短期记忆的问题,如附图4所示。该模块舍弃了长期记忆,依次将骨干网络输出的特征图分成m个特征向量,依次将特征向量和上一次循环的输出拼接作为输入,将不同层次的特征向量依次输入到特征向量融合模块中。其中tanh网络创建一个可以存储的向量c
t
,sigmoid网络层为此向量中的每个值输出一个介于0和1之间的数值i
t
,决定要存储哪些状态值,最后通过简单的逐像素相乘进行融合,最后得到融合结果与经过卷积层的输入向量进行逐像素相加得到结果。通过训练,可以使最后一个特征向量对应的输出存储了所有特征向量重要的信息。
[0077]
双线性特征向量融合模块公式化为:
[0078][0079]ft
=conv([h
t-1
,x
t
]),
[0080]it
=σ(wi×
[h
t-1
,x
t
] bi),
[0081]ct
=tanh(wc×
[h
t-1
,x
t
] bc)
[0082]
其中conv为卷积层,c
t
为tanh函数,σ为sigmoid函数,h
t
为该模块的输出,x
t
为第t个特征向量,wi,wc,bi,bc为权重,m为特征向量的数量。
[0083]
3)特征金字塔和特征融合模块:
[0084]
附图5展示了特征金字塔增强(fpem)和特征融合模块(ffm)的细节,首先将骨干网络输出的特征图送入fpem级联产生不同层次的特征f1,f2…fm
。然后将双线性特征向量融合模块的输出采用上采样操作将特征向量的通道数扩张为通道数为128、大小为原图1/4的特征图f。接着将特征f1,f2…fm
进行逐层次融合。最后将融合后的特征与特征图f进行拼接操作获得通道数为5
×
128,大小为原图1/4的最终特征图。
[0085]
4)db语义分割检测头:
[0086]
推理阶段如附图6所示,本文采用自适应阈值替换固定阈值来获取阈值图。最终文本框的获取有三个步骤:1)检测头输入概率图,其值范围为[0,1],dbnet设定常数阈值(0.2)来获取阈值图,本文不设定固定的阈值来获取阈值图,而是通过设置九宫格掩模对概率图进行自适应阈值计算获得阈值图,自适应阈值计算公式为:
[0087][0088][0089]
其中x,y为图像中的坐标,f
x,y
是坐标为(x,y)的像素值,c为自适应阈值算法求得的阈值,p
x i,y j
为原图坐标为(x i,y j)的像素值,f'
y,y
是坐标为(x,y)的阈值。2)从概率图和阈值图中获取连接区域;3)扩大文本区域,进行膨胀,扩大的倍数为d’=(a'
×
r')/l',a'为包围框的面积,l'为包围框的周长,r'为扩张系数,被设定为1.8。
[0090]
在训练阶段,概率图和阈值图通过二值化操作得出额外的二值图。其中,值为1的地方代表着有文字的区域,其余地方值为0。标准的二值化操作:
[0091][0092]
其中,b为二值图,p为概率图,t为阈值图,(i,j)为图中对应的坐标。
[0093]
总的损失函数l可以表示为概率图的损失、二值图的损失与阈值图的损失的加权和:
[0094]
l=ls α
×
lb β
×
l
t
[0095]
其中,ls是概率图的损失值,lb是二值图的损失值,l
t
是阈值图的损失。其中α和β为超参数,分别被设置为5和10。其中ls和lb分别使用diceloss损失函数来进行训练。
[0096]
diceloss常用于医学图像分割,其目的就是为了解决前景比例太小的问题。其计算公式为:
[0097][0098]
其中pred为预测值,gt为ground-truth,diceloss损失函数特点就是收敛速度快,且收敛速度优于交叉熵等分类损失函数。l
t
采用mask l1 loss损失函数来进行训练,通过掩模来进行l
t
损失函数的计算。其计算公式为:
[0099][0100]
其中,l
t
损失为平均绝对差值,而后增加了mask掩模,对mask指定的区域进行l
t
损失函数的计算,n为膨胀后的图像区域在mask掩模下需要进行计算的数量总和。绝对值为预测文本框与ground-truth的距离差值。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献