一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

基于DB与CRNN的特种作业证件检测方法及系统与流程

2021-11-03 20:54:00 来源:中国专利 TAG:

基于db与crnn的特种作业证件检测方法及系统
技术领域
1.本发明涉及光学字符识别技术领域,特别是涉及一种基于db与crnn的特种作业证件检测方法及系统。


背景技术:

2.在5g基站施工过程中,施工人员具有合格有效的特种作业证件,是施工过程中不可或缺的安全保障。目前关于特种作业证件的检测多是以人工方式进行的,检测效率低下,且不能及时有效地得到特种作业证件检测的反馈。


技术实现要素:

3.本发明的目的是提供一种基于db与crnn的特种作业证件检测方法及系统,以达到降低人工工作量并提高证件图像检测效率的目的。
4.为实现上述目的,本发明提供了如下方案:
5.一种基于db与crnn的特种作业证件检测方法,包括:
6.获取特种作业证件图像数据集;所述特种作业证件图像数据集包括多张目标特种作业证件图像,且每张所述目标特种作业证件图像均有文本信息;将每张所述目标特种作业证件图像输入到db文本检测网络模型,以确定每张所述目标特种作业证件图像对应的文本框数据集合;所述文本框数据集合中的元素表示目标文本框的位置信息;将每张所述目标特种作业证件图像以及每张所述目标特种作业证件图像对应的文本框数据集合输入到crnn文本识别网络模型中,以确定每张所述目标特种作业证件图像中每个所述目标文本框内的文本信息;所述文本信息包括施工人员姓名、施工人员性别、证件号、作业类别以及证件有效日期中的至少一种;
7.其中,所述db文本检测网络模型是基于db文本检测网络和第一训练数据集训练得到的;所述db文本检测网络中的backbone模块采用的是mobilenetv3

large结构;所述第一训练数据集中的每个元素均包括历史特种作业证件图像以及所述历史特种作业证件图像对应的第一类别标签;所述第一类别标签为历史文本框的位置信息;所述crnn文本识别网络模型是基于crnn文本识别网络和第二训练数据集训练得到的;所述crnn文本识别网络中的cnn模块的部分结构采用的是mobilenetv3

small结构;所述第二训练数据集中的每个元素均包括历史特种作业证件图像以及所述历史特种作业证件图像对应的第二类别标签;所述第二类别标签为历史文本信息。
8.一种基于db与crnn的特种作业证件检测系统,包括:
9.数据获取模块,用于获取特种作业证件图像数据集;所述特种作业证件图像数据集包括多张目标特种作业证件图像,且每张所述目标特种作业证件图像均有文本信息;文本框数据集合确定模块,用于将每张所述目标特种作业证件图像输入到db文本检测网络模型,以确定每张所述目标特种作业证件图像对应的文本框数据集合;所述文本框数据集合中的元素表示目标文本框的位置信息;文本信息确定模块,用于将每张所述目标特种作业
证件图像以及每张所述目标特种作业证件图像对应的文本框数据集合输入到crnn文本识别网络模型中,以确定每张所述目标特种作业证件图像中每个所述目标文本框内的文本信息;所述文本信息包括施工人员姓名、施工人员性别、证件号、作业类别以及证件有效日期中的至少一种;
10.其中,所述db文本检测网络模型是基于db文本检测网络和第一训练数据集训练得到的;所述db文本检测网络中的backbone模块采用的是mobilenetv3

large结构;所述第一训练数据集中的每个元素均包括历史特种作业证件图像以及所述历史特种作业证件图像对应的第一类别标签;所述第一类别标签为历史文本框的位置信息;所述crnn文本识别网络模型是基于crnn文本识别网络和第二训练数据集训练得到的;所述crnn文本识别网络中的cnn模块的部分结构采用的是mobilenetv3

small结构;所述第二训练数据集中的每个元素均包括历史特种作业证件图像以及所述历史特种作业证件图像对应的第二类别标签;所述第二类别标签为历史文本信息。
11.根据本发明提供的具体实施例,本发明公开了以下技术效果:
12.本发明采用db文本检测网络模型和crnn文本识别网络模型,能够快速准确地完成特种作业证件图像的检测。db文本检测网络模型可以很好地适应轻量级网络作为特征提取模块,在保证模型轻量化后无需消耗额外内存、时间的情况下,快速地预测特种作业证件中对应文本并采用边框标记出文本区域,将文本区域从图像中提取出来,获得文本目标的边框信息。crnn文本识别网络模型对预测所得的文本框图像进行文本识别,针对特种作业证件图像数据均为短文本的情况,crnn文本识别网络模型可以引入bilstm、ctc机制,加强对文本特征序列的全局性预测并直接在短文本(行级标注)中学习,无须用于学习训练额外详细字符级标注,从而提高文本识别的准确率和效率。
附图说明
13.为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
14.图1为本发明基于db与crnn的特种作业证件检测方法的流程示意图;
15.图2为本发明基于db与crnn的特种作业证件检测系统的结构示意图;
16.图3为本发明基于db与crnn的特种作业证件检测方法的整体流程图;
17.图4为本发明db文本检测网络整体结构示意图;
18.图5为本发明crnn文本识别网络整体结构示意图。
具体实施方式
19.下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
20.为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实
施方式对本发明作进一步详细的说明。
21.本发明使用深度学习模型中的光学字符识别技术,对特种作业证件图像进行高效检测。现有的基于深度学习的光学字符识别方法主要采用两阶段模式:文本检测和文本识别。本发明使用的db(英文全称:differentiable binarization)算法从像素层面上,把二值化操作放入网络中同时优化,使每个像素点的阙值都能够自适应预测,db算法以一种近似的方法实现在与分割网络一同使用时,完成二值化可微,从而简化了后处理过程,加快对目标的检测速度。本发明使用的crnn(英文全称:convolutional recurrent neural network)算法是采用cnn、lstm(long short term memory)、ctc(connectionist temporal classification)的组合方法,引入ctc方法来解决训练时字符无法对齐的问题,无需像attention ocr需要进行串行解码操作,使网络结构更加优化。
22.实施例一
23.本实施例公开了一种基于db与crnn的特种作业证件检测方法,从证件图像数据集中预测文本位置,并识别文本的具体信息,以支持对特种作业证件的检测,从而对特种作业证件进行合格判断,属于计算机视觉识别领域,特别是属于光学字符识别领域。请参见图1,本实施例提供的一种基于db与crnn的特种作业证件检测方法,包括如下步骤。
24.步骤101:获取特种作业证件图像数据集;所述特种作业证件图像数据集包括多张目标特种作业证件图像,且每张所述目标特种作业证件图像均有文本信息。步骤102:将每张目标特种作业证件图像输入到db文本检测网络模型,以确定每张所述目标特种作业证件图像对应的文本框数据集合;所述文本框数据集合中的元素表示目标文本框的位置信息。步骤103:将每张所述目标特种作业证件图像以及每张所述目标特种作业证件图像对应的文本框数据集合输入到crnn文本识别网络模型中,以确定每张所述目标特种作业证件图像中每个所述目标文本框内的文本信息;所述文本信息包括施工人员姓名、施工人员性别、证件号、作业类别以及证件有效日期中的至少一种。步骤103:将每张所述目标特种作业证件图像以及每张所述目标特种作业证件图像对应的文本框数据集合输入到crnn文本识别网络模型中,以确定每张所述目标特种作业证件图像中每个所述目标文本框内的文本信息;所述文本信息包括施工人员姓名、施工人员性别、证件号、作业类别以及证件有效日期中的至少一种。步骤104:基于所述文本信息,确定每张所述特种作业证件是否符合施工作业要求。
25.步骤102具体为:对每张所述目标特种作业证件图像进行预处理。此预处理过程与实施例三的预处理过程相同,在此不再过多赘述。将每张预处理后的目标特种作业证件图像输入到db文本检测网络模型,以确定每张所述目标特种作业证件图像对应的文本框数据集合。
26.步骤103具体为:对每张所述目标特种作业证件图像进行预处理。此预处理过程与实施例三的预处理过程相同,在此不再过多赘述。将每张预处理后的目标特种作业证件图像以及每张预处理后的目标特种作业证件图像对应的文本框数据集合输入到crnn文本识别网络模型中,以确定每张所述目标特种作业证件图像中每个所述目标文本框内的文本信息。
27.所述db文本检测网络模型是基于db文本检测网络和第一训练数据集训练得到的;所述db文本检测网络中的backbone模块采用的是mobilenetv3

large结构;所述第一训练
数据集中的每个元素均包括历史特种作业证件图像以及所述历史特种作业证件图像对应的第一类别标签;所述第一类别标签为历史文本框的位置信息。所述crnn文本识别网络模型是基于crnn文本识别网络和第二训练数据集训练得到的;所述crnn文本识别网络中的cnn模块的部分结构采用的是mobilenetv3

small结构;所述第二训练数据集中的每个元素均包括历史特种作业证件图像以及所述历史特种作业证件图像对应的第二类别标签;所述第二类别标签为历史文本信息。db文本检测网络模型和crnn文本识别网络模型的训练过程请参见实施例三,在此不过多赘述。
28.实施例二
29.请参见图2,本实施例提供的特种作业证件检测系统,包括:
30.数据获取模块201,用于获取特种作业证件图像数据集;所述特种作业证件图像数据集包括多张目标特种作业证件图像,且每张所述目标特种作业证件图像均有文本信息。文本框数据集合确定模块202,用于将每张所述目标特种作业证件图像输入到db文本检测网络模型,以确定每张所述目标特种作业证件图像对应的文本框数据集合;所述文本框数据集合中的元素表示目标文本框的位置信息。文本信息确定模块203,用于将每张所述目标特种作业证件图像以及每张所述目标特种作业证件图像对应的文本框数据集合输入到crnn文本识别网络模型中,以确定每张所述目标特种作业证件图像中每个所述目标文本框内的文本信息;所述文本信息包括施工人员姓名、施工人员性别、证件号、作业类别以及证件有效日期中的至少一种。检测模块204,用于基于所述文本信息,确定每张所述特种作业证件是否符合施工作业要求。
31.文本框数据集合确定模块202具体为:对每张所述目标特种作业证件图像进行预处理。此预处理过程与实施例三的预处理过程相同,在此不再过多赘述。将每张预处理后的目标特种作业证件图像输入到db文本检测网络模型,以确定每张所述目标特种作业证件图像对应的文本框数据集合。
32.文本信息确定模块203具体为:对每张所述目标特种作业证件图像进行预处理。此预处理过程与实施例三的预处理过程相同,在此不再过多赘述。将每张预处理后的目标特种作业证件图像以及每张预处理后的目标特种作业证件图像对应的文本框数据集合输入到crnn文本识别网络模型中,以确定每张所述目标特种作业证件图像中每个所述目标文本框内的文本信息。
33.db文本检测网络模型和crnn文本识别网络模型详细内容参见实施例一。db文本检测网络模型和crnn文本识别网络模型的训练过程请参见实施例三,在此不过多赘述。
34.实施例三
35.在5g基站施工过程中,特种作业证件图像组成的证件图像数据集,具有文本纵横比大、规范有序、数据量大的特点。基于回归的文本检测方法,虽然对规则形文本能获得准确的文本对象,但是使用预设形状的文本框无法很好地描述某些特殊形状的文本(如纵横比过大或者弧形);而基于分割类的psenet和lsae的目标检测方式,虽然能检测不规则形状文本,但需要复杂的后处理后,才能对像素级别的结果进行组成以形成文本行,且预测开销较大,不能满足在大量数据下快速完成检测的需求。
36.本发明采用db文本检测网络模型,通过将二值化操作可微,从而解决了基于分割方法的后处理过程复杂、耗时严重的问题,提高检测速度,使其能够快速检测大量证件类图
像数据。同时,在关于文本识别方法的选择中,attention ocr存在对于训练样本要求较高、在转录层需要额外计算参数且检测速度较慢的问题,故本发明针对特种作业证件图像均为短文本的情况,选择采用了检测速度更快,对短文本段识别精度更高、且无需额外计算参数的crnn文本识别网络模型,以保证文本识别和检测的高效性。
37.因此,本发明基于db文本检测网络模型与crnn文本识别网络模型,首先人工筛选排除低质量特种作业证件图像,然后使用半自动标注方式获得高标准的图像数据集和训练数据集,基于半自动标注的方式可快速完成特种作业证件图像的标注,并保证标注结果的高准确率。接着通过db文本检测网络训练数据集进而预测并框定特种作业证件图像中的文本位置,再采用crnn文本识别网络训练数据集进而识别标定位置内的文本信息。针对特种作业证件图像具有规整、类型单一且易检测的特性,选择mobilenetv3网络作为两个db文本检测网络模型与crnn文本识别网络模型的特征提取模块,在保证检测准确率的同时,使模型轻量化、提升检测速度。在特种作业证件图像检测阶段,基于db文本检测网络模型与crnn文本识别网络模型预测识别的证件图像文本信息,通过自定义的判断逻辑进一步推断特种作业证件图像中的证件类别及有效期限,从而快速地完成特种作业证件的安全检测。
38.请参见图3,本发明实施例提供的一种基于db与crnn的特种作业证件检测方法分为4个步骤。
39.步骤(1):生成证件图像数据集。具体为:从5g基站施工现场,获取施工人员的特种作业证件图像;每张特种作业证件图像上均包括施工人员的姓名、性别、证件号、作业类别、证件有效日期等;其次使用半自动标注工具对每张特种作业证件图像进行快速标注,得到标注数据集,然后对标注数据集进行数据预处理;最后将预处理后的标注数据集(即生成的证件图像数据集)进行训练集和测试集的划分。步骤(2):db文本检测网络的构建和训练。具体为:依次构建db文本检测网络的backbone模块、neck模块、head模块。backbone模块采取mobilenetv3

large结构,backbone模块作为特征金字塔,对输入的图像进行特征提取,得到特征图像;neck模块采用fpn(feature pyramid networks)结构,对所得的特征图像进行进一步处理;head模块对处理后的特征图像作输出处理,预测概率图和阈值图,并基于概率图和阈值图得出近似二值图。准备训练所需的文件和设置训练所需的参数后,基于步骤(1)中的训练集对db文本检测网络进行训练。步骤(3):crnn文本识别网络的构建和训练。具体为:依次构建crnn文本识别网络的cnn模块、bilstm(bi

directional long short

term memory)模块及ctc网络结构。cnn模块部分采取mobilenetv3

small结构,用于提取文本图像的特征;bilstm模块将提取所得的特征图像用于特征向量融合,进而提取字符序列的上下文特征,得到每列特征的概率分布;ctc网络结构将隐向量概率分布输入,从而预测得到文本序列。准备训练所需的文件和设置训练所需的参数后,基于步骤(1)中的训练集对crnn文本识别网络进行训练。步骤(4):检测施工人员的特种作业证件,具体为:通过db文本检测网络模型对待检测证件图像进行预测,得到目标文本框及坐标位置信息后,再通过crnn文本识别网络模型对目标文本框中的文本进行识别,最后通过自定义的特种作业证件判断逻辑,实现对特种作业证件的检测。
40.步骤(1)具体包括:
41.1.1:图像标注;具体为:通过5g基站施工现场取样得到的特种作业证件图像数据集存在证件中文字被遮挡、证件曝光过度、模糊、文字不清晰、证件占比图像过小、一张图像
出现多张证件而无法确切分类识别等现象的低质量样本,需要进行人工筛选排除,从而得到原始证件图像数据集l={l1,l2,...,l
n
}。
42.原始证件图像数据集l具有的特性为:(1)特种作业证件图像数据相比其他类图像数据(如门店招牌、街上路标、衣服吊牌等)中的文本位置,具有规整、有序、易标注的特点。(2)特种作业证件图像中固定存在姓名、性别、证号、作业类别、初领日期、有效期限等文本信息。(3)证件文字清晰可见、无遮挡且证件占比符合图像要求比例(如80%)。(4)证件图像类型单一,容易实现文本检测与文本识别。
43.针对以上特性,本发明实施例经过比对人工标注方法和半自动标注方法,发现半自动标注方法对于具有规整有序、易标注特性的证件图像,可明显地提高标注效率。因此对于标注原始证件图像数据集l的过程,采用了半自动标注方法。半自动标注过程如下,即步骤1.1.1~1.1.2。
44.1.1.1:根据原始证件图像数据集l,使用ppocrlabel(paddle paddle ocrlabel),对原始证件图像数据集l进行半自动标注过程的自动标注。ppocrlabel使用内置ocr模型(包括文本检测模型和文本识别模型)对原始证件图像数据集l进行图像中的文本预测,并框出相应文本,进而识别框内文本,得到自动标注的数据集l',l'={l'1,l'2,...,l'
n
},l'
i
={l'
i1
,l'
i2
,...,l'
it
}。每张标注图像l'
i
中存在t个文本预测框,t的数量因证件图像为规范的图像数据,故t始终为一个固定值,l'
ii
={l'
ii1
,l'
ii2
,l'
ii3
,l'
ii4
,l'
ii

t
},对应每个自动标注图像存在5个数据值,l'
ii1
、l'
ii2
、l'
ii3
、l'
ii4
分别代表自动标注图像l'
i
预测所得文本框l'
ii
的左上角坐标、左下角坐标、右上角坐标、右下角坐标,l'
ii

t
代表自动标注图像l'
i
预测所得文本框l'
ii
中的文本内容。
45.1.1.2:对数据集l'进行半自动标注过程的第二步工作,即人工筛选并确认。若出现未预测到文本框、文本框坐标值错误的情况,则手动修正坐标值;若出现文本框内文字识别错误的情况,则手动修正文本框内文字内容,从而得到标注数据集x,x={x1,,x2,...,x
n
}。标注数据集中的每张证件图像x
i
有t个文本预测框,x
i
={x
i1
,x
i2
,...,x
it
},对应每个文本预测框x
ii
中有5个数据值,x
ii
={x
ii1
,x
ii2
,x
ii3
,x
ii4
,x
ii

t
},x
ii1
、x
ii2
、x
ii3
、x
ii4
分别为文本预测框的左上角坐标、左下角坐标、右上角坐标、右下角坐标,x
ii

t
为文本预测框内的文本内容。标注完成后得到标注数据集x和对应的标注结果注释文件label,可用于训练db文本检测网络和crnn文本识别网络,其中,x
ii1
、x
ii2
、x
ii3
、x
ii4
训练db文本检测网络时的标签,x
ii

t
训练crnn文本识别网络时的标签。
46.1.2:数据集划分,具体为:将步骤1.1中的标注数据集x划分为训练集x
train
和测试集x
test
两部分,训练集x
train
用于训练db文本检测网络和crnn文本识别网络,占比80%;测试集x
test
用于测试训练过后的db文本检测网络和训练过后的crnn文本识别网络,占比20%。
47.1.3:数据预处理,具体为:
48.1.3.1:对标注数据集x进行解码,具体为:输入标注数据集x,依次对标注数据集x中的原始图像x
i
中的数据转换成uint8类型的矩阵,然后进行解码,即将图像从jpeg的格式还原成一个三维矩阵,解码后的图像颜色格式为bgr(blue
×
green
×
red),矩阵维度按hwc(height
×
weight
×
channel)顺序排列,得到图像的像素矩阵数据集x
m
={x
1m
,x
2m
,...,x
nm
}。
49.1.3.2:对像素矩阵数据集x
m
进行归一化,具体为:输入像素矩阵数据集x
m
,将像素
矩阵数据集x
m
中的图像x
im
(i=1,2,...,n)中的每个像素点映射至区间[0,1]中,映射过程是先将像素点除以255,此处255为线性变换参数(该线性变换参数用于将像素值从区间[0,255]转化至区间[0,1]),再减去对应通道的平均值,最后除以对应通道的标准差,得到归一化结果数据集x'
m

[0050]
1.3.3:对归一化结果数据集x'
m
重新排列,具体为:输入归一化结果数据集x'
m
,对归一化结果数据集x'
m
中的图像x'
im
进行像素点重新排列,将图像矩阵维度从hwc格式(height
×
width
×
channel)变换为chw格式(channel
×
height
×
width),得到新的证件图像数据集x”m

[0051]
1.3.4:对证件图像数据集x”m
进行图像缩放,具体为:输入证件图像数据集x”m
,当证件图像数据集x”m
中的图像x”im
长度或宽度超过规定的最大尺寸或小于规定的最小尺寸,则对图像尺寸进行缩放,缩放过程为在限定的边长范围内,将超过限定的边长缩放至32的整数倍,出现的空白区域用0填充,从而得到预处理完成的证件图像数据集x”。
[0052]
步骤(2)具体包括:
[0053]
2.1:输入图像预处理,具体为:在输入db文本检测网络前,对经过步骤1.3预处理所得的证件图像数据集x”进行尺度变换。具体过程为:对证件图像数据集x”中的图像调整为符合db文本检测网络中backbone模块运算的输入尺寸(640
×
640
×
3)(宽度像素值
×
高度像素值
×
rgb(red
×
green
×
blue)三通道),经尺度变换调整后得到处理后的数据集x'
db
,用于输入步骤2.2特征提取模块backbone。若不经过上述尺度变换,则图像输入尺寸与预设的长宽比(640
×
640
×
3)不同,进而经过步骤2.3特征增强模块fpn中的上采样操作后会不断产生一个像素的差距,将导致步骤2.3中对图像之间的合并操作无法进行。
[0054]
2.2:构建特征提取模块backbone,具体为:输入经过步骤2.1处理完成后所得的证件图像数据集x'
db
,针对步骤1.1中所描述的特种作业证件图像具有规整、类型单一、且易实现文本检测的特性,在本步骤中采用mobilenetv3

large网络作为db文本检测网络的特征提取backbone模块,保证模型对图像特征提取的高准确率情况下,减小模型大小并提升检测速度。该mobilenetv3

large网络对证件图像数据集x'
db
中的图像x'
idb
(i=1,2,...,n)进行特征信息的提取,从而输出四张特征图像k2~k5。mobilenetv3

large的网络结构如表1所示。
[0055]
表1特征提取mobilenetv3

large网络的网络结构表
[0056]
[0057][0058]
在mobilenetv3

large网络中,由conv、bneck_mix1、bneck_mix2、bneck_mix3、bneck_mix4、pool模块组成。(1)conv模块对经过预处理的特征图像k0进行卷积操作得到特征图像k1,特征图像k0为经过步骤1.3和步骤2.1预处理后的图像,并采用h

swish近似激活函数(2

1)替代swish公式作为激活函数进行激活,减小计算开销,提升计算速度。(2)bneck模块由一个1
×
1卷积核、一个3
×
3深度卷积或5
×
5深度卷积核(当bneck模块为3
×
3深度可分离卷积时,采用3
×
3深度卷积核;当bneck模块为5
×
5深度可分离卷积时,采用5
×
5深度卷积核)、一个1
×
1逐点卷积核组成;先使用1
×
1卷积核进行特征图的维度提高,使用3
×
3深度卷积核或5
×
5深度卷积核在一个更高维的空间进行卷积操作来提取特征,再将1
×
1逐点卷积核用于对特征图进行维度下降,组合成一个深度可分离卷积,从而降低参数数量和乘加操作的运算量,降至原本使用普通卷积的运算量的九分之一,同时引入轻量级注意力机制模型(squeeze

and

excitation,se),se模型通过学习来自动获取每个特征通道的重要程度,然后依照这一结果去提升有用的特征并抑制对当前任务用处不大的特征,将其用于调整每个通道的权重。bneck_mix1模块由三个采用relu6激活函数(2

2)的bneck模块(3
×
3深度卷积核)组成,此处3
×
3深度卷积核,表示在组成的bneck模块中,采用的深度卷积核大小为3
×
3,后续的5
×
5深度卷积核以及步骤3.2中也为相同概念。bneck_mix2模块由三个采用relu6激活函数的bneck模块(5
×
5深度卷积核)组成。bneck_mix3模块由六个采用h

swish激活函数的bneck模块(3
×
3深度卷积核)组成。bneck_mix4模块由三个采用h

swish激活函数的bneck模块(5
×
5深度卷积核)组成。这些模块分别对特征图像k1、k2、k3、k4进行若干层深度可分离卷积,从而得到特征图像k2、k3、k4、k5。(3)通过conv模块对特征图k5再进行一次卷积操作而得到特征图像k6。pool模块采用平均池化技术对特征图k6进行降采样。在经过pool模块进行特征池化后,再通过1
×
1卷积抽取特征,最后划分为k类输出通道,提取出输入图像的特征图k9。按照表1构建的mobilenetv3

large网络结构,依次将网络的第二层、第三层、第四层、第五层计算得到的特征图k2~k5,按顺序作为步骤2.3特征增强模块neck的输入。
[0059]
[0060]
2.3:构建特征增强模块neck,具体为:将使用步骤2.2获得的输出k2~k5作为本步骤的输入c2~c5,fpn结构部分为db文本检测网络的特征增强neck模块,通过卷积和上采样等操作将输入c2~c5变换为统一尺寸,得到相同大小的p2~p5,最后将p2~p5合并,产生特征图像f。构建的fpn结构如表2所示。
[0061]
表2特征增强模块fpn的网络结构表
[0062]
网络层数模块名称输入特征图像输出特征图像1conv1模块c5(20
×
20
×
160)in5(20
×
20
×
96)2conv1模块c4(40
×
40
×
112)in4(40
×
40
×
96)3conv1模块c3(80
×
80
×
40)in3(80
×
80
×
96)4conv1模块c2(160
×
160
×
24)in2(160
×
160
×
96)5conv2模块in5(20
×
20
×
96)p5(160
×
160
×
24)6conv2模块in4(40
×
40
×
96)p4(160
×
160
×
24)7conv2模块in3(80
×
80
×
96)p3(160
×
160
×
24)8conv2模块in2(160
×
160
×
96)p2(160
×
160
×
24)
[0063]
fpn网络结构由conv1模块、conv2模块组成。(1)conv1模块由一个1
×
1卷积组成,1
×
1卷积用于对输入特征图像c2~c5进行降低通道数操作;其中,对经过降低通道数操作的in2~in5,对in5进行二倍最近邻上采样操作,in4通过与二倍最近邻上采样操作后的in5进行相加得到新的in4,再将新的in4进行二倍最近邻上采样操作,in3通过与二倍最近邻上采样操作后的in4进行相加,得到新的in3,in2采取上述类似步骤与in3相加得到新的in2。(2)conv2模块由一个3
×
3卷积组成,对得到的in2~in5进行卷积特征融合平滑处理,减轻最近邻近插值带来的混叠影响;再将卷积特征融合后的特征图像p3、p4、p5分别进行2、4、8倍上采样操作,最后再将处理完成后的特征图像p2~p5进行逐点相加,得出此层网络的最终特征图像f。此层网络结构对图像c2~c5进行特征提取、上采样、合并操作,从而使低层次高分辨率的信息和高层次强语义的信息结合,得到特征加强后的特征图像f,然后输入步骤2.4的输出模块head。
[0064]
2.4:构建输出模块head。具体为:输入经过步骤2.3处理获得的特征图像f,db_head作为db文本检测网络的输出模块,对特征图像f进行进一步处理,从而输出概率图m
p
(probability map)、阈值图m
t
(threshold map)及近似二值图m
a
(approximate binary map)。构建的db_head网络结构如表3所示。
[0065]
表3输出模块db_head的网络结构表
[0066]
网络层数模块名称输入特征图像输出特征图像1conv模块f(160
×
160
×
96)f1(160
×
160
×
24)2bn模块f1(160
×
160
×
24)f2(160
×
160
×
24)3conv模块f2(160
×
160
×
24)f3(320
×
320
×
6)4bn模块f3(320
×
320
×
6)f4(320
×
320
×
6)5conv模块f4(320
×
320
×
6)f5(640
×
640
×
1)
[0067]
(1)db_head由conv、bn(batch normalization)模块组成,conv模块由一个卷积组成,第一层的卷积为3
×
3卷积,第三、五层的卷积为2
×
2卷积,卷积用于抽取图像特征,bn模块用于对数据进行归一化处理,通过求每一个训练批次数据的均值(2

3)、方差(2

4),使用
求得的均值和方差对该批次的训练数据做归一化(2

5),获得均差为0,方差为1的分布,进行规范化(2

6),即尺度变换和偏移。bn层中涉及公式如下:
[0068][0069][0070]
其中,(2

3)为均值公式;(2

4)为方差公式;(2

5)为归一化公式;(2

6)为重构变换公式;n为mini

batch size(即每次训练,将数据集划分成若干个batch,再划分为更小的mini

batch,进行梯度下降。mini

batch size即mini

batch的数量大小),γ、β为对应特征图的可学习重构参数(每个特征图都只有一对可学习参数:γ、β,用于让网络恢复出原始网络所要学习的特征分布)。
[0071]
(2)概率图m
p
和阈值图m
t
的生成:输入特征图像f,先经过3
×
3卷积层,将特征图通道数(维度)压缩为输入的1/4,然后经过bn层,通过bn操作和relu激活函数(2

7)得到特征图f2,将该特征图输入下一层2
×
2卷积,进行反卷积操作,得到特征图f3,再重复经过bn操作和relu激活函数,重复循环,得到最终的特征图像f5,最后经过sigmoid函数(2

8),输出概率图m
p
和阈值图m
t

[0072][0073]
(3)近似二值图m
a
的生成:通过调用可微二值化公式(2

9)将概率图m
p
和阈值图m
t
组合生成近似二值图m
a

[0074]
在公式(2

9)中,是近似的二值化特征图(approximate binary map),k是放大因子,取值为50,i、j代表坐标信息,p为概率特征图(probability map),t是从db文本检测网络中学习到的自适应阈值图(threshold map)。
[0075]
2.5:计算db文本检测网络回归优化损失
[0076]
向db文本检测网络输入k0,通过正向传播,得到步骤2.4处理完成的概率图m
p
,阈值图m
t
和近似二值图m
a
,由损失函数计算出预测文本框与真实文本框间的损失值,并根据损失值对db文本检测网络的网络参数进行反向调整,用于迭代优化网络参数,提升预测准确率。
[0077]
其中,db文本检测网络回归优化总体损失值l的计算方法如公式(2

10):
[0078]
l=l
s
α
×
l
b
β
×
l
t
ꢀꢀ
(2

10)。
[0079]
l
s
为是计算收缩之后,文本实例概率图m
p
采用的损失值公式(2

11),l
b
为计算二值化之后,收缩文本实例近似二值图m
a
采用的损失值公式(2

11),l
t
是计算二值化阈值图m
t
采用的损失值公式(2

12),α=5,β=10。
[0080][0081]
l
s
和l
b
均采用二值交叉熵损失函数,同时额外采用了难例挖掘策略,即针对模型训练过程中的困难负样本,进行重新训练,用于解决正负样本不均衡问题。公式(2

11)中,s
l
是采样后的数据集,采样比例为正负样本1:3。y
i
为真实标签,x
i
为预测结果。
[0082][0083]
公式(2

12)中,l
t
采用l1距离损失函数,r
d
是g
d
中的像素索引,g
d
为步骤2.3中生成的阈值图m
t
中文本分割区域的集合g,通过偏移量d(2

13)膨胀得到,是阈值图的标签,为阈值图的预测结果。
[0084]
公式(2

13)中,d为偏移量,a和l分别为原始分割区域集合g的面积和周长,r为收缩比例,固定设置为0.4。
[0085]
2.6:固定db文本检测网络的模型参数,具体为:使用步骤1.2中划分出的测试集x
test
对db文本检测网络模型的准确率进行测试。将测试集x
test
输入db文本检测网络模型,并通过步骤1.3~2.5进行预测。依据得出的近似二值图m
a
与实际标注文件label进行比较,若所有实例均被正确预测、无背景部分被预测为实例的情况,则认为该图像预测正确,否则为预测错误。定义将正类预测为正类的数量为v1,将正类错误预测为负类的为v2,通过公式(2

14)计算正确预测得到的正类与数据集中原本所有正类的比例,即模型召回率(recall)。将负类错误预测为正类的数量为v3,通过公式(2

15)测试所有正类中被分为正类的并实际上确实是正类的比例,即精确率(precision)。为了综合评估召回率(recall)和精度(precision)两个指标,设置一个评估分数,即score(2

16)来判断,其中,r为召回率(recall),p为精度(precision)。最终选取对应score最高的db文本检测网络模型作为最终固定的db文本检测网络模型,对应固定的模型参数为
[0086][0087][0088]
步骤(3),具体包括:
[0089]
3.1:输入图像预处理,具体为:在输入crnn文本识别网络前,对经过db文本检测网络预测所得的文本框数据集x
db
中的图像进行尺度变换,得到预处理数据集x
crnn
。具体过程为:先等比例缩放图像,保证图像高度为32,宽度不足320的部分补0,宽高比大于10的样本直接丢弃,得到符合crnn文本识别网络中cnn模块运算的图像输入尺寸(320
×
32
×
3)(宽度像素值
×
高度像素值
×
rgb三通道),并将其作为证件图像数据集x
crnn
输入步骤3.2视觉特征提取模块cnn中。
[0090]
步骤3.3bilstm模块对输入序列的高度要求为1,而步骤3.2cnn模块会对输入的图像降采样32倍,因此步骤3.2的输入图像高度须为32。同时要保证crnn文本识别网络的输入图像尺寸宽高比为固定值,故本网络模型训练过程采用32的倍数320作为宽度值。
[0091]
3.2:构建视觉特征提取模块cnn,具体为:输入经过步骤3.1处理所得的证件图像数据集x
crnn
,将其中的图像x
icrnn
(i=1,2,...,n
×
t),n为标注数据集x中图像个数,每个图像经过db网络预测得到t个文本预测框,故为n
×
t,依次作为特征图像m0输入本模块。针对步骤1.1中所描述的特种作业证件图像具有规整、类型单一、易实现文本识别的特性,该
crnn文本识别网络采用mobilenetv3

small网络作为视觉特征提取模块cnn的模型,在保证模型对图像特征提取的高准确度下,缩小crnn模型大小并提升检测速度。该网络用于提取m0的对应卷积特征,得到提取出的输出特征图像m5,将其输入后续的步骤3.3bilstm模块做文本表达和文本分类。因经过db文本检测网络处理后,输入的图像变为一个个相对原输入图像小很多的小框图像,故采用针对低资源情况下的mobilenetv3

small网络模型能更好地保证速度与检测精度的平衡。mobilenetv3

small的网络结构如表4所示。
[0092]
表4特征提取网络mobilenetv3

small的网络结构表
[0093]
网络层数模块名称输入特征图像输出特征图像1conv模块m0(320
×
320
×
3)m1(160
×
16
×
16)2bneck_mix5模块m1(160
×
16
×
16)m2(160
×4×
24)3bneck_mix6模块m2(160
×4×
24)m3(160
×1×
96)4conv模块m3(160
×1×
96)m4(160
×1×
576)5pool模块m4(160
×1×
576)m5(80
×1×
576)
[0094]
mobilenetv3

small网络中,由conv、bneck_mix5、bneck_mix6、pool模块组成。(1)mobilenetv3

small网络中,输入经过步骤3.1处理所得的证件图像数据集x
crnn
中的图像m0,使用conv模块对图像m0进行卷积操作,得到特征图m1。(2)bneck_mix5模块由三个采用relu6激活函数的bneck模块(3
×
3深度卷积核)组成,bneck_mix6模块由八个采用h

swish激活函数的bneck模块(5
×
5深度卷积核)组成,这些模块分别对特征图像m1、m2进行深度可分离卷积,从而得到特征图像m2、m3。其中bneck模块结构如步骤2.2所述相同。(3)对经过深度可分离卷积操作后的特征图m3再进行一次卷积操作,得到特征图m4,将其输入至pool模块,对m4进行平均池化,即对特征图像划分为80个矩形区域,对每个区域的特征点求平均值,从而缩小图像,得到m5。
[0095]
3.3:构建序列特征提取模块bilstm,具体为:输入经过步骤3.2处理得到的特征图像m5,步骤3.3采用循环神经网络(recurrent neural networks,rnn)的变种,双向长短时记忆网络(bilstm)作为序列特征提取模块,先将其转化为特征向量序列s1后,继续提取文本序列特征,得到隐向量概率分布输出s2。bilstm的网络结构如表5所示。
[0096]
表5序列特征提取模块bilstm的网络结构表
[0097]
网络层数模块名称输入特征图像输出特征图像1reshape模块m5(80
×1×
576)s1(80
×
576)2bilstm模块s1(80
×
576)s2(80
×
m)
[0098]
本网络由reshape、bilstm模块组成。由于rnn网络只接受特定的特征向量序列输入,reshape模块负责将步骤3.2中的cnn模块卷积提取的特征图m5按列(从左向右)生成特征向量序列s1(80
×
576),s1由80列特征向量组成,每一列包含576维特征,即第i列特征向量是所有576个特征图第i列像素的连接,特征图的每列对应原始图像的一个感受野,从而构成一个特征向量序列,该步骤称为map

to

sequence。bilstm模块用于对特征序列s1进行预测,对序列中的每个特征向量进行学习,得到所有字符的隐向量概率分布输出s2,其中表5中的m表示每列向量需要识别的字符集长度。
[0099]
3.4:构建预测模块ctc,具体为:输入经过步骤3.3处理所得的对每个特征向量的隐向量概率分布输出s2,ctc模块作为crnn文本识别网络的预测模块,通过去重整合操作将
该输入转换得到结果字符序列l。预测模块ctc的网络结构如表6所示。
[0100]
表6预测模块ctc的网络结构表
[0101]
网络层数模块名称输入特征图像输出特征图像1fc softmaxs2(80
×
m)l
[0102]
ctc模块由fc(fully connected layers)、softmax操作、序列合并机制blank组成,将经过步骤3.3处理所得的隐向量概率分布输出s2输入fc层,对该概率分布输出s2映射为t个字符概率分布,再将该字符概率分布进行序列合并机制处理,具体方式为对该概率分布,在标注字符集p,中加一个空白符号blank,构成新的标注字符集p

,使字符概率分布的长度符合softmax操作要求的固定长度;再使用softmax操作(3

1)选取最大值所对应的标签(字符),得到字符分布输出,最后使用序列转换函数β(3

2)把blank符号和预测出的重复字符消除,从而解码得到结果字符序列l。
[0103][0104]
公式(3

1)中,v
ii
表示字符概率分布矩阵v中第i个向量中的第i个元素,(i<=j)(j为大于i的所有元素),s
ii
表示该元素的指数与该列向量中所有元素的指数和之比。公式(3

2)中,p'为标注字符集p加上blank空白符号后的字符集合,t为隐向量概率分布输出s2经过fc层映射后的长度,经过β变换后,将输出一个小于序列长度t的结果字符序列p”。
[0105]
3.5:计算crnn文本识别网络回归优化损失ctc loss,具体为:向crnn文本识别网络输入经过步骤3.1处理所得的证件图像数据集x
crnn
中的图像x
icrnn
(i=1,2,...,n
×
t),通过正向传播,由损失函数计算出预测结果l与真实值间的损失值,并根据损失值对步骤3.4中ctc模块输出标签l的后验概率p(l/y)(3

4)进行反向调整。其中,crnn文本识别网络回归优化损失ctc loss的计算方法如下:
[0106]
l(s)=

ln∑
(i,l)∈s
lnp(l/y)
ꢀꢀ
(3

3)。
[0107]
公式(3

3)中,其中p(l/y)由公式(3

4)定义,记s={i,l}为训练集,i为训练集中输入的图像,l为真实的字符序列输出。
[0108]
ctc公式(3

4)用于对于经步骤3.3中的map

to

sequence操作处理后输入bilstm模块的概率分布矩阵s1,此处将s1视作y,给出所有可能的输出分布,并输出最可能的结果标签序列l,旨在最大化l的后验概率p(l/y)。
[0109]
p(l/y)=∑
π:β(π)=l
p(π/y)
ꢀꢀ
(3

4)。
[0110]
公式(3

4)中,y为概率分布矩阵输入,y=y1,y2,...,y
t
,其中t为序列的长度,π:β(π)=l代表所有经过β变换(3

2)后是最终结果标签序列l的路径π,p(π/y)由公式(3

5)定义。
[0111][0112]
公式(3

5)中,表示在时间戳t的时候拥有标签π
t
,下标t用于表示π路径的每一个时序。
[0113]
3.6:固定crnn文本识别网络的模型参数,具体为:使用步骤1.2中划分出的测试集x
test
对crnn文本识别网络的字符识别准确率进行测试。将x
test
经过步骤1.3预处理后再输入
已固定参数的db网络模型,得到预测文本小框数据集通过步骤3.1~3.5进行测试识别,依据得出的结果标签序列l,与实际标注文件label进行比较,只有整行文本识别正确才计为正确识别,否则为错误。
[0114]
定义模型识别正确的文本数量为l
true
,识别错误的文本数量为l
false
,通过公式(3

6)计算模型字符识别准确率l
accuracy
。最终选取对应l
accuracy
最高的crnn训练模型作为最终固定的crnn文本识别网络模型,对应固定参数为
[0115][0116]
步骤(4),具体包括:
[0117]
4.1:对施工人员特种作业证件进行文本检测及识别,具体为:加载步骤2.6固定参数的db训练模型转换成db文本检测网络模型,输入待检测施工人员特种作业证件图像集x
d
中的证件图像x
id
(i=1,2,...,n),经过已固定权重的的db文本检测网络得到证件的t个文本预测框图像本预测框图像及预测文本框4个坐标信息其中包括预测文本框的左上角左下角、右上角右下角坐标将经过db文本检测网络预测所得的4个坐标标定的预测文本小框图像集输入至步骤3.6固定参数的crnn文本识别网络,输出相关文本识别信息及其字符识别准确度。
[0118]
4.2:施工人员特种作业证件检测的判断逻辑,具体为:根据步骤4.1得到的文本识别信息,通过以下逻辑判断证件是否合法,最终得到证件检测结果。
[0119]
(1)若证件图像通过文本预测识别后识别到“有效期限”四个字,则判定证件检测到有效期相关信息,进入下一步判定,若未识别到相关词汇,则判定证件检测失败,并提示“证件拍摄不合格”。(2)识别到“有效期限”,则选定该预测的文本框,对有效期限后的证件开始有效日期到结束有效日期的相关年月日数字(如20100601至20200601)进行文字提取,再通过逻辑处理提取后八位数字(如20210601),若无法正常提取后八位数字,则判定证件未能成功检测,并提示“证件有效期无法正常识别”。(3)若成功识别到“有效期限”和相对应文本框后八位数字,则对证件图像的识别文本结果进行判断是否识别到“作业类别”四个字,若识别到“作业类别”,则进行下一步判断,若无法识别,则判定证件未能成功检测,并提示“证件作业类别无法正常识别”。(4)识别到“作业类别”,选定该预测的文本框,对作业类别后的具体类别(电工作业或高处作业)进行文字提取,若为“电工作业”则进入步骤(5),若为“高处作业”则进入步骤(6)。(5)令对应证件图像识别得到的“有效期限”相对应文本框后八位数字,令其与当前北京时间比对,若有效期限在当前北京时间以内,则判定证件已过有效期,证件不合格,提示“检测失败,转人工检测”;若有效期限大于当前北京时间,则判定证件合格,通过检测,提示“成功检测特种作业证件电工作业类别,检测合格”。(6)令对应证件图像识别得到的“有效期限”相对应文本框后八位数字,令其与当前北京时间比对,若有效
期限在当前北京时间以内,则判定证件已过有效期,证件不合格,提示“检测失败,转人工检测”;若有效期限大于当前北京时间,则判定证件合格,通过检测,提示“成功检测特种作业证件高处作业类别,检测合格”。
[0120]
本发明采用半自动标注工具对图像数据集进行标注的方法高效准确;针对特种作业证件图像的特性,提供的网络组合模型小,方便部署,检测速度快;同时采用自定义特种作业证件判断逻辑,提高方法程序化程度,有效提升特种作业证件的检测效率,并有效降低了人工成本。
[0121]
实施例四
[0122]
基于db与crnn对特种作业证件进行检测,具体如下。
[0123]
1:数据预处理,具体为:按照步骤1.1,对中国移动云南公司获得的证件图像数据集进行人工筛选后作为原始证件图像数据集l,再通过半自动标注方法对l进行标注,如表7所示。
[0124]
表7特种作业证件图像数据标注例子表
[0125][0126]
按照步骤1.2,将标注数据集x划分为训练集x
train
和测试集x
test
,比例设定为8:2。按照步骤1.3,依次对标注数据集x进行图像解码、图像归一化、重新排列、图像缩放操作,得到标注数据集x”。
[0127]
2:db文本检测网络的构建与训练;其db文本检测网络的整体结构如图4所示。按照步骤2.1~2.4,首先对标注数据集x”中的图像进行尺度变换,得到(640
×
640
×
3)的图像;接着依次构建db文本检测网络的backbone、neck、head模块。其中各网络层的输入、输出特征图像大小如表8所示。
[0128]
表8 db文本检测网络中各网络层输入输出数据流表
[0129][0130][0131]
表8中,由输入为(640
×
640
×
3)的证件图像经过db文本检测网络预测后,最终输出预测结果概率图m
p
(640
×
640
×
1)、阈值图m
t
(640
×
640
×
1)、近似二值图m
a
(640
×
640
×
1)。准备训练文件以及设置训练参数后,按照步骤2.5对db文本检测网络进行训练。
[0132]
(1)准备用于训练db文本检测网络的训练集train_images文件夹、测试集test_images文件夹、训练集配套标注文件train_label.txt、测试集配套标注文件test_label.txt及训练文件train.py。(2)设置train.py中的epoch、batch size、学习率等参数,修改配置文件添加相应预训练权重文件和相应训练数据集,即可运行train.py。准备好训
练文件以及设置好训练参数后,即可开始db文本检测网络的训练。
[0133]
首先,将x
train
和准备好的训练文件加载至训练文件train.py,通过正向传播,由公式(2

10)~(2

12)计算得到l、l
s
、l
b
、l
t
后,不断优化网络训练参数,直到db文本检测网络的损失函数值收敛。最后,按照步骤2.6,将x
test
输入db文本检测网络中,得到相应的近似二值图m
a
及对应坐标位置信息,将其与测试集x
test
标注文件中对应图像坐标信息比对,计算其模型预测召回率(recall)、精确率(precision)及评估分数(score),选取评估分数(score)最优的模型作为最终固定参数的db文本检测网络模型。
[0134]
3:crnn文本识别网络的构建与训练;其crnn文本识别网络的整体结构如图5所示。按照步骤3.1~3.4,首先对经过步骤2db文本检测网络预测所得的文本小框数据集x
db
中的图像进行尺度变换,得到(320
×
32
×
3)的图像;接着依次构建crnn文本识别网络的cnn、bilstm、ctc模块。其中各网络层的输入、输出特征图像大小如表9所示。
[0135]
表9.crnn文本识别网络中各网络层输入输出数据流表
[0136]
网络层数模块名称输入特征图像输出特征图像1conv模块m0(320
×
320
×
3)m1(160
×
16
×
16)2bneck_mix5模块m1(160
×
16
×
16)m2(160
×4×
24)3bneck_mix6模块m2(160
×4×
24)m3(160
×1×
96)4conv模块m3(160
×1×
96)m4(160
×1×
576)5pool模块m4(160
×1×
576)m5(80
×1×
576)6reshape模块m5(80
×1×
576)s1(80
×
576)7bilstm模块s1(80
×
576)s2(80
×
m)8fc softmaxs2(80
×
m)l
[0137]
表9中,由输入为(320
×
32
×
3)的证件图像经过crnn文本识别网络预测后,最终输出预测结果序列l。准备训练文件以及设置训练参数按照步骤3.5进行模型的训练。(1)准备用于训练crnn文本识别网络的训练集train_images文件夹、测试集test_images文件夹、记录图像文本内容标签的两个txt文件rec_train.txt和rec_test.txt、训练文件train.py及一个字典word_dict.txt。字典以utf

8编码格式保存,用于将标注数据集x中出现的字符映射为字典的索引。(2)设置train.py中的epoch、batch size、学习率等参数,修改配置文件添加相应预训练权重文件和相应训练数据集,即可运行train.py。
[0138]
准备好训练文件以及设置好训练参数后,即可开始crnn文本识别网络的训练。首先,将x
train
和准备好的训练文件加载至训练文件train.py,通过正向传播,由公式(3

3)~(3

5)计算得到l(s)后,不断优化网络训练参数,直到crnn文本识别网络的损失函数值收敛。最后,按照步骤3.6,将x
test
输入crnn文本识别网络中,得到相应图像文本的预测结果序列l,将其与测试集x
test
标注文件中对应标注文本信息比对,计算模型字符识别准确率l
accuracy
,选取准确率l
accuracy
最高的模型作为最终固定参数的crnn文本识别网络模型。
[0139]
4:检测施工人员特种作业证件,具体为:按照步骤4.1,加载由步骤2.6固定参数的db文本检测网络模型和步骤3.6固定参数的crnn文本识别网络模型,首先输入待检测证件图像数据集x
d
中的待检测施工人员特种作业证件图像,模型根据参数预测出文本目标框目标的近似二值图m
a
(640
×
640
×
1),得到相应文本框及其坐标位置信息
接着将经过db文本检测网络模型预测得到的文本框图像输入crnn文本识别网络模型,输出识别所得的文本信息
[0140]
任意选取待检测证件图像数据集x
d
中的一张证件图像x
kd
作为模型输出示例,图像x
kd
通过db与crnn固定模型预测识别后的信息如表10所示。
[0141]
表10示例图像x
kd
经过db与crnn固定模型预测识别后的信息表
[0142][0143][0144]
按照步骤4.2,根据自定义的施工人员特种作业证件检测判断逻辑,对得到的文本信息x
kd

t
进行提取,基于提取得到的文本信息,来判断施工人员特种作业证件是否合格有效。
[0145]
四、与现有技术相比本发明具有的优点及积极效果
[0146]
(1)本发明针对中国移动云南公司5g基站施工现场提供的特种作业证件图像数据集中规整、有序、易标注的特性,提供了一种高效的半自动标注证件图像数据集的方法,采用ppocrlabel工具进行标注的第一步,即对证件图像数据集中的文本框以及对应文本框中的文字自动标注,再采用人工筛选进一步对未预测成功以及标注错误的文本框和文本进行二次人工修改标注,以提高标注效率并保证标注数据集的高准确率。
[0147]
(2)本发明针对特种作业证件图像数据规整、类型单一、易完成文本检测和文本识别的特性,采用mobilenetv3网络作为db文本检测网络模型和crnn文本识别网络模型的骨干网络,用于提取图像特征。保证能够准确检测证件的同时,降低了两个网络的特征通道数,将相应模型大小减小90%,从而适配计算能力有限的情况;同时提高了证件图像的检测速度,从而提高了证件检查方法的效率。
[0148]
(3)本发明结合给定的施工人员特种作业证件图像数据集和组合模型对应的预测识别结果,自定义了特种作业证件检测的判断逻辑,通过计算机实现特种作业证件的无人工24小时自动检测程序,提高了方法的程序化程度。
[0149]
本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处。综上所述,本说明书内容不应理解为对本发明的限制。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献