一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

重遮挡图像集生成及重遮挡人体目标模型训练方法与流程

2022-09-04 03:08:45 来源:中国专利 TAG:


1.本发明涉及人工智能技术领域,尤其涉及重遮挡图像集生成及重遮挡人体目标模型训练方法。


背景技术:

2.现有人体目标识别领域中,对重遮挡场景的人体进行精准识别仍是困难但同时又具有重要价值的。因为在实际应用中被识别对象存在遮挡属于很常见的场景,例如人体部分被车辆、建筑、其他行人等物体遮挡。
3.目前针对这种情况的方法分为基于深度学习和非深度学习算法,基于非深度学习的方法需要满足众多先验假设条件才能取得好的表现;而基于深度学习的方法算力要求高、功耗高,且多种因素导致实际表现并不理想。
4.针对上述问题,现有技术中也有一些改进,如公开日为2019-7-12,公开号为cn110008853a的中国专利申请公开了一种行人检测网络,以vgg16为基础网络,包括fc6、fc7、conv6_2、conv7_2和conv8_2五个特征层。本发明还公开一种行人检测网络模型训练方法,包括步骤:计算行人框宽高比的期望值e;特征提取,得到置信度图和坐标偏置图;制定密集框生成策略;对训练数据文件进行预处理,训练行人检测网络得到行人检测网络模型。本发明还公开了一种行人检测方法,包括步骤:设置检测阈值,加载行人检测网络模型,初始化网络参数;将图片送入模型中,得到检测结果;将所有的检测框通过非极大值抑制对重复检测的框进行滤除,最后将结果保存在文件中。本发明基于密集框生成网络,有效地克服了现有技术在行人密集场景下漏检率高等缺点,提升该框架在行人密集场景下的检测性能。
5.又如公开日为2019-1-1,公开号为cn109117717a的中国专利申请公开了一种城市行人检测方法,包括以下步骤:s1、通过图像特征获取模块接收原始图像;s2、将接收的原始图像通过图像处理模块进行处理;s3、特征图扩展;s4、将所述整体特征图像和所述局部特征放大图像依次连接;s5、分类网络训练:利用多种尺度行人在不同特征图中的的分布训练深度神经网络;s6、行人检测标注:将得到的两种规模特征图的候选窗口数目按比例汇总,经过s5中训练好的分类器分类,经过非极大值抑制后框出行人;s7、检测结果显示。本发明采用整体特征图像与局部放大特征图像配合检测,提高了行人检测的准确性,并且利不同特征图上检测用不同权值加权有效避免了单一特征图检测的误判和漏检。
6.以上方案均是通过对样本图像的处理,从而提高模型检测效果,但是均未考虑到现有的公开数据缺乏包含遮挡目标场景的数据集,也即缺乏真实的遮挡标注数据,而若仅通过自采方式获取样本,则其一,由于每个人对于遮挡的理解不同,造成不同筛选人员筛选出的样本参差不齐(标注不标准),进而导致模型检测效果不理想;其二,自采数据有限,有限样本训练会造成模型过拟合,进而造成模型检测效果不佳。
7.因此,针对上述问题,有必要提出进一步地解决方案。


技术实现要素:

8.本发明旨在提供重遮挡图像集生成方法及重遮挡人体目标模型训练方法、检测方法及装置,以克服现有技术中存在的不足。
9.为解决上述技术问题,一方面,本发明的技术方案是:
10.重遮挡图像集生成方法,包括:
11.获取原始图像集,并解析得到每一原始图像;
12.对所述原始图像进行块编码,以将所述原始图像划分为n个块图;
13.随机选取所述原始图像中的(75%-85%)*n个所述块图进行加噪处理,以获得对应的重遮挡图像;
14.根据多张所述重遮挡图像生成重遮挡图像集;
15.其中,n为正整数,(75%-85%)*n向上取整。
16.另一方面,本发明的技术方案是:
17.重遮挡人体目标模型训练方法,包括:
18.获取人体图像集,并将所述人体图像集根据以上任一所述的生成方法生成重遮挡人体图像集,其中,所述人体图像集包括多张人体位于多种场景中的图像;
19.获取目标场景图像集,其中,所述目标场景图像集包括多张人体位于目标场景中被遮挡的图像和正常图像;
20.采用所述重遮挡人体图像集和预设网络模型,训练获取初始网络模型;
21.采用所述目标场景图像集和所述初始网络模型,训练获取重遮挡人体目标模型。
22.再一方面,本发明的技术方案是:
23.重遮挡人体目标检测方法,包括:
24.获取待检测图像;
25.采用重遮挡人体目标模型检测所述待检测图像中是否含有人体,其中,所述重遮挡人体目标模型由以上任一所述训练方法训练获取。
26.再一方面,本发明的技术方案是:
27.重遮挡图像集生成装置,包括:
28.图像获取模块,用于获取原始图像集,并解析得到每一原始图像;
29.块编码模块,用于对所述原始图像进行块编码,以将所述原始图像划分为n个块图;
30.加噪模块,用于随机选取所述原始图像中的(75%-85%)*n个所述块图进行加噪处理,以获得对应的重遮挡图像;
31.生成模块,用于根据多张所述重遮挡图像生成重遮挡图像集;
32.其中,n为正整数,(75%-85%)*n向上取整。
33.再一方面,本发明的技术方案是:
34.重遮挡人体目标模型训练装置,包括:
35.第一样本生成模块,用于获取人体图像集,并将所述人体图像集根据以上任一所述的生成方法生成重遮挡人体图像集,其中,所述人体图像集包括多张人体位于多种场景中的图像;
36.第二样本生成模块,用于获取目标场景图像集,其中,所述目标场景图像集包括多
张人体位于目标场景中被遮挡的图像和正常图像;
37.第一训练模块,用于采用所述重遮挡人体图像集和预设网络模型,训练获取初始网络模型;
38.第二训练模块,用于采用所述目标场景图像集和所述初始网络模型,训练获取重遮挡人体目标模型。
39.再一方面,本发明的技术方案是:
40.重遮挡人体目标检测装置,包括:
41.图像获取模块,用于获取待检测图像;
42.图像检测模块,用于采用重遮挡人体目标模型检测所述待检测图像中是否含有人体,其中,所述重遮挡人体目标模型由以上任一所述训练方法训练获取。
43.与现有技术相比,本发明的有益效果是:
44.(1)本发明通过对原始图像集进行块编码以及加噪处理,从而生成数据量大、标注标准的重遮挡图像集,避免了自采造成的数据量小、标准不一的情况,进而提高后续训练的网络模型训练效果和检测准确度,同时提高了重遮挡图像数据集的获取效率,节省了大量人力物力。
45.(2)本发明通过设置不对称的编码器和解码器,并使用数量较多的编码器对未加噪块图进行特征提取,提高精度,而数量较少的解码器足以完成对所有块图的解码,从而平衡网络模型的精度和计算量,进而提高训练准确度和速度。
附图说明
46.为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
47.图1为本发明的重遮挡图像集生成方法的流程示意图;
48.图2为本发明的块编码示例图;
49.图3为本发明的加噪示例图;
50.图4为本发明的重遮挡人体目标模型训练方法的流程示意图;
51.图5为本发明的模型的网络架构示意图;
52.图6为本发明的编码器的结构示意图;
53.图7为本发明的解码器的结构示意图。
具体实施方式
54.在下面的描述中阐述了很多具体细节以便于充分理解本发明,但是,本发明还可以采用其他不同于在此描述的其他方式来实施,因此,本发明的保护范围并不受下面公开的具体实施例的限制。
55.实施例1:
56.重遮挡图像集生成方法,该数据集用于目标检测训练,更优的用于重遮挡人体目标检测训练。
57.如图1所示,该生成方法包括:
58.s110获取原始图像集,并解析得到每一原始图像。
59.该原始图像集优选采用公开数据集,例如voc数据集,voc数据集是一种常用的用于目标检测、目标分割训练用数据集,数据量大,标注标准;当然也可以采用以往的自采数据集,只需要其满足数据量大、标注标准。
60.s120对原始图像进行块编码,即分割原始图像,以将原始图像划分为n个块图。
61.n个块图优选为等分大小,通过等分为n个块图后,每个像素块可以保证为不重叠的单独块图。
62.优选地,假设原始图像尺寸大小为w*h,目标尺寸为s,则n的计算公式为:
63.n=w*h/s2,且n为正整数,若为小数,则向上取整。
64.其中,目标尺寸s优选为16,该目标尺寸下网络输入的复杂度和最终的精度得到均衡。
65.例如,以一张原始图像为例,如图2所示,原始图像输入大小为416*416,输入后经过公式计算得到n,n=416*416/162=676,即原始图像划分为676个大小相同的块图。
66.s130随机选取原始图像中的(75%-85%)*n个块图进行加噪处理,以获得对应的重遮挡图像。其中,若为小数,则向上取整。若选取数量低于该范围,则会导致训练效果差和检测准确度低,若超过该范围,则并不能提高训练效果和检测准确度,同时增加数据量,导致训练效率低。优选地,随机选取80%*n个块图。使用服从均匀分布的随机采样策略保证了高掩码率,防止网络模型轻易地根据邻近的可见块图推断出这些加噪后的块图。
67.用于加噪处理的噪声模型至少包括两种,例如高斯噪声、椒盐噪声、模糊噪声、乘法噪声等。且随机选取一噪声模型对随机选取的一块图进行加噪处理。
68.例如,如图3所示,随机选取80%的块图,即随机选取676个块图中的541个,对选中的块图进行随机加噪处理。
69.再将所有块图(未加噪块图及加噪块图)叠加,恢复原位并至原始图像大小,生成对应的重遮挡图像。
70.s140根据多张重遮挡图像生成重遮挡图像集。
71.本生成方法通过对原始图像集进行块编码以及加噪处理,从而生成数据量大、标注标准的重遮挡图像集,避免了自采造成的数据量小、标准不一的情况,进而提高后续训练的网络模型训练效果和检测准确度,同时提高了重遮挡图像数据集的获取效率,节省了大量人力物力。
72.实施例2:
73.如图4所示,重遮挡人体目标模型训练方法,包括:
74.s210获取人体图像集,人体图像集包括多张人体位于多种场景中的图像(以下简称人体图像)。人体图像集优选采用公开人体图像数据集,例如voc数据集,包含多种场景下的人体,一般人体基本无遮挡,与背景区分明显。当然也可以采用以往的自采数据集,只需要其满足数据量大、标注标准。将人体图像集根据实施例1的生成方法生成重遮挡人体图像集,即人体图像集作为原始图像集。
75.s220获取目标场景图像集,目标场景图像集包括多张人体位于目标场景中被遮挡的图像(以下简称遮挡图像)和正常图像(正常图像指训练中非所需类别的图像,例如人体
未被遮挡或不含人体的图像)。例如目标场景为车辆遮挡,通过高清相机获取人体被车辆遮挡图像和正常图像;又例如,目标场景为路口,通过高清相机获取人体在路口被车辆或其他遮挡物遮挡图像,以上仅为示例说明,本实施例对此不作具体限定。
76.优选地,对目标场景图像集预处理,例如数据增强处理,即采用裁剪,增加亮度、曝光、加噪等处理,将一张遮挡图像/正常图像扩展为多张遮挡图像/正常图像,从而增加图像集数据量。预处理还可以包括实施例1的生成方法,将目标场景图像集根据实施例1的生成方法生成重遮挡目标场景图像集,即目标场景图像集作为原始图像集,目标场景图像集和重遮挡目标场景图像集合并,同样地增加图像集数据量。
77.s230采用重遮挡人体图像集和预设网络模型,训练获取初始网络模型。
78.s240采用目标场景图像集和初始网络模型,训练获取重遮挡人体目标模型。
79.其中,如图5所示,模型,即预设网络模型/初始网络模型/重遮挡人体目标模型,包括transformer网络和检测头网络(header)。
80.transformer网络包括编码器(encoder block)和解码器(decoder block),且编码器的数量大于解码器的数量,优选地,包括12个堆叠的编码器和7个堆叠的解码器。transformer网络用于提取特征并输出特征图,同时采用不对称设置的编码器和解码器,使用数量较多的编码器对未加噪块图进行特征提取,提高精度,同时虽然编码规模较大,但相较于使用所有块图进行训练,其计算量和内存占用都大大减少;而数量较少的解码器足以完成对所有块图的解码,从而平衡网络模型的精度和计算量,进而提高训练准确度和速度。
81.检测头网络用于根据特征图检测是否含有人体并输出结果。
82.具体地,模型包括:
83.输入层(input),用于输入图像,其中,训练阶段输入重遮挡人体图像/遮挡图像/正常图像,检测阶段输入待检测图像。
84.块编码(patch embedding),用于将图像进行块编码,即分割图像,以将图像划分为n个块图。该步骤可参考实施例1中的块编码步骤。输入的图像经过卷积层(conv2d)下采样得到16*16的特征图,全连接层(flatten)将其进行高度和宽度的展平处理,得到块编码后拼接的三通到张量图。
85.丢弃层(dropout):随机丢弃(75%-85%)*n个块图。
86.位置编码(position embedding):将剩余的块图叠加位置信息,即dropout的块图在原图中所在位置,以及未dropout的图在原图中所占位置,组成一个一维向量,从而让网络可以学习到不同块图在图片中所在的空间位置信息。优选地,随机丢弃80%*n个块图,该步骤可参考实施例1中的随机选取步骤。
87.编码器(encoder block):将剩余的块图和position embedding的叠加数据输入12个堆叠的编码器中。
88.层归一化(layer norm/ln)和线性层(linear):将编码器输的特征图依次经过层归一化和线性变换。
89.解码器(decode block):将上一层结果输入7个堆叠的解码器中。
90.检测头网络(header):将解码器输出的特征图解码通过检测头网络(也即图示中的pre-logits(回归层,即全连接 激活函数) linear(线性层))输出人体检测结果。该预测结果包括图像中是否含有人体,及预测图,预测图中框出全部人体,即预测人体被遮挡部位
的大概位置。
91.其中,优选地,该检测头网络采用线性逻辑回归和线性串行的结构。
92.如图6所示,每一编码器包括自注意力机制模块(self attention)和多层感知模块(mlp)。通过编码器中的多个归一化层(batchnorm2d)和丢弃层(dropout/droppath或dropout)对遮挡信息进行较好提取。
93.具体地,input freature为网络层,输入特征图;layer norm为层归一化,对上一层输入的激活值做归一化,在一定程度上避免梯度消失问题;self attention(自注意力机制)模块,由linear(线性激活函数softmax) dropout组成,每一个输入经过self attention模块与其他输入建立联系,即可以使self-attention模块能够全局提取到整组图像块的序列信息。mlp block,由卷积层(conv2d,下采样,使网络学习深层次信息),batchnorm2d(批归一化,加速网络收敛),relu(激活函数),dropout(防止过拟合)组成。
94.由于是遮挡人体目标,因此有效的人体信息较少,通过自注意力机制,可以使得网络自身通过较少的人体目标信息推理学习到深层次的人体特征,让网络模型像人脑一样通过部分人体信息还原出整个人体目标,从而达到对遮挡人体的高精度检测。
95.如图7所示,解码器结构为input freature为编码器输出的特征图,layer norm为层归一化,对上一层输入的激活值做归一化,在一定程度上避免梯度消失问题。self attention(自注意力机制)模块,由linear(线性激活函数softmax) dropout组成,解析出编码器中自注意力机制模块的关联信息。反卷积层(deconv2d)对特征图进行上采样,恢复特征图至原图大小,batchnorm2d(批归一化,加速网络收敛),leakyrelu(激活函数,增加非线性因子),dropout(防止过拟合)组成。。
96.可选的,重遮挡人体目标模型经过剪枝量化,例如int8量化、模型剪枝等方法,降低参数冗余,减少存储占用、通信带宽和计算复杂度,保证实时性和可移植性,从而可以方便的部署在移动端场景。
97.实施例3:
98.重遮挡人体目标检测方法,包括:
99.s310获取待检测图像;
100.s320采用重遮挡人体目标模型检测待检测图像中是否含有人体。其中,重遮挡人体目标模型由实施例2训练获取。
101.实施例4:
102.重遮挡图像集生成装置,包括图像获取模块、块编码模块、加噪模块和生成模块。
103.图像获取模块用于获取原始图像集,并解析得到每一原始图像。
104.该原始图像集优选采用公开数据集,例如voc数据集,voc数据集是一种常用的用于目标检测、目标分割训练用数据集,数据量大,标注标准;当然也可以采用以往的自采数据集,只需要其满足数据量大、标注标准。
105.块编码模块用于对原始图像进行块编码,,即分割原始图像以将原始图像划分为n个块图。
106.n个块图优选为等分大小,通过等分为n个块图后,每个像素块可以保证为不重叠的单独块图。
107.优选地,假设原始图像尺寸大小为w*h,目标尺寸为s,则n的计算公式为:
108.n=w*h/s2,且若为小数,则向上取整。
109.其中,目标尺寸s优选为16,该目标尺寸下网络输入的复杂度和最终的精度得到均衡。
110.例如,以一张原始图像为例,如图2所示,原始图像输入大小为416*416,输入后经过公式计算得到n,n=416*416/162=676,即原始图像划分为676个大小相同的块图。
111.加噪模块用于随机选取原始图像中的(75%-85%)*n个块图进行加噪处理,以获得对应的重遮挡图像。其中,若为小数,则向上取整。若选取数量低于该范围,则会导致训练效果差和检测准确度低,若超过该范围,则并不能提高训练效果和检测准确度,同时增加数据量,导致训练效率低。优选地,随机选取80%*n个块图。使用服从均匀分布的随机采样策略保证了高掩码率,防止网络模型轻易地根据邻近的可见块图推断出这些加噪后的块图。
112.用于加噪处理的噪声模型至少包括两种,例如高斯噪声、椒盐噪声、模糊噪声、乘法噪声等,且随机选取一噪声模型对随机选取的一块图进行加噪处理。
113.例如,如图3所示,随机选取80%的块图,即随机选取676个块图中的541个,对选中的块图进行随机加噪处理。
114.再将所有块图(未加噪块图及加噪块图)叠加,恢复原位并至原始图像大小,生成对应的重遮挡图像。
115.生成模块用于根据多张重遮挡图像生成重遮挡图像集。
116.本生成装置通过对原始图像集进行块编码以及加噪处理,从而生成数据量大、标注标准的重遮挡图像集,避免了自采造成的数据量小、标准不一的情况,进而提高后续训练的网络模型训练效果和检测准确度,同时提高了重遮挡图像数据集的获取效率,节省了大量人力物力。
117.实施例5:
118.重遮挡人体目标模型训练装置,包括第一样本生成模块、第二样本生成模块、第一训练模块和第二训练模块。
119.第一样本生成模块用于获取人体图像集,并将人体图像集根据实施例1的生成方法生成重遮挡人体图像集,其中,人体图像集包括多张人体位于多种场景中的图像。
120.第二样本生成模块用于获取目标场景图像集,其中,目标场景图像集包括多张人体位于目标场景中被遮挡的图像和正常图像。
121.第一训练模块用于采用重遮挡人体图像集和预设网络模型,训练获取初始网络模型。
122.第二训练模块用于采用目标场景图像集和初始网络模型,训练获取重遮挡人体目标模型。
123.其中,以上模块的具体功能实现可以参见实施例2中步骤s210-s240,此处不再进行赘述。
124.可选的,还包括压缩模块。压缩模块用于对重遮挡人体目标模型剪枝量化,例如int8量化、模型剪枝等方法,降低参数冗余,减少存储占用、通信带宽和计算复杂度,从而可以方便的部署在移动端场景。
125.实施例6:
126.重遮挡人体目标检测装置,包括图像获取模块和图像检测模块。
127.图像获取模块用于获取待检测图像。
128.图像检测模块用于采用重遮挡人体目标模型检测待检测图像中是否含有人体。其中,重遮挡人体目标模型由实施例2训练获取。
129.综上所述,本发明优化现有深度学习网络结构,解决了在高清摄像头下图像重遮挡情况的人体检测效果不佳的问题。
130.在本技术所提供的几个实施例中,应该理解到,所揭露的设备和方法,可以通过其它的方式实现。以上所描述的设备实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,如:多个单元或组件可以结合,或可以集成到另一个系统,或一些特征可以忽略,或不执行。另外,所显示或讨论的各组成部分相互之间的耦合、或直接耦合、或通信连接可以是通过一些接口,设备或单元的间接耦合或通信连接,可以是电性的、机械的或其它形式的。
131.上述作为分离部件说明的单元可以是、或也可以不是物理上分开的,作为单元显示的部件可以是、或也可以不是物理单元;既可以位于一个地方,也可以分布到多个网络单元上;可以根据实际的需要选择其中的部分或全部单元来实现本实施例方案的目的。
132.另外,在本发明各实施例中的各功能单元可以全部集成在一个处理单元中,也可以是各单元分别单独作为一个单元,也可以两个或两个以上单元集成在一个单元中;上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
133.本领域普通技术人员可以理解:实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述的程序可以存储于计算机可读取存储介质中,该程序在执行时,执行包括上述方法实施例的步骤;而前述的存储介质包括:移动存储设备、只读存储器(rom,read-only memory)、随机存取存储器(ram,random access memory)、磁碟或者光盘等各种可以存储程序代码的介质。
134.或者,本发明上述集成的单元如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实施例的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机、服务器、或者网络设备等)执行本发明各个实施例所述方法的全部或部分。而前述的存储介质包括:移动存储设备、rom、ram、磁碟或者光盘等各种可以存储程序代码的介质。
135.以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献