一种端到端的行人结构化信息及其从属关系的检测方法与流程

2022-11-09 22:31:08 来源：中国专利 TAG：

1.本发明涉及计算机视觉领域，特别涉及一种端到端的行人结构化信息及其从属关系的检测方法。

背景技术：

2.行人检测一直是视频智能监控领域的研究热点。行人检测可以获得图像和视频帧中的行人矩形框。在工业园区应用中，不仅需要获取到行人位置，还需要提取行人的有效信息，一般包括是否佩戴工帽、是否穿工衣、是否佩戴口罩等结构化信息。
3.目前这些结构化信息的获取方式通常有两种：一种是通过检测的方法，检测方法可以支持特定物品属性的检测功能，给出物品的矩形框，即利用目标检测算法，在检测行人的矩形框的同时，也检测结构化信息，给出结构化信息的矩形框位置；另一种是通过分类的方法，分类方法可以支持年龄、性别等非实体属性的识别功能。
4.对于第一种方式，行人矩形框和行人结构化信息矩形框都是独立检测，独立检测后需要确定行人结构化信息矩形框和行人矩形框的从属关系；目前通过计算两个框之间的交并比iou，来确定两个框之间的从属关系；但如果出现多人交叠时，采用这种方法就可能出现混乱，导致从属关系确定不准确。
5.具体地讲，采用第一种方式的现有技术，例如：一、专利名称为：一种基于多属性分析的行人检测跟踪方法和装置，公开号为：cn114092558a。
6.该专利重新定义了一个行人检测网络，将经过预处理的行人图像输入预设的网络结构,使所述网络结构对所述行人图像进行特征提取,获得特征图像,并根据所述特征图像,对各目标进行检测跟踪,输出检测跟踪结果。检测跟踪结果包括被检测目标、被跟踪目标、目标正脸信息和位置信息以及识别目标是否骑车等。其优点是：通过单个预设的网络结构完成检测目标、跟踪目标、判断目标是否包含所需信息以及判断这些信息的位置等,实现多属性分析,一模型多用;在节省计算资源的同时方便嵌入式的部署；同时可以知道图像中行人是否骑车、行人是否有正脸,而无需在抓拍后再送入另一个网络分析。
7.该技术方案的缺点是：(1)采用多任务模型，一模多用，虽然可以提升检测效率，但是模型较难训练，同时训练数据标注成本昂贵。
8.(2)属性的回归框是相对人的中心预测的,属性的回归框只预测相对人中心的偏移量,也就是预测属性目标左上角和右下角相对人中心的偏移量得到框的位置信息。人的中心是模型预测得到，本身带有误差a，属性回归框的预测也会有误差b，这样最终间接得到的属性回归框会有累计误差a b。
9.(3)训练时采用的增强方式过于单一，没有裁剪等相关trick,可能会影响模型召回率效果。
10.(4)设计的模型网络针对小分辨率的人脸和是否骑车做了定制化改进，在其它属
性场景不一定适用。
11.二、专利名称为：一种行人检测方法、系统及终端设备，公开号为：cn110245564a。
12.该专利通过多对象卷积深度网络模型识别目标图像中的行人，且在目标图像中对行人添加第一识别框；其中，多对象卷积深度网络模型的训练任务包括语义任务和行人检测；通过卷积神经网络vgg19识别目标图像中的特定物体，且在目标图像中对特定物体添加第二识别框；判断第一识别框与第二识别框有无重叠，若有重叠，则判定行人携带了特定物体，并引发预设的监控事件。
13.该技术方案的缺点是：(1)采用两个模型分别检测行人和特定物品，增加了检测耗时和运行内存。
14.(2)通过交并比的方式，判断第一识别框和第二识别框有无重叠来判定所述行人是否携带特定物体。如果出现多人交叠时，这种方法就可能出现混乱。
15.上述两个专利的缺点总结为：(1)方案效率低。
16.(2)行人矩形框和行人结构化信息矩形框之间的从属关系需要通过交并比方式计算得到，多人交叠情况下会影响准确率。
17.(3)通用性不强，无法拓展属性类别。
18.(4)模型属性框的回归方式为间接回归，准确性会有影响。

技术实现要素：

19.本发明的目的在于克服现有技术的缺点与不足，提供一种端到端的行人结构化信息及其从属关系的检测方法，适用于边缘设备；在边缘设备的计算资源有限的情况下（边缘设备的tpu相对于服务器的gpu的算力有限），本发明通过端到端实现有效资源下的效果最大化。
20.本发明的目的通过以下的技术方案实现：一种端到端的行人结构化信息及其从属关系的检测方法，包括以下步骤：s1、对yolox模型进行改进：将yolox模型的解耦头decoupled head的obj_output分支、reg_output分支分别增加s、4*s个通道；其中s为行人结构化信息的类别个数；s2、在对改进后的yolox模型进行训练前，通过标注工具对训练样本的图像进行数据标注，所标注的信息包括行人矩形框和行人结构化信息矩形框以及它们之间的从属关系信息；s3、对改进后的yolox模型进行训练：对训练样本的图像数据进行增强，同时对行人矩形框和行人结构化信息矩形框之间的从属关系进行增强，并为预测框分配标签；输入增强后的图像，使用改进后的yolox模型执行推理，利用改进后的yolox模型的输出信息来回归行人结构化信息矩形框的坐标以及行人矩形框的坐标，同时能够直接获得行人矩形框和行人结构化信息矩形框之间的从属关系；计算损失函数loss，并更新改进后的yolox模型，完成训练；s4、待检测的图像输入到改进后且完成训练的yolox模型，所述模型端到端地直接输出行人结构化信息矩形框以及行人矩形框的坐标、行人矩形框和行人结构化信息矩形框
之间的从属关系。
21.所述对yolox模型进行改进，具体是指：首先，将yolox模型的解耦头decoupled head的obj_output分支增加s个通道输出，此时输出大小为h*w* (1 s); yolox模型的解耦头decoupled head的reg_output分支增加4*s个通道，此时输出大小为h*w*(4 4*s)； yolox模型的解耦头decoupled head的cls_output分支输出大小为h*w*1；其中，h为输出特征图高度， w为输出特征图宽度；所述使用改进后的yolox模型执行推理，具体是指：yolox模型的解耦头decoupled head的obj_output分支、reg_output分支、cls_output分支经过合并得到最后的特征信息，其大小为pred_num*dim_s；其中，pred_num=w*h，用于表征预测框个数；dim_s=1 1 s 4 4*s，用于表征每个预测框特征向量维度；这时每个预测框含有一个维度为dim_s的特征向量：[x y w h obj cls attr_1 ... attr_n x_1 y_1 w_1 h_1 ... x_n y_n w_n h_n]其中，x为目标框中心点的x坐标信息，y为目标框中心点的y坐标信息，w为目标框的宽度信息；h为目标框的高度信息；obj为目标框的得分信息；cls为目标框类别的得分信息；attr_n为结构化信息n的得分信息，[x_n y_n w_n h_n]为结构化信息n的框坐标信息；根据上述特征向量，行人结构化信息的判断过程如下：当obj*cls大小满足行人矩形框得分阈值时，认为当前预测框含有行人信息，[x y w h]为该行人矩形框坐标信息，此时如果结构化信息n的得分attr_n满足结构化信息概率阈值，则认为该行人含有结构化信息n，[x_n y_n w_n h_n]为行人结构化信息n的矩形框坐标信息；这时整个端到端行人结构化信息检测就完成了。
[0022]
标注所述行人矩形框和行人结构化信息矩形框以之间的从属关系信息是通过标注工具直接连接行人矩形框和行人结构化信息矩形框之间的左上角连线而建立起来；通过连线获取行人矩形框和行人结构化信息矩形框自身的id配对信息，该配对信息会被保存至从属关系label文件中。
[0023]
所述训练样本的图像进行数据标注完成后，标注好的数据格式共有三部分组成：图像数据images、矩形框标签信息labels、从属关系标签信息图像relevate；每部分又分成训练和测试两部分。
[0024]
所述对训练样本的图像数据进行增强，具体是指：先将行人矩形框和行人结构化信息矩形框的从属关系标签信息存储进队列，之后对图像数据、行人矩形框和行人结构化信息矩形框的标签信息一并进行mosaic和mixup数据增强，最后再重新梳理增强后仍存在的行人矩形框和行人结构化信息矩形框，根据行人矩形框和结构化框是否存在或者新增来判断从属关系是否存在或者增加，从而对原队列中的从属关系进行删除或者增加，更新后的队列数据即位增强后的从属关系标签信息。
[0025]
所述为预测框分配标签，具体实现方式如下：对行人矩形框的预测框进行标签分配时，采用真实矩形框标签信息对解偶头上的特征图进行正负样本区域划分，即将位于真实矩形框内的所有预测框作为正样本候选框，其余为负样本；对行人结构化信息矩形框的预测框进行标签分配时，不采用行人结构化信息矩形框的真实框对解偶头上的特征图进行区域划分，而仍采用行人矩形框的真实框进行替代，这样保持了行人矩形框和行人结构化信息矩形框之间的标签分配一致性，可加速训练模型性能收敛，同时避免了训练后的模型
出现检测到行人矩形框却没有检测到结构化信息的情况。
[0026]
所述结构化信息矩形框回归方法，具体如下：当输入图形分辨率为640*640时，三个decoupled head分别有不同降采样尺度的特征图输出，特征图w*h分别为20*20(下采样5次，下采样倍数为32，其他同理)，40*40，80*80；对于其中一个特征图的每一个单元格，都有对应的锚框anchor（锚框是建立起特征图和实际像素坐标矩形框之间的纽带，在训练时有加速模型收敛的作用）；当特征图w*h分别为20*20时，锚框大小为32*32，和降采样倍率一致；根据改进后的yolox模型，给出了某一单元格(u_w,u_h)下的结构化信息n的矩形框坐标信息[x_n y_n w_n h_n]，结合其所在特征图的锚框信息，计算出实际分辨率下的矩形框坐标；其中，x_n为矩形框中心点相对当前单元格的x偏移，y_n为矩形框中心点相对当前单元格的y偏移；假设锚框宽为anchor_w，锚框高为anchor_h，则结构化信息矩形框实际像素坐标为：其中，(x_pixel,y_pixel)为矩形框中点，w_pixel为矩形框宽度，h_pixel为矩形框高度；上述计算公式中，只有[x_n y_n w_n h_n]为网络预测得到，其他均为预设信息，由此可知：行人结构化信息矩形框是由改进后的yolox模型直接得到，无需通过行人矩形框信息的中间结果，避免了中间误差的累计。
[0027]
对于模型训练时的所述损失函数loss，在yolox基础上,增加了结构化信息前景概率损失attr_obj_loss和行人结构化信息矩形框回归损失attr_reg_loss，其中结构化信息前景概率损失attr_obj_loss采用交叉熵损失函数bcewithlogitsloss，行人结构化信息矩形框回归损失attr_reg_loss采用交并比损失函数iouloss；新增的结构化信息前景概率损失attr_obj_loss和行人结构化信息矩形框回归损失attr_reg_loss，与原来的损失函数进行相加得到最终的损失函数。
[0028]
将所述yolox模型的激活函数设置为relu,解耦头通道系数设置为0.5。
[0029]
本发明与现有技术相比，具有如下优点和有益效果：1、本发明可以在检测行人矩形框和行人结构化信息矩形框的同时，直接输出从属关系，避免了后续的逻辑判断，准确率更高。同时开发了通用的属性标注工具，再标注检测框的同时，可标注框与框之间的从属关系，有效提高标注效率。
[0030]
2、本发明对目标检测网络yolox模型修改得到，实现了端到端的输出行人矩形框和行人结构化信息矩形框之间的从属关系，避免了后续框之间是否重叠的判断，并通过数据增强和标签分配方式，有效提高结构化信息检测的准确率和效率。同时通过模型输出通道的拓展，可轻易支持多种结构化信息的检测，并不会带来较多耗时，保证了模型的通用
性。此外，开发了新的属性标注工具，在标注检测框的同时，可标注框与框之间的从属关系，有效提高标注效率。
附图说明
[0031]
图1为一种端到端的行人结构化信息及其从属关系的检测方法的流程图；图2为从属关系的数据增强方案示意图；图3为标注好的数据格式组成示意图。
具体实施方式
[0032]
下面结合实施例及附图对本发明作进一步详细的描述，但本发明的实施方式不限于此。
[0033]
如图1至3，一种端到端的行人结构化信息及其从属关系的检测方法，包括以下步骤：首先开发通用的结构化标注工具并进行数据标注，同步设计好网络结构，训练过程中需要对从属关系进行增强，并为预测框分配标签，然后模型执行推理，利用模型输出信息回归行人结构化信息矩形框的坐标，最后计算损失函数loss，用于更新模型。
[0034]
实施过程如下：1、网络结构设计yolox采用yolov3_spp作为基准模型，并采用了解耦头decoupled head和anchor-free等trick进行改进，最终得到yolox-darknet53网络结构。yolox论文指出，目前yolov3~v5系列的检测头,表达能力可能有所欠缺，没有decoupled head的表达能力更好，采用decoupled head，不单单是精度上的提高，网络的收敛速度也加快了。这里解耦后，还有一个更深层次的重要性：yolox的网络架构，可以和很多算法任务，进行一体化结合。比如：yolox yolact/condinst/solo ，实现端侧的实例分割。yolox 34 层输出，实现端侧人体的 17 个关键点检测。这里也是本发明采用yolox的原因，可以通过增加输出通道，实现行人结构化信息的一体化检测。
[0035]
decoupled head总共有三个分支：cls_output——主要预测目标框的类别和分数，输出大小为w*h*c；obj_output——主要判断目标框是前景还是背景，输出大小为w*h*1；reg_output——主要对目标框的坐标信息(x,y,w,h)进行预测，输出大小为w*h*4。其中w为输出特征图宽度，h为输出特征图高度，c为检测类别个数，比如当检测类别只有行人时，c为1。最后三个output，经过合并得到最后的特征信息，大小为pred_num*dim，其中pred_num=w*h，表征预测框个数，dim=c 1 4，表征每个预测框特征向量维度。这时每个预测框含有一个维度为dim的特征向量:[cls_1 cls_2 ... cls_c obj x y w h]其中，x:目标框中心点x坐标信息；y:目标框中心点y坐标信息；w:目标框宽度信息；h:目标框高度信息；obj:目标框得分信息；cls_1:目标框类别1得分；cls_c:目标框类别c得分。
[0036]
为了增加行人结构化信息检测，对decoupled head做了如下改动：obj_output分支增加s个通道输出，此时输出大小为w*h*(1 s);reg_output分支增加4*s个通道，此时输出大小为w*h*(4 4*s)。其中s为行人结构化类别个数，可以根据实际项目需求进行改变，使
得算法具有一定通用性，比如有检测是否戴口罩，是否戴工帽两个类别，这时s为2。最后三个output，经过合并得到最后的特征信息，大小为pred_num*dim_s，其中pred_num=w*h，表征预测框个数，dim_s=c 1 s 4 4*s，表征每个预测框特征向量维度。这时每个预测框含有一个维度为dim_s的特征向量：[x y w h obj cls attr_1 ... attr_n x_1 y_1 w_1 h_1 ... x_n y_n w_n h_n]其中，attr_n为结构化信息n的得分信息，[x_n y_n w_n h_n]为结构化信息n的框坐标信息。
[0037]
根据上述特征向量，行人结构化信息的判断过程如下：当obj*cls大小满足行人矩形框得分阈值时，认为当前预测框含有行人信息，[x y w h]为该行人矩形框坐标信息，此时如果结构化信息n的得分attr_n满足结构化信息概率阈值，则认为该行人含有结构化信息n，[x_n y_n w_n h_n]为行人结构化信息n的矩形框坐标信息。这时整个端到端行人结构化信息检测就完成了。
[0038]
2、针对边缘端移植的网络改进为了减少模型边缘端移植后的推理耗时，对网络进一步做了如下改变：将激活函数从silu修改为relu,解耦头通道系数从1.0修改为0.5。
[0039]
3、行人结构化信息矩形框回归方法设计对于上述改进的网络，当输入图形分辨率为640*640时，三个decoupled head分别有不同降采样尺度的特征图输出，特征图w*h分别为20*20(下采样5次，下采样倍数为32，其他同理)，40*40，80*80。对于其中一个特征图的每一个单元格，都有对应的锚框anchor（锚框是建立起特征图和实际像素坐标矩形框之间的纽带，在训练时有加速模型收敛的作用）。当特征图w*h分别为20*20时，锚框大小为32*32，和降采样倍率一致。根据上述网络结构设计，给出了某一单元格(u_w,u_h)下的行人结构化信息n的矩形框坐标信息[x_n y_n w_n h_n]，结合其所在特征图的锚框信息，可计算出实际分辨率下的矩形框坐标。其中，x_n为矩形框中心点相对当前单元格的x偏移，y_n为矩形框中心点相对当前单元格的y偏移。假设锚框宽为anchor_w，锚框高为anchor_h，则结构化信息矩形框实际像素坐标为：其中，(x_pixel,y_pixel)为矩形框中点，w_pixel为矩形框宽度，h_pixel为矩形框高度。
[0040]
上述计算公式中，只有[x_n y_n w_n h_n]为网络预测得到，其他均为预设信息，相当于使得行人结构化信息矩形框是由模型直接得到，无需通过行人矩形框信息等中间结果，避免了中间误差的累计。
[0041]
4、从属关系的数据增强方案对于卷积神经网络，为了避免模型训练过程中由于训练数据过于单一陷入过拟
合，采用数据增强的正则化方式，增加数据集的多样性，从而提高模型的泛化能力。本发明的数据样本分成三部分，分别是图像数据、矩形框标签信息(包含行人矩形框和行人结构化信息矩形框)、行人矩形框和行人结构化信息矩形框之间的从属关系标签信息。原yolox的数据增强采用mosaic和mixup,通过随机缩放、随机裁剪和随机排布方式对训练图形进行拼接，可以扩增图像数据和矩形框标签信息两部分。
[0042]
本发明在原mosaic和mixup数据增强的基础上，增加了行人矩形框和行人结构化信息矩形框之间的从属关系的增强，即在数据增强过程中，会对各图像数据进行拼接、删除和裁剪，伴随而来的，就是矩形框标签信息的新增、裁剪、畸变或者消失，相对应的从属关系也要同步增加或删除。
[0043]
实现基本原理是在进行数据增强前，先将矩形框的从属关系标签信息存储进队列，之后对图像数据和矩形框标签信息一并进行mosaic和mixup数据增强，最后再重新梳理增强后仍存在的行人矩形框和行人结构化信息矩形框，根据行人矩形框和结构化框是否存在或者新增来判断从属关系是否存在或者增加，从而对原队列中的从属关系进行删除或者增加，更新后的队列数据即位增强后的从属关系标签信息。
[0044]
5、预测框的标签分配方案在网络结构设计中，我们提到过，一个解耦头上的特征图会有pred_num个预测框输出。所谓标签分配，就是在模型训练过程中，为每个预测框分配一个真实矩形框标签信息，建立起预测框和标注的真实矩形框标签信息之间的对应关系，即确定出哪些预测框被当作前景正样本，哪些预测框被当作背景负样本，然后利用损失函数计算预测框和真实矩形框标签信息间的损失，最后反向传播更新模型权重。
[0045]
在原yolox中，为了确定预测框的分配方式，采用真实矩形框标签信息对解偶头上的特征图进行正负样本区域划分，即将位于真实矩形框内的所有预测框作为正样本候选框，其余为负样本。本发明的预测框分两种情况处理，分别是行人矩形框的预测框(后续简称p_pred_rect)和行人结构化信息矩形框的预测框(后续简称s_pre_rect)。在为p_pred_rect进行标签分配时，直接采用原yolox标签分配方案。令行人矩形框的真实框为p_true_rect,行人结构化信息矩形框的真实框为s_true_rect。
[0046]
在为s_pred_rect进行标签分配时，做了如下改动，不采用s_true_rect对解偶头上的特征图进行区域划分，而仍采用p_true_rect进行替代，这样保持了行人矩形框和行人结构化信息矩形框之间的标签分配一致性，可加速训练模型性能收敛，同时避免了训练后的模型出现检测到行人矩形框却没有检测到结构化信息的情况。主要是因为本发明的检测结果——行人矩形框和行人结构化信息矩形框是不是独立关系，只有在检测出行人矩形框的基础上，才会去判断行人结构化信息矩形框存在与否，所以如果采用s_true_rect区域为s_pred_rect进行标签分配时，一些位于p_true_rect区域但不位于s_true_rect区域的预测框，就会被分配为负样本，这样子的分配方式训练出的模型可能导致部分预测框在检测出行人矩形框后，无法准确判断行人结构化信息矩形框是否存在。比如对于特征图上的一个坐标为(u_w,u_h)的单元格，如果采用s_true_rect区域为s_pred_rect进行标签分配时，该单元格的s_pred_rect就会被分配为负样本，而该单元格位于p_true_rect区域内，所以该单元格的p_pred_rect就会被分配为正样本，这样子就会出现该单元格的预测框特征向量为[x y w h 1 cls 0 x_1 y_1 w_1 h_1]，在检测出行人矩形框后，却预测行人结构化信
息矩形框不存在；如果采用p_true_rect区域为s_pred_rect进行标签分配，该单元格的s_pred_rect就会被分配为正样本，这样就保持了行人矩形框和行人结构化信息矩形框之间的标签分配一致性。
[0047]
6、训练损失函数loss方案设计对于模型训练时的损失函数loss，在yolox基础上,增加了结构化信息前景概率损失attr_obj_loss和行人结构化信息矩形框回归损失attr_reg_loss，其中attr_obj_loss采用交叉熵损失函数bcewithlogitsloss，attr_reg_loss采用交并比损失函数iouloss。新增两个损失会和原来的损失函数进行相加得到最终的损失函数。
[0048]
7、通用结构化标注工具开发与数据读取方式为了提高结构化信息数据的标注，还开发了一个新的结构化标注工具labelimg-attr，这个工具可以直接连接行人矩形框和行人结构化信息矩形框之间的左上角连线，建立起属性关系。标注好的数据格式共有三部分组成，包括图像数据images、矩形框标签信息labels、从属关系标签信息图像relevate。每部分又分成训练和测试两部分。
[0049]
其中，labels下的txt信息如下图所示，第一列为类别，第二到五列为框信息，最后一列为增加的id信息。
[0050]
2 0.374023 0.503125 0.041797 0.122917 01 0.363281 0.400694 0.028906 0.063889 10 0.073828 0.877431 0.110937 0.245139 20 0.369727 0.536111 0.091797 0.340278 32 0.084375 0.907292 0.078125 0.177083 4对应的relevate下的标签信息如下，其中，每行第一数字为宿主id，第二个数字为属性id。
[0051]
3,03,12,4本实施例技术方案的关键点如下：（1）在yolox模型基础上的改进得到的端到端行人结构化检测模型。即提出了在解耦输出头处利用增加通道数的方法，实现了行人结构化检测，并可以随着具体结构化类别数量进行拓展，保证了算法的通用性。当前专利还没有相关通用的结构化信息检测方法。改进后的模型可以端到端的输出行人矩形框和结构化信息矩形框之间的从属关系。避免现有技术中采用交并比的方案来判断框之间是否重叠，进而判断是否有从属关系。
[0052]
（2）结构化信息矩形框回归方法。模型直接预测回归行人结构化信息矩形框中心点相对模型输出特征图当前单元格的x方向和y方向的偏移，以及行人结构化信息矩形框宽高相对于模型输出特征图当前单元格的锚框宽高的指数信息。再结合其他预设信息，就可以得到实际像素坐标下的矩形框。相当于使得行人结构化信息矩形框是由模型直接得到，与现有技术方案对比，无需通过行人矩形框信息等中间结果，避免了中间误差的累计。
[0053]
（3）行人矩形框和行人结构化信息矩形框之间的从属关系的数据增强方案。有效增加训练过程中从属关系数据的多样性，目前还没有专利提出相关数据增强方案。
[0054]
（4）行人结构化信息矩形框的标签分配方案。保持了行人矩形框和行人结构化信
息矩形框之间的标签分配一致性，可加速训练模型性能收敛，同时避免了训练后的模型出现检测到行人矩形框却没有检测到结构化信息的情况。目前还没有专利提出相关标签分配方案。
[0055]
（5）通用结构化标注工具。本发明开发了一个通用的结构化标注工具labelimg-attr，这个工具可以直接连接行人矩形框和行人结构化信息矩形框之间的左上角连线，建立起属性关系。目前还没有专利提出相关标注工具。
[0056]
与现有技术相比较，本实施例的技术方案有如下优点：（1）模型具有通用性。基于yolox，利用可拓展的网络输出头通道，适应不同类型结构化信息。
[0057]
（2）端到端的输出。基于上述的可拓展的网络输出头通道，模型端到端的输出行人矩形框和结构化信息矩形框之间的从属关系，避免了后续的重叠逻辑判断。
[0058]
（3）较新的目标检测技术的应用。改进了mosaic数据增强方式和simqta标签分配用于适应结构化信息数据的训练。
[0059]
（4）行人结构化信息矩形框精度更准确。模型直接预测回归得到行人结构化信息矩形框中心点相对模型输出特征图当前单元格的x方向和y方向偏移，剔除中间误差。
[0060]
（5）设计了通用的属性标注工具。有效提高结构化信息数据的标注效率。
[0061]
本领域技术人员可以理解的是，实施例中的全部或部分步骤，可以通过计算机程序来指令相关的硬件实现，该程序可以存储于计算机可读介质中，可读介质可以包括闪存盘、移动硬盘、只读存储器、随机存取器、磁盘或光盘等各种可以存储程序代码的介质。在一个实施例中，公开提出了一种计算机可读介质，所述计算机可读介质中存储有计算机程序，所述计算机程序由处理模块加载并执行以实现端到端的行人结构化信息及其从属关系的检测方法。
[0062]
在符合本领域技术人员的知识和能力水平范围内，本文提及的各种实施例或者技术特征在不冲突的情况下，可以相互组合而作为另外一些可选实施例，这些并未被一一罗列出来的、由有限数量的技术特征组合形成的有限数量的可选实施例，仍属于本公开揭露的技术范围内，亦是本领域技术人员结合附图和上文所能理解或推断而得出的。
[0063]
另外，多数实施例的描述是基于不同的重点而展开的，未详述之处，可参见现有技术的内容或本文的其他相关描述进行理解。
[0064]
再次强调，上文所列举的实施例，为本公开较为典型的、较佳实施例，仅用于详细说明、解释本公开的技术方案，以便于读者理解，并不用以限制本公开的保护范围或者应用。在本公开的精神和原则之内所作的任何修改、等同替换、改进等而获得的技术方案，都应被涵盖在本公开的保护范围之内。

再多了解一些

1/2 1 2 下一页尾页

本文用于创业者技术爱好者查询，仅供学习研究，如用于商业用途，请联系技术所有人。

上一篇：返回列表
下一篇：一种目标场景的三维重建方法、装置、无人机及存储介质与流程

一种端到端的行人结构化信息及其从属关系的检测方法与流程

相关文献

最热文献