一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种改进型YOLOX目标检测模型构建方法及其应用

2022-09-07 16:16:39 来源:中国专利 TAG:

一种改进型yolox目标检测模型构建方法及其应用
技术领域
1.本发明属于机器视觉技术领域,具体涉及一种改进型yolox目标检测模型构建方法及其应用。


背景技术:

2.随着人们对水果的消费需求日渐增长,水果的种植面积与产量也随之增加。采摘作业所用劳动力占整个生产过程所用劳动力的30%左右,若使用人工采摘,不仅劳动量大,而且不能保证果实的适时采收。为解决农业采摘中的实际问题,水果采摘机器人的研究与应用已成为一种迫切需要。虽然目前采摘机器人的发展取得了较大的进步,但是事实上,水果采摘机器人即便是在国外,也是很难产品化。目前的水果采摘机器人投入到实际工作中,还存在着极大的缺陷。
3.采摘机器人的运行环境复杂,作物生长环境除受地形条件的约束,还直接受季节、天气等自然条件的影响,不确定性因素多,造成采摘难度大。同时,作业对象大多数被树叶、树枝所遮挡,增大了机器人的视觉识别、定位的难度,降低了采摘成功率,这就对机器人的识别、定位与避障功能提出了更高的要求。随着智能化的快速发展,计算机视觉的目标识别与定位方法研究,有益于加速后续农业体系的发展,为后续其它的农业采摘机器人研究提供一定的理论借鉴。


技术实现要素:

4.本发明针对现有技术的不足,本发明提出一种改进型yolox目标检测模型构建方法及应用该改进型yolox目标检测模型的果实识别与定位方法,利用改进型yolox目标检测模型实现快速、高精度检测果实。
5.本发明所采用的技术方案如下:
6.一种改进型yolox目标检测模型构建方法,包括如下步骤:
7.步骤1、搭建改进型yolox目标检测模型结构,包括主干特征提取网络、加强特征提取网络和预测特征网络;
8.所述主干特征提取网络主要由focus网络结构、cbl网络结构、cspnet网络结构、spp网络结构和se注意力机制结构组成,3个se注意力机制模块分别记为se-1网络结构、se-2网络结构、se-3网络结构;由focus网络结构、第一cbl网络结构、第一cbl cspnet网络结构、第二cbl cspnet网络结构、se-1网络结构、第三cbl cspnet网络结构、se-2网络结构、第二cbl网络结构、spp网络结构、cspnet网络结构和se-3网络结构依次连接而成;输入为图像输入focus网络结构,se-1网络结构、se-2网络结构、se-3网络结构分别输出第一有效特征层、第二有效特征层和第三有效特征层;
9.加强特征提取网络采用pan fpn特征金字塔和asff自适应空间特征融合结构,将不同shape的特征层进行特征融合,加强特征提取网络由2个conv2d、4个concat cspnet网络结构、2个上采样、2个下采样和3个asff网络结构构成;
10.预测特征网络接收加强特征提取网络的输出,通过预测特征网络获取特征信息。
11.步骤2、训练步骤1中所搭建的改进型yolox目标检测模型结构。
12.进一步,所述cbl网络结构是由conv2d、bn层以及silu激活函数构成。
13.进一步,cspnet网络结构是由3个cbl网络结构、residual残差块和concat连接层构成,cspnet网络结构的输入分两条路处理,一条是依次经过cbl网络结构和residual残差块处理,另一条路直接经过cbl网络结构,且两条路的输出通过concat连接层拼接后再输入cbl网络结构,得到最终输出。
14.进一步,所述cbl cspnet网络结构是按顺序连接的cbl网络结构和cspnet网络结构,cbl网络结构的输出作为cspnet网络结构的输入。
15.进一步,所述se注意力机制模块包括压缩和激励两部分,通过全局池化将特征图压缩为1
×1×
c的向量;通过学习将各个特征通道生成权重,将得到的通道权重与原特征图对应通道的二维矩阵相乘,即对原有的特称图进行通道方向上的加权得到输出,c表示特征图的通道数。
16.进一步,在pan fpn特征金字塔融合的基础上增加可学习系数,实现自适应融合效果,公式如下:
[0017][0018]
其中,表示通道之间输出特征映射y
l
的第(i,j)个特征向量,表示从1级调整到l级的特征图上位置(i,j)处的特征向量,表示从2级调整到l级的特征图上位置(i,j)处的特征向量,表示从3级调整到l级的特征图上位置(i,j)处的特征向量,是指由网络自适应学习的三个不同级别到l级别的特征图的空间重要性权重,上标l表示为第l级的特征图。
[0019]
进一步,所述预测特征网络采取三个解耦头,每个解耦头代表一个分支,分别表示为:
[0020]
第一个分支cls(h,w,c):预测目标框的类别;
[0021]
第二个分支reg(h,w,4):预测目标框的坐标信息;
[0022]
第二个分支obj(h,w,1):判断目标框是否包含物体;
[0023]
三个解耦头获取到特征信息经过concat拼接融合后,得到预测信息。
[0024]
进一步,利用深度相机获取自然场景下待识别果实的彩色图,并对彩色图进行标注形成数据集;
[0025]
将数据集按照(训练集 验证集):测试集=9:1,训练集:验证集=9:1划分得到训练集、验证集和测试集,用于改进型yolox目标检测模型结构的训练、验证以及测试。
[0026]
一种基于改进yolox结合realsense的果实识别与定位方法,包括如下步骤:
[0027]
步骤1、调用realsense相机采集待识别果实的彩色图和深度图;
[0028]
步骤2、将realsense相机获取到的彩色图输入训练好的改进型yolox目标检测模型中,进行目标果实的识别并生成二维目标框,
[0029]
步骤3、通过识别出二维目标框的左上点和右下点的坐标,计算出二维目标框中心点的像素坐标(x,y);在对齐的深度图中提取二维目标框中心点像素坐标对应的深度值z,
实时获取目标果实中心点的三维坐标(x,y,z);
[0030]
步骤4、利用相机标定获取相机内参参数对目标果实中心点的三维坐标(x,y,z)转换成相机坐标系表示。
[0031]
进一步,相机坐标系下目标果实中心点的三维坐标表示为(x1,y1,z),其中,
[0032]
x1=(x-c
x
)/f
x
*z
[0033]
y1=(y-cy)/fy*z
[0034]
其中,f
x
表示使用像素来描述x轴方向焦距的长度,fy表示使用像素来描述y轴方向焦距的长度,(c
x
、cy)分别代表相机感光芯片的中心点在x和y方向上存在的偏移量。
[0035]
本发明的有益效果:
[0036]
本发明在获取大量苹果原始图片的基础上采取数据增强的办法,提高检测模型的泛化能力。在保证检测精度的情况下,所选的目标检测网络yolox具有快速响应、高精度、结构简单和方便部署等优点,并在原有的yolox结构上增加se和asff模块,在检测速度和精度上达到了很好的效果。
[0037]
同时,本发明采用获取二位像素点的三维坐标的方式,选取一款射程较短的深度相机,能够实现0.2到1.5米之间任意距离的最佳深度定位检测。
附图说明
[0038]
图1是本发明改进型yolox目标检测模型构建方法示意图;
[0039]
图2是本发明改进型yolox目标检测模型结构示意图;
[0040]
图3是cbl和cspnet网络结构示意图;
[0041]
图4是se注意力机制模块的网络结构示意图;
[0042]
图5是预测解耦头结构示意图;
[0043]
图6是本发明改进型yolox目标检测模型识别苹果效果图;
[0044]
图7是本发明结合realsense相机输出苹果三维坐标流程图。
具体实施方式
[0045]
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用于解释本发明,并不用于限定本发明。
[0046]
结合附图1-5,本技术一种改进型yolox目标检测模型构建方法,包括如下步骤:
[0047]
步骤1、搭建改进型yolox目标检测模型结构。结合附图2,改进型yolox目标检测模型结构具体为:
[0048]
1、主干特征提取网络为cspdarknet,主要由focus网络结构、cbl网络结构、cspnet网络结构、spp网络结构和se注意力机制结构组成;3个se注意力机制模块分别记为se-1网络结构、se-2网络结构、se-3网络结构;具体由focus网络结构、第一cbl网络结构、第一cbl cspnet网络结构、第二cbl cspnet网络结构、se-1网络结构、第三cbl cspnet网络结构、se-2网络结构、第二cbl网络结构、spp网络结构、cspnet网络结构和se-3网络结构依次连接而成;主干特征提取网络的输入为图像,主干特征提取网络共有三个输出,分别是se-1网络结构输出的第一有效特征层、se-2网络结构输出的第二有效特征层、se-3网络结构输出的第
三有效特征层。
[0049]
进一步,如图3所示,cbl网络结构是由conv2d、bn层以及silu激活函数构成。
[0050]
进一步,如图3所示,cspnet网络结构是由3个cbl网络结构、residual残差块和concat连接层构成,cspnet网络结构的输入分两条路处理,一条是依次经过cbl网络结构和residual残差块处理,另一条路直接经过cbl网络结构,且两条路的输出通过concat连接层拼接后再输入cbl网络结构,得到最终输出。
[0051]
进一步,上文中的cbl cspnet网络结构是按顺序连接的cbl网络结构和cspnet网络结构,cbl网络结构的输出作为cspnet网络结构的输入。
[0052]
进一步,focus网络沿用yolov5的结构,在图片进入主干特征提取网络之前每隔一个像素点提取一个值,将宽高信息集中到通道通道空间,输入通道扩充了四倍,即相对于原先的rgb三通道模式变成了十二个通道。在保证信息不丢失的情况下,更有利于后期的计算。
[0053]
进一步,采用了silu激活函数,silu是sigmoid和relu的改进版。silu具备无上界有下界、平滑、非单调的特性,有助于防止慢速训练期间,梯度逐渐接近0并导致饱和,同时其平滑度在优化和泛化中起到重要作用,特别是在较深的网络中优势更加明显。函数表达式如下:
[0054]
silu(x)=x
·
sigmoid(x)
[0055]
本技术所设计的改进型yolox目标检测模型结构是在原有yolox主干特征提取网络的基础上增添了se注意力机制模块,分别增加在第二cbl cspnet网络结构、第三cbl cspnet网络结构和cspnet网络结构之后,se注意力机制模块属于通道注意力模块,通过自主学习的方式来获取到每个特征通道的重要程度,明确建模网络卷积特征通道之间的相互依赖关系来提高网络生成的表示质量,从而筛选出针对通道的注意力,有效地改善网络性能。
[0056]
结合附图4,se注意力机制主要包括squeeze(压缩)和excitation(激励)两部分。w、h分别表示特征图的宽、高,c表示特征图的通道数。在squeeze操作中,通过全局池化将特征图压缩为1
×1×
c的向量。在excitation操作中,通过学习将各个特征通道生成权重。在scale操作中,将excitation中得到的通道权重与原特征图对应通道的二维矩阵相乘,即对原有的特称图进行通道方向上的加权,该输出可直接输入到网络的后续层。
[0057]
进一步,图片经过多次卷积后,最终通过主干特征提取网络提取出三个有效特征层,三个特征层的shape分别为:c1=(80,80,256)、c2=(40,40,512)、c3=(20,20,1024)。
[0058]
2、加强特征提取网络采用pan fpn特征金字塔和asff自适应空间特征融合结构,将不同shape的特征层进行特征融合,以此达到加强特征提取的目的。
[0059]
加强特征提取网络由2个conv2d、4个concat cspnet网络结构、2个上采样、2个下采样和3个asff网络结构构成。将主干特征提取网络输出的三个有效特征层作为加强特征提取网络的输入,其中,第三有效特征层输入第一conv2d后获得特征层u1,u1进行上采样后与第二有效特征层输入第二concat cspnet,进行拼接和特征提取后获得特征层u2=(40,40,512);u2=(40,40,512)的特征层输入第二conv2d后获得特征层u3,u3进行上采样后与第一有效特征层输入第四concat cspnet,进行拼接和特征提取后获得特征层为f1=(80,80,256);
[0060]
f1=(80,80,256)的特征层进行下采样后与u3输入第三concat cspnet,进行拼接和特征提取后获得的特征层为f2=(40,40,512);
[0061]
特征f2=(40,40,512)的特征层进行下采样后与u1输入第一concat cspnet,进行拼接和特征提取后获得特征层f3=(20,20,1024)。
[0062]
进一步,将f1输入asff-1、f2输入asff-2、f3输入asff-3,分别进行特征过滤,并不改变特征层的大小和通道数,最终通过加强特征提取网络获取三个特征层的shape分别为:f1=(80,80,256)、f2=(40,40,512)、f3=(20,20,1024)。
[0063]
进一步,采用asff自适应空间特征融合结构是为了解决不同特征尺度之间的不一致性问题,尤其是对于一阶段检测器,这种不一致性会干扰训练期间的梯度计算,并降低特征金字塔的有效性。而asff自适应空间特征融合结构能够让网络直接学习如何在其它特征层次上对特征进行空间过滤,以便只保留有用的信息进行组合。具体来说,在原来pan fpn特征金字塔融合的基础上增加可学习系数,实现自适应融合效果,公式如下:
[0064][0065]
其中,表示通道之间输出特征映射y
l
的第(i,j)个特征向量,表示从1级调整到l级的特征图上位置(i,j)处的特征向量,表示从2级调整到l级的特征图上位置(i,j)处的特征向量,表示从3级调整到l级的特征图上位置(i,j)处的特征向量,是指由网络自适应学习的三个不同级别到l级别的特征图的空间重要性权重,上标l表示为第l级的特征图。
[0066]
3、如图5所示,预测特征网络采取三个解耦头,将分类和回归分开实现,减少参数量的同时提高了网络的收敛速度。具体来说,它包含一个1
×
1的卷积层以减少通道尺寸,然后添加两个平行分支,每个分支具有两个3
×
3的卷积层,分别用于分类和回归任务,三个分支具体如下:
[0067]
第一个分支cls(h,w,c):预测目标框的类别,本发明仅具有苹果一个类别;
[0068]
第二个分支reg(h,w,4):预测目标框的坐标信息,即目标框的中心点坐标和宽高;
[0069]
第二个分支obj(h,w,1):判断目标框是否包含物体;
[0070]
通过预测特征网络的三个解耦头获取到特征信息分别为:h1=(80,80,6)、h2=(40,40,6)、h3=(20,20,6),经过最终的concat拼接融合后,得到8400*6的预测信息,这里的8400是预测框的数量,而6是每个预测框的信息:(reg,obj,cls)。
[0071]
结合图5,针对上述的预测信息进行得分筛选与非极大抑制筛选。对所有图片进行循环,筛选出一定区域内属于同一种类得分最大的框,找出该图片中得分大于阈值的框。在目标检测中,非极大抑制可以消除多余的检测框,找到最佳目标检测的位置。根据得分对该种类进行从大到小排序,每次取出得分最大的框,计算与其它所有预测框的重合程度,重合程度过大的则剔除。得分筛选与非极大抑制后的结果就可以在图片上绘制预测框,实现苹果的目标识别。
[0072]
步骤2,在完成改进型yolox目标检测模型结构搭建后,需要对搭建好的改进型yolox目标检测模型结构进行训练、验证以及测试。
[0073]
步骤2.1,数据集准备。
[0074]
首先,利用深度相机获取800张自然场景下待识别果实的彩色图(rgb图),并用labelimg进行单类别“apple”的标注形成苹果数据集;在本实施例中,标注格式采用pascalvoc格式。
[0075]
对步骤1中数据集中的图像进行图像预处理;预处理具体包括,选择平移、翻转、旋转、对比度、随机缩放、亮度和饱和度等方式对所述的苹果数据集进行数据增强,其中亮度和饱和度扩充1.5倍,其余均扩充1倍,增加数据集的同时提高网络的稳定性与鲁棒性。然后对苹果数据集进行不失真的resize处理,统一大小为640*640。同时使用mosaic数据增强方法进行四张图片的拼接,变相地提高了batch_size,那么单个gpu就可以达到比较好的训练效果。对增强过后的数据集进行划分,得到训练集、验证集和测试集,划分比例按照:(训练集 验证集):测试集=9:1,其中训练集:验证集=9:1。
[0076]
步骤2.2,模型训练。
[0077]
利用数据集的训练集和验证集对上述改进型yolox目标检测模型进行训练。训练的epoch设置为300次,前100个epoch冻结主干特征提取网络并设定初始学习率为0.01,后200个epoch解冻主干特征提取网络并设定初始学习率为0.0001。在所构建苹果数据集的测试集上面进行目标检测的验证,完成苹果的目标识别。
[0078]
结合图7,本技术提出了一种基于改进yolox结合realsense的果实识别与定位方法,在本实施例中,待采摘的果实为苹果,但不局限于苹果,如梨子、橘子等类似果实都适用本方法进行识别及定位;包括如下步骤:
[0079]
步骤1、调用realsense相机采集待识别果实的彩色图和深度图。深度图也叫做距离图,是相机的深度数据流所获取的图像帧,其每一个像素点代表的是相机拍摄到的场景距离摄像头平面的距离。相机获取的彩色图与深度图是配准对齐的,像素点具有一一对应的关系。
[0080]
步骤2、将realsense相机获取到的彩色图(rgb图)输入训练好的改进型yolox目标检测模型中,进行目标果实的识别并生成二维目标框,如图6所示。
[0081]
步骤3、通过识别出二维目标框的左上点和右下点的坐标,计算出二维目标框中心点的像素坐标(x,y);在对齐的深度图中提取二维目标框中心点像素坐标对应的深度值z,即可以实时获取目标苹果中心点的三维坐标(x,y,z)。
[0082]
步骤4、步骤3中目标苹果中心点的三维坐标(x,y,z)的苹果中心点坐标(x,y)是像素坐标,像素位置并不能用于机械臂抓取,需要将坐标转换成相机坐标系下使用,实现真正的苹果定位。利用相机标定获取相机内参参数进行转换,相机内参参数矩阵如下:
[0083][0084]
其中,f
x
表示使用像素来描述x轴方向焦距的长度,fy表示使用像素来描述y轴方向焦距的长度,(c
x
、cy)分别代表相机感光芯片的中心点在x和y方向上存在的偏移量。
[0085]
像素坐标转换为相机坐标的表达式如下:
[0086]
x1=(x-c
x
)/f
x
*z
[0087]
y1=(y-cy)/fy*z
[0088]
最终获取到苹果中心点的三维坐标为(x1,y1,z),实现苹果的目标定位。
[0089]
以上实施例仅用于说明本发明的设计思想和特点,其目的在于使本领域内的技术人员能够了解本发明的内容并据以实施,本发明的保护范围不限于上述实施例。所以,凡依据本发明所揭示的原理、设计思路所作的等同变化或修饰,均在本发明的保护范围之内。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献