一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种基于RGB图像和深度图像的七自由度抓取姿势检测方法与流程

2022-03-04 23:33:50 来源:中国专利 TAG:

一种基于rgb图像和深度图像的七自由度抓取姿势检测方法
技术领域
1.本发明涉及计算机视觉领域,尤其涉及一种基于rgb图像和深度图像的七自由度抓取姿势检测方法。


背景技术:

2.鲁棒的机械臂抓取是大多数工业场景和日常生活中对机器人的基本需求。整个机械臂的抓取分为两个部分:抓取检测和路径规划。抓取检测是指通过使用单目相机、深度相机或者双目相机等传感器获得的场景信息,以生成机械臂末端需要达到的六自由度姿态。六自由度姿态是指机械臂末端中心要到达的位置和坐标系。路径规划是指针对抓取检测生成的六自由度姿态,如何在工作空间中规划机械臂的运动路径,使得机械臂不与场景发生碰撞,并满足机械臂的运动动力学约束。
3.近些年来,随着深度学习的发展,基于视觉的机械臂抓取检测算法取得快速的发展。基于视觉的机械臂抓取检测方案可以分为三大类(见“fang hs,wang c,gou m,et al.graspnet-1 billion:a large-scale benchmark for general object grasping,cvpr 2020”),其中,第一类检测方案以单目或者多目的相机传感器捕捉到的rgb图像作为输入,然后在2d图像中检测一个可行的抓取框,该抓取框包含抓取位置和一个表示平面内旋转的角度信息。该类算法将抓取限定为垂直于桌面,严重限制抓取的自由度,会导致杂乱场景中的堆叠目标难以被抓取;第二类检测方案是通过检测目标物的六自由度姿态的变换,将参考坐标系下的目标的对应抓取变换到坐标系下(见“zhao w,zhang s,guan z,et al.learning deep network for detecting 3d object keypoints and 6d poses,cvpr 2020”)。该类算法的问题在于,只能用于数据集中已经存在的目标的抓取,对于新的目标,首先需要进行3d建模,再手工标注抓取姿态,将导致获得数据集的成本过高;第三类检测方案是以点云数据作为输入,利用3d空间中点云的几何和语义信息,通过单阶段或者双阶段的方式,直接得到机械臂末端需要达到的六自由度姿态(见“liang h,ma x,li s,et al.pointnetgpd:detecting grasp configurations from point sets,icra 2019”)。该类方法的优点在于训练出的模型通用性好,并且能得到不受限制的抓取姿势,但是在大多数的情况下,该检测方案仅以不稳定的点云数据作为输入且无法进行针对性的抓取。
4.现有的六自由度的抓取姿势检测方案较少,且没有将rgb数据应用到克服点云数据的不稳定性并生成面向对象的抓取的方案。于秀丽等人在专利申请“一种基于多类别目标分割的机器人抓取检测方法”(中国发明专利第112861667a号)中,使用rgb图像进行图像分割和语义识别,对分割得到的目标生成一个包含平面内旋转角度的抓取矩形框;李明阳等人在专利申请“基于物体识别深度学习模型的机器人抓取位姿估计方法”(中国发明专利第01810803444号)中,使用二维视觉信息和三维视觉信息融合的方法获取目标物体点云,接着采用将目标物体的点云与模板库中物体点云模板进行配准的方式,来进行目标物体的位姿估计;钱堃等人在专利申请“一种单视角点云下基于实例分割的机器人抓取检测方案”(中国发明专利第110363815a号)中使用rgb图像进行目标分割,接着将分割得到的目标点
集映射到点云中,然后在随机采样的点上根据原始点云数据的几何结构生成初始的抓取坐标系,最后通过平移和过滤生成最终的六自由度抓取姿势。
5.随着深度学习的不断发展,rgb数据在姿势检测方面的作用渐渐被挖掘出来。rgb数据可以预测图像上的具有特定语义信息的点,如人体上的关键点(见“sun k,xiao b,liu d,et al.deep high-resolution representation learning for human pose estimation,cvpr 2019”),也可以用来预测图像上每个点的抓取旋转矩阵(见“gou m,fang h s,zhu z,et al.rgb matters:learning 7-dof grasp poses on monocular rgbd images,icra 2021”)。
6.因此,针对抓取检测部分,本领域的技术人员致力于开发一种基于rgb图像和深度图像的七自由度抓取姿势检测方法,克服基于点云的抓取方法中点云数据的不稳定性和无法进行针对性抓取的缺陷,提高生成的抓取姿势的准确性和稳定性。


技术实现要素:

7.有鉴于现有技术的上述缺陷,本发明所要解决的技术问题是如何解决现有的基于点云的六自由度抓取检测方法中点云数据的不稳定性和生成的抓取缺乏针对性的问题,让最终生成的抓取姿势的准确性和稳定性得到提高。
8.为实现上述目的,本发明提供了一种使用rgb数据进行改进的抓取检测方法,针对抓取检测部分,基于单目rgb数据和深度数据,生成用于平行的两指抓取器的鲁棒的七自由度抓取姿态。与六自由度姿态相比,七自由度的抓取姿态新增抓取宽度。
9.本发明提供的一种基于rgb图像和深度图像的七自由度抓取姿势检测方法,所述方法包括以下步骤:
10.步骤1、通过将深度图像转换为点云数据,并将所述点云数据的坐标投影到二维图像中,得到三通道坐标图像x-y-z图像;
11.步骤2、使用resnet-50对rgb图像和所述x-y-z图像的信息进行编码,然后使用目标分割解码网络和可行抓取语义分割解码网络同时解码编码信息,得到图像中每个像素的目标分割结果和可行抓取语义分割结果,从所述可行抓取语义分割结果可以得到可行抓取点;
12.步骤3、使用penet和利用所述rgb图像对所述深度图像进行补全,得到经过补全的密集深度图像,并进而得到密集点云;
13.步骤4、利用所述步骤2中的所述可行抓取语义分割结果得到的所述可行抓取点和所述步骤3中得到的所述密集点云,计算所述可行抓取点的法向量和两个主曲率方向,构成抓取坐标系;
14.步骤5、使用启发式算法对所述可行抓取点的抓取深度和抓取宽度进行采样,得到若干抓取候选,所述抓取候选的所述抓取深度为最大、所述抓取宽度为最小;每个所述抓取候选对应一个抓取闭合区域;
15.步骤6、将所述抓取候选的所述抓取闭合区域中的点输入pointnet中,过滤掉不可行的所述抓取候选,得到最终的抓取姿势集合;
16.步骤7:结合所述步骤2中的所述目标分割结果,将所述抓取姿势集合中的所述抓取候选投影到所述目标分割结果的目标上,生成针对性的抓取姿势。
17.进一步地,在所述方法中采用的抓取器为二指平行抓取器,所述七自由度的抓取参数表示为:g=(x,y,z,α,β,γ,w),其中,(x,y,z)表示所述抓取器在世界坐标系下的位置,(α,β,γ)表示所述抓取器的抓取坐标系绕所述世界坐标系的x、y、z轴的旋转,w表示所述抓取器的末端宽度。
18.进一步地,在所述步骤1中,将所述点云数据的坐标投影到所述二维图像得到所述x-y-z图像的具体做法为:
19.z=d
20.其中,d表示所述深度图像,u0,v0,f
x
,fy表示相机内参。
21.进一步地,在所述步骤2中,使用多任务语义分割模块对所述rgb图像和所述x-y-z图像进行逐像素的目标分割和可行抓取语义分割;所述目标分割用于检测像素所属的类别,所述可行抓取语义分割用于检测像素是否适合被作为抓取中心;
22.所述目标分割解码网络和所述可行抓取语义分割解码网络使用层数不同的密集上采样卷积模块组成;
23.所述目标分割解码网络的损失函数使用改进的交叉熵损失函数l
sem
,定义为:
[0024][0025]
其中,n表示图像的像素总数;nc表示类别总数;wc表示类别c在所有类别中的权重,计算公式为tc表示类别真值为c的像素的总数,tc用于平衡类别数目不均衡的情况;取值为0或1,为0表示该类别和该像素对应的类别真值不同,为1表示该类别和该像素对应的类别真值相同;表示像素x属于列表c的置信度分数,使用来平衡不同样本的难易程度,将置信度分数较高的样本的损失权重变小,γ为可调参数。
[0026]
进一步地,所述可行抓取语义分割解码网络是一二分类网络,采用普通的交叉熵损失函数l
ga
,具体定义为:
[0027][0028]
其中,n表示图像的像素总数,xg∈{0,1}表示像素x的类别真值,表示测到的置信度分数,设置α=1、β=0.1以使标签为可抓取的点的损失所占的权重比例较大。
[0029]
进一步地,所述多任务语义分割模块的损失函数l定义为:
[0030]
l=γ1l
sem
γ2l
ga
[0031]
其中,γ1和γ2为可调参数。
[0032]
进一步地,在所述步骤3中,使用深度图像补全模块对所述深度图像进行补全;
[0033]
所述penet算法采用双通道框架,都使用深度卷积神经网络和反卷积的方式构建类似编码器-解码器网络,其中一个通道以颜色信息为主导输入得到一张颜色主导深度图;另一个通道以原始的所述深度图像作为主导输入,结合所述颜色主导深度图,得到一张深度主导深度图,接着将得到的所述颜色主导深度图和所述深度主导深度图通过加权的方式
进行融合,得到初步的所述密集深度图像,最后使用da-cspn 对所述密集深度图像进行细化,得到最终的补全后的所述密集深度图像。
[0034]
进一步地,在所述步骤4中,使用所述旋转矩阵检测模块计算所述可行抓取点所在的所述抓取坐标系;
[0035]
使用k近邻算法在所述可行抓取点附近采样k个最近的邻居点形成一个点集,并拟合一个距离所述点集最近的平面,根据拟合出的所述平面得到所述可行抓取点的法线方向,使用过所述法线方向的平面去切割所述可行抓取点所在的曲面,所述曲面会和所述平面相交得一条曲线,所述曲线在所述可行抓取点处具有一个曲率,选择不同所述曲线中在所述可行抓取点上具有最大曲率和最小曲率的方向作为所述可行抓取点的两个所述主曲率方向。
[0036]
进一步地,在所述步骤5中,使用抓取深度和抓取宽度检测模块来确定所述可行抓取点的所述抓取深度和所述抓取宽度;
[0037]
以所述可行抓取点的z值为区间中心,采用启发式算法对所述区间中心的两边进行采样,判断不同的z和w是否满足:1)所述抓取器在闭合前不与场景点云发生碰撞;2)所述抓取器的闭合区域需要包含抓取中心。
[0038]
进一步地,在所述步骤6和所述步骤7中,使用抓取分类和分配模块确定所述针对性的抓取姿势;
[0039]
使用所述pointnet作为编码器,对生成的所述抓取候选的抓取闭合区域中的点的信息进行编码,使用全连接层进行分类,过滤不可行的所述抓取候选,得到最终的所述抓取姿势集合。
[0040]
本发明提供的一种使用rgb数据进行改进的抓取检测方法至少具有以下技术效果:
[0041]
1、以往的六自由度抓取检测方法单纯使用点云数据作为输入,通过对点云随机采样得到可行抓取点的候选者,存在两个问题:首先由于深度相机得到的点云数据噪声较多,且在物体的一些细边缘处比较稀疏,导致对噪声点进行采样和在物体的细边缘处无法生成抓取;其次,可行的抓取点的分布在场景中并不是均匀的,因此采用随机采样的方式会导致大量无效操作,造成不必要的运算开支。大多数现有的六自由度抓取检测生成的是无针对性的抓取,甚至可能在满足抓取空间要求的背景处产生抓取姿势,使其无法应用于稳定性要求较高的场景中。本发明所提供的技术方案中提出多任务语义分割模块,结合rgb数据和点云数据,得到逐像素的类别标签和是否可抓取的标签,分别用于后续的针对性抓取生成和抓取姿势生成,克服随机采样的盲目性和点云的不稳定性,同时有助于形成最终的针对性抓取;
[0042]
2、本发明所提供的技术方案在六自由度的抓取检测算法中引入深度图像补全算法,有助于对传感器没有捕捉到的物体的细边缘处进行抓取坐标系生成,突出解决六自由度抓取检测方法中点云数据的不稳定性问题,并且能够检测出稳定且具有针对性的七自由度抓取姿势。
[0043]
以下将结合附图对本发明的构思、具体结构及产生的技术效果作进一步说明,以充分地了解本发明的目的、特征和效果。
附图说明
[0044]
图1是本发明的一个较佳实施例的整体流程图;
[0045]
图2是图1所示实施例中的多任务语义分割模块的整体框架;
[0046]
图3是图1所示实施例中的原始场景、目标分割、可行抓取语义分割和生成的针对性抓取示例图。
具体实施方式
[0047]
以下参考说明书附图介绍本发明的多个优选实施例,使其技术内容更加清楚和便于理解。本发明可以通过许多不同形式的实施例来得以体现,本发明的保护范围并非仅限于文中提到的实施例。
[0048]
现有的六自由度抓取检测方法单纯地使用点云数据作为输入,通过对点云数据进行随机采样得到可行抓取点的候选者。该方法存在两个问题:首先,由于深度相机得到的点云数据噪声较多,且在物体的一些细边缘处比较稀疏,导致对噪声点进行采样和在物体的细边缘处无法生成抓取;其次,可行的抓取点的分布在场景中并不均匀,采用随机采样的方式会导致大量无效的操作,造成不必要的运算开支。同时,大多数现有的六自由度抓取检测生成的是无针对性的抓取,甚至可能在满足抓取空间要求的背景处产生抓取姿势,使得现有的六自由度抓取检测方法无法应用于稳定性要求较高的场景中。
[0049]
有鉴于现有技术的上述缺陷,本发明所要解决的技术问题是如何解决现有的基于点云的六自由度抓取检测方法中点云数据的不稳定性和生成的抓取缺乏针对性的问题,让最终生成的抓取姿势的准确性和稳定性得到提高。
[0050]
为实现上述目的,本发明提供了一种使用rgb数据进行改进的抓取检测方法,针对抓取检测部分,基于单目rgb数据和深度数据,生成用于平行的两指抓取器的鲁棒的七自由度抓取姿态。与六自由度姿态相比,七自由度的抓取姿态新增抓取宽度。具体来说,首先得到场景的rgb图像和深度图像,将其处理后使用resnet-50进行编码信息,再通过两个解码网络进行目标分割和可行抓取语义分割,同时使用rgb图像对深度图像进行补全,进而得到密集的点云。在密集点云中生成可行抓取点的法向量和两个主曲率方向,作为抓取坐标系,接着采用启发式的方式对抓取的深度和宽度进行采样,保留抓取深度最大且抓取宽度最小的抓取姿势,作为七自由度的抓取候选。最后,使用pointnet对抓取候选进行分类,过滤不可行的抓取,得到最终的可行的七自由度抓取姿势,并根据抓取中心将其投影到对应的目标上,得到针对性的抓取姿势。
[0051]
如图1所示,该方法在提前获得rgb图像和深度图像之后,包括以下步骤:
[0052]
步骤1、通过将深度图像转换为点云数据,并将点云数据的坐标投影到二维图像中,得到三通道坐标图像x-y-z图像;
[0053]
步骤2、使用resnet-50对rgb图像和x-y-z图像的信息进行编码,然后使用目标分割解码网络和可行抓取语义分割解码网络同时解码编码信息,得到图像中每个像素的目标分割结果和可行抓取语义分割结果,从可行抓取语义分割结果可以得到可行抓取点;
[0054]
步骤3、使用penet和利用rgb图像对深度图像进行补全,得到经过补全的密集深度图像,并进而得到密集点云;
[0055]
步骤4、利用步骤2中的可行抓取语义分割结果得到的可行抓取点和步骤3中得到
的密集点云,计算可行抓取点的法向量和两个主曲率方向,构成抓取坐标系;
[0056]
步骤5、使用启发式算法对可行抓取点的抓取深度和抓取宽度进行采样,得到若干抓取候选,抓取候选的抓取深度为最大、抓取宽度为最小;每个抓取候选对应一个抓取闭合区域;
[0057]
步骤6、将抓取候选的抓取闭合区域中的点输入pointnet中,过滤掉不可行的抓取候选,得到最终的抓取姿势集合;
[0058]
步骤7:结合步骤2中的目标分割结果,将抓取姿势集合中的抓取候选投影到目标分割结果的目标上,生成针对性的抓取姿势。
[0059]
具体地,该方法中采用的抓取器为二指平行抓取器,七自由度的抓取参数表示为:g=(x,y,z,α,β,γ,w),其中,(x,y,z)表示抓取器在世界坐标系下的位置,(α,β,γ)表示抓取器的抓取坐标系绕世界坐标系的x、y、z轴的旋转,w表示抓取器的末端宽度。
[0060]
由于rgb图像具有丰富的二维空间中的语义信息和纹理信息,而点云数据具有三维空间中的语义信息和空间几何信息,因此将二者结合进行语义分割任务。
[0061]
在步骤1中,将点云数据的坐标投影到二维图像得到x-y-z图像的具体做法为:
[0062]
z=d
[0063]
其中,d表示深度图像,u0,v0,f
x
,fy表示相机内参。
[0064]
再将得到的(r,g,b,x,y,z)六通道图像作为步骤2的输入图像。
[0065]
在步骤2中,使用多任务语义分割模块对rgb图像和x-y-z图像(即(r,g,b,x,y,z)六通道图像)进行逐像素的目标分割和可行抓取语义分割;目标分割用于检测像素所属的类别,可行抓取语义分割用于检测像素是否适合被作为抓取中心。
[0066]
目标分割解码网络和可行抓取语义分割解码网络使用层数不同的密集上采样卷积模块组成;
[0067]
目标分割解码网络的损失函数使用改进的交叉熵损失函数l
sem
,定义为:
[0068][0069]
其中,n表示图像的像素总数;nc表示类别总数;wc表示类别c在所有类别中的权重,计算公式为tc表示类别真值为c的像素的总数,tc用于平衡类别数目不均衡的情况;取值为0或1,为0表示该类别和该像素对应的类别真值不同,为1表示该类别和该像素对应的类别真值相同;表示像素x属于列表c的置信度分数,使用来平衡不同样本的难易程度,将置信度分数较高的样本的损失权重变小,γ为可调参数。
[0070]
可行抓取语义分割解码网络是一二分类网络,采用普通的交叉熵损失函数l
ga
,具体定义为:
[0071][0072]
其中,n表示图像的像素总数,xg∈{0,1}表示像素x的类别真值,表示
测到的置信度分数,设置α=1、β=0.1以使标签为可抓取的点的损失所占的权重比例较大。
[0073]
多任务语义分割模块的损失函数l定义为:
[0074]
l=γ1l
sem
γ2l
ga
[0075]
其中,γ1和γ2为可调参数。
[0076]
多任务语义分割模块的训练数据来自graspnet-1billion数据集。该数据集包含目标分割标签,为获得可行抓取语义分割标签,可以将该数据集中的6dof抓取姿势的抓取中心投影到2d图像中。
[0077]
如图2所示,为步骤2中的多任务语义分割模块的整体框架。在该步骤中,使用多任务语义分割模块对rgb图像和x-y-z图像进行逐像素的目标分割和可行抓取语义分割。其中,目标分割用于检测像素所属的类别,可行抓取语义分割用于检测像素是否适合被作为抓取中心。具体来说,使用resnet-50对rgb图像和x-y-z图像的信息进行编码,然后使用目标分割解码网络和可行抓取语义分割解码网络通过解码编码信息得到每个像素的目标分割结果和可行抓取语义分割结果。目标分割解码网络和可行抓取语义分割解码网络都采用密集上采样卷积网络,但层数不同。
[0078]
具体地,在步骤3中,使用深度图像补全模块对深度图像进行补全。
[0079]
penet算法采用双通道框架,都使用深度卷积神经网络和反卷积的方式构建类似编码器-解码器网络,其中一个通道以颜色信息为主导输入得到一张颜色主导深度图;另一个通道以原始的深度图像作为主导输入,结合颜色主导深度图,得到一张深度主导深度图,接着将得到的颜色主导深度图和深度主导深度图通过加权的方式进行融合,得到初步的密集深度图像,最后使用da-cspn 对密集深度图像进行细化,得到最终的补全后的密集深度图像。
[0080]
具体地,在步骤4中,使用旋转矩阵检测模块计算可行抓取点所在的抓取坐标系。
[0081]
使用k近邻(k-nearest neighbor,knn)算法在可行抓取点附近采样k个最近的邻居点形成一个点集,并拟合一个距离点集最近的平面,根据拟合出的平面得到可行抓取点的法线方向,使用过法线方向的平面去切割可行抓取点所在的曲面,曲面会和平面相交得一条曲线,曲线在可行抓取点处具有一个曲率,选择不同曲线中在可行抓取点上具有最大曲率和最小曲率的方向作为可行抓取点的两个主曲率方向。
[0082]
具体地,在步骤5中,使用抓取深度和抓取宽度检测模块来确定可行抓取点的抓取深度和抓取宽度。
[0083]
以可行抓取点的z值为区间中心,采用启发式算法对区间中心的两边进行采样,判断不同的z和w是否满足:1)抓取器在闭合前不与场景点云发生碰撞;2)抓取器的闭合区域需要包含抓取中心。
[0084]
具体地,在步骤6和步骤7中,使用抓取分类和分配模块确定所述针对性的抓取姿势。
[0085]
使用pointnet作为编码器,对生成的抓取候选的抓取闭合区域中的点的信息进行编码,使用全连接层进行分类,过滤不可行的抓取候选,得到最终的抓取姿势集合。
[0086]
如图3所示,为图1所示方法中的原始场景、目标分割、可行抓取语义分割和生成的针对性抓取示例图,其中图3中的左上角的图为原始场景,右上角的图为目标分隔,左下角的图为可行抓取语义分割,右下角为生成的针对性抓取。
[0087]
以上详细描述了本发明的较佳具体实施例。应当理解,本领域的普通技术无需创造性劳动就可以根据本发明的构思作出诸多修改和变化。因此,凡本技术领域中技术人员依本发明的构思在现有技术的基础上通过逻辑分析、推理或者有限的实验可以得到的技术方案,皆应在由权利要求书所确定的保护范围内。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献