一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

基于关键点的单目摄像头物体位姿估计方法、系统、设备及存储介质与流程

2021-12-01 02:14:00 来源:中国专利 TAG:


1.本技术涉及视觉定位技术领域,特别是涉及一种基于关键点的单目摄像头物体位姿估计方法、系统、设备及存储介质。


背景技术:

2.位姿估计(pose estimation)是计算机视觉领域中非常重要的一环。在使用视觉传感器估计机器人位姿进行控制、机器人导航、增强现实以及其它方面都有着极大的应用场景。
3.位姿估计这一过程的基础是,找到现实世界和图像投影之间的对应点。然后根据这些点对的类型,采取相应的位姿估计方法。当然同一类型的点对也有基于代数和非线性优化的方法之分,如直接线性变换(direct linear transform, dlt)和光束平差法(bundle adjustment,ba)。而现有技术通常把根据已知点对估计位姿的过程,称为求解pnp(pespective

n

point,透视

n点)。
4.目前现有技术中大多以线性激光或点云设备进行环境探测,存在设备成本高以及在遮挡情况下效果大幅下降的弊端。
5.为此现有技术曾提出了一种《一种基于深度学习的单目相机物体位姿估计方法及装置》(专利申请公布号:cn 109816725 a),该方法包括: 1)、根据所获取的物体的三维图像在二维空间内的投影以及投影对应的物体坐标以及物体的标签文件生成训练集和验证集;2)、利用级联卷积神经网络模型学习训练集,并迭代超参数;3)、使用测试集测试训练后的级联卷积神经网络模型,在训练后的级联卷积神经网络模型的准确率不小于第一预设阈值时,使用所述训练后的级联卷积神经网络模型进行物体位姿估计。
6.然而此类现有技术的缺点在于,用于学习的样本制作生成单一,与实际环境相差过大,同时该方法使用的深度学习网络估算为大致位姿,还需进一步通过icp(iterative closest point,迭代最近点)算法进行优化。


技术实现要素:

7.为此本发明的主要目的在于提供一种基于关键点的单目摄像头物体位姿估计方法、系统、设备及存储介质,以改进背景技术中现有技术的缺点。
8.为了实现上述目的,根据本发明的第一个方面,提供了一种基于关键点的单目摄像头物体位姿估计方法,所述方法包括:步骤s100:获取实际物体的实际尺寸信息和基于单目摄像头采集到实际物体的实际物体图像,其中,基于所述实际尺寸信息标定后得到相机内参数据;步骤s200:将所述实际物体图像导入至预先设定的特定物体检测模型,并生成特定数量的关键点的二维图像坐标数据,其中,所述特定物体检测模型为预先根据标准物体图像数据训练生成;
步骤s300:基于单目摄像头的虚拟相机坐标系,根据所述实际尺寸信息生成特定数量的三维坐标数据;步骤s400:基于pnp原理根据所述三维坐标数据、所述相机内参数据和所述二维图像坐标数据生成当前物体位姿信息。
9.具体地,步骤s200:将所述实际物体图像导入至预先设定的特定物体检测模型,并生成特定数量的关键点的二维图像坐标数据,其中,所述特定物体检测模型为预先根据标准物体图像数据训练生成之前,还包括:步骤s201:获取预设的标准物体在特定预设环境下的物体模型数据,其中,所述特定预设环境包括多种细化模型环境,各所述细化模型环境为在多种环境背景、环境光照以及相机视角下组合形成的环境;步骤s202:对所述物体模型数据作图像渲染,并生成标准二维样本图像;步骤s203:将所述标准二维样本图像缩放至特定比例大小,并按照特定数量比例设定训练数据集和测试数据集;步骤s204:基于所述训练数据集对预设的初始检测模型进行训练,并在训练完成后根据所述测试数据集对训练后的初始检测模型进行测试,并在测试完成后生成特定物体检测模型。
10.具体地,步骤s200:将所述实际物体图像导入至预先设定的特定物体检测模型,并生成特定数量的关键点的二维图像坐标数据具体包括:步骤s210:将所述实际物体图像导入至预先设定的特定物体检测模型,并将所述实际物体图像缩放至与所述标准二维样本图像相匹配的大小;步骤s220:根据缩放后的实际物体图像生成特定数量的二维图像坐标数据。
11.具体地,步骤s202:对所述物体模型数据作图像渲染,并生成标准二维样本图像,还包括:根据所述物体模型数据预先设定特定数量及特定位置的关键点。
12.具体地,所述特定位置包括:物体模型的角点,及各角点交错的中心点,所述特定数量为物体模型的角点及中心点数量的总和。
13.为了实现上述目的,根据本发明的第二个方面,还提供了一种基于关键点的单目摄像头物体位姿估计系统,所述系统包括:信息采集模块,用于获取实际物体的实际尺寸信息和基于单目摄像头采集到实际物体的实际物体图像,其中,基于所述实际尺寸信息标定后得到相机内参数据;图像导入模块,用于将所述实际物体图像导入至预先设定的特定物体检测模型,并生成特定数量的关键点的二维图像坐标数据,其中,所述特定物体检测模型为预先根据标准物体图像数据训练生成;虚拟相机模块,用于基于单目摄像头的虚拟相机坐标系,根据所述实际尺寸信息生成特定数量的三维坐标数据;位姿生成模块,用于基于pnp原理根据所述三维坐标数据、所述相机内参数据和所述二维图像坐标数据生成当前物体位姿信息具体地,所述系统还包括:细化模型模块,用于获取预设的标准物体在特定预设环境下的物体模型数据,其
中,所述特定预设环境包括多种细化模型环境,各所述细化模型环境为在多种环境背景、环境光照以及相机视角下组合形成的环境;图像渲染模块,用于对所述物体模型数据作图像渲染,并生成标准二维样本图像;图像缩放模块,用于将所述标准二维样本图像缩放至特定比例大小,并按照特定数量比例设定训练数据集和测试数据集;模型训练模块,用于基于所述训练数据集对预设的初始检测模型进行训练,并在训练完成后根据所述测试数据集对训练后的初始检测模型进行测试,并在测试完成后生成特定物体检测模型。
14.具体地,所述系统还包括:实际物体模块,用于将所述实际物体图像导入至预先设定的特定物体检测模型,并将所述实际物体图像缩放至与所述标准二维样本图像相匹配的大小;特定数量模块,用于根据缩放后的实际物体图像生成特定数量的二维图像坐标数据。
15.为了实现上述目的,根据本发明第三个方面,还提供了一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述基于关键点的单目摄像头物体位姿估计方法所述的步骤。
16.为了实现上述目的,根据本发明第四个方面,还提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述基于关键点的单目摄像头物体位姿估计方法所述的步骤。
17.本发明可实现的技术效果包括:上述基于关键点的单目摄像头物体位姿估计方法,依次通过获取实际物体的实际尺寸信息和基于单目摄像头采集到实际物体的实际物体图像,其中,基于所述实际尺寸信息标定后得到相机内参数据;将所述实际物体图像导入至预先设定的特定物体检测模型,并生成特定数量的关键点的二维图像坐标数据,其中,所述特定物体检测模型为预先根据标准物体图像数据训练生成;基于单目摄像头的虚拟相机坐标系,根据所述实际尺寸信息生成特定数量的三维坐标数据;基于pnp原理根据所述三维坐标数据、所述相机内参数据和所述二维图像坐标数据生成当前物体位姿信息,也即通过预先根据标准物体图像数据训练生成特定物体检测模型,实现预先设置大量的训练样本,无需进行人工样本采集,解决了样本采集不足和图片标注困难的问题,并结合pnp原理算出物体的位姿,达到定位物体的三维坐标的效果,提升位姿信息获取的效率。
附图说明
18.构成本技术的一部分的附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:图1为一个实施例中基于关键点的单目摄像头物体位姿估计方法的流程示意图;图2为一个实施例中基于关键点的单目摄像头物体位姿估计系统的结构框图;图3为一个实施例中计算机设备的内部结构图;图4为一个实施例中相机成像系统中坐标系之间转换关系图;图5为一个实施例中对所述物体模型数据作图像渲染,并生成标准二维样本图像
的示例;图6为一个实施例中对所述物体模型数据作图像渲染,并生成标准二维样本图像的示例。
具体实施方式
19.需要说明的是,在不冲突的情况下,本技术中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本发明。
20.为了使本领域的技术人员更好的理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,在本领域普通技术人员没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明的保护范围。
21.需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“步骤s100”、“步骤s200”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含。
22.如图1所示,本发明的该基于关键点的单目摄像头物体位姿估计方法,在优选实施方式中,其步骤包括:步骤s100:获取实际物体的实际尺寸信息和基于单目摄像头采集到实际物体的实际物体图像,其中,基于所述实际尺寸信息标定后得到相机内参数据;具体地,实际物体图像为普通的rgb摄像头采集后得到的图像。
23.进一步地,当获取实际物体的实际尺寸信息后,即可通过本领域技术人员根据单目摄像头的标定得到单目摄像头的相机内参数据。
24.此外,相机内参数据取决于单目摄像头的内部参数,当选定单目摄像头后,即可获取单目摄像头对应的内部参数。
25.步骤s200:将所述实际物体图像导入至预先设定的特定物体检测模型,并生成特定数量的关键点的二维图像坐标数据,其中,所述特定物体检测模型为预先根据标准物体图像数据训练生成;具体地,所述特定物体检测模型为预先经过训练后生成的物体检测模型centernet。所述特定数量为九个。
26.进一步地,centernet模型框架是一种anchor

free的目标检测模型,centernet不需要进行nms后处理,简化了训练。
27.centernet的骨干网络兼容多种基础模型,包含resnet,hourglass,dla。对于的输入图像,生成目标是;其中w,h为图像的宽和高,r是输出的尺寸缩放比例;c代表关键点类型数,在目标检测任务中,代表目标的类别数。
28.为了实现目标检测任务,centernet网络模型包含多个部分的优化目标,如包括图
像热力损失、中心点的局部偏移损失和目标框的尺寸偏移损失。
29.进一步地,热力图的像素逻辑回归的损失函数如下:其中经过激活函数的目标输出,为关键点的高斯分布。
30.对于真实关键点c,其位置为,为经过下采样的关键点,α,β是损失函数的超参数。
31.图像下采样中心点偏移的损失函数如:其中是局部偏移;总的网络训练目标loss:其中为调节系数,默认设置为0.1和1。
32.目标检测的目标是检测图像中的物体类别和边界框位置,centernet网络输出的是每次类别的热力图,需要提取峰值点才能获取边界框的中心位置。
33.将热力图的所有响应点与周围邻近点(8个)比较,如果大于等于则保留改点,最后保留满足要求的前n个峰值点。
34.得到的边界框:其中是集合中的一个关键点, 代表该点的局部偏置,wi和h
i
代表该点预测的边界框的宽度和高度。
35.需要说明的是,所述centernet为成熟技术,上述仅为举例,本领域技术人员理应熟知并掌握上述原理,并在设定特定数量的关键点后,对应生成二维图像坐标数据。
36.步骤s300:基于单目摄像头的虚拟相机坐标系,根据所述实际尺寸信息生成特定数量的三维坐标数据;具体地,世界坐标下点转换到图像坐标的公式如下:其中是系数,是相机内参和外参。
37.已知相机内外参数的情况下,三维坐标点对应唯一的二维图像坐标。
38.也即,通过上述公式能够实现三维坐标数据与二维图像坐标数据和所述实际尺寸信息的转换。
39.步骤s400:基于pnp原理根据所述三维坐标数据、所述相机内参数据和所述二维图像坐标数据生成当前物体位姿信息。
40.具体地,使用所述单目摄像头后即可获取相机内参数据。
41.进一步地,相机成像系统中,共包含四个坐标系:世界坐标系、相机坐标系、图像坐标系和像素坐标系。
42.世界坐标系、相机坐标系、图像坐标系和像素坐标系可互相转换。具体转换关系如图4所示。
43.此外,上述坐标系之间的转换为现有技术,本技术不作具体阐述。
44.另一方面,在计算生成当前物体位姿信息时,可以由本领域技术人员根据掌握的知识采用opencv算法库的计算函数来计算,本技术不作具体阐述。
45.在一个实施例中,步骤s200:将所述实际物体图像导入至预先设定的特定物体检测模型,并生成特定数量的关键点的二维图像坐标数据,其中,所述特定物体检测模型为预先根据标准物体图像数据训练生成之前,还包括:步骤s201:获取预设的标准物体在特定预设环境下的物体模型数据,其中,所述特定预设环境包括多种细化模型环境,各所述细化模型环境为在多种环境背景、环境光照以及相机视角下组合形成的环境;具体地,本步骤基于blender进行,为了保证样本图片的多样性,通过设置多个数量的标准物体,并配合搭建多种环境场景,即多个要配合搭建多种环境场景。为标准物体设置合适的纹理贴图和背景图片。
46.步骤s202:对所述物体模型数据作图像渲染,并生成标准二维样本图像;步骤s203:将所述标准二维样本图像缩放至特定比例大小,并按照特定数量比例设定训练数据集和测试数据集;具体地,特定比例大小为640x384。特定数量比例为8:2比例,即按照8:2比例划分为训练数据集和测试数据集。
47.步骤s204:基于所述训练数据集对预设的初始检测模型进行训练,并在训练完成后根据所述测试数据集对训练后的初始检测模型进行测试,并在测试完成后生成特定物体检测模型。
48.在一个实施例中,步骤s200:将所述实际物体图像导入至预先设定的特定物体检测模型,并生成特定数量的关键点的二维图像坐标数据具体包括:步骤s210:将所述实际物体图像导入至预先设定的特定物体检测模型,并将所述实际物体图像缩放至与所述标准二维样本图像相匹配的大小;具体地,通过将所述实际物体图像缩放至与所述标准二维样本图像相匹配的大小,实现快捷地为后续进行匹配与数据处理。
49.步骤s220:根据缩放后的实际物体图像生成特定数量的二维图像坐标数据。
50.在另一个实施例中,步骤s202:对所述物体模型数据作图像渲染,并生成标准二维样本图像,还包括:根据所述物体模型数据预先设定特定数量及特定位置的关键点。其中该特点数量及特定位置,可根据实际的物体模型的角点及其数量,并加上各个边角交错的唯一中心点来进行设置。如所述特定位置包括:物体模型的角点,及各角点交错的中心点,所述特定数量为物体模型的角点及中心点数量的总和。
51.具体地,如图5至图6所示,示例中为长方体形态的货架,其特定数量为九个,即该
特定位置为分散的八个角点和八个角点的中心点。这样设置,可以尽量减少pnp计算位姿的偏差。
52.综上所述,本发明依次通过获取实际物体的实际尺寸信息和基于单目摄像头采集到实际物体的实际物体图像,其中,基于所述实际尺寸信息标定后得到相机内参数据;将所述实际物体图像导入至预先设定的特定物体检测模型,并生成特定数量的关键点的二维图像坐标数据,其中,所述特定物体检测模型为预先根据标准物体图像数据训练生成;基于单目摄像头的虚拟相机坐标系,根据所述实际尺寸信息生成特定数量的三维坐标数据;基于pnp原理根据所述三维坐标数据、所述相机内参数据和所述二维图像坐标数据生成当前物体位姿信息,也即通过预先根据标准物体图像数据训练生成特定物体检测模型,实现预先设置大量的训练样本,无需进行人工样本采集,解决了样本采集不足和图片标注困难的问题,并结合pnp原理算出物体的位姿,达到定位物体的三维坐标的效果,提升位姿信息获取的效率。
53.在一个实施例中,如图2所示,一种基于关键点的单目摄像头物体位姿估计系统,所述系统包括:信息采集模块,用于获取实际物体的实际尺寸信息和基于单目摄像头采集到实际物体的实际物体图像,其中,基于所述实际尺寸信息标定后得到相机内参数据;图像导入模块,用于将所述实际物体图像导入至预先设定的特定物体检测模型,并生成特定数量的关键点的二维图像坐标数据,其中,所述特定物体检测模型为预先根据标准物体图像数据训练生成;虚拟相机模块,用于基于单目摄像头的虚拟相机坐标系,根据所述实际尺寸信息生成特定数量的三维坐标数据;位姿生成模块,用于基于pnp原理根据所述三维坐标数据、所述相机内参数据和所述二维图像坐标数据生成当前物体位姿信息在一个实施例中,所述系统还包括:细化模型模块,用于获取预设的标准物体在特定预设环境下的物体模型数据,其中,所述特定预设环境包括多种细化模型环境,各所述细化模型环境为在多种环境背景、环境光照以及相机视角下组合形成的环境;图像渲染模块,用于对所述物体模型数据作图像渲染,并生成标准二维样本图像;图像缩放模块,用于将所述标准二维样本图像缩放至特定比例大小,并按照特定数量比例设定训练数据集和测试数据集;模型训练模块,用于基于所述训练数据集对预设的初始检测模型进行训练,并在训练完成后根据所述测试数据集对训练后的初始检测模型进行测试,并在测试完成后生成特定物体检测模型。
54.在一个实施例中,所述系统还包括:实际物体模块,用于将所述实际物体图像导入至预先设定的特定物体检测模型,并将所述实际物体图像缩放至与所述标准二维样本图像相匹配的大小;特定数量模块,用于根据缩放后的实际物体图像生成特定数量的二维图像坐标数据。
55.在一个实施例中,如图3所示,一种计算机设备,包括存储器和处理器,所述存储器
存储有计算机程序,所述处理器执行所述计算机程序时实现上述基于关键点的单目摄像头物体位姿估计方法所述的步骤。
56.在一个实施例中,一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述基于关键点的单目摄像头物体位姿估计方法所述的步骤。
57.此外需要说明的是,本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。
58.其中,本技术所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(rom)、可编程rom(prom)、电可编程rom(eprom)、电可擦除可编程rom(eeprom)或闪存。易失性存储器可包括随机存取存储器(ram)或者外部高速缓冲存储器。作为说明而非局限,ram以多种形式可得,诸如静态ram(sram)、动态ram(dram)、同步dram(sdram)、双数据率sdram(ddrsdram)、增强型sdram(esdram)、同步链路(synchlink) dram(sldram)、存储器总线(rambus)直接ram(rdram)、直接存储器总线动态ram(drdram)、以及存储器总线动态ram(rdram)等。
59.以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
60.以上所述实施例仅表达了本技术的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本技术构思的前提下,还可以做出若干变形和改进,这些都属于本技术的保护范围。因此,本技术专利的保护范围应以所附权利要求为准。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献