一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种基于自注意力机制的三维点云物体预测方法和装置

2022-06-25 06:31:21 来源:中国专利 TAG:


1.本发明涉及计算机三维点云预训练、深度学习等技术领域,尤其涉及一种基于自注意力机制的三维点云物体预测方法和装置。


背景技术:

2.与传统手工设计的特征提取方法相比,卷积神经网络(cnn)对先验知识的依赖要小得多。最近,transformer进一步推动了这一趋势,将人为假设最小化,朝着无归纳偏置的方向又迈出了一步。标准transformer的结构优势和通用性在自然语言处理和图像处理任务中都得到了有效证明。采用更多的参数,更多的数据和更长的训练计划可以充分地最小化归纳偏置这一结论也得到了证实。尽管transformer在自然语言处理和图像处理领域都有取得了惊人的结果,但其在3d领域的应用还没有被充分地挖掘。现存的基于transformer的点云学习模型不可避免地都包含了归纳偏置,比如局部特征聚合或邻近点嵌入等,这使得他们偏离了主流的标准transformer。
3.直接使用标准transformer学习点云任务并不能取得十分满意的结果。这主要归因于缺乏足够的带标注的3d数据。因为训练标准的无归纳偏置的transformer需要大量的数据。尽管随着现代扫描设备的普及,3d点云数据的采集变得越来越容易,但标注点云数据仍然十分耗时,且容易出错,甚至在一些极端的现实场景中不可行。


技术实现要素:

4.本发明旨在至少在一定程度上解决相关技术中的技术问题之一。
5.为此,本发明的目标是将标准的、无归纳偏置的transformer直接应用到3d点云学习中,为构建一个简洁、统一、规范的3d点云学习模型奠定基础。更重要的是,统一、标准的transformer架构使2d和3d数据的联合建模成为可能,为自动驾驶,无人机等领域带来了新的研究思路,从而可以实现现实场景中三维物体的精准预测和分类,而提出一种基于自注意力机制的三维点云物体预测方法。
6.本发明的另一个目的在于提出一种基于自注意力机制的三维点云物体预测装置。
7.为达上述目的,本发明一方面提出了基于自注意力机制的三维点云物体预测方法,包括以下步骤:
8.实时采集雷达数据;其中所述视频数据包括待预测物体点云;将所述雷达数据输入预训练的点云识别模型,进行所述待预测物体点云的点云识别补全;其中,所述点云识别模型基于掩蔽点建模任务和混合子点云预测任务进行学习训练;基于所述点云识别补全,输出补全后的所述待预测物体点云的预测分类结果。
9.本发明实施例的基于自注意力机制的三维点云物体预测方法,能够更好的挖掘transformer的学习和泛化能力,实现现实场景中三维物体的精准预测和分类。
10.另外,根据本发明上述实施例的基于自注意力机制的三维点云物体预测方法还可以具有以下附加的技术特征:
11.进一步地,所述点云识别模型基于掩蔽点建模任务和混合子点云预测任务进行学习训练,包括:获取待预测物体的样本点云,将所述样本点云的输入点云划分为多个局部子点云,将所述多个局部子点云转换成第一预设数量的点云代理;将所述第一预设数量的点云代理输入点云编码器,并通过所述点云编码器将所述点云代理转换为离散的点云编码;随机掩蔽第二预设数量的点云代理,并用预设的掩模代替所述第二预设数量的点云代理作为输入以预训练transformer模型;基于所述预训练的transformer模型,掩蔽点建模任务使得transformer模型学习并预测所述样本点云的缺失位置的点云编码。
12.进一步地,所述将所述样本点云的输入点云划分为多个局部子点云,将所述多个局部子点云转换成第一预设数量的点云代理,包括:对预设样本点云的输入点云,下采样得到多个参考点;以所述多个参考点的每个参考点为中心,扫描每个中心点周围的多个临近点以形成多个子点云集;基于所述多个子点云集,用所述多个临近点的坐标减去所述中心点的坐标得到无偏的子点云集;将所述无偏的子点云集通过pointnet投影成第一预设数量的点云代理。
13.进一步地,所述将所述第一预设数量的点云代理输入点云编码器,并通过所述点云编码器将所述点云代理转换为离散的点云编码,包括:采用离散变分自动编码器dvae进行3d点云的重构学习,通过学习点云重构任务,通过dvae的编码器将输入点云转换成离散数值,通过解码器将其映射回点云坐标;其中,所述dvae的编码器采用dgcnn结构,所述解码器采用dgcnn和foldingnet结构;所述离散数值为输入点云的离散编码,所述dvae的编码器为点云编码器。
14.进一步地,所述随机掩蔽第二预设数量的点云代理,并用预设的掩模代替所述第二预设数量的点云代理作为输入以预训练transformer模型,包括:选择中心参考点及其对应的子点云集,并找到所述中心参考点邻近的多个子点云集得到局部点云区域,屏蔽掉所述局部点云区域,并用预定义的可学习的掩模替换掩蔽位置的子点云,将带掩模的点云代理输入到transformer模型中进行学习;以及,混合两组无偏的子点云集创建虚拟样本点云,并利用所述虚拟样本点云预测其被遮挡部分的点云编码。
15.为达到上述目的,本发明另一方面提出了一种基于自注意力机制的三维点云物体预测装置,包括:
16.点云采集模块,用于实时采集雷达数据;其中所述雷达数据包括待预测物体点云;预测补全模块,用于将所述雷达数据输入预训练的点云识别模型,进行所述待预测物体点云的点云识别补全;其中,所述点云识别模型基于掩蔽点建模任务和混合子点云预测任务进行学习训练;预测输出模块,用于基于所述点云识别补全,输出补全后的所述待预测物体点云的预测分类结果。
17.本发明实施例的基于自注意力机制的三维点云物体预测装置,能够更好的挖掘transformer的学习和泛化能力,实现现实场景中三维物体的精准预测和分类。
18.本发明附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
19.本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得
明显和容易理解,其中:
20.图1为根据本发明实施例的基于自注意力机制的三维点云物体预测方法的流程图;
21.图2为根据本发明实施例的基于自注意力机制的三维点云预训练方法示意图;
22.图3为根据本发明实施例的基于自注意力机制的三维点云物体预测结果示意图;
23.图4为根据本发明实施例的一种基于自注意力机制的三维点云物体预测装置结构示意图;
24.图5为根据本发明实施例的另一种基于自注意力机制的三维点云物体预测装置结构示意图;
25.图6为根据本发明实施例的又一种基于自注意力机制的三维点云物体预测装置结构示意图;
26.图7为根据本发明实施例的再一种基于自注意力机制的三维点云物体预测装置结构示意图。
具体实施方式
27.需要说明的是,在不冲突的情况下,本技术中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本发明。
28.为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
29.下面参照附图描述根据本发明实施例提出的基于自注意力机制的三维点云物体预测方法及装置,首先将参照附图描述根据本发明实施例提出的基于自注意力机制的三维点云物体预测方法。
30.图1是本发明一个实施例的基于自注意力机制的三维点云物体预测方法的流程图。
31.如图1所示,该基于自注意力机制的三维点云物体预测方法包括以下步骤:
32.步骤s1,实时采集雷达数据;其中雷达数据包括待预测物体点云。
33.本发明实施例中,可以在多种特定区域,设置雷达采集装置,通过雷达采集装置采集三维物体的点云。
34.步骤s2,将雷达数据输入预训练的点云识别模型,进行待预测物体点云的点云识别补全;其中,点云识别模型基于掩蔽点建模任务和混合子点云预测任务进行学习训练。
35.可以理解的是,在现实场景中外界场景复杂,通过摄像头拍摄获取的照片的可能存在缺失、重影和不清晰等情况,且数据量小不利于目标预设的准确性,基于此,本发明实施例中先对点云识别模型进行与训练。
36.示例性的,本发明实施例中通过掩蔽点建模任务和混合子点云预测任务对点云识别模型进行学习训练,以训练好本发明的模型,根据剩余点云推断出那些缺失区域的点云几何结构,并通过对缺失点云的补全以得到清晰完整的三维点云。
37.步骤s3,基于点云识别补全,输出补全后的待预测物体点云的预测分类结果。
38.可以理解的是,本发明在得到清晰完整的补全点云后,可以通过可视化的显示单元,将预测分类结果展示给用户。
39.通过本发明实施例基于自注意力机制的三维点云物体预测方法,能够更好的挖掘transformer的学习和泛化能力,实现现实场景中三维物体的精准预测和分类。
40.图2是根据本发明实施例的基于自注意力机制的三维点云预训练方法示意图。
41.如图2所示,通过涉及一个掩蔽点建模任务来预训练点云transformer,下面简称point-bert。具体而言,point-bert首先将输入点云进行分割,得到若干个局部子点云集,并通过一个离散变分自动编码器(dvae)进行局部子点云的离散编码。通过该步骤,点云被表示为若干个离散编码。然后,point-bert随机屏蔽一些输入点云,并将他们输入到主干transformer结构中。预训练的目标是预测屏蔽位置处的局部点云对应的离散编码。
42.具体的,本发明的训练步骤如下:
43.首先将输入点云划分为若干个局部子点云,再采用一个轻量化的pointnet将这些局部子点云转换成一系列点云代理。
44.通过基于离散变分自动编码器的点云重构,学习一个点云编码器。通过编码器,一个点云可以被转化成一组离散的编码。
45.预训练时,随机掩蔽住一部分点云代理,并用一个事先定义好的掩模取代这些掩蔽区域的点云代理,并将他们输入到transformer中。
46.在点云编码器生成的真实编码的监督下,掩蔽点建模任务促使transformer学习并预测那些缺失位置的点云编码。
47.作为一种示例,对于点云代理,传统的transformer将一维的单词序列作为输入。为了使三维点云也可以适配这种标准模型,本发明将点云划分为若干个局部的子点云。具体而言,给定一个输入点云,先通过fps下采样得到g个参考点,然后以每个参考点为中心,寻找每个中心点周围的k个临近点,形成g个子点云集合。然后,用临近点坐标减去中心点坐标得到无偏的子点云集,以此将局部几何结构与具体的空间坐标解耦。这些无偏的子点云集可以看成是自然语言处理中的单词序列。进一步,将这些子点云集通过一个轻量化的pointnet投影成一系列点云代理。此时,这些点云代理就可以作为标准transformer的输入。
48.作为一种示例,对于点云离散编码,点云编码器将第一步获得的点云代理作为输入,并将其转换为一组离散的点云编码。具体而言,采用离散变分自动编码器(dvae)进行3d点云的重构学习。其中dvae的编码器采用一个dgcnn结构,而解码器采用了一个dgcnn外加一个foldingnet的结构。通过学习点云重构任务,dvae的编码器将输入点云转换成一组离散的整数,而解码器又将其映射回点云坐标。称这些离散数值为输入点云的离散编码,同时将dvae的编码器称为点云编码器。
49.进一步地,对于点云transformer的预训练,先是,构建掩蔽点建模任务(mpm):为了预训练transformer,本发明提出一种掩蔽点建模任务。具体而言,首先随机选择一个中心参考点及其对应的子点云集,并找到它邻近的若干个子点云集,形成一个连续的局部点云区域。此时同时屏蔽掉整块的局部点云区域,并用一个事先定义好的可学习的

掩模’替换掩蔽位置的子点云。实际学习中,直接在transformer的输入(点云代理)上使用的可学习
掩模。最后将带掩模的点云代理输入到transformer中学习。mpm任务的目标是促使模型能够根据剩余点云推断出那些缺失区域的点云几何结构,如图3所示。
50.再是,子点云混合预训练:为了使transformer能同时学习到点云局部的几何结构以及高级的语义信息,额外设计了一个混合子点云预测任务来增加transformer的预训练难度,以提高模型最后的学习和泛化能力。由于每个子点云集的绝对位置信息已被归一化排除,因此,可以简单的混合两组无偏子点云集,创建出新的虚拟点云样本。在预训练过程中,让虚拟样本也预测其被遮挡部分的点云编码。
51.作为一种示例,对于下游任务,预训练好transformer之后,直接在transformer的编码器上附加具体的任务层作为下游任务的模型,并进行模型参数微调。
52.根据本发明实施例的基于自注意力机制的三维点云物体预测方法,能够更好的挖掘transformer的学习和泛化能力,实现现实场景中三维物体的精准预测和分类。
53.为了实现上述实施例,如图4所示,本实施例中还提供了一种基于自注意力机制的三维点云物体预测装置10,该装置10包括:点云采集模块100、预测补全模块200和预测输出模块300。
54.点云采集模块100,用于实时采集雷达数据;其中雷达数据包括待预测物体点云;
55.预测补全模块200,用于将雷达数据输入预训练的点云识别模型,进行待预测物体点云的点云识别补全;其中,点云识别模型基于掩蔽点建模任务和混合子点云预测任务进行学习训练;
56.预测输出模块300,用于基于点云识别补全,输出补全后的待预测物体点云的预测分类结果。
57.如图5所示,本发明实施例中,预测补全模块100包括:训练模块101,包括:
58.点云转换模块1011,用于获取待预测物体样本点云,将样本点云的输入点云划分为多个局部子点云,将多个局部子点云转换成第一预设数量的点云代理;
59.点云编码模块1012,用于将第一预设数量的点云代理输入点云编码器,并通过点云编码器将所述点云代理转换为离散的点云编码;
60.点云输入模块1013,用于随机掩蔽第二预设数量的点云代理,并用预设的掩模代替第二预设数量的点云代理作为输入以预训练transformer模型;
61.样本预测模块1014,用于基于预训练的transformer模型,掩蔽点建模任务使得transformer模型学习并预测样本点云的缺失位置的点云编码。
62.如图6所示,本发明实施例中,点云转换模块1011,包括:
63.点云采样模块1021,用于对预设样本点云的输入点云,下采样得到多个参考点;
64.点云扫描模块1031,用于以多个参考点的每个参考点为中心,扫描每个中心点周围的多个临近点以形成多个子点云集;
65.坐标获取模块1041,用于基于多个子点云集,用多个临近点的坐标减去中心点的坐标得到无偏的子点云集;
66.点云投影模块1051,用于将无偏的子点云集通过pointnet投影成第一预设数量的点云代理。
67.进一步地,本发明实施例中,点云编码模块1012,还用于:
68.采用离散变分自动编码器dvae进行3d点云的重构学习,通过学习点云重构任务,
通过dvae的编码器将输入点云转换成离散数值,通过解码器将其映射回点云坐标;其中,dvae的编码器采用dgcnn结构,解码器采用dgcnn和foldingnet结构;离散数值为输入点云的离散编码,dvae的编码器为点云编码器。
69.如图7所示,本发明实施例中,样本预测模块1014,包括:
70.掩蔽点建模模块1015,用于选择中心参考点及其对应的子点云集,并找到中心参考点邻近的多个子点云集得到局部点云区域,屏蔽掉局部点云区域,并用预定义的可学习的掩模替换掩蔽位置的子点云,将带掩模的点云代理输入到transformer模型中进行学习;以及,
71.子点云混合模块1016,用于混合两组无偏的子点云集创建虚拟样本点云,并利用虚拟样本点云预测其被遮挡部分的点云编码。
72.根据本发明实施例的基于自注意力机制的三维点云物体预测装置,能够更好的挖掘transformer的学习和泛化能力,实现现实场景中三维物体的精准预测和分类。
73.需要说明的是,前述对基于自注意力机制的三维点云物体预测方法实施例的解释说明也适用于该实施例的基于自注意力机制的三维点云物体预测装置,此处不再赘述。
74.此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
75.在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
76.尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献