三维图像分类方法、装置、设备和计算机可读存储介质与流程

2022-03-26 16:05:44 来源：中国专利 TAG：

1.本技术涉及计算机
技术领域：
：，尤其涉及一种三维图像分类方法、装置、设备和计算机可读存储介质。
背景技术：
：：2.随着网络技术的不断发展，越来越多的领域需要用到分类完成的三维图像，例如，机器学习模型训练、大量三维图像的分类和识别等。以机器学习模型训练为例，在对待分类的三维图像进行识别之前，需要提供分类完成的三维图像样本集，以供机器学习模型进行训练。3.现有技术中，在对三维图像进行分类时，通过预先训练完成的机器学习模型，实现对三维图像的检测和识别过程。在训练机器学习模型时，需要采集大量的三维图像样本以及三维图像样本对应的文本标签集，文本标签集表征三维图像样本中物体的类别对应的文本，例如，三维图像中物体的类别是“狗”，文本标签是“这是一只狗”。从而通过大量的三维图像样本和文本标签集，对机器学习模型进行训练，得到能够对三维图像进行分类的模型。4.然而，该预先训练完成的机器学习模型只能对训练过程中用到过的物体进行分类，即，受固定文本标签集的限制，无法对新类别的物体进行分类，降低了三维图像分类的准确性。技术实现要素：5.本技术实施例期望提供一种三维图像分类方法、装置、设备和计算机可读存储介质，通过对二维的视角深度图像和文本标签分别进行编码，以及计算特征之间的相似度的方案，将物体分类任务转换成图文匹配(即，图像与文本配对)任务，具有对没见过的物体和概念的泛化能力，提高了三维图像的分类准确性。6.本技术实施例的技术方案是这样实现的：7.第一方面，本技术实施例提供一种三维图像分类方法，所述方法包括：获取三维图像和多个文本标签；将所述三维图像投影到多个视角，得到多个视角深度图像；对所述多个视角深度图像和所述多个文本标签分别进行编码，得到多个视角对应的图像特征和多个文本特征；根据所述多个视角对应的图像特征和所述多个文本特征计算相似度，得到第一文本相似度，其中，所述第一文本相似度表征所述三维图像中物体所对应的类别与所述多个文本标签之间的相似度；根据所述第一文本相似度确定所述三维图像中物体的类别。8.第二方面，本技术实施例提供一种三维图像分类装置，所述装置包括：获取模块，用于获取三维图像和多个文本标签；投影模块，用于将所述三维图像投影到多个视角，得到多个视角深度图像；编码模块，用于对所述多个视角深度图像和所述多个文本标签分别进行编码，得到多个视角对应的图像特征和多个文本特征；计算模块，用于根据所述多个视角对应的图像特征和所述多个文本特征计算相似度，得到第一文本相似度，其中，所述第一文本相似度表征所述三维图像中物体所对应的类别与所述多个文本标签之间的相似度；根据所述第一文本相似度确定所述三维图像中物体的类别。9.第三方面，本技术实施例提供一种三维图像分类设备，所述设备包括存储器，用于存储可执行指令，处理器，用于执行所述存储器中存储的可执行指令时，实现上述三维图像分类方法。10.第四方面，本技术实施例提供一种计算机可读存储介质，其上存储有可执行指令，用于被处理器执行时，实现上述三维图像分类方法。11.本技术实施例提供了一种三维图像分类方法、装置、设备和计算机可读存储介质。根据本技术实施例提供的方案，获取三维图像和多个文本标签；将三维图像投影到多个视角，得到多个视角深度图像；对多个视角深度图像和多个文本标签分别进行编码，得到多个视角对应的图像特征和多个文本特征；根据多个视角对应的图像特征和多个文本特征计算相似度，得到第一文本相似度。在本技术实施例中，通过对二维的视角深度图像和文本标签分别进行编码，以及计算特征之间的相似度的方案，将物体分类任务转换成图文匹配(即，图像与文本配对)任务，不受固定文本标签集的限制，具有对没见过的物体和概念的泛化能力。第一文本相似度表征三维图像中物体所对应的类别与多个文本标签之间的相似度，根据第一文本相似度确定三维图像中物体的类别，提高了三维图像的分类准确性。附图说明12.图1为本技术实施例提供的一种三维图像分类的应用场景的示例性示意图；13.图2为本技术实施例提供的另一种三维图像分类的应用场景的示例性示意图；14.图3为本技术实施例提供的一种三维图像分类方法的可选的步骤流程图；15.图4为本技术实施例提供的另一种三维图像分类方法的可选的步骤流程图；16.图5为本技术实施例提供的一种pointclip模型的示例性的网络结构图；17.图6为本技术实施例提供的一种视角间适配器的示例性的结构示意图；18.图7为本技术实施例提供的一种pointclip模型与3d图像分类模型联合的示例性的结构图；19.图8为本技术实施例提供的一种三维图像分类装置的结构示意图；20.图9为本技术实施例提供的一种三维图像分类设备的结构示意图。具体实施方式21.下面将结合本技术实施例中的附图，对本技术实施例中的技术方案进行清楚、完整地描述。应当理解的是，此处所描述的一些实施例仅仅用以解释本技术的技术方案，并不用于限定本技术的技术范围。22.为便于理解本方案，在对本技术实施例进行说明之前，对本技术实施例中的相关技术进行说明。23.相关技术中，通过三维图像分类模型对三维图像进行分类，得到三维图像中物体的类别。三维图像分类模型是指通过三维图像样本进行训练完成的模型。如图1所示，图1为本技术实施例提供的一种三维图像分类的应用场景的示例性示意图，图1中以三维图像分类模型是pointnet 为例进行说明，训练(train)表示训练pointnet 模型，在训练过程中，需要采集3d训练集(3dtrainingset)，3dtrainingset包括三维图像样本的点云，以及根据三维图像样本中物体类别转换的文本标签集，文本标签是关于物体类别的句子，示例性的，文本标签的形式可以是aphotoofa{label}，lable表示类别，例如，dog、train，文本标签也可以是其他的形式，例如，abeautifuldog，对此本技术实施例不作限制。通过采集大量的三维图像样本和文本标签集，对pointnet 模型进行训练，训练完成的pointnet 模型可以用于对三维图像进行分类。测试(test)表示通过训练完成的pointnet 对待分类的3d图像(3dtestset)进行测试，将3dtestset输入训练完成的pointnet 模型，输出与文本标签对应的文本相似度，文本相似度包括3dtestset中物体的类别与三个文本标签中类别(chair、plane和lamp)之间的相似度。图1中以条形图对文本相似度进行示出，从而确定3dtestset中物体的类别是“plane”。24.由于图1中pointnet 模型在训练过程中，需要采集大量的三维图像样本的点云，三维图像样本的点云需要通过3d相机、高精度传感器等设备进行采集，因此，相较于二维图像样本的采集方式，三维图像样本的采集成本较高。并且，pointnet 模型受固定(预先定义)文本标签集的限制，无法对新类别的物体进行分类，在对物体的类别进行识别时，仅能识别出在训练时所用到过的物体的类别，也就是训练集中文本标签中类别，降低了三维图像分类的准确性。25.本技术实施例中提供一种三维图像分类方法，如图2所示，图2为本技术实施例提供的另一种三维图像分类的应用场景的示例性示意图，图2中为本技术实施例提供的pointclip模型，通过采集大量的二维图像样本和文本标签集，也可以是采集大量的2d图像与文本匹配对(2dimage-textpairs)，对pointclip模型进行训练，其中，文本标签集包括“abrownchair、atablelamp、acoolairplane”，训练完成的pointclip模型可以用于对三维图像进行分类。将待分类3d图像(3dtestset)输入训练完成的pointclip模型，输出与文本标签对应的文本相似度，图2中以条形图对文本相似度进行示出，从而确定3dtestset中物体的类别是“plane”。26.由于本技术实施例是采用二维图像样本对pointclip模型进行训练，与三维图像样本的采集方法相比，二维图像样本的采集成本较低，对采集设备没有要求。相较于图1中pointnet 模型的训练集，降低了数据获取难度，从而提高数据采集效率。27.需要说明的是，pointclip模型是在对比语言图像预训练(contrastivelanguage-imagepre-training，clip)的基础上进行改进，实现对三维图像进行分类。clip模型具有对未知类别进行推理的能力，通过采集图文(二维图像-文本)数据集，将文本作为图像标签，将图像分类任务转换成图文匹配任务，对clip模型进行训练。大量的预训练通常可以产生更好的泛化能力，不受固定文本标签集的限制，具有对没见过的物体和概念的推理能力。通过在大量的图文匹配对上训练clip，训练完成的clip模型在各种视觉任务中表现出很强的零样本迁移能力。在测试时，基于输入的二维图像，在类别描述中检索，找到最合适的类别，使得clip模型实现对未知类别进行推理。然而，虽然clip模型可以对图像中未知类别进行推理，但是，clip模型仅能对二维图像进行未知类别的识别，不能直接对三维图像中物体进行分类。因此，本技术实施例提出pointclip模型，通过二维图像样本和文本标签集进行训练，提高数据采集效率，可以对三维图像中未知类别进行分类，提高三维图像分类的准确性。28.本技术实施例提供一种三维图像分类方法，如图3所示，图3为本技术实施例提供的一种三维图像分类方法的可选的步骤流程图，三维图像分类方法包括以下步骤：29.s301、获取三维图像和多个文本标签。30.在本技术实施例中，三维图像是待分类的三维图像，三维图像包括物体多个视角下的点云。文本标签是关于物体类别的句子，是预设的文本标签，例如，一只强壮的牛。示例性的，该多个文本标签可以是训练pointclip模型时所使用的文本标签集；也可以后续通过训练完成的pointclip模型，对待分类三维图像进行分类，得到三维图像中物体类别之后，根据物体类别对训练时所使用的文本标签集进行不断完善，对此本技术实施例不作限制。31.s302、将三维图像投影到多个视角，得到多个视角深度图像。32.在本技术实施例中，将三维图像的点云在多个视角上进行投影，视角的数量和具体方位可以由本领域技术人员进行设置，可以通过大量的实验数据进行分析中确定。多个视角包括但不限于前(front)、后(back)、左(left)、右(right)、上(top)、下(down)、左上、左下、右上、右下中的至少两个，其中，前后左右上下也可以分别称为正视、后视、左视、右视、俯视、仰视，本技术实施例对于多个视角的数量和具体方位不作限制。33.在本技术实施例中，为了使显示的物体能以合适的位置、大小和方向显示出来，需要通过投影降低维数。可以通过投影变换(projectiontransformation)的方法将三维图像投影到多个视角，得到多个视角深度图像，视角深度图像是二维图像。投影变换可以理解为定义一个视角，使得视角外多余的部分裁剪掉，最终进入图像的只是视角内的有关部分。投影包括但不限于透视投影(perspectiveprojection)和正视投影(orthographicprojection)。34.s303、对多个视角深度图像和多个文本标签分别进行编码，得到多个视角对应的图像特征和多个文本特征。35.在本技术实施例中，图像特征和文本特征可以是以向量的形式表示，以便于后续对两个向量之间计算向量相似度。通过预先训练完成的pointclip模型对多个视角深度图像进行特征提取，得到多个图像特征，一个视角对应一个图像特征。图像特征包括图像的颜色特征、纹理特征、形状特征和空间关系特征。36.在本技术实施例中，通过预先训练完成的pointclip模型对多个文本标签进行编码，得到多个文本特征，文本特征可以用于聚类、分类和计算相似度等。可以将pointclip模型中用于进行编码的网络理解为神经网络(neuralnetworks，nns)，示例性的，通过以下方式对文本标签进行编码，由于自然语言(文本标签是一个表达句子)无法直接作为神经网络输入，需要先对文本标签进行分词，对每个词进行编号，得到词向量映射。将词向量映射作为神经网络的输入，进行文本编码，得到文本特征。本技术实施例中用于文本编码的神经网络包括但不限于：卷积神经网络(convolutionalneuralnetworks，cnn)、循环神经网络(recurrentneuralnetwork，rnn)、长短期记忆神经网络(long-shorttermmemory，lstm)，对此本技术实施例不作限制，只要该神经网络可以用于自然语言处理(naturallanguageprocessing，nlp)即可。37.s304、根据多个视角对应的图像特征和多个文本特征计算相似度，得到第一文本相似度，其中，第一文本相似度表征三维图像中物体所对应的类别与多个文本标签之间的相似度。38.在本技术实施例中，图像特征和文本特征的形式可以是向量，图像特征中包括表征不同视角下物体的本身固有的特征(例如，颜色、形状、文本和空间关系等)，文本标签包括表征文本所表达的物体类别(例如，飞机、椅子、狗等)，计算每个视角对应的图像特征和每个文本特征之间的向量相似度，得到多个文本相似度。根据文本标签，将多个文本相似度进行合并，得到第一文本相似度。该第一文本相似度表征三维图像中物体所对应的类别与多个文本标签之间的相似度。39.在本技术实施例中，文本相似度包括但不限于以下形式：余弦相似度(cosine)、欧氏距离(euclidean)、曼哈顿距离(manhattandistance)、皮尔逊相关系数(pearsoncorrelationcoefficient，pc)、斯皮尔曼(等级)相关系数(spearmanrankcorrelation，src)、杰卡德相似系数(jaccard距离)、simhash 汉明距离(hammingdistance)等，对此本技术实施例不作限制。40.需要说明的是，本技术实施例中第一和第二只是为了区分名称，并不代表顺序关系，不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量，例如，第一文本相似度和第二文本相似度。41.在一些实施例中，上述s304可以包括s3041和s3042。42.s3041、将多个视角对应的图像特征和多个文本特征分别配对，计算每个文本特征和每个视角对应的图像特征之间的文本相似度，得到第二文本相似度，第二文本相似度包括多个文本标签对应的多个视角的文本相似度。43.s3042、将第二文本相似度中同一文本标签对应的多个视角的文本相似度相加，得到第一文本相似度；其中，第二文本相似度的数量大于第一文本相似度的数量。44.示例性的，将每个视角对应的图像特征和每个文本特征进行配对，计算每个文本特征和每个视角对应的图像特征之间的文本相似度，得到第二文本相似度，第二文本相似度包括多个文本标签对应的多个视角的文本相似度。例如，文本标签的数量为20000个，视角为8个，计算每个视角对应的图像特征和每个文本特征之间的向量相似度，得到160000个第二文本相似度，将160000个第二文本相似度中同一文本标签对应的8个视角对应的文本相似度进行合并，在合并时。可以通过将相似度相加的方式，得到20000个第一文本相似度。即，第二文本相似度的数量远大于第一文本相似度的数量。45.在本技术实施例中，通过将多个视角对应的图像特征和多个文本特征分别配对，计算每个文本特征和每个视角对应的图像特征之间的文本相似度，得到第二文本相似度。第二文本相似度包括多个文本标签对应的多个视角的文本相似度，将第二文本相似度中同一文本标签对应的多个视角的文本相似度相加，得到第一文本相似度，提高了文本相似度的准确性。46.在一些实施例中，上述s3042可以通过以下方式实现。针对同一文本标签，将多个视角的文本相似度和每个视角对应的权重，进行加权求和，得到该文本标签下的文本相似度；将多个文本标签下的文本相似度作为第一文本相似度。47.在本技术实施例中，每个视角对应的权重可以由本领域技术人员根据实际情况进行适当设置，例如，将某些关键视角或对物体的类别识别影响较大的视角，所对应的权重值设置的大一些。也可以对大量的实验数据进行分析确定，示例性的，对于同一文本标签，通过预先训练完成的pointclip模型，pointclip模型包括用于进行文本编码的网络和用于进行图像特征提取的网络，这两个网络在训练过程中是同时训练的。训练输入的是二维图像样本以及二维图像样本对应的文本标签，训练输出的是二维图像样本中物体的类别，直至达到训练终止条件，例如，训练次数达到预设次数，或者，损失值达到预设阈值等。在训练完成后，将两个网络的网络参数固定，再将三维图像样本在多个视角上进行投影，得到多个视角深度图像样本。视角深度图像样本是二维图像，将多个视角深度图像样本输入到pointclip模型中，此时，pointclip模型中用于进行文本编码的网络和用于进行图像特征提取的网络的网络参数是固定的，从而对每个视角的权重进行训练，通过训练结果中预测类别的准确度，选取适当的每个视角对应的权重值，对此本技术实施例不做限制。48.在本技术实施例中，通过添加视角权重的方式，对同一文本标签下的多个视角的文本相似度进行加权求和，从而得到多个文本标签下的文本相似度，提高了文本相似度的准确性。49.s305、根据第一文本相似度确定三维图像中物体的类别。50.在本技术实施例中，第一文本相似度表征三维图像中物体所对应的类别与多个文本标签之间的相似度，可以选择第一文本相似度中超过预设相似度的文本相似度，将文本相似度对应的文本标签中相关的类别，以及类别对应相似概率，作为三维图像中物体的类别的输出结果。也可以选择第一文本相似度中超过预设数量的文本相似度，例如，前三个，将文本相似度对应的文本标签中相关的类别，以及类别对应相似概率，作为三维图像中物体的类别的输出结果。预设相似度和预设数量可以由本领域技术人员根据实际情况进行适当设置，也可以对大量的实验数据进行分析确定，对此本技术实施例不作限制。通过选择至少一个文本相似度，确定物体类别的输出结果的方案，提高了输出结果的多样性。51.在一些实施例中，上述s305可以通过以下方式实现。将第一文本相似度中最大文本相似度对应的文本标签相关的类别，确定为三维图像中物体的类别。52.在本技术实施例中，通过选择第一文本相似度中最大文本相似度，将最大文本相似度对应的文本标签中相关的类别，作为三维图像中物体的类别的输出结果，从而确定物体的类别，提高了三维图像分类的准确度。53.根据本技术实施例提供的方案，获取三维图像和多个文本标签；将三维图像投影到多个视角，得到多个视角深度图像；对多个视角深度图像和多个文本标签分别进行编码，得到多个视角对应的图像特征和多个文本特征；根据多个视角对应的图像特征和多个文本特征计算相似度，得到第一文本相似度。在本技术实施例中，通过对二维的视角深度图像和文本标签分别进行编码，以及计算特征之间的相似度的方案，将物体分类任务转换成图文匹配(即，图像与文本配对)任务，不受固定文本标签集的限制，具有对没见过的物体和概念的泛化能力。第一文本相似度表征三维图像中物体所对应的类别与多个文本标签之间的相似度，根据第一文本相似度确定三维图像中物体的类别，提高了三维图像的分类准确性。54.在一些实施例中，上述s303可以包括s401和s402。如图4所示，图4为本技术实施例提供的另一种三维图像分类方法的可选的步骤流程图。55.s401、根据视觉编码模型对多个视角深度图像进行图像编码，得到多个视角对应的图像特征。56.s402、根据文本编码模型对多个文本标签进行文本编码，得到多个文本特征。57.在本技术实施例中，预先训练完成的pointclip模型包括视觉编码模型和文本编码模型，通过视觉编码模型对视角深度图像进行图像特征提取，得到图像特征，一个视角深pointcloud)投影(projection)到多个视角，得到多个2d视角深度图像(2ddepthmaps)，图5中以左视、右视、后视和俯视，4个视角进行示出，m＝4，m视角(views)表示4个视角当然在实际训练和测试时，对视角的数量不作限制。视觉编码模型(visualencoder)对多个2d视角深度图像进行特征提取，得到多个视角对应的图像特征(multi-viewfeatures)，f1、f2、f3、f4表示4个视角对应的图像特征，c表示图像特征的特征维度，与文本特征的特征维度相同，m＝4，表示4个视角。65.在本技术实施例中，zero-shot表示零发或零次识别，也可以表示零发或零次检测，也就是通过编码得到图像特征和文本特征，然后直接计算图像特征和文本特征之间的文本相似度的方案，可以称为zero-shot识别，zero-shot识别可以理解为在训练过程中不是直接对二维图像进行图像分类，而是采用图文匹配的方式。在本技术实施例中，zero-shot识别还可以理解为没有采用三维图像样本进行训练，即可完成对待分类的三维图像进行分类。66.在本技术实施例中，还可以根据多个视角的图像特征，通过特征连接、全局特征提取、不同视角的适配处理以及残差连接，也就是通过视角间适配器的处理，得到图像特征，然后计算图像特征和文本特征之间的文本相似度，由于视角间适配器是通过少量的三维图像样本进行训练的，因此，相对于上述zero-shot识别，可以将该方案称为few-shot识别。在本技术实施例中，few-shot识别可以理解为在训练过程中采用少量的三维图像样本进行训练，即可完成对待分类的三维图像进行分类。67.在本技术实施例中，图5中开关用于选择zero-shot识别或few-shot识别，视角间适配器(inter-viewadapter)用于将不同视角的初始图像特征进行融合，得到图像特征。图5中表示将每个图像特征和每个文本特征进行文本相似度计算，对多个视角深度图像进行物体类别的预测(multi-viewpredictions)，得到每个图像特征与每个文本特征之间的文本相似度。f1wtt表示第1个视角对应的图像特征与3个文本特征之间的文本相似度，f2wtt表示第2个视角对应的图像特征与3个文本特征之间的文本相似度，f3wtt表示第3个视角对应的图像特征与3个文本特征之间的文本相似度，f4wtt表示第4个视角对应的图像特征与3个文本特征之间的文本相似度，共12个文本相似度。a1、a2、a3、a4表示4个视角对应的权重，将同一文本标签下的4个视角对应的文本相似度，结合每个视角对应的权重，进行加权求和，图5中以线性拟合(linearcombination)表示加权求和的过程，得到该文本标签下的文本相似度，共3个文本相似度。在图5中以条形图的形式示出3个文本标签(chair、lamp、plane)下的文本相似度，在本技术实施例中物体类别可以是概率的形式示出，3个文本标签下的类别概率之和为1。68.在本技术实施例中，图5表示pointclip模型的网络结构图，pointclip分为两个分支，上面的分支通过clip模型的文本编码模型，将带类别的句子模板编码为文本特征。下面的模态转换分支将三维图像的点云投影到多个视角，得到多个视角深度图像，再通过视觉编码模型得到每个视角的图像特征。clip模型中的分类器用于对多个视角的对应的图像特征进行分类。对于zero-shotlearning(零发检测)，不同视角的图像特征直接和分类器分别配对。而对于few-shot识别，则将每个图像特征分别输入到inter-viewadapter(视角间适配器)中，以一种可学习的方式，更新图像特征。在将每个图像特征和每个文本特征进行配对后，会得到不同视角的预测结果(即文本相似度)，将同一文本标签下不同视角的文本相似度进行加权求和，得到多个文本标签下的文本相似度。69.相关技术中，clip模型只在2d领域中train和test，pointnet 模型只在3d领域中train和test，不能将2d中已经学习到的知识，在不经过任何3d训练的情况下进行3d物体的识别。如图1中的pointnet 模型只能在3d样本集上进行训练并且预测，不能实现跨模态的转换。70.本技术实施例中提供的pointclip模型在2d的图像-文本对上进行对比训练，但是可以直接拿来预测3d物体的类别，不需要任何3d的训练。在对待分类图像进行分类时，pointclip模型将3d点云投影到多个视角的2d深度图上，然后通过训练完成的clip模型(文本编码模型和视觉编码模型)对其分类，提高了三维图像分类的准确性。并且利用clip模型的特性，还可以实现对未见过类别的3d物体进行识别，实现了2d到3d的跨模态“零发”知识转移(或传输)的方法，并且在图像样本很少的时候，依旧能够提高三维图像分类的准确性。71.在一些实施例中，上述s402可以包括s4021和s4022。72.s4021、根据视觉编码模型对多个视角深度图像进行图像编码，得到多个视角对应的初始图像特征。73.s4022、将多个视角对应的初始图像特征输入视角间适配器，对多个视角对应的初始图像特征进行融合，确定多个视角对应的图像特征。74.在本技术实施例中，将视觉编码模型对视角深度图像进行图像编码，得到图像特征称为初始图像特征，由于初始图像特征是多个视角对应的图像特征，多个视角均属于同一三维图像，因此，这些图像特征之间既相互独立，又存在一定的联系。视角间适配器用于将不同视角的初始图像特征进行融合，可以理解为不同视角下初始图像特征的相互补充、交互，也可以理解为图像三维重建。75.在本技术实施例中，对于同一物体，由于物体自遮挡等原因，视角不同，所看到的内容不同，即初始图像特征所侧重的表达信息不同。对于每个视角对应的初始图像特征来说，其表达信息均是局部的、不完整的，因此，将多个视角对应的初始图像特征输入视角间适配器，对多个视角对应的初始图像特征进行融合，融合后的图像特征更完整、全面，将融合后的图像特征进行适配处理，也可以理解为融合的反过程，从而得到多个视角对应的图像特征，相较于初始图像特征，该图像特征能够更准确的表示三维图像，提高了图像特征的准确性。76.在一些实施例中，上述s4022可以包括s4022a、s4022b和s4022c。77.s4022a、将多个视角对应的初始图像特征进行连接，得到连接图像特征。78.s4022b、对连接图像特征进行全局特征提取，得到全局图像特征，全局图像特征表征不同视角间信息交互后的特征。79.s4022c、将全局图像特征进行不同视角的适配处理，得到多个视角对应的图像特征。80.在本技术实施例中，视角间适配器可以完成s4022a-s4022c，视角间适配器包括三个线性层，线性层可以理解为神经网络。在对多个视角对应的初始图像特征进行处理时，将多个视角对应的初始图像特征在特征维度上连接起来，得到连接图像特征。前两个线性层用于对连接图像特征进行全局特征提取，将不同视角间信息进行交互，得到全局图像特征。第三个线性层用于将全局图像特征进行不同视角的适配处理，得到多个视角对应的图像特征，第三个线性层可以理解为全连接网络(fullyconnectedneuralnetwork)。81.在本技术实施例中，通过特征连接、全局特征提取以及不同视角的适配处理，得到多个视角对应的图像特征，提高了图像特征的全面性、完整性。82.在一些实施例中，上述s4022c可以通过以下方式实现。将全局图像特征进行不同视角的适配处理，得到多个视角对应的增强图像特征；将初始图像特征和增强图像特征，按照各个视角分别进行残差连接，得到多个视角对应的图像特征。83.在本技术实施例中，对全局图像特征进行不同视角的适配处理，得到增强图像特征，通过残差连接(skipconnect)的方式与初始图像特征进行连接，通过视角间适配器输出，得到多个视角对应的图像特征。视角间适配器本质是一个神经网络，神经网络会存在退化问题，虽然是一个很高维的矩阵，但是大部分维度却没有信息，表达能力没有看起来那么强大。残差连接可以强制打破了网络的对称性，提升了网络的表征能力，可以改善反向传播过程中的梯度消散问题。84.在本技术实施例中，通过对全局图像特征进行不同视角的适配处理，结合初始图像特征进行残差连接，得到多个视角对应的图像特征，提高了图像特征的准确性。85.下面，列举一个具体的示例对三维图像分类方法的应用场景进行说明。如图6所示，图6为本技术实施例提供的一种视角间适配器的示例性的结构示意图。图6中多个视角对应的图像特征(multi-viewfeatures)与图5中的内容一致，由于图6中需要对图像特征进行融合处理，为便于区分，将多个视角对应的图像特征(multi-viewfeatures)称为多个视角对应的初始图像特征，包括f1、f2、f3和f4。视角间适配器(inter-viewadapter)一共包括3层线性层组成，将不同视角的图像特征在特征维度上连接起来，通过前两个线性层提取到全局特征，图6中fglobal表示全局特征(globalfeatures)。该全局特征通过交互不同视角间的信息，能够全面概括3d点云的属性。然后，通过一层线性层得到不同视角的适配特征，通过残差连接(residualconnection)的方式和初始图像特征加和，得到最终的图像特征，即，图6中经过视角间适配器后的图像特征(adaptedfeatures)，包括f1a、f2a、f3a和f4a，输出视角间适配器。视角间适配器是采用少量的三维图像样本训练得到的，是可学习的模型，包含3d数据集中的方法。通过视角间适配器结合pointclip实现三维图像分类的方法，将2d预训练知识(多个文本标签与多个二维图像分别配对，计算文本相似度)和3d学习的知识(采用三维图像样本训练的视角间适配器，对图像特征进行融合处理)结合在一起，从而实现对待分类的三维图像进行分类，提高了三维图像分类的准确性。86.在一些实施例中，上述s4022中的视角间适配器可以通过以下方式获取：获取第一图像样本，第一图像样本包括多个第一物体样本的三维图像样本和多个第一物体样本的文本标签；根据第一图像样本，结合文本编码模型和视觉编码模型，对初始视角间适配器进行训练，得到视角间适配器。87.在本技术实施例中，在训练pointclip模型时，是根据大量的二维图像样本及其二维图像样本对应的文本标签，对pointclip模型进行训练，pointclip模型中的文本编码模型和视觉编码模型是同时训练的，从而得到训练完成后的文本编码模型和视觉编码模型。然后采集少量的三维图像样本及其三维图像样本对应的文本标签，这里的少量是相对于大量的二维图像样本而言。三维图像样本的数量远小于二维图像样本数量，三维图像样本，例如，8个、16个、32个、64个、128个。根据少量的三维图像样本及其三维图像样本对应的文本标签对视角间适配器进行训练，从而得到训练完成的视角间适配器。88.示例性的，将多个物体样本的三维图像样本投影到多个视角，得到多个视角深度图像样本；通过训练完成后的文本编码模型对预先采集多个文本标签样本进行编码，得到多个文本特征样本，通过训练完成的视觉编码模型对多个视角深度图像样本进行编码，得到多个视角对应的初始图像特征样本；将多个视角对应的初始图像特征样本输入初始视角间适配器，得到多个视角对应的图像样本；根据多个视角对应的图像样本和多个文本特征样本进行类别预测，得到第一物体样本的预测类别。根据第一物体样本的预测类别和预设的损失函数，获得损失值；根据损失值对初始视角间适配器进行训练，直至达到训练终止条件，例如，训练次数达到预设次数，或者，损失值达到预设阈值等。89.需要说明的是，上述多个第一物体样本的文本标签与第一物体样本的三维图像样本一一对应的，是已知准确的标签真值，文本标签样本是预先采集的文本标签。多个第一物体样本的文本标签可以用于pointclip模型中有监督式学习模式，即，将多个第一物体样本的文本标签作为样本输入pointclip模型中进行监督学习，或者用于pointclip模型中强化学习模式，真值滞后反馈，用于累积多次决策才知道结果好坏。90.在本技术实施例中，通过少量的三维图像样本和三维图像样本中第一物体样本的文本标签，结合文本编码模型和视觉编码模型，对初始视角间适配器进行训练，得到视角间适配器。相较于采集大量的三维图像样本对三维分类模型进行训练的方式，在训练视角间适配器时，仅需要采集少量的三维图像样本，降低了数据获取难度，从而提高数据采集效率。91.在一些实施例中，在上述s305之前，该三维图像分类方法还可以包括s501。92.s501、将三维图像输入到三维图像分类模型，得到第三文本相似度，第三文本相似度表征三维图像中物体所对应的类别与多个文本标签之间的相似度。93.在本技术实施例中，将三维图像输入到三维图像分类模型，得到第三文本相似度，该第三文本相似度与第一文本相似度所表征的信息相同。三维图像分类模型是指通过三维图像样本进行训练完成的模型，可以是任意结构的神经网络，包括但不限于pointnet、pointnet 、simpleview、dggnn、curvenet，对此本技术实施例不作限制。94.在本技术实施例中，结合上述s501中得到的第三文本相似度，上述图3中s305可以通过以下方式实现，将第一文本相似度和第三文本相似度中同一文本标签的文本相似度相加，得到第四文本相似度；根据第四文本相似度，确定三维图像中物体的类别。95.在本技术实施例中，由于三维图像分类模型是采用三维图像样本进行训练，pointclip模型是采用二维图像样本进行训练，因此，三维图像分类模型和pointclip模型对于待分类的三维图像的分类结果是恰好相反的，这是由两个模型的训练机制所带来的。也可以理解为，对于某些待分类的三维图像，两个模型所预测的结果是相反的，也就是，一个模型预测的类别是对的，另一个模型预测的类别是错的，将两者结果相加，会有一个纠偏的功能，将错的类别纠正为对的类别。然而对于两个三维图像分类模型来说，其均是用三维图像样本进行训练的，所以预测结果的错误或正确的方向是一致的，也就是，一个模型预测的是错的类别，另一个模型预测的也是错的类别，两者相加，只会让对的更对，错的更错。96.在本技术实施例中，将待分类的三维图像输入pointclip模型，输出第一文本相似度；将待分类的三维图像输入三维图像分类模型，输出第三文本相似度。第三文本相似度与第一文本相似度均表征三维图像中物体所对应的类别与多个文本标签之间的相似度，对同一文本标签对应的文本相似度求和，得到第四文本相似度，第四文本相似度能够更准确的表征三维图像中物体所对应的类别与多个文本标签之间的相似度，提高了文本相似度的准确性。97.下面，列举一个具体的示例对三维图像分类方法的应用场景进行说明。如图7所示，图7为本技术实施例提供的一种pointclip模型与3d图像分类模型联合的示例性的结构图。图7中多模型联合学习(multi-knowledgeensembling)表示将pointclip模型和classical3dnetworks测试结果进行联合，本技术实施例中通过pointclip模型，对待分类的三维图像进行分类，得到分类结果，分类结果包括多个文本标签下的文本相似度，由于pointclip模型是基于二维图像样本进行训练得到的，因此该分类过程可以称为2dpre-trainedknowledge。相关技术中，通过三维分类模型classical3dnetworks，例如，pointnet、pointnet 、dggnn、curvenetdeg等，实现对待分类的三维图像进行分类，得到分类结果，由于classical3dnetworks是采用三维图像样本进行训练得到的，因此该分类过程也可以称为3dlearnedknowledge。图7中将pointclip作为模型集成(ensemble)，将整个训练好的pointclip模型，当做一个即插即用的增强模块，可以增强相关技术中classical3dnetworks的性能，即，通过直接将两者预测的结果进行加和。由于2d预训练的知识(pointclip模型)可以和完全在3d上学习的知识(classical3dnetworks)进行互补，从而进一步提高三维图像分类的准确性。但是简单的结合两个classical3dnetworks只会造成性能损失。98.基于本技术实施例的三维图像分类方法，本技术实施例还提供一种三维图像分类装置，如图8所示，图8为本技术实施例提供的一种三维图像分类装置的结构示意图，该三维图像分类装置80包括：获取模块801，用于获取三维图像和多个文本标签；99.投影模块802，用于将所述三维图像投影到多个视角，得到多个视角深度图像；100.编码模块803，用于对所述多个视角深度图像和所述多个文本标签分别进行编码，得到多个视角对应的图像特征和多个文本特征；101.相似度计算模块804，用于根据所述多个视角对应的图像特征和所述多个文本特征计算相似度，得到第一文本相似度，其中，所述第一文本相似度表征所述三维图像中物体所对应的类别与所述多个文本标签之间的相似度；102.分类模块805，还用于根据所述第一文本相似度确定所述三维图像中物体的类别。103.在一些实施例中，相似度计算模块804，还用于将所述多个视角对应的图像特征和所述多个文本特征分别配对，计算每个文本特征和每个视角对应的图像特征之间的文本相似度，得到第二文本相似度，所述第二文本相似度包括所述多个文本标签对应的多个视角的文本相似度；将所述第二文本相似度中同一文本标签对应的多个视角的文本相似度相加，得到所述第一文本相似度；其中，所述第二文本相似度的数量大于所述第一文本相似度的数量。104.在一些实施例中，相似度计算模块804，还用于针对同一文本标签，将所述多个视角的文本相似度和每个视角对应的权重，进行加权求和，得到该文本标签下的文本相似度；将所述多个文本标签下的文本相似度作为所述第一文本相似度。105.在一些实施例中，编码模块803包括视觉编码单元和文本编码单元；106.视觉编码单元，用于根据视觉编码模型对所述多个视角深度图像进行图像编码，得到所述多个视角对应的图像特征；107.文本编码单元，用于根据文本编码模型对所述多个文本标签进行文本编码，得到所述多个文本特征。108.在一些实施例中，视觉编码单元，还用于还用于根据所述视觉编码模型对所述多个视角深度图像进行图像编码，得到所述多个视角对应的初始图像特征；将所述多个视角对应的初始图像特征输入视角间适配器，对所述多个视角对应的初始图像特征进行融合，确定所述多个视角对应的图像特征。109.在一些实施例中，视觉编码单元，还用于将所述多个视角对应的初始图像特征进行连接，得到连接图像特征；对所述连接图像特征进行全局特征提取，得到全局图像特征，所述全局图像特征表征不同视角间信息交互后的特征；将所述全局图像特征进行不同视角的适配处理，得到所述多个视角对应的图像特征。110.在一些实施例中，视觉编码单元，还用于将所述全局图像特征进行不同视角的适配处理，得到所述多个视角对应的增强图像特征；将所述初始图像特征和所述增强图像特征，按照各个视角分别进行残差连接，得到所述多个视角对应的图像特征。111.在一些实施例中，所述视角间适配器通过以下方式获取：获取第一图像样本，所述第一图像样本包括多个第一物体样本的三维图像样本和多个第一物体样本的文本标签；根据所述第一图像样本，结合所述文本编码模型和所述视觉编码模型，对初始视角间适配器进行训练，得到所述视角间适配器。112.在一些实施例中，视觉-语言匹配任务模型包括所述文本编码模型和所述视觉编码模型，所述视觉-语言匹配任务模型通过以下方式获取：获取第二图像样本，所述第二图像样本包括多个第二物体样本的二维图像样本和多个第二物体样本的文本标签；根据所述第二图像样本对初始视觉-语言匹配任务模型进行训练，得到所述视觉-语言匹配任务模型。113.在一些实施例中，分类模块805，还用于将所述第一文本相似度中最大文本相似度对应的文本标签相关的类别，确定为所述三维图像中物体的类别。114.在一些实施例中，相似度计算模块804，还用于将所述三维图像输入到三维图像分类模型，得到第三文本相似度，所述第三文本相似度表征所述三维图像中物体所对应的类别与所述多个文本标签之间的相似度；115.分类模块805，还用于将所述第一文本相似度和所述第三文本相似度中同一文本标签的文本相似度相加，得到第四文本相似度；根据所述第四文本相似度，确定所述三维图像中物体的类别。116.需要说明的是，上述实施例提供的三维图像分类装置在进行三维图像分类时，仅以上述各程序模块的划分进行举例说明，实际应用中，可以根据需要而将上述处理分配由不同的程序模块完成，即将装置的内部结构划分成不同的程序模块，以完成以上描述的全部或者部分处理。另外，上述实施例提供的三维图像分类装置与三维图像分类方法实施例属于同一构思，其具体实现过程及有益效果详见方法实施例，这里不再赘述。对于本装置实施例中未披露的技术细节，请参照本技术方法实施例的描述而理解。117.在本技术实施例中，图9为本技术实施例提出的三维图像分类设备组成结构示意图，如图9所示，本技术实施例提出的设备90还可以包括处理器901、存储有处理器901可执行指令的存储器902，在一些实施例中，三维图像分类设备90还可以包括通信接口903，和用于连接处理器901、存储器902以及通信接口903的总线904。118.在本技术实施例中，上述处理器901可以为特定用途集成电路(applicationspecificintegratedcircuit，asic)、数字信号处理器(digitalsignalprocessor，dsp)、数字信号处理装置(digitalsignalprocessingdevice，dspd)、可编程逻辑装置(programmablelogicdevice，pld)、现场可编程门阵列(fieldprogrammablegatearray，fpga)、中央处理器(centralprocessingunit，cpu)、控制器、微控制器、微处理器中的至少一种。可以理解地，对于不同的设备，用于实现上述处理器功能的电子器件还可以为其它，本技术实施例不作具体限定。119.在本技术实施例中，总线904用于连接通信接口903、处理器901以及存储器902以及这些器件之间的相互通信。120.在本技术实施例中，上述处理器901，用于获取三维图像和多个文本标签；将所述三维图像投影到多个视角，得到多个视角深度图像；对所述多个视角深度图像和所述多个文本标签分别进行编码，得到多个视角对应的图像特征和多个文本特征；根据所述多个视角对应的图像特征和所述多个文本特征计算相似度，得到第一文本相似度，其中，所述第一文本相似度表征所述三维图像中物体所对应的类别与所述多个文本标签之间的相似度；根据所述第一文本相似度确定所述三维图像中物体的类别。121.三维图像分类设备90中存储器902可以与处理器901连接，存储器902用于存储可执行程序代码和数据，该程序代码包括计算机操作指令，存储器902可能包含高速ram存储器，也可能还包括非易失性存储器，例如，至少两个磁盘存储器。在实际应用中，上述存储器902可以是易失性存储器(volatilememory)，例如随机存取存储器(random-accessmemory，ram)；或者非易失性存储器(non-volatilememory)，例如只读存储器(read-onlymemory，rom)，快闪存储器(flashmemory)，硬盘(harddiskdrive，hdd)或固态硬盘(solid-statedrive，ssd)；或者上述种类的存储器的组合，并向处理器901提供指令和数据。122.另外，在本技术实施例中的各功能模块可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。123.集成的单元如果以软件功能模块的形式实现并非作为独立的产品进行销售或使用时，可以存储在一个计算机可读取存储介质中，基于这样的理解，本实施例的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)或processor(处理器)执行本实施例方法的全部或部分步骤。而前述的存储介质包括：u盘、移动硬盘、只读存储器(readonlymemory，rom)、随机存取存储器(randomaccessmemory，ram)、磁碟或者光盘等各种可以存储程序代码的介质。124.本技术实施例提供一种计算机可读存储介质，其上存储有程序，该程序被处理器执行时实现如上任一实施例所述的三维图像分类方法。125.示例性的，本实施例中的一种三维图像分类方法对应的程序指令可以被存储在光盘，硬盘，u盘等存储介质上，当存储介质中的与一种三维图像分类方法对应的程序指令被一电子设备读取或被执行时，可以实现如上述任一实施例所述的三维图像分类方法。126.本领域内的技术人员应明白，本技术实施例可提供为方法、系统、或计算机程序产品。因此，本技术可采用硬件实施例、软件实施例、或结合软件和硬件方面的实施例的形式。而且，本技术可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。127.本技术是参照根据本技术实施例的方法、设备(系统)、和计算机程序产品的实现流程示意图和/或方框图来描述的。应理解可由计算机程序指令实现流程示意图和/或方框图中的每一流程和/或方框、以及实现流程示意图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在实现流程示意图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。128.这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在实现流程示意图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。129.这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在实现流程示意图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。130.以上所述，仅为本技术的较佳实施例而已，并非用于限定本技术的保护范围。当前第1页12当前第1页12

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：一种基于改进PointNet的轨迹数据出行方式识别方法和装置与流程

三维图像分类方法、装置、设备和计算机可读存储介质与流程

相关文献

最热文献