多视角3D物体识别方法、系统、装置及可读存储介质与流程

2022-04-07 04:11:40 来源：中国专利 TAG：

多视角3d物体识别方法、系统、装置及可读存储介质
技术领域
1.本发明涉及图像识别技术领域，尤其涉及一种多视角3d物体识别方法、系统、装置及可读存储介质。

背景技术：

2.在现有技术中，用于分类任务的视觉transformer方法仅对图像进行分类，对每张图片单独提取特征，由于图片之间不存在联系，因此会把每张图片当作是一个类别目标，将每张图片的特征都送入分类器中是对每张图片进行分类，得到每张图片的类别。
3.而现有技术中基于深度学习的多视角3d物体识别方法几乎使用的是成熟的cnn分类网络作为主干网络，并在其中加入特征融合模块。比如，yifan等人的gvcnn中，使用googlenet作为主干网络，并在其中加入分组形式的视图特征融合模块，利用googlenet的前五个卷积层提取的特征，使用计算视图ii的区分度得分ξ(ii)，其中代表googlenet前五个卷积层提取的视图ii的特征；再将[0,1]区间分为长度相等的几个子区间，根据得到的视图区分度得分，对googlenet倒数第三层输出的视图特征进行分组，放入对应的子区间，并且根据得到的视图区分度得分ξ(ii)，使用ξ(gj)＝计算每个组的权重ξ(gj)，其中gj代表视图ik所在的组，ceil函数用来取整；每组内使用进行组内视图融合，其中，代表googlenet倒数第三层输出的视图描述符(即视图特征)，d(gj)代表组描述符，n表示该组内视图数，)代表组描述符，n表示该组内视图数，得到每组的组级描述符d(gj)，再根据使用所有组级描述符d(gj)和组权重ξ(gj)进行加权融合，获得最终的3d形状描述符d(s)，其中m表示分组数；最终利用得到的3d形状描述符d(s)输入cnn分类器进行分类，以获得3d目标对应的类别。
[0004]
但是，现有视觉transformer方法没有针对多视角3d物体识别领域进行设计，没有特征融合模块，无法直接用于多视角3d物体识别任务；现有基于深度学习的多视角3d物体识别领域主干网络全部是cnn网络，没有以目前最热门最先进的视觉transformer方法为主干网络的多视角3d物体识别方法。
[0005]
而使用gvcnn方法时存在以下问题：
[0006]
gvcnn的区分度得分如所示，这里面log函数在x＝0处无定义，当提取的视图特征存在0值时，无法计算出相应log值，程序报错；
[0007]
gvcnn认为经过分组后，同一组中的视图具有相似的内容，于是将同一组内视图特征一视同仁，利用公式对同一组内视图特征进行视图级的平均池化操作(即权重全部为1的加权平均)，忽略了同一组内视图之间的差别，且gvcnn经过分组后，使用每个组内视图的区分度得分计算每个组的权重，然后利用这些权重对组级特征进行加权融合，也就是说gvcnn在组间融合时仍然利用的是视图级的区别，而没有充分利用组级特征之间的区别。

技术实现要素：

[0008]
本发明针对现有技术中的缺点，提供了一种多视角3d物体识别方法、系统、装置及可读存储介质。
[0009]
为了解决上述技术问题，本发明通过下述技术方案得以解决：
[0010]
一种多视角3d物体识别方法，包括以下步骤：
[0011]
获取待识别3d物体的多角度视图；
[0012]
选择并确定初始视觉分类网络模型；
[0013]
对初始视觉分类网络模型进行特征提取，将源自于同一3d物体多角度视图的特征转换为3d形状描述符，并融合至初始视觉分类网络模型的倒数第二层与倒数第三层之间，得到优化视觉分类网络模型；
[0014]
将待识别3d物体的多角度视图进行分析得到待识别3d形状描述符，并输入至优化视觉分类网络模型中，得到待识别3d物体对应的分类结果。
[0015]
作为一种可实施方式，所述将源自于同一3d物体多角度视图的特征转换为3d形状描述符，并融合至初始视觉分类网络模型的倒数第二层与倒数第三层之间，包括以下步骤：
[0016]
从初始视觉分类网络模型的倒数第二层取出原始视图描述符，经过计算得到相应的范数；
[0017]
将范数进行处理并取sigmoid值，得到对应的视图区分度得分；
[0018]
基于视图区分度得分对倒数第三层输出的视图描述符进行分组，形成不同的组别；
[0019]
基于视图区分度得分及组别得到每个组别的权重；
[0020]
对同一组内每张视图的特征通过视图级权重进行加权，得到融合后的组级描述符；
[0021]
对每组的组级描述符应用组级权重进行加权，得到融合后的3d形状描述符。
[0022]
作为一种可实施方式，所述区分度得分通过以下公式获得：
[0023][0024]
其中，ξ(ii)表示区分度得分，表示从视觉分类网络模型的倒数第二层取出视图ii
的特征，l2表示范数。
[0025]
作为一种可实施方式，所述视图级权重为视图特征的自然指数相对于组内所有视图特征的自然指数之和的比值，通过以下公式获得：
[0026][0027]
其中，表示从视觉分类网络模型的倒数第二层取出视图ii的特征，n表示组内的视图数；所述组级描述符d(gj)通过以下公式获得：
[0028][0029]
其中，表示视图级权重，表示从视觉分类网络模型的倒数第二层取出视图ii的特征。
[0030]
作为一种可实施方式，所述组级权重为所述组级描述符的自然指数相对于所有组级描述符的自然指数之和的比值，通过以下公式获得：
[0031][0032]
其中，表示组级权重，m是分组数，d(gj)表示组级描述符；
[0033]
所述3d形状描述符通过以下公式获得：
[0034][0035]
其中，d(gj)表示组级描述符，表示组级权重。
[0036]
一种多视角3d物体识别系统，包括视图获取模块、选择确定模块、模型优化模块及分析分类模块；
[0037]
所述视图获取模块，用于获取待识别3d物体的多角度视图；
[0038]
所述选择确定模块，用于选择并确定初始视觉分类网络模型；
[0039]
所述模型优化模块，用于对初始视觉分类网络模型进行特征提取，将源自于同一3d物体多角度视图的特征转换为3d形状描述符，并融合至初始视觉分类网络模型的倒数第二层与倒数第三层之间，得到优化视觉分类网络模型；
[0040]
所述分析分类模块，用于将待识别3d物体的多角度视图进行分析得到待识别3d形状描述符，并输入至优化视觉分类网络模型中，得到待识别3d物体对应的分类结果。
[0041]
作为一种可实施方式，所述优化模块被设置为：
[0042]
从初始视觉分类网络模型的倒数第二层取出原始视图描述符，经过计算得到相应的范数；
[0043]
将范数进行处理并取sigmoid值，得到对应的视图区分度得分；
[0044]
基于视图区分度得分对倒数第三层输出的视图描述符进行分组，形成不同的组别；
[0045]
基于视图区分度得分及组别得到每个组别的权重；
[0046]
对同一组内每张视图的特征通过视图级权重进行加权，得到融合后的组级描述符；
[0047]
对每组的组级描述符应用组级权重进行加权，得到融合后的3d形状描述符。
[0048]
作为一种可实施方式，所述优化模块被设置为：
[0049]
所述区分度得分通过以下公式获得：
[0050][0051]
其中，ξ(ii)表示区分度得分，表示从视觉分类网络模型的倒数第二层取出视图ii的特征，l2表示范数；
[0052]
所述视图级权重为视图特征的自然指数相对于组内所有视图特征的自然指数之和的比值，通过以下公式获得：
[0053][0054]
其中，表示从视觉分类网络模型的倒数第二层取出视图ii的特征，n表示组内的视图数；所述组级描述符d(gj)通过以下公式获得：
[0055][0056]
其中，表示视图级权重，表示从视觉分类网络模型的倒数第二层取出视图ii的特征；
[0057]
所述组级权重为所述组级描述符的自然指数相对于所有组级描述符的自然指数之和的比值，通过以下公式获得：
[0058][0059]
其中，表示组级权重，m是分组数，d(gj)表示组级描述符；
[0060]
所述3d形状描述符通过以下公式获得：
[0061][0062]
其中，d(gj)表示组级描述符，表示组级权重。
[0063]
一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现如下的方法步骤：
[0064]
获取待识别3d物体的多角度视图；
[0065]
选择并确定初始视觉分类网络模型；
[0066]
对初始视觉分类网络模型进行特征提取，将源自于同一3d物体多角度视图的特征转换为3d形状描述符，并融合至初始视觉分类网络模型的倒数第二层与倒数第三层之间，得到优化视觉分类网络模型；
[0067]
将待识别3d物体的多角度视图进行分析得到待识别3d形状描述符，并输入至优化视觉分类网络模型中，得到待识别3d物体对应的分类结果。
[0068]
一种多视角3d物体识别装置，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如下的方法步骤：
[0069]
获取待识别3d物体的多角度视图；
[0070]
选择并确定初始视觉分类网络模型；
[0071]
对初始视觉分类网络模型进行特征提取，将源自于同一3d物体多角度视图的特征
转换为3d形状描述符，并融合至初始视觉分类网络模型的倒数第二层与倒数第三层之间，得到优化视觉分类网络模型；
[0072]
将待识别3d物体的多角度视图进行分析得到待识别3d形状描述符，并输入至优化视觉分类网络模型中，得到待识别3d物体对应的分类结果。
[0073]
本发明由于采用了以上技术方案，具有显著的技术效果：
[0074]
本发明将视觉分类网络模型进行优化，使得最近非常热门的视觉分类模型可以应用于多视角3d物体识别任务，解决了视觉分类模型在多视角3d物体识别任务方面的空白，也解决了目前基于深度学习的多视角3d物体识别方法的主干网络全部是cnn的问题，开拓了多视角3d物体识别任务的解决思路和手段。
[0075]
另外，改进了视图区分度得分的计算方法解决了之前的方法在出现无定义点时程序报错的问题，对多视图进行了更好的分组。提出的基于自然指数e的特征融合方式使得更有区分度的视图在多视图中作用更大，提升了利用分组方式的多视角3d物体识别方法的准确性。
附图说明
[0076]
为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。
[0077]
图1本发明的整体流程示意图；
[0078]
图2是本发明系统的结构示意图；
[0079]
图3是将分组模块插入视觉分类网络模型的示意图；
[0080]
图4是本发明组内、组间特征融合示意图。
具体实施方式
[0081]
下面结合实施例对本发明做进一步的详细说明，以下实施例是对本发明的解释而本发明并不局限于以下实施例。
[0082]
实施例1：
[0083]
一种多视角3d物体识别方法，如图1所示，包括以下步骤：
[0084]
s100、获取待识别3d物体的多角度视图；
[0085]
s200、选择并确定初始视觉分类网络模型；
[0086]
s300、对初始视觉分类网络模型进行特征提取，将源自于同一3d物体多角度视图的特征转换为3d形状描述符，并融合至初始视觉分类网络模型的倒数第二层与倒数第三层之间，得到优化视觉分类网络模型；
[0087]
s400、将待识别3d物体的多角度视图进行分析得到待识别3d形状描述符，并输入至优化视觉分类网络模型中，得到待识别3d物体对应的分类结果。
[0088]
在一个实施例中，步骤s300将源自于同一3d物体多角度视图的特征转换为3d形状描述符，并融合至初始视觉分类网络模型的倒数第二层与倒数第三层之间，包括以下步骤：
[0089]
s310、从初始视觉分类网络模型的倒数第二层取出原始视图描述符，经过计算得
到相应的范数；
[0090]
s320、将范数进行处理并取sigmoid值，得到对应的视图区分度得分；
[0091]
s330、基于视图区分度得分对倒数第三层输出的视图描述符进行分组，形成不同的组别；
[0092]
s340、基于视图区分度得分及组别得到每个组别的权重；
[0093]
s350、对同一组内每张视图的特征通过视图级权重进行加权，得到融合后的组级描述符；
[0094]
s360、对每组的组级描述符应用组级权重进行加权，得到融合后的3d形状描述符。
[0095]
在步骤中，所述区分度得分通过以下公式获得：
[0096][0097]
其中，ξ(ii)表示区分度得分，表示从视觉分类网络模型的倒数第二层取出视图ii的特征，l2表示范数；
[0098]
所述视图级权重为视图特征的自然指数相对于组内所有视图特征的自然指数之和的比值，通过以下公式获得：
[0099][0100]
其中，表示从视觉分类网络模型的倒数第二层取出视图ii的特征，n表示组内的视图数；所述组级描述符d(gj)通过以下公式获得：
[0101][0102]
其中，表示视图级权重，表示从视觉分类网络模型的倒数第二层取出视图ii的特征；
[0103]
所述组级权重为所述组级描述符的自然指数相对于所有组级描述符的自然指数之和的比值，通过以下公式获得：
[0104][0105]
其中，表示组级权重，m是分组数，d(gj)表示组级描述符；
[0106]
所述3d形状描述符通过以下公式获得：
[0107][0108]
其中，d(gj)表示组级描述符，表示组级权重。
[0109]
以上实施例中，通俗的讲，就是在视觉分类网络模型中插入特征融合模块，如图3所示。先将3d物体的多视图输入视觉分类网络模型进行特征提取，然后在网络倒数第二层插入多视图特征融合模块，将网络倒数第二层输出特征输入多视图特征融合模块，融合来自同一物体的多角度视图的特征为一个统一的3d形状描述符。
[0110]
在计算视图区分度得分时，从视觉分类网络模型倒数第二层取出视图特征计算其l2范数，乘4后再取sigmoid值，得到区分度得分ξ(ii)，公式如下：
[0111][0112]
组内特征融合时，使用视图级自然指数e加权。首先对同一组内每张视图特征应用视图级权重进行加权，得到融合后的组级描述符d(gj)。视图级权重
[0113]
被计算为该视图特征的自然指数相对于组内所有视图特征的自然指数之和的比值，计算公式如下，其中是视觉transformer倒数第二层提取的视图ii的特征，n是该组内的视图数：
[0114][0115]
组级描述符d(gj)计算公式如下：
[0116][0117]
然后在组间特征融合时使用组级自然指数e加权，即对每组的组级描述符d(gj)应用组级权重进行加权，得到融合后的3d形状描述符d(s)。组级权重被计算为该组级描述符的自然指数相对于所有组级描述符的自然指数之和的比值，计算公式如下，其中m是分组数：
[0118][0119]
3d形状描述符d(s)计算公式如下：
[0120][0121]
最后利用得到的3d形状描述符d(s)输入cnn分类器进行分类，以获得3d目标对应的类别。组内、组间特征融合示意图如图4所示。
[0122]
本发明将视觉分类网络模型进行优化，使得最近非常热门的视觉分类模型可以应用于多视角3d物体识别任务，解决了视觉分类模型在多视角3d物体识别任务方面的空白，也解决了目前基于深度学习的多视角3d物体识别方法的主干网络全部是cnn的问题，开拓了多视角3d物体识别任务的解决思路和手段。
[0123]
另外，改进了视图区分度得分的计算方法解决了之前的方法在出现无定义点时程序报错的问题，对多视图进行了更好的分组。提出的基于自然指数e的特征融合方式使得更有区分度的视图在多视图中作用更大，提升了利用分组方式的多视角3d物体识别方法的准确性。
[0124]
实施例2：
[0125]
一种多视角3d物体识别系统，如图2所示，包括视图获取模块100、选择确定模块200、模型优化模块300及分析分类模块400；
[0126]
所述视图获取模块100，用于获取待识别3d物体的多角度视图；
[0127]
所述选择确定模块200，用于选择并确定初始视觉分类网络模型；
[0128]
所述模型优化模块300，用于对初始视觉分类网络模型进行特征提取，将源自于同一3d物体多角度视图的特征转换为3d形状描述符，并融合至初始视觉分类网络模型的倒数第二层与倒数第三层之间，得到优化视觉分类网络模型；
[0129]
所述分析分类模块400，用于将待识别3d物体的多角度视图进行分析得到待识别3d形状描述符，并输入至优化视觉分类网络模型中，得到待识别3d物体对应的分类结果。
[0130]
在一个实施例中，所述优化模块300被设置为：
[0131]
从初始视觉分类网络模型的倒数第二层取出原始视图描述符，经过计算得到相应的范数；
[0132]
将范数进行处理并取sigmoid值，得到对应的视图区分度得分；
[0133]
基于视图区分度得分对倒数第三层输出的视图描述符进行分组，形成不同的组别；
[0134]
基于视图区分度得分及组别得到每个组别的权重；
[0135]
对同一组内每张视图的特征通过视图级权重进行加权，得到融合后的组级描述符；
[0136]
对每组的组级描述符应用组级权重进行加权，得到融合后的3d形状描述符；
[0137]
所述区分度得分通过以下公式获得：
[0138][0139]
其中，ξ(ii)表示区分度得分，表示从视觉分类网络模型的倒数第二层取出视图ii的特征，l2表示范数；
[0140]
所述视图级权重为视图特征的自然指数相对于组内所有视图特征的自然指数之和的比值，通过以下公式获得：
[0141][0142]
其中，表示从视觉分类网络模型的倒数第二层取出视图ii的特征，n表示组内的视图数；所述组级描述符d(gj)通过以下公式获得：
[0143][0144]
其中，表示视图级权重，表示从视觉分类网络模型的倒数第二层取出视图ii的特征；
[0145]
所述组级权重为所述组级描述符的自然指数相对于所有组级描述符的自然指数之和的比值，通过以下公式获得：
[0146][0147]
其中，表示组级权重，m是分组数，d(gj)表示组级描述符；
[0148]
所述3d形状描述符通过以下公式获得：
[0149][0150]
其中，d(gj)表示组级描述符，表示组级权重。
[0151]
实施例3：
[0152]
一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现如下的方法步骤：
[0153]
获取待识别3d物体的多角度视图；
[0154]
选择并确定初始视觉分类网络模型；
[0155]
对初始视觉分类网络模型进行特征提取，将源自于同一3d物体多角度视图的特征转换为3d形状描述符，并融合至初始视觉分类网络模型的倒数第二层与倒数第三层之间，得到优化视觉分类网络模型；
[0156]
将待识别3d物体的多角度视图进行分析得到待识别3d形状描述符，并输入至优化视觉分类网络模型中，得到待识别3d物体对应的分类结果。
[0157]
本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。
[0158]
本领域内的技术人员应明白，本发明的实施例可提供为方法、装置、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd-rom、光学存储器等)上实施的计算机程序产品的形式。
[0159]
本发明是参照根据本发明的方法、终端设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
[0160]
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
[0161]
这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上，使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
[0162]
需要说明的是：
[0163]
说明书中提到的“一个实施例”或“实施例”意指结合实施例描述的特定特征、结构或特性包括在本发明的至少一个实施例中。因此，说明书通篇各个地方出现的短语“一个实施例”或“实施例”并不一定均指同一个实施例。
[0164]
此外，需要说明的是，本说明书中所描述的具体实施例，其程序中的功能函数表现形式、所取名称等可以不同。凡依本发明专利构思所述的构造、特征及原理所做的等效或简单变化，均包括于本发明专利的保护范围内。本发明所属技术领域的技术人员可以对所描
述的具体实施例做各种各样的修改或补充或采用类似的方式替代，只要不偏离本发明的结构或者超越本权利要求书所定义的范围，均应属于本发明的保护范围。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

多视角3D物体识别方法、系统、装置及可读存储介质与流程

相关文献

最热文献