基于多尺度特征的跨模态目标检测方法及系统与流程

2022-07-13 16:43:02 来源：中国专利 TAG：

1.本发明涉及目标检测技术领域，特别是涉及基于多尺度特征的跨模态目标检测方法及系统。

背景技术：

2.本部分的陈述仅仅是提到了与本发明相关的背景技术，并不必然构成现有技术。
3.一般的目标检测技术是在给定一幅图像中寻找出所有预先定义类别的目标，并给出对应目标的坐标。随着深度学习技术的逐渐推广应用，在某些场景中算法需要能够感知未知类别或根据模糊的属性描述来定位目标的位置(例如，在一幅监控视频中找到一个穿棕色衬衫的男子)。目前的跨模态目标检测任务主要分为单阶段和两阶段算法，对于两阶段算法，给定输入图像，第一步是使用在大型数据集上预训练过的目标检测网络生成候选区域。第二步是根据有关图像的语言查询对候选区域进行排名。两阶段方法的性能在很大程度上取决于第一阶段的结果，如果第一阶段的候选区域不包含目标，那么在第二阶段捕获相应的目标就会很困难。此外，区域提议模块带来了巨大的计算成本，因此这些方法很难在实际系统中使用。基于单阶段的方法通过融合图像-文本特征直接预测出目标的边界框。由于框架的简单性且没有区域提议模块，单阶段方法可以实现更快的推理速度和更高的准确度。
4.现有的跨模态目标检测算法在感知长自然语句问询和多尺度目标的能力上存在着不足,限制模型性能的进一步提升。大多数方法的自然语言编码模块，把文本编码成单一的自然语言向量，在应对长自然语言编码任务时容易导致某些语言细节的缺失。大多数方法往往在单一尺度上执行目标检测任务，当目标有较大形变的时候容易造成目标和文本的误匹配。

技术实现要素：

5.为了解决现有技术的不足，本发明提供了基于多尺度特征的跨模态目标检测方法及系统；针对“跨模态目标检测”任务，通过在多个尺度的视觉特征上融合文本特征进行目标检测，提升了算法对于目标实体的感知能力，从而进一步提升模型在“跨模态目标检索”任务中的效果。
6.第一方面，本发明提供了基于多尺度特征的跨模态目标检测方法；
7.基于多尺度特征的跨模态目标检测方法，包括：
8.获取待目标检测的图像和待检测目标的文本描述；
9.将待目标检测的图像和待检测目标的文本描述，输入到训练后的跨模态目标检测模型；输出目标检测结果；其中，所述跨模态目标检测模型，通过在多个尺度的视觉特征上融合文本特征进行目标检测，以提升对目标实体的感知能力。
10.第二方面，本发明提供了基于多尺度特征的跨模态目标检测系统；
11.基于多尺度特征的跨模态目标检测系统，包括：
12.获取模块，其被配置为：获取待目标检测的图像和待检测目标的文本描述；
13.检测模块，其被配置为：将待目标检测的图像和待检测目标的文本描述，输入到训练后的跨模态目标检测模型；输出目标检测结果；其中，所述跨模态目标检测模型，通过在多个尺度的视觉特征上融合文本特征进行目标检测，以提升对目标实体的感知能力。
14.第三方面，本发明还提供了一种电子设备，包括：
15.存储器，用于非暂时性存储计算机可读指令；以及
16.处理器，用于运行所述计算机可读指令，
17.其中，所述计算机可读指令被所述处理器运行时，执行上述第一方面所述的方法。
18.第四方面，本发明还提供了一种存储介质，非暂时性地存储计算机可读指令，其中，当所述非暂时性计算机可读指令由计算机执行时，执行第一方面所述方法的指令。
19.第五方面，本发明还提供了一种计算机程序产品，包括计算机程序，所述计算机程序当在一个或多个处理器上运行的时候用于实现上述第一方面所述的方法。
20.与现有技术相比，本发明的有益效果是：
21.本提案基于训练后的跨模态目标检测模型，在对自然语言进行细粒度建模的基础上，在多个图片-文本特征上执行检测任务，有效提高了对目标的感知能力。
附图说明
22.构成本发明的一部分的说明书附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。
23.图1为实施例一的基于多尺度特征的跨模态目标检测方法流程图。
具体实施方式
24.应该指出，以下详细说明都是示例性的，旨在对本发明提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本发明所属技术领域的普通技术人员通常理解的相同含义。
25.需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本发明的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
26.在不冲突的情况下，本发明中的实施例及实施例中的特征可以相互组合。
27.本实施例所有数据的获取都在符合法律法规和用户同意的基础上，对数据的合法应用。
28.实施例一
29.本实施例提供了基于多尺度特征的跨模态目标检测方法；
30.如图1所示，基于多尺度特征的跨模态目标检测方法，包括：
31.s101：获取待目标检测的图像和待检测目标的文本描述；
32.s102：将待目标检测的图像和待检测目标的文本描述，输入到训练后的跨模态目
标检测模型；输出目标检测结果；其中，所述跨模态目标检测模型，通过在多个尺度的视觉特征上融合文本特征进行目标检测，以提升对目标实体的感知能力。
33.进一步地，所述跨模态目标检测模型，包括：
34.特征编码模块，用于对输入的待目标检测的图像进行特征提取，提取出第一、第二和第三尺度的特征图；
35.特征拉平模块，用于对第一、第二和第三尺度的特征图分别进行拉平处理；
36.空间位置添加模块，用于向拉平处理后的第一、第二和第三尺度的特征图添加空间位置信息，分别得到添加空间位置信息的第一、第二和第三尺度特征；
37.拼接模块，用于将添加空间位置信息的第一尺度特征与添加空间位置信息的第三尺度特征进行序列拼接，得到第一尺度特征和第三尺度特征拼接后的特征；
38.transformer decoder模块，用于将添加空间位置信息的第二尺度特征作为transformer decoder的query，把第一尺度特征和第三尺度特征拼接后的特征作为transformer decoder的key和value，transformer decoder输出融合多尺度信息的视觉特征序列；
39.特征融合模块，用于将文本特征与融合多尺度信息的视觉特征序列进行拼接融合，得到视觉文本特征序列；
40.目标检测模块，用于根据视觉文本特征序列得到目标检测框。
41.进一步地，所述特征编码模块，采用dartnet-53作为特征提取网络。
42.进一步地，所述第一尺度为待目标检测的图像尺寸的1/8，第二尺度为待目标检测的图像尺寸的1/16，第三尺度为待目标检测的图像尺寸的1/32。
43.假设图像的尺寸为224*224，那么1/8代表的尺寸为28*28，1/16代表的尺寸为14*14，1/32代表的尺寸为7*7。
44.示例性地，所述特征拉平模块，用于对第一、第二和第三尺度的特征图进行拉平处理；将第一、第二和第三尺度的特征图在空间维度进行flatten展开得到三个一维特征序列。
45.其中，第一尺度特征图的尺寸为28*28*c2，经过flatten操作，特征图变成784*c2的一维序列；第二尺度特征图的尺寸为14*14*c1，经过flatten操作，特征图变成196*c1的一维序列；第三尺度特征图的尺寸为7*7*c3，经过flatten操作，特征图变成49*c3的一维序列,然后这三个尺度的特征通过线性层统一特征维度为中间尺度的特征数c2，得到196*c2，784*c2，49*c2三个特征序列。
46.进一步地，所述空间位置信息，设定为随机初始化的参数，由transformer网络自适应的学习得到。
47.进一步地，所述目标检测模块，用于根据视觉文本特征序列得到目标检测框；具体工作过程包括：
48.将视觉文本特征序列调整为2d特征图；
49.在每个2d特征图的方格中，分配9个锚框；
50.在锚框的基础上，回归自然语言所描述的目标的位置和是否包含目标的置信度；
51.以置信度最大的预测框为目标检测框。
52.进一步地，所述文本特征，是采用预训练的bert模型对输入的文本进行特征提取
得到的。
53.进一步地，所述bert模型，采用transformer的编码器建立。
54.进一步地，所述训练后的跨模态目标检测模型；具体训练过程包括：
55.构建训练集；其中，所述训练集为已知目标检测结果标签的图像；
56.将训练集输入到跨模态目标检测模型中，对跨模态目标检测模型进行训练，当损失函数值不再下降时，停止训练，得到训练后的跨模态目标检测模型。
57.实施例二
58.本实施例提供了基于多尺度特征的跨模态目标检测系统；
59.基于多尺度特征的跨模态目标检测系统，包括：
60.获取模块，其被配置为：获取待目标检测的图像和待检测目标的文本描述；
61.检测模块，其被配置为：将待目标检测的图像和待检测目标的文本描述，输入到训练后的跨模态目标检测模型；输出目标检测结果；其中，所述跨模态目标检测模型，通过在多个尺度的视觉特征上融合文本特征进行目标检测，以提升对目标实体的感知能力。
62.此处需要说明的是，上述获取模块和检测模块对应于实施例一中的步骤s101至s102，上述模块与对应的步骤所实现的示例和应用场景相同，但不限于上述实施例一所公开的内容。需要说明的是，上述模块作为系统的一部分可以在诸如一组计算机可执行指令的计算机系统中执行。
63.上述实施例中对各个实施例的描述各有侧重，某个实施例中没有详述的部分可以参见其他实施例的相关描述。
64.所提出的系统，可以通过其他的方式实现。例如以上所描述的系统实施例仅仅是示意性的，例如上述模块的划分，仅仅为一种逻辑功能划分，实际实现时，可以有另外的划分方式，例如多个模块可以结合或者可以集成到另外一个系统，或一些特征可以忽略，或不执行。
65.实施例三
66.本实施例还提供了一种电子设备，包括：一个或多个处理器、一个或多个存储器、以及一个或多个计算机程序；其中，处理器与存储器连接，上述一个或多个计算机程序被存储在存储器中，当电子设备运行时，该处理器执行该存储器存储的一个或多个计算机程序，以使电子设备执行上述实施例一所述的方法。
67.应理解，本实施例中，处理器可以是中央处理单元cpu，处理器还可以是其他通用处理器、数字信号处理器dsp、专用集成电路asic，现成可编程门阵列fpga或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
68.存储器可以包括只读存储器和随机存取存储器，并向处理器提供指令和数据、存储器的一部分还可以包括非易失性随机存储器。例如，存储器还可以存储设备类型的信息。
69.在实现过程中，上述方法的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。
70.实施例一中的方法可以直接体现为硬件处理器执行完成，或者用处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器、闪存、只读存储器、可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于
存储器，处理器读取存储器中的信息，结合其硬件完成上述方法的步骤。为避免重复，这里不再详细描述。
71.本领域普通技术人员可以意识到，结合本实施例描述的各示例的单元及算法步骤，能够以电子硬件或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。
72.实施例四
73.本实施例还提供了一种计算机可读存储介质，用于存储计算机指令，所述计算机指令被处理器执行时，完成实施例一所述的方法。
74.以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：基于稀疏化自注意力机制的微表情识别方法及系统

基于多尺度特征的跨模态目标检测方法及系统与流程

相关文献

最热文献