目标检测模型的训练方法、目标检测的方法及相关产品与流程

2022-11-23 12:46:21 来源：中国专利 TAG：

1.本技术一般涉及图像处理技术领域。更具体地，本技术涉及一种目标检测模型的训练方法、目标检测的方法、设备及计算机可读存储介质。

背景技术：

2.随着人工智能技术的不断发展，目标检测模型在图像识别中的应用已经十分广泛，例如监控场景中对于监控视频中人体或者目标物体的识别和检测、人脸识别场景中对于人脸图像中五官的识别和检测、医学图像中对于病灶的识别和检测、显微图像中对于感兴趣细胞或者微生物的识别和检测等。
3.对于目前常用的目标检测模型，虽然不同的模型检测框架可能具有不同的金标准框（或称真实框）与锚（或检测框）之间的匹配原则，但是这些匹配原则通常有一个共同点，即只会将金标准框附近的锚和该金标准框进行匹配，对于那些并不在任何金标准框附近的锚，则会被匹配为背景。
4.由于这些被匹配为背景的锚对应的目标无法被输入到目标检测模型的检测框分类分支中进行学习，使得目标检测模型的检测框分类分支只能学习到感兴趣类别的检测框的样子，而学不到可能存在的与感兴趣类别类似但却属于背景的目标的样子。从分类学习的角度而言，检测框分类分支只见过“什么是正样本”，从未见过“什么不是正样本”，这是不利于模型学习的。
5.有鉴于此，亟需提供一种更有利于模型学习的训练方式。

技术实现要素：

6.为了至少解决如上所提到的一个或多个技术问题，本技术在多个方面中提出了一种目标检测模型的训练方法、目标检测的方法、设备及计算机可读存储介质。
7.在第一方面中，本技术提供一种目标检测模型的训练方法，所述目标检测模型包括主干网络和与主干网络连接的第一检测框分类分支，所述第一检测框分类分支包括至少一个检测类别输出和至少一个假阳类别输出；所述训练方法包括：获取包含第一标注和第二标注的样本训练集，其中所述样本训练集包括至少一张样本图像，所述第一标注用于标识样本图像中的检测类别目标，所述第二标注用于标识样本图像中的假阳类别目标；以及使用所述样本训练集对所述目标检测模型进行训练。
8.在一些实施例中，在使用所述样本训练集对所述目标检测模型进行训练之前，所述训练方法还包括：使用带第一标注的预训练集对基础模型进行预训练，以得到预训练后的基础模型，其中所述基础模型包括主干网络和与主干网络连接的第二检测框分类分支，所述第二检测框分类分支包括至少一个检测类别输出。
9.在另一些实施例中，所述训练方法还包括：在预训练后的基础模型的所述第二检测框分类分支中增加至少一个假阳类别输出，以形成包括所述第一检测框分类分支的所述目标检测模型。
10.在又一些实施例中，在获取所述样本训练集之前，所述训练方法还包括：基于所述预训练集，生成包含第一标注和第二标注的样本训练集。
11.在一些实施例中，生成样本训练集包括：使用预训练后的基础模型对所述预训练集中的样本图像进行目标检测，以得到多个检测结果；将所述多个检测结果与所述第一标注进行比较，以在所述多个检测结果中确定在预训练集中对应背景的假阳类别目标；以及根据假阳类别目标的检测框确定所述第二标注，以生成所述样本训练集。
12.在另一些实施例中，在使用所述样本训练集对目标检测模型进行训练之前，所述训练方法还包括：冻结所述目标检测模型中除所述第一检测框分类分支以外的其他网络结构中的权重参数。
13.在又一些实施例中，所述目标检测模型还包括与所述主干网络分别连接的前景背景分类分支和检测框位置回归分支；冻结权重参数包括：冻结所述主干网络、所述前景背景分类分支和所述检测框位置回归分支中的权重参数。
14.在一些实施例中，所述检测类别输出的数量与所述假阳类别输出的数量相等，并一一对应。
15.在另一些实施例中，根据在所述多个检测结果中确定的假阳类别目标的类别数量，确定假阳类别输出的数量。
16.在又一些实施例中，所述样本图像包括医学样本图像。
17.在第二方面中，本技术提供一种基于图像进行目标检测的方法，包括：将待检测图像输入至根据本技术的第一方面中任一所述的训练方法训练后的目标检测模型中；以及使用所述目标检测模型对所述待检测图像进行目标检测并输出检测结果。
18.在第三方面中，本技术提供一种用于目标检测的设备，包括：处理器，其用于执行程序指令；以及存储器，其存储有所述程序指令，当所述程序指令由所述处理器加载并执行时，使得所述处理器执行根据本技术的第一方面中任一所述的目标检测模型的训练方法或者执行根据本技术的第二方面中所述的基于图像进行目标检测的方法。
19.在第四方面中，本技术提供一种计算机可读存储介质，其上存储有计算机可读指令，该计算机可读指令被一个或多个处理器执行时，实现如本技术的第一方面中任意一项所述的目标检测模型的训练方法或者如本技术的第二方面中所述的基于图像进行目标检测的方法。
20.通过上述对本技术的技术方案及其多个实施例的描述，本领域技术人员可以理解本技术的方案中通过使用包含第一标注和第二标注的样本训练集对目标检测模型进行训练，以及在目标检测模型的第一检测框分类分支中设置检测类别输出和假阳类别输出，使得目标检测模型的第一检测框分类分支既可以学习到感兴趣的检测类别目标，也能够学习到与检测类别目标类似但是原属于背景的假阳类别目标，从而使得目标检测模型能够更好的学习如何区分检测类别目标和假阳类别目标，有利于提高目标检测模型对假阳类别目标的分辨识别能力以及提高对检测类别目标的检测准确性。
21.进一步，在一些实施例中，根据预训练后的基础模型和预训练集，生成包含第一标注和第二标注的样本训练集，能够在预训练集中挖掘出容易被误分为检测类别目标的假阳类别目标，从而有利于生成用于训练的样本训练集。
附图说明
22.通过参考附图阅读下文的详细描述，本技术示例性实施方式的上述以及其他目的、特征和优点将变得易于理解。在附图中，以示例性而非限制性的方式示出了本技术的若干实施方式，并且相同或对应的标号表示相同或对应的部分，其中：图1是示出根据本技术实施例的基础模型的示意性框图；图2是示出根据本技术实施例的目标检测模型的示意性框图；图3是示出根据本技术实施例的目标检测模型的训练方法流程图；图4是示出根据本技术另一个实施例的目标检测模型的训练方法流程图；图5是示出根据本技术实施例的预训练集中样本图像的示意图；图6是示出根据本技术实施例的样本训练集中样本图像的示意图；图7是示出根据本技术实施例的基于图像进行目标检测的方法流程图；以及图8是示出根据本技术实施例的用于目标检测的系统的示意框图。
具体实施方式
23.下面将结合本技术实施例中的附图，对本技术实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本技术一部分实施例，而不是全部的实施例。基于本技术中的实施例，本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本技术保护的范围。
24.应当理解，本技术的说明书和权利要求书中使用的术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在，但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。
25.还应当理解，在此本技术说明书中所使用的术语仅仅是出于描述特定实施例的目的，而并不意在限定本技术。如在本技术说明书和权利要求书中所使用的那样，除非上下文清楚地指明其它情况，否则单数形式的“一”、“一个”及“该”意在包括复数形式。还应当进一步理解，在本技术说明书和权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合，并且包括这些组合。
26.如在本说明书和权利要求书中所使用的那样，术语“如果”可以依据上下文被解释为“当... 时”或“一旦”或“响应于确定”或“响应于检测到”。类似地，短语“如果确定”或“如果检测到[所描述条件或事件]”可以依据上下文被解释为意指“一旦确定”或“响应于确定”或“一旦检测到[所描述条件或事件]”或“响应于检测到[所描述条件或事件]”。
[0027]
下面结合附图来详细描述本技术的具体实施方式。为了便于理解本技术实施例的技术方案，下面首先结合图1和图2对本技术实施例中涉及到的模型结构进行示例性的描述。
[0028]
图1是示出根据本技术实施例的基础模型的示意性框图。如图1中所示，该基础模型100可以包括主干网络110和与主干网络110连接的第二检测框分类分支120，其中第二检测框分类分支120可以包括至少一个检测类别输出121。在一些实施例中，主干网络110（或称backbone网络）可以用于对输入图像进行特征提取，可以输出基于输入图像生成的特征图和/或特征向量等。在另一些实施例中，主干网络110可以包括例如卷积神经网络等能够用于对输入图像进行特征提取的网络结构。在又一些实施例中，基础模型100可以为目前常
用的检测模型，例如可以采用yolo系列或者rcnn系列等网络模型结构，其中主干网络110可以采用例如yolo系列或者rcnn系列等网络模型中的骨干网络结构。
[0029]
第二检测框分类分支120可以用于对检测框中的目标进行分类。在一些实施例中，每个检测类别输出121可以用于输出一个检测类别的概率值。检测类别可以是感兴趣的类别或者目标类别，例如在一些应用场景中，检测任务为检测输入图像中是否有苹果和梨，则苹果和梨属于检测类别，而输入图像中的例如香蕉、石榴等其他类别物体则不属于检测类别，会在检测中被确定为背景而不被检测框标识出来。在另一些实施例中，每个检测类别输出121可以采用sigmoid归一化层来实现。
[0030]
如图1中进一步示出的，该基础模型100还可以包括分别与主干网络110连接的前景背景分类分支130和检测框位置回归分支140，其中前景背景分类分支130可以用于对主干网络110输出的特征图进行前景和背景的区分，输出的前景目标可以以检测框的形式标出；检测框位置回归分支140可以用于输出检测框的位置信息，包括例如位置坐标、偏移量、检测框尺寸等。在一些实施例中，前景背景分类分支130和检测框位置回归分支140可以采用例如yolo系列或者rcnn系列等网络模型中相应的分支网络结构。
[0031]
图2是示出根据本技术实施例的目标检测模型的示意性框图。如图2中所示，该目标检测模型200可以包括主干网络110和与主干网络110连接的第一检测框分类分支210，第一检测框分类分支210可以包括至少一个检测类别输出121和至少一个假阳类别输出211。如图2中进一步示出的，该目标检测模型200还可以包括分别与主干网络110连接的前景背景分类分支130和检测框位置回归分支140。相比于图1中所示的基础模型100，图2中所示的目标检测模型200增加了假阳类别输出211，其他网络结构类似，此处将不再赘述，下面将对假阳类别输出211进行描述。
[0032]
上文中所述的假阳类别输出211可以用于输出一个假阳类别的概率值。在一些实施例中，每个假阳类别输出211可以采用sigmoid归一化层来实现。假阳类别可以是与检测类别目标相似，而容易被误分为检测类别中的非检测目标的类别，即对应检测类别的假阳性。仍以上述检测类别包括苹果和梨为例，输入图像中的石榴可以是相对于苹果而言的非检测目标，由于石榴与苹果相似而容易被目标检测模型误分为苹果，因此可以将石榴这个类别确定为与苹果这个类别对应的假阳类别。
[0033]
在另一些实施例中，检测类别输出121的数量可以与假阳类别输出211的数量相等，并一一对应。这里的一一对应可以理解为每个假阳类别输出211与相应的一个检测类别输出121对应，即每个假阳类别输出211可以用于输出对应一个检测类别的易被误分的非检测目标的类别。在另一些实施例中，检测类别输出121的数量可以与假阳类别输出211的数量不相等，例如假阳类别输出211的数量可以根据需要设置的多于或者少于检测类别输出121的数量。
[0034]
例如，在一些应用场景中，多个检测类别中的部分检测类别存在易被误分的非检测目标，则可以仅设置与该部分检测类别对应的假阳类别输出211，而无需设置与其他检测类别对应的假阳类别输出211。在又一些应用场景中，对于某一检测类别，存在一种或多种易被误分的非检测目标，可以将这些非检测目标均归为由一个假阳类别输出211来检测，也可以根据这些非检测目标的实际类别数量，相应的设置多个假阳类别输出211对应于一个检测类别输出121。
[0035]
以上结合图1和图2对根据本技术实施例的基础模型和目标检测模型进行了示例性的描述，可以理解的是，上面的描述是示例性的而非限制性的，例如检测类别输出121的数量可以不限于图示中的三个，也可以根据需要设置的更多或者更少。还例如，假阳类别输出211的数量可以不限于图示中的三个，也可以根据需要设置的更多或者更少。在介绍了本技术实施例的基础模型和目标检测模型之后，下面将结合图3对根据本技术实施例的训练方法进行示例性的说明。
[0036]
图3是示出根据本技术实施例的目标检测模型的训练方法流程图。如图3中所示，训练方法300可以包括：在步骤310中，可以获取包含第一标注和第二标注的样本训练集，其中该样本训练集可以包括至少一张样本图像，第一标注可以用于标识样本图像中的检测类别目标，第二标注可以用于标识样本图像中的假阳类别目标。
[0037]
样本图像的内容可以根据所需应用的场景来选择。例如，在一些实施例中，样本图像可以包括医学样本图像，以用于对病灶的检测。在另一些实施例中，医学样本图像可以包括例如眼底图像、脑部图像、肺部图像等医学图像中的一种。在又一些实施例中，医学样本图像可以通过例如眼底相机、oct(optical coherence tomography)设备、核磁共振设备、电子计算机断层扫描ct设备等医疗设备采集得到。还例如，在另一些实施例中，样本图像可以包括例如人像样本图像，以用于监控领域或者人脸识别领域的检测。在又一些实施例中，样本图像可以包括文字样本图像，例如用于文字识别或者翻译领域中的文字检测。再例如，在一些实施例中，样本图像可以包括通行车辆样本图像，以用于道路监控中对车辆的检测和识别等。
[0038]
样本训练集可以包括一张或多张样本图像，其中每张样本图像中可以带有第一标注和/或第二标注。在一些实施例中，样本训练集中的每张样本图像上可以均带有第一标注和第二标注。在另一些实施例中，样本训练集中的部分样本图像上可以仅带有第一标注或者第二标注。在一些实施例中，检测类别目标可以为样本图像中属于检测类别的目标，假阳类别目标可以为样本图像中属于假阳类别的目标。在另一些实施例中，第一标注可以以检测框（或称边界框）的形式示出。在又一些实施例中，第一标注还可以包括对检测类别目标的类别标记。在一些实施例中，第二标注可以以检测框（或称边界框）的形式示出。在另一些实施例中，第二标注还可以包括对假阳类别目标的类别标记。
[0039]
在又一些实施例中，第一标注可以通过人工标注或者机器标注的方式来实现。例如，可以根据所需的检测类别对样本图像中的检测类别目标进行第一标注。在一些实施例中，第二标注可以通过机器标注的方式来实现。例如，可以通过对样本图像进行特征提取后再进行特征相似度对比，以对与检测类别目标的特征相似度超过相似度阈值的非检测目标进行第二标注。
[0040]
接着，在步骤320中，可以使用样本训练集对目标检测模型进行训练。该目标检测模型可以包括主干网络和与主干网络连接的第一检测框分类分支，第一检测框分类分支可以包括至少一个检测类别输出和至少一个假阳类别输出。目标检测模型可以采用例如图2中所示的目标检测模型200，这里将不再赘述。
[0041]
以上结合图3对根据本技术实施例的训练方法进行了示例性的说明，可以理解的是，通过使用包括第一标注和第二标注的样本训练集对目标检测模型进行训练，可以使得第二标注的假阳类别目标能够被第一检测框分类分支学习到，并分到相应的假阳类别输出
中，从而能够弥补现有检测模型的检测框分类分支无法看到现有训练集中被划分到背景中的假阳类别目标的缺陷，使得检测类别输出能够更准确的输出相应的检测类别。
[0042]
根据这样的设置，不仅有助于提高目标检测模型的分类识别能力，还能够减轻前景背景分支进行前景和背景区分时的压力，即前景背景分支可以无需再对相似目标进行区分，而将这一工作转移到第一检测框分类分支中来进行。还可以理解的是，上面的描述是示例性的而非限制性的，例如在一些实施例中，在使用样本训练集对目标检测模型进行训练之前，还可以包括预训练。下面将结合图4进行详细描述。
[0043]
图4是示出根据本技术另一个实施例的目标检测模型的训练方法流程图。通过下面的描述可知，图4中所示的训练方法400可以是前文中结合图3所描述的训练方法300的一个具体化表现形式。因此，前文中对训练方法300的描述也可以适用于下面对训练方法400的描述中。
[0044]
如图4中所示，训练方法400可以包括：在步骤410中，可以使用带第一标注的预训练集对基础模型进行预训练，以得到预训练后的基础模型，其中基础模型可以包括主干网络和与主干网络连接的第二检测框分类分支，第二检测框分类分支可以包括至少一个检测类别输出。基础模型已经在前文中结合图1进行了详细的描述，此处不再赘述。
[0045]
预训练集可以包括一张或多张样本图像，其中部分或者全部样本图像中带有第一标注。第一标注可以用于标识样本图像中的检测类别目标。第一标注的形式可以与前文中结合图3描述的第一标注相同或相似，此处不再赘述。由于该预训练集中不包括第二标注，因此预训练后的基础模型难以区分真实的检测类别目标和假阳类别目标，从而可能存在误检的问题。
[0046]
接着，在步骤420中，可以在预训练后的基础模型的第二检测框分类分支中增加至少一个假阳类别输出，以形成包括第一检测框分类分支的目标检测模型。在第二检测框分类分支中增加至少一个假阳类别输出可以形成本技术实施例的第一检测框分类分支，从而形成包括第一检测框分类分支的目标检测模型。该包括第一检测框分类分支的目标检测模型以及假阳类别输出已经在前文中结合图2进行了详细的描述，此处不再赘述。
[0047]
然后，流程可以前进到步骤430中，可以基于预训练集，生成包含第一标注和第二标注的样本训练集。在一些实施例中，可以根据预训练集中的第一标注标记的检测类别目标，通过机器在样本图像中查找到与检测类别目标相似的假阳类别目标，并对其进行第二标注。在另一些实施例中，还可以根据预训练集中的第一标注标记的检测类别目标，在预训练集中的样本图像和预训练集以外的其他样本图像中进行第二标记，然后可以将预训练集中的样本图像和预训练集以外的其他样本图像共同形成样本训练集。
[0048]
在一些实施例中，还可以根据预训练后的基础模型和预训练集，生成包含第一标注和第二标注的样本训练集。如图4中进一步示出的，步骤430可以包括图示中的步骤431-步骤433，具体地，在步骤431（虚线框示出）中，可以使用预训练后的基础模型对预训练集中的样本图像进行目标检测，以得到多个检测结果。可以将预训练集中的样本图像输入至预训练后的基础模型的主干网络中，以在基础模型的分支结构中输出针对每张样本图像的检测结果。在一些实施例中，检测结果可以包括检测框及其所属的检测类别。
[0049]
接着，在步骤432（虚线框示出）中，可以将多个检测结果与第一标注进行比较，以在多个检测结果中确定假阳类别目标。可以将每张样本图像中的检测结果与该样本图像中
的第一标注进行比较。在一些实施例中，第一标注可以被视为检测类别目标的金标准框，将多个检测结果与第一标注进行比较可以理解为将训练后的基础模型预测的多个检测框中概率值大于概率阈值的检测框结果与金标准框进行比较，以在多个检测框结果中找到与金标准框之间的交并比小于交并比阈值的检测框结果（即假阳检测框）。该假阳检测框中的目标（即假阳类别目标）被预测为属于某个检测类别，但是其实际上并不是该检测类别，且也不属于其他检测类别。在通常的训练方法中，由于该假阳检测框中的目标并不在任何金标准框的附近，因此其无法影响检测框分类分支的学习。即，该假阳类别目标在预训练集中对应背景而未被标注，并在基础模型的预训练过程中作为背景而未进入第二检测框分类分支中进行学习。
[0050]
然后，流程可以继续前进到步骤433（虚线框示出）中，可以根据假阳类别目标的检测框确定第二标注，以生成样本训练集。具体地，可以将对比产生的假阳类别目标的检测框（即假阳检测框）进行第二标注，使其成为与该假阳类别目标所属检测类别对应的假阳类别的金标准框，并用于假阳类别输出的学习。在一些实施例中，可以根据检测出的假阳类别目标所属的检测类别，构建与输出该检测类别的检测类别输出对应的假阳类别输出，该假阳类别输出对应的假阳类别为假阳类别目标所属的检测类别的假阳性。
[0051]
在另一些实施例中，可以根据在多个检测结果中确定的假阳类别目标的类别数量，确定假阳类别输出的数量。在一些实施例中，这里的类别数量可以是假阳类别目标所属的检测类别的类别数量，即可以将被分为同一检测类别的假阳类别目标确定为一个假阳类别，并根据确定的假阳类别的数量，确定假阳类别输出的数量。例如，可以设置与此假阳类别的数量相等、且一一对应的假阳类别输出。根据这样的设置，在一些应用场景中，某些检测类别输出对应的检测类别中并未检测出相应的假阳类别目标，从而可以不设置相对应的假阳类别输出，在该场景下，假阳类别输出的数量将少于检测类别输出的数量。
[0052]
进一步地，在步骤433中，基于确定的第二标注和预训练集中原本存在的第一标注，可以生成样本训练集。在一些应用场景中，在步骤410中可以使用预训练集中的全部样本图像来对基础模型进行预训练，并在步骤431中可以使用预训练后的基础模型来对预训练集中的全部样本图像进行目标检测，以得到预训练集中全部样本图像的检测结果，在此情况下，步骤433中生成的样本训练集可以包括预训练集中的全部样本图像。
[0053]
在另一些应用场景中，在步骤410中可以使用预训练集中的一部分样本图像来对基础模型进行预训练，并在步骤431中可以使用预训练后的基础模型来对预训练集中的另一部分样本图像进行目标检测，以得到预训练集中另一部分样本图像的检测结果，在此情况下，步骤433中生成的样本训练集可以包括预训练集中的另一部分样本图像。
[0054]
在又一些应用场景中，在步骤410中可以使用预训练集中的全部样本图像来对基础模型进行预训练，而在步骤431中可以使用预训练后的基础模型来对预训练集中的一部分样本图像进行目标检测，以得到预训练集中一部分样本图像的检测结果，在此情况下，步骤433中生成的样本训练集可以包括预训练集中的一部分样本图像。根据这样的设置，可以使用大数据样本进行预训练，而只需生成较少数量包括第二标注的训练数据对模型进行微调训练，有助于降低样本训练集的生成难度。
[0055]
如图4中进一步示出的，在生成了样本训练集之后，可以继续执行步骤440，获取包含第一批住和第二批注的样本训练集。然后，可以执行步骤450，可以使用样本训练集对目
标检测模型进行训练。步骤440和步骤450已经在前文中结合图3中所示的步骤310和步骤320进行了详细的描述，此处不再赘述。
[0056]
在另一些实施例中，在步骤450之前，训练方法400还可以包括：冻结目标检测模型中除第一检测框分类分支以外的其他网络结构中的权重参数。冻结权重参数可以是将其他网络结构中的权重参数固定，以避免后续操作对其他网络结构的权重参数造成改变。在一些实施例中，其他网络结构可以包括主干网络。在另一些实施例中，目标检测模型还可以包括与主干网络分别连接的前景背景分类分支和检测框位置回归分支；冻结其他网络结构中的权重参数可以包括：冻结主干网络、前景背景分类分支和检测框位置回归分支中的权重参数。
[0057]
根据这样的设置，可以在使用样本训练集对目标检测模型进行训练时，不改变预训练后确定的除第一检测框分类分支以外的其他网络结构中的权重参数，而只对第一检测框分类分支中的权重参数进行微调和更新，有利于提高模型训练的速度和效率。
[0058]
以上结合图4对根据本技术另一个实施例的训练方法进行了详细的描述，可以理解的是，图4中所示的实现方式是示例性的而非限制性地，例如步骤420可以不限于图中箭头所示的在步骤410和步骤430之间执行，其只需在步骤450之前执行即可。例如，在一些实施例中，可以先执行步骤410和步骤430，然后执行步骤420；或者先执行步骤410、步骤430和步骤440，然后再执行步骤420，以便根据第二标注的类别数量确定假阳类别输出的数量。为了更便于理解基于预训练集生成样本训练集的方法，下面将结合图5和图6进行示例性的说明。
[0059]
图5是示出根据本技术实施例的预训练集中样本图像的示意图。图6是示出根据本技术实施例的样本训练集中样本图像的示意图。如图5中所示，以预训练集中的一张第一样本图像500为例，假设字母a、b、c为三个不同的感兴趣的检测类别目标，该第一样本图像500中每个检测类别目标上均带有第一标注，例如图中所示的检测类别目标a上的第一标注501、检测类别目标b上的第一标注502和检测类别目标c上的第一标注503。在一些实施例中，第一标注501、502和503可以分别以不同的颜色表示。在第一样本图像500中还存在着非检测目标o504、非检测目标g505和非检测目标q506等，这些非检测目标不会被任何框标注。
[0060]
在使用例如前文中结合图1描述的基础模型或者其他常用的检测网络模型对第一样本图像500进行目标检测时，由于围绕着这些非检测目标504、505和506的锚不在任何金标准框附近，因此这些非检测目标504、505和506不会被匹配到任何金标准框，从而无法影响检测框分类分支的损失计算。然而，从外形特征来看，这些非检测目标o、g、q与图示中的检测类别目标a、b、c是比较相似的（例如g与a相似、o与c相似、q与b相似），容易被目标检测模型检测为属于某种检测类别，因此这些容易被误检的非检测目标属于困难假阳性样本，本文中可以称之为假阳类别目标。
[0061]
通过对例如图5中所示的假阳类别目标o、g、q进行第二标注可以形成如图6中所示的第二样本图像600，其中第二标注601（虚线框示出）用于标注假阳类别目标g，其为检测类别目标a的假阳性；第二标注602（虚线框示出）用于标注假阳类别目标q，其为检测类别目标b的假阳性；第二标注603（虚线框示出）用于标注假阳类别目标o，其为检测类别目标c的假阳性。在另一些实施例中，第二标注601、602和603可以分别以不同的颜色表示，并可以以区别于第一标注的形式示出，例如图示中的以虚线框形式示出，以区别于第一标注的实线框
的形式。
[0062]
在一些实施例中，可以使用预训练后的基础模型对预训练集中的例如图5中所示的第一样本图像500进行检测，以挖掘出假阳类别目标，从而可以基于第一样本图像500来生成第二样本图像600，进而可以根据生成的多个第二样本图像600形成包含第一标注和第二标注的样本数据集。
[0063]
上面结合多个附图描述了本技术实施例的训练方法，本技术还在另一方面中提供了基于图像进行目标检测的方法，即目标检测模型的推理方法或预测方法。下面将结合图7进行说明。
[0064]
图7是示出根据本技术实施例的基于图像进行目标检测的方法流程图。如图7中所示，方法700可以包括：在步骤710中，可以将待检测图像输入至上面结合图3-图6中任一实施例所述的训练方法训练后的目标检测模型中。接着，在步骤720中，可以使用目标检测模型对待检测图像进行目标检测并输出检测结果。
[0065]
在一些实施例中，待检测图像可以包括医学图像，将医学图像输入至根据本技术实施例的训练方法训练后的目标检测模型中，目标检测模型中的主干网络可以提取医学图像中的病灶特征，目标检测模型中的前景背景分类分支可以对包括病灶特征的特征图进行前景和背景的区分，第一检测框分类分支可以对前景中的病灶特征的检测框进行识别和分类，以确定检测框中的病灶特征是否属于检测类别输出中对应的检测类别或者属于假阳类别输出中对应的假阳类别，检测框位置回归分支可以用于输出每个检测框的位置信息。
[0066]
在另一些实施例中，待检测图像可以包括文字图像，以使用目标检测模型检测该文字图像中是否存在感兴趣的检测类别文字或者假阳类别文字，目标检测模型的检测过程与检测医学图像类似，此处不再赘述。在又一些实施例中，待检测图像还可以根据需要选择人像图像、道路监控图像、显微图像、物品图像等中的一种或多种，例如可以根据用于训练目标检测模型的样本训练集中的样本图像包含的内容进行选择。
[0067]
进一步地，由于根据本技术实施例的训练方法训练后的目标检测模型中包括假阳类别输出，因此使用该目标检测模型对待检测图像进行目标检测输出的检测结果可以包括每个检测框中的目标属于检测类别的概率值和属于假阳类别的概率值。
[0068]
本技术实施例的上述方案可以借助于程序指令来实现。由此，本技术还提供一种用于目标检测的设备，包括：处理器，其用于执行程序指令；以及存储器，其存储有程序指令，当程序指令由处理器加载并执行时，使得处理器执行前文任一实施例所述的目标检测模型的训练方法或者执行前文结合图7所描述的基于图像进行目标检测的方法。
[0069]
图8是示出根据本技术实施例的用于目标检测的系统的示意框图。该系统800可以包括根据本技术实施例的设备801以及其外围设备和外部网络，其中设备801用于对目标检测模型进行训练或者用于对待检测图像进行目标检测等操作，以实现前述结合图1-图7任一所述的本技术实施例的技术方案。
[0070]
如图8中所示，设备801可以包括cpu 8011，其可以是通用cpu、专用cpu或者其他信息处理以及程序运行的执行单元。进一步，设备801还可以包括大容量存储器8012和只读存储器rom 8013，其中大容量存储器8012可以配置用于存储各类数据，包括预训练集、样本训练集、权重参数和检测结果等以及运行神经网络所需要的各种程序，rom 8013可以配置成存储对于设备801的加电自检、系统中各功能模块的初始化、系统的基本输入/输出的驱动
程序及引导操作系统所需的数据。
[0071]
进一步，设备801还包括其他的硬件平台或组件，例如示出的tpu 8014、gpu 8015、fpga 8016和mlu 8017。可以理解的是，尽管在设备801中示出了多种硬件平台或组件，但这里仅仅是示例性的而非限制性的，本领域技术人员可以根据实际需要增加或移除相应的硬件。例如，设备801可以仅包括cpu作为公知硬件平台和另一硬件平台作为本发明的测试硬件平台。
[0072]
本技术的设备801还包括通信接口8018，从而可以通过该通信接口8018连接到局域网/无线局域网（lan/wlan）805，进而可以通过lan/wlan连接到本地服务器806或连接到因特网（“internet”）807。替代地或附加地，本技术的设备801还可以通过通信接口8018基于无线通信技术直接连接到因特网或蜂窝网络，例如基于第三代（“3g”）、第四代（“4g”）或第5代（“5g”）的无线通信技术。在一些应用场景中，本技术的设备801还可以根据需要访问外部网络的服务器808以及可能的数据库809，以便获得各种已知的神经网络模型、数据和模块，并且可以远程地存储测量的各种数据。
[0073]
设备801的外围设备可以包括显示装置802、输入装置803以及数据传输接口804。在一个实施例中，显示装置802可以例如包括一个或多个扬声器和/或一个或多个视觉显示器，其配置用于对本技术设备的运算过程或者检测结果进行语音提示和/或图像视频显示。输入装置803可以包括例如键盘、鼠标、麦克风、姿势捕捉相机，或其他输入按钮或控件，其配置用于接收训练数据的输入或用户指令。数据传输接口804可以包括例如串行接口、并行接口或通用串行总线接口（“usb”）、小型计算机系统接口（“scsi”）、串行ata、火线（“firewire”）、pci express和高清多媒体接口（“hdmi”）等，其配置用于与其他设备或系统的数据传输和交互。根据本技术的方案，该数据传输接口804可以接收用于预训练的预训练集的预训练数据或者用于训练的样本训练集的训练数据，并且向设备801传送各种类型的数据和结果。
[0074]
本技术的设备801的上述cpu 8011、大容量存储器8012、只读存储器rom 8013、tpu 8014、gpu 8015、fpga 8016、mlu 8017和通信接口8018可以通过总线8019相互连接，并且通过该总线与外围设备实现数据交互。在一个实施例中，通过该总线8019，cpu 8011可以控制设备801中的其他硬件组件及其外围设备。
[0075]
在工作中，本技术的设备801的处理器cpu 8011可以通过输入装置803或数据传输接口804接收训练数据或者待检测图像，并调取存储于存储器8012中的计算机程序指令或代码（例如涉及神经网络的代码）对接收到的训练数据进行训练或者对待检测图像进行检测，以得到训练后的目标检测模型的权重参数或者检测结果。在cpu 8011通过执行程序指令确定了检测结果后，可以在显示装置802上显示或者通过语音提示的方式输出检测结果。另外，设备801还可以通过通信接口8018将检测结果上传至网络，例如远程的数据库809。
[0076]
还应当理解，本技术示例的执行指令的任何模块、单元、组件、服务器、计算机、终端或设备可以包括或以其他方式访问计算机可读介质，诸如存储介质、计算机存储介质或数据存储设备（可移除的）和/或不可移动的）例如磁盘、光盘或磁带。计算机存储介质可以包括以用于存储信息的任何方法或技术实现的易失性和非易失性，可移动和不可移动介质，例如计算机可读指令、数据结构、程序模块或其他数据。
[0077]
基于上文，本技术还提供一种计算机可读存储介质，其上存储有计算机可读指令，
该计算机可读指令被一个或多个处理器执行时，实现如前文结合图3-图6中任一实施例所述的目标检测模型的训练方法或者如前文结合图7所述的基于图像进行目标检测的方法。
[0078]
计算机可读存储介质可以是任何适当的磁存储介质或者磁光存储介质，比如，阻变式存储器rram（resistive random access memory）、动态随机存取存储器dram（dynamic random access memory）、静态随机存取存储器sram（static random-access memory）、增强动态随机存取存储器edram（enhanced dynamic random access memory）、高带宽内存hbm（high-bandwidth memory）、混合存储立方hmc（hybrid memory cube）等等，或者可以用于存储所需信息并且可以由应用程序、模块或两者访问的任何其他介质。任何这样的计算机存储介质可以是设备的一部分或可访问或可连接到设备。本发明描述的任何应用或模块可以使用可以由这样的计算机可读介质存储或以其他方式保持的计算机可读/可执行指令来实现。
[0079]
通过上面对本技术的目标检测模型的训练方法以及多个实施例的描述，本领域技术人员可以理解的是，本技术的训练方法通过使用包括第一标注和第二标注的样本训练集，以及在目标检测模型中设置假阳类别输出，能够利用样本图像中的第二标注，使得第一检测框分类分支学习到以往被划到背景中的假阳类别目标的样子，增加了第一检测框分类分支的学习资料的丰富性，帮助第一检测框分类分支更好的学习和区分检测类别和假阳类别，从而有利于提高目标检测模型的分类识别能力。
[0080]
在一些实施例中，根据本技术实施例的目标检测模型仅需要在基础模型上增加输出节点数，以用于输出假阳类别的检测结果，操作简单且容易实现，从而可以被灵活的应用于所有带有检测框分类分支的检测模型中，特别适用于带有三分支的模型框架（例如图1中所示的基础模型结构）中。
[0081]
在另一些实施例中，通过使用预训练后的基础模型检测带有第一标注的预训练集，并将检测结果与第一标注进行对比，可以挖掘出对于基础模型而言较难识别的困难假阳性样本，使其能够更好的指导目标检测模型的训练，还能够有利于提高获取样本训练集的效率和可靠性。该挖掘困难假阳性样本的方法可以巧妙且充分地利用较容易获得的带有第一标注的预训练集，降低了生成样本训练集的难度，还可以降低前景背景分类分支进行前景和背景分类时的困难和压力。
[0082]
虽然本文已经示出和描述了本技术的多个实施例，但对于本领域技术人员显而易见的是，这样的实施例只是以示例的方式来提供。本领域技术人员可以在不偏离本技术思想和精神的情况下想到许多更改、改变和替代的方式。应当理解的是在实践本技术的过程中，可以采用对本文所描述的本技术实施例的各种替代方案。所附权利要求书旨在限定本技术的保护范围，并因此覆盖这些权利要求范围内的等同或替代方案。

再多了解一些

1/2 1 2 下一页尾页

本文用于创业者技术爱好者查询，仅供学习研究，如用于商业用途，请联系技术所有人。

上一篇：返回列表
下一篇：一种基于超声波技术的车位识别仿真方法与流程

目标检测模型的训练方法、目标检测的方法及相关产品与流程

相关文献

最热文献