一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

目标属性识别方法、装置、计算机设备及存储介质与流程

2022-05-26 23:24:34 来源:中国专利 TAG:


1.本发明涉及计算机视觉技术领域,更为具体地,本发明能够提供一种目标属性识别方法、装置、计算机设备及存储介质。


背景技术:

2.随着人工智能技术的发展,计算机视觉技术得到了快速发展,特别是人体属性识别技术。在实际应用中,由于人体图背景的干扰,经常会导致一些人体属性识别结果出现明显错误;例如图像中人体背后存在有绿叶的树,常规技术在识别衣服颜色属性时,常常会受图像背景的影响而将衣服颜色识别为绿色。为克服该问题,有人提出通过增加标注样本数量的方式提高人体属性识别网络模型识别精度,但是大量的标注样本导致投入成本过高;也有人提出增加更多的原始图像预处理过程,虽然有助于提高人体属性识别结果,但是会导致人体属性识别过程耗时非常严重。因此,如何在避免增加标注样本或增加图像预处理过程的前提下提升人体属性识别效果,成为本领域技术人员亟待解决的技术问题和始终研究的重点。


技术实现要素:

3.为解决传统人体属性识别方案存在耗时长或样本量过大导致成本高的问题,本发明一个或多个实施例能够提供一种目标属性识别方法、装置、计算机设备及存储介质,以兼顾目标属性识别方案对时间和成本的要求。
4.为实现上述技术目的,本发明提供了一种目标属性识别方法,该方法包括但不限于如下的一个或多个步骤。
5.读取第一目标原始图像、第一目标九通道图像以及第一标签;其中,所述第一目标九通道图像基于所述第一目标原始图像生成。
6.通过九通道教师网络处理所述第一目标九通道图像,以得到第一预测结果;通过三通道教师网络处理所述第一目标原始图像,以得到第二预测结果;通过三通道学生网络处理所述第一目标原始图像,以得到第三预测结果;其中,所述九通道教师网络和所述三通道教师网络均为训练完成的网络,所述三通道学生网络为待训练的网络。
7.基于所述第一预测结果、所述第二预测结果、所述第三预测结果以及所述第一标签生成总损失结果。
8.根据所述总损失结果确定所述三通道学生网络是否已训练完成,在未训练完成情况下更新所述三通道学生网络的参数和返回图像处理的步骤进行迭代训练,直至所述三通道学生网络训练完成。
9.利用训练完成的三通道学生网络处理第二目标原始图像,以得到第二目标原始图像的目标属性识别结果。
10.为实现上述技术目的,本发明还能够提供一种目标属性识别装置,该装置包括但不限于目标图像读取模块、目标图像处理模块、网络损失生成模块、迭代训练判断模块以及
目标属性识别模块。
11.目标图像读取模块,用于读取第一目标原始图像、第一目标九通道图像以及第一标签;其中,所述第一目标九通道图像基于所述第一目标原始图像生成。
12.目标图像处理模块,用于通过九通道教师网络处理所述第一目标九通道图像,以得到第一预测结果;用于通过三通道教师网络处理所述第一目标原始图像,以得到第二预测结果;用于通过三通道学生网络处理所述第一目标原始图像,以得到第三预测结果;其中,所述九通道教师网络和所述三通道教师网络均为训练完成的网络,所述三通道学生网络为待训练的网络。
13.网络损失生成模块,用于基于所述第一预测结果、所述第二预测结果、所述第三预测结果以及所述第一标签生成总损失结果。
14.迭代训练判断模块,用于根据所述总损失结果确定所述三通道学生网络是否已训练完成,用于在未训练完成情况下更新三通道学生网络的参数和返回图像处理的步骤进行迭代训练,直至所述三通道学生网络训练完成。
15.目标属性识别模块,用于利用训练完成的三通道学生网络处理第二目标原始图像,以得到第二目标原始图像的目标属性识别结果。
16.为实现上述的技术目的,本发明还能够提供一种计算机设备,计算机设备可包括存储器和处理器,所述存储器中存储有计算机可读指令,所述计算机可读指令被所述处理器执行时,使得所述处理器执行本发明任一实施例中所述目标属性识别方法的步骤。
17.为实现上述技术目的,本发明还能够提供一种存储有计算机可读指令的存储介质,所述计算机可读指令被一个或多个处理器执行时,使得所述一个或多个处理器执行本发明任一实施例中的所述目标属性识别方法的步骤。
18.为实现上述的技术目的,本发明还能够提供一种计算机程序产品,当所述计算机程序产品中的指令由处理器执行时,执行本发明任一实施例中所述目标属性识别方法的步骤。
19.本发明的有益效果为:本发明基于九通道教师网络和三通道教师网络对三通道学生网络进行训练,训练过程不需要增加训练数据,标注成本不会增加;本发明利用已训练的三通道学生网络直接对目标原始图像进行识别,识别速度非常快,所以本发明能够有效地兼顾目标属性识别过程对时间和成本的要求。由此可见,本发明提供了一种基于集成蒸馏的目标属性识别方法,不仅降低了背景对目标属性识别的影响,实现在不增加标注样本的基础上提升目标属性识别精度,而且图像预处理复杂度不会增加,以保持网络模型部署难度不变,保证目标属性的快速识别。
附图说明
20.图1示出了本发明一个或多个实施例中的目标属性识别方法的流程示意图。
21.图2示出了本发明一个或多个实施例中利用已训练的九通道教师网络和三通道教师网络对三通道学生网络进行集成蒸馏训练的流程示意图。
22.图3示出了本发明一个或多个实施例中的九通道教师网络训练流程示意图。
23.图4示出了本发明一个或多个实施例中基于三通道图像形成九通道图像的流程示意图。
24.图5示出了本发明一个或多个实施例中的三通道教师网络训练流程示意图。
25.图6示出了本发明一个或多个实施例中的目标属性识别装置的结构组成示意图。
26.图7示出了本发明一个或多个实施例中的计算机设备内部结构组成示意图。
具体实施方式
27.下面结合说明书附图对本发明所提供一种目标属性识别方法、装置、计算机设备及存储介质的进行详细的解释和说明。
28.如图1所示,并可结合图2,本发明一个或多个实施例能够提供一种目标属性识别方法。该目标属性识别方法可包括但不限于如下的至少一个步骤,具体说明如下。
29.步骤100,读取第一目标原始图像、第一目标九通道图像以及第一标签;其中,第一目标九通道图像基于第一目标原始图像生成。应当理解的是,本发明涉及的第一目标包括但不限于人体、车辆或动物。本发明第一目标可以是人体,目标属性包括但不限于衣服颜色、衣服类型、是否提包、年龄、性别等人体属性。
30.如图2所示,以人体属性识别为例,本发明实施例中的第一目标原始图像可为人体原始图像(即人体原图),第一目标九通道图像可为人体九通道图像(即九通道图),第一标签例如可以为机器学习领域中的硬标签。
31.步骤200,通过九通道教师网络处理第一目标九通道图像,以得到第一预测结果;通过三通道教师网络处理第一目标原始图像,以得到第二预测结果;通过三通道学生网络处理第一目标原始图像,以得到第三预测结果;其中,九通道教师网络和三通道教师网络均为训练完成的网络,三通道学生网络为待训练的网络。可理解的是,本发明涉及的九通道教师网络、三通道教师网络及三通道学生网络均为网络模型,例如可包括但不限于resnet或mobilenet等。
32.本发明实施例通过九通道教师网络处理第一目标九通道图像得到的第一预测结果的准确率高于通过三通道教师网络处理第一目标原始图像得到的第二预测结果,在此基础上,本发明实现利用九通道教师网络有效提高了三通道学生网络的预测性能,而且经过实验表明九通道教师网络与三通道教师网络的结合使得预测结果更准,九通道教师网络与三通道教师网络的结合相比于九通道教师网络性能提升2%左右,以使得训练完成的三通道学生网络具有更高的目标属性识别精度,从而更好地区分目标属性与背景的区别,例如区分出人体衣服颜色属性与背景颜色。
33.如图3所示,对于人体属性识别的场景,本发明训练九通道教师网络(模型)的整个流程可包括但不限于如下的步骤。
34.首先,对人体原始图像(人体原图)进行分割处理,得到人体掩膜图。本实施例可选取实现人体图像分割功能的分割模型实现,以能够实现人体部位分割的目的为准。分割模型的输入为人体原图三通道rgb图,可记为image
ori
,人体分割处理后得到的输出为人体掩膜图,在人体掩膜图中,背景区域可用纯黑色(rgb值分别为255、255、255)表示,人体各部位可用不同颜色表示,可记为image
mask

35.其次,通过人体掩膜图和人体原始图像形成人体分割图,对人体原始图像、人体掩膜图以及人体分割图按通道方向进行拼接处理,以得到人体九通道图像。本实施例具体可使用人体原始图像image
ori
和人体掩膜图image
mask
进行逐元素相乘之后得到人体分割图
image
seg
;该人体分割图中人体区域像素值等于人体原始图像的像素值,其背景区域的像素值为0,具体计算方式如下。
36.image
seg
=image
ori
*sign(image
mask
)
37.其中,*表示逐元素相乘,sign()函数表示如果该位置上的颜色为纯黑色,则将该位置上的各通道的值置为(0,0,0),如果该位置上的颜色不是纯黑色则置为(1,1,1)。
38.例如,对于图像中位置[16,64]的颜色为绿色,rgb值为(0,255,0),则sign(image
mask
[16,64])等于(1,1,1)。
[0039]
如图4所示,人体原始图像、人体掩膜图以及人体分割图均为三通道图像,按通道方向进行拼接处理后生成人体九通道图像(九通道人体图)。可理解的是,本实施例人体九通道图不仅保持了衣服属性,还可保持年龄、性别、提包等属性,人体九通道图像效果相比于人体六通道图像(例如,原始图 分割图或原始图 掩膜图)更好,特别在衣服等属性上的效果提升明显。
[0040]
最后,利用人体九通道图像和人体属性标签对待训练的网络模型进行训练,以得到九通道教师网络。将人体九通道图像和人体属性标签输入至网络进行训练,该训练过程可以是没有软注意力机制的,或者可以是有软注意力机制的,即用于得到九通道教师网络的训练过程可与软注意力机制结合。其中,本发明待训练的网络模型例如可以是resnet或mobilenet,当然并不限于此。具体的训练策略可根据需要进行选择,本发明不再进行赘述。
[0041]
如图5所示,对于人体属性识别的场景,本发明训练三通道教师网络(模型)的整个过程可包括但不限于如下的步骤:输入人体原始图像至待训练的网络模型,并得到预测结果;根据预测结果和属性标签计算损失,在损失小于等于设定阈值或迭代次数达到设定次数的情况下结束训练,或在损失大于设定阈值且迭代次数小于设定次数的情况下更新网络参数,并进行迭代训练,直至三通道教师网络训练完成。其中,待训练的网络模型例如可包括但不限于resnet或mobilenet,用于计算损失的损失函数可以是交叉熵损失函数,当然并不限于此。
[0042]
步骤300,基于第一预测结果、第二预测结果、第三预测结果以及第一标签生成总损失结果。
[0043]
本发明实施例基于第一预测结果、第二预测结果、第三预测结果以及第一标签生成总损失结果可包括:通过第一预测结果和第二预测结果生成第二标签,基于第二标签、第一标签以及第三预测结果生成总损失结果。第二标签可理解为机器学习领域领域中的软标签。
[0044]
具体地,本实施例通过第一预测结果和第二预测结果生成第二标签可包括:对第一预测结果和第二预测结果进行均值处理,以均值处理结果作为第二标签。其中,均值处理可为算术平均处理或加权平均处理,本发明根据具体情况进行选择。以算术平均处理为例说明,第一预测结果例如为《0.1,0.1,0.8》,第二预测结果例如为《0.1,0.2,0.7》,则均值处理结果为《0.1,0.15,0.75》,即得到第二标签为《0.1,0.15,0.75》。
[0045]
本发明一个或多个实施例基于第二标签、第一标签以及第三预测结果生成总损失结果包括:基于第三预测结果和第一标签生成第一损失结果,基于第三预测结果和第二标签生成第二损失结果,利用第一损失结果和第二损失结果得到总损失结果。以人体属性识别为例,本实施例将第三预测结果和第一标签一起输入第一预设损失函数,以得到第一损
失结果;类似地,本实施例将第三损失结果和第二标签输入第二预设损失函数,以得到第二损失结果。本发明实施例第一损失结果可理解为机器学习领域领域中的硬标签损失,第二损失结果可理解为机器学习领域领域中的软标签损失。本发明实施例中用于计算损失的损失函数具体可为交叉熵损失函数,当然并不限于此。
[0046]
可选地,本发明实施例可利用第一损失结果和第二损失结果得到总损失结果包括:对第一损失结果和第二损失结果进行求和处理,以求和处理结果作为总损失结果。即本发明将硬标签损失和软标签损失进行求和,以得到总损失结果,本发明中的总损失结果既可用于更新三通道学生网络的参数,又可用于判断三通道学生网络的参数是否训练完成。
[0047]
步骤400,根据总损失结果确定三通道学生网络是否已训练完成,在未训练完成情况下更新三通道学生网络的参数和返回图像处理的步骤进行迭代训练,直至三通道学生网络训练完成。再次需要明确的是,本发明实施例涉及的三通道教师网络和九通道教师网络为在先训练完成的网络,在三通道学生网络训练过程中固定不变。如果训练未完成,本发明实施例需要更新三通道学生网络的参数,参数可包括但不限于权重参数。具体地,本实施例可通过当前的总损失结果对三通道学生网络的参数进行更新,以使基于参数更新后的三通道学生网络得到的下一次总损失结果更小。
[0048]
本发明通过总损失结果客观且准确地衡量三通道学生网络的性能以及更新三通道学生网络中的参数,以逐步地优化和提升三通道学生网络的目标属性识别能力,直至三通道学生网络性能趋于九通道教师模型与三通道教师模型的集成性能,可见本发明能够得到目标属性识别性能极高的三通道学生网络,以实现对目标属性进行准确识别,特别是对人体属性进行准确识别。
[0049]
如图2所示,本发明采用了集成蒸馏训练的方式,通过已有的九通道教师网络和三通道教师网络蒸馏训练出一个三通道学生网络。本发明实施例根据总损失结果确定三通道学生网络是否已训练完成包括:如果总损失结果小于设定阈值,说明三通道学生网络性能已达到要求,则确定三通道学生网络已训练完成;如果总损失结果大于或等于设定阈值,说明三通道学生网络性能未达到要求,确定三通道学生网络未训练完成。应当理解的是,本实施例中的设定阈值可根据实际情况进行设定,本发明对此不进行限制。
[0050]
可选地,本发明提供的目标属性识别方法还能够包括:获取迭代训练的次数,如果迭代训练的次数达到设定次数,即使总损失结果仍然大于或等于设定阈值,则确定三通道学生网络已训练完成;如果迭代训练的次数未达到设定次数且总损失结果大于或等于设定阈值,则可确定三通道学生网络未训练完成。应当理解的是,本发明实施例中的设定次数可根据实际情况进行设定,本发明对此不进行限制。
[0051]
步骤500,利用训练完成的三通道学生网络处理第二目标原始图像,以得到第二目标原始图像的目标属性识别结果。本实施例的第二目标原始图像为待识别的图像,第二目标原始图像中存在第二目标,则本发明通过已训练完成的三通道学生网络对第二目标属性进行识别。本发明实施例的第二目标可为人体,则本发明能够提供一种基于集成蒸馏的人体属性识别方法。
[0052]
基于本发明所提供的技术方案,本发明基于九通道教师网络和三通道教师网络得到用于目标原始图像识别的三通道学生网络,实现了不增加标注样本的前提下提升目标属性识别精度,而且无需增加额外图像预处理过程,保持网络模型部署难度不变,保证目标属
性的快速识别,本发明具有目标图像识别速度快、投入成本低及尽可能地基于已有数据提升模型准确率等突出优点。
[0053]
如图6所示,与目标属性识别方法基于相同的发明技术构思,本发明一个或多个实施例还能够提供一种目标属性识别装置。本发明的目标属性识别装置可包括但不限于目标图像读取模块601、目标图像处理模块602、网络损失生成模块603、迭代训练判断模块604以及目标属性识别模块605,具体说明如下。
[0054]
目标图像读取模块601,用于读取第一目标原始图像、第一目标九通道图像以及第一标签;其中,第一目标九通道图像基于第一目标原始图像生成。
[0055]
目标图像处理模块602,用于通过九通道教师网络处理第一目标九通道图像,以得到第一预测结果;用于通过三通道教师网络处理第一目标原始图像,以得到第二预测结果;用于通过三通道学生网络处理第一目标原始图像,以得到第三预测结果;其中,九通道教师网络和三通道教师网络均为训练完成的网络,三通道学生网络为待训练的网络。
[0056]
网络损失生成模块603,用于基于第一预测结果、第二预测结果、第三预测结果以及第一标签生成总损失结果。
[0057]
具体地,网络损失生成模块603用于通过第一预测结果和第二预测结果生成第二标签,以及还用于基于第二标签、第一标签以及第三预测结果生成总损失结果。
[0058]
可选地,网络损失生成模块603能够用于对第一预测结果和第二预测结果进行均值处理,以均值处理结果作为第二标签。
[0059]
更为具体地,本发明网络损失生成模块603用于基于第三预测结果和第一标签生成第一损失结果,并用于基于第三预测结果和第二标签生成第二损失结果,以及用于利用第一损失结果和第二损失结果得到总损失结果。
[0060]
可选地,网络损失生成模块603用于对第一损失结果和第二损失结果进行求和处理,以求和处理结果作为总损失结果。
[0061]
迭代训练判断模块604,用于根据总损失结果确定三通道学生网络是否已训练完成,用于在未训练完成情况下更新三通道学生网络的参数和返回图像处理的步骤进行迭代训练,直至三通道学生网络训练完成。
[0062]
可选地,迭代训练判断模块604用于根据总损失结果小于设定阈值,确定三通道学生网络已训练完成;或者迭代训练判断模块604用于根据总损失结果大于或等于设定阈值,确定三通道学生网络未训练完成。
[0063]
可选地,迭代训练判断模块604用于获取迭代训练的次数。迭代训练判断模块604用于根据迭代训练的次数达到设定次数,确定三通道学生网络已训练完成。
[0064]
目标属性识别模块605,用于利用训练完成的三通道学生网络处理第二目标原始图像,以得到第二目标原始图像的目标属性识别结果。
[0065]
如图7所示,与目标属性识别方法基于相同的发明技术构思,本发明一个或多个实施例还能够提供一种计算机设备。计算机设备包括但不限于存储器和处理器,存储器中存储有计算机可读指令,计算机可读指令被处理器执行时,使得处理器执行本发明任一实施例中的目标属性识别方法的步骤。其中,目标属性识别方法的具体实现过程已在本说明书中有详细的记载,此处不再进行赘述。
[0066]
如图7所示,与目标属性识别方法基于相同的发明技术构思,本发明一个或多个实
施例还能够提供一种存储有计算机可读指令的存储介质,该计算机可读指令被一个或多个处理器执行时,使得一个或多个处理器执行本发明任一实施例中的目标属性识别方法的步骤。其中,本发明目标属性识别方法的具体实现过程已经在本说明书中有详细的记载,此处不再进行赘述。
[0067]
与目标属性识别方法基于相同的发明技术构思,本发明一个或多个实施例还能够提供一种计算机程序产品,当所述计算机程序产品中的指令由处理器执行时,执行本发明任一实施例中所述目标属性识别方法的步骤。其中,目标属性识别方法的具体实现过程已在本说明书中有详细的记载,此处不再进行赘述。
[0068]
在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读存储介质中,以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用,或结合这些指令执行系统、装置或设备而使用。就本说明书而言,"计算机可读存储介质"可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读存储介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(ram,random access memory),只读存储器(rom,read-only memory),可擦除可编辑只读存储器(eprom,erasable programmable read-only memory,或闪速存储器),光纤装置,以及便携式光盘只读存储器(cdrom,compact disc read-only memory)。另外,计算机可读存储介质甚至可以是可在其上打印所述程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序,然后将其存储在计算机存储器中。
[0069]
应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(pga,programmable gate array),现场可编程门阵列(fpga,field programmable gate array)等。
[0070]
在本说明书的描述中,参考术语“本实施例”、“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
[0071]
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中,“多个”的含义是至少两个,例如两个,三
个等,除非另有明确具体的限定。
[0072]
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明实质内容上所作的任何修改、等同替换和简单改进等,均应包含在本发明的保护范围之内。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献