一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

模型间的特征兼容学习方法、装置、电子设备及介质与流程

2021-11-05 22:57:00 来源:中国专利 TAG:


1.本技术涉及人工智能技术领域,具体涉及一种模型间的特征兼容学习方法及装置、一种电子设备以及一种计算机可读存储介质。


背景技术:

2.在目标再识别系统中,为了取得更高的性能,部署的模型需要被频繁的更新。新模型可能训练自更大的数据集,使用更先进的网络架构或损失函数。一旦模型被更新,整个数据库的特征需要被重新提取,以保证特征的兼容性。因为数据库中包含百万甚至千万级别图像,特征重提取十分消耗时间和计算资源。此外,在实际的应用系统中,计算资源十分有限,用户往往没有临时的可以被大量使用的gpu资源。


技术实现要素:

3.本技术的目的是提供一种模型间的特征兼容学习方法及装置、一种电子设备以及一种计算机可读存储介质。
4.本技术第一方面提供一种模型间的特征兼容学习方法,包括:
5.根据第一模型确定的模型参数和第二模型待学习的模型参数以及新训练数据集,确定第一模型和第二模型的特征兼容学习信息,所述特征兼容学习信息包括代表特征迁移损失和/或网络组件的结构正则,所述新训练数据集用于第二模型训练;
6.将所述特征兼容学习信息以及用于监督第二模型的目标损失共同作为第二模型最终的优化目标,以完成第一模型和第二模型间的特征兼容学习。
7.本技术第二方面提供一种模型间的特征兼容学习装置,包括:
8.确定模块,用于根据第一模型确定的模型参数和第二模型待学习的模型参数以及新训练数据集,确定第一模型和第二模型的特征兼容学习信息,所述特征兼容学习信息包括代表特征迁移损失和/或网络组件的结构正则,所述新训练数据集用于第二模型训练;
9.特征兼容模块,用于将所述特征兼容学习信息以及用于监督第二模型的目标损失共同作为第二模型最终的优化目标,以完成第一模型和第二模型间的特征兼容学习。
10.本技术第三方面提供一种电子设备,包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器运行所述计算机程序时执行以实现本技术第一方面所述的方法。
11.本技术第四方面提供一种计算机可读介质,其上存储有计算机可读指令,所述计算机可读指令可被处理器执行以实现本技术第一方面所述的方法。
12.相较于现有技术,本技术提供的模型间的特征兼容学习方法,根据第一模型和第二模型的模型参数以及新训练数据集,确定第一模型和第二模型的特征兼容学习信息,所述特征兼容学习信息包括代表特征迁移损失和/或网络组件的结构正则,所述新训练数据集用于第二模型训练;将所述特征兼容学习信息以及用于监督第二模型的目标损失共同作为第二模型最终的优化目标,以完成第一模型和第二模型间的特征兼容学习,通过本方案,
能够获得一个兼容的特征,使得其可以与旧版本模型提取的特征直接进行匹配检索,旧版本模型被更新后,整个数据库的特征无需被重新提取,节约了时间,减少了计算资源消耗。
附图说明
13.通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本技术的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
14.图1示出了新旧版本模型间特征兼容学习的示意图;
15.图2示出了本技术提供的一种模型间的特征兼容学习方法的流程图;
16.图3示出了模型的网络结构拆分示意图;
17.图4示出了基于度量空间的代表特征迁移损失示意图;
18.图5示出了模型间网络组件级别的结构正则示意图;
19.图6示出了本技术提供的一种模型间的特征兼容学习装置的示意图;
20.图7示出了本技术提供的一种电子设备的示意图;
21.图8示出了本技术提供的一种计算机可读存储介质的示意图。
具体实施方式
22.下面将参照附图更详细地描述本公开的示例性实施方式。虽然附图中显示了本公开的示例性实施方式,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施方式所限制。相反,提供这些实施方式是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
23.需要注意的是,除非另有说明,本技术使用的技术术语或者科学术语应当为本技术所属领域技术人员所理解的通常意义。
24.另外,术语“第一”和“第二”等是用于区别不同对象,而不是用于描述特定顺序。此外,术语“包括”和“具有”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可选地还包括没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。
25.目前,大规模视频数据分析系统需要频繁的模型更新和部署,不同版本模型提取的特征描述子之间面临着特征互操作性的问题。每当系统更新之后,需要重新提取数据库中的所有特征,这十分消耗计算和存储资源。
26.如图1所示,为了使新空间和旧空间中的特征可以互操作(兼容),需要进行新旧版本模型间的特征兼容学习。现有的一部分特征互操作方法希望学习一个额外的映射模型来将模型a的特征转变为模型b的特征。然而在新模型特征与数据库特征比对之前,一个额外的特征重提取程序仍然需要。此外,虽然有工作涉及额外的正则化策略,使用旧的分类器协助新的度量特征学习,基于这样的兼容策略,在获得兼容特征的同时,可以避免额外的特征重提取程序。然而,当旧模型的分类器或者监督损失与新模型不同时,基于分类器的监督使用受限,面临着严重的性能下降。此外,该工作限制了新模型的训练数据需要与旧模型的训练数据有重叠的类别,限制了其使用场景。
27.有鉴于此,本技术实施例提供一种模型间的特征兼容学习方法及装置、一种电子设备以及计算机可读存储介质,下面结合附图进行说明。
28.请参考图2,其示出了本技术的一些实施方式所提供的一种模型间的特征兼容学习方法的流程图,该方法可以包括以下步骤s101至s102:
29.步骤s101:根据第一模型确定的模型参数和第二模型待学习的模型参数以及新训练数据集,确定第一模型和第二模型的特征兼容学习信息;
30.其中,所述特征兼容学习信息包括代表特征迁移损失和/或网络组件的结构正则,所述新训练数据集用于第二模型训练;
31.实际应用中,第一模型可以为旧模型,其模型参数是确定的,第二模型可以为新模型,其模型参数需要学习。
32.图3为模型的网络结构拆分示意图,如图3所示,各模型的网络组件可以包括特征提取模块和任务头模块,当然也可以只包括特征提取模块和任务头模块中的任一个。特征提取模块用于特征提取,任务头模块用于根据提取的特征进行分类、检测等任务。特征提取模块的度量空间和任务头模块的判别空间,均包含了大量信息,可用于特征兼容学习。
33.本技术的特征兼容学习策略包括特征级别的代表特征迁移损失和网络组件级别的结构正则。
34.具体的,在度量空间中,属于相同类别的样本将会聚集在一起。因此,本技术使用样本均值特征去代表每个类别,并用所有的代表特征来描述整个流形结构,通过迁移新旧模型的代表特征来实现特征空间的对齐。s101中确定第一模型和第二模型的代表特征迁移损失,包括:
35.使用第一模型提取新训练数据集中所有样本的特征,得到第一模型特征;
36.基于第一模型特征,提取第一模型对应的每个类别的代表特征;
37.使用第二模型提取新训练数据集中所有样本的特征,得到第二模型特征,对于每个第二模型特征,计算其与各所述代表特征的相似度;
38.计算基于所述相似度的代表特征迁移损失,以实现第一模型和第二模型的特征兼容。
39.本技术中,基于度量空间的代表特征迁移损失,来实现新旧特征空间的全局调控,如图4所示,图中旧模型为上述第一模型,新模型为上述第二模型。
40.图4中,确定旧模型参数及参与新模型训练的新训练数据集。考虑到旧空间是固定的,不会随着新模型的训练而修改,可以使用旧模型提取新训练数据集中所有样本的特征,得到固定的旧模型特征(第一模型特征)。
41.设计每个类别旧模型特征的代表特征表示旧模型特征空间的流行结构。通过传递代表特征的知识,可以将新模型特征空间嵌入到旧模型特征空间中,以显示地实现特征对齐。
42.使用均值特征获得每个类别的代表特征,其中每个类别的代表特征可以表示为:
[0043][0044]
其中,p(c)表示类别c的样本集,|p(c)|是类别c的样本个数。代表样本x通过
旧模型提取的特征。对于新训练数据集中的c个类别,获得c个代表特征,这些代表特征可以鲁棒地描述整个嵌入空间。
[0045]
利用所有旧模型的代表特征进行全局优化,本技术设计了基于代表特征的预测策略。该预测不基于额外的分类器来进行特征分类,而是基于相似性度量来实现显示的距离优化。给定一个新模型的特征,计算其与所有旧模型代表特征的相似度,并根据相似度预测其属于旧模型的哪个类别,其形式化描述为,即所述代表特征迁移损失的表达式如下:
[0046][0047]
其中,为第二模型参数,m
o
为第一模型代表特征的集合,为第一模型代表特征的集合,t
n
为新训练数据集,符号<.,.>代表样本特征的余弦距离,x
c
为类别标签为c的样本,为c类别的代表特征。该损失能够最大化与之间的相似度,同时最小化与其它所有不同类别代表特征的相似度,使得其趋向于0。因此,所有旧代表特征可以在新旧特征空间之间架起桥梁,并很好地支持全局优化。
[0048]
本技术还设计了网络组件级别的结构正则。一个网络可以被划分为特征提取模块和任务头模块。以分类器任务头为例,分类器中提供了特征结构的分类准则,因此,如果两个模型的特征可以互相兼容,一个模型的特征也可以满足另一个模型的分类准则。基于此,本技术设计了模块级别的互操作机制来实现结构正则,以进一步提高兼容性。
[0049]
具体的,所述第一模型的网络组件包括第一特征提取模块和第一任务头模块;所述第二模型的网络组件包括第二特征提取模块和第二任务头模块。
[0050]
步骤s101中,确定第一模型和第二模型的网络组件的结构正则,包括:
[0051]
确定第一特征提取模块和第二任务头模块重组后的第一重组网络的第一监督损失;
[0052]
确定第二特征提取模块和第一任务头模块重组后的第二重组网络的第二监督损失;
[0053]
根据第一监督损失和第二监督损失确定第一模型和第二模型相互结构正则化的优化目标。
[0054]
具体的,如图5所示,将模型分为两个部分:特征提取模块和用于目标任务的任务头模块。这样的任务头模块包含了特征空间的内在结构信息,可以视为特征空间的规则。以分类器头为例,其包含了特征的分类规则。根据此规则,特征空间f中的嵌入特征可以映射为分类器假设空间p中的类别概率因此,如果来自两个模型的特征可以进行相互匹配,则从一个模型派生的特征在通过另一个模型的分类器时也可以产生良好的预测。新分类器应基于旧模型特征获得正确的预测。即旧模型特征提取模块和新模型任务头模块h
n
重组后,重组网络仍然可以获得较好的预测结果。其监督损失可以表示为:其中,代表使用第一特征提取模块和第二任务头模块h
n
在数据集t
n
上进行特定的目标任务,t
n
为新训练数据集。任务类型不受限于分类任务。l
ce_n
为新模型的监督损失。
[0055]
进一步的,新特征的分布结构应满足旧分类器的规则。即新模型特征提取模块
和旧模型任务头模块h
o
重组后,重组网络仍然可以获得较好的预测结果。其监督损失可以表示为:其中,代表使用第二特征提取模块和第一任务头模块h
o
在数据集t
n

上进行特定的目标任务,t
n

为新训练数据集与旧训练数据集中具有相同类别的样本集合,所述旧训练数据集用于第一模型训练。l
ce_o
为旧模型的监督损失。
[0056]
因此,相互结构正则化的优化目标可以表示为:
[0057][0058]
可见,网络组件互操作可以提供双重监督:旧的规则将指导新特征提取模块的训练,同时,旧的特征提取模块也将有助于制定新任务头模块的特征规则。这里,l
ce_o
为旧模型的监督损失,l
ce_n
为新模型的监督损失。本技术不限制新旧模型的损失类型,也不限制新旧模型的损失类型必须相同,该损失由原来的新模型或旧模型决定。
[0059]
步骤s102:将所述特征兼容学习信息以及用于监督第二模型的目标损失共同作为第二模型最终的优化目标,以完成第一模型和第二模型间的特征兼容学习。
[0060]
具体的,特征兼容学习信息包括代表特征迁移损失和/或网络组件的结构正则本技术不局限于同时使用代表特征迁移损失和网络组件的结构正则,可以单独使用代表特征迁移损失或网络组件的结构正则实现特征兼容。
[0061]
因此,第二模型最终的优化目标l
all
可以包括三种情况:
[0062]
第一种情况:
[0063]
第二种情况:
[0064]
第三种情况:第三种情况:
[0065]
其中,l
ce_n
是用于监督新模型的目标损失,并不局限于分类损失。
[0066]
综上,本技术方法中包括代表特征迁移和结构正则的特征兼容策略。其中,代表特征迁移学习包括:获得旧模型的网络及网络参数;基于新训练数据集,获得新训练数据集上的旧模型特征;提取每个类别所有旧特征的代表特征;在新模型的训练过程中,对于每个新模型特征,计算其与所有旧模型代表特征的相似度;计算基于相似度的代表特征分类损失,实现新旧模型特征的兼容。其中,结构正则重组了新旧模型特征提取模块和任务头模块,具体包括:重组新模型特征提取模块和旧模型任务头模块,使用旧模型任务模块的规则约束新模型特征;重组旧模型特征提取模块和新模型任务头模块,使用旧模型的特征约束新模型任务头模块的规则制定。上诉方法可以实现特征兼容学习,使得在不约束新模型训练数据、监督损失、网络结构的同时,获得与旧模型特征兼容的新模型特征,旧版本模型被更新到新版本模型后,整个旧数据库的特征无需被重新提取,节约了时间,减少了计算资源消耗。
[0067]
在上述的实施例中,提供了一种模型间的特征兼容学习方法,与之相对应的,本技术还提供一种模型间的特征兼容学习装置。请参考图6,其示出了本技术的一些实施方式所提供的一种模型间的特征兼容学习装置的示意图。由于装置实施例基本相似于方法实施
例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。下述描述的装置实施例仅仅是示意性的。
[0068]
如图6所示,模型间的特征兼容学习装置10可以包括:
[0069]
确定模块101,用于根据第一模型确定的模型参数和第二模型待学习的模型参数以及新训练数据集,确定第一模型和第二模型的特征兼容学习信息,所述特征兼容学习信息包括代表特征迁移损失和/或网络组件的结构正则,所述新训练数据集用于第二模型训练;
[0070]
特征兼容模块102,用于将所述特征兼容学习信息以及用于监督第二模型的目标损失共同作为第二模型最终的优化目标,以完成第一模型和第二模型间的特征兼容学习。
[0071]
根据本技术的一些实施方式中,所述确定模块101,具体用于:
[0072]
使用第一模型提取新训练数据集中所有样本的特征,得到第一模型特征;
[0073]
基于第一模型特征,提取第一模型对应的每个类别的代表特征;
[0074]
使用第二模型提取新训练数据集中所有样本的特征,得到第二模型特征,对于每个第二模型特征,计算其与各所述代表特征的相似度;
[0075]
计算基于所述相似度的代表特征迁移损失,以实现第一模型和第二模型的特征兼容;
[0076]
所述代表特征迁移损失的表达式如下:
[0077][0078]
其中,为第二模型参数,m
o
为第一模型代表特征的集合,为第一模型代表特征的集合,t
n
为新训练数据集,符号<.,.>代表样本特征的余弦距离,x
c
为类别标签为c的样本,为c类别的代表特征。
[0079]
根据本技术的一些实施方式中,所述第一模型的网络组件包括第一特征提取模块和第一任务头模块;所述第二模型的网络组件包括第二特征提取模块和第二任务头模块。
[0080]
根据本技术的一些实施方式中,所述确定模块101,具体用于:
[0081]
确定第一特征提取模块和第二任务头模块重组后的第一重组网络的第一监督损失;
[0082]
确定第二特征提取模块和第一任务头模块重组后的第二重组网络的第二监督损失;
[0083]
根据第一监督损失和第二监督损失确定第一模型和第二模型相互结构正则化的优化目标;
[0084]
所述优化目标的表达式如下:
[0085][0086]
其中,l
ce_o
为第一监督损失,l
ce_n
为第二监督损失;
[0087]
代表使用第一特征提取模块和第二任务头模块h
n
在数据集t
n
上进行特定的目标任务,t
n
为新训练数据集;
[0088]
代表使用第二特征提取模块和第一任务头模块h
o
在数据集t
n

上进行特定的目标任务,t
n

为新训练数据集与旧训练数据集中具有相同类别的样本集合,所述旧训练数据集用于第一模型训练。
[0089]
本技术实施例提供的模型间的特征兼容学习装置10,与本技术前述实施例提供的模型间的特征兼容学习方法出于相同的发明构思,具有相同的有益效果。
[0090]
本技术实施方式还提供一种与前述实施方式所提供的模型间的特征兼容学习方法对应的电子设备,例如手机、笔记本电脑、平板电脑、台式机电脑等,以执行上述模型间的特征兼容学习方法。
[0091]
请参考图7,其示出了本技术的一些实施方式所提供的一种电子设备的示意图。如图7所示,所述电子设备20包括:处理器200,存储器201,总线202和通信接口203,所述处理器200、通信接口203和存储器201通过总线202连接;所述存储器201中存储有可在所述处理器200上运行的计算机程序,所述处理器200运行所述计算机程序时执行本技术前述任一实施方式所提供的模型间的特征兼容学习方法。
[0092]
本技术实施例提供的电子设备与本技术实施例提供的模型间的特征兼容学习方法出于相同的发明构思,具有与其采用、运行或实现的方法相同的有益效果。
[0093]
本技术实施方式还提供一种与前述实施方式所提供的模型间的特征兼容学习方法对应的计算机可读存储介质,请参考图8,其示出的计算机可读存储介质为光盘30,其上存储有计算机程序(即程序产品),所述计算机程序在被处理器运行时,会执行前述任意实施方式所提供的模型间的特征兼容学习方法。
[0094]
需要说明的是,所述计算机可读存储介质的例子还可以包括,但不限于相变内存(pram)、静态随机存取存储器(sram)、动态随机存取存储器(dram)、其他类型的随机存取存储器(ram)、只读存储器(rom)、电可擦除可编程只读存储器(eeprom)、快闪记忆体或其他光学、磁性存储介质,在此不再一一赘述。
[0095]
本技术的上述实施例提供的计算机可读存储介质与本技术实施例提供的模型间的特征兼容学习方法出于相同的发明构思,具有与其存储的应用程序所采用、运行或实现的方法相同的有益效果。
[0096]
最后应说明的是:以上各实施例仅用以说明本技术的技术方案,而非对其限制;尽管参照前述各实施例对本技术进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本技术各实施例技术方案的范围,其均应涵盖在本技术的权利要求和说明书的范围当中。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献