一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种解决数据域间差异的神经网络模型训练方法及装置与流程

2022-06-29 14:36:54 来源:中国专利 TAG:


1.本发明涉及域间差异技术领域,更为具体来说,本发明涉及一种解决数据域间差异的神经网络模型训练方法及装置。


背景技术:

2.基于自监督学习的预训练模式在计算机视觉中获得了非常大的进展,并形成了一套主流的训练范式,称为“预训练-微调”。其中预训练阶段所使用的数据一般是以主流的大规模公开数据集为主,例如imagenet数据集,该imagenet数据集约有一百多万张图像,涵盖了1000类物体。目前,现实应用场景的下游任务数据会存在多种特定且预训练数据未能覆盖的情况,导致预训练数据和下游任务数据存在域间差异问题(即domaingap),例如数据分布差异、数据特征差异和任务目标差异等。若两种数据集的域间差异越大,下游任务模型的性能受到的负面影响也就越大。


技术实现要素:

3.本技术实施例提供了一种解决数据域间差异的神经网络模型训练方法及装置。为了对披露的实施例的一些方面有一个基本的理解,下面给出了简单的概括。该概括部分不是泛泛评述,也不是要确定关键/重要组成元素或描绘这些实施例的保护范围。其唯一目的是用简单的形式呈现一些概念,以此作为后面的详细说明的序言。
4.第一方面,本技术实施例提供了一种解决数据域间差异的神经网络模型训练方法,该方法包括:
5.获取数据域间差异的源域数据集和目标域数据集;
6.通过所述源域数据集对骨干网络模型进行预训练,得到数据域间差异的预训练骨干模型;
7.根据所述目标域数据集、所述预训练骨干模型、全连接网络和/或激活器,获取数据域间差异的源域模型和目标域模型;
8.根据所述目标域数据集、所述源域模型和所述目标域模型,获取数据域间差异的评估结果;
9.根据所述源域数据集、所述目标域数据集、所述骨干网络模型和所述评估结果,得到数据域间差异的最终模型。
10.可选的,根据所述目标域数据集、所述预训练骨干模型、全连接网络和/或激活器,获取数据域间差异的目标域模型,包括:
11.根据所述预训练骨干模型,构建数据域间差异的下游任务骨干网络模型;
12.根据所述目标域数据集、所述下游任务骨干网络模型、全连接网络和激活器,得到数据域间差异的目标域模型。
13.可选的,根据所述目标域数据集、所述预训练骨干模型、全连接网络和/或激活器,获取数据域间差异的源域模型,包括:
14.根据所述预训练骨干模型、所述全连接网络、所述激活器和所述目标域模型,得到数据域间差异的所述源域模型。
15.可选的,根据所述目标域数据集、所述预训练骨干模型、全连接网络和/或激活器,获取数据域间差异的目标域模型,包括:
16.根据所述预训练骨干模型,构建数据域间差异的下游任务骨干网络模型;
17.根据所述目标域数据集、所述下游任务骨干网络模型和全连接网络,得到数据域间差异的目标域模型。
18.可选的,根据所述目标域数据集、所述预训练骨干模型、全连接网络和/或激活器,获取数据域间差异的源域模型,包括:
19.根据所述预训练骨干模型、所述全连接网络和所述目标域模型,得到数据域间差异的所述源域模型。
20.可选的,所述根据所述目标域数据集、所述源域模型和所述目标域模型,获取数据域间差异的评估结果,包括:
21.根据所述目标域数据集、所述源域模型和所述目标域模型,获取数据域间差异的经验条件熵;
22.根据所述经验条件熵,获取数据域间差异的总体信息增益差公式;
23.由所述总体信息增益差公式,计算每一样本的单个信息增益差;
24.将多个样本的所述单个信息增益差进行组合,获取数据域间差异的所述评估结果。
25.可选的,所述根据所述源域数据集、所述目标域数据集、所述骨干网络模型和所述评估结果,得到数据域间差异的最终模型,包括:
26.根据所述评估结果,选取数据域间差异的目标域样本子集;
27.根据所述目标域样本子集、所述源域数据集和所述骨干网络模型,获取数据域间差异的重预训练骨干模型;
28.通过所述目标域数据集对所述重预训练骨干模型进行微调,得到数据域间差异的所述最终模型。
29.第二方面,本技术实施例提供了一种解决数据域间差异的神经网络模型训练装置,该装置包括:
30.数据获取模块,用于获取数据域间差异的源域数据集和目标域数据集;
31.预训练模块,用于通过所述源域数据集对骨干网络模型进行预训练,得到数据域间差异的预训练骨干模型;
32.模型获取模块,用于根据所述目标域数据集、所述预训练骨干模型、全连接网络和/或激活器,获取数据域间差异的源域模型和目标域模型;
33.评估结果获取模块,用于根据所述目标域数据集、所述源域模型和所述目标域模型,获取数据域间差异的评估结果;
34.最终模型确定模块,用于根据所述源域数据集、所述目标域数据集、所述骨干网络模型和所述评估结果,得到数据域间差异的最终模型。
35.第三方面,本技术实施例提供一种计算机存储介质,计算机存储介质存储有多条指令,指令适于由处理器加载并执行上述的方法步骤。
36.第四方面,本技术实施例提供一种终端,可包括:处理器和存储器;其中,存储器存储有计算机程序,计算机程序适于由处理器加载并执行上述的方法步骤。
37.本技术实施例提供的技术方案可以包括以下有益效果:
38.在本技术实施例中,所述解决数据域间差异的神经网络模型训练的方法,首先获取数据域间差异的源域数据集和目标域数据集,再通过源域数据集对骨干网络模型进行预训练,得到数据域间差异的预训练骨干模型,然后根据目标域数据集、所述预训练骨干模型、全连接网络和/或激活器,获取数据域间差异的源域模型和目标域模型,其次根据所述目标域数据集、所述源域模型和所述目标域模型,获取数据域间差异的评估结果,最后根据所述源域数据集、所述目标域数据集、所述骨干网络模型和所述评估结果,得到数据域间差异的最终模型。本技术实施例所述的方法,能够评估源域数据集和目标域数据集的域间差异,能够使得所述最终模型的输出结果的域间差异问题得到缓解;解决了现有技术中的“维度灾难”问题,保证了计算的效率。
39.应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本发明。
附图说明
40.此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本发明的实施例,并与说明书一起用于解释本发明的原理。
41.图1是本技术实施例提供的一种解决数据域间差异的神经网络模型训练方法的流程示意图;
42.图2是本技术实施例提供的另一种解决数据域间差异的神经网络模型训练方法的流程示意图;
43.图3是本技术实施例提供的又一种解决数据域间差异的神经网络模型训练方法的流程示意图;
44.图4是本技术实施例提供的一种解决数据域间差异的神经网络模型训练装置的装置示意图;
45.图5是本技术实施例提供的一种终端示意图。
具体实施方式
46.以下描述和附图充分地示出本发明的具体实施方案,以使本领域的技术人员能够实践它们。
47.应当明确,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
48.下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反,它们仅是如所附权利要求书中所详述的、本发明的一些方面相一致的系统和方法的例子。
49.在本发明的描述中,需要理解的是,术语“第一”、“第二”等仅用于描述目的,而不
能理解为指示或暗示相对重要性。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本发明中的具体含义。此外,在本发明的描述中,除非另有说明,“多个”是指两个或两个以上。“和/或”,描述关联对象的关联关系,表示可以存在三种关系,例如,a和/或b,可以表示:单独存在a,同时存在a和b,单独存在b这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。
50.基于自监督学习的预训练模式在计算机视觉中获得了非常大的进展,并形成了一套主流的训练范式,称为“预训练-微调”,此范式的步骤主要是:1)通过特定的辅助任务(如生成式任务和对比任务等)从大规模无标签数据中自构建监督信息,然后利用自构建监督信息对模型进行预训练;2)利用下游任务的有标签数据集对模型进行迁移学习,也称为微调训练,最终使得预训练模型可获得下游任务的相关内容。其中的原理是:“预训练”可通过利用大规模数据预训练,让模型获得低级语义特征的提取能力,“微调”可利用下游任务数据,重点训练主要负责高级意义特征提取的高层模型结构权重。此训练范式的优点是适用于各大小规模的模型,同时避免大型模型的过拟合情况发生,降低模型训练难度。但是,实际场景下的下游任务数据复杂且多噪声,和预训练阶段的数据间存在着一定的数据域间差异问题。
51.现有技术中利用“灾难性遗忘评估方法”量化数据域间差异,采用的相似性计算是属于高维空间下特征的余弦相似性计算,有一定几率会出现“维度灾难”的情况,即随着维度增加,数据的特征相似度越来越小,最后趋于0,进而导致特征相似度在高维空间失去了意义。换言之,现有的“灾难性遗忘评估方法”存在一定几率失效或出现评估偏差。
52.本技术实施例提出的一种解决数据域间差异的神经网络模型训练方法及装置,通过提出一种基于信息增益的域间差异评估计算方法,并在此基础上提出一种基于域间差异评估的自底向上训练范式,来解决源域数据集中的数据和目标域数据集中的数据存在的数据域间差异问题,并可避免“维度灾难”的问题。其中,本技术实施例的数据域间差异评估计算方法的原理建立在信息熵和信息增益的相关内容上:首先,信息熵是对整个随机变量的不确定性的度量:假设ai是训练数据集a中某一个数据样本,n为样本数量,信息熵可表示为:
[0053][0054]
信息增益可理解为某一随机变量对另一随机变量的不确定性消除所带来的信息量:假设目前有特征f,训练数据集为a,可将信息增益h(a;f)定义为:
[0055]
h(a;f)=h(a)-h(a|f)
[0056]
此公式定义可理解为训练数据集a的经验熵h(a)和给定特征f条件下训练数据集a的经验条件熵h(a|f)之差。信息增益可广泛应用在机器学习和深度学习等领域中;例如,在传统的决策树学习中,信息增益可应用于特征选择,其等价于训练数据集中类与特征的互信息,可理解为在给定特征f下,减少训练数据集a的分类不确定性的程度。
[0057]
结合以上信息增益的相关内容,本技术实施例的数据域间差异评估计算方法建立于以下核心思想:如果源域模型在下游任务数据上的表现和目标域模型上的表现相近,则可认为这两个数据集的域间差异小。换言之,给定源域模型特征下的经验条件熵h(d
target
|fs
)和给定目标域模型特征下的经验条件熵h(d
target
|f
t
)之差较少,即源域模型特征所提供的信息足以消除目标域数据集d
target
的不确定性,在目标域数据上微调后的目标域模型特征所带来的额外信息很少,亦可认为目标域数据相对于源域数据所引入的额外信息量很少,进而可认为这两个数据集的域间差异小。不同于现有技术中的技术方案,本技术实施例采用的方案是自底向上,利用数据域间差异评估计算方法从目标域数据集中寻找出能为源域数据集引入巨大额外信息量的样本组成目标域样本子集,放入源域数据集一并用于预训练,这样可以让骨干网络模型在预训练阶段获得更多信息量,提前学习到下游任务数据集和源域数据集的特征差异,获得更充分学习,进而让微调阶段的迁移学习更加容易且稳定,使最终模型的表现更鲁棒。相较于现有技术,不仅解决了“维度灾难”的问题,也保证了计算的效率。
[0058]
下面将结合附图1-附图3,对本技术实施例提供的一种解决数据域间差异的神经网络模型训练方法进行详细介绍。
[0059]
请参见图1,为本技术实施例提供了一种解决数据域间差异的神经网络模型训练方法的流程示意图。如图1所示,本技术实施例的方法可以包括以下步骤:
[0060]
下游任务有标签数据集对应的下游任务目标可分成分类和回归两大范畴,本技术实施例主要是针对多类别单标签分类问题和回归问题的数据域间差异问题,讲述了多类别单标签分类问题和回归问题的数据域间差异评估计算方法及相应训练范式的具体内容。
[0061]
s110,获取数据域间差异的源域数据集和目标域数据集。所述源域数据集和目标域数据集可以是医疗图像数据集或工业级图像数据集等。
[0062]
在本技术实施例中,所述源域数据集可以为一组大规模无标签预训练数据集d
source
={x
source
},其中,x
source
表示源域数据集d
source
中的数据。所述目标域数据集可以为一组下游任务有标签数据集d
target
={x
target
,y
target
},其中,x
source
表示目标域数据集d
target
中的数据,y
target
表示目标域数据集d
target
中的数据标签;所述目标域数据集的最小规模可以为百级数据。
[0063]
s120,通过所述源域数据集对骨干网络模型进行预训练,得到数据域间差异的预训练骨干模型。所述骨干网络模型可以用于工业级图像数据处理或医疗图像数据处理等,比如,将骨干网络模型用于医疗图像数据或工业级图像数据的特征提取。
[0064]
在本技术实施例中,利用生成式自监督学习算法或对比式自监督学习算法,使骨干网络模型m在源域数据集d
source
上进行预训练,得到预训练骨干模型m
pre

[0065]
s130,根据所述目标域数据集、所述预训练骨干模型、全连接网络和/或激活器,获取数据域间差异的源域模型和目标域模型。所述源域模型和所述目标域模型可以对医疗图像数据的域间差异进行评估,或者对工业级图像数据的域间差异进行评估等。
[0066]
在一种实施方式中,当数据域间差异为多类别单标签分类问题的数据域间差异时,s130包括:
[0067]
根据所述预训练骨干模型,构建数据域间差异的下游任务骨干网络模型;根据所述目标域数据集、所述下游任务骨干网络模型、全连接网络和激活器,得到数据域间差异的目标域模型。
[0068]
在本技术实施例中,构建一个与预训练骨干模型m
pre
结构且参数均相同的下游任务骨干网络模型m
copy
,并在下游任务骨干网络模型m
copy
最后一层之后接上一个形状为out*ccls
的全连接网络fc
cls
(其中out是骨干网络模型m最后一层输出的通道维度,c
cls
为类别数量)和softmax激活器σ,得到分类模型m
cls
。使用目标域数据集d
target
对分类模型m
cls
进行有监督训练。在分类模型m
cls
训练结束后,得到目标域模型数学形式可表示为:
[0069]mcls
(v)=σ(fc
cls
(m
copy
(v)))
[0070][0071]
其中,v表示任意输入的数据;finetune表示迁移训练,表示全连接网络fc
cls
经过迁移训练后所得到的模型;m
target
表示下游任务骨干网络模型m
copy
经过迁移训练后所得到的模型。
[0072]
根据所述预训练骨干模型、所述全连接网络、所述激活器和所述目标域模型,得到数据域间差异的所述源域模型。
[0073]
在本技术实施例中,在预训练骨干模型m
pre
最后一层之后接上一个形状为out*c
cls
的全连接网络fc
cls
和softmax激活器σ,将模型中的所有参数复制到全连接网络fc
cls
,修改后的源域模型即本技术获取的数据域间差异的源域模型可表示为:
[0074][0075]
在另一种实施方式中,当数据域间差异为回归问题的数据域间差异时,s130包括:
[0076]
根据所述预训练骨干模型,构建数据域间差异的下游任务骨干网络模型;根据所述目标域数据集、所述下游任务骨干网络模型和全连接网络,得到数据域间差异的目标域模型。
[0077]
在本技术实施例中,构建一个与预训练骨干模型m
pre
结构且参数均相同的下游任务骨干网络模型m
copy
,并在下游任务骨干网络模型m
copy
最后一层之后接上一个形状为out*c
reg
的全连接网络fc
reg
(其中out是骨干网络模型m最后一层输出的通道维度,c
reg
为回归值数量),得到回归模型m
reg
。使用目标域数据集d
target
对回归模型m
reg
进行有监督训练。在回归模型m
reg
训练结束后,得到目标域模型数学形式可表示为:
[0078]mreg
(v)=fc
reg
(m
copy
(v))
[0079][0080]
其中,finetune是指迁移训练,表示fc
reg
经过迁移训练后所得到的模型。
[0081]
根据所述预训练骨干模型、所述全连接网络和所述目标域模型,得到数据域间差异的所述源域模型。
[0082]
在本技术实施例中,在预训练骨干模型m
pre
最后一层之后接上一个形状为out*c
reg
的全连接网络fc
reg
,将模型中的所有参数复制到全连接网络fc
reg
,修改后的源域模型即本技术获取的数据域间差异的源域模型可表示为:
[0083][0084]
s140,根据所述目标域数据集、所述源域模型和所述目标域模型,获取数据域间差异的评估结果。具体来说,s140包括:
[0085]
可根据所述目标域数据集、所述源域模型和所述目标域模型,获取数据域间差异的经验条件熵;根据所述经验条件熵,获取数据域间差异的总体信息增益差公式;由所述总体信息增益差公式,计算每一样本的单个信息增益差;将多个样本的所述单个信息增益差进行组合,获取数据域间差异的所述评估结果。
[0086]
在本技术实施例中,当数据域间差异的评估结果为多类别单标签分类问题的数据域间差异评估结果时,将目标域数据集中的数据x
target
分别输入到源域模型和目标域模型可将源域模型特征定义为f
pre
=m
pre
(x
target
),目标域模型特征定义为f
target
=m
target
(x
target
),源域模型和目标域模型的经验条件熵可表示为:
[0087][0088][0089]
其中,h(y
target
|f
pre
)表示源域模型的经验条件熵;h(y
target
|f
target
)表示目标域模型的经验条件熵;xi表示数据x
target
中的第i个样本,p(xi)表示样本xi在目标域数据集d
target
上的概率,n
t
表示数据x
target
中的样本数量。
[0090]
考虑到softmax激活器σ将模型输出转换成一组概率,且概率之和为1,可设p(xi)=1;基于信息增益的定义可知:
[0091]
h(y
target
;f
pre
)=h(y
target
)-h(y
target
|f
pre
)
[0092]
h(y
target
;f
target
)=h(y
target
)-h(y
target
|f
target
)
[0093]
其中,h(y
target
;f
pre
)表示源域模型的信息增益,h(y
target
;f
target
)表示目标域模型的信息增益,h(y
target
)表示经验熵。
[0094]
则f
pre
和f
target
的总体信息增益差delta(f
pre
,f
target
)表示为:
[0095]
[0096]
由于数据域间差异的评估结果的计算需要目标域数据集d
target
中每个样本的信息增益差,因此可针对每一样本分别计算相应的信息增益差,第i个样本的信息增益差di为:
[0097][0098]
可将deltaset={d0,d1,d2,

,d
nt
}作为数据域间差异的评估结果。
[0099]
在本技术实施例中,当数据域间差异的评估结果为回归问题的数据域间差异评估结果时,将目标域数据集中的数据x
target
分别输入到源域模型和目标域模型可将源域模型特征定义为f
pre
=m
pre
(x
target
),目标域模型特征定义为f
target
=m
target
(x
target
),源域模型和目标域模型的经验条件熵可表示为:
[0100][0101][0102]
在回归任务中,和的输出均属于任意实数,而不属于[0,1]之间的数值,即和可知经验条件熵在回归任务下正比于均方误差,比如:
[0103][0104]
其中,yi表示样本xi的标签。
[0105]
可将以上经验条件熵改为使用均方误差表示源域模型和目标域模型经验条件熵:
[0106][0107][0108]
则f
pre
和f
target
的总体信息增益差delta(f
pre
,f
target
)为:
[0109][0110]
由于数据域间差异评估计算需要的是目标域数据集d
target
中每个样本的信息增益差,因此可针对每一样本分别计算相应的信息增益差,第i个样本的信息增益差di为:
[0111][0112]
可将作为数据域间差异的评估结果。
[0113]
s150,根据所述源域数据集、所述目标域数据集、所述骨干网络模型和所述评估结果,得到数据域间差异的最终模型。所述最终模型也可称之为下游任务模型,所述最终模型可以用于完成工业级图像下游任务即工业级图像的分割、目标检测或图像分类等。
[0114]
在本技术实施例中,s150包括:根据所述评估结果,选取数据域间差异的目标域样本子集;根据所述目标域样本子集、所述源域数据集和所述骨干网络模型,获取数据域间差异的重预训练骨干模型;通过所述目标域数据集对所述重预训练骨干模型进行微调,得到数据域间差异的所述最终模型。
[0115]
在本技术实施例中,首先对评估结果deltaset进行降序排序,然后选出信息增益差前k(k表示任意实数)个目标域数据集中的样本组成目标域样本子集s
target
,其次将目标域样本子集s
target
放入源域数据集d
source
中组成新的预训练数据集接着用新的预训练数据集重新预训练一个骨干网络模型m,得到重预训练骨干模型m
repre
,最后用目标域数据集d
target
对重预训练骨干模型m
repre
进行微调得到最终模型m
final

[0116]
综上所述,本技术实施例为了解决源域数据集和目标域数据集存在的数据域间差异问题和避免“维度灾难”的问题,使用了一种适用于高维的数据域间差异评估方法,并基于此评估方法构建一种新的训练范式,本技术实施例使用的是一种基于信息增益的域间差异评估计算方法,及在此基础上使用的一种基于域间差异评估的自底向上训练范式。通过采用自底向上的技术方案,利用数据域间差异评估计算方法从目标域数据集中寻找出能为源域数据集引入巨大额外信息量的样本组成目标域样本子集,放入源域数据集一并用于预训练,让骨干网络模型在预训练阶段获得更多信息量,提前学习到目标域数据集和源域数据集的特征差异,获得更充分学习,进而让微调阶段的迁移学习更加容易且稳定,使得最终模型的表现更加鲁棒。
[0117]
在本技术实施例中,所述解决数据域间差异的神经网络模型训练的方法,首先获取数据域间差异的源域数据集和目标域数据集,再通过源域数据集对骨干网络模型进行预训练,得到数据域间差异的预训练骨干模型,然后根据目标域数据集、所述预训练骨干模型、全连接网络和/或激活器,获取数据域间差异的源域模型和目标域模型,其次根据所述目标域数据集、所述源域模型和所述目标域模型,获取数据域间差异的评估结果,最后根据所述源域数据集、所述目标域数据集、所述骨干网络模型和所述评估结果,得到数据域间差异的最终模型。本技术实施例所述的方法,能够评估源域数据集和目标域数据集的域间差异,能够使得所述最终模型的输出结果的域间差异问题得到缓解;解决了现有技术中的“维度灾难”问题,保证了计算的效率。
[0118]
请参见图2为本技术实施例提供了一种解决数据域间差异的神经网络模型训练方法的流程示意图。如图2所示,本技术实施例的方法可以包括以下步骤:
[0119]
s201,获取数据域间差异的源域数据集和目标域数据集;
[0120]
s202,通过所述源域数据集对骨干网络模型进行预训练,得到数据域间差异的预训练骨干模型;
[0121]
s203,根据所述预训练骨干模型,构建数据域间差异的下游任务骨干网络模型;
[0122]
s204,根据所述目标域数据集、所述下游任务骨干网络模型、全连接网络和激活器,得到数据域间差异的目标域模型;
[0123]
s205,根据所述预训练骨干模型、所述全连接网络、所述激活器和所述目标域模型,得到数据域间差异的所述源域模型。
[0124]
s206,根据所述目标域数据集、所述源域模型和所述目标域模型,获取数据域间差异的经验条件熵;
[0125]
s207,根据所述经验条件熵,获取数据域间差异的总体信息增益差公式;
[0126]
s208,由所述总体信息增益差公式,计算每一样本的单个信息增益差;
[0127]
s209,将多个样本的所述单个信息增益差进行组合,获取数据域间差异的所述评估结果;
[0128]
s210,根据所述评估结果,选取数据域间差异的目标域样本子集;
[0129]
s211,根据所述目标域样本子集、所述源域数据集和所述骨干网络模型,获取数据域间差异的重预训练骨干模型;
[0130]
s212,通过所述目标域数据集对所述重预训练骨干模型进行微调,得到数据域间差异的所述最终模型。
[0131]
在本技术实施例中,所述解决数据域间差异的神经网络模型训练的方法,首先获取数据域间差异的源域数据集和目标域数据集,再通过源域数据集对骨干网络模型进行预训练,得到数据域间差异的预训练骨干模型,然后根据目标域数据集、所述预训练骨干模型、全连接网络和/或激活器,获取数据域间差异的源域模型和目标域模型,其次根据所述目标域数据集、所述源域模型和所述目标域模型,获取数据域间差异的评估结果,最后根据所述源域数据集、所述目标域数据集、所述骨干网络模型和所述评估结果,得到数据域间差异的最终模型。本技术实施例所述的方法,能够评估源域数据集和目标域数据集的域间差异,能够使得所述最终模型的输出结果的域间差异问题得到缓解;解决了现有技术中的“维度灾难”问题,保证了计算的效率。
[0132]
请参见图3为本技术实施例提供了一种解决数据域间差异的神经网络模型训练方法的流程示意图。如图3所示,本技术实施例的方法可以包括以下步骤:
[0133]
s301,获取数据域间差异的源域数据集和目标域数据集;
[0134]
s302,通过所述源域数据集对骨干网络模型进行预训练,得到数据域间差异的预训练骨干模型;
[0135]
s303,根据所述预训练骨干模型,构建数据域间差异的下游任务骨干网络模型;
[0136]
s304,根据所述目标域数据集、所述下游任务骨干网络模型和全连接网络,得到数据域间差异的目标域模型。
[0137]
s305,根据所述预训练骨干模型、所述全连接网络和所述目标域模型,得到数据域间差异的所述源域模型。
[0138]
s306,根据所述目标域数据集、所述源域模型和所述目标域模型,获取数据域间差异的经验条件熵;
[0139]
s307,根据所述经验条件熵,获取数据域间差异的总体信息增益差公式;
[0140]
s308,由所述总体信息增益差公式,计算每一样本的单个信息增益差;
[0141]
s309,将多个样本的所述单个信息增益差进行组合,获取数据域间差异的所述评估结果。
[0142]
s310,根据所述评估结果,选取数据域间差异的目标域样本子集;
[0143]
s311,根据所述目标域样本子集、所述源域数据集和所述骨干网络模型,获取数据域间差异的重预训练骨干模型;
[0144]
s312,通过所述目标域数据集对所述重预训练骨干模型进行微调,得到数据域间差异的所述最终模型。
[0145]
在本技术实施例中,所述解决数据域间差异的神经网络模型训练的方法,首先获取数据域间差异的源域数据集和目标域数据集,再通过源域数据集对骨干网络模型进行预训练,得到数据域间差异的预训练骨干模型,然后根据目标域数据集、所述预训练骨干模型、全连接网络和/或激活器,获取数据域间差异的源域模型和目标域模型,其次根据所述目标域数据集、所述源域模型和所述目标域模型,获取数据域间差异的评估结果,最后根据所述源域数据集、所述目标域数据集、所述骨干网络模型和所述评估结果,得到数据域间差异的最终模型。本技术实施例所述的方法,能够评估源域数据集和目标域数据集的域间差异,能够使得所述最终模型的输出结果的域间差异问题得到缓解;解决了现有技术中的“维度灾难”问题,保证了计算的效率。
[0146]
下述为本发明装置实施例,可以用于执行本发明方法实施例。对于本发明装置实施例中未披露的细节,请参照本发明方法实施例。
[0147]
请参见图4,其示出了本发明一个示例性实施例提供的解决数据域间差异的神经网络模型训练装置的结构示意图。该装置1包括:数据获取模块10、预训练模块20、模型获取模块30、评估结果获取模块40和最终模型确定模块50。
[0148]
数据获取模块10,用于获取数据域间差异的源域数据集和目标域数据集;
[0149]
预训练模块20,用于通过所述源域数据集对骨干网络模型进行预训练,得到数据域间差异的预训练骨干模型;
[0150]
模型获取模块30,用于根据所述目标域数据集、所述预训练骨干模型、全连接网络和/或激活器,获取数据域间差异的源域模型和目标域模型;
[0151]
评估结果获取模块40,用于根据所述目标域数据集、所述源域模型和所述目标域模型,获取数据域间差异的评估结果;
[0152]
最终模型确定模块50,用于根据所述源域数据集、所述目标域数据集、所述骨干网络模型和所述评估结果,得到数据域间差异的最终模型。
[0153]
需要说明的是,上述实施例提供的解决数据域间差异的神经网络模型训练装置在执行一种解决数据域间差异的神经网络模型训练方法时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将设备的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的解决数据域间差异的神经网络模型训练装置与一种解决数据域间差异的神经网络模型训练方法实施例属于同一构思,其体现实现过程详见方法实施例,这里不再赘述。
[0154]
上述本技术实施例序号仅仅为了描述,不代表实施例的优劣。
[0155]
在本技术实施例中,所述解决数据域间差异的神经网络模型训练的装置,首先获取数据域间差异的源域数据集和目标域数据集,再通过源域数据集对骨干网络模型进行预
训练,得到数据域间差异的预训练骨干模型,然后根据目标域数据集、所述预训练骨干模型、全连接网络和/或激活器,获取数据域间差异的源域模型和目标域模型,其次根据所述目标域数据集、所述源域模型和所述目标域模型,获取数据域间差异的评估结果,最后根据所述源域数据集、所述目标域数据集、所述骨干网络模型和所述评估结果,得到数据域间差异的最终模型。本技术实施例所述的装置,能够评估源域数据集和目标域数据集的域间差异,能够使得所述最终模型的输出结果的域间差异问题得到缓解;解决了现有技术中的“维度灾难”问题,保证了计算的效率。
[0156]
本发明还提供一种计算机可读介质,其上存储有程序指令,该程序指令被处理器执行时实现上述各个方法实施例提供的解决数据域间差异的神经网络模型训练方法。
[0157]
本发明还提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述各个方法实施例的解决数据域间差异的神经网络模型训练方法。
[0158]
请参见图5,为本技术实施例提供了一种终端的结构示意图。如图5所示,终端1000可以包括:至少一个处理器1001,至少一个网络接口1004,用户接口1003,存储器1005,至少一个通信总线1002。
[0159]
其中,通信总线1002用于实现这些组件之间的连接通信。
[0160]
其中,用户接口1003可以包括显示屏(display)、摄像头(camera),可选用户接口1003还可以包括标准的有线接口、无线接口。
[0161]
其中,网络接口1004可选的可以包括标准的有线接口、无线接口(如wi-fi接口)。
[0162]
其中,处理器1001可以包括一个或者多个处理核心。处理器1001利用各种借口和线路连接整个电子设备1000内的各个部分,通过运行或执行存储在存储器1005内的指令、程序、代码集或指令集,以及调用存储在存储器1005内的数据,执行电子设备1000的各种功能和处理数据。可选的,处理器1001可以采用数字信号处理(digital signal processing,dsp)、现场可编程门阵列(field-programmable gate array,fpga)、可编程逻辑阵列(programmable logic array,pla)中的至少一种硬件形式来实现。处理器1001可集成中央处理器(central processing unit,cpu)、图像处理器(graphics processing unit,gpu)和调制解调器等中的一种或几种的组合。其中,cpu主要处理操作系统、用户界面和应用程序等;gpu用于负责显示屏所需要显示的内容的渲染和绘制;调制解调器用于处理无线通信。可以理解的是,上述调制解调器也可以不集成到处理器1001中,单独通过一块芯片进行实现。
[0163]
其中,存储器1005可以包括随机存储器(random access memory,ram),也可以包括只读存储器(read-only memory)。可选的,该存储器1005包括非瞬时性计算机可读介质(non-transitory computer-readable storage medium)。存储器1005可用于存储指令、程序、代码、代码集或指令集。存储器1005可包括存储程序区和存储数据区,其中,存储程序区可存储用于实现操作系统的指令、用于至少一个功能的指令(比如触控功能、声音播放功能、图像播放功能等)、用于实现上述各个方法实施例的指令等;存储数据区可存储上面各个方法实施例中涉及到的数据等。存储器1005可选的还可以是至少一个位于远离前述处理器1001的存储装置。如图5所示,作为一种计算机存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及车辆运行轨迹数据的可用度分析应用程序。
[0164]
在图5所示的终端1000中,用户接口1003主要用于为用户提供输入的接口,获取用
户输入的数据;而处理器1001可以用于调用存储器1005中存储的解决数据域间差异的神经网络模型训练应用程序,并具体执行以下操作:
[0165]
获取数据域间差异的源域数据集和目标域数据集;
[0166]
通过所述源域数据集对骨干网络模型进行预训练,得到数据域间差异的预训练骨干模型;
[0167]
根据所述目标域数据集、所述预训练骨干模型、全连接网络和/或激活器,获取数据域间差异的源域模型和目标域模型;
[0168]
根据所述目标域数据集、所述源域模型和所述目标域模型,获取数据域间差异的评估结果;
[0169]
根据所述源域数据集、所述目标域数据集、所述骨干网络模型和所述评估结果,得到数据域间差异的最终模型。
[0170]
在一个实施例中,处理器1001在执行根据所述目标域数据集、所述预训练骨干模型、全连接网络和/或激活器,获取数据域间差异的目标域模型时,具体执行以下操作:
[0171]
根据所述预训练骨干模型,构建数据域间差异的下游任务骨干网络模型;
[0172]
根据所述目标域数据集、所述下游任务骨干网络模型、全连接网络和激活器,得到数据域间差异的目标域模型;
[0173]
在一个实施例中,处理器1001在执行根据所述目标域数据集、所述预训练骨干模型、全连接网络和/或激活器,获取数据域间差异的源域模型时,具体执行以下操作:
[0174]
根据所述预训练骨干模型、所述全连接网络、所述激活器和所述目标域模型,得到数据域间差异的所述源域模型。
[0175]
在一个实施例中,处理器1001在执行根据所述目标域数据集、所述预训练骨干模型、全连接网络和/或激活器,获取数据域间差异的目标域模型时,具体执行以下操作:
[0176]
根据所述预训练骨干模型,构建数据域间差异的下游任务骨干网络模型;
[0177]
根据所述目标域数据集、所述下游任务骨干网络模型和全连接网络,得到数据域间差异的目标域模型。
[0178]
在一个实施例中,处理器1001在执行根据所述目标域数据集、所述预训练骨干模型、全连接网络和/或激活器,获取数据域间差异的源域模型时,具体执行以下操作:
[0179]
根据所述预训练骨干模型、所述全连接网络和所述目标域模型,得到数据域间差异的所述源域模型。
[0180]
在一个实施例中,处理器1001在执行所述根据所述目标域数据集、所述源域模型和所述目标域模型,获取数据域间差异的评估结果时,具体执行以下操作:
[0181]
根据所述目标域数据集、所述源域模型和所述目标域模型,获取数据域间差异的经验条件熵;
[0182]
根据所述经验条件熵,获取数据域间差异的总体信息增益差公式;
[0183]
由所述总体信息增益差公式,计算每一样本的单个信息增益差;
[0184]
将多个样本的所述单个信息增益差进行组合,获取数据域间差异的所述评估结果。
[0185]
在一个实施例中,处理器1001在执行所述根据所述源域数据集、所述目标域数据集、所述骨干网络模型和所述评估结果,得到数据域间差异的最终模型时,具体执行以下操
作:
[0186]
根据所述评估结果,选取数据域间差异的目标域样本子集;
[0187]
根据所述目标域样本子集、所述源域数据集和所述骨干网络模型,获取数据域间差异的重预训练骨干模型;
[0188]
通过所述目标域数据集对所述重预训练骨干模型进行微调,得到数据域间差异的所述最终模型。
[0189]
在本技术实施例中,所述解决数据域间差异的神经网络模型训练的方法,首先获取数据域间差异的源域数据集和目标域数据集,再通过源域数据集对骨干网络模型进行预训练,得到数据域间差异的预训练骨干模型,然后根据目标域数据集、所述预训练骨干模型、全连接网络和/或激活器,获取数据域间差异的源域模型和目标域模型,其次根据所述目标域数据集、所述源域模型和所述目标域模型,获取数据域间差异的评估结果,最后根据所述源域数据集、所述目标域数据集、所述骨干网络模型和所述评估结果,得到数据域间差异的最终模型。本技术实施例所述的方法,能够评估源域数据集和目标域数据集的域间差异,能够使得所述最终模型的输出结果的域间差异问题得到缓解;解决了现有技术中的“维度灾难”问题,保证了计算的效率。
[0190]
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成的程序可存储于计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,的存储介质可为磁碟、光盘、只读存储记忆体或随机存储记忆体等。
[0191]
以上所揭露的仅为本技术较佳实施例而已,当然不能以此来限定本技术之权利范围,因此依本技术权利要求所作的等同变化,仍属本技术所涵盖的范围。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献