一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种面向分布外泛化的领域感知稳定元学习方法

2022-11-30 15:14:31 来源:中国专利 TAG:


1.本发明属于迁移学习领域,更确切的说,本发明涉及一种基于元学习的分布外泛化方法。


背景技术:

2.作为迁移学习的一个重要分支,模型的分布外泛化能力在最近的研究中受到了广泛的关注。这种学习范式旨在使深度学习模型有效地推广到分布外的数据中,特别是对看不见的目标分布数据。一般来说,由于源域和目标域之间不可避免的分布转移,经典的学习方法不能直接部署,甚至在未知目标域中难以工作。因此,设计一种有效的分布外泛化学习方法是一个具有挑战性的问题。
3.现有的大多数方法集中在数据操纵、表示学习和学习策略上:数据操作的重点是操纵输入数据以获得学习的一般表示,如领域随机化、对抗性数据增强、数据生成。表示学习是目前最流行的领域泛化方法之一,其中包括使用显式特征对齐的核函数方法、域对抗学习和不变风险最小化。特征解纠缠则是试图将特征分解为领域共享或领域特定的部分,以便更好地泛化,如多成分分析和生成建模。学习策略侧重于设计和利用可泛化的学习策略或依赖集成多种模型的来学习统一的具有强泛化能力的预测函数,如元学习和集成学习。
4.本质上,元学习作为一种有效的知识转移范式通过缩小每个小范围内的域转移来学习具有高泛化能力的基础模型。与一般的泛化方法不同,元学习方法从先验任务中学习元知识用于指导基模型的学习过程,从而缓解域转移过大的问题,使得基模型具有较强的泛化能力。近年来越来越多的研究关注元学习方法并取得了令人兴奋的进展,但这些方法仍然存在一些阻碍进一步提升模型的泛化性能的局限性。


技术实现要素:

5.本发明所要解决的技术问题是大多数元学习方法假设基模型在训练过程中可以访问域标签,但这个假设在许多真实的应用程序场景中是十分苛刻的,导致模型难以应用和部署。此外,现有的元学习方法侧重于缩小数据级域转移,而忽略了任务级域转移会导致不充分的泛化甚至会发生负迁移现象。为了克服这些问题,本发明提出一种面向分布外泛化的领域感知稳定元学习方法,在避免模型在元训练阶段访问域标签的同时捕获具有强分布外泛化能力的域不变表示。
6.为达到上述目标,本发明提出的面向分布外泛化的领域感知稳定元学习方法的技术方案包括如下步骤:
7.步骤一:由基于n-way k-shot的元学习任务构建模块对分布外泛化的数据进行采样,构建多样化的元任务,作为提取元知识的重要学习单元,每个任务包含多个训练域数据,并具有不同程度的域转移。
8.(1)给定由特征空间x和标签空间y构成的联合分布中采样的数据
并将其作为一个域,对于每一个域中的元素(x,y)∈d用和分别表示特征和标签。
9.(2)指定m个域并将其作为训练的源域其中di表示第i个源域,其中任意两个源域di和dj的联合分布是不相同的,即对于任意i和j若1≤i≠j≤m则
10.(3)从源域ds数据组成的元数据集中按照n-way k-shot的模式进行采样任务,其中对于任意源域di,随机选取n个标签{c1,

,cn}作为待采样标签,并在di中对于任意标签ci∈{c1,

,cn}进行采集k个样本,保证任务的无偏和多样性。
11.(4)将任务构建模块作为黑盒模型整体,其输入为源域输出为任务集合τ,其定义如下:
12.τ={t1,

,tn}
[0013][0014][0015]
其中ti为第i个被采样任务由从多个源域中采样的数据构成,表示第i个被采样任务中从源域dz中采样的数据,待采样标签为c
p
∈{c1,

,cn}。
[0016]
步骤二:对于一般的元学习方法,通常将预测结果用于获得可推广的元知识,从而减少了系统偏差,提高基模型在假设空间中的搜索能力。但由于源域与看不见域之间的分布差异,可能导致不充分甚至负转移。此外,大多数现有的元学习方法都假设基础模型可以访问捷径域标签当缺乏域标签时,该模型不能推广到看不见的域。
[0017]
(1)根据社会影响理论,同一聚类中的数据往往具有相似的特征属性和分布模式。我们通过考虑正相对模式,使得样本的分类更加容易,并且通过聚类提供了额外的冗余信息,使分类决策具有鲁棒性。
[0018]
(2)在元训练阶段,我们使用多层感知机mlpsf
θ
()用以捕获输入数据x的高层次元表示,其定义如下:
[0019]
h=f
θ
(x)
[0020]
其中h为所获取的高层次元表示,θ为多层感知机的可学习参数。
[0021]
(3)对于在元训练过程中单一任务的数据x={x1,

,xn},利用f
θ
()获取所有输入样本的高层次元表示矩阵h,其定义如下:
[0022]
h=f
θ
(x)
[0023]
(3)我们将表示高层次元表示矩阵h在其相应的嵌入空间中进行聚类,并利用聚类结果作为伪域标签。具体来说,我们采用可扩展的聚类模块(如k-means)将高层次元表示矩阵h分割成多个不重叠的簇:{c1,

,cn},其中n是簇的数量,其过程定义如下:
[0024]
c1,

,cn=c(h)
[0025]
其中c()为k-means聚类函数,其通过尝试将样本分离到n个等方差组中来对数据进行聚类。此算法需要指定聚类数的簇的数量n,其计算过程定义如下:
[0026][0027]
其中min(
·
)为最小化函数,||
·
||2为计算二范数运算符。
[0028]
步骤三:现有的方法仅通过对齐数据级域的移位来学习域不变表示以减少分布差异是不够的。任务作为元学习的训练元素,这意味着更多的未开发的分布模式和冗余的信息。因此,需要进一步探索任务级领域的转移,以实现更完整的泛化。此外,传统的元学习方法往往利用经验风险最小化优化基模型而不是不变风险最小化,这也导致基础模型无法提取具有较强泛化能力的域不变表示。
[0029]
(1)我们利用瓦瑟斯坦距离将域对齐约束构造为最终联合损失中的不变风险最小化正则化,以提取具有较强泛化能力的域不变表示。
[0030]
(2)瓦瑟斯坦距离w是一种评估两个分布之间的距离的测量方法,它可以为梯度下降参数的更新提供更平滑的结果。给定来自源域的两个表示矩阵和它们的瓦瑟斯坦距离可以定义为:
[0031][0032]
其中,表示利用伪域标签ci进行采样的样本高层次元表示,inf表示取下界运算符,||
·
||2为计算二范数运算符。
[0033]
(3)瓦瑟斯坦距离减小了不同域联合分布的差异,域对齐约束可以定义为:
[0034][0035]
其中,为利用伪域标签ci进行采样的样本高层次元表示矩阵,n表示每个任务t∈τ所采样的源域数量。
[0036]
步骤四:在元训练过程中,我们利用交叉熵损失和域对齐约束,共同优化了一个元目标损失函数,这种训练策略使获得更有识别能力的域不变表示成为可能。
[0037]
(1)形式上,我们使用域感知转换模块f
θ
(
·
)和投影头g
φ
(
·
)的联合模块作为基础模型,其中θ和φ分别表示它们的参数。
[0038]
(2)我们设计了总体的元目标损失函数,其定义如下:
[0039][0040]
其中,为域感知转换模块f
θ
(
·
)和投影头g
φ
(
·
)的联合模块,n为任务的数量,γ为超参数,τ为任务集合,为任务t的域对齐约束。
[0041]
(3)在内部优化过程中,对于同一批的不同任务,基模型使用相同的参数θ和φ作为联合模型的初始化,并根据不同的任务学习针对特定任务的参数和
[0042]
(4)我们在每个任务的支撑集上评估基模型并在没有任何优化步骤的情况下获得元损失,作为指导基础模型的元知识。给定任务集合τ,任务t∈τ的内循环优化过
程正式定义如下:
[0043][0044][0045]
其中,s
t
为任务t的支持集,α和γ为超参数,和是基模型在初始化参数θ和φ的基础上进行优化更新的结果。
[0046]
(5)在外部优化过程中,我们使用元损失对基础模型进行元优化,可以定义如下:
[0047][0048][0049]
其中,q
t
为任务t的查询集,β和γ为超参数。
[0050]
通过本发明所构思的以上技术方案,能够取得以下有益效果:
[0051]
我们注意到,大多数现有的元学习方法都假设基本模型可以访问捷径域标签,但在实际应用中并不能总是得到满足。我们应该以更少的努力和资源的方式来探索获取领域标签的视角。此外,这些方法经常缩小域不变元知识的域移。直观上,我们认为任务内部转移(数据水平域转移)远小于任务外部转移(任务级域转移),因此,任务级域转移对泛化模型的影响相对较大。为此,我们提供了一个元学习框架smlg。具体来说,我们首先以n-way k-shot的方式对混合源域的任务进行采样,用于训练基础模型。其次,我们设计了一个域感知转换模块来学习高级元表示,并获得伪域标签。它保证了基础模型能够很好地学习域不变表示,即使没有细粒度的特征,也能使后续的预测器具有更好的分类性能。然后,我们设计了域对齐约束来减少数据级和任务级域位移的影响。最后,在元训练过程中,利用交叉熵损失和域对齐约束联合对基模型进行优化,提高基模型的泛化能力,实现分布外泛化。
[0052]
综上所述,本发明提出了一种新的领域感知稳定元学习框架的分布外泛化,名为smlg,它可以有效地使基础模型很好地推广到不可见的领域。通过构造一个域感知的转换模块来获得元表示和伪域标签,从而可以在不缩短域标签的情况下很好地学习基模型。与此同时,为了更好地探讨不同层次域位移的影响,采用交叉熵和域对齐约束的联合损失优化模型进一步提升模型的泛化能力。
附图说明
[0053]
图1是本发明实施例提供的面向分布外泛化的领域感知稳定元学习方法的流程框图。
[0054]
图2是本发明实施例提供的面向分布外泛化的领域感知稳定元学习方法的详细图解。
具体实施方式
[0055]
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并
不用于限定本发明。此外,下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。
[0056]
如图1所示,本发明实施例为面向分布外泛化的领域感知稳定元学习方法,该方法具体包括:
[0057]
step1:输入数据为m个域并将其作为训练的源域其中di表示第i个源域,其中任意两个源域di和dj的联合分布是不相同的,即对于任意i和j若1≤i≠j≤m则
[0058]
step2:利用预训练模型pre()获取样本x的初始表示:
[0059]
x=pre(x)
[0060]
其中,预训练模型pre()为resnet-18网络。
[0061]
step3:从源域ds数据组成的元数据集中按照n-way k-shot的模式进行采样任务,其中对于任意源域di,随机选取n个标签{c1,

,cn}作为待采样标签,并在di中对于任意标签ci∈{c1,

,cn}进行采集k个样本。、将任务构建模块的输入为源域输出为任务集合τ,其定义如下:
[0062]
τ={t1,

,tn}
[0063][0064][0065]
其中ti为第i个被采样任务由从多个源域中采样的数据构成,表示第i个被采样任务中从源域dz中采样的数据,待采样标签为c
p
∈{c1,

,cn}。
[0066]
step4:使用域感知转换模块f
θ
(
·
)和投影头g
φ
(
·
)的联合模块作为基础模型,其中θ和φ分别表示它们的参数,并对其进行初始化。
[0067]
step5:使用多层感知机mlpsf
θ
()用以捕获输入数据x的高层次元表示,其定义如下:
[0068]
h=f
θ
(x)
[0069]
其中h为所获取的高层次元表示,θ为多层感知机的可学习参数。
[0070]
step6:采用可扩展的聚类模块(如k-means)将高层次元表示矩阵h分割成多个不重叠的簇:{c1,

,cn},其中n是簇的数量,其过程定义如下:
[0071]
c1,

,cn=c(h)
[0072]
其中c()为k-means聚类函数,其通过尝试将样本分离到n个等方差组中来对数据进行聚类。
[0073]
step7:利用投影头g
φ
(
·
)进行分类结果预测。
[0074]
step8:获取簇中心c1,

,cn=c(h)。
[0075]
step9:计算交叉熵损失
[0076]
step10:在每个任务的支撑集上评估基模型并在没有任何优化步骤的情况下获得元损失,作为指导基础模型的元知识,其定义如下:
[0077][0078]
其中为任务t的查询集s
t
上的交叉熵损失,为任务t在查询集s
t
上的域对齐约束,γ为超参数。
[0079]
step11:利用step10中获得的元损失,在给定任务集合τ,任务t∈τ的内循环参数更新过程定义如下:
[0080][0081][0082]
其中,s
t
为任务t的支持集,α和γ为超参数,和是基模型在初始化参数θ和φ的基础上进行优化更新的结果。
[0083]
step12:判断是否满足内循环迭代次数,若满足则进入step13,若不满足则进入step4继续执行。
[0084]
step13:在每个任务的查询集上评估基模型并在没有任何优化步骤的情况下获得元损失,作为指导基础模型的元知识,其定义如下:
[0085][0086]
其中,q
t
为任务t的查询集,γ为超参数,为内循环优化后的模型。
[0087]
step14:在外部优化过程中,我们使用step13中所获得的元损失对基础模型进行元优化,可以定义如下:
[0088][0089][0090]
其中,q
t
为任务t的查询集,β和γ为超参数。
[0091]
step15:判断是否满足外循环迭代次数,若满足则进入step16,若不满足则进入step4继续执行。
[0092]
step16:输出最后得到的联合基模型的参数θ和φ,用以获得具有强泛化能力的样本表示。
[0093]
图2所示的是本发明的详细图解。我们提出了一种新的领域感知稳定的元学习泛化框架(smlg)。具体来说smlg主要由三个部分组成:任务构建模块,域感知信息转换模块和域对齐约束。首先利用任务构建模块对多源域数据进行任务采样。为了避免模型在元训练阶段访问域标签,同时获得具有泛化能力的域不变表示。我们设计了一个域感知的转换模块来学习高级元表示,并利用聚类方法来获得伪域标签。这确保了预测器可以在没有细粒度特性和域标签的情况下获得更好的性能。此外,我们设计了域对齐约束来减少数据级和任务级域转移的影响。然后,利用联合损失对不变风险最小化的基础模型进行优化,以提高基模型的泛化能力。
[0094]
以上公开的仅为本发明的几个具体实施例,本领域的技术人员可以对本发明实施例进行各种改动和变型而不脱离本发明的精神和范围,但是,本发明实施例并非局限于此,任何本领域的技术人员能思之的变化都应落入本发明的保护范围内。
再多了解一些

本文用于创业者技术爱好者查询,仅供学习研究,如用于商业用途,请联系技术所有人。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献