一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种基于动态卷积的多任务学习的方法及系统与流程

2022-03-26 10:07:37 来源:中国专利 TAG:


1.本发明涉及人工智能技术领域,并且更具体地,涉及一种基于动态卷积的多任务学习的方法及系统。
2.背景
3.多任务学习(multi-task learning,mtl)是一种归纳迁移机制,主要目标是利用隐含在多个相关任务的训练信号中的特定领域信息来提高泛化能力,多任务学习通过使用共享表示并行训练多个任务来完成这一目标。一言以蔽之,多任务学习在学习一个问题的同时,可以通过使用共享表示来获得其他相关问题的知识。归纳迁移是一种专注于将解决一个问题的知识应用到相关的问题的方法,从而提高学习的效率。比如,学习行走时掌握的能力可以帮助学会跑,学习识别椅子的知识可以用到识别桌子的学习,我们可以在相关的学习任务之间迁移通用的知识。目前多任务学习方法大致可以总结为两类,一是不同任务之间共享相同的参数(common parameter),二是挖掘不同任务之间隐藏的共有数据特征(latent feature)。然而不论是哪种方法,与单任务相比,在学习共享表示的同时训练多个任务面临诸多挑战。一方面,针对多任务损失函数的设计始终难以把控,不同任务的权重分配必须保证所有任务同等重要;另一方面,多任务学习的网络结构设计必须同时兼顾特征共享部分和特定任务部分,既要学习不同特征的泛化表示,也要学习每个任务需要的特征。现有的关于多任务学习的方法或多或少都受这两方面挑战的制约。
4.传统的cnn在诸多计算机视觉任务中取得了前所未有的成功,但其性能的提升更多源自模型尺寸与容量的提升以及更大的数据集。模型的尺寸提升进一步加剧了计算量的提升,进一步加大模型的部署难度。现有cnn是对所有样例采用相同的卷积参数。这就导致,为了提升模型的容量,就需要增加模型的参数、深度、通道数,进一步导致模型的计算量加大、部署难度提升。由于上述假设以及终端部署需求,当前高效网络往往具有较少的参数量。然而,在某些计算机视觉应用中(如终端视频处理、自动驾驶),模型实时性要求高,对参数量要求较低。而多任务学习针对不同的任务以及不同的输入,现有的cnn网络在不增加模型尺寸的情况下,很难满足其需求。


技术实现要素:

5.本发明提供了一种基于动态卷积的多任务学习的方法及系统,以解决现有技术中存在的多任务学习的网络结构设计不能同时兼顾特征共享部分和特定任务部分的技术问题。
6.根据本发明的第一个方面,提供了一种基于动态卷积的多任务学习的方法,该方法包括:
7.将图片数据输入到特征共享网络中,利用动态卷积提取所述图片数据针对所有任务的共享特征图;
8.将所述共享特征图分别输入到特定任务网络中,根据语义分割网络以及深度估计网络,提取所述特征图的语义分割特征以及深度估计特征;
9.在语义分割网络以及深度估计网络中,根据空洞空间卷积池化金字塔模型以及注意力模块对所述共享特征图进行处理,确定特定任务特征,所述特定任务特征用于计算所述特定任务的任务结果;
10.根据共享特征提取网络,利用随机梯度下降算法对所述网络进行训练,获得多任务学习模型;
11.将待测试的图像数据输入所述多任务学习模型进行测试。
12.可选地,在语义分割网络以及深度估计网络中,根据空洞空间卷积池化金字塔模型以及注意力模块对所述共享特征图进行处理,确定特定任务特征,包括:
13.在语义分割网络以及深度估计网络中,根据空洞空间卷积池化金字塔模型,生成不同尺度的特征图,所述不同尺度的特征图由四个具有不同扩张率的平行的空洞卷积生成,每个特征图都有不同的感受野;
14.在空洞卷积层之后,由一个卷积核大小为1*1,步长为1的卷积层将不同尺度的特征图拼接在一起,得到兼顾不同粒度特征的特定任务特征。
15.可选地,在语义分割网络以及深度估计网络中,根据空洞空间卷积池化金字塔模型以及注意力模块对所述共享特征图进行处理,确定特定任务特征,还包括:
16.将空洞空间卷积池化金字塔模型处理之后得到的不同尺度的特征图,输入到注意力模块;
17.根据所述注意力模块,学习每一个特征通道的重要程度,获得不同通道的权重,并根据所述权重对特征图进行加权,确定加权后的特征图;
18.所述注意力模块包含一个全局平均池化层,两个全连接层和sigmoid层。所述注意力模块可以自动学习每一个特征通道的重要程度,获得不同通道的权重,并根据所述权重对特征图进行加权,得到最终的特征图。
19.可选地,根据共享特征提取网络,利用随机梯度下降算法对所述网络进行训练,获得多任务学习模型,包括:
20.将所述语义分割特征作为共享特征提取网络,随机初始化所述共享特征提取网络,利用随机梯度下降算法对所述共享特征提取到的网络进行训练;
21.设定学习率,根据语义分割网络以及深度估计网络,确定场景分割任务的损失函数和深度估计任务的损失函数。
22.通过贝叶斯框架,根据场景分割任务的损失函数分量的当前大小确定场景分割任务的损失函数的权重,根据深度估计任务的损失函数分量当前的大小确定深度估计任务的损失函数的权重;
23.根据所述场景分割任务的损失函数的权重以及所述深度估计任务的损失函数的权重,确定多任务学习模型。
24.可选地,所述共享特征包括针对语义分割和深度估计任务的共享特征。
25.根据本发明的另一个方面,提供了一种基于动态卷积的多任务学习的系统,包括:
26.共享特征提取模块,用于将图片数据输入到特征共享网络中,利用动态卷积提取所述图片数据针对所有任务的共享特征图;
27.提取语义分割及深度估计特征模块,用于将所述共享特征图分别输入至特定任务网络中,根据语义分割网络以及深度估计网络,提取所述特征图的语义分割特征以及深度
估计特征;
28.特定任务特征提取模块,用于在语义分割网络以及深度估计网络中,根据空洞空间卷积池化金字塔模型以及注意力模块对所述共享特征进行处理,确定特定任务特征,所述特定任务特征用于计算针对特定任务的任务结果;
29.获得学习模型模块,用于根据共享特征提取网络,利用随机梯度下降算法对所述网络进行训练,获得多任务学习模型;
30.测试图像数据模块,用于将待测试的图像数据输入所述多任务学习模型进行测试。
31.可选地,特定任务特征提取模块,包括:
32.生成不同尺度特征图子模块,用于在语义分割网络以及深度估计网络中,根据空洞空间卷积池化金字塔模型,生成不同尺度的特征图,所述不同尺度的特征图由四个具有不同扩张率的平行的空洞卷积生成,每个特征图都有不同的感受野;
33.得到特定任务特征子模块,用于在空洞卷积层之后,由一个卷积核大小为1*1,步长为1的卷积层将不同尺度的特征图拼接在一起,得到兼顾不同粒度特征的特定任务特征。
34.可选地,特定任务特征提取模块,还包括:
35.输入特征图子模块,用于将空洞空间卷积池化金字塔模型处理之后得到的不同尺度的特征图,输入到注意力模块;
36.确定加权特征图子模块,用于根据所述注意力模块,学习每一个特征通道的重要程度,获得不同通道的权重,并根据所述权重对特征图进行加权,确定加权后的特征图;
37.所述注意力模块包含一个全局平均池化层,两个全连接层和sigmoid层。所述注意力模块可以自动学习每一个特征通道的重要程度,获得不同通道的权重,并根据所述权重对特征图进行加权,得到最终的特征图。
38.可选地,获得学习模型模块,包括:
39.训练网络子模块,用于将所述语义分割特征作为共享特征提取网络,随机初始化所述共享特征提取网络,利用随机梯度下降算法对所述共享特征提取到的网络进行训练;
40.确定损失函数子模块,用于设定学习率,根据语义分割网络以及深度估计网络,确定场景分割任务的损失函数和深度估计任务的损失函数。
41.确定权重子模块,用于通过贝叶斯框架,根据场景分割任务的损失函数分量的当前大小确定场景分割任务的损失函数的权重,根据深度估计任务的损失函数分量当前的大小确定深度估计任务的损失函数的权重;
42.确定学习模型模块,用于根据所述场景分割任务的损失函数的权重以及所述深度估计任务的损失函数的权重,确定多任务学习模型。
43.可选地,所述共享特征包括针对语义分割和深度估计任务的共享特征。
44.从而,在共享特征提取网络部分应用动态卷积,在特定任务特征提取网络部分应用空洞空间卷积池化金字塔以及注意力模块。能够针对不同的输入动态调整卷积核的组合从而学习到适合特定样本的共享特征,能够通过空洞空间卷积池化金字塔模块学习到针对各个子任务的不同粒度的特征,能够通过注意力模块学习到针对特定任务的区分性特征,同时采用硬参数共享框架,相对软参数共享框架能够在一定程度上减少过拟合的风险。
附图说明
45.通过参考下面的附图,可以更为完整地理解本发明的示例性实施方式:
46.图1为本实施方式所述的一种基于动态卷积的多任务学习的方法的流程示意图;
47.图2为本实施方式所述的基于动态卷积的多任务学习框架示意图;
48.图3为本实施方式所述的共享特征提取网络部分动态卷积设计的示意图;
49.图4为本实施方式所述的特定任务特征提取网络部分设计的示意图;
50.图5为本实施方式所述的一种基于动态卷积的多任务学习的系统示意图。
具体实施方式
51.现在参考附图介绍本发明的示例性实施方式,然而,本发明可以用许多不同的形式来实施,并且不局限于此处描述的实施例,提供这些实施例是为了详尽地且完全地公开本发明,并且向所属技术领域的技术人员充分传达本发明的范围。对于表示在附图中的示例性实施方式中的术语并不是对本发明的限定。在附图中,相同的单元/元件使用相同的附图标记。
52.除非另有说明,此处使用的术语(包括科技术语)对所属技术领域的技术人员具有通常的理解含义。另外,可以理解的是,以通常使用的词典限定的术语,应当被理解为与其相关领域的语境具有一致的含义,而不应该被理解为理想化的或过于正式的意义。
53.根据本实施方式的第一个方面,提供了一种基于动态卷积的多任务学习的方法100。参考图1所示,该方法100包括:
54.s101:将图片数据输入到特征共享网络中,利用动态卷积提取所述图片数据针对所有任务的共享特征图;
55.s102:将所述共享特征图分别输入到特定任务网络中,根据语义分割网络以及深度估计网络,提取所述特征图的语义分割特征以及深度估计特征;
56.s103:在语义分割网络以及深度估计网络中,根据空洞空间卷积池化金字塔模型以及注意力模块对所述共享特征图进行处理,确定特定任务特征,所述特定任务特征用于计算所述特定任务的任务结果;
57.s104:根据共享特征提取网络,利用随机梯度下降算法对所述网络进行训练,获得多任务学习模型;
58.s105:将待测试的图像数据输入所述多任务学习模型进行测试。
59.具体地本方法包括:特征共享网络部分设计,特定任务网络部分设计,训练模型,测试模型。
60.步骤(1)、特征共享网络部分设计:
61.场景分割任务为tesk1,深度估计任务为tesk2,共用一个数据集nyu v2。将一个batch的图片输入到特征共享网络中,对于每张图片,利用动态卷积生成特征图。具体地,输入图片x,在常规卷积中,其卷积核参数经训练确定且对所有输入样本“一视同仁”;而在condconv中,卷积核参数参数通过对输入进行变换得到,该过程可以描述为:output(x)=σ((α1w1

αnwn)*x),其中αi=ri(x)一个样本依赖加权参数。在condconv中,每个卷积核wi具有与标准卷积核参数相同的维度。经过上述步骤生成特征图f。
62.步骤(2)、特定任务网络部分设计:
63.将从特征共享网络中学习到的特征图f分别送入两个分支网络,也即子任务网络中,如图1所示。
64.在特征共享网络部分使用特征融合方法以及注意力机制来强制网络去学习针对不同任务的具有区分性的特征,在此模块使用空洞空间卷积池化金字塔(atrous spatial pyramid pooling)模型。具体而言,aspp模块提供多个特征图,每个特征图的特征具有不同的比例、感受野和注意模块。然后,由四个具有不同扩张速率的平行扩张卷积生成多尺度特征映射,即1、6、12、18。在平行扩展卷积层之后,级联特征映射被一个核为1
×
1和步长1的卷积层融合。
65.在aspp模块之后,插入了一个注意力模块(squeeze-excitation block),该模块包含一个全局平均池化层,两个全连接层和一个sigmoid层。所述注意力模块可以自动学习每一个特征通道的重要程度,获得不同通道的权重,并根据所述权重对特征图进行加权,由此得到最终的特征图。这样,网络就被引导到关注有意义的、针对特定任务的特征以获得准确的结果。
66.步骤(3)、训练模型:
67.将借助动态卷积改进过的segnet作为共享特征提取网络,随机初始化网络,利用随机梯度下降算法对网络进行训练,设置学习率为0.01,损失函数结合了场景分割和深度估计两个任务的损失函数,从预测不确定性的角度引入贝叶斯框架,根据各个损失分量当前的大小自动设定其权重。
68.步骤(4)、测试模型:
69.输入测试图像数据至该多任务学习模型,得到场景分割和深度估计结果。
70.从而,在共享特征提取网络部分应用动态卷积,在特定任务特征提取网络部分应用空洞空间卷积池化金字塔和注意力模块。从而能够针对不同的输入动态调整卷积核的组合从而学习到适合特定样本的共享特征,能够通过空洞空间卷积池化金字塔模块学习到针对各个子任务的不同粒度的特征,能够通过注意力学习到针对特定任务的特征,同时采用参数共享框架,相对参数软共享框架能够在一定程度上大大减少过拟合的风险。
71.可选地,在语义分割网络以及深度估计网络中,根据空洞空间卷积池化金字塔模型以及注意力模块对所述共享特征图进行处理,确定特定任务特征,包括:
72.在语义分割网络以及深度估计网络中,根据空洞空间卷积池化金字塔模型,生成不同尺度的特征图,所述不同尺度的特征图由四个具有不同扩张率的平行的空洞卷积生成,每个特征图都有不同的感受野;
73.在空洞卷积层之后,由一个卷积核大小为1*1,步长为1的卷积层将不同尺度的特征图拼接在一起,得到兼顾不同粒度特征的特定任务特征。
74.可选地,在语义分割网络以及深度估计网络中,根据空洞空间卷积池化金字塔模型以及注意力模块对所述共享特征图进行处理,确定特定任务特征,还包括:
75.将空洞空间卷积池化金字塔模型处理之后得到的不同尺度的特征图,输入到注意力模块;
76.根据所述注意力模块,学习每一个特征通道的重要程度,获得不同通道的权重,并根据所述权重对特征图进行加权,确定加权后的特征图;
77.所述注意力模块包含一个全局平均池化层,两个全连接层和sigmoid层。所述注意
力模块可以自动学习每一个特征通道的重要程度,获得不同通道的权重,并根据所述权重对特征图进行加权,得到最终的特征图。
78.可选地,根据共享特征提取网络,利用随机梯度下降算法对所述网络进行训练,获得多任务学习模型,包括:
79.将所述语义分割特征作为共享特征提取网络,随机初始化所述共享特征提取网络,利用随机梯度下降算法对所述共享特征提取到的网络进行训练;
80.设定学习率,根据语义分割网络以及深度估计网络,确定场景分割任务的损失函数和深度估计任务的损失函数。
81.通过贝叶斯框架,根据场景分割任务的损失函数分量的当前大小确定场景分割任务的损失函数的权重,根据深度估计任务的损失函数分量当前的大小确定深度估计任务的损失函数的权重;
82.根据所述场景分割任务的损失函数的权重以及所述深度估计任务的损失函数的权重,确定多任务学习模型。
83.可选地,所述共享特征包括针对语义分割和深度估计任务的共享特征。
84.根据本实施方式的另一个方面,提供了一种基于动态卷积的多任务学习的系统500。参考图5所示,该系统500包括:
85.提取共享特征模块510,用于将图片数据输入到特征共享网络中,利提取所述图片数据的共享特征图;
86.提取语义分割及深度估计特征模块520,用于将所述共享特征图分别输入至特定任务网络中,根据语义分割网络以及深度估计网络,提取所述特征图的语义分割特征以及深度估计特征;
87.特定任务特征提取模块530,用于在语义分割网络以及深度估计网络中,根据空洞空间卷积池化金字塔模型以及注意力模块对所述共享特征进行处理,确定特定任务特征,所述特定任务特征用于计算针对特定任务的任务结果;
88.获得学习模型模块540,用于根据共享特征提取网络,利用随机梯度下降算法对所述网络进行训练,获得多任务学习模型;
89.测试图像数据模块550,用于将待测试的图像数据输入所述多任务学习模型进行测试。
90.可选地,提取共享特征模块510,包括:
91.提取共享特征子模块,用于将图片数据输入到特征共享网络中,利用动态卷积提取所述图片数据的共享特征。
92.可选地,特定任务特征提取模块,包括:
93.生成不同尺度特征图子模块,用于在语义分割网络以及深度估计网络中,根据空洞空间卷积池化金字塔模型,生成不同尺度的特征图,所述不同尺度的特征图由四个具有不同扩张率的平行的空洞卷积生成,每个特征图都有不同的感受野;
94.得到特定任务特征子模块,用于在空洞卷积层之后,由一个卷积核大小为1*1,步长为1的卷积层将不同尺度的特征图拼接在一起,得到兼顾不同粒度特征的特定任务特征。
95.可选地,特定任务特征提取模块,还包括:
96.输入特征图子模块,用于将空洞空间卷积池化金字塔模型处理之后得到的不同尺
度的特征图,输入到注意力模块;
97.确定加权特征图子模块,用于根据所述注意力模块,学习每一个特征通道的重要程度,获得不同通道的权重,并根据所述权重对特征图进行加权,确定加权后的特征图;
98.所述注意力模块包含一个全局平均池化层,两个全连接层和sigmoid层。所述注意力模块可以自动学习每一个特征通道的重要程度,获得不同通道的权重,并根据所述权重对特征图进行加权,得到最终的特征图。
99.可选地,获得学习模型模块,包括:
100.训练网络子模块,用于将所述语义分割特征作为共享特征提取网络,随机初始化所述共享特征提取网络,利用随机梯度下降算法对所述共享特征提取到的网络进行训练;
101.确定损失函数子模块,用于设定学习率,根据语义分割网络以及深度估计网络,确定场景分割任务的损失函数和深度估计任务的损失函数。
102.确定权重子模块,用于通过贝叶斯框架,根据场景分割任务的损失函数分量的当前大小确定场景分割任务的损失函数的权重,根据深度估计任务的损失函数分量当前的大小确定深度估计任务的损失函数的权重;
103.确定学习模型模块,用于根据所述场景分割任务的损失函数的权重以及所述深度估计任务的损失函数的权重,确定多任务学习模型。
104.可选地,所述共享特征包括针对语义分割和深度估计任务的共享特征。
105.本发明的实施例的一种基于动态卷积的多任务学习的系统500与本发明的另一个实施例的一种基于动态卷积的多任务学习的方法100相对应,在此不再赘述。
106.本领域内的技术人员应明白,本技术的实施例可提供为方法、系统、或计算机程序产品。因此,本技术可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本技术可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd-rom、光学存储器等)上实施的计算机程序产品的形式。本技术实施例中的方案可以采用各种计算机语言实现,例如,面向对象的程序设计语言java和直译式脚本语言javascript等。
107.本技术是参照根据本技术实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
108.这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
109.这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
110.尽管已描述了本技术的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本技术范围的所有变更和修改。
111.显然,本领域的技术人员可以对本技术进行各种改动和变型而不脱离本技术的精神和范围。这样,倘若本技术的这些修改和变型属于本技术权利要求及其等同技术的范围之内,则本技术也意图包含这些改动和变型在内。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献