一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

基于多专家混合的图像分割释义方法、电子设备和存储介质

2023-02-04 16:20:01 来源:中国专利 TAG:


1.本发明属于图像分割以及可解释性模型技术领域,具体涉及基于多专家混合的图像分割释义方法、电子设备和存储介质。


背景技术:

2.近年来,随着深度学习的发展,越来越多的研究者致力于将深度学习应用于图像领域,包括但不限于图像分类,目标检测,图像分割,图像生成等,也提出了许多经典网络模型来适应不同的图像任务,例如常用分类网络alexnet,经典目标检测网络yolo,全卷积神经网络fcn等。但这些网络大多都是“黑盒模型”,网络的学习和目标全都是自适应的,技术人员无法得知网络或其分支在训练过程中到底在做什么;或者仅仅根据训练好的网络针对网络不同层级的输出或者热力图进行基于结果的逆向分析,但是这两者其实都没有实现网络训练层面的可解释。
3.1991年多专家混合模型首次提出,到近年来,基于多专家混合来强化图像任务的工作也有一些,但大多数都是利用多专家来增加网络宽度,提升网络性能,并没有对每个专家网络所作工作的分析和解耦。其实,这些工作大多可以说是网络聚合的工作,将一些“小黑盒”组装成一个更大的“黑盒”,而没有发挥专家网络之间的独立性和针对性,其网络的训练过程最后也还是无法解释的。


技术实现要素:

4.为了克服上述现有技术存在的不足,本发明的目的在于提供基于多专家混合的图像分割释义方法、电子设备和存储介质,以解决现有图像分割不具有真正可解释性的问题,并藉此进一步优化图像分割效果。
5.为了实现上述目的,本发明采用的技术方案是:
6.基于多专家混合的图像分割释义方法、电子设备和存储介质,通过多专家混合网络以及让专家保持独立性的学习过程的附加损失,来实现专家网络的解耦以及分支网络层面和聚合网络层面的可解释,基于此方法,可以让专家网络在特征提取时只关注自己需要的少量特征,解码时只致力于生成自己负责部件的分割图像,发挥各个专家的

专长’,让多元分割问题,能够分化为单分割问题,大大提升了多专家网络在图像分割任务中的可拓展性和多异构网络聚合的可能性。
7.基于多专家混合的图像分割释义方法,具体包括以下步骤;
8.步骤1,构建多专家混合网络;
9.步骤2,将原图像数据集中的标签按部件进行分割重构形成部件标签数据,将多元分割任务简化单分割任务;
10.步骤3,分别使用各个专家网络的编码器即特征提取模块对原始图像数据的特征进行提取,各个专家在反向传播中通过损失函数计算模块和传入损失函数计算模块的仅自己可见的部件标签数据以及各自输出的预测图进行参数优化,优化过程中各个专家都将不
断提取自己所需的特征,丢弃无用特征,以最小化多专家混合网络和网络聚合模块的损失;
11.步骤4,分别使用各个专家网络的解码器即图像生成模块对专家各自提取的特征进行分割部件图像的生成,最终对各个专家网络的输出进行聚合,得到多专家混合网络的分割结果,也即是最终的分割预测图。
12.所述多专家混合网络包括多个同构或者异构的图像分割网络,即专家网络、网络聚合模块由门控网络或路由网络构成、损失函数计算模块建模模型损失;
13.所述图像分割网络,就是把图像分成若干个特定的、具有独特性质的区域的基于深度学习算法的网络模型;例如fcn、segnet以及unet等;
14.所述多专家混合网络,用于提取原图像数据集中不同部件的特征,并针对性的生成不同部件的分割图;
15.原图像数据集,是由rgb或argb多通道彩色图片构成的所需分割对象的数据集合和单通道灰度图片构成的所需分割对象对应标签的数据集合共同组成的。
16.部件标签数据集,是将原图像数据集对应的标签按照一定规则划分为多个不同部件标签得到的。
17.所述部件,是原图像数据集中分割对象对应标签的某一部分,所有部件标签共同构成一个对象标签。
18.进一步的,所述网络聚合模块,由门控网络或路由网络构成,前者用于根据将原图片数据或者各个专家编码器输出的特征图作为输入生成的专家权重,对多专家混合网络中的多个专家输出的预测图进行加权聚合得到原图像分割对象的整体预测图;后者用于对原图片按一定比例分块并采取overlap方法得到的多个分块子图进行分类路由,并给出每个分块子图对应部件的路由分数作为路由算法的路由依据,多专家混合网络的各个专家根据分块子图对应各个部件的路由分数和一定的路由算法,得到各自的分块子图作为输入,并输出对应块的预测图,线性合并所有专家输出的预测图得到原图像分割对象的整体预测图;
19.所述分块子图是指,按一定比例和overlap方法对原图片进行分块得到的子图,如原图为224x224大小,按比例1/4对原图进行分块,得到16个56x56的子块,而overlap方法指的是按特定大小保留分块的周边区域,让相邻子块有重叠信息。
20.所述损失函数计算模块,用于计算多专家混合网络对于输入图像数据的分割损失,以及各个专家网络对于各个部件的分割损失,并将计算结果反馈至多专家混合网络和网络聚合模块,对其参数进行优化更新。
21.进一步的,所述多专家混合分割网络模型的损失函数loss如下:
[0022][0023]
其中weight
moe
表示对所有组件构成的最终分割结果的损失权重,moe表示所有组件构成输出的最终分割结果,表示多专家混合网络总输出对于样本的loss,n表示专家网络的数量,ei表示第i个专家网络的分割结果输出,表示每个专家对于样本的损失。
[0024]
进一步的,所述损失函数的计算如下:
[0025][0026]
其中为mse(均方误差)函数;h,w分别为输出的单通道分割图像的行和列的像素数量;y_pred
(x,y)
表示输出的分割图像在横坐标为x,纵坐标为y处的像素值;y_true
(x,y)
表示部件的标签在横坐标为x,纵坐标为y处的像素值;
[0027]
进一步的,所述步骤3中图像分割过程如下:
[0028]
步骤31,将原始图片分成n份(使用路由网络则将原图片按一定比例进行分块和overlap),并分别送入多专家混合网络中的各个专家网络的编码器中,各个专家在反向传播中通过损失函数计算模块和传入损失函数计算模块的仅自己可见的部件标签数据以及各自输出的预测图进行参数优化,优化过程中各个专家都将不断提取自己所需的特征encoderi(x),丢弃无用特征,以最小化多专家混合网络和网络聚合模块的损失。
[0029]
进一步的,所述步骤4中图像分割过程如下:
[0030]
步骤41,多专家混合网络中的各个专家网络对各自编码器的输出,即encoderi(x)进行分割部件图的生成即ei=decoderi(encoderi(x));
[0031]
步骤42,将多专家混合网络中的各个专家的编码器的输出以一定方式融合,构成门控网络的输入,并经由门控网络的全局池化层、卷积层以及全连接层输出得到各个专家的权重向量,即we=gate(concat(encoderi(x)|i∈(0,n)));
[0032]
步骤43,最后,将多专家混合网络中的各个专家网络的输出进行加权合并,得到最终的多专家混合网络的分割输出结果,即
[0033]
进一步的,所述gate为简单门控网络,由gap(全局平均池化)模块、conv2d
1x1
(卷积模块)和fc(前馈神经网络模块)构成。
[0034]
一种电子设备,包括处理器、存储器和通信总线,其中,处理器、存储器通过通信总线完成相互间的通信;
[0035]
存储器,用于存放计算机程序;
[0036]
处理器,用于执行存储器上所存放的程序时,实现上述的方法步骤。
[0037]
一种计算机可读存储介质,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现上述的方法步骤。
[0038]
本发明的有益效果:
[0039]
1、本发明利用多专家混合网络以及相应的附加损失,使得专家的学习具有可解释性、可控性和针对性;
[0040]
2、本发明通过对多专家混合网络中的各个专家网络进行解耦,实现了相比于多专家聚合网络的“黑盒”模型,给与每个专家对不同部件的分割的可解释性,以及整体网络分割性能和精度的均衡和提升;
[0041]
3、本发明还为多专家异构网络的聚合提供了参考,让异构专家负责自己擅长的部件或者任务并聚合成一个网络整体成为了可能。
附图说明
[0042]
图1是基于多专家混合的可解释的图像分割网络图(门控方式)。
[0043]
图2是基于多专家混合的可解释的图像分割网络图(路由方式)。
具体实施方式
[0044]
下面结合附图对本发明作进一步详细说明。
[0045]
如前所述,现有深度学习用于图像处理时,缺乏在训练层面的可解释性,本发明提出了基于多专家混合的可解释的图像分割方法,在该方法中,通过多专家混合网络以及让专家保持独立性的学习过程的附加损失,实现专家网络的解耦以及分支网络层面和聚合网络层面的可解释,基于此方法,可以让专家网络在特征提取时只关注自己需要的少量特征,解码时只致力于生成自己负责部件的分割图像,发挥各个专家的

专长’,让多元分割问题,能够分化为单分割问题,从而大大提升多专家网络在图像分割任务中的可拓展性和多异构网络聚合的可能性。
[0046]
为便于理解,对本发明涉及的概念说明如下:
[0047]
多专家:
[0048]
多专家又指多专家网络,指的是多个神经网络即多个专家,每个专家被选择应用于数据集的不同部分或者用于处理不同的任务或部件,本发明中特指不同部件。
[0049]
释义方法:
[0050]
释义方法即解释方法,在本发明中特指应用于图像分割的可解释方法。
[0051]
如图1所示,基于多专家混合的图像分割释义方法,包括以下步骤:
[0052]
步骤s1,构建多专家混合网络,如图1所示,多专家混合网络包括多个同构或者异构的图像分割网络,即专家网络;
[0053]
所述多专家混合网络用于提取原始图像数据中不同部件的特征encoderi(x),并针对性的生成不同部件的分割图ei=decoderi(encoderi(x));其中encoderi是包括但不限于使用多个卷积和最大池化的特征提取块组合成的特征提取网络。其中decoderi是包括但不限于由多个上采样和非线性卷积构成的解码模块;ei代表第i个专家网络的输出;
[0054]
所述网络聚合模块,由门控网络或路由网络构成:
[0055]
前者用于根据将原图片数据或者各个专家编码器输出的特征图作为输入生成的专家权重,即:
[0056]
we=gate(concat(encoderi(x)|i∈(0,n)))
[0057]
对多专家混合网络中的多个专家输出的预测图进行加权聚合得到原图像分割对象的整体预测图;所述原图像分割对象的整体预测图的生成过程如下:
[0058]
原始图片输入为x
h*w*c
,经过encoderi(x),和concat处理得到按通道拼接的门控网络输入[encoder1,encoder2,encoder3,...,encodern],记为fn;经过门控网络,gate(fn),后得到专家的权重向量we=[w1,w2,w3,...,wn];最后对所有的专家网络模块的输出进行加权合并,即
[0059]
其中gate(fn)=softmax(fcn(fc
128
(conv2d
1x1
(gap(fn)))));
[0060]
后者用于对原图片按一定比例分块并采取overlap方法得到的多个分块子图,记为patches;对patches进行分类路由,并给出每个分块子图对应部件的路由分数,即作为路由算法的路由依据。其中n为原始图像的分块子图的数
量,经过分类后可以得到维度为nxc的概率从属矩阵:
[0061][0062]
其中表示索引为i的分块子图属于partj的概率;将分类器的输出送入路由器进行路由,传递给专家网络的编码器,部分动态路由算法可写作:
[0063]
多专家混合网络的各个专家根据分块子图对应各个部件的路由分数和路由算法,得到各自的分块子图作为输入,并输出对应块的预测图,线性合并所有专家输出的预测图得到原图像分割对象的整体预测图;
[0064]
所述路由算法包括动态路由算法如基于专家选择的top-k、基于样本选择的top-k等和静态路由算法如hash-router等,部分动态路由算法可写作:
[0065][0066]
所述分块子图是指,按一定比例和overlap方法对原图片进行分块得到的子图,如原图为224x224大小,按比例1/4对原图进行分块,得到16个56x56的子块。而overlap方法指的是按特定大小保留分块的周边区域,让相邻子块有重叠信息。
[0067]
所述损失函数计算模块,用于计算多专家混合网络对于输入图片中分割对象的分割损失,以及各个专家网络对于输入图片中分割对象的各个部件的分割损失,并将计算结果反馈至多专家混合网络和网络聚合模块,对其参数进行优化更新;
[0068]
建立基于多专家混合的图像分割释义方法的损失函数;
[0069]
基于多专家混合的图像分割释义方法的目的是在能够可解释专家工作的前提下,完成多部件分割任务,即让每个专家对自己的部件的分割预测负全部或者主要责任,体现在损失函数上即为对每个专家网络的输出与原图像数据集中分割对象的部件标签进行均方误差计算,各个专家的输出经由网络聚合模块合并后得到的总分割图像则作为整体分割效果的评测,体现在损失函数上即为对多专家混合的输出和标签进行均方误差计算;损失函数各部分的确定过程如下:
[0070]
(1)为了保证每个专家都有针对的进行学习,本实例设置了每个专家的附加损失,让每个专家对于全部件的输入数据只看到或注重于单一部件的标签数据,从而使得专家的特征提取和分割图像生成具有针对性和可控性,所述附加损失函数展开为
[0071]
(2)仅关注各个专家网络的部件分割并不一定能保证总体多专家混合网络的分割效果,由于专家网络相互独立,所以多专家混合网络的输出可能出现重合或者缝隙,这需要整体预测输出的反馈进行参数的优化,所以设置多专家混合网络的聚合损失loss
moe
=mse
(label
entire
,moe),展开为
[0072][0073]
(3)通过设置多专家混合网络总损失和各个专家的单部件损失的权重,来调整网络的学习倾向,更注重整体而非专家的专业性则给予loss
moe
较大的权重,给每个分配较小的权重,反之,亦然;不同专家的损失也可以不同,体现为不同专家对部件的分割效果和独立性的要求不同;网络总体损失函数如下:
[0074][0075]
步骤s2,多专家特征提取;
[0076]
由于网络整体的可解释性需要专家网络在提取特征时独立的选择自己需要的部件特征,所以本实例在每个专家都设置独立的编码器,以灵活的提取各个专家所需的特征;
[0077]
输入图片的形状为x=(b,h,w,c),编码器由包括但不限于多个卷积池化块构成的特征提取单元组合而成,模块可公式化为:
[0078]
block=maxpool2d(conv2d(conv2d(...(x))))
[0079]
编码器可公式化如下:
[0080]
encoder(x)=block(block(...(x)))
[0081]
步骤s3,门控网络权重生成;
[0082]
为了优化专家输出的部件分割图的聚合效果,本实例中采用简单门控网络对每个专家的特征提取模块的输出进行采样融合并经过非线性变换输出专家聚合时的权重向量。门控网络结构包括但不限于全局平均池化模块,卷积模块,前馈网络模块以及概率归一化模块。将每个专家独立的特征提取模块的输出encoderi(x)拼接成特征图[encoder1,encoder2,encoder3,...,encodern],记为fn,送入门控网络gate,非线性变换和归一化后输出权重向量we=[w1,w2,w3,...,wn];
[0083]
步骤s4,多专家输出聚合;
[0084]
门控方式根据多专家混合网络输出的部件分割结果和门控网络输出的权重向量。进行加权合并得到多专家混合网络的整体分割结果输出moe以及多专家混合网络中的各个专家网络的输出ei,公式如下:
[0085]ei
=decoderi(encoderi(x))
[0086][0087]
现有的图像分割工作大多都在以数据驱动的方式进行,偶尔有可解释性的工作,也是基于结果反向解释网络模型的训练过程,而缺乏对网络模型训练过程的直接监督和限制,导致网络模型对于技术人员来说总是透明的,这样做虽然可能在某些情况下能得到不错的任务效果,但是对于网络的可解释性和裁剪、优化或者拓展网络都是不利的,本发明通过多专家网络聚合和以图像分割任务为实例,提出了一种基于多专家混合网络解耦的方式以求在网络模型的训练过程中,使得分支网络的训练可控且有针对性。本发明提供了一种可解释的多任务网络的基础模型和概念,对于多任务或者可分割的单任务的网络构建提供
了新思路,在网络的可解释性上真正做到了,训练过程以及训练结果相对应的网络层面的完全可解释。
[0088]
本发明通过多专家混合网络的基础模型来构建多个独立可解释的专家,专家具有独立的特征提取模块和解码模块,并且每个专家的输出都被作为整个网络损失的评判依据,不同的是,每个专家虽然能看到全部的数据集(路由方式专家只能看到数据子集),但对应的标签只是标签集的子集(路由方式专家也只对应数据子集的标签负责),通过对网络整体损失以及各个专家输出的损失的加权线性组合得到整个系统的损失,并用来进行反向传播和参数优化。
[0089]
本发明使用了简单门控网络对专家的部件输出结果进行整合,优化专家之间的合作与竞争,使得系统整体的输出效果更好,专家的竞争合作问题体现在专家输出的部件分割图像相互重叠,以及多专家协同处理单个部件,却导致每个专家都使不上力的情况。
[0090]
本发明还包含一种电子设备,包括存储器和处理器,所述存储器用于存储各种计算机程序指令,所述处理器用于执行所述计算机程序指令完成上述全部或部分步骤;电子设备可以与一个或多个外部设备通信,还可与一个或多个使用户与该电子设备交互的设备通信,和/或与使得该电子设备能与一个或多个其他计算设备进行通信的任何设备通信,电子设备还可以通过网络适配器与一个或多个网络(例如局域网、广域网和/或公共网络)通信。
[0091]
本发明还包括一种存储有计算机程序的计算机可读存储介质,该计算机程序可以被处理器执行,所述计算机可读存储介质可以包括但不限于磁存储设备、光盘、数字多功能盘、智能卡及闪存设备,此外本发明所述的可读存储介质能代表用于存储信息的一个或多个设备和/或其他机器可读介质,术语“机器可读介质”包括但不限于能存储、包含和/或承载代码和/或指令和/或数据的无线通道和各种其他介质(和/或存储介质)。
[0092]
本说明书中的各个实施例均采用相关的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
[0093]
以上所述仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等,均包含在本发明的保护范围内。
再多了解一些

本文用于创业者技术爱好者查询,仅供学习研究,如用于商业用途,请联系技术所有人。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献