一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

图像语义分割方法、装置、设备、存储介质及程序产品与流程

2022-06-11 02:29:18 来源:中国专利 TAG:


1.本技术实施例涉及图像处理技术领域,特别涉及一种图像语义分割方法、装置、设备、存储介质及程序产品。


背景技术:

2.图像语义分割是一种区分图像中包含的不同对象,并识别各个对象所属类别的技术。
3.在相关技术中,通过利用目标图像和参考图像之间的相似性,在参考图像中重建出目标图像,即根据目标图像和参考图像之间的相似性对目标图像处理,从而基于重建的目标图像得到最终的图像语义分割结果。
4.但是,在小样本场景下,相关技术中在重建目标图像时是对参考图像进行随机采样,会导致潜在的信息损失,从而使得最终得到的图像语义分割效果较差。


技术实现要素:

5.本技术提供了一种图像语义分割方法、装置、设备、存储介质及程序产品,能够得到较为准确的图像语义分割结果。所述技术方案如下:
6.根据本技术的一方面,提供了一种图像语义分割方法,所述方法包括:
7.获取目标图像对应的目标特征、至少一个参考图像对应的参考特征及所述参考图像对应的参考掩码,所述参考图像是与所述目标图像属于同一类别且已经进行图像语义分割的图像,所述参考掩码用于指示对所述参考图像进行图像语义分割后的不同语义区域;
8.将所述目标特征、所述参考特征及所述参考掩码输入至图像语义分割模型中计算所述目标特征和所述参考特征之间的相似度值;
9.在所述图像语义分割模型中,将所述相似度值作为加权值与所述参考掩码进行计算,得到所述目标图像对应的目标掩码,所述目标掩码用于指示对所述目标图像进行图像语义分割后的不同语义区域。
10.根据本技术的一方面,提供了一种图像语义分割模型的训练方法,所述方法包括:
11.获取样本目标图像对应的目标特征、至少一个参考图像对应的参考特征、所述参考图像对应的参考掩码及真实目标掩码,所述参考图像是与所述目标图像属于同一类别且已经进行图像语义分割的图像,所述参考掩码用于指示对所述参考图像进行图像语义分割后的不同语义区域;
12.将所述目标特征、所述参考特征及所述参考掩码输入至所述图像语义分割模型中计算所述目标特征和所述参考特征之间的相似度值
13.在所述图像语义分割模型中,将所述相似度值作为加权值与所述参考掩码进行计算,得到所述样本目标图像对应的预测目标掩码,所述预测目标掩码用于指示对所述样本目标图像进行图像语义分割后的不同语义区域;
14.基于所述预测目标掩码及所述真实目标掩码,计算损失函数值;
15.基于所述损失函数值对所述图像语义分割模型的模型参数进行更新。
16.根据本技术的一方面,提供了一种图像语义分割装置,所述装置包括:
17.获取模块,用于获取目标图像对应的目标特征、至少一个参考图像对应的参考特征及所述参考图像对应的参考掩码,所述参考图像是与所述目标图像属于同一类别且已经进行图像语义分割的图像,所述参考掩码用于指示对所述参考图像进行图像语义分割后的不同语义区域;
18.计算模块,用于将所述目标特征、所述参考特征及所述参考掩码输入至图像语义分割模型中计算所述目标特征和所述参考特征之间的相似度值;
19.所述计算模块,还用于在所述图像语义分割模型中,将所述相似度值作为加权值与所述参考掩码进行计算,得到所述目标图像对应的目标掩码,所述目标掩码用于指示对所述目标图像进行图像语义分割后的不同语义区域。
20.根据本技术的一方面,提供了一种图像语义分割模型的训练装置,所述装置包括:
21.获取模块,用于获取样本目标图像对应的目标特征、至少一个参考图像对应的参考特征、所述参考图像对应的参考掩码及真实目标掩码,所述参考图像是与所述样本目标图像属于同一类别且已经进行图像语义分割的图像,所述参考掩码用于指示对所述参考图像进行图像语义分割后的不同语义区域;
22.第一计算模块,用于将所述目标特征、所述参考特征及所述参考掩码输入至所述图像语义分割模型中计算所述目标特征和所述参考特征之间的相似度值;
23.所述第一计算模块,还用于在所述图像语义分割模型中,并将所述相似度值作为加权值与所述参考掩码进行计算,得到所述样本目标图像对应的预测目标掩码,所述预测目标掩码用于指示对所述样本目标图像进行图像语义分割后的不同语义区域;
24.第二计算模块,用于基于所述预测目标掩码及所述真实目标掩码,计算损失函数值;
25.更新模块,用于基于所述损失函数值对所述图像语义分割模型的模型参数进行更新。
26.根据本技术的另一方面,提供了一种计算机设备,该计算机设备包括:处理器和存储器,存储器中存储有至少一条计算机程序,至少一条计算机程序由处理器加载并执行以实现如上方面所述的图像语义分割方法或所述的图像语义分割模型的训练方法。
27.根据本技术的另一方面,提供了一种计算机存储介质,计算机可读存储介质中存储有至少一条计算机程序,至少一条计算机程序由处理器加载并执行以实现如上方面所述的图像语义分割方法或所述的图像语义分割模型的训练方法。
28.根据本技术的另一方面,提供了一种计算机程序产品,上述计算机程序产品包括计算机程序,所述计算机程序存储在计算机可读存储介质中;所述计算机程序由计算机设备的处理器从所述计算机可读存储介质读取并执行,使得所述计算机设备执行如上方面所述的图像语义分割方法或所述的图像语义分割模型的训练方法。
29.本技术提供的技术方案带来的有益效果至少包括:
30.通过获取目标图像对应的目标特征、至少一个参考图像对应的参考特征及参考图像对应的参考掩码;将目标特征、参考特征及参考掩码输入至图像语义分割模型中计算目标特征、参考特征之间的相似度值,并将相似度值作为加权值与对应的参考掩码进行计算,
得到目标图像对应的目标掩码。本技术通过计算目标图像与参考图像的所有特征之间的相似度值,并将相似度值作为参考掩码的加权值,从而得到目标图像对应的目标掩码,基于上述方法,可以得到较为准确的图像语义分割结果。
附图说明
31.为了更清楚地说明本技术实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
32.图1是本技术一个示例性实施例提供的一种图像语义分割方法的示意图;
33.图2是本技术一个示例性实施例提供的计算机系统的架构示意图;
34.图3是本技术一个示例性实施例提供的图像语义分割方法的流程图;
35.图4是本技术一个示例性实施例提供的图像语义分割方法的流程图;
36.图5是本技术一个示例性实施例提供的图像语义分割方法的示意图;
37.图6是本技术一个示例性实施例提供的图像语义分割方法的流程图;
38.图7是本技术一个示例性实施例提供的图像语义分割方法的示意图;
39.图8是本技术一个示例性实施例提供的图像语义分割方法的流程图;
40.图9是本技术一个示例性实施例提供的图像语义分割方法的示意图;
41.图10是本技术一个示例性实施例提供的图像语义分割方法与对比方案的训练效率对比示意图;
42.图11是本技术一个示例性实施例提供的图像语义分割方法的示意图;
43.图12是本技术一个示例性实施例提供的图像语义分割方法的示意图;
44.图13是本技术一个示例性实施例提供的图像语义分割模型生成以及图像语义分割的框架图;
45.图14是本技术一个示例性实施例提供的图像语义分割模型的训练方法的流程图;
46.图15是本技术一个示例性实施例提供的图像语义分割模型的训练方法的流程图;
47.图16是本技术一个示例性实施例提供的图像语义分割模型的训练方法的流程图;
48.图17是本技术一个示例性实施例提供的图像语义分割模型的训练方法的流程图;
49.图18是本技术一个示例性实施例提供的图像语义分割装置的框图;
50.图19是本技术一个示例性实施例提供的图像语义分割模型的训练装置的框图;
51.图20是本技术一个示例性实施例提供的计算机设备的结构示意图。
具体实施方式
52.为使本技术的目的、技术方案和优点更加清楚,下面将结合附图对本技术实施方式作进一步地详细描述。
53.本技术实施例提供了一种图像语义分割方法。为了便于理解,下面对本技术涉及的几个名词进行解释。
54.1)人工智能(artificial intelligence,ai)
55.人工智能是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智
能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
56.人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。本技术所示的包含图像采集组件的显示设备主要涉及其中的计算机视觉技术以及机器学习/深度学习、自动驾驶、智慧交通等方向。
57.2)机器学习(machine learning,ml)
58.机器学习是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、示教学习等技术。
59.3)计算机视觉技术(computer vision,cv)
60.计算机视觉是一门研究如何使机器“看”的科学,更进一步的说,就是指用摄影机和电脑代替人眼对目标进行识别和测量等机器视觉,并进一步做图形处理,使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科,计算机视觉研究相关的理论和技术,试图建立能够从图像或者多维数据中获取信息的人工智能系统。计算机视觉技术通常包括图像语义分割、图像识别、图像语义理解、图像检索、ocr(optical character recognition,光学字符识别)、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3d技术、虚拟现实、增强现实、同步定位与地图构建、自动驾驶、智慧交通等技术,还包括常见的人脸识别、指纹识别等生物特征识别技术。
61.4)自注意力机制(self attention mechanism)
62.self-attention机制的作用是能够更好地学习到全局特征之间的依赖关系,self-attention通过直接计算图结构中任意两个节点之间的关系,一步到位地获取图结构的全局几何特征。
63.self-attention利用了attention机制,分三个阶段进行计算:(1)引入不同的函数和计算机制,根据query和某个key,计算两者的相似性或者相关性,最常见的方法包括:求两者的向量点积、求两者的向量相似性或者通过再引入额外的神经网络来求值;(2)引入类似softmax的计算方式对第一阶段的得分进行数值转换,一方面可以进行归一化,将原始计算分值整理成所有元素权重之和为1的概率分布;另一方面也可以通过softmax的内在机制更加突出重要元素的权重;(3)第二阶段的计算结果即为对应的权重系数,然后进行加权求和即可得到attention数值。
64.5)小样本学习(few-shot learning)是机器学习领域的一个分支,旨在解决数据有限的机器学习任务;小样本学习中可利用的样本较少,使用传统的机器学习方法容易造成过拟合现象,降低模型算法的泛化性能;小样本学习期望在保证良好效能的前提下,尽可
能使用较少样本。
65.本技术实施例提供了一种图像语义分割方法的技术方案,如图1所示,该方法可以由计算机设备执行,计算机设备可以是终端或服务器。
66.示例性地,计算机设备获取目标图像101、参考图像102及参考图像102对应的参考掩码103;并通过特征提取网络104对目标图像101进行特征提取得到多尺度的目标特征106;通过该特征提取网络104对参考图像102进行特征提取得到与目标特征106具有相同尺度的参考特征107。计算机设备通过下采样105参考掩码103得到对应尺度的参考掩码103。
67.例如,获取目标图像101对应的四个尺度目标特征106,四个尺度分别为1/4分辨率、1/8分辨率、1/16分辨率、1/32分辨率,但不限于此,本技术实施例对此不作限定。
68.计算机设备将不同尺度对应的目标特征106、参考特征107及参考掩码103输入至密集交叉注意力加权掩码聚合(dense cross-query-and-support attention weighted mask aggregation,dcama)网络108中进行计算,得到目标特征106与参考特征107之间的相似度值;在多层密集交叉注意力加权掩码聚合网络108中,将相似度值作为参考掩码103的加权值,计算得到目标图像101对应的目标掩码113。
69.例如,计算机设备将1/32分辨率对应的目标特征106、1/32分辨率对应的参考特征107及相应尺度的参考掩码103输入至多层密集交叉注意力加权掩码聚合网络108中进行计算,得到1/32分辨率对应的目标特征106与1/32分辨率对应的参考特征107之间的相似度值;在多层密集交叉注意力加权掩码聚合网络108中,将相似度值作为参考掩码103的加权值,计算得到1/32分辨率对应的第一目标掩码。
70.在计算得到不同尺度对应的目标掩码后,计算机设备将不同尺度对应的目标掩码进行聚合,得到中间目标掩码。
71.例如,计算机设备将1/32分辨率对应的第一目标掩码输入至卷积网络109进行三次卷积计算,并对1/32分辨率对应的目标掩码的卷积结果进行上采样110后,得到第一中间目标掩码;计算机设备将1/16分辨率对应的第二目标掩码输入至卷积网络109进行三次卷积计算,将1/16分辨率对应的目标掩码的卷积结果与第一中间目标掩码进行逐元素相加,并将逐元素相加结果进行三次卷积计算及上采样110后,得到第二中间目标掩码;重复上述步骤,将第二中间目标掩码与1/8分辨率对应的第三目标掩码的卷积结果进行逐元素相加,并将逐元素相加结果进行三次卷积计算,最终得到中间目标掩码。
72.计算机设备将中间目标掩码进行三次卷积计算,将中间目标掩码的卷积结果与1/8分辨率对应的目标特征106进行残差连接111,得到第一残差连接结果,将第一残差连接结果进行上采样110后与1/4分辨率对应的目标特征106再次进行残差连接111,得到第二残差连接结果,将第二残差连接结果输入至混合网络112进行融合,最终得到目标图像101对应的目标掩码113。
73.综上所述,本实施例提供的方法,获取目标图像对应的多尺度的目标特征、参考图像对应的参考特征及参考掩码;将不同尺度对应的目标特征、参考特征及参考掩码输入至图像语义分割模型进行计算,得到不同尺度对应的目标掩码;将不同尺度对应的目标掩码进行聚合,得到中间目标掩码;将中间目标掩码与目标特征进行融合,得到目标图像对应的目标掩码。本技术通过计算目标图像与参考图像的所有特征之间的相似度值,并将相似度值作为参考掩码的加权值,从而得到目标图像对应的目标掩码,基于上述方法,可以得到较
为准确的图像语义分割结果。
74.图2示出了本技术一个实施例提供的计算机系统的架构示意图。该计算机系统可以包括:终端100和服务器200。
75.终端100可以是诸如手机、平板电脑、车载终端(车机)、可穿戴设备、个人计算机(personal computer,pc)、智能语音交互设备、智能家电、车载终端、飞行器、无人售货终端等电子设备。终端100中可以安装运行目标应用程序的客户端,该目标应用程序可以是参考图像语义分割的应用程序,也可以是提供有图像语义分割功能的其他应用程序,本技术对此不作限定。另外,本技术对该目标应用程序的形式不作限定,包括但不限于安装在终端100中的应用程序(application,app)、小程序等,还可以是网页形式。
76.服务器200可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云计算服务的云服务器、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(content delivery network,cdn)、以及大数据和人工智能平台等基础云计算服务的云服务器。服务器200可以是上述目标应用程序的后台服务器,用于为目标应用程序的客户端提供后台服务。
77.其中,云技术(cloud technology)是指在广域网或局域网内将硬件、软件、网络等系列资源统一起来,实现数据的计算、储存、处理和共享的一种托管技术。云技术基于云计算商业模式应用的网络技术、信息技术、整合技术、管理平台技术、应用技术等的总称,可以组成资源池,按需所用,灵活便利。云计算技术将变成重要支撑。技术网络系统的后台服务需要大量的计算、存储资源,如视频网站、图片类网站和更多的门户网站。伴随着互联网行业的高度发展和应用,将来每个物品都有可能存在自己的识别标志,都需要传输到后台系统进行逻辑处理,不同程度级别的数据将会分开处理,各类行业数据皆需要强大的系统后盾支撑,只能通过云计算来实现。
78.在一些实施例中,上述服务器还可以实现为区块链系统中的节点。区块链(blockchain)是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链,本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层。
79.终端100和服务器200之间可以通过网络进行通信,如有线或无线网络。
80.本技术实施例提供的图像语义分割方法或图像语义分割模型的训练方法,各步骤的执行主体可以是计算机设备,所述计算机设备是指具备数据计算、处理和存储能力的电子设备。以图2所示的方案实施环境为例,可以由终端100执行图像语义分割方法或图像语义分割模型的训练方法(如终端100中安装运行的目标应用程序的客户端执行图像语义分割方法或图像语义分割模型的训练方法),也可以由服务器200执行该图像语义分割方法或图像语义分割模型的训练方法,或者由终端100和服务器200交互配合执行,本技术对此不作限定。
81.图3是本技术一个示例性实施例提供的图像语义分割方法的流程图。该方法可以由计算机设备执行,计算机设备可以是图2中的终端100或服务器200。该方法包括:
82.步骤302:获取目标图像对应的目标特征、至少一个参考图像对应的参考特征及参考图像对应的参考掩码。
83.示例性地,目标图像是指待进行图像语义分割的图像,目标图像又称为查询图像。目标特征是指通过对目标图像进行特征提取得到的特征表示。
84.图像语义分割是指像素级地识别图像,预测出图像中每一个像素的类标签,即标注出图像中每个像素所属的对象类别。例如,将一张图片中所有关于树木的像素归为一类,将该图片中所有关于汽车的像素归为一类。
85.参考图像是与目标图像属于同一类别且已经进行图像语义分割的图像,参考图像又称为支持图像。参考图像是与待进行图像语义分割的目标图像属于同于同一类别的图像。参考图像的数量选择为至少一张,但不限于此,本技术实施例对参考图像的数量不作具体限定。
86.例如,语义分割目标图像中的飞机a,则选择一张或n张同类别的已经进行图像语义分割的图像作为参考图像,在参考图像中包含飞机b,且该飞机b已被语义分割出来,该飞机b对应的区域为参考掩码的激活部分。
87.参考掩码用于指示对参考图像进行图像语义分割后的不同语义区域。
88.例如,在参考图像中已对其中的飞机b进行图像语义分割,则参考图像中飞机b对应的区域对应的参考掩码的掩码值为1,参考图像的其余区域对应的参考掩码的掩码值为0。
89.参考特征是指通过对参考图像进行特征提取得到的特征表示。至少一个参考图像对应的参考特征是指通过对每一个参考图像进行单独特征提取得到的特征。
90.可以理解的是,本技术中对至少一个参考图像进行特征提取指对每一个参考图像进行单独特征提取,例如,对3张参考图像进行特征提取,最终得到3张参考图像对应的3个参考特征。
91.步骤304:将目标特征、参考特征及参考掩码输入至图像语义分割模型中计算目标特征和参考特征之间的相似度值,并将相似度值作为加权值与参考掩码进行计算,得到目标图像对应的目标掩码。
92.目标掩码用于指示对目标图像进行图像语义分割后的不同语义区域。
93.图像语义分割模型是指用于将图像分割成具有一定语义含义的区域块,将图像进行分割的模型。
94.图像语义分割模型根据目标图像的目标特征、参考图像的参考特征及参考掩码,通过计算目标特征与所有参考特征之间的相似度值,并将该相似度值与参考掩码进行计算,最终得到目标图像中待进行图像语义分割区域对应的目标掩码。
95.步骤306:输出目标图像对应的目标掩码。
96.示例性地,计算机设备输出目标图像对应的目标掩码。
97.可选地,目标掩码为目标图像对应的待分割区域的掩码值为1,其余部分为0,或,目标图像对应的待分割区域的掩码值为0,其余部分为1,但不限于此,本技术实施例对此不作限定。
98.例如,目标图像中的待语义分割部分为飞机a,则飞机a区域对应的目标掩码的掩码值为1,目标图像的其余部分为0,;或,则飞机a区域对应的目标掩码的掩码值为0,目标图像的其余部分为1。
99.综上所述,本实施例提供的方法,获取目标图像对应的目标特征、参考图像对应的
参考特征及参考掩码;将目标特征、参考特征及参考掩码输入至图像语义分割模型中计算目标特征和参考特征之间的相似度值,并将相似度值作为加权值与参考掩码进行计算,得到目标图像对应的目标掩码。本技术通过利用图像语义分割模型对目标特征、参考特征及参考掩码进行计算,从而得到目标图像对应的目标掩码,基于上述方法,可以得到较为准确的图像语义分割结果。
100.本技术实施例提供了一个图像语义分割模型,该图像语义分割模型包括:特征提取网络、多层密集交叉注意力加权掩码聚合网络。
101.计算机设备获取目标图像及一个参考图像,并通过特征提取网络对目标图像进行特征提取得到目标特征,以及通过特征提取网络对参考图像进行特征提取得到参考特征。
102.计算机设备将获取的目标特征、参考特征及参考特征对应的参考掩码输入至多层密集交叉注意力加权掩码聚合网络进行计算,得到目标图像对应的目标掩码。
103.基于该图像语义分割模型,提供有如下图像语义分割方法。
104.图4是本技术一个示例性实施例提供的图像语义分割方法的流程图。该方法可以由计算机设备执行,计算机设备可以是图2中的终端100或服务器200。该方法包括:
105.步骤402:获取目标图像对应的目标特征、一个参考图像对应的参考特征及参考图像对应的参考掩码。
106.示例性地,目标图像是指待进行图像语义分割的图像。目标特征是指通过对目标图像进行特征提取得到的特征表示。
107.图像语义分割是指像素级地识别图像,预测出图像中每一个像素的类标签,即标注出图像中每个像素所属的对象类别。参考图像是与待进行图像语义分割的目标图像属于同于同一类别的图像。
108.例如,在医学领域中,通过对医学图像进行图像语义分割,并基于图像语义分割的结果对医药图像中的不同器官进行标注,可以更好的辅助医护人员进行医疗诊断,比如,对于胸部x光片进行图像语义分割,将x光片中的肺部和心脏分别对应的区域标注出来。
109.参考图像是指已经进行图像语义分割的图像。参考掩码用于指示对参考图像进行图像语义分割后的不同语义区域。
110.参考特征是指通过对参考图像进行特征提取得到的特征表示。
111.在一种可能的实现方式中,图像语义分割模型包括特征提取网络;计算机设备获取目标图像及参考图像;计算机设备通过特征提取网络对目标图像进行特征提取得到目标特征;以及通过特征提取网络对参考图像进行特征提取得到参考特征。
112.可选地,特征提取网络为残差神经网络(resnet)、深度卷积网络vgg中的至少一种,但不限于此,本技术实施例对此不作限定。
113.步骤404:将目标特征、参考特征及参考掩码输入至多层密集交叉注意力加权掩码聚合网络中进行计算,得到目标特征与参考特征之间的相似度值。
114.示例性地,计算机设备将目标特征、参考特征及参考掩码输入至多层密集交叉注意力加权掩码聚合网络中进行缩放点积注意力计算,得到目标特征与参考特征之间的相似度值。
115.其中,目标特征和参考特征均为像素级的特征表示,参考特征包括参考图像中前景像素和背景像素的特征表示。
116.示例性地,计算机设备将目标特征作为第一向量矩阵q(query),将参考特征作为第二向量矩阵k(key)以及将参考掩码作为第三向量矩阵v(value),计算机设备将目标特征、参考特征及参考掩码输入至多层密集交叉注意力加权掩码聚合网络中进行计算,得到目标特征q与参考特征k之间的相似度值,即,得到目标图像中的任一个像素对应的目标特征q与参考图像中的所有像素对应的参考特征k之间的相似度值。
117.目标特征q与参考特征k之间的相似度值计算公式可表示为:
118.c=qk
t
119.其中,c表示相似度值,q为目标特征,k为参考特征。
120.步骤406:在多层密集交叉注意力加权掩码聚合网络中,将相似度值作为参考掩码的加权值,计算得到目标图像对应的目标掩码。
121.目标掩码用于指示对目标图像进行图像语义分割后的不同语义区域。
122.计算机设备在多层密集交叉注意力加权掩码聚合网络中,将相似度值与参考掩码的掩码值进行相乘,计算得到目标图像对应的目标掩码。
123.目标掩码的计算公式可表示为:
[0124][0125]
其中,attn为目标掩码中各个像素对应的掩码值,q为目标特征,k为参考特征,v为参考掩码,qk
t
为相似度值,d为query和key的向量维度,softmax为归一化函数。
[0126]
如图5所示,计算机设备获取目标图像501、参考图像502及参考图像502对应的参考掩码503;并通过特征提取网络504对目标图像501进行特征提取得到一个尺度的目标特征505;通过该特征提取网络504对参考图像502进行特征提取得到一个尺度的参考特征506。
[0127]
计算机设备将目标特征505、参考特征506及参考掩码503输入至多层密集交叉注意力加权掩码聚合网络507中进行计算,得到目标特征505与参考特征506之间的相似度值,例如,分别计算目标图像501中的像素a对应的目标特征505与参考图像502中的所有像素对应的参考特征506的相似度值;在多层密集交叉注意力加权掩码聚合网络507中,将相似度值与参考掩码503的掩码值进行相乘,计算得到目标图像501对应的目标掩码508。
[0128]
步骤408:输出目标图像对应的目标掩码。
[0129]
示例性地,计算机设备输出目标图像对应的目标掩码。
[0130]
综上所述,本实施例提供的方法,获取目标图像对应的一个尺度的目标特征、参考图像对应的一个尺度的参考特征及参考掩码;将同一尺度对应的目标特征、参考特征及参考掩码输入至图像语义分割模型进行计算,得到目标图像对应的目标掩码。本技术通过计算目标图像与参考图像的所有特征之间的相似度值,并将相似度值作为参考掩码的加权值,从而得到目标图像对应的目标掩码,基于上述方法,可以得到较为准确的图像语义分割结果。
[0131]
本技术实施例提供了一个图像语义分割模型,该图像语义分割模型包括:特征提取网络、多层密集交叉注意力加权掩码聚合网络、卷积网络。
[0132]
计算机设备获取目标图像及至少一个参考图像,并通过特征提取网络对目标图像进行特征提取得到目标特征,以及通过特征提取网络对参考图像进行特征提取得到参考特征。
[0133]
计算机设备将获取的目标特征、参考特征及参考特征对应的参考掩码输入至多层密集交叉注意力加权掩码聚合网络进行计算,得到目标图像对应的目标掩码。在参考特征为多尺度参考特征的情况下,将获取的目标特征、参考特征及参考特征对应的参考掩码输入至多层密集交叉注意力加权掩码聚合网络进行计算,得到目标图像的第i尺度目标特征对应的第i目标掩码,i为大于1的正整数。
[0134]
计算机设备将不同尺度对应的目标掩码输入至卷积网络进行卷积,并将不同尺度对应的目标掩码的卷积结果进行逐元素相加,得到目标图像对应的目标掩码。
[0135]
基于该图像语义分割模型,提供有如下图像语义分割方法。
[0136]
图6是本技术一个示例性实施例提供的图像语义分割方法的流程图。该方法可以由计算机设备执行,计算机设备可以是图2中的终端100或服务器200。该方法包括:
[0137]
步骤602:获取目标图像对应的目标特征、至少一个参考图像对应的参考特征及参考图像对应的参考掩码。
[0138]
示例性地,目标图像是指待进行图像语义分割的图像。目标特征是指通过对目标图像进行特征提取得到的特征表示。
[0139]
图像语义分割是指像素级地识别图像,预测出图像中每一个像素的类标签,即标注出图像中每个像素所属的对象类别。
[0140]
参考图像是指已经进行图像语义分割的图像。参考图像是与待进行图像语义分割的目标图像属于同于同一类别的图像。参考图像的数量选择为至少一张,但不限于此,本技术实施例对参考图像的数量不作具体限定。
[0141]
例如,语义分割目标图像中的飞机a,则选择一张或n张同类别的已经进行图像语义分割的图像作为参考图像,在参考图像中包含飞机b,且该飞机b已被语义分割出来,该飞机b对应的区域为参考掩码的激活部分。
[0142]
参考掩码用于指示对参考图像进行图像语义分割后的不同语义区域。
[0143]
参考特征是指通过对参考图像进行特征提取得到的特征表示。至少一个参考图像对应的参考特征是指通过对每一个参考图像进行单独特征提取得到的特征表示。
[0144]
步骤604:将第i尺度目标特征、第i尺度参考特征以及与第i尺度参考特征匹配的参考掩码输入至多层密集交叉注意力加权掩码聚合网络进行计算,得到第i尺度目标特征与第i尺度参考特征之间的第i相似度值。
[0145]
示例性地,目标特征为多尺度目标特征、参考特征为多尺度参考特征。
[0146]
尺度是指目标特征对应的分辨率,例如,获取目标图像对应的四个尺度目标特征,四个尺度分别为1/4分辨率、1/8分辨率、1/16分辨率、1/32分辨率,但不限于此,本技术实施例对此不作限定。
[0147]
计算机设备将第i尺度目标特征、第i尺度参考特征以及与第i尺度参考特征匹配的参考掩码输入至多层密集交叉注意力加权掩码聚合网络进行计算,得到第i尺度目标特征与第i尺度参考特征之间的第i相似度值。
[0148]
示例性地,计算机设备将目标特征作为第一向量矩阵q(query),将参考特征作为第二向量矩阵k(key)以及将参考掩码作为第三向量矩阵v(value),计算机设备将第i尺度目标特征、第i尺度参考特征及与第i尺度参考特征匹配的参考掩码输入至多层密集交叉注意力加权掩码聚合网络中进行缩放点积注意力计算,得到第i尺度目标特征与第i尺度参考
特征之间的第i相似度值。计算第i尺度目标特征与第i尺度参考特征之间的第i相似度值的公式可参考步骤404中计算相似度值的公式,本处不再赘述。
[0149]
示例性地,例如,如图7所示,计算机设备获取目标图像701对应的四个尺度的目标特征706,四个尺度分别为1/4分辨率、1/8分辨率、1/16分辨率、1/32分辨率。
[0150]
计算机设备将1/32分辨率对应的目标特征706、1/32分辨率对应的参考特征707及相应尺度的参考掩码103输入至多层密集交叉注意力加权掩码聚合网络708中进行计算,得到1/32分辨率对应的目标特征706与1/32分辨率对应的参考特征707之间的相似度值。
[0151]
计算机设备将1/16分辨率对应的目标特征706、1/16分辨率对应的参考特征707及相应尺度的参考掩码703输入至多层密集交叉注意力加权掩码聚合网络708中进行计算,得到1/16分辨率对应的目标特征706与1/16分辨率对应的参考特征707之间的相似度值。
[0152]
计算机设备将1/8分辨率对应的目标特征706、1/8分辨率对应的参考特征707及相应尺度的参考掩码703输入至多层密集交叉注意力加权掩码聚合网络708中进行计算,得到1/8分辨率对应的目标特征706与1/8分辨率对应的参考特征707之间的相似度值。
[0153]
示例性地。计算机设备通过下采样705参考掩码703得到对应尺度的参考掩码703。
[0154]
下采样705是指通过缩小参考掩码703,使得参考掩码703与对应的参考特征707相匹配。例如,参考特征707的分辨率为1/8,则将参考掩码703通过下采样缩小为与1/8分辨率对应的参考特征707相匹配的参考掩码703。
[0155]
步骤606:将第i相似度值与第i尺度参考特征匹配的参考掩码的掩码值进行相乘,得到目标图像的第i尺度目标特征对应的第i目标掩码。
[0156]
计算机设备在多层密集交叉注意力加权掩码聚合网络中,将第i相似度值与第i尺度参考特征匹配的参考掩码的掩码值进行相乘,得到目标图像的第i尺度目标特征对应的第i目标掩码,i为大于1的正整数。
[0157]
第i目标掩码的计算公式可参考步骤406中计算目标掩码的公式,本处不再赘述。
[0158]
示例性地,在计算机设备得到1/32分辨率对应的目标特征与1/32分辨率对应的参考特征之间的相似度值的情况下,将该相似度值与与1/32分辨率对应的参考特征匹配的参考掩码的掩码值进行相乘,得到目标图像的1/32分辨率对应的目标特征对应的第一目标掩码。
[0159]
在计算机设备得到1/16分辨率对应的目标特征与1/16分辨率对应的参考特征之间的相似度值的情况下,将该相似度值与与1/16分辨率对应的参考特征匹配的参考掩码的掩码值进行相乘,得到目标图像的1/16分辨率对应的目标特征对应的第二目标掩码。
[0160]
在计算机设备得到1/8分辨率对应的目标特征与1/8分辨率对应的参考特征之间的相似度值的情况下,将该相似度值与与1/8分辨率对应的参考特征匹配的参考掩码的掩码值进行相乘,得到目标图像的1/8分辨率对应的目标特征对应的第三目标掩码。
[0161]
步骤608:将不同尺度对应的目标掩码进行聚合,得到目标图像对应的目标掩码。
[0162]
示例性地,图像语义分割模型包括卷积网络;计算机设备通过卷积网络对不同尺度对应的目标掩码进行卷积,并将不同尺度对应的目标掩码进行逐元素相加,得到中间目标掩码。
[0163]
可选地,图像语义分割模型包括三个卷积网络,但不限于此,本技术实施例对此不作任何限定。
[0164]
例如,如图7所示,计算机设备将1/32分辨率对应的第一目标掩码输入至卷积网络709进行三次卷积计算,并对1/32分辨率对应的目标掩码的卷积结果进行上采样710后,得到第一中间目标掩码。
[0165]
计算机设备将1/16分辨率对应的第二目标掩码输入至卷积网络709进行三次卷积计算,将1/16分辨率对应的第二目标掩码的卷积结果与第一中间目标掩码进行逐元素相加,并将逐元素相加结果进行三次卷积计算、上采样710后,得到第二中间目标掩码。重复上述步骤,将第二中间目标掩码与1/8分辨率对应的第三目标掩码的卷积结果进行逐元素相加,并将逐元素相加结果进行三次卷积计算,最终得到目标图像对应的目标掩码。
[0166]
步骤610:输出目标图像对应的目标掩码。
[0167]
示例性地,计算机设备输出目标图像对应的目标掩码。
[0168]
综上所述,本实施例提供的方法,获取目标图像对应的多尺度的目标特征、参考图像对应的参考特征及参考掩码;将不同尺度对应的目标特征、参考特征及参考掩码输入至图像语义分割模型进行计算,得到不同尺度对应的目标掩码;将不同尺度对应的目标掩码进行聚合,得到目标图像对应的目标掩码。本技术通过计算目标图像与参考图像的所有特征之间的相似度值,并将相似度值作为参考掩码的加权值,从而得到目标图像对应的目标掩码,基于上述方法,可以得到较为准确的图像语义分割结果。
[0169]
本技术实施例提供了一个图像语义分割模型,该图像语义分割模型包括:特征提取网络、多层密集交叉注意力加权掩码聚合网络、卷积网络、混合网络。
[0170]
计算机设备获取目标图像及至少一个参考图像,并通过特征提取网络对目标图像进行特征提取得到目标特征,以及通过特征提取网络对参考图像进行特征提取得到参考特征。
[0171]
计算机设备将获取的目标特征、参考特征及参考特征对应的参考掩码输入至多层密集交叉注意力加权掩码聚合网络进行计算,得到目标图像对应的目标掩码。在参考特征为多尺度参考特征的情况下,将获取的目标特征、参考特征及参考特征对应的参考掩码输入至多层密集交叉注意力加权掩码聚合网络进行计算,得到目标图像的第i尺度目标特征对应的第i目标掩码,i为大于1的正整数。
[0172]
计算机设备将不同尺度对应的目标掩码输入至卷积网络进行卷积,并将不同尺度对应的目标掩码的卷积结果进行逐元素相加,得到中间目标掩码。
[0173]
计算机设备将获取的中间目标掩码与至少一个尺度对应的目标特征进行残差连接,并将中间目标掩码与目标特征的残差连接结果输入至混合网络进行融合,最终得到目标图像对应的目标掩码。
[0174]
基于该图像语义分割模型,提供有如下图像语义分割方法。
[0175]
图8是本技术一个示例性实施例提供的图像语义分割方法的流程图。该方法可以由计算机设备执行,计算机设备可以是图2中的终端100或服务器200。该方法包括:
[0176]
步骤802:获取目标图像对应的目标特征、至少一个参考图像对应的参考特征及参考图像对应的参考掩码。
[0177]
示例性地,目标图像是指待进行图像语义分割的图像。目标特征是指通过对目标图像进行特征提取得到的特征表示。
[0178]
图像语义分割是指像素级地识别图像,预测出图像中每一个像素的类标签,即标
注出图像中每个像素所属的对象类别。
[0179]
参考图像是指已经进行图像语义分割的图像。参考掩码用于指示对参考图像进行图像语义分割后的不同语义区域。
[0180]
参考特征是指通过对参考图像进行特征提取得到的特征表示。至少一个参考图像对应的参考特征是指通过对每一个参考图像进行单独特征提取得到的特征表示。
[0181]
在一种可能的实现方式中,图像语义分割模型包括特征提取网络;计算机设备获取目标图像及参考图像;计算机设备通过特征提取网络对目标图像进行特征提取得到目标特征;以及通过特征提取网络对参考图像进行特征提取得到参考特征。
[0182]
可选地,特征提取网络为残差神经网络(resnet)、深度卷积网络vgg中的至少一种,但不限于此,本技术实施例对此不作限定。
[0183]
步骤804:将第i尺度目标特征、第i尺度参考特征以及与第i尺度参考特征匹配的参考掩码输入至图像语义分割模型进行计算,得到第i尺度目标特征与第i尺度参考特征之间的第i相似度值。
[0184]
示例性地,目标特征为多尺度目标特征、参考特征为多尺度参考特征。
[0185]
尺度是指目标特征对应的分辨率,例如,获取目标图像对应的四个尺度目标特征,四个尺度分别为1/4分辨率、1/8分辨率、1/16分辨率、1/32分辨率,但不限于此,本技术实施例对此不作限定。
[0186]
计算机设备将第i尺度目标特征、第i尺度参考特征以及与第i尺度参考特征匹配的参考掩码输入至图像语义分割模型进行计算,得到第i尺度目标特征与第i尺度参考特征之间的第i相似度值。
[0187]
示例性地,计算机设备将目标特征作为第一向量矩阵q(query),将参考特征作为第二向量矩阵k(key)以及将参考掩码作为第三向量矩阵v(value),计算机设备将第i尺度目标特征、第i尺度参考特征及与第i尺度参考特征匹配的参考掩码输入至多层密集交叉注意力加权掩码聚合网络中进行缩放点积注意力计算,得到第i尺度目标特征与第i尺度参考特征之间的第i相似度值。计算第i尺度目标特征与第i尺度参考特征之间的第i相似度值的公式可参考步骤404中计算相似度值的公式,本处不再赘述。
[0188]
示例性地,例如,如图1所示,计算机设备获取目标图像101对应的四个尺度的目标特征106,四个尺度分别为1/4分辨率、1/8分辨率、1/16分辨率、1/32分辨率。
[0189]
计算机设备将1/32分辨率对应的目标特征106、1/32分辨率对应的参考特征107及相应尺度的参考掩码103输入至多层密集交叉注意力加权掩码聚合网络108中进行计算,得到1/32分辨率对应的目标特征106与1/32分辨率对应的参考特征107之间的相似度值。
[0190]
计算机设备将1/16分辨率对应的目标特征106、1/16分辨率对应的参考特征107及相应尺度的参考掩码103输入至多层密集交叉注意力加权掩码聚合网络108中进行计算,得到1/16分辨率对应的目标特征106与1/16分辨率对应的参考特征107之间的相似度值。
[0191]
计算机设备将1/8分辨率对应的目标特征106、1/8分辨率对应的参考特征107及相应尺度的参考掩码103输入至多层密集交叉注意力加权掩码聚合网络108中进行计算,得到1/8分辨率对应的目标特征106与1/8分辨率对应的参考特征107之间的相似度值。
[0192]
示例性地。计算机设备通过下采样105参考掩码103得到对应尺度的参考掩码103。
[0193]
下采样105是指通过缩小参考掩码103,使得参考掩码103与对应的参考特征107相
匹配。例如,参考特征107的分辨率为1/8,则将参考掩码103通过下采样缩小为与1/8分辨率对应的参考特征107相匹配的参考掩码103。
[0194]
步骤806:将第i相似度值与第i尺度参考特征匹配的参考掩码的掩码值进行相乘,得到目标图像的第i尺度目标特征对应的第i目标掩码。
[0195]
计算机设备在多层密集交叉注意力加权掩码聚合网络中,将第i相似度值与第i尺度参考特征匹配的参考掩码的掩码值进行相乘,得到目标图像的第i尺度目标特征对应的第i目标掩码,i为大于1的正整数。
[0196]
第i目标掩码的计算公式可参考步骤406中计算目标掩码的公式,本处不再赘述。
[0197]
示例性地,在计算机设备得到1/32分辨率对应的目标特征与1/32分辨率对应的参考特征之间的相似度值的情况下,将该相似度值与与1/32分辨率对应的参考特征匹配的参考掩码的掩码值进行相乘,得到目标图像的1/32分辨率对应的目标特征对应的第一目标掩码。
[0198]
在计算机设备得到1/16分辨率对应的目标特征与1/16分辨率对应的参考特征之间的相似度值的情况下,将该相似度值与与1/16分辨率对应的参考特征匹配的参考掩码的掩码值进行相乘,得到目标图像的1/16分辨率对应的目标特征对应的第二目标掩码。
[0199]
在计算机设备得到1/8分辨率对应的目标特征与1/8分辨率对应的参考特征之间的相似度值的情况下,将该相似度值与与1/8分辨率对应的参考特征匹配的参考掩码的掩码值进行相乘,得到目标图像的1/8分辨率对应的目标特征对应的第三目标掩码。
[0200]
步骤808:将不同尺度对应的目标掩码进行聚合,得到中间目标掩码。
[0201]
示例性地,图像语义分割模型包括卷积网络;计算机设备通过卷积网络对不同尺度对应的目标掩码进行卷积,并将不同尺度对应的目标掩码进行逐元素相加,得到中间目标掩码。
[0202]
可选地,图像语义分割模型包括三个卷积网络,但不限于此,本技术实施例对此不作任何限定。
[0203]
例如,如图1所示,计算机设备将1/32分辨率对应的第一目标掩码输入至卷积网络109进行三次卷积计算,并对1/32分辨率对应的目标掩码的卷积结果进行上采样110后,得到第一中间目标掩码。
[0204]
计算机设备将1/16分辨率对应的第二目标掩码输入至卷积网络109进行三次卷积计算,将1/16分辨率对应的第二目标掩码的卷积结果与第一中间目标掩码进行逐元素相加,并将逐元素相加结果进行三次卷积计算、上采样110后,得到第二中间目标掩码。重复上述步骤,将第二中间目标掩码与1/8分辨率对应的第三目标掩码的卷积结果进行逐元素相加,并将逐元素相加结果进行三次卷积计算,最终得到中间目标掩码。
[0205]
示例性地,图9示出了图像语义分割方法的示意图,计算机设备获取目标图像对应的目标特征901、至少一个参考图像对应的参考特征902及参考图像对应的参考掩码903。目标特征901表示为[h,w,c],其中,h表示目标特征901的高,w表示目标特征901的宽,c表示目标特征901中每个像素对应的特征向量的长度(也称为通道数);参考特征902表示为[h,w,c],其中,h表示参考特征902的高,w表示参考特征902的宽,c表示参考特征902中每个像素对应的特征向量的长度(也称为通道数);参考掩码903表示为[h,w,1],其中,h表示参考掩码903的高,w表示参考掩码903的宽,1表示参考掩码903中每个像素对应的特征向量的长度
为1(也称为通道数为1)。
[0206]
计算机设备将目标特征901、至少一个参考图像对应的参考特征902及参考图像对应的参考掩码903进行扁平化处理904,设有n个参考图像,即,将目标特征901、参考特征902及参考掩码903进行扁平化处理904,即将目标特征901、参考特征902及参考掩码903分别从二维降至一维,得到的目标特征901表示为[h*w,c],参考特征902表示为[n*h*w,c],参考掩码903表示为[n*h*w,1]。
[0207]
例如,目标特征901为3*3的向量矩阵,通过对目标特征901进行扁平化处理904,得到的目标特征901为9*1,或,1*9的向量矩阵。
[0208]
计算机设备将目标特征901、n个参考特征902中的每个像素作为一个处理单元,通过使用不同频率的正弦和余弦函数对目标特征901及n个参考特征902进行位置编码905,并进行线性投影906,从而得到目标图像对应的一维序列。计算机设备通过对每个像素对应的特征向量的长度划分为多头来实现对目标特征901、参考特征902、参考掩码903的转化907,得到的转化目标特征908表示为[heads,h*w,c/heads],转化参考特征909表示为[heads,n*h*w,c/heads],转化参考掩码910表示为[heads,n*h*w,1]。
[0209]
线性投影906用于对目标特征901的向量矩阵进行线性变换,从而得到目标图像对应的一维序列;线性投影906用于对参考特征902的向量矩阵进行线性变换,从而得到参考图像对应的一维序列。
[0210]
计算机设备计算转化目标特征908与转化参考特征909中每一个头的相似度值911,可表示为[heads,h*w,n*h*w],并将相似度值911作为转化参考掩码910的加权值计算912,与转化参考掩码910中每一个头的掩码值相乘,从而得到目标图像对应的目标掩码的掩码值,可表示为[heads,n*h*w,1]。计算机设备将每个像素对应的多头的掩码值进行平均化处理913,得到平均化的目标掩码的掩码值,可表示为[h*w,1],在将目标掩码进行重塑914,将平均化的目标掩码从一维升至二维,可表示为[h,w,1],最终输出目标掩码915,表示为[h,w,1]。
[0211]
步骤810:将中间目标掩码与目标特征进行融合,得到目标图像对应的目标掩码。
[0212]
示例性地,图像语义分割模型包括混合网络;计算机设备将中间目标掩码与至少一个尺度对应的目标特征进行残差连接,并将中间目标掩码与目标特征的残差连接结果输入至混合网络进行融合,得到目标图像对应的目标掩码。
[0213]
可选地,图像语义分割模型包括三个混合网络,每个混合网络中包括两组卷积层和两组激活层relu;将中间目标掩码与至少一个尺度对应的目标特征进行残差连接,将残差连接结果依次输入至卷积层和激活层relu中进行融合,得到目标图像对应的目标掩码。
[0214]
例如,如图1所示,计算机设备将中间目标掩码进行三次卷积计算,将中间目标掩码的卷积结果与1/8分辨率对应的目标特征106进行残差连接111,得到第一残差连接结果,将第一残差连接结果通过双线性插值进行上采样110后与1/4分辨率对应的目标特征106再次进行残差连接111,得到第二残差连接结果,将第二残差连接结果输入至三个混合网络112进行融合,最终得到目标图像101对应的目标掩码113。
[0215]
步骤812:输出目标图像对应的目标掩码。
[0216]
示例性地,计算机设备输出目标图像对应的目标掩码。
[0217]
示例性地,为了验证本技术中的图像语义分割方法的性能,将本技术中基于多层
密集交叉注意力加权掩码聚合网络的图像语义分割方法的性能与在pascal-5数据集、coco-20数据集和fss-1000数据集上发布的图像语义分割方法的性能进行比较,每个数据集平均分,四个小数据集,分别为fold-1、fold-2、fold-3、fold-4,评估是通过交叉验证完成的:每个小数据集fold依次被选择为测试集d
test
,其他三个小数据集fold为训练集d
train
,从测试集d
test
中随机采用1000个测试任务进行评估。例如,fss-1000数据集中包含1000个类,其中训练集、验证集和测试集分别包含520、240、240个类,从测试集采样2400个测试任务进行评估。在pascal-5数据集、coco-20数据集和fss-1000数据集上的图像语义分割方法的性能对比表如表1、表2、表3所示。
[0218]
表1示出了在pascal-5数据集上发布的图像语义分割方法的性能,由表1可知:基于多层dcama的图像语义分割方法在具有一个参考图像或五个参考图像的情况下的平均交并比(mean intersection over union,miou)均为最高;基于多层dcama的图像语义分割方法在具有一个参考图像或五个参考图像的情况下的前景-背景交并比(foreground background-intersection over union,fb-iou)均为最高。
[0219]
平均交并比是指预测值和真实值的交集和并集之比,用于图像语义分割方法性能的评价指标。
[0220]
表1 pascal-5数据集上的图像语义分割方法
[0221][0222]
表2示出了在coco-20数据集上发布的图像语义分割方法的性能,由表2可知:基于多层dcama的图像语义分割方法在具有一个参考图像或五个参考图像的情况下的miou均为最高;基于多层dcama的图像语义分割方法在具有一个参考图像或五个参考图像的情况下的fb-iou均为最高。
[0223]
表3示出了在fss-1000数据集上发布的图像语义分割方法的性能,由表3可知:基于多层dcama的图像语义分割方法在具有一个参考图像或五个参考图像的情况下的miou均为最高;基于多层dcama的图像语义分割方法在具有一个参考图像或五个参考图像的情况下的fb-iou均为最高。
[0224]
表2 coco-20数据集上的图像语义分割方法
[0225][0226]
表3 coco-20数据集上的图像语义分割方法
[0227][0228]
示例性地,图10示出了基于多层dcama的图像语义分割方法与对比方案的训练效率对比示意图。如图10所示,本技术中基于多层dcama的图像语义分割方法与对比方案相比,本技术方案需要较少的训练期epoch便可实现拟合,且在同一训练期epoch下,本技术方案的miou更高。
[0229]
以图10中的(a)图为例进行说明,本技术中基于多层dcama的图像语义分割方法在训练期epoch为30的情况下便可实现拟合,而对比方案中在训练期epoch为105的情况下才实现拟合。
[0230]
综上所述,本实施例提供的方法,获取目标图像对应的多尺度的目标特征、参考图像对应的参考特征及参考掩码;将不同尺度对应的目标特征、参考特征及参考掩码输入至图像语义分割模型进行计算,得到不同尺度对应的目标掩码;将不同尺度对应的目标掩码进行聚合,得到中间目标掩码;将中间目标掩码与目标特征进行融合,得到目标图像对应的目标掩码。本技术通过计算目标图像与参考图像的所有特征之间的相似度值,并将相似度值作为参考掩码的加权值,从而得到目标图像对应的目标掩码,基于上述方法,可以得到较为准确的图像语义分割结果。
[0231]
图11是本技术一个示例性实施例提供的图像语义分割方法的示意图。该方法可以由计算机设备执行,计算机设备可以是图2中的终端100或服务器200。该方法包括:
[0232]
在医学领域中,医学图像已成为医学辅助诊断的重要辅助工具,对医学图像进行图像语义分割,并基于图像语义分割的结果对医药图像中的皮肤病灶进行标注,可以更好的辅助医护人员进行医疗诊断,如图11所示,将目标皮肤图像1101、参考皮肤图像1102、参考皮肤掩码1103输入至图像语义分割模型1204中对目标皮肤图像1101进行图像语义分割,得到图像语义分割结果:目标皮肤掩码1105。
[0233]
参考皮肤图像1102中包括病灶a、病灶b、病灶c、病灶d、病灶e、病灶f,参考皮肤图像1102是与目标皮肤图像1101属于同一类别且已经进行图像语义分割的图像。与参考皮肤图像1102对应的参考皮肤掩码1103分别为掩码a、掩码b、掩码c、掩码d、掩码e、掩码f,其中,掩码a为病灶a对应的图像语义分割结果、掩码b为病灶b对应的图像语义分割结果、掩码c为病灶c对应的图像语义分割结果、掩码d为病灶d对应的图像语义分割结果、掩码e为病灶e对应的图像语义分割结果、掩码f为病灶f对应的图像语义分割结果。参考皮肤掩码1103用于指示对参考皮肤图像1102进行图像语义分割后的不同语义区域。
[0234]
在对目标皮肤图像1101进行图像语义分割时,通过获取目标皮肤图像1101对应的目标特征、至少一个参考皮肤图像1102对应的参考特征及参考皮肤图像1102对应的参考皮肤掩码1103。在图像语义分割模型中计算目标特征、参考特征之间的相似度值,并将相似度值作为加权值与参考皮肤掩码1103进行计算,得到目标皮肤图像1101对应的目标皮肤掩码1105,即,在目标皮肤掩码1105中显示目标皮肤图像1101中病灶区域。
[0235]
在该图像语义分割过程中,图像语义分割的准确性,影响着在医学图像中的信息标注的准确性,进而影响医护人员基于信息标注进行医学诊断的准确性,因此,在医学图像辅助诊断场景中,通过使用本技术提供的图像语义分割方法,可以提高对医学图像进行语义分割的准确性,进而提高了病灶的精准分割能力,提高医疗辅助诊断的准确性。
[0236]
图12是本技术一个示例性实施例提供的图像语义分割方法的示意图。该方法可以由计算机设备执行,计算机设备可以是图2中的终端100或服务器200。该方法包括:
[0237]
在自动驾驶场景中,为了给交通工具增加必要的感知,获取交通工具所处的环境,以便自动驾驶的交通工具可以进行安全行驶时,需要对实时获取的道路场景图像,并对道路场景图像进行图像语义分割,以获取道路场景中的障碍物位置,基于障碍物位置控制交通工具的自动驾驶。
[0238]
如图12所示,将目标道路图像1201、参考道路图像1202、参考道路掩码1203输入至图像语义分割模型1204中对目标道路图像1201进行图像语义分割,得到图像语义分割结果:目标道路掩码1205。
[0239]
参考道路图像1202中包括障碍物,参考道路图像1202是与目标道路图像1201属于同一类别且已经进行图像语义分割的图像。与参考道路图像1202对应的参考道路掩码1203将参考道路图像1202中的障碍物进行语义分割,参考道路掩码1203用于指示对参考道路图像1202进行图像语义分割后的不同语义区域。
[0240]
在对目标道路图像1201进行图像语义分割时,通过获取目标道路图像1201对应的目标特征、至少一个参考道路图像1202对应的参考特征及参考道路图像1202对应的参考道路掩码1203。在图像语义分割模型中计算目标特征、参考特征之间的相似度值,并将相似度值作为加权值与参考道路掩码1203进行计算,得到目标道路图像1201对应的目标道路掩码1205,即,在目标道路掩码1205中显示目标道路图像1201中的障碍物。
[0241]
在该过程中,通过采用本技术提供的图像语义分割方法,可以提高图像语义分割的精度,继而获取道路场景中的障碍物位置的精确位置,从而提高了自动驾驶的安全性。
[0242]
本技术涉及的图像语义分割方法可以基于图像语义分割模型实现,该方案包括图像语义分割模型生成阶段和图像语义分割阶段。图13是本技术一示例性实施例示出的一种图像语义分割模型生成以及图像语义分割的框架图,如图13所示,在图像语义分割模型生成阶段,图像语义分割模型生成设备1310通过预先设置好的训练样本数据集(包括样本目标图像以及样本目标图像对应的真实目标掩码),得到图像语义分割模型之后,基于该图像语义分割模型生成图像语义分割结果。在图像语义分割阶段,图像语义分割设备1320基于该图像语义分割模型,对输入的目标图像进行处理,获得该目标图像的图像语义分割结果,比如,确定该目标图像中各个的物品的面积和位置等等。
[0243]
其中,上述图像语义分割模型生成设备1310和图像语义分割设备1320可以是计算机设备,比如,该计算机设备可以是个人电脑、服务器等固定式计算机设备,或者,该计算机设备也可以是平板电脑、电子书阅读器等移动式计算机设备。
[0244]
可选的,上述图像语义分割模型生成设备1310和图像语义分割设备1320可以是同一个设备,或者,图像语义分割模型生成设备1310和图像语义分割设备1320也可以是不同的设备。并且,当图像语义分割模型生成设备1310和图像语义分割设备1320是不同设备时,图像语义分割模型生成设备1310和图像语义分割设备1320可以是同一类型的设备,比如图像语义分割模型生成设备1310和图像语义分割设备1320可以都是服务器;或者图像语义分割模型生成设备1310和图像语义分割设备1320也可以是不同类型的设备,比如图像语义分割设备1320可以是个人电脑或者终端,而图像语义分割模型生成设备1310可以是服务器等。本技术实施例对图像语义分割模型生成设备1310和图像语义分割设备1320的具体类型不做限定。
[0245]
上诉实施例对图像语义分割方法进行了描述,接下来将就图像语义分割模型的训练方法进行描述。本技术实施例提供的图像语义分割模型的训练方法可以应用于样本数量较少(即小样本)场景,相应的,该训练方法也可以称为小样本学习方法,小样本学习的目标就是在样本有限的情况下实现相对较好的模型训练精度。
[0246]
图14是本技术一个示例性实施例提供的图像语义分割模型的训练方法的流程图。
该方法可以由计算机设备执行,计算机设备可以是图2中的终端100或服务器200。该方法包括:
[0247]
步骤1402:获取样本目标图像对应的目标特征、至少一个参考图像对应的参考特征、参考图像对应的参考掩码及真实目标掩码。
[0248]
示例性地,样本目标图像是指待进行图像语义分割的样本图像。目标特征是指通过对样本目标图像进行特征提取得到的特征表示。
[0249]
图像语义分割是指像素级地识别图像,预测出图像中每一个像素的类标签,即标注出图像中每个像素所属的对象类别。例如,将一张图片中所有关于树木的像素归为一类,将该图片中所有关于汽车的像素归为一类。
[0250]
参考图像是指已经进行图像语义分割的图像。参考图像是与待进行图像语义分割的目标图像属于同于同一类别的图像。参考图像的数量选择为至少一张,但不限于此,本技术实施例对参考图像的数量不作具体限定
[0251]
参考掩码用于指示对参考图像进行图像语义分割后的不同语义区域。例如,在参考图像中已对其中的飞机b进行图像语义分割,则参考图像中飞机b对应的区域对应的参考掩码的掩码值为1,参考图像的其余区域对应的参考掩码的掩码值为0。
[0252]
参考特征是指通过对参考图像进行特征提取得到的特征表示。至少一个参考图像对应的参考特征是指通过对每一个参考图像进行单独特征提取得到的特征表示。
[0253]
可以理解的是,本技术中对至少一个参考图像进行特征提取指对每一个参考图像进行单独特征提取,例如,对3张参考图像进行特征提取,最终得到3张参考图像对应的3个参考特征。
[0254]
真实目标掩码用于指示对样本目标图像进行图像语义分割后的不同语义区域。
[0255]
可选地,样本目标图像对应的真实目标掩码可以是相关人员对样本目标图像人为进行标注的。
[0256]
步骤1404:将目标特征、参考特征及参考掩码输入至图像语义分割模型中计算目标特征和参考特征之间的相似度值,并将相似度值作为加权值与参考掩码进行计算,得到样本目标图像对应的预测目标掩码。
[0257]
预测目标掩码用于指示对样本目标图像进行图像语义分割后的不同语义区域。
[0258]
图像语义分割模型是指用于将图像分割成具有一定语义含义的区域块,将图像进行分割的模型。图像语义分割模型根据样本目标图像的目标特征、参考图像的参考特征及参考掩码,通过计算目标特征、参考特征之间的相似度值,并将相似度值作为加权值与参考掩码相乘,最终得到样本目标图像中待进行图像语义分割区域对应的预测目标掩码。
[0259]
步骤1406:基于预测目标掩码及真实目标掩码,计算损失函数值。
[0260]
示例性地,计算机设备基于预测目标掩码及真实目标掩码,计算损失函数值。
[0261]
可选地,损失函数值为预测目标掩码及真实目标掩码之间的交叉熵、预测目标掩码及真实目标掩码之间的均方差、预测目标掩码及真实目标掩码之间的绝对差中的至少一种,但不限于此,本技术实施例对此不作限定。
[0262]
步骤1408:基于损失函数值对图像语义分割模型的模型参数进行更新。
[0263]
示例性地,计算机设备根据损失函数值对图像语义分割模型的模型参数进行更新。
[0264]
模型参数更新是指对图像语义分割模型里面的网络参数进行更新,或对模型里面的各个网络模块的网络参数进行更新,或对模型里面的各个网络层的网络参数进行更新,但不限于此,本技术实施例对此不作限定。
[0265]
综上所述,本实施例提供的方法,获取样本目标图像对应的目标特征、参考图像对应的参考特征及参考掩码;将目标特征、参考特征及参考掩码输入至图像语义分割模型进行计算,得到样本目标图像对应的预测目标掩码,并基于预测目标掩码及真实目标掩码,计算损失函数值;根据损失函数值对图像语义分割模型的模型参数进行更新,使得训练好的图像语义分割模型能够具备更高的图像语义分割精度,从而生成更加准确的图像语义分割结果。
[0266]
图15是本技术一个示例性实施例提供的图像语义分割模型的训练方法的流程图。该方法可以由计算机设备执行,计算机设备可以是图2中的终端100或服务器200。该方法包括:
[0267]
步骤1502:获取样本目标图像对应的目标特征、一个参考图像对应的参考特征、参考图像对应的参考掩码及真实目标掩码。
[0268]
示例性地,样本目标图像是指待进行图像语义分割的样本图像。目标特征是指通过对样本目标图像进行特征提取得到的特征表示。
[0269]
图像语义分割是指像素级地识别图像,预测出图像中每一个像素的类标签,即标注出图像中每个像素所属的对象类别。例如,将一张图片中所有关于树木的像素归为一类,将该图片中所有关于汽车的像素归为一类。
[0270]
参考图像是指已经进行图像语义分割的图像。
[0271]
参考掩码用于指示对参考图像进行图像语义分割后的不同语义区域。
[0272]
参考特征是指通过对参考图像进行特征提取得到的特征表示。
[0273]
真实目标掩码用于指示对样本目标图像进行图像语义分割后的不同语义区域。
[0274]
可选地,样本目标图像对应的真实目标掩码可以是相关人员对样本目标图像人为进行标注的。
[0275]
在一种可能的实现方式中,图像语义分割模型包括特征提取网络;计算机设备获取样本目标图像及参考图像;计算机设备通过特征提取网络对样本目标图像进行特征提取得到目标特征;以及通过特征提取网络对参考图像进行特征提取得到参考特征。
[0276]
可选地,特征提取网络为残差神经网络(resnet)、深度卷积网络vgg中的至少一种,但不限于此,本技术实施例对此不作限定。
[0277]
步骤1504:将目标特征、参考特征及参考掩码输入至多层密集交叉注意力加权掩码聚合网络中进行计算,得到目标特征与参考特征之间的相似度值。
[0278]
示例性地,计算机设备将目标特征、参考特征及参考掩码输入至多层密集交叉注意力加权掩码聚合网络中进行缩放点积注意力计算,得到目标特征与参考特征之间的相似度值。
[0279]
目标特征和参考特征均为像素级的特征表示,参考特征包括参考图像中前景像素和背景像素的特征表示。
[0280]
示例性地,计算机设备将目标特征作为第一向量矩阵q(query),将参考特征作为第二向量矩阵k(key)以及将参考掩码作为第三向量矩阵v(value),计算机设备将目标特
征、参考特征及参考掩码输入至多层密集交叉注意力加权掩码聚合网络中进行计算,得到目标特征q与参考特征k之间的相似度值。
[0281]
目标特征q与参考特征k之间的相似度值计算公式可表示为:
[0282]
c=qk
t
[0283]
其中,c表示相似度值,q为目标特征,k为参考特征。
[0284]
步骤1506:在多层密集交叉注意力加权掩码聚合网络中,将相似度值与参考掩码的掩码值进行相乘,计算得到样本目标图像对应的预测目标掩码。
[0285]
预测目标掩码用于指示对样本目标图像进行图像语义分割后的不同语义区域。
[0286]
计算机设备在多层密集交叉注意力加权掩码聚合网络中,将相似度值与参考掩码的掩码值进行相乘,计算得到目标图像对应的预测目标掩码。
[0287]
预测目标掩码的计算公式可参考步骤406中目标掩码的计算公式,本处不再赘述。
[0288]
步骤1508:基于预测目标掩码及真实目标掩码,计算损失函数值。
[0289]
示例性地,计算机设备基于预测目标掩码及真实目标掩码,计算损失函数值。
[0290]
可选地,损失函数值为预测目标掩码及真实目标掩码之间的交叉熵、预测目标掩码及真实目标掩码之间的均方差、预测目标掩码及真实目标掩码之间的绝对差中的至少一种,但不限于此,本技术实施例对此不作限定。
[0291]
步骤1510:基于损失函数值对图像语义分割模型的模型参数进行更新。
[0292]
示例性地,计算机设备根据损失函数值对图像语义分割模型的模型参数进行更新。
[0293]
模型参数更新是指对图像语义分割模型里面的网络参数进行更新,或对模型里面的各个网络模块的网络参数进行更新,或对模型里面的各个网络层的网络参数进行更新,但不限于此,本技术实施例对此不作限定。
[0294]
综上所述,本实施例提供的方法,获取样本目标图像对应的目标特征、一个参考图像对应的参考特征、参考图像对应的参考掩码及真实目标掩码;将目标特征、参考特征及参考掩码输入至图像语义分割模型进行计算,得到目标特征与参考特征之间的相似度值,将相似度值与参考掩码的掩码值进行相乘,计算得到样本目标图像对应的预测目标掩码并基于预测目标掩码及真实目标掩码,计算损失函数值;根据损失函数值对图像语义分割模型的模型参数进行更新,使得训练好的图像语义分割模型能够具备更高的图像语义分割精度,从而生成更加准确的图像语义分割结果。
[0295]
图16是本技术一个示例性实施例提供的图像语义分割模型的训练方法的流程图。该方法可以由计算机设备执行,计算机设备可以是图2中的终端100或服务器200。该方法包括:
[0296]
步骤1602:获取样本目标图像对应的目标特征、至少一个参考图像对应的参考特征、参考图像对应的参考掩码及真实目标掩码。
[0297]
示例性地,样本目标图像是指待进行图像语义分割的样本图像。目标特征是指通过对样本目标图像进行特征提取得到的特征表示。
[0298]
图像语义分割是指像素级地识别图像,预测出图像中每一个像素的类标签,即标注出图像中每个像素所属的对象类别。例如,将一张图片中所有关于树木的像素归为一类,将该图片中所有关于汽车的像素归为一类。
[0299]
参考图像是指已经进行图像语义分割的图像。
[0300]
参考掩码用于指示对参考图像进行图像语义分割后的不同语义区域。
[0301]
参考特征是指通过对参考图像进行特征提取得到的特征表示。至少一个参考图像对应的参考特征是指通过对每一个参考图像进行单独特征提取得到的特征表示。
[0302]
真实目标掩码用于指示对样本目标图像进行图像语义分割后的不同语义区域。
[0303]
可选地,样本目标图像对应的真实目标掩码可以是相关人员对样本目标图像人为进行标注的。
[0304]
步骤1604:将第i尺度目标特征、第i尺度参考特征以及与第i尺度参考特征匹配的参考掩码输入至多层密集交叉注意力加权掩码聚合网络进行计算,得到第i尺度目标特征与第i尺度参考特征之间的第i相似度值。
[0305]
示例性地,目标特征为多尺度目标特征、参考特征为多尺度参考特征。
[0306]
尺度是指目标特征对应的分辨率,例如,获取样本目标图像对应的四个尺度目标特征,四个尺度分别为1/4分辨率、1/8分辨率、1/16分辨率、1/32分辨率,但不限于此,本技术实施例对此不作限定。
[0307]
计算机设备将第i尺度目标特征、第i尺度参考特征以及与第i尺度参考特征匹配的参考掩码输入至图像语义分割模型进行计算,得到第i尺度目标特征与第i尺度参考特征之间的第i相似度值。
[0308]
示例性地,计算机设备将目标特征作为第一向量矩阵q(query),将参考特征作为第二向量矩阵k(key)以及将参考掩码作为第三向量矩阵v(value),计算机设备将第i尺度目标特征、第i尺度参考特征及与第i尺度参考特征匹配的参考掩码输入至多层密集交叉注意力加权掩码聚合网络中进行缩放点积注意力计算,得到第i尺度目标特征与第i尺度参考特征之间的第i相似度值。计算第i尺度目标特征与第i尺度参考特征之间的第i相似度值的公式可参考步骤404中计算相似度值的公式,本处不再赘述。
[0309]
步骤1606:将第i相似度值与第i尺度参考特征匹配的参考掩码的掩码值进行相乘,得到样本目标图像的第i尺度目标特征对应的第i预测目标掩码。
[0310]
计算机设备在多层密集交叉注意力加权掩码聚合网络中,将第i相似度值与第i尺度参考特征匹配的参考掩码的掩码值进行相乘,得到样本目标图像的第i尺度目标特征对应的第i预测目标掩码,i为大于1的正整数。
[0311]
第i预测目标掩码的计算公式可参考步骤406中计算目标掩码的公式,本处不再赘述。
[0312]
步骤1608:将不同尺度对应的预测目标掩码进行聚合,得到样本目标图像对应的预测目标掩码。
[0313]
示例性地,图像语义分割模型包括卷积网络;计算机设备通过卷积网络对不同尺度对应的预测目标掩码进行卷积,并将不同尺度对应的预测目标掩码进行逐元素相加,最终得到样本目标图像对应的预测目标掩码。
[0314]
可选地,图像语义分割模型包括三个卷积网络,但不限于此,本技术实施例对此不作任何限定。
[0315]
步骤1610:基于预测目标掩码及真实目标掩码,计算损失函数值。
[0316]
示例性地,计算机设备基于预测目标掩码及真实目标掩码,计算损失函数值。
[0317]
可选地,损失函数值为预测目标掩码及真实目标掩码之间的交叉熵、预测目标掩码及真实目标掩码之间的均方差、预测目标掩码及真实目标掩码之间的绝对差中的至少一种,但不限于此,本技术实施例对此不作限定。
[0318]
步骤1612:基于损失函数值对图像语义分割模型的模型参数进行更新。
[0319]
示例性地,计算机设备根据损失函数值对图像语义分割模型的模型参数进行更新。
[0320]
综上所述,本实施例提供的方法,获取样本目标图像对应的多尺度的目标特征、参考图像对应的参考特征、参考图像对应的参考掩码及真实目标掩码;将不同尺度对应的目标特征、参考特征及参考掩码输入至图像语义分割模型进行计算,得到不同尺度对应的目标掩码;将不同尺度对应的目标掩码进行聚合,得到与样本目标图像对应的预测目标掩码,并基于预测目标掩码及真实目标掩码,计算损失函数值;根据损失函数值对图像语义分割模型的模型参数进行更新,使得训练好的图像语义分割模型能够具备更高的图像语义分割精度,从而生成更加准确的图像语义分割结果。
[0321]
图17是本技术一个示例性实施例提供的图像语义分割模型的训练方法的流程图。该方法可以由计算机设备执行,计算机设备可以是图2中的终端100或服务器200。该方法包括:
[0322]
步骤1702:获取样本目标图像对应的目标特征、至少一个参考图像对应的参考特征、参考图像对应的参考掩码及真实目标掩码。
[0323]
示例性地,样本目标图像是指待进行图像语义分割的样本图像。目标特征是指通过对样本目标图像进行特征提取得到的特征表示。
[0324]
图像语义分割是指像素级地识别图像,预测出图像中每一个像素的类标签,即标注出图像中每个像素所属的对象类别。例如,将一张图片中所有关于树木的像素归为一类,将该图片中所有关于汽车的像素归为一类。
[0325]
参考图像是指已经进行图像语义分割的图像。
[0326]
参考掩码用于指示对参考图像进行图像语义分割后的不同语义区域。
[0327]
参考特征是指通过对参考图像进行特征提取得到的特征表示。至少一个参考图像对应的参考特征是指通过对每一个参考图像进行单独特征提取得到的特征表示。
[0328]
真实目标掩码用于指示对样本目标图像进行图像语义分割后的不同语义区域。
[0329]
可选地,样本目标图像对应的真实目标掩码可以是相关人员对样本目标图像人为进行标注的。
[0330]
步骤1704:将第i尺度目标特征、第i尺度参考特征以及与第i尺度参考特征匹配的参考掩码输入至图像语义分割模型进行计算,得到第i尺度目标特征与第i尺度参考特征之间的第i相似度值。
[0331]
示例性地,目标特征为多尺度目标特征、参考特征为多尺度参考特征。
[0332]
尺度是指目标特征对应的分辨率,例如,获取样本目标图像对应的四个尺度目标特征,四个尺度分别为1/4分辨率、1/8分辨率、1/16分辨率、1/32分辨率,但不限于此,本技术实施例对此不作限定。
[0333]
计算机设备将第i尺度目标特征、第i尺度参考特征以及与第i尺度参考特征匹配的参考掩码输入至图像语义分割模型进行计算,得到第i尺度目标特征与第i尺度参考特征
之间的第i相似度值。
[0334]
示例性地,计算机设备将目标特征作为第一向量矩阵q(query),将参考特征作为第二向量矩阵k(key)以及将参考掩码作为第三向量矩阵v(value),计算机设备将第i尺度目标特征、第i尺度参考特征及与第i尺度参考特征匹配的参考掩码输入至多层密集交叉注意力加权掩码聚合网络中进行缩放点积注意力计算,得到第i尺度目标特征与第i尺度参考特征之间的第i相似度值。计算第i尺度目标特征与第i尺度参考特征之间的第i相似度值的公式可参考步骤404中计算相似度值的公式,本处不再赘述。
[0335]
步骤1706:将第i相似度值与第i尺度参考特征匹配的参考掩码的掩码值进行相乘,得到样本目标图像的第i尺度目标特征对应的第i预测目标掩码。
[0336]
计算机设备在多层密集交叉注意力加权掩码聚合网络中,将第i相似度值与第i尺度参考特征匹配的参考掩码的掩码值进行相乘,得到样本目标图像的第i尺度目标特征对应的第i预测目标掩码,i为大于1的正整数。
[0337]
第i预测目标掩码的计算公式可参考步骤406中计算目标掩码的公式,本处不再赘述。
[0338]
步骤1708:将不同尺度对应的预测目标掩码进行聚合,得到中间预测目标掩码。
[0339]
示例性地,图像语义分割模型包括卷积网络;计算机设备通过卷积网络对不同尺度对应的预测目标掩码进行卷积,并将不同尺度对应的预测目标掩码进行逐元素相加,得到中间预测目标掩码。
[0340]
可选地,图像语义分割模型包括三个卷积网络,但不限于此,本技术实施例对此不作任何限定。
[0341]
步骤1710:将中间预测目标掩码与目标特征进行融合,得到样本目标图像对应的预测目标掩码。
[0342]
示例性地,图像语义分割模型包括混合网络;计算机设备将中间预测目标掩码与至少一个尺度对应的目标特征进行残差连接,并将中间预测目标掩码与目标特征的残差连接结果输入至混合网络进行融合,得到样本目标图像对应的预测目标掩码。
[0343]
可选地,图像语义分割模型包括三个混合网络,每个混合网络中包括两组卷积层和两组激活层relu;将中间预测目标掩码与至少一个尺度对应的目标特征进行残差连接,将残差连接结果依次输入至卷积层和激活层relu中进行融合,得到样本目标图像对应的预测目标掩码。
[0344]
步骤1712:基于预测目标掩码及真实目标掩码,计算损失函数值。
[0345]
示例性地,计算机设备基于预测目标掩码及真实目标掩码,计算损失函数值。
[0346]
可选地,损失函数值为预测目标掩码及真实目标掩码之间的交叉熵、预测目标掩码及真实目标掩码之间的均方差、预测目标掩码及真实目标掩码之间的绝对差中的至少一种,但不限于此,本技术实施例对此不作限定。
[0347]
步骤1714:基于损失函数值对图像语义分割模型的模型参数进行更新。
[0348]
示例性地,计算机设备根据损失函数值对图像语义分割模型的模型参数进行更新。
[0349]
模型参数更新是指对图像语义分割模型里面的网络参数进行更新,或对模型里面的各个网络模块的网络参数进行更新,或对模型里面的各个网络层的网络参数进行更新,
但不限于此,本技术实施例对此不作限定。
[0350]
图像语义分割模型的模型参数包括图像语义分割模型中多层密集交叉注意力加权掩码聚合网络的网络参数、卷积网络的网络参数、混合网络的网络参数中的至少一种。
[0351]
在获取损失函数值的情况下,计算机设备基于损失函数值对图像语义分割模型中的多层密集交叉注意力加权掩码聚合网络、卷积网络、混合网络的网络参数进行更新,得到更新后的多层密集交叉注意力加权掩码聚合网络、卷积网络、混合网络,从而得到训练完成的图像语义分割模型。
[0352]
在一些实施例中,图像语义分割模型的模型参数更新包括更新图像语义分割模型中的所有网络模块的网络参数,或,固定图像语义分割模型中的部分网络模块的网络参数,仅更新剩余部分的网络模块的网络参数。比如,对图像语义分割模型的模型参数进行更新时,固定图像语义分割模型中的卷积网络的网络参数、卷积网络的网络参数,仅对多层密集交叉注意力加权掩码聚合网络的网络参数进行更新。
[0353]
综上所述,本实施例提供的方法,获取样本目标图像对应的多尺度的目标特征、参考图像对应的参考特征、参考图像对应的参考掩码及真实目标掩码;将不同尺度对应的目标特征、参考特征及参考掩码输入至图像语义分割模型进行计算,得到不同尺度对应的目标掩码;将不同尺度对应的目标掩码进行聚合,得到中间预测目标掩码;将中间预测目标掩码与目标特征进行融合,得到与样本目标图像对应的预测目标掩码,并基于预测目标掩码及真实目标掩码,计算损失函数值;根据损失函数值对图像语义分割模型的模型参数进行更新,使得训练好的图像语义分割模型能够具备更高的图像语义分割精度,从而生成更加准确的图像语义分割结果。
[0354]
可以理解的是,在不同应用领域下,训练图像语义分割模型所使用的训练图像集不同。下面针对几种示意性的应用领域进行说明。
[0355]
一、辅助驾驶领域:由于训练得到的图像语义分割模型用于识别图像中不同的道路元素,因此训练图像集中的训练图像为包含道路元素的道路图像。
[0356]
二、对象检测领域:由于训练得到的图像语义分割模型用于识别图像中包含的对象,因此训练图像集中的训练图像需要包含不同姿态、不同角度的对象。
[0357]
可选的,训练图像集中的训练图像是实际拍摄的照片(后续需要人工进行类别标注),或者从游戏画面中截取的画面截图(可以直接从游戏应用中获取各个像素点所属对象的类别),但不限于此,本技术实施例对此不作限定。
[0358]
针对训练图像语义分割模型的方式,在一种可能的实施方式中,计算机设备将样本目标图像输入构建的初始图像语义分割模型,获取初始图像语义分割模型输出的各个像素点对应的预测类别,即预测目标掩码,从而根据预测目标掩码和真实目标掩码之间的误差,通过反向传播算法对初始图像语义分割模型中的参数进行更新,最终训练得到图像语义分割模型。
[0359]
示意性的,本技术实施例提供的图像语义分割方法的应用场景包括但不限于以下场景:
[0360]
1)自动驾驶场景;
[0361]
自动驾驶场景中,为了给交通工具增加必要的感知,获取交通工具所处的环境,以便自动驾驶的交通工具可以进行安全行驶时,需要对实时获取的道路场景图像,并对道路
场景图像进行图像语义分割,以获取道路场景中的障碍物位置,基于障碍物位置控制交通工具的自动驾驶;在该过程中,为提高对道路场景图像的语义分割效果,可以采用本技术提供的图像分割方法,可以提高图像语义分割的精度,继而获取道路场景中的障碍物位置的精确位置,从而提高了自动驾驶的安全性。
[0362]
2)医学图像辅助诊断场景;
[0363]
在医学领域中,医学图像已成为医学辅助诊断的重要辅助工具,对医学图像进行图像语义分割,并基于图像语义分割的结果对医药图像中的不同器官进行标注,可以更好的辅助医护人员进行医疗诊断,比如,对于胸部x光片进行图像语义分割,将x光片中的肺部和心脏分别对应的区域标注出来;在该过程中,图像语义分割的准确性,影响着在医学图像中的信息标注的准确性,进而影响医护人员基于信息标注进行医学诊断的准确性,因此,在医学图像辅助诊断场景中,通过使本技术提供的图像语义分割方法,可以提高对医学图像进行语义分割的准确性,进而提高了信息标准的准确性,提高医疗辅助诊断的准确性。
[0364]
当然,除了应用于上述场景外,本技术实施例提供方法还可以应用于其他需要训练图像语义分割模型的场景,尤其适用于小样本场景,本技术实施例并不对具体的应用场景进行限定。
[0365]
图18示出了本技术一个示例性实施例提供的图像语义分割装置的结构示意图。该装置可以通过软件、硬件或者两者的结合实现成为计算机设备的全部或一部分,该装置包括:
[0366]
获取模块1801,用于获取目标图像对应的目标特征、至少一个参考图像对应的参考特征及所述参考图像对应的参考掩码,所述参考掩码用于指示对参考图像进行图像语义分割后的不同语义区域。
[0367]
计算模块1802,用于将所述目标特征、所述参考特征及所述参考掩码输入至图像语义分割模型中计算所述目标特征和所述参考特征之间的相似度值,并将所述相似度值作为加权值与所述参考掩码进行计算,得到所述目标图像对应的目标掩码,所述目标掩码用于指示对目标图像进行图像语义分割后的不同语义区域。
[0368]
输出模块1803,用于输出所述目标图像对应的所述目标掩码。
[0369]
在一种可能的实现方式中,计算模块1802,还用于将所述目标特征、所述参考特征及所述参考掩码输入至所述多层密集交叉注意力加权掩码聚合网络中进行计算,得到所述目标特征与所述参考特征之间的所述相似度值;在所述多层密集交叉注意力加权掩码聚合网络中,将所述相似度值作为所述参考掩码的加权值,计算得到所述目标图像对应的所述目标掩码。
[0370]
在一种可能的实现方式中,计算模块1802,还用于在所述多层密集交叉注意力加权掩码聚合网络中,将所述相似度值与所述参考掩码的掩码值进行相乘,计算得到所述目标图像对应的所述目标掩码。
[0371]
在一种可能的实现方式中,计算模块1802,还用于将第i尺度目标特征、第i尺度参考特征以及与所述第i尺度参考特征匹配的所述参考掩码输入至所述图像语义分割模型进行计算,得到所述第i尺度目标特征与所述第i尺度参考特征之间的第i相似度值;将所述第i相似度值与所述第i尺度参考特征匹配的所述参考掩码的掩码值进行相乘,得到所述目标图像的所述第i尺度目标特征对应的第i目标掩码,i为大于1的正整数;将不同尺度对应的
所述目标掩码进行聚合,得到中间目标掩码;将所述中间目标掩码与所述目标特征进行融合,得到所述目标图像对应的所述目标掩码。
[0372]
在一种可能的实现方式中,计算模块1802,还用于通过所述卷积网络对不同尺度对应的所述目标掩码进行卷积;并将不同尺度对应的所述目标掩码的卷积结果进行逐元素相加,得到所述中间目标掩码。
[0373]
在一种可能的实现方式中,计算模块1802,还用于将所述中间目标掩码与至少一个尺度对应的所述目标特征进行残差连接,并将所述中间目标掩码与所述目标特征的残差连接结果输入至所述混合网络进行融合,得到所述目标图像对应的所述目标掩码。
[0374]
在一种可能的实现方式中,计算模块1802,还用于将所述中间目标掩码与至少一个尺度对应的所述目标特征进行残差连接,将所述残差连接结果依次输入至所述卷积层和所述激活层relu中进行融合,得到所述目标图像对应的所述目标掩码。
[0375]
在一种可能的实现方式中,获取模块1801,还用于获取目标图像及参考图像;
[0376]
通过所述特征提取网络对所述目标图像进行特征提取得到所述目标特征;以及通过所述特征提取网络对所述参考图像进行特征提取得到所述参考特征。
[0377]
图19示出了本技术一个示例性实施例提供的图像语义分割模型的训练装置的结构示意图。该装置可以通过软件、硬件或者两者的结合实现成为计算机设备的全部或一部分,该装置包括:
[0378]
获取模块1901,用于获取样本目标图像对应的目标特征、至少一个参考图像对应的参考特征、所述参考图像对应的参考掩码及真实目标掩码,所述参考掩码用于指示对参考图像进行图像语义分割后的不同语义区域;
[0379]
第一计算模块1902,用于将所述目标特征、所述参考特征及所述参考掩码输入至所述图像语义分割模型中计算所述目标特征、所述参考特征之间的相似度值,并将所述相似度值作为加权值与所述参考掩码进行计算,得到所述样本目标图像对应的预测目标掩码,所述预测目标掩码用于指示对目标图像进行图像语义分割后的不同语义区域;
[0380]
第二计算模块1903,用于基于所述预测目标掩码及所述真实目标掩码,计算损失函数值;
[0381]
更新模块1904,用于基于所述损失函数值对所述图像语义分割模型的模型参数进行更新。
[0382]
在一种可能的实现方式中,第一计算模块1902,还用于将所述目标特征、所述参考特征及所述参考掩码输入至所述多层密集交叉注意力加权掩码聚合网络中进行计算,得到所述目标特征与所述参考特征之间的所述相似度值;在所述多层密集交叉注意力加权掩码聚合网络中,将所述相似度值与所述参考掩码的掩码值进行相乘,计算得到所述样本目标图像对应的所述预测目标掩码。
[0383]
在一种可能的实现方式中,第一计算模块1902,还用于将第i尺度目标特征、第i尺度参考特征以及与所述第i尺度参考特征匹配的所述参考掩码输入至所述图像语义分割模型进行计算,得到所述第i尺度目标特征与所述第i尺度参考特征之间的第i相似度值;
[0384]
将所述第i相似度值与与所述第i尺度参考特征匹配的所述参考掩码的掩码值进行相乘,得到所述样本目标图像的所述第i尺度目标特征对应的第i预测目标掩码,i为大于1的正整数;
[0385]
将不同尺度对应的所述预测目标掩码进行聚合,得到中间预测目标掩码;
[0386]
将所述中间预测目标掩码与所述目标特征进行融合,得到所述样本目标图像对应的所述预测目标掩码。
[0387]
在一种可能的实现方式中,第一计算模块1902,还用于通过所述卷积网络对不同尺度对应的所述预测目标掩码进行卷积,并将不同尺度对应的所述预测目标掩码的卷积结果进行逐元素相加,得到所述中间预测目标掩码。
[0388]
在一种可能的实现方式中,第一计算模块1902,还用于将所述中间预测目标掩码与至少一个尺度对应的所述目标特征进行残差连接,并将所述中间预测目标掩码与所述目标特征的残差连接结果输入至所述混合网络进行融合,得到所述样本目标图像对应的所述预测目标掩码。
[0389]
在一种可能的实现方式中,第一计算模块1902,还用于将所述中间预测目标掩码与至少一个尺度对应的所述目标特征进行残差连接,将所述残差连接结果依次输入至所述卷积层和所述激活层relu中进行融合,得到所述样本目标图像对应的所述预测目标掩码。
[0390]
在一种可能的实现方式中,获取模块1901,还用于获取样本目标图像及参考图像;
[0391]
通过所述特征提取网络对所述样本目标图像进行特征提取得到所述目标特征;以及通过所述特征提取网络对所述参考图像进行特征提取得到所述参考特征。
[0392]
图20示出了本技术一示例性实施例示出的计算机设备2000的结构框图。该计算机设备可以实现为本技术上述方案中的服务器。所述图像计算机设备2000包括中央处理单元(central processing unit,cpu)2001、包括随机存取存储器(random access memory,ram)2002和只读存储器(read-only memory,rom)2003的系统存储器2004,以及连接系统存储器2004和中央处理单元2001的系统总线2005。所述图像计算机设备2000还包括用于存储操作系统2009、应用程序2010和其他程序模块2011的大容量存储设备2006。
[0393]
所述大容量存储设备2006通过连接到系统总线2005的大容量存储控制器(未示出)连接到中央处理单元2001。所述大容量存储设备2006及其相关联的计算机可读介质为图像计算机设备2000提供非易失性存储。也就是说,所述大容量存储设备2006可以包括诸如硬盘或者只读光盘(compact disc read-only memory,cd-rom)驱动器之类的计算机可读介质(未示出)。
[0394]
不失一般性,所述计算机可读介质可以包括计算机存储介质和通信介质。计算机存储介质包括以用于存储诸如计算机可读指令、数据结构、程序模块或其他数据等信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动介质。计算机存储介质包括ram、rom、可擦除可编程只读寄存器(erasable programmable read only memory,eprom)、电子抹除式可复写只读存储器(electrically-erasable programmable read-only memory,eeprom)闪存或其他固态存储其技术,cd-rom、数字多功能光盘(digital versatile disc,dvd)或其他光学存储、磁带盒、磁带、磁盘存储或其他磁性存储设备。当然,本领域技术人员可知所述计算机存储介质不局限于上述几种。上述的系统存储器2004和大容量存储设备2006可以统称为存储器。
[0395]
根据本公开的各种实施例,所述图像计算机设备2000还可以通过诸如因特网等网络连接到网络上的远程计算机运行。也即图像计算机设备2000可以通过连接在所述系统总线2005上的网络接口单元2007连接到网络2008,或者说,也可以使用网络接口单元2007来
连接到其他类型的网络或远程计算机系统(未示出)。
[0396]
所述存储器还包括至少一段计算机程序,所述至少一段计算机程序存储于存储器中,中央处理器2001通过执行该至少一段程序来实现上述各个实施例所示的图像语义分割方法或图像语义分割模型的训练方法中的全部或部分步骤。
[0397]
本技术实施例还提供一种计算机设备,该计算机设备包括处理器和存储器,该存储器中存储有至少一条程序,该至少一条程序由处理器加载并执行以实现上述各方法实施例提供的图像语义分割方法或图像语义分割模型的训练方法。
[0398]
本技术实施例还提供一种计算机可读存储介质,该存储介质中存储有至少一条计算机程序,该至少一条计算机程序由处理器加载并执行以实现上述各方法实施例提供的图像语义分割方法或图像语义分割模型的训练方法。
[0399]
本技术实施例还提供一种计算机程序产品,所述计算机程序产品包括计算机程序,所述计算机程序存储在计算机可读存储介质中;所述计算机程序由计算机设备的处理器从所述计算机可读存储介质读取并执行,使得所述计算机设备执行以实现上述各方法实施例提供的图像语义分割方法或图像语义分割模型的训练方法。
[0400]
可以理解的是,在本技术的具体实施方式中,涉及到的数据,历史数据,以及画像等与用户身份或特性相关的用户数据处理等相关的数据,当本技术以上实施例运用到具体产品或技术中时,需要获得用户许可或者同意,且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。
[0401]
应当理解的是,在本文中提及的“多个”是指两个或两个以上。“和/或”,描述关联对象的关联关系,表示可以存在三种关系,例如,a和/或b,可以表示:单独存在a,同时存在a和b,单独存在b这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。
[0402]
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
[0403]
以上所述仅为本技术的可选实施例,并不用以限制本技术,凡在本技术的精神和原则之内,所作的任何修改、等同切换、改进等,均应包含在本技术的保护范围之内。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献