一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

目标区域确定方法、装置、设备及存储介质与流程

2021-11-26 21:34:00 来源:中国专利 TAG:


1.本技术涉及图像处理领域,特别涉及一种目标区域确定方法、装置、设备及存储介质。


背景技术:

2.显著性目标检测,对图像进行数据处理,并实现在图像中检测到该图像中最重要的目标区域,并分割目标区域以提高对图像的识别精度的一系列相关技术。
3.在相关技术中,基于rgb图像的显著性目标检测有着较好检测效果,但当物体与周围环境具有相似外观或背景场景严重杂乱时,性能仍然受到限制。作为弥补,在rgb

d显著性目标检测中加入了深度数据,因为深度图中嵌入的丰富空间结构和3d布局信息,极大地提高了模型在挑战性场景下的性能。
4.上述技术方案中,深度图的质量往往较低,可能包含大量的噪声和误导性信息,导致基于rgb

d图像进行的目标检测检测效果较差。


技术实现要素:

5.本技术实施例提供了一种目标区域确定方法、装置、设备及存储介质,可以提高对目标区域确定的准确性,该技术方案如下:
6.一方面,提供了一种目标区域确定方法,所述方法包括:
7.获取第一图像;所述第一图像包含第一色彩图像数据以及第一深度图像数据;
8.基于所述第一色彩图像数据,获得第一估计深度数据;所述第一估计深度数据用于指示所述第一色彩图像数据对应的深度信息;
9.基于所述第一估计深度数据以及所述第一深度图像数据,获得第一校准深度数据;
10.基于所述第一色彩图像数据以及所述第一校准深度数据,进行加权处理,获得第一融合特征图;
11.基于所述第一融合特征图,确定所述第一图像对应的目标区域。
12.又一方面,提供了一种目标区域确定方法,所述方法包括:
13.获取第三样本图像;所述第三样本图像包含第三样本色彩图像数据以及第三样本深度图像数据;
14.基于所述第三样本色彩图像数据,获得第三样本估计深度数据;所述第三样本估计深度数据用于指示所述第三样本色彩图像数据对应的深度信息;
15.基于所述第三样本估计深度数据以及所述第三样本深度图像数据,获得第三样本校准深度数据;
16.基于所述第三样本色彩图像数据以及所述第三样本校准深度数据,通过目标区域确定模型中的特征融合分支进行加权处理,获得第三样本融合特征图;
17.基于所述第三样本融合特征图,以及所述第三样本图像对应的目标区域,对所述
目标区域确定模型进行训练;
18.其中,训练后的所述目标区域确定模型用于对第一图像对应的色彩图像数据以及第一图像对应的校准深度数据进行处理,获得所述第一图像对应的目标区域。
19.再一方面,提供了一种目标区域确定装置,所述装置包括:
20.第一图像获取模块,用于获取第一图像;所述第一图像包含第一色彩图像数据以及第一深度图像数据;
21.估计深度获取模块,用于基于所述第一色彩图像数据,获得第一估计深度数据;所述第一估计深度数据用于指示所述第一色彩图像数据对应的深度信息;
22.校准深度获取模块,用于基于所述第一估计深度数据以及所述第一深度图像数据,获得第一校准深度数据;
23.融合特征获取模块,用于基于所述第一色彩图像数据以及所述第一校准深度数据,进行加权处理,获得第一融合特征图;
24.目标区域确定模块,用于基于所述第一融合特征图,确定所述第一图像对应的目标区域。
25.在一种可能的实现方式中,所述装置还包括:
26.置信度获取模块,用于基于所述第一深度图像数据,获取所述第一深度图像数据对应的置信度;所述第一深度图像数据对应的置信度用于指示所述第一深度图像数据中与目标区域对应的图像数据的准确性;
27.所述校准深度获取模块,还用于,
28.对所述第一估计深度数据以及所述第一深度图像数据,进行基于所述第一深度图像数据对应的置信度的加权处理,获得所述第一校准深度数据。
29.在一种可能的实现方式中,所述置信度获取模块,还用于,
30.基于所述第一深度图像数据,通过置信度判别模型进行处理,获得所述第一深度图像数据对应的置信度;
31.所述估计深度获取模块,还用于,
32.基于所述第一色彩图像数据,通过深度估计模型进行数据处理,获得所述第一估计深度数据;
33.其中,所述置信度判别模型是以第一样本图像为样本、以所述第一样本图像对应的置信类型为标签训练出的机器学习模型;
34.所述深度估计模型是以第二样本图像为样本、以第二样本图像对应的深度图像数据为标签训练出的机器学习模型;所述第二样本图像是置信度满足第一指定条件的样本图像。
35.在一种可能的实现方式中,所述装置还包括:
36.第一样本集获取模块,用于获取第一训练样本集;所述第一训练样本集中包含第一样本图像以及所述第一样本图像对应的置信类型;
37.第一置信概率获取模块,用于基于所述第一样本图像,通过所述置信度判别模型进行数据处理,获得所述第一样本图像对应的置信概率;所述置信概率用于指示所述第一样本图像是正样本的概率;
38.置信判别模型训练模块,用于基于所述第一样本图像对应的置信概率以及所述第
一样本图像对应的置信类型,对所述置信度判别模型进行训练。
39.在一种可能的实现方式中,所述第一样本集获取模块,包括:
40.第二样本集获取子模块,用于获取第二训练样本集;所述第二训练样本集中包含训练样本图像以及训练样本图像对应的目标区域;所述训练样本图像包含训练色彩样本数据以及训练深度样本数据;
41.色彩预测区域获取子模块,用于通过目标区域确定模型中的色彩图像处理分支,对所述训练色彩样本数据进行处理,获得所述训练色彩样本数据对应的预测区域;
42.深度预测区域获取子模块,用于通过所述目标区域确定模型中的深度图像处理分支,对所述训练深度样本数据进行处理,获得所述训练深度样本数据对应的预测区域;
43.置信分数获取子模块,用于基于所述训练色彩样本数据对应的预测区域、所述训练深度样本数据对应的预测区域以及所述训练样本图像对应的目标区域,确定所述训练样本图像的置信分数;
44.第一样本图像确定子模块,用于响应于所述训练样本图像的置信分数满足指定条件,确定所述训练样本图像的置信类型,并将所述训练样本图像确定为所述第一样本图像;
45.其中,所述目标区域确定模型中的色彩图像处理分支是以样本色彩图像为样本、以样本色彩图像对应的目标区域为标注进行预训练得到的机器学习模型;
46.所述目标区域确定模型中的深度图像处理分支是以样本深度图像为样本、以样本深度图像对应的目标区域为标注进行预训练得到的机器学习模型。
47.在一种可能的实现方式中,所述置信分数包括色彩置信分数以及深度置信分数;
48.所述置信分数获取子模块,包括:
49.色彩置信分数获取单元,用于基于所述训练色彩样本数据对应的预测区域与所述训练样本图像对应的目标区域之间的重合度,确定所述训练样本图像对应的色彩置信分数;
50.深度置信分数获取单元,用于基于所述训练深度样本数据对应的预测区域与所述训练样本图像对应的目标区域之间的重合度,确定所述训练样本图像对应的深度置信分数。
51.在一种可能的实现方式中,所述融合特征获取模块,包括:
52.注意力加权子模块,用于基于所述第一色彩图像数据以及所述第一校准深度数据,通过目标区域确定模型中的特征融合分支进行基于注意力机制的加权处理,获得所述第一融合特征图;
53.所述装置还包括:
54.色彩特征图获取模块,用于基于所述第一色彩图像数据,通过所述目标区域确定模型中的深度图像处理分支进行数据处理,获得第一色彩特征图;
55.深度特征图获取模块,用于基于所述第一深度图像数据,通过目标区域确定模型中的深度图像处理分支进行数据处理,获得第一深度特征图;
56.所述目标区域确定模块,还用于,
57.基于所述第一融合特征图、第一深度特征图以及所述第一色彩特征图,确定所述第一图像对应的目标区域。
58.其中,所述目标区域确定模型是以第三样本图像为样本、以所述第三样本图像对
应的目标区域为标注训练得到的机器学习模型。
59.在一种可能的实现方式中,所述特征融合分支包括第一池化层、第二池化层、第一全连接层以及第二全连接层;
60.所述融合特征获取模块,包括:
61.第一池化子模块,用于基于所述第一色彩图像数据,通过第一池化层进行全局池化,获得第一色彩池化数据;
62.第一全连接子模块,用于基于所述第一色彩池化数据,通过第一全连接层进行数据处理,获得第一色彩向量;
63.第二池化子模块,用于基于所述第一深度图像数据,通过第二池化层进行全局池化,获得第一深度池化数据;
64.第二全连接子模块,用于基于所述第一深度池化数据,通过第二全连接层进行数据处理,获得第一深度向量;
65.融合特征获取子模块,用于基于所述第一色彩图像数据以及所述第一校准深度数据,通过第一色彩向量以及第一深度向量,进行通道注意力加权处理,获得所述第一融合特征图;所述第一色彩向量用于指示所述第一色彩图像数据对应的权重;所述第一深度向量用于指示所述第一深度图像数据对应的权重。
66.在一种可能的实现方式中,所述装置还包括:
67.第三图像获取模块,用于获取第三样本图像;所述第三样本图像包含第三样本色彩图像数据以及第三样本深度图像数据;
68.第三估计数据获取模块,用于基于所述第三样本色彩图像数据,获得第三样本估计深度数据;
69.第三校准数据获取模块,用于基于所述第三样本估计深度数据以及所述第三样本深度图像数据,获得第三样本校准深度数据;
70.第三融合特征获取模块,用于基于所述第三样本色彩图像数据以及所述第三样本校准深度数据,通过目标区域确定模型中的特征融合分支进行加权处理,获得第三样本融合特征图;
71.区域确定模型训练模块,用于基于所述第三样本融合特征图,以及所述第三样本图像对应的目标区域,对所述目标区域确定模型进行训练。
72.在一种可能的实现方式中,所述装置还包括:
73.第三色彩特征获取模块,用于基于所述第三样本色彩图像数据,通过所述目标区域确定模型中的色彩图像处理分支进行数据处理,获得第三样本色彩特征图;
74.第三深度特征获取模块,用于基于所述第三样本深度图像数据,通过所述目标区域确定模型中的深度图像处理分支进行数据处理,获得第三样本色彩特征图;
75.所述区域确定模型训练模块,还用于,
76.基于所述第三样本色彩特征图、所述第三样本深度特征图、所述第三样本融合特征图以及所述第三样本图像对应的目标区域,对所述目标区域确定模型进行训练。
77.又一方面,提供了一种目标区域确定装置,所述装置包括:
78.第三样本图像获取模块,用于获取第三样本图像;所述第三样本图像包含第三样本色彩图像数据以及第三样本深度图像数据;
79.第三样本估计获取模块,用于基于所述第三样本色彩图像数据,获得第三样本估计深度数据;所述第三样本估计深度数据用于指示所述第三样本色彩图像数据对应的深度信息;
80.第三样本校准获取模块,用于基于所述第三样本估计深度数据以及所述第三样本深度图像数据,获得第三样本校准深度数据;
81.第三样本融合特征获取模块,用于基于所述第三样本色彩图像数据以及所述第三样本校准深度数据,通过目标区域确定模型中的特征融合分支进行加权处理,获得第三样本融合特征图;
82.区域确定模型训练模块,用于基于所述第三样本融合特征图,以及所述第三样本图像对应的目标区域,对所述目标区域确定模型进行训练;
83.其中,训练后的所述目标区域确定模型用于对第一图像对应的色彩图像数据以及第一图像对应的校准深度数据进行处理,获得所述第一图像对应的目标区域。
84.又一方面,提供了一种计算机可读存储介质,所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现上述的目标区域确定方法。
85.又一方面,提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述目标区域确定方法。
86.本技术实施例提供的技术方案带来的有益效果至少包括:
87.通过第一图像中的第一色彩图像数据,获得该第一图像对应的估计深度数据,再根据该估计深度数据对第一图像对应的第一深度图像数据进行校正,获得校准后的深度数据,再通过校准后的深度数据与色彩图像数据进行融合,并根据融合后的融合特征图确定目标区域。上述方案,通过色彩图像估计该第一图像对应的深度信息,并对该第一图像对应的深度图像进行校正,再根据校正后的深度图像数据以及色彩图像数据获得该第一图像对应的目标区域,提高了目标区域确定的准确性。
附图说明
88.此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本技术的实施例,并与说明书一起用于解释本技术的原理。
89.图1示出了本技术一个示例性实施例提供的计算机系统的示意图;
90.图2是根据一示例性实施例示出的一种目标区域确定方法的流程示意图;
91.图3是根据一示例性实施例示出的一种目标区域确定方法的流程示意图;
92.图4是根据一示例性实施例示出的一种目标区域确定方法的方法流程图;
93.图5示出了图4所示实施例涉及的一种rgb

d图像通道示意图;
94.图6示出了图4所示实施例涉及的一种通道注意力加权示意图;
95.图7示出了图4所示实施例涉及的一种跨模态特征融合示意图;
96.图8示出了图4所示实施例涉及的一种模型网络框架图;
97.图9是根据一示例性实施例示出的目标区域确定方法的流程框图;
98.图10是根据一示例性实施例示出的一种目标区域确定装置的结构方框图;
99.图11是根据一示例性实施例示出的一种目标区域确定装置的结构方框图;
100.图12是根据一示例性实施例示出的一种计算机设备的结构示意图。
具体实施方式
101.为使本技术的目的、技术方案和优点更加清楚,下面将结合附图对本技术实施方式作进一步地详细描述。
102.首先,对本技术实施例涉及的名词进行介绍。
103.1)人工智能(artificial intelligence,ai)
104.人工智能是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
105.人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
106.2)计算机视觉(computer vision,cv)
107.计算机视觉是一门研究如何使机器“看”的科学,更进一步的说,就是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉,并进一步做图形处理,使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科,计算机视觉研究相关的理论和技术,试图建立能够从图像或者多维数据中获取信息的人工智能系统。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、光学字符识别(optical character recognition,ocr)、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3d技术、虚拟现实、增强现实、同步定位与地图构建等技术,还包括常见的人脸识别、指纹识别等生物特征识别技术。
108.3)机器学习(machine learning,ml)
109.机器学习是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、示教学习等技术。
110.4)深度图像(rgb

d,red green blue

depth)
111.在3d计算机图形中,rgb色彩模式是工业界的一种颜色标准,是通过对红(r)、绿(g)、蓝(b)三个颜色通道的变化以及它们相互之间的叠加来得到各式各样的颜色的,rgb即是代表红、绿、蓝三个通道的颜色,这个标准几乎包括了人类视力所能感知的所有颜色,是运用最广的颜色系统之一,而rgb

d图像模式是在rgb色彩模式的基础上增加了深度图信息。depth map(深度图)是包含与视点的场景对象的表面的距离有关的信息的图像或图像
通道。其中,depth map类似于灰度图像,只是它的每个像素值是传感器距离物体的实际距离。通常rgb图像和depth图像是配准的,因而像素点之间具有一对一的对应关系。
112.本技术实施例提供的目标区域确定方法可以应用于具有较强的数据处理能力的计算机设备中。在一种可能的实施方式中,本技术实施例提供的目标区域确定可以应用于个人计算机、工作站或服务器中。在一种可能的实现方式中,通过个人计算机、工作站或服务器进行本技术实施例涉及的置信度判别模型、深度估计模型、以及目标区域确定模型的训练。在一种可能的实施方式中,通过本技术实施例提供的训练方法训练出的置信度判别模型、深度估计模型以及目标区域确定模型,可以应用于需要进行显著性目标检测的应用场景下,实现通过获取的rgb

d图像,确定该rgb

d图像对应的目标区域,提高对rgb

d中目标区域确定的准确性。
113.请参考图1,其示出了本技术一个示例性实施例提供的计算机系统的示意图。该计算机系统中包括终端110和服务器120,其中,终端110与服务器120之间通过通信网络进行数据通信,可选地,通信网络可以是有线网络也可以是无线网络,且该通信网络可以是局域网、城域网以及广域网中的至少一种。
114.终端110中安装有具有图像处理功能的应用程序,该应用程序可以是虚拟现实应用程序、游戏应用程序、图像处理类程序、或具有图像处理功能的人工智能(artificial intelligence,ai)应用程序,本技术实施例对此不作限定。
115.可选的,终端110可以是智能手机、平板电脑、膝上便携式笔记本电脑等移动终端,也可以是台式电脑、投影式电脑等终端,或是具有rgb

d图像获取组件以及数据处理组件的智能终端,本技术实施例对此不做限定。
116.服务器120可以实现为一台服务器,也可以实现为一组服务器构成的服务器集群,其可以是物理服务器,也可以实现为云服务器。在一种可能的实施方式中,服务器120是终端110中应用程序的后台服务器。
117.本实施例的一种可能实现方式中,服务器120通过预先设置的训练样本集对目标区域确定模型进行训练,其中训练样本集中可以包含rgb

d样本图像。当服务器120对该目标区域确定模型的训练过程完成后,通过有线或无线连接,将该训练好的目标区域确定模型发送至终端110中。终端110接收到该训练好的目标区域确定模型,并将该目标区域确定模型对应的数据信息输入具有图像处理功能的应用程序中,以便用户使用该应用程序调用图像处理功能时,可以根据训练好的该目标区域确定模型进行目标区域的确定,以实现目标区域确定功能的全部或部分步骤。
118.图2是根据一示例性实施例示出的一种目标区域确定方法的流程示意图。该方法可以由计算机设备执行,该计算机设备可以是图像处理设备,其中,该图像处理设备可以是上述图1所示的实施例中的终端110。如图2所示,该目标区域确定方法的流程可以包括如下步骤:
119.步骤201,获取第一图像;该第一图像包含第一色彩图像数据以及第一深度图像数据。
120.步骤202,基于该第一色彩图像数据,获得第一估计深度数据;该第一估计深度数据用于指示该第一色彩图像数据对应的深度信息。
121.步骤203,基于该第一估计深度数据以及该第一深度图像数据,获得第一校准深度
数据。
122.步骤204,基于该第一色彩图像数据以及该第一校准深度数据,进行加权处理,获得第一融合特征图。
123.步骤205,基于该第一融合特征图,确定该第一图像对应的目标区域。
124.综上所述,本技术实施例所示方案,通过第一图像中的第一色彩图像数据,获得该第一图像对应的估计深度数据,再根据该估计深度数据对第一图像对应的第一深度图像数据进行校正,获得校准后的深度数据,再通过校准后的深度数据与色彩图像数据进行融合,并根据融合后的融合特征图确定目标区域。上述方案,通过色彩图像估计该第一图像对应的深度信息,并对该第一图像对应的深度图像进行校正,再根据校正后的深度图像数据以及色彩图像数据获得该第一图像对应的目标区域,提高了目标区域确定的准确性。
125.图3是根据一示例性实施例示出的一种目标区域确定方法的流程示意图。该方法可以由计算机设备执行,该计算机设备可以是模型训练设备,其中,该模型训练设备可以是上述图1所示的实施例中的服务器120。如图3所示,该目标区域确定方法的流程可以包括如下步骤:
126.步骤301,获取第三样本图像;该第三样本图像包含第三样本色彩图像数据以及第三样本深度图像数据。
127.步骤302,基于该第三样本色彩图像数据,获得第三样本估计深度数据。
128.步骤303,基于该第三样本估计深度数据以及该第三样本深度图像数据,获得第三样本校准深度数据。
129.步骤304,基于该第三样本色彩图像数据以及该第三样本校准深度数据,通过目标区域确定模型中的特征融合分支进行加权处理,获得第三样本融合特征图。
130.步骤305,基于该第三样本融合特征图,以及该第三样本图像对应的目标区域,对该目标区域确定模型进行训练。
131.其中,训练后的该目标区域确定模型用于对第一图像对应的色彩图像数据以及第一图像对应的校准深度数据进行处理,获得该第一图像对应的目标区域。
132.综上所述,本技术实施例所示方案,通过第一图像中的第一色彩图像数据,获得该第一图像对应的估计深度数据,再根据该估计深度数据对第一图像对应的第一深度图像数据进行校正,获得校准后的深度数据,再通过校准后的深度数据与色彩图像数据进行融合,并根据融合后的融合特征图确定目标区域。上述方案,通过色彩图像估计该第一图像对应的深度信息,并对该第一图像对应的深度图像进行校正,再根据校正后的深度图像数据以及色彩图像数据获得该第一图像对应的目标区域,提高了目标区域确定的准确性。
133.图4是根据一示例性实施例示出的一种目标区域确定方法的方法流程图。该方法可以由模型处理设备与图像处理设备共同执行,其中,该模型处理设备可以是上述图1所示的实施例中的服务器120,该图像匹配设备可以是上述图1所示的实施例中的终端110。如图4所示,该目标区域确定方法的流程可以包括如下步骤:
134.步骤401,获取第一图像。
135.其中,该第一图像包含第一色彩图像数据以及第一深度图像数据。
136.在一种可能的实现方式中,该第一图像是rgb

d图像,即该第一图像中包含rgb图像以及深度图像(depth map),即该第一色彩图像数据是该第一图像中包含的rgb图像对应
的图像数据,该第一深度图像数据是该第一图像中包含的深度图像对应的图像数据。
137.在一种可能的实现方式中,该第一图像中存在至少两种图像通道,该至少两种图像通道中包含色彩(rgb)图像通道以及深度(depth)图像通道。
138.请参考图5,其示出了本技术实施例涉及的一种rgb

d图像通道示意图。如图5所示,当第一图像是rgb

d图像时,该第一图像中的rgb图像501对应的色彩图像数据如图5中502部分所示,在色彩图像数据502中,分别存在三个图像通道,其中三个图像通道分别对应红、绿、蓝三原色分别对应的像素数据;该第一图像中的深度图像503对应的深度图像数据如图5中504部分所示,在深度图像数据504中,存在深度图像通道,该深度图像通道中每个数据用于指示该深度图像中各个像素点的像素数据。
139.在一种可能的实现方式中,该第一色彩图像数据是该第一图像中包含的rgb图像;该第一深度图像数据是该第一图像中包含的深度图像。
140.在另一种可能的实现方式中,该第一色彩图像数据是基于该第一图像中包含的rgb图像进行特征提取获得的;该第一深度图像数据是基于该第一图像中包含的深度图像进行特征提取获得的。
141.步骤402,基于该第一深度图像数据,获取该第一深度图像数据对应的置信度。
142.其中,该置信度用于指示该第一深度图像数据中与目标区域对应的图像数据的准确性。
143.由于深度获取设备的精度通常不高,并且容易受到自然环境的影响,因此通过深度获取设备获取的第一图像中包含的第一色彩图像数据的准确度通常不高,因此可以通过该第一深度图像数据的置信度,对该第一深度图像数据的准确性做一个判断,以确定该第一深度图像数据的真实性。当该第一深度图像数据的置信度较高时,说明该第一深度图像数据中的数据具有较高的可靠性,因此通过对该第一深度图像数据进行处理后得到的结果也是较为真实的;当该第一深度图像数据的置信度较低时,说明该第一深度图像数据中的数据不具有足够的可靠性,因此通过该第一深度图像数据进行处理后得到的结果不具有足够的可信度。
144.在一种可能的实现方式中,基于该第一深度图像数据,通过置信度判别模型进行处理,获得该第一深度图像数据对应的置信度。
145.其中,该置信度判别模型是以第一样本图像为样本、以该第一样本图像对应的置信类型为标签训练出的机器学习模型。
146.在一种可能的实现方式中,该第一样本图像对应的置信类型可以包括正样本与负样本,当该第一样本图像的置信类型为正样本时,说明该第一样本图像是准确度较高的样本图像,当该第一样本图像的置信类型为负样本时,说明该第一样本图像是准确度较低的样本图像。
147.在一种可能的实现方式中,将该第一深度图像数据输入该置信度判别模型,获得该第一深度图像数据对应的置信度概率分布,该置信度概率分布中包含该第一深度图像数据为正样本的概率以及该第一深度图像数据为负样本的概率;将该第一深度图像数据为正样本的概率获取为该第一深度图像数据对应的置信度。
148.其中,该第一深度图像数据为正样本代表着该第一深度图像数据是可信的图像数据;该第一深度图像数据为负样本代表着该第一深度图像数据是不可信的图像数据。
149.在一种可能的实现方式中,获取第一训练样本集;该第一训练样本集中包含第一样本图像以及该第一样本图像对应的置信类型;基于该第一样本图像,通过该置信度判别模型进行数据处理,获得该第一样本图像对应的置信概率;该置信概率用于指示该第一样本图像是正样本的概率;基于该第一样本图像对应的置信概率以及该第一样本图像对应的置信类型,对该置信度判别模型进行训练。
150.在对该置信度判别模型进行训练的过程中,可以将该第一训练样本集中包含的第一样本图像输入该置信度判别模型,获得该第一样本图像对应的概率分布。该第一样本图像对应的概率分布中包含该第一样本图像对应正样本的概率以及该第一样本图像对应负样本的概率,其中,该第一样本图像对应的置信概率是该第一样本图像对应正样本的概率。根据该第一样本图像对应的置信类型,以及该第一样本图像对应的置信概率,对该置信度判别模型进行训练,训练后的置信度判别模型可以对输入的图像数据进行数据处理,以获得该输入的图像数据的置信概率。
151.在一种可能的实现方式中,该第一样本图像是深度图像,此时根据该第一样本图像训练出的置信度判别模型可以实现对深度图像的置信度的判断。
152.在另一种可能的实现方式中,该第一样本图像包含深度图像与rgb色彩图像,因此根据该第一样本图像训练出的置信度判别模型可以实现对深度图像的置信度的判断,也可以实现对该rgb色彩图像的置信度的判断。
153.在一种可能的实现方式中,该置信度判别模型可以是包含卷积层与全连接层的机器学习模型。
154.其中,该置信度判断模型中的卷积层实现对该输入的第一样本图像的特征提取,并通过全连接层实现对提取出的特征进行线性转换,获得该第一样本图像对应的二维的置信向量,并基于该置信向量,获得该第一样本图像对应的概率分布。
155.在一种可能的实现方式中,响应于该第一样本图像包含深度图像与rgb色彩图像,该置信度判别模型还可以包含深度置信判别分支以及色彩置信判别分支。
156.当该第一样本图像中包含深度图像与rgb色彩图像时,由于深度图像与rgb色彩图像属于不同模态的图像,因此通过同一个机器学习的模型结构同时对深度图像与rgb色彩图像的置信度进行训练时,训练出的机器学习模型可能实际的置信度判别效果较差。因此,该置信度判别模型中可以包含深度置信判别分支以及色彩置信判别分支,该深度置信判别分支是基于第一样本图像中的深度图像以及该第一样本图像中的深度图像对应的置信类别训练获得的,该色彩置信判别分支是基于该第一样本图像中的色彩图像以及该第一样本图像中的色彩图像对应的置信类别训练获得的。
157.训练后的该置信度判别模型即可以对色彩图像的置信度具有较好的判别效果,也可以对深度图像的置信度具有较好的判别效果。
158.在一种可能的实现方式中,该第一样本图像中包含深度图像与rgb色彩图像时,该第一样本图像的置信类型可以分别包含第一样本图像中的深度图像对应的置信类型以及该第一样本图像中的色彩图像对应的置信类型。
159.其中,该第一样本图像中的深度图像对应的置信类型与该第一样本图像中的色彩图像对应的置信类型可以是相同的置信类型也可以是不同的置信类型。例如,当该第一样本图像中的色彩图像与深度图像的精度均较高时,该第一样本图像中的色彩图像对应的置
信类型可以为正样本,该第一样本图像中的深度图像对应的置信类型也为正样本;当该第一样本图像中的色彩图像的精度较高,但该第一样本图像中的深度图像的精度较低时,该第一样本图像中的深度图像对应的置信类型为负样本,该第一样本图像中的色彩图像对应的置信类型为负样本。
160.在一种可能的实现方式中,获取第二训练样本集;该第二训练样本集中包含训练样本图像以及训练样本图像对应的目标区域;该训练样本图像包含训练色彩样本数据以及训练深度样本数据;通过目标区域确定模型中的色彩图像处理分支,对该训练色彩样本数据进行处理,获得该训练色彩样本数据对应的预测区域;通过该目标区域确定模型中的深度图像处理分支,对该训练深度样本数据进行处理,获得该训练深度样本数据对应的预测区域;基于该训练色彩样本数据对应的预测区域、该训练深度样本数据对应的预测区域以及该训练样本图像对应的目标区域,确定该训练样本图像的置信分数;响应于该训练样本图像的置信分数满足指定条件,确定该训练样本图像的置信类型,并将该训练样本图像确定为该第一样本图像。
161.其中,该目标区域确定模型中的色彩图像处理分支是以样本色彩图像为样本、以样本色彩图像对应的目标区域为标注进行预训练得到的机器学习模型;该目标区域确定模型中的深度图像处理分支是以样本深度图像为样本、以样本深度图像对应的目标区域为标注进行预训练得到的机器学习模型。
162.其中,该第二训练样本集中包含各个训练样本图像,以及分别与各个训练样本图像对应的目标区域,对于该第二训练样本集中的其中一个训练样本图像,该训练样本图像包含训练色彩样本数据以及训练深度样本数据,该训练色彩样本数据以及该训练深度样本数据均与该训练样本图像对应的目标区域相对应。
163.该训练色彩样本数据通过目标区域确定模型中的色彩图像处理分支进行数据处理,获得该训练色彩样本数据对应预测区域;该训练深度样本数据通过目标区域确定模型中的深度图像处理分支进行数据处理,获得该训练深度样本数据对应的预测区域,并根据该训练色彩样本数据对应的预测区域、该训练深度样本数据对应的预测区域以及该目标区域,可以确定该训练样本图像的置信类型,并将该训练样本图像确定的第一样本图像,以实现对置信度判别模型的训练。
164.在一种可能的实现方式中,将该样本色彩图像作为训练样本输入该目标区域确定模型中的色彩图像处理分支,获得该样本色彩图像对应的预测区域;基于该样本色彩图像对应的预测区域以及该样本色彩图像对应的目标区域,对该目标区域确定模型中的色彩图像处理分支进行训练,获得预训练后的色彩图像处理分支。该预训练后的色彩图像处理分支,可以对输入的色彩图像进行处理,得到该色彩图像中对应的预测区域,此时可以认为,当该输入的色彩图像的质量较好时,该输入的色彩图像的预测区域与该色彩图像实际对应的目标区域应该重合度较高,因此根据该色彩图像的预测区域与该色彩图像实际对应的目标区域的重合度,可以确定该色彩图像是否为质量较好的色彩图像,并获取该色彩图像的置信度。
165.将该样本深度图像作为训练样本输入该目标区域确定模型中的深度图像处理分支,获得该样本深度图像对应的预测区域;基于该样本深度图像对应的预测区域以及该样本深度图像对应的目标区域,对该目标区域确定模型中的深度图像处理分支进行训练,获
得预训练后的深度图像处理分支。该预训练后的深度图像处理分支,可以对输入的深度图像进行处理,得到该深度图像中的预测区域,此时可以认为当该输入的深度图像的质量较好时,该输入的深度图像的预测区域与该深度图像实际对应的目标区域的重合度应该较高,因此可以根据该深度图像的预测区域与该深度图像实际对应的目标区域的重合度,确定该深度图像是否为质量较好的深度图像,并获取该深度图像的置信度。
166.在一种可能的实现方式中,该置信分数包括色彩置信分数以及深度置信分数;基于该训练色彩样本数据对应的预测区域与该训练样本图像对应的目标区域之间的重合度,确定该训练样本图像对应的色彩置信分数;基于该训练深度样本数据对应的预测区域与该训练样本图像对应的目标区域之间的重合度,确定该训练样本图像对应的深度置信分数。
167.其中,上述置信分数包括色彩置信分数以及深度置信分数;其中,色彩置信分数是基于该训练色彩样本数据对应的预测区域与该训练样本图像对应的目标区域之间的重合度确定的,该训练色彩样本数据对应的预测区域与该训练样本图像对应的目标区域之间的重合度越高,则该训练样本图像对应的色彩置信分数越高;深度置信分数是基于该训练深度样本数据对应的预测区域与该训练样本图像对应的目标区域之间的重合度确定的,该训练深度样本数据对应的预测区域与该训练样本图像对应的目标区域的重合度越高,则该训练样本图像对应的深度置信分数越高。
168.在一种可能的实现方式中,响应于该训练样本图像的深度置信分数满足指定条件,获取该训练样本图像的置信类型,并将该训练样本图像获取为第一样本图像。
169.在一种可能的实现方式中,响应于该训练样本图像的深度置信分数大于第一置信阈值,将该训练样本图像的置信类型确定为正样本,并将该训练样本图像获取为第一样本图像。
170.在一种可能的实现方式中,响应于该训练样本图像的深度置信分数小于第二置信阈值,将该训练样本图像的置信类型确定为负样本,并将该训练样本图像获取为第一样本图像。
171.当该训练样本图像的深度置信分数大于第一置信阈值时,即该训练样本图像对应的训练深度样本数据通过目标区域确定模型中的深度图像处理分支进行数据处理后得到的预测区域,与目标区域的重合度较高,可以认为该训练样本图像中的训练深度样本数据是可信度较高的数据,因此将该训练样本图像的置信类型确定为正样本,并将该训练样本图像确定为第一样本图像,以实现对置信度判别模型进行训练;当该训练样本图像的深度置信分数小于第二置信阈值时,即该训练样本图像对应的训练深度样本数据通过目标区域确定模型中的深度图像处理分支进行数据处理后得到的预测区域,与目标区域的重合度较低,可以认为该训练样本图像中的训练深度样本数据是可信度较低的数据,因此将该训练样本图像的置信类型确定为负样本,并将该训练样本图像确定为第一样本图像,以实现对置信度判别模型进行训练,此时通过足够数量的训练样本图像训练后得到的置信度判别模型可以实现对输入的样本图像的置信度进行判定,以确定该输入的样本图像中的深度图像数据的质量。
172.在一种可能的实现方式中,基于该第二训练样本集中的各个训练样本图像,分别通过目标区域确定模型中的深度图像处理分支,确定该各个训练样本图像分别对应的深度置信分数;将该各个训练样本图像分别对应的深度置信分数从大到小进行排序,并将该各
个训练样本图像中,深度置信分数大小为前a%的训练样本图像的置信类型确定为正样本,并获取为第一样本图像,其中a大于0。
173.在另一种可能的实现方式中,将该各个训练样本图像中,深度置信分数大小为后b%的训练样本图像的置信类型确定为负样本,并获取为第一样本图像,其中b大于0。
174.此时,该第二训练样本集中的,深度置信分数为前a%的训练样本图像,可以认为是准确度较高的训练样本图像,因此该前a%的训练样本图像的深度图像数据是较为准确的数据,此时可以将该前a%的训练样本图像获取为第一样本图像,并确定为正样本;该第二训练样本集中的,深度置信分数为后b%的训练样本图像,可以认为是准确度较低的训练样本图像,因此可以将该后b%的训练样本图像也获取为第一样本图像,并确定为负样本,以实现对置信度判别模型的训练。
175.在一种可能的实现方式中,响应于该训练样本图像的深度置信分数与色彩置信分数满足指定条件,获取该训练样本图像的置信类型,并将该训练样本图像获取为第一样本图像。
176.其中,该训练样本图像的置信类型也可以根据该训练样本图像的训练深度样本数据以及训练色彩图像数据的置信分数进行判定。
177.在一种可能的实现方式中,响应于该训练样本图像的深度置信分数大于该训练样本图像的色彩置信分数,将该训练样本图像的置信类型获取为正样本,并将该训练样本图像获取为第一样本图像,以便对置信度判别模型进行训练。
178.由于训练样本图像(即rgb

d图像)中,rgb图像的精度通常高于深度图像,因此当深度图像对应的深度置信分数大于rgb图像对用的色彩置信分数,说明此时训练样本图像中,训练深度样本数据存在比训练色彩样本数据具有更准确的目标区域的信息,此时也可以将该训练样本图像获取为第一样本图像,对模型进行训练。
179.步骤403,基于该第一色彩图像数据,获得第一估计深度数据。
180.其中,该第一估计深度数据是基于该第一色彩图像数据获取的,即该第一估计深度数据是在该第一色彩图像中包含的第一图像的深度信息。
181.在一种可能的实现方式中,基于该第一色彩图像数据,通过深度估计模型进行数据处理,获得该第一估计深度数据。
182.其中,该深度估计模型是以第二样本图像为样本、以第二样本图像对应的深度图像数据为标签训练出的机器学习模型;该第二样本图像是置信度满足第一指定条件的样本图像。
183.在一种可能的实现方式中,该第二样本图像是置信度大于第三置信阈值的样本图像。
184.在另一种可能的实现方式中,获取估计模型训练样本集,该估计模型训练样本集中包含至少两个估计样本图像;该估计样本图像包含色彩图像数据以及深度图像数据;基于该估计模型训练样本集中各个估计样本图像的深度图像数据,通过该置信度判别模型进行数据处理,获得该各个估计样本图像分别对应的深度置信分数,将该各个估计样本图像中深度置信分数满足置信条件的获取为该第二样本图像。
185.在一种可能的实现方式中,获取该估计模型训练样本集中各个估计样本图像分别对应的深度置信分数,并将该各个估计样本图像分别对应的深度置信分数从大到小进行排
序,将该各个估计样本图像中置信分数大小为前c%的估计样本图像获取为该第二样本图像。
186.即通过上述方案,可以筛选出深度置信分数较高的估计样本图像,并获取为第二样本图像,该第二样本图像中包含深度图像数据以及色彩图像数据,该深度置信分数较高,说明该第二样本图像对应的深度图像数据质量较好,因此通过该第二样本图像为样本(即以该第二样本图像对应的色彩图像数据为样本),将该第二样本图像对应的深度图像数据为标注,训练出的深度估计模型,可以基于输入的色彩图像数据,经过数据处理得到质量较好的深度图像数据,以实现通过该第二样本图像对应的色彩图像数据,估计该第二样本图像的深度图像数据。
187.步骤404,对该第一估计深度数据以及该第一深度图像数据,进行基于该第一深度图像数据对应的置信度的加权处理,获得该第一校准深度数据。
188.在一种可能的实现方式中,该第一深度图像对应的置信度,是根据该第一深度图像数据,通过该置信度判别模型进行数据处理后得到的,即该第一深度图像数据对应的置信度,可以用于指示该第一图像中的第一深度图像数据的准确度,而第一估计深度数据是基于深度估计模型,对第一图像对应的第一色彩图像数据进行处理后得到的深度图像数据,因此基于该第一深度图像数据对应的置信度,对该第一估计深度数据以及该第一深度图像数据进行加权求和,得到的第一校准深度数据,对比直接得到的第一深度图像数据,其考虑了第一深度图像数据本身的准确性,并结合了第一色彩图像中包含的深度信息,因此该第一校准深度图像数据可以更准确的表述该第一图像的深度信息。
189.步骤405,基于该第一色彩图像数据以及该第一校准深度数据,进行加权处理,获得第一融合特征图。
190.在一种可能的实现方式中,基于该第一色彩图像数据以及该第一校准深度数据,通过目标区域确定模型中的特征融合分支进行基于注意力机制的加权处理,获得该第一融合特征图。
191.在一种可能的实现方式中,该特征融合分支包括第一池化层、第二池化层、第一全连接层以及第二全连接层;基于该第一色彩图像数据,通过第一池化层进行全局池化,获得第一色彩池化数据;基于该第一色彩池化数据,通过第一全连接层进行数据处理,获得第一色彩向量;基于该第一深度图像数据,通过第二池化层进行全局池化,获得第一深度池化数据;基于该第一深度池化数据,通过第二全连接层进行数据处理,获得第一深度向量;基于该第一色彩图像数据以及该第一校准深度数据,通过第一色彩向量以及第一深度向量,进行通道注意力加权处理,获得该第一融合特征图。
192.该第一色彩向量用于指示该第一色彩图像数据对应的权重;该第一深度向量用于指示该第一深度图像数据对应的权重。
193.在将该第一色彩图像数据以及该第一校准深度数据进行融合,得到第一融合特征图的过程中,可以先通过第一池化层,对该第一色彩图像数据进行全局池化,得到该第一色彩池化数据,该第一色彩池化数据可以表示该第一色彩图像数据的整体数据大小,即表示了该第一色彩图像数据对于目标区域的重要程度。再根据该第一色彩池化数据,通过第一全连接层进行数据处理,即通过线性转换,变换为第一色彩向量,该第一色彩向量可以用于指示该第一色彩图像数据中各个通道的权重占比(该权重占比即指示各个通道的特征的重
要性);还可以通过第二池化层,对该第一深度图像数据进行全局池化后,得到该第一深度池化数据,该第一深度池化数据可以表示该第一深度池化数据的整体数据大小,即表示了该第一深度图像数据对于目标区域的重要程度。在根据该第一深度池化数据,通过第二全连接层进行数据处理,即线性转换为第一深度向量,该第二深度向量可以指示该第一深度图像数据对应的图像通道的权重占比,再根据该第一色彩向量以及该第一深度向量进进行通道的注意力加权处理后融合,获得该第一融合特征图。
194.请参考图6,其示出了本技术实施例涉及的一种通道注意力加权示意图。如图6所示。针对一个通道为c,尺寸为w
×
h的特征图601,首先对所有通道的特征图进行全局池化得到平均特征图,该平均特征图通过一层全连接层变换形成通道注意力值,最后将通道注意力值与所有的通道特征图进行相乘,形成通道注意力特征图602。由于该通道注意力机制是根据该各个通道各自对应的均值通过全连接层映射成为通道注意力值,因此根据该通道注意力值加权后得到的注意力特征图,会更加注意平均值较大的通道(即平均值较大的通道的图像特征对应的权重更大)。
195.请参考图7,其示出了本技术实施例涉及的一种跨模态特征融合示意图。如图7所示,对于第一图像对应的第一色彩图像数据701,该第一色彩图像数据701可以输入gap(global average pooling,全局平均池化)第一池化层702,进行全局池化,进行全局池化后得到的值可以输入fc(fully connected,全连接)第一全连接层703后通过激活函数704进行处理,获得该第一色彩图像数据对应的色彩向量705。
196.对于第一图像对应的第一深度图像数据706,该第一深度图像数据706可以输入gap第二池化层707进行全局池化,进行全局池化后得到的值可以输入fc第二全连接层708后通过激活函数709进行处理,获得该第一深度图像数据对应的深度向量710。
197.其中,上述第一色彩图像数据,可以是基于该第一图像的rgb图像经过特征提取获得的图像特征;该第一深度图像数据,可以是基于该第一图像的深度图像进行特征提取后获得的图像特征。
198.其中,该色彩向量705与深度向量710可以同时输入max最大值获取模块711,取该色彩向量与深度向量中各个维度的较大值,获取为最值向量712。
199.对于第一色彩图像数据701,其以该色彩向量705为通道注意力的权重进行通道注意力加权,获得第一色彩加权特征图;该第一色彩图像数据701再根据该最值向量作为通道注意力的权重进行通道注意力加权,获得第二色彩加权特征图;再将该第一色彩加权特征图与该第二色彩加权特征图进行融合,获得该色彩特征图713。对于第一深度图像数据706,其以该深度向量710为通道注意力的权重进行通道注意力加权,获得第一深度加权特征图;该第一深度图像数据706再根据该最值向量作为通道注意力的权重进行通道注意力加权,获得第二深度加权特征图;再将该第一深度加权特征图与该第二深度加权特征图进行融合,获得该深度特征图714。最后将该色彩特征图713与该深度特征图714输入卷积模块c中,以实现该色彩特征图与该深度特征图的融合,获得该融合特征图715。
200.即上述图7示出了本技术实施例涉及的交叉参考模块。在对深度图像数据校正后,将校正后的深度图与rgb图像一起输入双流特征提取网络(即预训练处的色彩图像处理分支以及深度图像处理分支),生成多层次特征。从rgb通道中提取的特征包含丰富的语义信息和纹理信息,同时,来自深度通道的特征包含了更多判别性的场景布局线索,与rgb特征
互补。本技术实施例提出交叉参考模块作为跨模态特征的融合策略,并在图7中进行了说明。提出的交叉参考模块旨在挖掘和组合深度和rgb特征中最具区别性的通道(即特征检测器),并生成更具信息性的特征。即给定rgb和深度流产生的两个输入特征,首先使用全局平均池化来获得rgb视图和深度视图的全局统计量。然后将这两个特征向量分别输入到一个全连接层和一个softmax激活函数中,得到通道注意向量,分别反映了rgb特征和深度特征的重要性。然后,注意向量以通道乘法的方式应用于输入特征上。这样,交叉参考模块就会明确地关注重要的特征,而抑制不必要的场景理解特征。基于解码出的rgb和深度特征,一个卷积层用以生成跨模态融合特征。此外,一个三元组损失对跨模态融合特征进行约束,使融合特征更接近前景,同时扩大前景特征与背景特征之间的距离。
201.步骤406,基于该第一融合特征图,确定该第一图像对应的目标区域。
202.在一种可能的实现方式中,基于该第一色彩图像数据,通过该目标区域确定模型中的深度图像处理分支进行数据处理,获得第一色彩特征图;基于该第一深度图像数据,通过目标区域确定模型中的深度图像处理分支进行数据处理,获得第一深度特征图;基于该第一融合特征图、第一深度特征图以及该第一色彩特征图,确定该第一图像对应的目标区域。
203.其中,该目标区域确定模型是以第三样本图像为样本、以该第三样本图像对应的目标区域为标注训练得到的机器学习模型。
204.其中,该第一图像对应的目标区域,可以是同时考虑该第一图像对应的第一深度特征图、该第一图像对应的第一色彩特征图,以及该第一图像对应的第一融合特征图获得的。该第一图像对应的第一深度特征图是将该第一深度图像数据输入该目标区域确定模型中的深度图像处理分支获得的,因此该第一深度特征图可以指示该第一深度图像数据对应的预测区域;该第一图像对应的第一色彩特征图是将该第一色彩图像数据输入该目标区域确定模型中的色彩图像处理分支获得的,因此该第一色彩特征图可以指示该第一色彩图像数据对应的预测区域;在该第一融合特征图的基础上,考虑第一色彩特征图与该第一深度特征图后得到目标区域,可以使得在对深度图像数据校准后获得第一融合特征图的同时,考虑色彩特征图中的原始特征以及深度特征图中的原始特征,提高了目标区域的识别准确度。
205.在一种可能的实现方式中,获取第三样本图像;该第三样本图像包含第三样本色彩图像数据以及第三样本深度图像数据;基于该第三样本色彩图像数据,获得第三样本估计深度数据;基于该第三样本估计深度数据以及该第三样本深度图像数据,获得第三样本校准深度数据;基于该第三样本色彩图像数据以及该第三样本校准深度数据,通过目标区域确定模型中的特征融合分支进行加权处理,获得第三样本融合特征图;基于该第三样本融合特征图,以及该第三样本图像对应的目标区域,对该目标区域确定模型进行训练。
206.在对目标区域确定模型的过程中,获取该第三样本图像,以及该第三样本图像对应的目标区域,且该第三样本图像包含该第三样本色彩图像数据以及该第三样本深度图像数据,因此可以先根据该第三样本色彩图像数据以及该第三样本深度图像数据,对该第三样本深度图像数据进行校准,获得该第三样本校准深度数据,并根据该第三样本校准深度数据以及该第三样本色彩图像数据,实现不同模态的图像特征的融合,获得该第三样本融合特征图,并基于该第三样本融合特征图,确定该第三样本图像对应的预测区域,再将该第
三样本图像对应的预测区域和第三样本图像对应的目标区域,对该目标区域确定模型进行训练。
207.在一种可能的实现方式中,基于该第三样本色彩图像数据,通过该目标区域确定模型中的色彩图像处理分支进行数据处理,获得第三样本色彩特征图;基于该第三样本深度图像数据,通过该目标区域确定模型中的深度图像处理分支进行数据处理,获得第三样本色彩特征图;基于该第三样本色彩特征图、该第三样本深度特征图、该第三样本融合特征图以及该第三样本图像对应的目标区域,对该目标区域确定模型进行训练。
208.由于该目标区域确定模型包含色彩图像处理分支、深度图像处理分支以及特征融合分支,因此可以通过色彩图像处理分支,对该第三样本色彩图像数据进行处理,获得该第三样本色彩图像数据对应的第三样本色彩特征图;再通过深度图像处理分支,对该第三样本深度图像数据进行处理,获得该第三样本深度图像数据对应的第三样本深度特征图;并同时基于该第三样本色彩特征图、该第三样本深度特征图、该第三样本融合特征图以及该第三样本图像对应的目标区域,对该目标区域确定模型进行训练,此时训练后的目标区域确定模型,可以同时对色彩图像数据进行处理得到该色彩图像数据对应的特征图,以及对深度图像数据进行数据处理得到该深度图像数据对应的特征图,并对色彩图像数据以及校准后的深度图像数据融合得到融合特征图,其中该特征图均用于指示分别对应的预测区域,因此目标区域确定模型,可以分别根据色彩图像数据得到色彩图像数据对应的预测区域、根据深度图像数据得到深度图像数据对应的预测区域以及根据色彩图像数据以及校准后的深度图像数据得到融合特征图对应的预测区域,并根据三个预测区域获取到输入图像的目标区域。
209.在一种可能的实现方式中,网络的总体优化目标l
total
由4个部分组成,包括rgb、深度和融合分支的交叉熵损失以及交叉参考模块中的三元组损失,如下所示:
[0210][0211]
其中,l
rgb
、l
dept
h以及l
fuse
分别是与上述三个解码器的输出对应的损失函数,是各个卷积层对应的三元组损失函数,n=3代表三元组损失函数中涉及的卷积层数,α可以取0.2。
[0212]
在一种可能的实现方式中,该交叉熵损失函数还可以是边界信息的edge

guided bce,以提升预测结果对物体边界的学习。
[0213]
请参考图8,其示出了本技术实施例涉及的一种模型网络框架图。如图8所示,其展示了本技术实施例的方案框架:
[0214]
对于输入的第一图像的色彩图像数据801,通过目标区域确定模型中的色彩图像处理分支802进行处理,得到该第一图像对应的色彩特征图;对于输入的第一图像的深度图像数据803,通过目标区域确定模型中的深度图像处理分支804进行处理,得到该第一图像对应的深度特征图;再将该色彩图像处理分支802中的部分卷积层提取出的特征,以及深度图像处理分支804中的部分卷积层提取出的特征,输入交叉参考模块crm构成的特征融合分支中,获得融合特征图;再分别通过三个解码器对色彩特征图、深度特征图以及融合特征图进行解码,相应的输出被求和为最终的显著性图。
[0215]
即上述图8,基于双流特征提取网络,由深度校准策略和融合策略两个核心部分构成。首先提出了一种深度校准策略,以校正不可靠的原始深度图所产生的潜在噪声,校正后的深度比原深度更能体现场景布局和识别前景区域。给定校正后的rgb

d数据,rgb图像和校正后的深度同时输入到双流特征提取网络,生成多层级的特征。然后,一个融合策略交叉参考模块被设计,以整合从rgb特征和深度特征到跨模态融合特征的有效的线索,这使得三个解码分支分别处理rgb、深度和融合的特征。所有的特征被单独处理,相应的输出被求和为最终的显著性图。
[0216]
显著性目标检测(sod,salient object detection)是一个重要的计算机视觉问题,其目的是识别和分割场景中最显著的目标。它已成功应用于各种任务,如物体识别,图像检索,slam(同步定位与建图,simultaneous localization and mapping)和视频分析。为了解决在处理低纹理对比度或存在杂乱背景的困难场景时固有的挑战,深度信息被纳入作为补充的输入源,在rgb图像上添加深度信息作为额外的输入,可以在具有挑战性的场景中实现突出对象的定位。
[0217]
本技术实施例中,基于如图8所示的双流特征提取网络,包含深度标定和融合策略两个核心部分。基于图8所示的双流特征提取网络,本技术实施例还提出了一种深度校准(dc)策略,以纠正不可靠的原始深度图造成的潜在噪声,并获得校准的深度。校正后的深度比原深度更能体现场景布局,识别前景区域。现在,给定校正过的rgb

d配对数据,rgb图像和校正过的深度图像f
idepth
被输入到一个双流特征提取网络中,生成分层特征。对于每个流,采用一个编译码网作为骨干。这是随后的融合策略:交叉参考模块(crms)的设计,以整合特征,从rgb特征和深度特征到跨模态融合特征;这就产生了三个处理rgb的解码分支,分别是深度特征和融合的层次特征。这些特征被单独处理,相应的输出被求和到最终的显著性映射s
map

[0218]
来自深度地图的有效空间信息在帮助定位具有挑战性的场景(如杂乱的背景和低对比度的情况)的显著区域中起着至关重要的作用。然而,由于观测距离、遮挡或反射等原因,不可靠的原始深度和潜在的深度采集误差将阻碍模型从深度图中提取准确信息。为了解决深度图噪声带来的性能瓶颈,本技术对原始深度进行校准,以更好地表达场景布局。本技术解决的两个关键问题是:1、模型如何学习区分质量不好的深度图(消极情况)和质量好的深度图(积极情况);2、如何制作校正/修正的深度图,既能保留高质量深度图的有用线索,又能修正低质量深度图中不可靠的信息。因此,本技术提出了深度校准(dc)策略,这是dcf的核心组件。需要两个连续步骤来选择具有代表性的样本,并生成校正后的深度图。
[0219]
针对第一个关键问题,提出了一种困难意识选择策略,其目的是选择训练数据库中最典型的正负性样本。然后这些样本用于训练判别器/分类器来预测深度图的质量,反映了深度图的可靠性。首先,本技术可以用相同的架构预先训练两个模型分支,分别将rgb数据和深度数据作为显著性映射监督下的输入,分别记为然后,根据两个基线模型预测的显著性,设计一个选择方案来衡量深度图是否能够提供可靠的信息。具体来说,根据rgb流和深度流产生的显著性结果,首先计算两个流的预测显著性和ground

truth显著性之间的交集(iou)度量,分别表示为iou(depth)和iou(rgb),针对每个训练样本。然后,将所有训练样本的iou(depth)分数由大到小依次排序。基于分数排名,排名前20%的训练样本将被视为典型的正样本集p
set
(也就是说,深度图的质量是可以接受的)和
底部20%将被视为典型的负样本集n
set
(也就是说,深度图的质量是坏的和不可接受的)。此外,当iou(depth)>iou(rgb)时,这些样本也会被视为正样本,这说明原始深度数据比rgb输入在识别前景区域时提供了更丰富的全局线索。
[0220]
基于所选的有代表性的正样本和负样本,训练一个基于resnet

18模型结构的二进制鉴别器/分类器来评估深度图的可靠性。因此,训练的鉴别器能够预测一个可靠性评分p
pos
,表明深度图分别为正或负的概率。p
pos
越高,原始深度图的质量越好。
[0221]
此外,还建立了深度估计器,该深度估计器包含多个卷积块。该深度估计器使用rgb图像和正集中质量较好的深度数据进行训练,以减轻原始深度数据不准确带来的固有噪声。在深度校准模块,直接使用原始深度图可能不可靠,因此可以将原始深度图替换为原始深度图和估计的深度之间的加权和,估计的深度是基于该深度估计器获取的。因此,得到了depth
cal
校准后的深度图,如下公式所示:
[0222]
depth
cal
=depth
raw
*p
pos
depth
est
*(1

p
pos
)
[0223]
其中,“depth
est”和“depth
raw”分别表示深度估计器和原始深度图估算的深度。
[0224]
深度校正过程完成后,将标定后的深度图depth
cal
和rgb图像送入双流特征提取网络,生成层次特征,分别为和注意,本技术实施例中保留了最后三个具有丰富语义特征的卷积块,去掉了前两个具有高分辨率的卷积块,以平衡计算成本。一般来说,从rgb通道中提取的特征包含丰富的语义信息和纹理信息;同时,来自深度通道的特征包含了更多判别性的场景布局线索,与rgb特征互补。为了整合跨模态信息,设计了名为cross reference module(crm,跨模态融合)的融合策略,如本技术实施例的图7所示。
[0225]
提出的crm旨在挖掘和组合深度和rgb特征中最具区别性的通道(即特征检测器),并生成更具信息性的特征。具体来说,对于rgb steam和depth steam的第i个卷积块产生的两个输入特征和f
idepth
,首先使用global average pooling(全局平均池化)来获得rgb视图和depth视图的全局统计量。然后,将这两个特征向量分别馈入一个全连通层(fc)和一个softmax激活函数,得到通道注意向量和分别反映rgb特征和深度特征的重要性。然后,注意向量以信道乘法的方式应用于输入特征上。这样,crm就会明确地关注重要的特征,而抑制不必要的场景理解特征,整个过程可以定义为:
[0226]
att
i
=δ(w
i
*avgpooling(f
i
) b
i
)
[0227]
其中w
i
和b
i
是全连接层中与第i层的特征对应的参数,avgpooling表示进行平均池化操作。然后再根据通道注意力特征进行如的通道注意力加权操作,其中代表着基于通道进行乘法操作。
[0228]
另外将从注意向量以及通过极大值函数进行聚合,从rgb流和深度流中获得更突出的特征通道,然后将其送入归一化运算,将输出归一化至0~1的范围内,从而得到了相互参照的信道注意向量该步骤可以被定义为:
[0229][0230]
基于融合后的通道注意向量将输入的和进行加权,获得增强后的
特征与rgb分支和depth分支的增强特征进一步连接并馈如1
×
1卷积层,生成跨模态融合特征f
i
,该过程可以被定义为:
[0231][0232][0233]
之后,通过三元组损失函数对跨模态融合特征f
i
进行处理,使融合特征离前景更近,同时扩大前景特征与背景特征之间的距离。通过将f
i
设置为锚点特征,显著区域对应的特征作为正特征,背景区域对应的特征作为负特征,如下所示:
[0234][0235][0236]
其中,s代表标注的显著性图像区域。
[0237]
三元组损失函数可以通过如下公式进行计算:
[0238][0239]
其中,d代表的是欧式距离,m代表边距参数,设为1.0。
[0240]
在crm的基础上,可以获取跨模态特征并同时将rgb流特征以及深度流特征分别通过三个解码器进行解码,最后将三个解码器的输出相加获得最后的显著性区域s
map

[0241]
本方案的优化目标整体可以描述为本方案的优化目标整体可以描述为其中,l
rgb
、l
depth
以及l
fuse
分别是与上述三个解码器的输出对应的损失函数,n=3代表三元组损失函数中涉及的卷积层数,在本技术中α可以取0.2。
[0242]
在显著性目标检测中,复杂背景、物体与周围环境的相似被普遍认为是具有挑战性的场景。这自然导致除了传统的rgb图像作为输入外,额外深度信息的自然引入,即所谓的深度诱导(rgb

d)显著性目标检测。与此同时,这一新兴的研究方向在很大程度上受到了原始深度图像中普遍存在的噪声和模糊的阻碍。为了解决上述问题,本技术实施例提出了一个深度校准融合框架,该框架包含两个组成部分:一种新颖的学习策略去校准原始深度图像中的潜在偏差,以提高检测性能;一个有效的交叉参考模块来融合来自rgb和深度图两种模态的交叉互补特征。大量的实验表明,该方法与其他最先进的方法相比,具有更好的性能。
[0243]
显著性目标检测在现实生活中具有重要价值。显著性目标检测(sod)是为了识别在一个场景中最受关注的目标区域。显著性目标检测不同于起源于认知和心理学研究领域的凝视点预测,它被广泛应用于不同领域的应用。在计算机视觉中,显著性目标检测的应用包括图像理解、图像描述生成、目标检测、无监督视频目标分割、语义分割、行人重识别等。在计算机图形学中,显著性目标检测任务被广泛应用于vr(virtual reality,虚拟现实)渲染、图像自动裁剪、图像重定向、视频摘要等任务。在机器人领域的示例应用,如人机交互和目标发现,以及避障机器人的场景理解也受益于显著性目标检测。然而,主流的显著性目标检测方法通常基于单输入的rgb图像,这使得在一些复杂场景中的表现一般。因此,深度图
像的引入,很大程大上改善了显著性目标检测领域在挑战性场景的定位能力。但也由于深度获取设备和自然环境条件的影响,部分的深度图可能带有明显的噪音。因此,在目前的rgb

d显著性目标检测领域引入深度校准策略,提升深度信息的利用效率,进而提高检测的精度是有必要的。
[0244]
本技术实施例提出的基于深度图质量校准的显著性目标检测的解决方案。首先预训练两个显著性区分网络分别基于rgb和深度图作为输入。然后利用两个预训练网络的性能对比,设计一个深度校准学习策略,改进和提高深度图的质量。并且引入一个交叉参考模块有效融合深度与rgb两个互补特征的信息融合,极大地增强深度信息对显著性目标检测的利用。
[0245]
同时,本技术实施例提出通用的深度图校准框架。可以被利用其他先进的rgb

d显著性目标检测方法中,并且都带来了性能的巨大收益。
[0246]
表1是其他方案与本技术实施例所示方案在sip数据集上的数据表现,验证了方法的优异性能。并且,本技术实施例提出的方法在多个大尺度公开显著性目标检测数据集上均取得了优异的性能。
[0247]
表1
[0248][0249]
表格2验证了本专利提出的方法中每个组件所带来的性能收益。表2分别以rgb数据和原始深度图作为输入。可以看出,rgb支路的性能优于使用原始深度图的深度分支,说明rgb输入比深度输入包含更多的语义和纹理信息。为了评估深度校准策略的有效性,对比了原始深度和使用校准深度的基准网络。如表2所示,校准深度在四个数据集上平均减少了mae误差指标14.51%。此外,为了验证提出的深度校准模块的泛化能力,还将生成的校准深度应用于两个最先进的模型,包括d3net和dmra。如表格3所示,用校正后的深度代替原始深度图训练d3net和dmra,对dut

d数据集和nju2k数据集均取得了明显的性能提升。d3net和dmra的mae指标分别降低了12.5%和9.1%。因此,大量的实验证明了所提出的深度校准策略的优点。
[0250]
表2
[0251][0252]
此外,对于跨模态融合模块来整合rgb和深度特征,一个简单的解决方案是使用拼接之后再用卷积操作来融合互补特征。在表2中,通过比较(d)和(f)可以看出,与直接特征融合相比,本文提出的交叉参考模块能够更好地融合rgb特征和深度特征的互补信息。同时,对比(f),将三元组损失函数剔除后,所有实验的性能都出现了下降,表明了三组损失在增强特征表示方面的有效性。
[0253]
表3示出了本技术实施例涉及的校准深度方案对目标区域确定的影响。
[0254]
表3
[0255][0256]
综上所述,本技术实施例所示方案中,通过第一图像中的第一色彩图像数据,获得该第一图像对应的估计深度数据,再根据该估计深度数据对第一图像对应的第一深度图像数据进行校正,获得校准后的深度数据,再通过校准后的深度数据与色彩图像数据进行融合,并根据融合后的融合特征图确定目标区域。上述方案,通过色彩图像估计该第一图像对应的深度信息,并对该第一图像对应的深度图像进行校正,再根据校正后的深度图像数据以及色彩图像数据获得该第一图像对应的目标区域,提高了目标区域确定的准确性。
[0257]
图9是根据一示例性实施例示出的目标区域确定方法的流程框图。如图9所示,本技术实施例中的目标区域确定方法的流程框图由图9所示900部分、910部分以及920部分共同构成,其中,该图9所示的900部分、910部分以及920部分可以分别在不同的设备中实现,也可以在同一个设备中实现,如图9所示,该目标区域确定方法包括以下步骤。
[0258]
如图9中900部分所示,训练样本集中可以包含色彩图像集合901以及深度图像集合903,其中,该色彩图像集合901中包含至少两个样本色彩图像;该深度图像集合903中包含至少两个样本深度图像;该色彩图像集合901与该深度图像集合903中的图像是一一对应
的。通过目标区域确定模型中的色彩图像处理分支902对该色彩图像集合中的各个样本色彩图像进行处理,可以获得该各个样本色彩图像对应的预测区域;通过目标区域确定模型中的深度图像处理分支904对该深度图像集合中的各个样本深度图像进行处理,可以获得该各个样本深度图像对应的预测区域905;通过该各个样本深度图像对应的预测区域905与该各个样本深度图像对应的目标区域,可以获取该各个样本深度图像对应的置信分,并根据该各个样本深度图像对应的置信分对该各个样本深度图像从大到小进行排序,获得排序后的样本深度图像集合906,将置信分大小前a%的确定为正样本,将置信分大小后b%的确定为负样本。
[0259]
如图9中910部分所示,在图9中910部分中存在置信度判别模型912,该置信度判别模型902是根据图9中900部分中排序后的样本深度图像集合906中的正样本以及负样本进行训练后得到的,该置信度判别模型可以根据输入的样本深度图像,确定该样本深度图像对应的置信度。因此,对于训练样本集中的各个样本深度图像911,将其分别输入该置信度判别模型912,以获得该训练样本集中的各个样本深度图像分别对应的置信度并排序,获得排序的样本深度图像913,再将排序的样本深度图像913中置信度排名前c%的样本深度图像以及对应的样本色彩图像,对深度估计模型915进行训练,以便训练后的深度估计模型915对输入的色彩图像914进行处理,获得该色彩图像914对应的估计深度数据916,再将该估计深度数据916与该色彩图像914对应的深度图像,基于该色彩图像对应的深度图像的置信度进行加权处理得到校正深度图像917,其中,该色彩图像对应的深度图像的置信度,可以是根据该置信度判别模型912获取的。
[0260]
在图9中的920部分,其中,该色彩图像集合921中包含色彩图像,校正深度图像集合922中包含该色彩图像集合921中的各个色彩图像对应的校正深度图像;将该色彩图像集合921中与第一图像对应的色彩图像输入目标区域确定模型中的色彩图像处理分支,可以获得该色彩图像对应的色彩特征图;将该深度图像集合922中与第一图像对应的深度图像输入目标区域确定模型中的深度图像处理分支,可以获得该深度图像对应的深度特征图;再分别将该色彩图像处理分支中的n个卷积层提取的数据,以及该深度图像处理分支中的n个卷积层提取的数据,分别输入如图7所示的n个交叉参考模块crm,实现深度图像与色彩图像之间的特征融合,得到融合特征图,根据该融合特征图、深度特征图以及色彩特征图,获取该第一图像的目标区域。
[0261]
如图9所示,其目标是选择训练数据库中最典型的难易样本。然后,这些样本用于训练判别器/分类器来预测深度图的质量,以此反映了深度图的可靠性。基于筛选出的代表性的正、负样本,训练基于一个基础的二进制分类器,以评估深度图的可靠性。因此,训练的判别器对于每一个数据都能够预测一个可靠性分数,表示深度图为正例或负例的概率。此外,本技术实施例还建立了一个深度估计器,该深度估计器包含多个卷积操作。其中,深度估计器是用rgb图像和质量较好的深度数据对进行训练,以减轻原始深度数据不准确所带来的固有噪声。在深度校准模块,并不直接使用可能不可靠的原始深度图,而是利用原始深度图和估计的深度图加权求和的结果作为输入,进而改善深度信息的利用。
[0262]
图10是根据一示例性实施例示出的一种目标区域确定装置的结构方框图。该目标区域确定装置可以实现由图2或图4所示实施例提供的方法中的全部或部分步骤,该目标区域确定装置包括:
[0263]
第一图像获取模块1001,用于获取第一图像;所述第一图像包含第一色彩图像数据以及第一深度图像数据;
[0264]
估计深度获取模块1002,用于基于所述第一色彩图像数据,获得第一估计深度数据;所述第一估计深度数据用于指示所述第一色彩图像数据对应的深度信息;
[0265]
校准深度获取模块1003,用于基于所述第一估计深度数据以及所述第一深度图像数据,获得第一校准深度数据;
[0266]
融合特征获取模块1004,用于基于所述第一色彩图像数据以及所述第一校准深度数据,进行加权处理,获得第一融合特征图;
[0267]
目标区域确定模块1005,用于基于所述第一融合特征图,确定所述第一图像对应的目标区域。
[0268]
在一种可能的实现方式中,所述装置还包括:
[0269]
置信度获取模块,用于基于所述第一深度图像数据,获取所述第一深度图像数据对应的置信度;所述第一深度图像数据对应的置信度用于指示所述第一深度图像数据中与目标区域对应的图像数据的准确性;
[0270]
所述校准深度获取模块1003,还用于,
[0271]
对所述第一估计深度数据以及所述第一深度图像数据,进行基于所述第一深度图像数据对应的置信度的加权处理,获得所述第一校准深度数据。
[0272]
在一种可能的实现方式中,所述置信度获取模块,还用于,
[0273]
基于所述第一深度图像数据,通过置信度判别模型进行处理,获得所述第一深度图像数据对应的置信度;
[0274]
所述估计深度获取模块1002,还用于,
[0275]
基于所述第一色彩图像数据,通过深度估计模型进行数据处理,获得所述第一估计深度数据;
[0276]
其中,所述置信度判别模型是以第一样本图像为样本、以所述第一样本图像对应的置信类型为标签训练出的机器学习模型;
[0277]
所述深度估计模型是以第二样本图像为样本、以第二样本图像对应的深度图像数据为标签训练出的机器学习模型;所述第二样本图像是置信度满足第一指定条件的样本图像。
[0278]
在一种可能的实现方式中,所述装置还包括:
[0279]
第一样本集获取模块,用于获取第一训练样本集;所述第一训练样本集中包含第一样本图像以及所述第一样本图像对应的置信类型;
[0280]
第一置信概率获取模块,用于基于所述第一样本图像,通过所述置信度判别模型进行数据处理,获得所述第一样本图像对应的置信概率;所述置信概率用于指示所述第一样本图像是正样本的概率;
[0281]
置信判别模型训练模块,用于基于所述第一样本图像对应的置信概率以及所述第一样本图像对应的置信类型,对所述置信度判别模型进行训练。
[0282]
在一种可能的实现方式中,所述第一样本集获取模块,包括:
[0283]
第二样本集获取子模块,用于获取第二训练样本集;所述第二训练样本集中包含训练样本图像以及训练样本图像对应的目标区域;所述训练样本图像包含训练色彩样本数
据以及训练深度样本数据;
[0284]
色彩预测区域获取子模块,用于通过目标区域确定模型中的色彩图像处理分支,对所述训练色彩样本数据进行处理,获得所述训练色彩样本数据对应的预测区域;
[0285]
深度预测区域获取子模块,用于通过所述目标区域确定模型中的深度图像处理分支,对所述训练深度样本数据进行处理,获得所述训练深度样本数据对应的预测区域;
[0286]
置信分数获取子模块,用于基于所述训练色彩样本数据对应的预测区域、所述训练深度样本数据对应的预测区域以及所述训练样本图像对应的目标区域,确定所述训练样本图像的置信分数;
[0287]
第一样本图像确定子模块,用于响应于所述训练样本图像的置信分数满足指定条件,确定所述训练样本图像的置信类型,并将所述训练样本图像确定为所述第一样本图像;
[0288]
其中,所述目标区域确定模型中的色彩图像处理分支是以样本色彩图像为样本、以样本色彩图像对应的目标区域为标注进行预训练得到的机器学习模型;
[0289]
所述目标区域确定模型中的深度图像处理分支是以样本深度图像为样本、以样本深度图像对应的目标区域为标注进行预训练得到的机器学习模型。
[0290]
在一种可能的实现方式中,所述置信分数包括色彩置信分数以及深度置信分数;
[0291]
所述置信分数获取子模块,包括:
[0292]
色彩置信分数获取单元,用于基于所述训练色彩样本数据对应的预测区域与所述训练样本图像对应的目标区域之间的重合度,确定所述训练样本图像对应的色彩置信分数;
[0293]
深度置信分数获取单元,用于基于所述训练深度样本数据对应的预测区域与所述训练样本图像对应的目标区域之间的重合度,确定所述训练样本图像对应的深度置信分数。
[0294]
在一种可能的实现方式中,所述融合特征获取模块1004,包括:
[0295]
注意力加权子模块,用于基于所述第一色彩图像数据以及所述第一校准深度数据,通过目标区域确定模型中的特征融合分支进行基于注意力机制的加权处理,获得所述第一融合特征图;
[0296]
所述装置还包括:
[0297]
色彩特征图获取模块,用于基于所述第一色彩图像数据,通过所述目标区域确定模型中的深度图像处理分支进行数据处理,获得第一色彩特征图;
[0298]
深度特征图获取模块,用于基于所述第一深度图像数据,通过目标区域确定模型中的深度图像处理分支进行数据处理,获得第一深度特征图;
[0299]
所述目标区域确定模块1005,还用于,
[0300]
基于所述第一融合特征图、第一深度特征图以及所述第一色彩特征图,确定所述第一图像对应的目标区域。
[0301]
其中,所述目标区域确定模型是以第三样本图像为样本、以所述第三样本图像对应的目标区域为标注训练得到的机器学习模型。
[0302]
在一种可能的实现方式中,所述特征融合分支包括第一池化层、第二池化层、第一全连接层以及第二全连接层;
[0303]
所述融合特征获取模块1004,包括:
[0304]
第一池化子模块,用于基于所述第一色彩图像数据,通过第一池化层进行全局池化,获得第一色彩池化数据;
[0305]
第一全连接子模块,用于基于所述第一色彩池化数据,通过第一全连接层进行数据处理,获得第一色彩向量;
[0306]
第二池化子模块,用于基于所述第一深度图像数据,通过第二池化层进行全局池化,获得第一深度池化数据;
[0307]
第二全连接子模块,用于基于所述第一深度池化数据,通过第二全连接层进行数据处理,获得第一深度向量;
[0308]
融合特征获取子模块,用于基于所述第一色彩图像数据以及所述第一校准深度数据,通过第一色彩向量以及第一深度向量,进行通道注意力加权处理,获得所述第一融合特征图;所述第一色彩向量用于指示所述第一色彩图像数据对应的权重;所述第一深度向量用于指示所述第一深度图像数据对应的权重。
[0309]
在一种可能的实现方式中,所述装置还包括:
[0310]
第三图像获取模块,用于获取第三样本图像;所述第三样本图像包含第三样本色彩图像数据以及第三样本深度图像数据;
[0311]
第三估计数据获取模块,用于基于所述第三样本色彩图像数据,获得第三样本估计深度数据;
[0312]
第三校准数据获取模块,用于基于所述第三样本估计深度数据以及所述第三样本深度图像数据,获得第三样本校准深度数据;
[0313]
第三融合特征获取模块,用于基于所述第三样本色彩图像数据以及所述第三样本校准深度数据,通过目标区域确定模型中的特征融合分支进行加权处理,获得第三样本融合特征图;
[0314]
区域确定模型训练模块,用于基于所述第三样本融合特征图,以及所述第三样本图像对应的目标区域,对所述目标区域确定模型进行训练。
[0315]
在一种可能的实现方式中,所述装置还包括:
[0316]
第三色彩特征获取模块,用于基于所述第三样本色彩图像数据,通过所述目标区域确定模型中的色彩图像处理分支进行数据处理,获得第三样本色彩特征图;
[0317]
第三深度特征获取模块,用于基于所述第三样本深度图像数据,通过所述目标区域确定模型中的深度图像处理分支进行数据处理,获得第三样本色彩特征图;
[0318]
所述区域确定模型训练模块,还用于,
[0319]
基于所述第三样本色彩特征图、所述第三样本深度特征图、所述第三样本融合特征图以及所述第三样本图像对应的目标区域,对所述目标区域确定模型进行训练。
[0320]
综上所述,本技术实施例所示方案,通过第一图像中的第一色彩图像数据,获得该第一图像对应的估计深度数据,再根据该估计深度数据对第一图像对应的第一深度图像数据进行校正,获得校准后的深度数据,再通过校准后的深度数据与色彩图像数据进行融合,并根据融合后的融合特征图确定目标区域。上述方案,通过色彩图像估计该第一图像对应的深度信息,并对该第一图像对应的深度图像进行校正,再根据校正后的深度图像数据以及色彩图像数据获得该第一图像对应的目标区域,提高了目标区域确定的准确性。
[0321]
图11是根据一示例性实施例示出的一种目标区域确定装置的结构方框图。该目标
区域确定装置可以实现由图2或图4所示实施例提供的方法中的全部或部分步骤,该目标区域确定装置包括:
[0322]
第三样本图像获取模块1101,用于获取第三样本图像;所述第三样本图像包含第三样本色彩图像数据以及第三样本深度图像数据;
[0323]
第三样本估计获取模块1102,用于基于所述第三样本色彩图像数据,获得第三样本估计深度数据;所述第三样本估计深度数据用于指示所述第三样本色彩图像数据对应的深度信息;
[0324]
第三样本校准获取模块1103,用于基于所述第三样本估计深度数据以及所述第三样本深度图像数据,获得第三样本校准深度数据;
[0325]
第三样本融合特征获取模块1104,用于基于所述第三样本色彩图像数据以及所述第三样本校准深度数据,通过目标区域确定模型中的特征融合分支进行加权处理,获得第三样本融合特征图;
[0326]
区域确定模型训练模块1105,用于基于所述第三样本融合特征图,以及所述第三样本图像对应的目标区域,对所述目标区域确定模型进行训练;
[0327]
其中,训练后的所述目标区域确定模型用于对第一图像对应的色彩图像数据以及第一图像对应的校准深度数据进行处理,获得所述第一图像对应的目标区域。
[0328]
综上所述,本技术实施例所示方案,通过第一图像中的第一色彩图像数据,获得该第一图像对应的估计深度数据,再根据该估计深度数据对第一图像对应的第一深度图像数据进行校正,获得校准后的深度数据,再通过校准后的深度数据与色彩图像数据进行融合,并根据融合后的融合特征图确定目标区域。上述方案,通过色彩图像估计该第一图像对应的深度信息,并对该第一图像对应的深度图像进行校正,再根据校正后的深度图像数据以及色彩图像数据获得该第一图像对应的目标区域,提高了目标区域确定的准确性。
[0329]
图12是根据一示例性实施例示出的一种计算机设备的结构示意图。该计算机设备可以实现为上述各个方法实施例中的模型处理设备和/或文本图像匹配设备。所述计算机设备1200包括中央处理单元(cpu,central processing unit)1201、包括随机存取存储器(random access memory,ram)1202和只读存储器(read

only memory,rom)1203的系统存储器1204,以及连接系统存储器1204和中央处理单元1201的系统总线1205。所述计算机设备1200还包括帮助计算机内的各个器件之间传输信息的基本输入/输出系统1206,和用于存储操作系统1213、应用程序1214和其他程序模块1215的大容量存储设备1207。
[0330]
所述大容量存储设备1207通过连接到系统总线1205的大容量存储控制器(未示出)连接到中央处理单元1201。所述大容量存储设备1207及其相关联的计算机可读介质为计算机设备1200提供非易失性存储。也就是说,所述大容量存储设备1207可以包括诸如硬盘或者光盘只读存储器(compact disc read

only memory,cd

rom)驱动器之类的计算机可读介质(未示出)。
[0331]
不失一般性,所述计算机可读介质可以包括计算机存储介质和通信介质。计算机存储介质包括以用于存储诸如计算机可读指令、数据结构、程序模块或其他数据等信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动介质。计算机存储介质包括ram、rom、闪存或其他固态存储其技术,cd

rom、或其他光学存储、磁带盒、磁带、磁盘存储或其他磁性存储设备。当然,本领域技术人员可知所述计算机存储介质不局限于上述几种。上
述的系统存储器1204和大容量存储设备1207可以统称为存储器。
[0332]
计算机设备1200可以通过连接在所述系统总线1205上的网络接口单元1211连接到互联网或者其它网络设备。
[0333]
所述存储器还包括一个或者一个以上的程序,所述一个或者一个以上程序存储于存储器中,中央处理器1201通过执行该一个或一个以上程序来实现图2、图3或图4所示的方法的全部或者部分步骤。
[0334]
在示例性实施例中,还提供了一种包括指令的非临时性计算机可读存储介质,例如包括计算机程序(指令)的存储器,上述程序(指令)可由计算机设备的处理器执行以完成本技术各个实施例所示的方法。例如,所述非临时性计算机可读存储介质可以是只读存储器(read

only memory,rom)、随机存取存储器(random access memory,ram)、只读光盘(compact disc read

only memory,cd

rom)、磁带、软盘和光数据存储设备等。
[0335]
在示例性实施例中,还提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述各个实施例所示的方法。
[0336]
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本技术的其它实施方案。本技术旨在涵盖本技术的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本技术的一般性原理并包括本技术未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本技术的真正范围和精神由权利要求指出。
[0337]
应当理解的是,本技术并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本技术的范围仅由所附的权利要求来限制。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献