语义分割方法、图像处理设备以及计算机可读存储介质与流程

2023-02-06 14:29:19 来源：中国专利 TAG：

1.本技术实施例涉及图像处理领域，更具体的，是语义分割方法、图像处理设备以及计算机可读存储介质。

背景技术：

2.当前汽车行业处在一个变革的时代，自动驾驶就是车辆在无驾驶员操作的情况下自行实现驾驶的功能，相关技术发展应用如火如荼，有多种发展路径，比如单车智能、车路协同、联网云控等。自动驾驶技术通过传感器实时感知到车辆及周边环境的情况，再通过智能系统进行规划决策，最后通过控制系统执行驾驶操作。虽然相关的技术产业有很多科研工作者在研究，但是自动驾驶的分割领域还有许多不足，比如对运动的物体识别的太慢，准确率太低，对车道线等静物预测不准确等，这些弊端都有可能导致严重的交通事故，危害人民的人身财产安全。因此自动驾驶图像语义分割中图像特征提取的全面性和准确性，在整个汽车产业当中起到了关键的作用。
3.现有的语义分割方法为局域金字塔占用网络(pon)的语义分割方法，局域金字塔占用网络(pon)以残差模块为主干特征提取网络，在深度卷积神经网络架构中，包含一个在多个图像尺度下运行的transformer模块，具体的过程为，先获得原始图像，然后将原始图像输入多尺度特征提取模块，得到多尺度特征提取模块输出的原始图像的多个尺度的特征图，多尺度特征提取模块比如可以是残差模块等，残差模块比如是resnet50等，再将多个尺度的特征图输入transformer模块，得到transformer模块输出的特征图，最后根据transformer模块输出的特征图生成原始图像的语义分割图像。
4.但是，transformer模块对图像特征提取的全面性和准确性较差，导致分割精确度较低，即模型输出的语义分割图像与标签的语义分割图像的交并比(iou)较低。

技术实现要素：

5.本技术实施例提供了一种语义分割方法、图像处理设备以及计算机可读存储介质，用于在提高了模型输出的语义分割图像与标签的语义分割图像的交并比的情况下，对原始图像进行语义分割。
6.第一方面，本技术实施例提供了一种语义分割方法，包括:
7.获得原始图像后，将所述原始图像输入语义分割模型的多尺度特征提取模块，得到所述多尺度特征提取模块输出的所述原始图像的n级尺度的第一特征图；所述n大于或等于2的整数；所述语义分割模型为预先训练的模型；
8.分别将所述n级尺度的第一特征图输入所述语义分割模型的目标融合模块，由所述目标融合模块对所述n级尺度的第一特征图进行至少一次融合处理后，得到所述目标融合模块输出的n级尺度的目标融合特征图；
9.根据所述n级尺度的目标融合特征图生成所述原始图像对应的语义分割图像。
10.可选的，所述将所述原始图像输入语义分割模型的多尺度特征提取模块之前，所
述方法还包括：
11.对所述原始图像进行预处理，得到预处理后的原始图像；
12.所述将所述原始图像输入语义分割模型的多尺度特征提取模块，包括：
13.将所述预处理后的原始图像输入所述多尺度特征提取模块。
14.可选的，所述目标融合模块包括第一融合模块和第二融合模块；
15.所述由所述目标融合模块对所述n级尺度的第一特征图进行至少一次融合处理后，得到所述目标融合模块输出的n级尺度的目标融合特征图，包括：
16.由所述第一融合模块对所述n级尺度的第一特征图进行第一次融合处理，得到所述第一融合模块输出的所述n级尺度的第一融合特征图；
17.由所述第二融合模块对所述n级尺度的第一融合特征图进行第二次融合处理，得到所述第二融合模块输出的所述n级尺度的第二融合特征图；其中，所述n级尺度的第二融合特征图为所述n级尺度的目标融合特征图。
18.可选的，所述由所述第一融合模块对所述n级尺度的第一特征图进行第一次融合处理，得到所述第一融合模块输出的所述n级尺度的第一融合特征图，包括：
19.对于第n-1级尺度的第一融合特征图，将第n级尺度的第一特征图输入所述语义分割模型的上采样模块，由上采样模块进行上采样处理得到第n级尺度的上采样特征图；其中2≤n≤n；
20.由所述第一融合模块对所述第n级尺度的上采样特征图和所述第n-1级尺度的第一特征图进行第一次融合处理，得到所述第一融合模块输出的所述第n-1级尺度的第一融合特征图；
21.对于第n级尺度的第一融合特征图，将所述第n级尺度的第一特征图作为所述第n级尺度的第一融合特征图。
22.可选的，所述由所述第二融合模块对所述n级尺度的第一融合特征图进行第二次融合处理，得到所述第二融合模块输出的所述n级尺度的第二融合特征图，包括：
23.对于第1级尺度的第二融合特征图，将所述第1级尺度的第一融合特征图作为所述第1级尺度的第二融合特征图；
24.对于第n级尺度的第二融合特征图，将第n-1级尺度的第一特征图输入所述语义分割模型的下采样模块，由下采样模块进行下采样处理得到第n-1级尺度的下采样特征图；其中2≤n≤n；
25.由所述第二融合模块对所述第n-1级尺度的下采样特征图和所述第n级尺度的第一融合特征图进行第二次融合处理，得到所述第二融合模块输出的所述第n级尺度的第二融合特征图；
26.可选的，所述根据所述n级尺度的目标融合特征图生成所述原始图像对应的语义分割图像，包括：
27.将所述n级尺度的目标融合特征图输入所述语义分割模型的全局卷积模块，得到所述全局卷积模块输出的所述n级尺度的第二特征图；
28.根据所述n级尺度的第二特征图生成所述原始图像对应的所述语义分割图像。
29.可选的，所述根据所述n级尺度的第二特征图生成所述原始图像对应的所述语义分割图像，包括：
30.将所述n级尺度的第二特征图输入所述语义分割模型的边缘细化模块，得到所述边缘细化模块输出的所述n级尺度的第三特征图；
31.根据所述第三特征图生成所述原始图像对应的所述语义分割图像。
32.可选的，所述将所述原始图像输入语义分割模型的多尺度特征提取模块之前，所述方法还包括：
33.获得原始图像样本；其中，每个原始图像样本标注有语义分割图像；
34.将所述原始图像样本输入语义分割模型，得到所述语义分割模型输出的所述原始图像样本对应的预测语义分割图像；
35.根据回归损失函数计算所述预测语义分割图像与标注的语义分割图像之间的损失，当所述损失满足收敛条件时，得到训练完成的语义分割模型。
36.第二方面，本技术实施例提供了一种图像处理设备，包括：
37.中央处理器，存储器，输入输出接口，有线或无线网络接口以及电源；
38.所述存储器为短暂存储存储器或持久存储存储器；
39.所述中央处理器配置为与所述存储器通信，并执行所述存储器中的指令操作以执行前述语义分割方法。
40.第三方面，本技术实施例提供了一种计算机可读存储介质，计算机可读存储介质包括指令，当指令在计算机上运行时，使得计算机执行前述。。方法。
41.第四方面，本技术实施例提供了一种包含指令的计算机程序产品，当计算机程序产品在计算机上运行时，使得计算机执行前述语义分割方法。
42.从以上技术方案可以看出，本技术实施例具有以下优点：可以在获得原始图像的n级尺度的第一特征图之后，分别将n级尺度的第一特征图输入语义分割模型的目标融合模块，由目标融合模块对n级尺度的第一特征图进行至少一次融合处理，提高了图像特征提取的全面性和准确性，提高了模型输出的语义分割图像与标签的语义分割图像的交并比。
附图说明
43.图1为本技术实施例公开的一种语义分割方法的流程示意图；
44.图2为本技术实施例公开的一种将原始图像输入语义分割模型进行语义分割得到语义分割图像方法的流程示意图；
45.图3为本技术实施例公开的一种全局卷积模块的结构示意图；
46.图4为本技术实施例公开的一种边缘细化模块的结构示意图；
47.图5为本技术实施例公开的又一种图像处理设备的结构示意图。
具体实施方式
48.本技术实施例提供了一种语义分割方法、图像处理设备以及计算机可读存储介质，用于在提高了模型输出的语义分割图像与标签的语义分割图像的交并比的情况下，对原始图像进行语义分割。
49.请参阅图1，图1为本技术实施例公开的一种语义分割方法的流程示意图，方法包括：
50.101、获得原始图像后，将原始图像输入语义分割模型的多尺度特征提取模块，得
到多尺度特征提取模块输出的原始图像的n级尺度的第一特征图；n大于或等于2的整数；语义分割模型为预先训练的模型。
51.本实施例中，当进行语义分割时，可以获得原始图像，获得原始图像后，可以将原始图像输入语义分割模型的多尺度特征提取模块，得到多尺度特征提取模块输出的原始图像的n级尺度的第一特征图；n大于或等于2的整数；语义分割模型为预先训练的模型。
52.102、分别将n级尺度的第一特征图输入语义分割模型的目标融合模块，由目标融合模块对n级尺度的第一特征图进行至少一次融合处理后，得到目标融合模块输出的n级尺度的目标融合特征图。
53.得到多尺度特征提取模块输出的原始图像的n级尺度的第一特征图之后，可以分别将n级尺度的第一特征图输入语义分割模型的目标融合模块，由目标融合模块对n级尺度的第一特征图进行至少一次融合处理后，得到目标融合模块输出的n级尺度的目标融合特征图。可以理解的是，至少一次融合处理的方法可以是先对n级尺度的第一特征图进行第一次融合处理，得到n级尺度的第一融合特征图，然后对n级尺度的第一融合特征图进行第二次融合处理，得到n级尺度的第二融合特征图；其中，n级尺度的第二融合特征图为n级尺度的目标融合特征图，还可以是其他合理的进行至少一次融合处理的方法，具体此处不做限定。
54.103、根据n级尺度的目标融合特征图生成原始图像对应的语义分割图像。
55.得到目标融合模块输出的n级尺度的目标融合特征图之后，可以根据n级尺度的目标融合特征图生成原始图像对应的语义分割图像。
56.本技术实施例中，可以在获得原始图像的n级尺度的第一特征图之后，分别将n级尺度的第一特征图输入语义分割模型的目标融合模块，由目标融合模块对n级尺度的第一特征图进行至少一次融合处理，提高了图像特征提取的全面性和准确性，提高了模型输出的语义分割图像与标签的语义分割图像的交并比。
57.本技术实施例中，由目标融合模块对n级尺度的第一特征图进行至少一次融合处理后，得到目标融合模块输出的n级尺度的目标融合特征图的方法可以有多种，基于图1所示的语义分割方法，下面对其中的一种方法进行描述。
58.本实施例中，当进行语义分割时，可以获得原始图像。具体的，语义分割是指将原始图像里的很多物体，比如可驾驶区域、车道线、公交车、小汽车、行人、障碍物等，将各个物体语义分割为语义分割图(鸟瞰图bev)。获得原始图像的方法可以是从自动驾驶公共大规模数据集(nuscenes数据集)中获得，nuscenes数据集的采集方式可以是在不同城市的1000个场景中，通过采集车进行采集，其中，采集车上配备了完善的传感器，包括6个相机(cam)、1个激光雷达(lidar)、5个毫米波雷达(radar)、imu和gps，还可以是其他合理的获得原始图像的方法，具体此处不做限定。
59.获得原始图像后，可以对原始图像进行预处理，得到预处理后的原始图像。具体的，预处理的方法可以是归一化、缩放等，归一化是指将原始图像的像素值转为0-1之间，缩放是指使用resize()函数缩放输入图像的高和宽，需要理解的是，对原始图像进行预处理可以减少网络模型对某些特征的依赖，提高模型的泛化性和鲁棒性。
60.得到预处理后的原始图像之后，可以将预处理后的原始图像输入语义分割模型的多尺度特征提取模块，得到多尺度特征提取模块输出的原始图像的n级尺度的第一特征图；
n大于或等于2的整数；语义分割模型为预先训练的模型。可以理解的是，预先训练的语义分割模型的可以是改进的fpn新型金字塔占用网络语义分割模型，多尺度特征提取模块可以是残差模块(resnet50模块)，举个例子，预处理后的原始图像的大小可以是3*196*200，将3*196*200的预处理后的原始图像输入resnet50模块，得到resnet50模块输出的原始图像的n级尺度的第一特征图，请参阅图2，图2为本技术实施例公开的一种将原始图像输入语义分割模型进行语义分割得到语义分割图像方法的流程示意图，图2中n为5，第1级尺度的第一特征图可以是1/8尺度的第一特征图，第2级尺度的第一特征图可以是1/16尺度的第一特征图，第3级尺度的第一特征图可以是1/32尺度的第一特征图，第4级尺度的第一特征图可以是1/64尺度的第一特征图，第5级尺度的第一特征图可以是1/128尺度的第一特征图，值得一提的是，尺度的级别越低，尺度大小越大，尺度的级别越高，尺度大小越小。
61.得到多尺度特征提取模块输出的原始图像的n级尺度的第一特征图之后，可以分别将n级尺度的第一特征图输入语义分割模型的目标融合模块，由目标融合模块对n级尺度的第一特征图进行至少一次融合处理后，得到目标融合模块输出的n级尺度的目标融合特征图。
62.其中，由目标融合模块对n级尺度的第一特征图进行至少一次融合处理后，得到目标融合模块输出的n级尺度的目标融合特征图的方法可以是，先由第一融合模块对n级尺度的第一特征图进行第一次融合处理，得到第一融合模块输出的n级尺度的第一融合特征图，然后由第二融合模块对n级尺度的第一融合特征图进行第二次融合处理，得到第二融合模块输出的n级尺度的第二融合特征图；其中，目标融合模块包括第一融合模块和第二融合模块，n级尺度的第二融合特征图为n级尺度的目标融合特征图。
63.其中，由第一融合模块对n级尺度的第一特征图进行第一次融合处理，得到第一融合模块输出的n级尺度的第一融合特征图的方法可以是，对于第n-1级尺度的第一融合特征图，先将第n级尺度的第一特征图输入语义分割模型的上采样模块，由上采样模块进行上采样处理得到第n级尺度的上采样特征图；其中2≤n≤n；然后由第一融合模块对第n级尺度的上采样特征图和第n-1级尺度的第一特征图进行第一次融合处理，得到第一融合模块输出的第n-1级尺度的第一融合特征图；对于第n级尺度的第一融合特征图，将第n级尺度的第一特征图作为第n级尺度的第一融合特征图。
64.请继续参阅图2，由图2可知，对于第1级尺度的第一融合特征图，可以将第2级尺度的第一特征图(1/16的第一特征图)输入语义分割模型的上采样模块，由上采样模块进行上采样处理得到第2级尺度的上采样特征图(1/16的第一特征图进行上采样处理后得到的1/8的上采样特征图)，然后由第一融合模块对第2级尺度的上采样特征图和第1级尺度的第一特征图进行第一次融合处理，得到第一融合模块输出的第1级尺度的第一融合特征图，可以理解的是，获得第2、3、4级尺度的第一融合特征图的方法与计算第1级尺度的第一融合特征图方法相似，此处不再赘述。对于第5级尺度的第一融合特征图，可以将第5级尺度的第一特征图作为第5级尺度的第一融合特征图。
65.其中，由第二融合模块对n级尺度的第一融合特征图进行第二次融合处理，得到第二融合模块输出的n级尺度的第二融合特征图的方法可以是，对于第1级尺度的第二融合特征图，将第1级尺度的第一融合特征图作为第1级尺度的第二融合特征图；对于第n级尺度的第二融合特征图，先将第n-1级尺度的第一特征图输入语义分割模型的下采样模块，由下采
样模块进行下采样处理得到第n-1级尺度的下采样特征图；其中2≤n≤n；然后由第二融合模块对第n-1级尺度的下采样特征图和第n级尺度的第一融合特征图进行第二次融合处理，得到第二融合模块输出的第n级尺度的第二融合特征图。
66.请继续参阅图2，由图2可知，对于第1级尺度的第二融合特征图，可以将第1级尺度的第一融合特征图作为第1级尺度的第二融合特征图；对于第2级尺度的第二融合特征图，先将第1级尺度的第一特征图输入语义分割模型的下采样模块，由下采样模块进行下采样处理得到第1级尺度的下采样特征图；然后由第二融合模块对第1级尺度的下采样特征图和第2级尺度的第一融合特征图进行第二次融合处理，得到第二融合模块输出的第2级尺度的第二融合特征图，获得第3、4、5级尺度的第二融合特征图的方法与获得第2级尺度的第二融合特征图的方法相似，此处不再赘述。
67.值得一提的是，进行两次融合处理，提高了图像特征提取的全面性和准确性，提高了分割精确度，即提高了模型输出的语义分割图像与标签的语义分割图像的交并比。
68.得到目标融合模块输出的n级尺度的目标融合特征图之后，可以根据n级尺度的目标融合特征图生成原始图像对应的语义分割图像。
69.其中，根据n级尺度的目标融合特征图生成原始图像对应的语义分割图像的方法可以是，将n级尺度的目标融合特征图输入语义分割模型的全局卷积模块，得到全局卷积模块输出的n级尺度的第二特征图。请参阅图3，图3为本技术实施例公开的一种全局卷积模块的结构示意图，图3中的14为语义类别数，全局卷积模块有两条分支，分别是1*k k*1，需要理解的是，用这种方式代替k*k，后面没有接非线性激活函数，可以在保证一定感受野的情况下减少计算量，可以在确保精确度的前提下，提高检测的速度，从而提高了时效性，其次，将全局卷积模块替代了全连接和全局池化，减少了丢失定位信息的可能性，提高了定位性能。
70.得到全局卷积模块输出的n级尺度的第二特征图之后，可以先将n级尺度的第二特征图输入语义分割模型的边缘细化模块，得到边缘细化模块输出的n级尺度的第三特征图，然后根据第三特征图生成原始图像对应的语义分割图像。请参阅图4，图4为本技术实施例公开的一种边缘细化模块的结构示意图，图4中为一种残差连接的结构，顶部w*h*14是粗糙feature map，侧边的残差链接可以对识别对象的边界进行改善，达到边缘细化的效果，从而提升语义分割图像的iou。
71.值得一提的是，将原始图像输入语义分割模型的多尺度特征提取模块之前，还可以训练语义分割模型，训练语义分割模型的方法可以是先获得原始图像样本；其中，每个原始图像样本标注有语义分割图像；然后将原始图像样本输入语义分割模型，得到语义分割模型输出的原始图像样本对应的预测语义分割图像，最后，根据回归损失函数计算预测语义分割图像与标注的语义分割图像之间的损失，当损失满足收敛条件时，得到训练完成的语义分割模型。具体的，可以通过adam优化器，以学习率为0.001的方式进行训练。
72.值得一提的是，相比于现有技术的局域金字塔占用网络(pon)，本实施例改进后的金字塔特征提取网络对语义提取更充分，产生的结果准确率更高，计算机使用gpu(nvidiartx 3090)的条件下，单次检测可以仅需0.2秒。相对于卷积v分形编码器-解码器网络的单目语义占用网格映射(ved)方法，即以rgb视频为输入，使用一个编解码网络模型来预测语义分割图像的方法，本实施例提高了特征提取的全面性和语义分割的准确性，提高
了对于动态的物体的语义分割效果，以使得可以适用于实际驾驶场景。相比于感知环境的跨视图语义分割(vpn)方法，即通过一种视图关系模块来建立周围的物体来进行语义分割的方法，本实施例提高了空间信息的完整性，保证了小目标的语义分割的准确性，还保证了大目标点的语义分割的准确性，从而提高了整体语义分割的准确性，提高了iou。
73.可以理解的是，除了上述描述的由目标融合模对n级尺度的第一特征图进行至少一次融合处理的方法、由第一融合模块对n级尺度的第一特征图进行第一次融合处理的方法、由第二融合模块对n级尺度的第一融合特征图进行第二次融合处理的方法、根据n级尺度的目标融合特征图生成原始图像对应的语义分割图像的方法之外，还可以是其他合理的方法，具体此处不做限定。
74.本实施例中，可以在获得原始图像的n级尺度的第一特征图之后，分别将n级尺度的第一特征图输入语义分割模型的目标融合模块，由目标融合模块对n级尺度的第一特征图进行至少一次融合处理，提高了图像特征提取的全面性和准确性，提高了分割精确度，即提高了模型输出的语义分割图像与标签的语义分割图像的交并比(iou)。其次，可以将n级尺度的目标融合特征图输入语义分割模型的全局卷积模块进行特征提取，得到全局卷积模块输出的n级尺度的第二特征图，提高了图像特征提取的全面性和准确性，解决了在模型方面对特征层使用不完善的问题，从而提高了分割精确度，提高了iou。再者，可以将全局卷积模块输出的n级尺度的第二特征图输入边缘细化模块，得到边缘细化模块输出的n级尺度的第三特征图，提高了边缘细化程度，从而提高了分割精确度。最后，通过多尺度特征提取模块、目标融合模块、全局卷积模块和边缘细化模块进行一系列的特征提取，可以提高语义分割模型的完善性，可以在提取更多语义特征的同时，提高语义分割的速度。
75.下面请参阅图5，本技术实施例中图像处理设备500的一实施例包括：
76.中央处理器501，存储器505，输入输出接口504，有线或无线网络接口503以及电源502；
77.存储器505为短暂存储存储器或持久存储存储器；
78.中央处理器501配置为与存储器505通信，并执行存储器505中的指令操作以执行前述图1所示实施例中的方法。
79.本技术实施例还提供了一种计算机可读存储介质，计算机可读存储介质包括指令，当指令在计算机上运行时，使得计算机执行前述图1所示实施例中的方法。
80.本技术实施例还提供了一种包含指令的计算机程序产品，当计算机程序产品在计算机上运行时，使得计算机执行前述图1所示实施例中的方法。
81.应该理解的是，虽然如上所述的各实施例所涉及的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，如上所述的各实施例所涉及的流程图中的至少一部分步骤可以包括多个步骤或者多个阶段，这些步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。
82.所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。
83.在本技术所提供的几个实施例中，应该理解到，所揭露的系统，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。
84.所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
85.另外，在本技术各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。
86.所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本技术的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本技术各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：u盘、移动硬盘、只读存储器(rom，read-only memory)、随机存取存储器(ram，random access memory)、磁碟或者光盘等各种可以存储程序代码的介质。

再多了解一些

1/2 1 2 下一页尾页

本文用于创业者技术爱好者查询，仅供学习研究，如用于商业用途，请联系技术所有人。

上一篇：返回列表
下一篇：电压型电量计的电池模型优化方法、计算机装置以及存储介质与流程

语义分割方法、图像处理设备以及计算机可读存储介质与流程

相关文献

最热文献