语义分割方法、装置、电子设备及存储介质与流程

2022-05-06 10:10:15 来源：中国专利 TAG：

1.本技术涉及计算机视觉领域，具体涉及语义分割方法、装置、电子设备及存储介质。

背景技术：

2.语义分割是确定图像中的每一个像素的语义类别例如车辆类别、行人类别的计算机视觉技术，被广泛应用于车辆的视觉感知、构建高精地图等。当对当前帧进行语义分割时，为了提升当前帧的语义分割结果与当前帧之前的先前帧的语义分割结果的一致性，需要进行当前帧与先前帧之间的特征对齐，得到当前帧的对齐运动特征。然后，根据当前帧的对齐运动特征，得到语义分割结果。
3.目前，通常是计算当前帧与每一个先前帧之间的光流，根据当前帧与每一个先前帧之间的光流、每一个先前帧的特征、当前帧的特征，得到当前帧的对齐特征。一方面，计算当前帧与先前帧之间的光流需要计算任意两个像素点之间的光流，该两个像素点中的一个像素点一个来自当前帧，另一个来自先前帧，导致得到当前帧的对齐运动特征的过程消耗的计算资源多，语义分割消耗的计算资源多。另一方面，当前帧和/或先前帧中的诸如车辆、行人的目标被部分遮挡、采集当前帧和先前帧的相机在采集当前帧和先前帧期间视角发生较大的变化等常见的情况均会导致计算出的当前帧与先前帧之间的光流准确度低，利用准确度低的当前帧与先前帧之间的光流得到当前帧的对齐运动特征，导致得到的当前帧的对齐运动特征的准确度低。

技术实现要素：

4.本技术提供语义分割方法、装置、电子设备及存储介质。
5.根据本技术实施例的第一方面，提供一种语义分割方法，包括：
6.提取视频的多帧中的每一帧的原始特征，其中，所述每一帧在所述视频中的位置连续，所述多帧包括：当前帧、至少一个先前帧，先前帧位于当前帧之前；
7.将所述每一帧的原始特征输入到语义分割模型中，得到所述当前帧的语义分割结果，所述语义分割模型被配置为：
8.基于所述每一帧的原始特征，确定所述每一帧的用于对齐的特征；
9.对于每一个先前帧，基于所述先前帧的用于对齐的特征与当前帧的用于对齐的特征，对所述先前帧的用于对齐的特征进行可变形卷积，得到所述先前帧的对齐空间特征，以及基于当前帧的用于对齐的特征、每一先前帧的对齐空间特征，得到所述当前帧的对齐运动特征；
10.基于所述对齐运动特征，预测当前帧的语义分割结果，所述语义分割结果包括：当前帧中的每一个当前帧像素的语义类别。
11.根据本技术实施例的第二方面，提供一种语义分割装置，包括：
12.特征提取单元，被配置为提取视频的多帧中的每一帧的原始特征，其中，所述每一
帧在所述视频中的位置连续，所述多帧包括：当前帧、至少一个先前帧，先前帧位于当前帧之前；
13.语义分割单元，被配置为将所述每一帧的原始特征输入到语义分割模型中，得到所述当前帧的语义分割结果，所述语义分割模型被配置为：基于所述每一帧的原始特征，确定所述每一帧的用于对齐的特征；对于每一个先前帧，基于所述先前帧的用于对齐的特征与当前帧的用于对齐的特征，对所述先前帧的用于对齐的特征进行可变形卷积，得到所述先前帧的对齐空间特征，以及基于当前帧的用于对齐的特征、每一先前帧的对齐空间特征，得到所述当前帧的对齐运动特征；基于所述对齐运动特征，预测当前帧的语义分割结果，所述语义分割结果包括：当前帧中的每一个当前帧像素的语义类别。
14.根据本技术实施例的第三方面，提供一种电子设备，包括：处理器；用于存储处理器可执行指令的存储器；其中，该处理器被配置为执行该指令，以实现语义分割方法。
15.根据本技术实施例的第四方面，提供一种存储介质，当该存储介质中的指令由电子设备的处理器执行时，使得电子设备能够执行语义分割方法。
16.本技术实施例提供的语义分割方法、装置、电子设备及存储介质，
17.当在语义分割的过程中进行进行当前帧与先前帧之间的特征对齐特征对齐时，基于多帧中的每一帧的原始特征，确定每一帧的用于对齐的特征；对于每一个先前帧，基于先前帧的用于对齐的特征与当前帧的用于对齐的特征，对该先前帧的用于对齐的特征进行可变形卷积，得到该先前帧的对齐空间特征，以及基于当前帧的用于对齐的特征、每一先前帧的对齐空间特征，得到当前帧的对齐运动特征。无需计算当前帧与每一个先前帧之间的光流，节省得到当前帧的对齐运动特征的过程消耗的资源，进而节省语义分割消耗的计算资源。避免在一些情况下计算出的光流准确度低而造成得到的当前帧的对齐运动特征的准确度低的情况。
附图说明
18.此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本技术的实施例，并与说明书一起用于解释本技术的原理。
19.图1示出了本技术实施例提供的语义分割方法的一个流程图；
20.图2示出了得到当前帧的对齐运动特征的一个流程示意图；
21.图3示出了得到每一个当前帧像素的语义类别的一个流程示意图；
22.图4示出了本技术实施例提供的语义分割装置的一个结构示意图。
具体实施方式
23.下面结合附图和实施例对本技术作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释相关发明，而非对该发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与有关发明相关的部分。
24.需要说明的是，在不冲突的情况下，本技术中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本技术。
25.图1是本技术实施例提供的语义分割方法的一个流程图。该方法包括以下步骤：
26.步骤101，提取视频的多帧中的每一帧的原始特征。
27.在本技术中，多帧中的每一帧在该多帧所属的视频中的位置连续。多帧包括：当前帧，当前帧之前的先前帧。先前帧位于当前帧之前。例如，
28.视频中的多帧包括：该视频中的第t帧，该视频中的第t-1帧、该视频中的第t-2帧。该第t帧为当前帧，该第t-1帧、该第t-2帧均为先前帧。
29.在本技术中，多帧中的每一帧的原始特征均由特征提取网络提取。特征提取网络可以基于卷积神经网络例如resnet网络得到。可以将卷积神经网络中的特征提取部分作为特征提取网络，特征提取部分包括多个特征提取单元，每一个特征提取单元分别对应一个特征提取阶段。还可以进一步对卷积神经网络中的特征提取部分进行改进，得到特征提取网络。例如，将resnet的特征提取部分中的最后一个特征提取单元中的具有步长的卷积层替换为空洞率为4的空洞卷积层，将该最后一个特征提取单元的前一个特征提取单元中的具有步长的卷积层替换为为2的空洞卷积层，得到特征提取网络。
30.对于多帧中的每一帧，可以将该帧输入到特征提取网络中，特征提取网络输出该帧的原始特征。
31.步骤102，将每一帧的原始特征输入到语义分割模型中，得到当前帧的语义分割结果。
32.在本技术中，语义分割模型被配置为：基于多帧中的每一帧的原始特征，确定每一帧的用于对齐的特征；对于每一个先前帧，基于该先前帧的用于对齐的特征与当前帧的用于对齐的特征，对该先前帧的用于对齐的特征进行可变形卷积，得到该先前帧的对齐空间特征，以及基于当前帧的用于对齐的特征、每一先前帧的对齐空间特征，得到当前帧的对齐运动特征；基于当前帧的对齐运动特征，预测当前帧的语义分割结果，当前帧的语义分割结果包括：当前帧中的每一个当前帧像素的语义类别。
33.在本技术中，将当前帧中的像素称之为当前帧像素。
34.当基于多帧中的每一帧的原始特征，确定每一帧的用于对齐的特征时，可以对于每一帧，可以直接将该帧的原始特征作为该帧的用于对齐的特征。
35.在本技术中，语义分割模型可以包括可变形卷积(deformable convolution，简称dcn)层。
36.当基于该先前帧的用于对齐的特征与当前帧的用于对齐的特征，对该先前帧的用于对齐的特征进行可变形卷积时，可以该先前帧的用于对齐的特征和当前帧的用于对齐的特征输入到可变形卷积层中，由可变形卷积层中的用于预测偏移量的卷积层基于该先前帧的用于对齐的特征与当前帧的用于对齐的特征，预测该先前帧对应的偏移量。可变形卷积层中的变形卷积核可以基于该先前帧对应的偏移量，对该先前帧的用于对齐的特征进行可变形卷积，得到该先前帧的对齐空间特征。
37.在本技术中，语义分割模型可以包括用于得到对齐运动特征的多头注意力(multi-headself-attentionmodule，简称mhsa)模块。本技术中的每一个多头注意力模块的结构均可以采用已有的transformer模型中的多头注意力模块的结构。
38.当基于当前帧的用于对齐的特征、每一先前帧的对齐空间特征，得到当前帧的对齐运动特征时，可以将当前帧的用于对齐的特征、每一先前帧的对齐空间特征输入到用于得到对齐运动特征的多头注意力模块中，用于得到对齐运动特征的多头注意力模块输出当前帧的对齐运动特征。
39.在本技术中，语义分割结果包括：当前帧中的每一当前帧像素的语义类别。
40.在本技术中，语义分割模型可以包括：用于基于帧的对齐运动特征预测帧中的像素的语义类别的softmax层。
41.当基于当前帧的对齐运动特征，预测当前帧的语义分割结果，可以将当前帧的对齐运动特征输入到用于基于帧的对齐运动特征预测帧中的像素的语义类别的softmax层中，得到用于基于帧的对齐运动特征预测帧中的像素的语义类别的softmax层输出的每一个当前帧像素的概率信息。
42.对于每一个当前帧像素，该当前帧像素的概率信息包括：该当前帧像素在每一个预设语义类别上的概率。
43.对于一个当前帧像素和一个预设语义类别，该当前帧像素在该预设语义类别上的概率为该当前帧像素的语义类别为该预设语义类别的概率。
44.例如，预先设置车辆类别、行人类别...语义类别n等预设语义类别，一个当前帧像素的概率信息包括：该当前帧像素在车辆类别上的概率、该当前帧像素在行人类别上的概率...该当前帧像素在语义类别n上的概率。
45.对于一个当前帧像素和一个预设语义类别，该当前帧像素在该预设语义类别上的概率与该预设语义类别相对应。
46.在本技术中，在得到用于基于帧的对齐运动特征预测帧中的像素的语义类别的softmax层输出的每一个当前帧像素的概率信息之后，对于每一个当前帧像素，可以确定该当前帧像素的概率信息中的最大的概率对应的预设语义类别，将该当前帧像素的概率信息中的最大的概率对应的预设语义类别确定为该当前帧像素的语义类别。从而，可以得到每一个当前帧像素的语义类别，得到语义分割结果。
47.在本技术中，在执行步骤101之前，预先利用训练样本集合训练语义分割模型。每一次训练语义分割模型，利用一个训练样本。
48.在本技术中，将每一个训练样本中的最后一帧统一称之为当前训练帧。每一个训练样本中的当前训练帧不同。将每一个训练样本中的位于当前训练帧之前的帧统一称之为先前训练帧。每一个训练样本中的先前训练帧不同。训练样本包括当前训练帧和先前训练帧，训练样本中的每一帧在训练样本中的帧所属的视频中的位置连续。
49.在一次对训练语义分割模型的训练中，提取一个训练样本中的每一训练帧的原始特征。将该每一训练帧的原始特征输入到语义分割模型中，得到语义分割模型输出的当前训练帧的语义分割结果。当前训练帧的语义分割结果包括：当前训练帧中的每一个像素的预测出的语义类别，当前训练帧的标注结果包括：当前训练帧中的每一个像素的标注语义类别。
50.可以利用交叉熵函数计算当前训练帧对应的损失，当前训练帧对应的损失为当前训练帧的语义分割结果与当前训练帧的标注结果之间的损失。可以根据当前训练帧对应的损失，更新语义分割模型的所有与当前训练帧对应的损失相关的参数的参数值。语义分割模型的所有的所有与当前训练帧对应的损失相关的参数的参数值包括：用于得到对齐运动特征的多头注意力模块的至少部分参数、用于基于帧的对齐运动特征预测帧中的像素的语义类别的softmax层的至少部分参数。
51.在一些实施例中，基于每一帧的原始特征，确定每一帧的用于对齐的特征包括：将
当前帧的原始特征输入到当前帧对应的多头注意力模块中，得到当前帧对应的多头注意力模块输出的当前帧的用于对齐的特征；对于每一先前帧，利用该先前帧对应的多头注意力模块基于该先前帧的原始特征，得到所述先前帧的用于对齐的特征。
52.在本技术中，多帧包括的帧的数量为预设数量。预设数量为n，每一次对相应的当前帧进行语义分割，均针对相应的n帧。相应的多帧中的相应的当前帧为相应的多帧中的最后一帧，距离相应的多帧中的相应的当前帧最远的一帧为相应的多帧中的第一帧。每一相应的多帧中的第m帧均对应同一个多头注意力模块。
53.在本技术中，当基于每一帧的原始特征，确定每一帧的用于对齐的特征时，可以将当前帧的原始特征输入到当前帧对应的多头注意力模块中，得到当前帧对应的多头注意力模块输出的当前帧的用于对齐的特征。
54.可以对于每一先前帧，利用该先前帧对应的多头注意力模块基于该先前帧的原始特征，得到该先前帧的用于对齐的特征。可以将该先前帧的原始特征输入到该先前帧对应的多头注意力模块，得到该先前帧对应的多头注意力模块输出的该先前帧的用于对齐的特征。
55.在一些实施例中，对于每一个先前帧，利用该先前帧对应的多头注意力模块基于该先前帧的原始特征，得到该先前帧的用于对齐的特征包括：对该先前帧的原始特征进行进行下采样，得到该先前帧的下采样特征；将该先前帧的下采样特征输入到该先前帧对应的多头注意力模块中，得到该先前帧对应的多头注意力模块输出的对应于该先前帧的特征；对该对应于所述先前帧的特征进行上采样，得到该先前帧的用于对齐的特征。
56.在本技术中，先前帧与当前帧的距离越远，针对先前帧的下采样倍数越大，下采样倍数为先前帧的下采样特征中的特征图的分辨率除以先前帧的原始特征中的特征图的分辨率。例如，视频中的多帧包括：该视频中的第t帧，该视频中的第t-1帧、该视频中的第t-2帧。当前帧为第t帧，第t-1帧、第t-2帧均为先前帧，对第t-1帧的下采样倍数为1/2，对第t-2帧的下采样倍数为1/4。
57.对于一个该先前帧，得到该先前帧对应的多头注意力模块输出的对应于该先前帧的特征表示为：
58.x’＝attention(ln(x)) x
59.mhsaspa＝mlp(ln(x’)) x’60.其中，mhsaspa表示对应于该先前帧的特征，x表示该先前帧的原始特征，attention()为基于注意力机制对相应的特征进行处理的函数，ln()为层正则化函数，mlp()为多层感知机函数。
61.请参考图2，其示出了得到当前帧的对齐运动特征的一个流程示意图。
62.在图2中，示例性地示出了针对当前帧和两个先前帧，得到当前帧的对齐运动特征的流程。用于得到当前帧的对齐运动特征的一个结构可以称之为d-transformer结构，用于得到当前帧的对齐运动特征的一个结构位于语义分割模型中。d-transformer结构：空间金字塔transformer模块和时域对齐transformer模块。空间金字塔transformer模块包括：当前帧对应的mhsa模块、每一个先前帧对应的mhsa模块。时域对齐transformer模块包括：用于得到对齐运动特征的mhsa模块。
63.在空间金字塔transformer模块中，将当前帧的原始特征输入到当前帧对应的
mhsa模块中，得到当前帧对应的多头注意力模块输出的当前帧的用于对齐的特征。对于每一个先前帧，对该先前帧的原始特征进行进行下采样，得到该先前帧的下采样特征，将该先前帧的下采样特征输入到该先前帧对应的mhsa模块中，得到该先前帧对应的mhsa模块输出的对应于该先前帧的特征，对对应于该先前帧的特征进行上采样，得到该先前帧的用于对齐的特征。
64.在时域对齐transformer模块中，对于每一个先前帧，对该先前帧的用于对齐的特征进行可变形卷积，得到该先前帧的对齐空间特征。将当前帧的用于对齐的特征、每一先前帧的对齐空间特征输入到用于得到对齐运动特征的mhsa模块中，得到用于得到对齐运动特征的mhsa模块输出的当前帧的对齐运动特征。
65.每一帧的原始特征为一个张量，利用n表示张量，n＝c
fs
×hfs
×wfscfs
表示特征图的通道数量，h
fs
表示特征图的高，w
fs
表示特征图的宽。空间金字塔transformer模块的计算复杂度c(att)＝3
×
n2，时域对齐transformer模块的计算复杂度c(pst)＝2
×
3n 2
×
9n＝24n，用于得到当前帧的状态特征的一个结构即d-transformer结构计算复杂度为：c(d-transformer)＝c(pst) c(att)＝3n2 24n。若采用已有的transformer模型对多帧进行处理的方式对图2中示出的当前帧和先前帧进行处理，由于对于任意一帧中的任意一个像素，计算该像素与每一个其他帧中的像素之间的相似度，因此，采用已有的transformer模型对图2中示出的当前帧和先前帧进行处理的计算复杂度为c(transgormer)＝3n
×n×
n＝3n3。本技术中的d-transformer结构对多帧进行处理的计算复杂度远低于已有的transformer模型对多帧进行处理的计算复杂度，通过d-transformer结构，可以快速地得到当前帧的对齐运动特征。
66.在一些实施例中，每一帧的原始特征分别通过特征提取网络提取，特征提取网络包括：多个特征提取单元，该原始特征由特征提取网络中的最后一个特征提取单元输出；以及基于当前帧的对齐运动特征，预测当前帧的语义分割结果包括：将当前帧的对齐运动特征、每一个特征提取单元输出的对应于当前帧的特征输入到用于得到状态特征的多头注意力模块中，得到用于得到状态特征的多头注意力模块输出的当前帧的状态特征，当前帧的状态特征包括：每一个当前帧像素的状态子特征，其中，该特征提取单元输出的对应于当前帧的特征为当将当前帧输入到特征提取网络中时，该特征提取单元输出的特征；基于当前帧的状态特征，预测当前帧的语义分割结果。
67.在本技术中，每一帧的原始特征可以分别通过特征提取网络提取，特征提取网络包括多个特征提取单元，每一帧的原始特征均由特征提取网络的最后一个特征提取单元输出。特征提取网络的第n个特征提取单元的输出作为特征提取网络的第n 1个特征提取单元的输入，n小于特征提取单元的数量。
68.在本技术中，对于当前帧，在将当前帧输入到特征提取网络中之后，对于特征提取网络的每一个特征提取单元，该特征提取单元输出对应于当前帧的特征。
69.在本技术中，语义分割模型可以包括用于得到状态特征的多头注意力模块。
70.可以将当前帧的对齐运动特征、每一个特征提取单元输出的对应于当前帧的特征输入到用于得到状态特征的多头注意力模块中，得到用于得到状态特征的多头注意力模块输出的当前帧的状态特征。
71.在本技术中，可以基于当前帧的状态特征，预测当前帧的语义分割结果。当基于当
前帧的状态特征，预测当前帧的语义分割结果时，可以将当前训练帧的状态特征输入到用于基于帧的状态特征预测帧中的像素的语义类别的softmax层中，得到用于基于帧的状态特征预测帧中的像素的语义类别的softmax层输出的当前帧的概率信息。
72.对于每一个当前帧像素，该当前帧像素的概率信息包括：该当前帧像素在每一个预设语义类别上的概率。
73.在本技术中，在用于基于帧的状态特征预测帧中的像素的语义类别的softmax层输出的当前帧的概率信息之后，对于每一个当前帧像素，可以确定该当前帧像素的概率信息中的最大的概率对应的预设语义类别，将该当前帧像素的概率信息中的最大的概率对应的预设语义类别确定为该当前帧像素的语义类别。从而，可以得到每一个当前帧像素的语义类别，得到语义分割结果。
74.在本技术中，若语义分割模型包括用于得到状态特征的多头注意力模块，基于当前帧的状态特征，预测当前帧的语义分割结果，则当预先训练语义分割模型时，利用交叉熵函数计算当前训练帧对应的损失即当前训练帧的语义分割结果与当前训练帧的标注结果之间的损失，更新语义分割模型的所有与当前训练帧对应的损失相关的参数的参数值，语义分割模型的所有与当前训练帧对应的损失相关的参数的参数值包括：用于得到对齐运动特征的多头注意力模块的至少部分参数、用于得到状态特征的多头注意力模块的至少部分参数、用于基于帧的状态特征预测帧中的像素的语义类别的softmax层的至少部分参数。
75.在一些实施例中，当前帧的对齐运动特征包括：每一个当前帧像素的对齐运动子特征；还包括：将当前帧的对齐运动特征输入到第一逻辑回归层中，得到每一个当前帧像素的概率信息，其中，当前帧像素的概率信息包括：当前帧像素在每一个预设语义类别上的概率；基于每一个当前帧像素的概率信息，确定每一个语义区域，其中，语义区域包括：语义区域的每一个相关当前帧像素占据的区域，语义区域的每一个相关当前帧像素对应的预设语义类别相同，该相关当前帧像素对应的预设语义类别为该相关当前帧像素的概率信息中的最大的概率对应的预设语义类别；对于每一个语义区域，基于该语义区域的每一个相关当前帧像素的对齐运动子特征和该每一个相关当前帧像素在相关当前帧像素对应的预设语义类别上的概率，确定该语义区域的特征；以及基于当前帧的状态特征，预测当前帧的语义分割结果包括：对于每一个当前帧像素，基于该当前帧像素的状态子特征与每一个语义区域的特征，确定该当前帧像素的语义类别。
76.在本技术中，可以将当前帧的对齐运动特征输入到第一逻辑回归层中，得到每一个当前帧像素的概率信息。
77.在本技术中，第一逻辑回归层不属于语义分割模型，第一逻辑回归层可以为softmax层。
78.在本技术中，对于每一个当前帧像素，该当前帧像素的概率信息包括：当前帧像素在每一个预设语义类别上的概率。
79.对于一个当前帧像素和一个预设语义类别，该当前帧像素在该预设语义类别上的概率为该当前帧像素的语义类别为该预设语义类别的概率。
80.在本技术中，可以基于当前帧中的每一个当前帧像素的概率信息，确定每一个语义区域。
81.在本技术中，对于一个语义区域，该语义区域包括：该语义区域的每一个相关当前
帧像素占据的区域。
82.换言之，该语义区域由该语义区域的每一个相关当前帧像素占据的区域组成。
83.在本技术中，对于一个当前帧像素和一个预设语义类别，该当前帧像素在该预设语义类别上的概率与该预设语义类别相对应。
84.在本技术中，对于一个语义区域，该语义区域的每一个相关当前帧像素对应的预设语义类别相同，该语义类别的相关当前帧像素对应的预设语义类别为该相关当前帧像素的概率信息中的最大的概率对应的预设语义类别。
85.在本技术中，每一个语义区域分别具有一个语义类别，对于每一个语义区域，该语义区域的语义类别为该语义区域的相关当前帧像素对应的预设语义类别。
86.例如，对于一个语义区域，该语义区域包括多个该语义区域的相关当前帧像素。对于该语义区域的每一个相关当前帧像素，该相关当前帧像素的概率信息中的最大的概率对应的预设语义类别为车辆类别，该每一个与该语义区域的相关当前帧像素占据的区域组成该语义区域，该语义区域的类别为车辆类别。
87.在本技术中，当前帧的对齐运动特征包括：每一个当前帧像素的对齐运动子特征。
88.对于一个语义区域，基于该语义区域的每一个相关当前帧像素的对齐运动子特征和每一个相关当前帧像素在相关当前帧像素对应的预设语义类别上的概率，确定该语义区域的特征。
89.对于该语义区域的每一个相关当前帧像素，可以将该相关当前帧像素在该相关当前帧像素对应的预设语义类别上的概率作为该相关当前帧像素的对齐运动子特征的权重，计算该每一个相关当前帧像素的对齐运动子特征加权和，将该加权和确定为语义区域的特征。
90.在本技术中，对于每一个当前帧像素，当基于该当前帧像素的状态子特征与每一个语义区域的特征，确定该当前帧像素的语义类别时，可以计算该当前帧像素的状态子特征与每一个语义区域的特征之间的相似度，确定具有的特征与该当前帧像素的状态子特征的相似度最高的语义区域，将确定的语义区域的语义类别确定为该当前帧像素的语义类别。
91.在一些实施例中，对于每一个当前帧像素，基于该当前帧像素的状态子特征与每一个该语义区域的特征，确定该当前帧像素的语义类别包括：计算该当前帧像素的状态子特征与每一个语义区域的特征的余弦距离；确定该当前帧像素对应的目标语义区域，其中，该当前帧像素对应的目标语义区域为具有的特征与该当前帧像素的状态子特征的余弦距离最小的语义区域；将该当前帧像素对应的目标语义区域的语义类别确定为该当前帧像素的语义类别，其中，该当前帧像素对应的目标语义区域的语义类别为该目标语义区域的相关当前帧像素对应的预设语义类别。
92.可以采用以下公式计算第i个当前帧像素的状态子特征与第j个语义区域的特征的余弦距离：
93.dj＝1-cos(pi，rj)
[0094][0095]
其中，dj表示第i个当前帧像素的状态子特征与第j个语义区域的特征的余弦距
离，pi表示第i个当前帧像素的状态子特征，rj表示第j个语义区域的特征，|.|表示向量的求模运算，pi.rj表示pi和rj的点积。
[0096]
请参考图3，其示出了得到每一个当前帧像素的语义类别的一个流程示意图。
[0097]
通过每一帧的原始特征，得到当前帧的对齐运动特征。通过当前帧的对齐运动特征，得到每一个当前帧像素的概率信息。通过每一个当前帧像素的概率信息，确定每一个语义区域。通过当前帧的对齐运动特征和每一个当前帧像素的概率信息，确定每一个语义区域的特征。
[0098]
通过对齐运动特征、每一个特征提取单元输出的对应于当前帧的特征，得到当前帧的状态特征。当前帧的状态特征包括每一个当前帧像素的状态子特征。
[0099]
对于每一个当前帧像素，根据该当前帧像素的状态子特征与每一个语义区域的特征的余弦距离，确定该当前帧像素的语义类别。
[0100]
在一些实施例中，在提取视频的多帧中的每一帧的原始特征之前，还包括：利用训练样本训练所述语义分割模型，包括：提取训练样本中的每一训练帧的原始特征，其中，每一训练帧在所述每一训练帧所属的视频中的位置连续，训练样本包括：当前训练帧、至少一个先前训练帧，当前训练帧位于先前训练帧之前；将每一训练帧的原始特征输入到语义分割模型中，得到语义分割模型输出的当前训练帧的语义分割结果；计算当前训练帧的语义分割结果与当前训练帧的标注结果之间的第一损失，当前训练帧的标注结果包括：当前训练帧中的每一个当前训练帧像素的标注语义类别；将当前训练帧的对齐运动特征输入到第一逻辑回归层中，得到当前训练帧中的每一个当前训练帧像素的第一概率信息，以及基于每一个当前训练帧像素的第一概率信息，确定当前训练帧的第一预测信息，当前训练帧像素的第一概率信息包括：该当前训练帧像素在每一个预设语义类别上的第一概率，当前训练帧的第一预测信息包括：每一个当前训练帧像素的第一预测语义类别；计算当前训练帧的第一预测信息与当前训练帧的标注结果之间的第二损失；将当前训练帧的状态特征输入到用于第二逻辑回归层中，得到每一个当前训练帧像素的第二概率信息，以及基于每一个当前训练帧像素的第二概率信息，确定当前训练帧的第二预测信息，当前训练帧像素的第二概率信息包括：该当前训练帧像素在每一个预设语义类别上的第二概率，当前训练帧的第二预测信息包括：每一个当前训练帧像素的第二预测语义类别；计算当前训练帧的第二预测信息与当前训练帧的标注结果之间的第三损失；基于该第一损失、该第二损失、该第三损失，确定该训练样本对应的总损失，以及基于该总损失，更新语义分割模型的所有与该总损失相关的参数的参数值。
[0101]
在本技术中，在执行步骤101之前，利用训练样本集合预先训练语义分割模型。每一次训练语义分割模型，利用一个训练样本。
[0102]
在本技术中，将每一个训练样本中的最后一帧统一称之为当前训练帧。每一个训练样本中的当前训练帧不同。将每一个训练样本中的位于当前训练帧之前的帧统一称之为先前训练帧。每一个训练样本中的先前训练帧不同。
[0103]
在一次对语义分割模型的训练中，利用特征提取网络提取一个训练样本中的每一训练帧的原始特征。对于一个训练样本中的每一训练帧，将该训练帧输入到特征提取网络中，特征提取网络输出该训练帧的原始特征。
[0104]
在一次对语义分割模型的训练中，将每一训练帧的原始特征输入到语义分割模型
中，得到语义分割模型输出的当前训练帧的语义分割结果。
[0105]
当前训练帧的语义分割结果包括：每一个当前训练帧像素的预测出的语义类别。
[0106]
在一次对语义分割模型的训练中，利用交叉熵函数计算当前训练帧的语义分割结果与当前训练帧的标注结果之间的第一损失。
[0107]
当前训练帧的标注结果包括：每一个当前训练帧像素的标注语义类别。
[0108]
利用交叉熵函数计算当前训练帧的语义分割结果与当前训练帧的标注结果之间的第一损失表示为：
[0109]
lm＝ce(m，g)，lm表示当前训练帧的语义分割结果与当前训练帧的标注结果之间的第一损失，ce表示交叉熵函数，m表示当前训练帧的语义分割结果，g表示当前训练帧的标注结果。
[0110]
在本技术中，当前训练帧的对齐运动特征包括：当前训练帧中的每一个当前训练帧像素的对齐运动子特征。
[0111]
得到当前训练帧的对齐运动特征的过程与上述得到当前帧的对齐运动特征的过程同理，得到当前训练帧的对齐运动特征的过程参考上述得到当前帧的对齐运动特征的过程。
[0112]
在一次对语义分割模型的训练中，将当前训练帧的对齐运动特征输入到第一逻辑回归层中，得到第一逻辑回归层输出的每一个当前训练帧像素的第一概率信息。
[0113]
第一逻辑回归层用于基于当前训练帧像素的对齐运动子特征，预测当前训练帧像素的第一概率信息。
[0114]
第一逻辑回归层不属于语义分割模型，第一逻辑回归层可以为softmax层。
[0115]
对于每一个当前训练帧像素，该第一概率信息包括：当前训练帧像素在每一个预设语义类别上的第一概率。
[0116]
在一次对语义分割模型的训练中，可以基于每一个当前训练帧像素的第一概率信息，确定当前训练帧的第一预测信息。
[0117]
在本技术中，当前训练帧的第一预测信息包括：当前训练帧中的每一个当前训练帧像素的第一预测语义类别。
[0118]
在一次对语义分割模型的训练中，对于当前训练帧中的每一个当前训练帧像素，将该训练帧像素的第一概率信息中的最大的第一概率对应的预设语义类别确定为该当前训练帧像素的第一预测语义类别。
[0119]
在一次对语义分割模型的训练中，可以利用交叉熵函数计算当前训练帧的第一预测信息与当前训练帧的标注结果之间的第二损失。利用交叉熵函数计算当前训练帧的第一预测信息与当前训练帧的标注结果之间的第二损失表示为：
[0120]
l
rd
＝ce(m
t’，g)，l
rd
表示当前训练帧的第一预测信息与当前训练帧的标注结果之间的第二损失，ce表示交叉熵函数，m
t’表示当前训练帧的第一预测信息，g表示当前训练帧的标注结果。
[0121]
在本技术中，当前训练帧的状态特征包括每一个当前训练帧像素的状态子特征。
[0122]
得到当前训练帧的状态特征的过程与上述得到当前帧的状态特征的过程同理，得到当前训练帧的状态特征的过程参考上述得到当前帧的状态特征的过程。
[0123]
在一次对语义分割模型的训练中，可以将当前训练帧的状态特征输入到用于第二
逻辑回归层中，得到第二逻辑回归层输出的每一个当前训练帧像素的第二概率信息。
[0124]
第二逻辑回归层用于基于当前训练帧像素的状态子特征，预测当前训练帧像素的第二概率信息。
[0125]
第二逻辑回归层不属于语义分割模型，第二逻辑回归层可以为softmax层。
[0126]
对于每一个当前训练帧像素，该当前训练帧像素的第二概率信息包括：该当前训练帧像素在每一个预设语义类别上的第二概率。
[0127]
在一次对语义分割模型的训练中，可以基于每一个当前训练帧像素的第二概率信息，确定当前训练帧的第二预测信息。
[0128]
当前训练帧的第二预测信息包括：每一个当前训练帧像素的第二预测语义类别。
[0129]
对于每一个当前训练帧像素，将该训练帧像素的第二概率信息中的最大的第二概率对应的预设语义类别确定为该训练帧像素的第二预测语义类别。
[0130]
在一次对语义分割模型的训练中，可以利用交叉熵函数计算当前训练帧的第二预测信息与当前训练帧的标注结果之间的第三损失。利用交叉熵函数计算当前训练帧的第二预测信息与当前训练帧的标注结果之间的第三损失表示为：
[0131]
l
pd
＝ce(s，g)，l
pd
表示当前训练帧的第二预测信息与当前训练帧的标注结果之间的第三损失，ce表示交叉熵函数，s表示当前训练帧的第二预测信息，g表示当前训练帧的标注结果。
[0132]
在一次对语义分割模型的训练中，基于当前训练帧的语义分割结果与当前训练帧的标注结果之间的第一损失、第一预测信息与当前训练帧的标注结果之间的第二损失、第二预测信息与当前训练帧的标注结果之间的第三损失，确定训练样本对应的总损失。训练样本对应的总损失可以为该第一损失、第二损失、该第三损失之和。训练样本对应的总损失表示为：l
pd
l
rd
lm。
[0133]
在一次对语义分割模型的训练中，基于训练样本对应的总损失，更新语义分割模型的所有与该总损失相关的参数的参数值。
[0134]
在本技术中，每一次训练语义分割模型，基于当前训练帧的语义分割结果与当前训练帧的标注结果之间的第一损失、第一预测信息与当前训练帧的标注结果之间的第二损失、第二预测信息与当前训练帧的标注结果之间的第三损失，确定训练样本对应的总损失，基于训练样本对应的总损失，更新语义分割模型的所有与该总损失相关的参数的参数值。使得语义分割模型同时学习如何较为准确地生成对齐运动特征、如何较为准确地生成状态特征、如何较为准确地生成语义分割结果。
[0135]
请参考图4，其示出本技术实施例提供的语义分割装置的一个结构示意图。如图4所示，语义分割装置包括：特征提取单元401，语义分割单元402。
[0136]
特征提取单元401被配置为提取视频的多帧中的每一帧的原始特征，其中，所述每一帧在所述视频中的位置连续，所述多帧包括：当前帧、至少一个先前帧，先前帧位于当前帧之前；
[0137]
语义分割单元402被配置为将所述每一帧的原始特征输入到语义分割模型中，得到所述当前帧的语义分割结果，所述语义分割模型被配置为：基于所述每一帧的原始特征，确定所述每一帧的用于对齐的特征；对于每一个先前帧，基于所述先前帧的用于对齐的特征与当前帧的用于对齐的特征，对所述先前帧的用于对齐的特征进行可变形卷积，得到所
述先前帧的对齐空间特征，以及基于当前帧的用于对齐的特征、每一先前帧的对齐空间特征，得到所述当前帧的对齐运动特征；基于所述对齐运动特征，预测当前帧的语义分割结果，所述语义分割结果包括：当前帧中的每一个当前帧像素的语义类别。
[0138]
在一些实施例中，语义分割模型进一步被配置为将所述当前帧的原始特征输入到当前帧对应的多头注意力模块中，得到当前帧对应的多头注意力模块输出的当前帧的用于对齐的特征；对于每一先前帧，利用所述先前帧对应的多头注意力模块基于所述先前帧的原始特征，得到所述先前帧的用于对齐的特征。
[0139]
在一些实施例中，语义分割模型进一步被配置为对所述先前帧的原始特征进行进行下采样，得到所述先前帧的下采样特征；将所述先前帧的下采样特征输入到所述先前帧对应的多头注意力模块中，得到所述先前帧对应的多头注意力模块输出的对应于所述先前帧的特征；对所述对应于所述先前帧的特征进行上采样，得到所述先前帧的用于对齐的特征。
[0140]
在一些实施例中，所述每一帧的原始特征分别通过特征提取网络提取，所述特征提取网络包括：多个特征提取单元，所述原始特征由所述特征提取网络中的最后一个所述特征提取单元输出；语义分割模型进一步被配置为将所述对齐运动特征、每一个所述特征提取单元输出的对应于当前帧的特征输入到用于得到状态特征的多头注意力模块中，得到用于得到状态特征的多头注意力模块输出的所述当前帧的状态特征，所述状态特征包括：所述每一个当前帧像素的状态子特征，其中，所述特征提取单元输出的对应于当前帧的特征为当将当前帧输入到特征提取网络中时，所述特征提取单元输出的特征；基于所述状态特征，预测所述当前帧的语义分割结果。
[0141]
在一些实施例中，所述对齐运动特征包括：所述每一个当前帧像素的对齐运动子特征；语义分割装置还包括：语义区域特征确定单元，被配置为将所述对齐运动特征输入到第一逻辑回归层中，得到每一个当前帧像素的概率信息，其中，所述当前帧像素的概率信息包括：所述当前帧像素在每一个预设语义类别上的概率；基于每一个当前帧像素的概率信息，确定每一个语义区域，其中，所有语义区域包括：所述语义区域的每一个相关当前帧像素占据的区域，所述每一个相关当前帧像素对应的预设语义类别相同，所述相关当前帧像素对应的预设语义类别为所述相关当前帧像素的概率信息中的最大的概率对应的预设语义类别；对于每一个语义区域，基于所述语义区域的每一个相关当前帧像素的对齐运动子特征和所述每一个相关当前帧像素在相关当前帧像素对应的预设语义类别上的概率，确定所述语义区域的特征；语义分割模型进一步被配置为对于每一个当前帧像素，基于所述当前帧像素的状态子特征与每一个所述语义区域的特征，确定所述当前帧像素的语义类别。
[0142]
在一些实施例中，语义分割模型进一步被配置为计算所述当前帧像素的状态子特征与每一个所述语义区域的特征的余弦距离；确定所述当前帧像素对应的目标语义区域，其中，所述目标语义区域为具有的特征与所述当前帧像素的状态子特征的余弦距离最小的语义区域；将所述目标语义区域的语义类别确定为所述当前帧像素的语义类别，其中，所述目标语义区域的语义类别为所述目标语义区域的相关当前帧像素对应的预设语义类别。
[0143]
在一些实施例中，语义分割装置还包括：
[0144]
训练单元，被配置为在提取视频的多帧中的每一帧的原始特征之前，利用训练样本训练所述语义分割模型，包括：提取所述训练样本中的每一训练帧的原始特征，其中，所
述每一训练帧在所述每一训练帧所属的视频中的位置连续，所述训练样本包括：当前训练帧、至少一个先前训练帧，当前训练帧位于先前训练帧之前；将所述每一训练帧的原始特征输入到所述语义分割模型中，得到所述语义分割模型输出的当前训练帧的语义分割结果；计算当前训练帧的语义分割结果与当前训练帧的标注结果之间的第一损失，当前训练帧的标注结果包括：当前训练帧中的每一个当前训练帧像素的标注语义类别；将当前训练帧的对齐运动特征输入到第一逻辑回归层中，得到当前训练帧中的每一个当前训练帧像素的第一概率信息，以及基于所述每一个当前训练帧像素的第一概率信息，确定所述当前训练帧的第一预测信息，所述第一概率信息包括：所述当前训练帧像素在每一个预设语义类别上的第一概率，所述第一预测信息包括：所述每一个当前训练帧像素的第一预测语义类别；计算所述第一预测信息与当前训练帧的标注结果之间的第二损失；将当前训练帧的状态特征输入到用于第二逻辑回归层中，得到所述每一个当前训练帧像素的第二概率信息，以及基于所述每一个当前训练帧像素的第二概率信息，确定所述当前训练帧的第二预测信息，所述第二概率信息包括：所述当前训练帧像素在每一个预设语义类别上的第二概率，所述第二预测信息包括：所述每一个当前训练帧像素的第二预测语义类别；计算所述第二预测信息与当前训练帧的标注结果之间的第三损失；基于所述第一损失、所述第二损失、所述第三损失，确定所述训练样本对应的总损失，以及基于所述总损失，更新所述语义分割模型的所有与所述总损失相关的参数的参数值。
[0145]
本技术还提供了一种电子设备，该电子设备可以配置有一个或多个处理器；存储器，用于存储一个或多个程序，一个或多个程序中可以包括用以执行上述实施例中描述的操作的指令。当一个或多个程序被一个或多个处理器执行时，使得一个或多个处理器执行上述方法实施例中描述的操作的指令。
[0146]
本技术还提供了一种存储介质，该存储介质可以是电子设备中所包括的；也可以是单独存在，未装配入电子设备中。上述存储介质承载有一个或者多个程序，当一个或者多个程序被电子设备执行时，使得电子设备执行上述方法实施例中描述的操作。
[0147]
需要说明的是，本技术所述的存储介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以包括但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(ram)、只读存储器(rom)、可擦式可编程只读存储器(eprom或闪存)、光纤、便携式紧凑磁盘只读存储器(cd-rom)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本技术中，计算机可读存储介质可以是任何包括或存储程序的有形介质，该程序可以被消息执行系统、装置或者器件使用或者与其结合使用。而在本技术中，计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多方面形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由消息执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包括的程序代码可以用任何适当的介质传输，包括但不限于：无线、电线、光缆、rf等等，或者上述的任意合适的组合。
[0148]
附图中的流程图和框图，图示了按照本技术各种实施例的系统、方法和计算机程
序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，该模块、程序段、或代码的一部分包括一个或多个用于实现规定的逻辑功能的可执行消息。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机消息的组合来实现。
[0149]
以上描述仅为本请求的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解，本技术中所涉及的发明范围，并不限于上述技术特征的特定组合而成的技术实施例，同时也应涵盖在不脱离所述发明构思的情况下，由上述技术特征或其等同特征进行任意组合而形成的其它技术实施例。例如上述特征与本技术中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术实施例。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：一种基于VR全景视觉感知的街道环境质量评价方法

语义分割方法、装置、电子设备及存储介质与流程

相关文献

最热文献