一种基于对抗网络和自注意力机制的无监督语义分割算法

2022-11-16 14:55:16 来源：中国专利 TAG：

技术特征：
1.一种基于对抗网络和自注意力机制的无监督语义分割算法，其特征在于，具体包含以下步骤：步骤1、获取自动驾驶图像数据；步骤2、利用对抗生成网络得到原始图像的生成图像；步骤3、利用超像素图像分割算法对原始图像进行预分割；步骤4、将图像输入局部特征提取网络获得图像的局部特征；步骤5、将图像输入全局特征提取网络获得图像的全局特征；步骤6、将局部特征和全局特征相加，并经过一层卷积层和softmax函数层得到图像的初步分割结果；步骤7、计算预分割结果与原始图像分割结果之间的互信息以及预分割结果与生成图像分割结果之间的互信息；步骤8、采用梯度下降法对分割模型进行训练得到图像分割结果。2.根据权利要求1所述的算法，其特征在于，步骤2具体包括：生成对抗网络主要由生成器g和判别器d组成，生成器g主要用来接收噪声，然后生成接近真实图像分布的生成图像，判别器d用于判断数据是真实图像还是生成图像；所述生成器g是一个5层的神经网络，将噪声向量输入生成器网络，生成器g将通过块函数进行非线性变换，直到张量映射到与真实图像相同的大小；在网络训练过程中通过从正态分布中抽样随机生成噪声向量z，p(z)表示噪声向量z的分布；所述判别器d是一个4层的神经网络，它从图像张量开始，并对其进行变换，直到它返回单个数字即一维张量输出，根据输出对图像的真伪进行分类；在训练过程中，将生成器g和判别器d串连在一起；在训练过程中，生成器g和判别器d交替学习，在训练生成器过程中需要将判别器设置为冻结即不可训练，此时判别器的权重不会更新，在训练判别器过程中需要将生成器设置为冻结，此时生成器的权重不会更新；最终达到纳什均衡，此时判别器d无法区分真实图像和生成图像，训练过程中的目标函数v(d，g)如下：min
g
max
d
v(d，g)＝e
x～p(x)
[log d(x)] e
z～p(z)
[log(1-d(g(z)))]#(1)其中，e
x～p(x)
[log d(x)]表示当x服从p(x)分布时log d(x)函数的期望，x表示原始图像，p(x)表示图像x的分布，d(x)表示图像x经判别器网络d判断得到图像x是真实图像的概率；e
z～p(z)
[log(1-d(g(z)))]表示当z服从p(z)分布时log(1-d(g(z)))函数的期望，z表示输入到生成网络的噪声，p(z)表示噪声向量z的分布，g(z)表示噪声向量z经生成器网络g得到的与图像x相同大小的生成图像，d(g(z))表示生成图像g(z)经判别器网络d判断得到图像g(z)是真实图像的概率，1-d(g(z))表示生成图像g(z)是生成图像的概率；在网络训练过程中判别器d试图最大化它分辨数据是真实图像或生成图像的概率即max
d
，生成网络g试图最小化判别器将其预测为假数据的概率即min
g
。3.根据权利要求1所述的方法，步骤4内所涉及的局部特征提取具体包括：步骤4.1、利用卷积层对输入图像进行两次卷积操作；步骤4.2、对卷积后的结果执行归一化和relu操作；步骤4.3、利于1*1的卷积核对图像进行第三次卷积操作，然后对卷积后的结果执行归一化和relu操作；
步骤4.4、利用1*1的卷积核对步骤4.3的输出执行最后一次卷积操作得到输入图像的局部特征x
local_pro
。4.根据权利要求1所述的算法，其特征在于，步骤5内所涉及的全局特征提取具体包括：设任意一张图像为x∈r
h
×
w
×
c
，其中，r表示数据集内全部图像的集合，x为该集合内的任意一张图像，x的像素高度为h，像素宽度为w，通道数为c；步骤5.1、将输入模型的一张图片划分为n个子图，每个子图的大小为p
×
p，n＝h/p
×
w/p，该操作的过程表示为：x∈r
h
×
w
×
c
→
x
p
∈r
h/p
×
w/p
×
(p
×
p
×
c)
#(2)其中，r
h
×
w
×
c
表示数据集内全部图像的集合，其中该集合内的任意一张图x的像素高度为h，像素宽度为w，通道数为c；r
h/p
×
w/p
×
(p
×
p
×
c)
表示将一张图片划分为n个子图后全部图像的集合，其中该集合内的任意一张图像x
p
的像素高度为h/p，像素宽度为w/p，通道数为p
×
p
×
c；步骤5.2、将划分后的子图转变成1*c
′
的一维向量，该操作的过程表示为：x
p
∈r
h/p
×
w/p
×
(p
×
p
×
c)
→
x
p
′
∈r
h/p
×
w/p
×
c
′
#(3)其中，r
h/p
×
w/p
×
(p
×
p
×
c)
表示步骤5.1处理后全部图像的集合，其中该集合内的任意一张图像x
p
的像素高度为h/p，像素宽度为w/p，通道数为p
×
p
×
c；r
h/p
×
w/p
×
c
′
表示步骤5.2处理后图像的集合，其中该集合内的任意一张图像的像素高度为h/p，像素宽度为w/p，通道数为c
′
，其中c
′
表示一维向量的维度；步骤5.3、将步骤5.2得到的x
p
′
∈r
h/p
×
w/p
×
c
′
送入特征提取模块，该特征提取模块不改变输入数据的大小，仅对特征进行融合，因此经特征提取模块计算得到的输出数据的集合仍为r
h/p
×
w/p
×
c
′
，该集合内的任意一张图像的像素高度为h/p，像素宽度为w/p，通道数为c
′
；特征提取模块对数据的处理过程为：输入特征提取模块的数据首先经过线性归一化层处理，然后经过一层多头自注意力处理，再通过一次线性归一化和多层感知机处理，将输出的数据经过一层基于移动窗口的多头自注意力，最后再次通过线性归一化和多层感知机层得到输出结果；步骤5.4、将r
h/p
×
w/p
×
c
′
传入子图合并层进行两倍下采样运算，得到的输出数据序列为r
h/2p
×
w/2p
×
2c
′
，其中，r表示步骤5.4处理后数据集内全部图像的集合，该集合内的任意一张图像的像素高度为h/2p，像素宽度为w/2p，通道数为2c
′
；然后将得到的数据序列为r
h/2p
×
w/2p
×
2c
′
传入特征提取模块，由于特征提取模块不改变输入数据的大小，因此经特征提取模块处理后得到的数据集合为r
h/2p
×
w/2p
×
2c
′
；将一个子图合并层和一个特征提取模块串行起来进行数据处理，再经过2次串行处理得到的数据为r
h/8p
×
w/8p
×
8c
′
，其中，r表示以上处理后全部图像的集合，该集合内的任意一张图像的像素高度为h/8p，像素宽度为w/8p，通道数为8c
′
；步骤5.5、对步骤5.4得到的数据r
h/8p
×
w/8p
×
8c
′
进行两倍的上采样运算，得到的输出数据序列为r
h/4p
×
w/4p
×
4c
′
；其中，r表示处理后数据集内全部图像的集合，该集合内的任意一张图像的像素高度为h/4p，像素宽度为w/4p，通道数为4c
′
；然后将得到的数据序列为r
h/4p
×
w/4p
×
4c
′
传入特征提取模块，经特征提取模块处理后得到的数据集合为r
h/4p
×
w/4p
×
4c
′
；将一次两倍的上采样运算和一个特征提取模块串行起来进行数据处理，再经过2次串
行处理后得到的数据为r
h
×
w
×
c
′
，此时该集合内的任意一张图像的像素高度为h，像素宽度为w，通道数为c
′
；通过一次上采样运算得到与原始图像大小相同的图像集合r
h
×
w
×
c
，此时该集合内的任意一张图像的像素高度为h，像素宽度为w，通道数为c；最后经过线性投影层得到图像的概率分布图x
global_pro
。5.根据权利要求1所述的算法，其特征在于，步骤7具体包括：假设生成对抗网络得到的生成图像与原始图像具有相同的标签，通过不断迭代神经网络使得神经网络对生成图像进行分割所得到的标签和对原始图像分割所得到的标签尽可能相似，从而实现对原始图像的无监督分割；基于以上假设构造模型的损失函数；步骤7.1、计算基于原始图像的分割结果与预分割结果之间的互信息i(y，y
super
)，计算公式为：i(y，y
super
)＝h(y)-h(y|y
super
)#(4)其中，y
super
表示原始图像的预分割结果，y表示原始图像的分割结果，h(y)表示原始图像的分割结果y的信息熵，h(y|y
super
)表示在原始图像的预分割结果y
super
的条件下原始图像的分割结果y所包含的信息量，h(y)-h(y|y
super
)表示基于原始图像的分割结果与预分割结果之间的互信息，可理解为基于原始图像的分割结果y中包含的预分割结果y
super
的信息量；步骤7.2、计算基于生成图像的分割结果与预分割结果之间的互信息i(y
′
，y
super
)，计算公式为：i(y
′
，y
super
)＝h(y
′
)-h(y
′
|y
super
)#(5)其中，y
super
表示原始图像的预分割结果，y
′
为生成图像的分割结果，h(y
′
)表示生成图像分割结果y
′
的信息熵，理解为y
′
所包含的信息量，h(y
′
|y
super
)表示在原始图像的预分割结果y
super
的条件下生成图像分割结果y
′
所包含的信息量，h(y
′
)-h(y
′
|y
super
)表示生成图像分割结果与预分割结果之间的互信息，可理解为生成图像分割结果y
′
中包含的预分割结果y
super
的信息量；步骤7.3、对步骤7.1和步骤7.2之间的互信息求均值得到图像分割阶段的损失函数并与步骤6.3所得到的损失函数相加，得到模型的损失函数；其中，min
g
max
d
v(d，g)表示生成对抗网络的损失函数，d表示判别器网络，g表示生成器网络，在生成对抗网络训练过程中判别器d试图最大化它分辨数据真假的概率即max
d
，生成网络g试图最小化判别器d将其预测为假数据的概率即min
g
；表示原始图像分割结果与预分割结果之间的互信息i(y，y
super
)和生成图像分割结果与预分割结果之间的互信息i(y
′
，y
super
)之间的均值，y
super
原始图像的预分割结果，y
′
为生成图像的分割结果，i(y，y
super
)表示y与y
super
之间的互信息，i(y
′
，y
super
)表示y
′
与y
super
之间的互信息。

技术总结
一种基于对抗网络和自注意力机制的无监督语义分割算法涉及人工智能、自动驾驶领域，实现对自动驾驶图像的准确分割，其包括以下步骤：步骤1、获得自动驾驶图像数据；步骤2、利用对抗生成网络得到原始图像的生成图像；步骤3、利用超像素图像分割算法对原始图像进行预分割；步骤4、将图像输入局部特征提取网络获得图像的局部特征；步骤5、将图像输入全局特征提取网络获得图像的全局特征；步骤6、将局部特征和全局特征相加，并经过一层卷积层和Softmax函数层得到图像的初步分割结果；步骤7、计算预分割结果与原始图像分割结果之间的互信息以及预分割结果与生成图像分割结果之间的互信息；步骤8、采用梯度下降法对分割模型进行训练得到图像分割结果。到图像分割结果。到图像分割结果。

技术研发人员：刘博王慧娜陈铭明
受保护的技术使用者：北京工业大学
技术研发日：2022.07.11
技术公布日：2022/11/15

再多了解一些

2/2 首页上一页 1 2

本文用于创业者技术爱好者查询，仅供学习研究，如用于商业用途，请联系技术所有人。

一种基于对抗网络和自注意力机制的无监督语义分割算法

相关文献

最热文献