一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

基于生成对抗网络的火星图像增广方法

2022-04-25 00:23:39 来源:中国专利 TAG:


1.本发明涉及基于生成对抗网络的火星图像增广方法,属于计算机视觉中图像增广技术领域。


背景技术:

2.火星是太阳系中紧邻地球的一颗类地行星,也是太阳系中与地球最相似的类地行星。水的发现使火星被认为是最可能孕育生命的星球之一,也使火星成为开展空间探测的主要目标之一。目前航天领域已在地球卫星和载人航天工程中取得举世瞩目的成就,发展深空探测将是后续重点,这对科技进步和社会发展将具有重大意义。
3.由于火星环境复杂多变,并时常伴有沙尘等天气,增加了火星图像的获取难度。目前对火星探测的关键技术在于获取高分辨率的火星图像,以及利用高分辨率图像对火星表面物体/地形进行检测,使火星车可以平稳、安全地降落在火星表面,进而开展后续相关科研任务。近年来随着深度学习的快速发展,人工智能的应用领域已经不仅限于地球上的军事、民品和工业中,在行星探测等关键技术上也产生了深远的影响。但是,深度学习方法是数据驱动型的,需以大量的训练数据为基础,然而目前并没有公开的大量可以用来训练深度模型的火星图像数据。为此,利用现有公开的少量的火星图像,进行火星图像智能增广技术研究具有重大的深远意义。
4.视觉任务是火星车实现自主工作的关键环节。随着火星探测的推进,更多的视觉技术将被应用于火星车以实现更复杂的探测任务。火星表面上,岩石是火星地壳的主要物质之一,可为火星地质学研究提供丰富的信息。随着深空资源探测的需求,岩石的检测和探测必将成为火星车需配备的关键技术。在人工智能时代,基于深度学习的目标检测是火星车实时处理相机数据并检测岩石的关键技术,而数据是深度学习的驱动力,通常在模型训练时输入更多的训练数据,将扩大模型参数的搜索空间,进一步帮助模型朝着全局最优解优化,使得模型性能提高。基于此,为了得到更为鲁棒和准确的火星岩石检测模型,需要利用大量的火星图像数据进行网络训练。然而由于对象的特殊性,获得大量的火星岩石图像的需求难以满足,这将限制相关研究的发展。
5.图像增广是一种增加图像数据量和多样性的策略。传统的图像增广使用单数据变形的技术,以单幅图像自身为操作对象,利用不同的变换操作改变原始图像的形态,以产生新的图像。常见的方法有几何变换、色域变换、清晰度变换、噪声注入和局部擦除等。利用传统图像增广方法进行增广后,存在增广图像多样性差的问题。近年来,生成对抗网络(gan,generative adversarial networks)被提出并用于生成逼真的图像,被作为图像增广的方法之一。假定原始图像为某个分布域中的样本,基于gan的图像增广思想为使用神经网络拟合某个随机分布到原始图像分布域的映射关系。在完成学习后,便可以使用该映射模型生成属于原始图像分布域而又和训练样本不相同的新图像,实现更为有效的图像增广。
6.目前,基于gan的图像生成通常是在公开图像数据集中进行,还没有关于火星图像增广的相关文献。为了提高gan在学习图像分布方面的能力,alec等人使用cnn架构重建gan
而得到了深度卷积生成对抗网络(deep convolution gan,dcgan),使得gan生成图像的质量有了明显的提高。虽然dcgan能生成较高质量的图像,但是该图像尺寸较小(64
×
64),当生成高分辨率大尺寸的火星图像(例如512
×
512)时,图像质量依然不佳,因此如何生成高质量高分辨率的火星图像是需要研究的关键技术。
7.另外,当前的gan运用于图像生成时都未考虑对生成图像进行控制,通常难以有效的生成所需图像。而火星图像种类繁多,在针对所有类别进行图像生成与增广时,如何更精细的控制图像的生成是实现火星图像增广的关键问题。另外,火星车执行任务时,受通信能力的限制,通常会进行本地模型训练,这就对模型训练环节的稳定性提出了较高的要求;而dcgan存在训练困难、生成器和判别器的损失函数无法指示训练过程的问题,这是因为dcgan使用js(jensen

shannon)散度衡量训练集分布和生成图像分布之间的距离,并以此差距计算损失函数用以网络参数寻优,但是当两个分布之间没有重叠的时候,js散度将为固定的常数,这导致损失函数的梯度为0而无法进行训练。此外,由于深度卷积生成对抗网络将一个低维的随机分布(例如100维)映射到高维的图像分布(例如64
×
64的图像是4096维),当网络参数固定时,生成图像分布实为高维空间中的低维流形,其无法撑满训练集分布的维度。当两组分布是高维空间中的低维流形时,其重叠部分测度为0的概率为1,生成图像分布若无法撑满训练集分布的维度,两组分布间将容易出现重叠的情况,导致训练的异常。


技术实现要素:

8.针对现有火星图像增广方法获得的火星图像分辨率低、无法控制图像类别以及训练不稳定的问题,本发明提供一种基于生成对抗网络的火星图像增广方法。
9.本发明的一种基于生成对抗网络的火星图像增广方法,包括,
10.设置基于dcgan的图像生成网络,包括图像生成器和图像判别器,所述图像生成器包括特征层处理模块一至特征层处理模块八和卷积处理模块;
11.特征层处理模块一对输入的随机隐码依次进行adain操作、卷积操作和adain操作;特征层处理模块二至特征层处理模块八的网络结构相同,分别对前一特征层处理模块输出的火星图像依次进行反卷积操作、adain操作、卷积操作和adain操作;卷积处理模块对特征层处理模块八输出的火星图像进行1
×
1卷积操作,映射为rgb模式的火星生成图像;其中每个adain操作之前都通过一个全连接层将中间隐码映射为均值系数和方差系数;每个反卷积操作均实现2倍上采样功能;特征层处理模块一至特征层处理模块八的尺度依次为4
×4×
512、8
×8×
512、16
×
16
×
512、32
×
32
×
512、64
×
64
×
256、128
×
128
×
128、256
×
256
×
64及512
×
512
×
32,卷积处理模块的尺度为512
×
512
×
3;
12.所述中间隐码采用风格迁移网络的多层感知机对随机隐码进行映射获得;所述中间隐码包含火星生成图像的目标属性特征;所述adain操作将中间隐码的目标属性特征迁移至每个特征层处理模块;
13.所述图像判别器通过卷积层一至卷积层八将输入的512
×
512
×
3维的rgb模式火星生成图像和火星真实图像转化为判定结果;其中卷积层一至卷积层七中,每个卷积层后配置带泄漏线性整流函数层;卷积层八后配置sigmoid函数;
14.对基于dcgan的图像生成网络采用由低到高,逐分辨率递进式的训练方法,使图像
生成器的八个特征层处理模块由前两个特征层处理模块起始对应图像判别器由后两个卷积层起始进行迭代训练,逐级顺次相应增加图像生成器的一个特征层处理模块和图像判别器的一个卷积层进行迭代训练,直到图像生成器的八个特征层处理模块和图像判别器的八个卷积层均参与迭代训练;
15.在每次迭代训练中,基于wasserstein距离计算损失函数进行网络参数寻优;最终完成图像生成网络的训练,获得训练后图像生成网络用于生成火星图像。
16.根据本发明的基于生成对抗网络的火星图像增广方法,所述wasserstein距离为火星生成图像分布和火星真实图像分布之间的距离。
17.根据本发明的基于生成对抗网络的火星图像增广方法,基于wasserstein距离的计算结果,图像判别器判断火星生成图像和火星真实图像为真的概率,通过sigmoid函数将卷积层八的输出映射到[0,1],指示输入图像为真的概率,所述概率用于计算损失函数。
[0018]
根据本发明的基于生成对抗网络的火星图像增广方法,随机隐码z属于随机分布中间隐码w属于通过风格迁移网络学习得到的分布分布包含多个子空间,每个子空间控制图像的一个属性特征。
[0019]
根据本发明的基于生成对抗网络的火星图像增广方法,基于dcgan的图像生成网络的训练方法包括:
[0020]
首先,使图像生成器的前两个特征层处理模块对输入的随机隐码进行处理,经卷积处理模块处理获得8
×8×
3的低维度火星生成图像;8
×8×
3的低维度火星生成图像和8
×8×
3的火星真实图像采用图像判别器的后两个卷积层进行处理,当迭代次数达到设定阈值时,完成一级网络训练;
[0021]
将完成一级训练的图像生成器从前往后增加一个特征层处理模块对生成的8
×8×
3的低维度火星生成图像继续进行处理,再经卷积处理模块处理获得16
×
16
×
3维度的火星生成图像,同时使图像判别器从后往前增加一个卷积层对16
×
16
×
3维度的火星生成图像和16
×
16
×
3的火星真实图像进行处理,当迭代次数达到设定阈值时,完成二级网络训练;
……
;直到获得512
×
512
×
3维度的火星生成图像,并且完成七级网络训练,获得训练后图像生成网络。
[0022]
根据本发明的基于生成对抗网络的火星图像增广方法,adain操作包括:将随机隐码z通过编码器映射为隐码空间的特征x1,将中间隐码w通过编码器映射为隐码空间的特征y1,再通过解码器将特征x1和特征y1合成同时具有随机隐码z和中间隐码w的特征的合成图像。
[0023]
根据本发明的基于生成对抗网络的火星图像增广方法,wasserstein距离的计算方法包括:
[0024][0025]
式中x为火星真实图像,x属于火星真实图像分布g(z)为随机隐码z经过图像生成器后得到的火星生成图像,g(z)属于生成图像的分布γ为真实图像和生成图像的联合分布;为均值。
[0026]
根据本发明的基于生成对抗网络的火星图像增广方法,采用训练后图像生成网络
生成高质量火星图像,所述高质量火星图像与nasa公开的火星真实图像构成火星图像数据集,供基于视觉火星探测任务使用。
[0027]
本发明的有益效果:本发明可用于火星探测相关任务中的火星图像增广。它基于生成对抗网络,针对dcgan难以生成优质的高分辨率火星图像的问题,使用渐进式的网络训练方法进行精细地图像生成;针对gan无法控制目标类火星图像生成的问题,引入风格迁移技术设计了可控的火星图像生成方法;针对dcgan训练不稳定而难以使火星车自主完成训练的问题,基于wasserstein距离设计了新的损失函数。作为火星探测任务中的基础性技术研究,本发明方法可在一定程度上推动后续规划任务,为后续规划任务提供一定的技术支撑。
[0028]
本发明中图像增广的核心思想在于从现有的少量火星图像数据中提炼出有用的信息,再用其产生更多的相似但又不同的火星图像数据,从而扩大现有火星图像的规模。本发明方法生成的大量火星图像在与现有的少量公开的火星图像属于同一数据分布特点,同时兼具足够的多样性。
附图说明
[0029]
图1是本发明所述基于生成对抗网络的火星图像增广方法的网络结构整体流程图;图中const表示常数,本发明中表示随机隐码;conv表示卷积,deconv表示反卷积;
[0030]
图2是mar32k中小视野和大视野图像示意图;
[0031]
图3是基于深度卷积生成对抗网络的火星图像生成模型结构示意图;
[0032]
图4是基于dcgan的图像生成网络的渐进式训练过程示意图;
[0033]
图5是基于风格迁移的火星图像目标类可控生成方法原理图;
[0034]
图6是火星生成图像和火星真实图像的对比图;
[0035]
图7是具体实施例中构建的gmsri数据集中类别为粗糙岩浆岩的火星图像;其中category(类别):igneous rocks(岩浆岩)
‑‑‑
rough(粗糙);view angle(视角):smooth inspect(平视);quantity(数量):small(少);
[0036]
图8是具体实施例中构建的gmsri数据集中类别为沉积岩的火星图像;其中category(类别):sedimentary rocks(沉积岩);view angle(视角):smooth inspect(平视);quantity(数量):small(少);
[0037]
图9是具体实施例中构建的gmsri数据集中类别为细粒岩浆岩的火星图像;其中category(类别):igneous rocks(岩浆岩)
‑‑‑
fine-grained(细粒);view angle(视角):smooth inspect(平视);quantity(数量):small(少);
[0038]
图10是具体实施例中构建的gmsri数据集中类别为沉积岩的火星图像;其中category(类别):sedimentary rocks(沉积岩);view angle(视角):overlook(俯视);quantity(数量):small(少);
[0039]
图11是具体实施例中构建的gmsri数据集中类别为砾岩的火星图像;其中category(类别):gravels(砾岩);view angle(视角):overlook(俯视);quantity(数量):large(多);
[0040]
图12是具体实施例中构建的gmsri数据集中类别为沙地的火星图像;其中category(类别):sands(沙地)—white(白色);view angle(视角):overlook(俯视);
quantity(数量):large(多);
[0041]
图13是数据集gmsri的层级结构示意图;图中smooth inspect&large quantity表示平视和数量多;smooth inspect&small quantity表示平视和数量少;overlook&large quantity表示俯视和数量多;overlook&small quantity表示俯视和数量少。
具体实施方式
[0042]
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其它实施例,都属于本发明保护的范围。
[0043]
需要说明的是,在不冲突的情况下,本发明中的实施例及实施例中的特征可以相互组合。
[0044]
下面结合附图和具体实施例对本发明作进一步说明,但不作为本发明的限定。
[0045]
具体实施方式一、结合图1至图5所示,本发明提供了一种基于生成对抗网络的火星图像增广方法,包括,
[0046]
设置基于dcgan的图像生成网络,包括图像生成器和图像判别器,所述图像生成器包括特征层处理模块一至特征层处理模块八和卷积处理模块;
[0047]
特征层处理模块一对输入的随机隐码依次进行adain操作、卷积操作和adain操作;特征层处理模块二至特征层处理模块八的网络结构相同,分别对前一特征层处理模块输出的火星图像依次进行反卷积操作、adain操作、卷积操作和adain操作;卷积处理模块对特征层处理模块八输出的火星图像进行1
×
1卷积操作,映射为rgb模式的火星生成图像;其中每个adain操作之前都通过一个全连接层将中间隐码映射为均值系数和方差系数;每个反卷积操作均实现2倍上采样功能;特征层处理模块一至特征层处理模块八的尺度依次为4
×4×
512、8
×8×
512、16
×
16
×
512、32
×
32
×
512、64
×
64
×
256、128
×
128
×
128、256
×
256
×
64及512
×
512
×
32,卷积处理模块的尺度为512
×
512
×
3;
[0048]
所述中间隐码采用风格迁移网络的多层感知机对随机隐码进行映射获得;所述中间隐码包含火星生成图像的目标属性特征;所述adain操作将中间隐码的目标属性特征迁移至每个特征层处理模块;
[0049]
所述图像判别器通过卷积层一至卷积层八将输入的512
×
512
×
3维的rgb模式火星生成图像和火星真实图像转化为判定结果;其中卷积层一至卷积层七中,每个卷积层后配置带泄漏线性整流函数层;卷积层八后配置sigmoid函数;
[0050]
在渐进式训练方式中,为了使火星图像生成模型具备生成高分辨率(512
×
512)火星图像的能力,引入渐进式的网络训练方法,对基于dcgan的图像生成网络采用由低到高,逐分辨率递进式的训练方法以提高所生成高分辨率图像的质量,使图像生成器的八个特征层处理模块由前两个特征层处理模块起始对应图像判别器由后两个卷积层起始进行迭代训练,逐级顺次相应增加图像生成器的一个特征层处理模块和图像判别器的一个卷积层进行迭代训练,直到图像生成器的八个特征层处理模块和图像判别器的八个卷积层均参与迭代训练;
[0051]
在每次迭代训练中,基于wasserstein距离计算损失函数进行网络参数寻优;最终
完成图像生成网络的训练,获得训练后图像生成网络用于生成火星图像。
[0052]
本实施方式训练过程、网络架构、损失函数3个基于gan的火星图像增广的关键环节入手,以dcgan为基础架构,引入了渐进的高分辨率火星图像生成模型训练方法、基于风格迁移的火星图像目标类可控的生成方法、基于wasserstein距离的训练稳定技术,最终提出了一种可控的高分辨率火星图像生成模型,如图1所示。本发明按火星图像生成模型网络结构的关键技术分为了基于dcgan的火星图像生成网络、渐进式训练、风格迁移、基于wasserstein距离的损失函数计算模块。
[0053]
在基于dcgan的图像生成网络中,选用dcgan为生成火星图像的基础网络。图像生成器的输入为一固定的编码,经过八次特征层处理模块的处理后特征图由4
×
4增大为512
×
512。真实火星图像和生成火星图像经过判别器得到其为真的概率,并被用于计算损失函数以进行网络参数寻优。
[0054]
进一步,所述wasserstein距离为火星生成图像分布和火星真实图像分布之间的距离。
[0055]
基于wasserstein距离的计算结果,图像判别器判断火星生成图像和火星真实图像为真的概率,通过sigmoid函数将卷积层八的输出映射到[0,1],指示输入图像为真的概率,所述概率用于计算损失函数。
[0056]
再进一步,随机隐码z属于随机分布中间隐码w属于通过风格迁移网络学习得到的分布分布包含多个子空间,每个子空间控制图像的一个属性特征。
[0057]
在风格迁移模块中,为了使火星图像生成模型具备可控地生成目标类图像的能力,引入风格迁移技术,通过自适应实例归一化(adaptive instance normalization,adain)操作将隐码的风格迁移至生成器中各尺度的特征层。将特定纹理岩的图像和包含不同空间结构信息的岩石图像特征层进行混合,可以生成大量的特定种类岩石图像。为了风格混合的能达到预期目的,使用多层感知机将属于分布的隐码z映射为属于分布的隐码w。因为的分布是固定的,而的分布是通过网络学习得到的,因此中间隐码w的引入,将使隐码到生成图像之间的映射更为线性,即使得包含多个子空间,而每个空间仅控制所生成图像的一个属性。
[0058]
在基于wasserstein距离的损失函数计算中,为了保证火星图像生成模型训练的稳定性,基于wasserstein距离重新设计了损失函数,进而达到了生成高质量的足够逼真的火星图像,达到火星图像增广的目的。wasserstein距离可以更准确的估计生成图像分布和训练集图像分布之间的距离,使得基于该距离的网络参数寻优过程更为顺利。
[0059]
再进一步,基于dcgan的图像生成网络的训练方法包括:
[0060]
首先,使图像生成器的前两个特征层处理模块对输入的随机隐码进行处理,经卷积处理模块处理获得8
×8×
3的低维度火星生成图像;8
×8×
3的低维度火星生成图像和8
×8×
3的火星真实图像采用图像判别器的后两个卷积层进行处理,当迭代次数达到设定阈值时,完成一级网络训练;
[0061]
将完成一级训练的图像生成器从前往后增加一个特征层处理模块对生成的8
×8×
3的低维度火星生成图像继续进行处理,再经卷积处理模块处理获得16
×
16
×
3维度的火星生成图像,同时使图像判别器从后往前增加一个卷积层对16
×
16
×
3维度的火星生成图像和16
×
16
×
3的火星真实图像进行处理,当迭代次数达到设定阈值时,完成二级网络训
练;
……
;直到获得512
×
512
×
3维度的火星生成图像,并且完成七级网络训练,获得训练后图像生成网络。
[0062]
再进一步,adain操作包括:将随机隐码z通过编码器映射为隐码空间的特征x1,将中间隐码w通过编码器映射为隐码空间的特征y1,再通过解码器将特征x1和特征y1合成同时具有随机隐码z和中间隐码w的特征的合成图像。
[0063]
再进一步,wasserstein距离的计算方法包括:
[0064][0065]
式中x为火星真实图像,x属于火星真实图像分布g(z)为随机隐码z经过图像生成器后得到的火星生成图像,g(z)属于生成图像的分布γ为真实图像和生成图像的联合分布;为均值。
[0066]
本发明可以真实的公开的火星图像数据为基础,在训练本发明所提出的基于生成对抗网络的火星图像增广方法时,用这些已经公开的少量的真实火星图像作为监督信息来训练所提出的网络模型,实现火星图像的增广。使用本发明时,用户可以根据实际应用需求自行构建相应的真实火星图像数据库。在本发明中,为了方便与其他方法比较而采用现已公开的nasa的mars32k火星图像数据集,数据集mars32k包含了32368幅由好奇者号在2012年8月至2018年11月之间拍摄的火星表面无标签的彩色图像,这些图像记录了火星表面山脉、山谷、火山口、沙丘和岩石等各种地形的地理和地质特征,所有图像的尺寸为560
×
500像素。建立训练数据库之后,本发明进一步从mars32k数据集中挑选19867幅小视野火星图像来训练所提出的火星图像增广网络,实现火星图像进一步增广的目的。
[0067]
综上,本发明可在公开的少量火星图像的监督下生成大量的优质的高分辨率火星图像,可促进火星图像增广技术的发展,为后续火星探测的相关任务提供一定的技术和数据支撑。
[0068]
再进一步,采用训练后图像生成网络生成高质量火星图像,所述高质量火星图像与nasa公开的火星真实图像构成火星图像数据集,供基于视觉火星探测任务使用。
[0069]
作为本发明的附属品,为了弥补当前火星探测相关任务中的火星图像稀缺问题,采用本发明方法生成的大量的火星图像,可被设计为一个火星表面岩石图像数据集gmsri,供基于机器视觉的火星探测基础研究使用。
[0070]
具体实施例:
[0071]
下面结合具体实施例对本发明方法作进一步说明:
[0072]
如图1所示,首先根据实际需求准备训练样本,为了方便和现有方法进行比较,本实施例中选择使用现已公开的nasa的mars32k火星图像数据集。然后,挑选mark32k中的近景火星图像作为训练数据样本,这是因为在评价生成的火星图像质量时,更为关心的是火星图像的细节信息,在训练网络时的训练样本也最好富含丰富的细节信息。为此,挑选mars32k火星图像数据集中的近景火星图像样本作为训练样本,来训练基于dcgan的图像生成网络。下面将对每部分进行详细描述:
[0073]
准备训练样本。训练样本图像可以根据实际需求自行收集,进而构建相应的真实火星图像数据库。为了方便与其它现有方法进行比较,本发明采用公开的nasa的mars32k火星图像数据集。数据集mars32k包含了32368幅由好奇者号在2012年8月至2018年11月之间
拍摄的火星表面无标签的彩色图像,这些图像记录了火星表面山脉、山谷、火山口、沙丘和岩石等各种地形的地理和地质特征,所有图像的尺寸为560
×
500像素。为了提高生成图像的使用价值,首先对mars32k中的图像进行分类,数据集mars32k可以粗略的分类为(small-field of view)、广视野(wide-field of view)、包含好奇号车体(containing curiosity’s body)的图像,具体包括19867幅小视野图像、7950幅广视野图像以及4731幅包含好奇号车体的图像。小视野图像多为包含了更多纹理细节的岩石图像,其有利于推动火星车岩石检测技术的研究。为此,结合图2所示,本发明将小视野图像进一步分为了岩浆岩(igneous rocks)、沉积岩(sedimentary rocks)、皲裂的岩石块(cracked rocks)、砾岩(gravels)、沙地(sands)以及其它图像(other),具体包小视野图像包括1530幅岩浆岩图像、5954幅沉积岩图像、2718幅皲裂的岩石块图像、2947幅砾岩图像、1720幅沙地图像和4998幅其它图像。图2展示了5种小视野岩石图像、3幅
[0074]
广视野图像和1幅包含好奇号车体的图像,其中沉积岩图像主要为层状沉积岩,皲裂的岩石块指破裂成多块的岩石,砾岩指体积较小的岩石,沙地同样被归类为岩石。本发明中,选取19867幅小视野图像作为监督信息来训练所提出的基于dcgan的图像生成网络。
[0075]
设计基于生成对抗网络的火星图像生成器。本发明中,采用基于深度卷积的生成对抗网络来构建一个基础的火星图像生成模型作为火星图像生成器的获得基础,其中包含一个生成器和一个判别器,如图3所示。其中,基于深度卷积的生成对抗网络的火星图像生成模型中,生成器的作用为通过学习的方式生成多样化的火星图像,来达到火星图像数据增广的目的,其生成器网络结构参数如表1所示。生成器通过8个反卷积层将100维的随机隐码映射为512
×
512
×
3维的rgb图像。前7个反卷积后为1个批归一化(batch normalization,bn)层和1个线性整流函数(rectified linear unit,relu)层,第8个反卷积后为一个双曲正切(tanh)激活函数。bn实现特征归一化处理,激活函数relu和tanh用以增加网络的非线性表达能力。所有的反卷积层均实现2倍上采样的功能。基于深度卷积的生成对抗网络的火星图像生成模型中,判别器的功能是判断输入的图像是真实的高清火星图像还是生成器生成的火星图像,利用和生成器对抗的训练方式,判别输入图像的真假来反馈优化生成器网络的训练,最终达到生成器生成的火星图像足够逼真,判别器网络结构参数如表2所示。判别器通过8个卷积层将512
×
512
×
3维的rgb图像转化为1个判定结果。前7个卷积层后为1个带泄漏线性整流函数(leaky rectified linear unit,leaky relu)层,第8个卷积层后为一个sigmoid函数。sigmoid函数用以将网络输出映射到[0,1],指示输入图像为真的概率。
[0076]
表1其中“deconv”表示反卷积层,“2
×”
表示上采样因子为2
[0077][0078]
表2
[0079][0080]
然后设计渐进的高分辨率火星图像生成模型训练方法。直接训练上述的基于深度卷积的生成对抗火星生成网路,生成的高分辨率火星图像通常质量不佳,为了使火星图像生成模型具备生成高分辨率(512
×
512)火星图像的能力,引入渐进式的网络训练方法。图像的分辨率越大,其分布空间也就越大,因此利用gan生成逼真的高分辨率图像极具挑战性。渐进式训练采用由低到高,逐分辨率递进式的训练方法以增加生成高分辨率图像的能力,渐进式的网络训练方法图4所示。具体地,在训练开始时,渐进式训练仅针对低分辨率图像进行生成训练,此时参与训练的仅有生成器的前2个卷积阶段和判别器的最后2个卷积阶段,生成图像、真实图像以及输入判别器的图像均为8
×8×
3的低维度数据;在迭代次数达到一定数目时,认为生成的8
×
8像素图像也可近似得到对应训练集分布,生成器和判别器各增加1个卷积阶段以供训练,此时图像为16
×
16
×
3维度;随着训练迭代次数的进一步增多,参与训练的卷积阶段增加,所生成的图像维度也越来越高,最终状态下生成器和判别器各提供8个卷积阶段参与训练,所生成的图像为512
×
512
×
3维度,待迭代次数达到预期时完成网络的训练。引入渐进式训练的网络所使用的生成器通过8个反卷积阶段可以生成512
×
512
×
3维的rgb火星图像。第1个卷积阶段包括一层全连接(fully connected,fc)层,2个局部响应归一化(local response normalization,lrn)层,1个卷积层。其余8个卷积阶段包括1个反卷积层,2个卷积层和2个lrn层。每个反卷积将特征图尺寸扩大1倍。lrn增加了对神经元的挑选过程,提高了大响应神经元的权重,降低了小响应神经元的权重,用以增大网络的泛化能力。
[0081]
然后设计基于风格迁移的火星图像目标类可控生成方法。火星图像种类繁多,在进行数据增广时应该针对每一种类均匀地生成图像,但基础的gan运用于图像生成时未考虑对生成图像进行控制,该网络将隐码z直接映射为图像,z采样来自某低维的随机分布,它们决定了生成图像的内容,这种生成方法具有很大的随机性,导致难以控制生成目标类火星图像,若使用随机的图像生成方法,将难以针对所有类进行数据增广,因此需要研究可控的图像生成技术。在深度学习领域,经典的控制生成图像方法为条件式生成对抗网络(conditional gan,cgan),核心思想是引入标签信息,在输入隐码z的时候,指定label便可以生成目标类别的图像。cgan的方法能有效控制生成图像的内容,但是该方法基于监督学习,对于大量无标记的火星图像数据集,应优先考虑无监督学习的方案。
[0082]
本发明中,首先分析了基于gan火星图像生成过程,生成器的初始的卷积层生成低分辨率的火星图像,这些图像包括了火星图像中岩石的空间结构以及形状信息,生成器尾端的卷积层生成高分辨率的图像,这些层生成了火星图像中岩石的细节纹理。由于火星岩石图像的类别由岩石纹理决定,因此若能在保证隐码z中控制岩石纹理生成的部分不改变,而改变其它与纹理生成不相关部分的取值,此时便可生成同一岩石种类不同空间结构和形状的火星岩石图像。为此,本发明引入了基于风格迁移的火星图像目标类可控生成方法,具体地使用风格迁移的adain的方法,将一幅图像的风格迁移到另一幅图像,其原理如图5所
示。其中,图像生成的模型是编码器-解码器(endoder-decoder),编码器将输入图像(岩浆岩)和风格图像(皲裂的石块)映射为隐码空间的x1和y1,x1和y1可通过解码器合成的图像分别具有两幅输入图像的特点。
[0083]
设计基于wasserstein距离的训练稳定策略。传统的gan使用js散度作为网络参数寻优的损失函数,但是当两组分布重叠部分可忽略时,js散度为0,损失函数固定为-log4,此时将出现梯度消失,难以进行网络训练。为了解决上述问题,发明使用wasserstein距离代替js散度来量化两组分布之间的距离。wasserstein距离的思想是计算将一个分布移动到另一个分布所经过的路径长度,即使在两分布不重叠时依然有效,wasserstein距离的计算如下:
[0084][0085]
wasserstein距离即为联合分布中生成图像样本和训练集图像样本距离期望的下界。相比于js散度,wasserstein距离的优势在于即使两组分布的重叠部分可忽略,其距离的变化仍然是平滑线性的,因此能够提供更为稳定的损失函数。
[0086]
接下来,训练本发明所提出的基于生成对抗网络的火星图像增广网络。在所设计的基于深度卷积的生成对抗火星图像生成网络的基础上,引入了渐进的高分辨率火星图像生成模型训练方法,基于风格迁移的火星图像目标类可控生成方法,基于wasserstein距离的训练稳定策略,确保能生成高分辨率、多样化、稳定的火星图像。具体地,选取19867幅小视野图像作为监督信息来训练所提出的基于生成对抗网络的火星图像增广模型,在单次训练过程中,560
×
500像素的输入图像被缩放为512
×
512像素。选用了adam优化器来训练整个网络,1阶动量超参数β1和2阶动量超参数β2分别设定为0和0.99,避免除数为0的超参数ε设定为10-8。渐进的训练方法在不同训练尺度下优化输入图像分别为mini-batch4
×
4=512、mini-batch8
×
8=256、mini-batch16
×
16=128、mini-batch32
×
32=64、mini-batch64
×
64=32、mini-batch128
×
128=16、mini-batch256
×
256=8、mini-batch512
×
512=4。传统的训练方法学习率设定为0.001(α=0.001),渐进的训练方法在不同训练尺度下的学习率分别设定为α4
×
4至α64
×
64=0.001、α128
×
128=0.0015、α256
×
256=0.002、α512
×
512=0.003。渐进的训练方法在不同训练尺度下的mini-batch训练次数分别设定为iterations4
×
4=120k、iterations8
×
8=480k、iterations16
×
16=1200k、iterations32
×
32=1200k、iterations64
×
64=1200k、iterations128
×
128=1200k、iterations256
×
256=1200k、iterations512
×
512=8400k,总迭代次数iterations=15000k。
[0087]
通过上述步骤训练的基于生成对抗网络的火星图像增广网络可以实现高质量高分辨率火星图像的生成任务,进而达到火星图像增广的目的。实验证明本发明生成的火星图像足够逼真,表3为实验结果及消融试验对比数据:
[0088]
表3实验结果
[0089][0090]
其中采用主观评价和客观的fid指标对本发明所生成的火星图像进行评价。从对比数据中可以看出,为了确认渐进的高分辨率火星图像生成模型训练方法对生成的火星图像质量的影响,对比表3的序号1、3、5、7和序号2、4、6、8,增加了渐进训练后,网络总能够生成fid更小的火星图像,人眼主观评分结果也遵循该规律,证明本发明所提出的渐进的高分辨率火星图像生成模型训练方法能够有效的提高生成的火星图像质量。此外,为了解基于风格迁移的火星图像目标类可控的生成方法、基于wasserstein距离的训练稳定技术是否会干扰生成火星图像的质量,相关消融实验同样被设计和执行。为了解基于风格迁移的火星图像目标类可控的生成方法对生成的火星图像质量的影响,对比表3的序号1、2、5、6和序号3、4、7、8可知,增加了风格迁移技术后,网络生成的火星图像fid产生了较小的变化,但无规律可循,人眼主观评分结果无规律可循,证明本发明所提出的渐进的基于风格迁移的火星图像目标类可控的生成方法对生成的火星图像质量影响较小。为了解决基于wasserstein距离的训练稳定技术对生成的火星图像质量的影响,对比表3的序号1、2、3、4和序号5、6、7、8可知,优化了损失函数后,网络生成的火星图像fid有少量的减少,人眼主观评分结果无规律可循,证明本发明所提出的基于wasserstein距离的训练稳定技术会少量提升生成图像的质量。上述的实验结果和分析证明了本发明方法的有效性。此外,图6为试验结果对比图,节选了火星图像生成模型所生成图像中的典型样本与训练集图像进行对比,图中给出了5种真实和生成的岩石图像对比,前两列为训练集中的真实图像(real images),后两列为对应岩石种类的生成图像(fake images),观察实验结果可以发现本发明方法能够生成逼真的图像。
[0091]
最后,作为本发明方法的附属品,利用上述方法所生成的高质量火星图像和现在公开的nasa的真实的少量火星图像,可以建立一个大型的火星图像数据集,供从事基于视觉的火星探测的相关任务使用。具体地,可构建一个名为gmsri,旨在提供火星表面岩石图像的数据集,其中包括少量的真实的火星图像,和大量的生成的火星图像。数据集的多样性是一项关键指标,有助于提高数据集泛化能力和防止模型过拟合,为了保证gmsri多样性,本发明不仅将其按岩石种类进行分类,还根据纹理细节、岩石数量、视角进行进一步细分,细分后岩石图像举例如图7至图12所示。据此,可构建一个包含30000幅图像的层级结构数据集,其数据集结构如图13所示。图13中gmsri被按岩石纹理分为了5棵子树,共包括4个层级28个叶节点。在结构的第3级,沙地被按颜色分为了黄色(yellow)和白色(white)两类,岩浆岩被按表面粗糙度分为了细粒(fine-grained)和粗糙(rough)两类。在结构的第4级,按岩石视角是俯视(overlook)还是平视(smooth inspect)以及数量多(large quantity)还
是少(small quantity)分成了4类。
[0092]
虽然在本文中参照了特定的实施方式来描述本发明,但是应该理解的是,这些实施例仅仅是本发明的原理和应用的示例。因此应该理解的是,可以对示例性的实施例进行许多修改,并且可以设计出其他的布置,只要不偏离所附权利要求所限定的本发明的精神和范围。应该理解的是,可以通过不同于原始权利要求所描述的方式来结合不同的从属权利要求和本文中所述的特征。还可以理解的是,结合单独实施例所描述的特征可以使用在其它所述实施例中。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献