一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

训练生成神经网络的设备和方法与流程

2022-03-22 22:11:06 来源:中国专利 TAG:

训练生成神经网络的设备和方法
1.各种实施例通常涉及训练生成神经网络的设备和方法。
2.通过示例方式,机器学习图像分类器可以在各种系统中用于对数字图像进行分类。例如,在自主驾驶中,诸如相机传感器和/或视频传感器的成像传感器可以用于提供车辆周围的数字图像(例如,图示对象,诸如汽车、自行车、行人、街道标志等);机器学习图像分类器可以用于对检测到的数字图像进行分类,并且可以使用分类的数字图像来控制车辆。为了训练机器学习图像分类器,可能必要覆盖宽范围的分类任务(例如,各种驾驶场景,例如,各种对象)的数字图像。然而,可能难以获取示出诸如接近事故的驾驶场景之类的极端情况的数字图像,和/或示出与稀有对象(例如,野生动物)相关联的稀有类别的数字图像。此外,由于隐私原因(例如,示出人的数字图像),一些获取的数字图像的使用可能被禁止。因此,可能有必要综合生成数字图像(例如来扩增数据),以对机器学习图像分类器进行训练。
3.在verma等人的manifold mixup: better representations by interpolating hidden states, proceedings of the 36th international conference on machine learning, p.6438-6447, 2019中,描述了一种通过混合来自不同类别的样本并插值它们的标签来创建扩增图像的方法。
4.在antoniou等人的data augmentation generative adversarial networks(arxiv:1711.04340, 2017)中,描述了一种使用生成对抗网络生成扩增图像的方法。
5.在arjovsky等人的towards principled methods for training generative adversarial networks, international conference on learning representations, 2017中,描述了一种扩增方法,其中通过向图像添加噪声来改进生成对抗网络的训练稳定性。
6.然而,已经被训练为生成用于语义分割图像的合成图像的生成神经网络可能不能够生成详细的合成图像;例如,生成的合成图像可能包括不令人满意的伪像,并且可能缺少局部结构和/或细节。因此,可能有必要提供能够生成包括局部形状和结构细节的合成图像的生成神经网络。
7.具有独立权利要求1(第一示例)和独立权利要求8(第十三示例)的特征的方法和设备使得生成神经网络能够被训练以生成具有改进的局部形状和结构细节的数字图像的合成图像。
8.生成神经网络可以是针对语义分割图像生成合成图像的任何种类的神经网络。例如,生成神经网络可以包括编码器神经网络和解码器神经网络。神经网络可以包括任何数量的层,并且神经网络的训练、即对神经网络的层进行适配可以基于任何种类的训练原理,诸如反向传播,即反向传播算法。
9.使用失真分割图像来训练生成神经网络可能具有如下效果:使用训练的生成神经网络针对分割图像生成的合成图像中的伪影被显著减少。例如,对应于与分割图像中的区段相关联的语义类别,合成图像中示出的数字对象的细粒度结构细节得到改进。此外,可以增强合成图像的感知真实性。
10.该方法可以进一步包括使用应用于训练分割图像的训练生成神经网络生成训练图像;以及使用生成的训练图像来训练图像分类器,以对训练图像进行分类。本段中提到的特征与第一示例相组合提供了第二示例。
11.该方法可以进一步包括使用应用于训练分割图像的训练生成神经网络生成训练图像;使用应用于生成的训练图像的训练图像分类器生成分类图像;以及使用生成的分类图像和训练分割图像来确定训练图像分类器的性能。本段中提到的特征与第一示例相组合提供了第三示例。
12.边缘图像可以是二值图像。本段中提到的特征与第一示例至第三示例中的任何一个相组合提供了第四示例。
13.从多个边缘像素中选择边缘像素可以包括使用统计概率分布从多个边缘像素中选择边缘像素。本段中提到的特征与第一示例至第四示例中的任何一个相组合提供了第五示例。
14.应用于分割图像的二维失真可以包括薄板样条变换(thin-plate spline transformation)。本段中提到的特征与第一示例至第五示例中的任何一个相组合提供了第六示例。
15.针对第一像素选择第二像素可以包括向第一像素的位置添加位移以确定第二像素的位置。本段中提到的特征与第一示例至第六示例中的任何一个相组合提供了第七示例。
16.可以使用概率分布来确定位移。本段中提到的特征与第七示例相组合提供了第八示例。
17.每个第二像素的位置可以包括第一位置值和第二位置值。每个第一像素的位置可以包括第一位置值和第二位置值。通过将位移添加到对应的第一像素的位置来确定第二像素的位置可以包括将由第一概率分布确定的第一值添加到第一像素的第一位置值以确定第二像素的第一位置值,以及将由第二概率分布确定的第二值添加到第一像素的第二位置值以确定第二像素的第二位置值。本段中提到的特征与第七示例或第八示例相组合提供了第九示例。
18.使用失真分割图像作为输入图像来训练生成神经网络以估计数字图像可以包括:使用应用于失真分割图像的生成神经网络来估计数字图像;将第一损失函数应用于估计的数字图像和数字图像,以确定生成损失值;将第二损失函数应用于估计的数字图像和边缘图像,以确定边缘损失值;以及训练生成神经网络以降低生成损失值和边缘损失值。本段中提到的特征与第一示例至第九示例中的任何一个相组合提供了第十示例。
19.通过使用边缘损失来训练生成神经网络可以具有如下效果:训练的生成神经网络可以能够针对分割图像生成合成图像,使得合成图像包括分割图像中缺失的结构细节(例如,类别特定的结构细节)。
20.使用失真分割图像作为输入图像来训练生成神经网络以估计数字图像可以包括:使用应用于失真分割图像的生成神经网络来估计数字图像;确定估计图像是现实图像的概率;以及训练生成神经网络以增加概率。本段中提到的特征与第一示例至第十示例中的任何一个相组合提供了第十一示例。
21.估计图像是现实图像的概率可以是使用鉴别性神经网络确定的第一概率。使用失真分割图像作为输入图像来训练生成神经网络以估计数字图像进一步包括使用鉴别性模型来确定数字图像是现实图像的第二概率,以及使用第一概率和第二概率来训练鉴别性神经网络。本段中提到的特征与第十一示例相组合提供了第十二示例。
22.计算机程序可以包括指令,所述指令如果由计算机执行,则使得计算机执行根据第一示例至第十二示例中的任何一个的方法。本段提到的计算机程序提供了第十四示例。
23.计算机可读介质可以存储指令,所述指令如果由计算机执行,则使得计算机执行根据第一示例至第十二示例中的任何一个的方法。本段提到的计算机程序提供了第十五示例。
24.参考以下附图描述本发明的各种实施例,其中:图1示出了根据各种实施例的设备;图2a示出了根据各种实施例的用于生成训练数据的处理系统;图2b示出了根据各种实施例的用于生成训练数据的处理系统;图2c示出了根据各种实施例的用于训练生成神经网络的处理系统;图2d示出了根据各种实施例的用于训练生成神经网络的处理系统;图3a示出了根据各种实施例的示例性边缘图像;图3b示出了根据各种实施例的示例性分割图像;图3c示出了根据各种实施例的示例性分割图像;图3d示出了根据各种实施例的示例性失真分割图像;图3e示出了根据各种实施例的示例性分割图像和对应的失真分割图像;图4示出了根据各种实施例的训练生成神经网络的方法;图5a示出了根据各种实施例的使用训练的生成神经网络来训练图像分类器的处理系统;图5b示出了根据各种实施例的使用训练的生成神经网络来测试训练的图像分类器的处理系统。
25.在实施例中,“计算机”可以被理解为任何种类的逻辑实现实体,其可以是硬件、软件、固件或其任何组合。因此,在实施例中,“计算机”可以是硬连线逻辑电路或诸如可编程处理器的可编程逻辑电路,例如微处理器(例如复杂指令集计算机(cisc)处理器或精简指令集计算机(risc)处理器)。“计算机”也可以是由处理器实现或执行的软件,例如任何种类的计算机程序,例如使用诸如例如java的虚拟机代码的计算机程序。下面将更详细描述的相应功能的任何其他种类的实现也可以被理解为根据替代实施例的“计算机”。
26.在计算机视觉领域中,应用图像分类器来对图像进行分类(例如,执行语义图像分割),并且可以基于分类的图像来控制各种系统。然而,为了训练机器学习图像分类器,示出所有种类的待分类对象、分类任务等的大量图像是必要的。因此,可能有必要提供能够生成图像以训练机器学习图像分类器的生成神经网络。说明性地,生成神经网络被训练为生成用于分割图像的图像,其中生成的图像包括局部形状和结构细节。
27.图1示出了根据各种实施例的设备100。设备100可以包括一个或多个传感器102。传感器102可以被配置为提供数字图像,例如包括数字图像106的多个数字图像104。传感器102可以是能够提供数字图像的任何种类的传感器,其例如是成像传感器,诸如相机传感器
或视频传感器、雷达传感器、lidar传感器、超声波传感器、运动传感器、热传感器等。一个或多个传感器102可以包括多个传感器,所述多个传感器可以具有传感器的相同类型或不同的传感器类型。设备100可以进一步包括存储器设备108。存储器设备108可以包括存储器,该存储器例如用于由计算机实行的处理中。实施例中使用的存储器可以是:易失性存储器,例如dram(动态随机存取存储器);或者非易失性存储器,例如prom(可编程只读存储器)、eprom(可擦除prom)、eeprom(电可擦除prom)或闪存,例如浮栅存储器、电荷俘获存储器、mram(磁阻随机存取存储器)或pcram(相变随机存取存储器)。存储器设备108可以被配置为存储由一个或多个传感器102提供的多个数字图像104,诸如数字图像106。设备100可以进一步包括计算机110。计算机110包括一个或多个处理器。如上所述,计算机110可以是任何种类的逻辑实现实体。在各种实施例中,计算机110可以被配置为处理数字图像106。
28.图2a和图2b各自示出了根据各种实施例的用于生成训练数据的处理系统200。处理系统200可以包括存储器设备108。存储器设备108可以存储数字图像106。数字图像106可以包括一个或多个数字对象,诸如第一数字对象202和/或第二数字对象204。数字图像106可以包括多个像素,并且所述多个像素中的一个或多个像素可以与一个或多个数字对象202、204相关联。例如,所述多个像素中的一个或多个像素可以与第一数字对象202相关联。例如,所述多个像素中的一个或多个像素可以与第二数字对象204相关联。处理系统200可以进一步包括计算机110。计算机110可以被配置为处理数字图像106。
29.计算机110可以被配置为对数字图像106执行边缘检测206。根据各种方面,计算机110可以被配置为实现边缘检测模型(例如,边缘检测神经网络)的至少一部分。边缘检测模型可以被配置为执行边缘检测206。计算机110可以被配置为通过将边缘检测206应用于数字图像106来生成边缘图像208。边缘图像208可以包括被确定为表示数字图像106中的一个或多个数字对象202、204的边缘的多个边缘像素。例如,边缘图像208可以包括表示数字图像106中第一数字对象202的边缘的一个或多个边缘像素210。例如,边缘图像208可以包括表示数字图像106中第二数字对象204的边缘的一个或多个边缘像素212。说明性地,数字图像106示出了数字对象,并且每个数字对象可以由其边缘(例如,由其到相邻数字对象的边缘)来定义。每个数字对象的边缘可以由多个边缘像素来表示。根据各种方面,边缘图像可以包括二值图像。例如,边缘图像208可以包括多个像素,所述多个像素包括多个边缘像素和多个非边缘像素。边缘图像208中的像素数量可以等于数字图像106中的像素数量。边缘图像208可以是与第一像素值和第二像素值相关联的二值图像。说明性地,二值图像可以是黑和白的图像,并且第一像素值可以等于表示白色的“0”并且第二像素值可以等于表示“黑色”的“1”。多个边缘像素中的每一个可以具有与二值图像相关联的第一像素值,并且多个非边缘像素中的每一个可以具有与二值图像相关联的第二像素值,或者反之亦然。
30.计算机110可以被配置为从多个边缘像素中选择边缘像素,例如所选边缘像素214。例如,计算机110可以被配置为从多个边缘像素中选择一个或多个边缘像素(例如,一些,例如,全部)。计算机110可以被配置为使用统计概率分布从多个边缘像素中选择边缘像素。计算机110可以被配置为从多个边缘像素中随机地选择边缘像素。如本文使用的术语“随机”或“随机地”可以描述诸如随机和/或统计概率分布的任何种类概率分布的使用。术语“随机”或“随机地”也可以包括任何种类的随机数生成器的使用。随机数生成器可以使用任何种类的算法和/或任何种类的源(例如,系统内的物理属性)来生成随机数。从多个边缘
像素中随机选择边缘像素可以包括后续边缘像素的选择随机地独立于在先选择的边缘像素。
31.根据各种方面,可以使用数字图像106来提供分割图像218。可以使用数字图像106生成分割图像218。分割图像218可以包括表示一个或多个数字对象的一个或多个区段。分割图像218中的一个或多个区段的每个区段可以表示数字图像106中的一个或多个数字对象的对应数字对象。例如,分割图像218中的第一区段220可以表示数字图像106中的第一数字对象202。例如,分割图像218中的第二区段222可以表示数字图像106中的第二数字对象204。
32.根据一些方面,存储器设备108可以被配置为存储分割图像218(例如,参见图2a)。例如,可以使用数字图像106经由人类类别注释来提供分割图像218(例如,通过手动向数字图像106中的每个像素添加对应的类别来生成分割图像218)。根据一些方面,计算机110可以被配置为对数字图像106执行图像分割216(例如,语义图像分割),以生成分割图像218(例如,参见图2b)。计算机110可以被配置为实现图像分割模型(例如,图像分割神经网络)的至少一部分。图像分割模型可以被配置为执行分割216。计算机110可以被配置为通过将分割216应用于数字图像106来生成分割图像218(例如,语义分割图像)。
33.分割图像218可以包括多个第一像素。分割图像218中的第一像素的位置可以对应于边缘图像208中的所选边缘像素214的位置。分割图像218中的像素数量可以等于数字图像106中的像素数量。示例性边缘图像208和示例性分割图像218分别在图3a和图3b中示出。本文描述的每个图像可以包括多个像素,例如多个像素300。通过图示的方式,多个像素300的像素被示出为尺寸过大(参见图3a至图3d)。例如,如本文描述的图像可以是二维图像。像素的位置可以包括第一位置值(例如,x坐标值)和第二位置值(例如,y坐标值)。边缘图像208可以包括表示数字图像106中第一数字对象202的边缘的一个或多个边缘像素210。关于图3a,所选边缘像素214可以包括从表示数字图像106中的第一数字对象202的边缘的一个或多个边缘像素210中选择的第一所选边缘像素210a。例如,所选边缘像素214可以包括从表示数字图像106中的第一数字对象202的边缘的一个或多个边缘像素210中选择的第二所选边缘像素210b。边缘图像208可以包括表示数字图像106中第二数字对象204的边缘的一个或多个边缘像素212。例如,所选边缘像素214可以包括从表示数字图像106中的第二数字对象204的边缘的一个或多个边缘像素212中选择的第三所选边缘像素212a。例如,所选边缘像素214可以包括从表示数字图像106中的第二数字对象204的边缘的一个或多个边缘像素212中选择的第四所选边缘像素212b。如上所述,分割图像218可以包括多个第一像素,并且所述多个第一像素的第一像素的位置可以对应于边缘图像208中的所选边缘像素214的位置。关于图3b,分割图像218可以包括对应于从一个或多个边缘像素210中选择的第一所选边缘像素210a的第一像素310a。第一像素310a的位置可以对应于第一所选边缘像素210a的位置。例如,第一像素310a的第一位置值可以对应于第一所选边缘像素210a的第一位置值,并且第一像素310a的第二位置值可以对应于第一所选边缘像素210a的第二位置值。说明性地,第一像素310a的x坐标可以等于第一所选边缘像素210a的x坐标,并且第一像素310a的y坐标可以等于第一所选边缘像素210a的y坐标。分割图像218可以包括对应于从一个或多个边缘像素210中选择的第二所选边缘像素210b的第二像素310b。第二像素310b的位置可以对应于第二所选边缘像素210b的位置。例如,第二像素310b的第一位置值可以对
应于第二所选边缘像素210b的第一位置值,并且第二像素310b的第二位置值可以对应于第二所选边缘像素210b的第二位置值。说明性地,第二像素310b的x坐标可以等于第二所选边缘像素210b的x坐标,并且第二像素310b的y坐标可以等于第二所选边缘像素210b的y坐标。分割图像218可以包括对应于从一个或多个边缘像素212中选择的第三所选边缘像素212a的第三像素312a。第三像素312a的位置可以对应于第三所选边缘像素212a的位置。例如,第三像素312a的第一位置值可以对应于第三所选边缘像素212a的第一位置值,并且第三像素312a的第二位置值可以对应于第三所选边缘像素212a的第二位置值。分割图像218可以包括对应于从一个或多个边缘像素212中选择的第四所选边缘像素212b的第四像素312b。第四像素312b的位置可以对应于第四所选边缘像素212b的位置。
34.关于图2a和图2b,计算机110可以被配置为针对分割图像218中的每个第一像素选择一个或多个第二像素。计算机110可以被配置为针对第一像素随机地选择所选的第二像素228。计算机110可以被配置为通过向第一像素的位置添加位移来确定第二像素的位置,从而针对第一像素选择第二像素。例如,计算机110可以被配置为将位移添加到第一像素的位置,以例如使用概率分布随机地确定第二像素的位置。
35.计算机110可以被配置为针对第一像素中的每个第一像素选择一个或多个所选的第二像素。计算机110可以被配置为使用像素选择操作针对所述第一像素中的第一像素选择所选像素228中的所选第二像素。像素选择操作可以应用于所述第一像素中的第一像素。像素选择操作可以包括随机地确定第一值。第一值可以在第一预定义范围内随机地确定。可以使用第一概率分布(例如,均匀概率分布)随机地确定第一值。像素选择操作可以包括随机地确定第二值。第二值可以在第一预定义范围内随机地确定。第二值可以在第二预定义范围内随机地确定。可以使用第一概率随机地确定第二值。可以使用第二概率分布(例如,均匀概率分布)随机地确定第二值。应用于第一像素的像素选择操作可以包括将第一值添加到第一像素的第一位置值(例如添加到x坐标),以确定第二像素的第一位置值(例如,x坐标)。像素选择操作可以包括将第二值添加到第一像素的第二位置值(例如添加到y坐标),以确定第二像素的第二位置值(例如,y坐标)。说明性地,通过将第一值随机地添加到第一像素的x坐标,并通过将第二值随机地添加到第一像素的y坐标,为第一像素确定所选第二像素。例如,关于图3c,计算机110可以对分割图像218中的第一像素310a应用像素选择操作,并且可以使用像素选择操作来确定等于
“‑
1”的第一值和等于“1”的第二值。因此,所选第二像素228中的所选第二像素302a相对于第一像素310a的位置可以具有
“‑
1,1”的位置(例如,负x坐标方向上的一个像素和正y坐标方向上的一个像素);说明性地,所选第二像素302a可以是第一像素310a左侧的一个像素位置和第一像素310a上方的一个像素位置。例如,计算机110可以在第一像素310a上第二次应用像素选择操作,并且可以使用像素选择操作来确定等于“2”的第一值和等于
“‑
1”的第二值。因此,所选第二像素302b相对于第一像素310a的位置可以具有“2,-1”的位置;说明性地,所选第二像素302b可以是第一像素310a右侧(例如,在正x坐标方向上)的两个像素位置和第一像素310a下方(例如,在负y坐标方向上)的一个像素位置。
36.关于图2a和图2b,计算机110可以被配置为对分割图像218执行二维失真230。二维失真230可以应用于分割图像218中的每个像素。计算机110可以被配置为使用应用于分割图像218中的像素的二维失真230来生成失真分割图像232。二维失真230可以使用第一像素
和所选第二像素228来确定失真分割图像232中每个像素的对应像素值。失真分割图像232中的像素数量可以等于分割图像218中的像素数量。图3d示出了根据各种实施例的示例性失真分割图像232。计算机110可以被配置为生成分割图像218的失真分割图像232。
37.计算机110可以被配置为使用分割图像218中的第一像素和所选第二像素228将二维失真230应用于分割图像218中的每个像素。说明性地,计算机110可以对分割图像218中的每个像素(例如,包括第一像素和所选第二像素228)执行二维失真230。
38.二维失真230可以包括变换函数t。变换函数可以应用于分割图像s(例如,分割图像218中的每个像素),并且可以由等式(1)描述:其中是失真分割图像。
39.二维失真230可以包括薄板样条变换。薄板样条变换可以应用于分割图像218中的像素,以生成失真分割图像232。薄板样条变换可以对分割图像218中的第一像素和所选第二像素228进行变换,以确定失真分割图像232中每个像素的对应像素值。
40.说明性地,用于确定所选第二像素228的第一预定义范围和/或第二预定义范围可以经由薄板样条变换来确定像素移位的程度(例如,分割图像218中的像素被移位的量)。薄板样条变换可以使用固定像素和移动像素来确定失真分割图像232中每个像素的对应像素值。例如,第一像素可以用作固定像素,并且所选第二像素228可以用作移动像素。薄板样条变换可以最小化所选第二像素228和第一像素的弯曲能量函数。例如,可以通过移位分割图像218中的像素(例如,通过确定每个像素的像素移位)来最小化弯曲能量函数。像素移位可以与将像素的像素值移位到确定的移位位置相关联。针对像素确定的像素移位可以描述相对于该像素的像素位置(例如,x坐标值和y坐标值),并且在该像素位置处的像素的像素值可以改变为该像素的像素值。说明性地,像素的像素值可以移位到在确定的像素位置处的像素。说明性地,二维失真230(例如,薄板样条变换)可以基于第一像素和使用像素选择操作针对第一像素选择的所选第二像素228来失真(例如,扭曲)分割图像218。图3e示出了根据各种实施例的使用薄板样条变换确定的示例性分割图像和对应的失真分割图像。例如,对分割图像350a应用薄板样条变换可以生成失真分割图像350b,并且对分割图像360a应用薄板样条变换可以生成失真分割图像360b。失真分割图像350b和失真分割图像360b中的框355被包括在内,以突出显示在相应失真分割图像中示出的失真区段。
41.图2c和图2d各自示出了根据各种实施例的用于训练生成神经网络234的处理系统200。计算机110可以进一步被配置为实现生成神经网络234的至少一部分。计算机110可以被配置为使用失真分割图像232作为输入图像来训练生成神经网络234,以估计数字图像。例如,生成神经网络234可以被配置为响应于输入分割图像来估计数字图像。根据各种方面,生成神经网络234可以被配置为响应于输入失真分割图像来估计数字图像。估计的数字图像可以是合成图像。说明性地,生成神经网络234试图从失真分割图像232重建数字图像106。
42.关于图2d,生成神经网络234可以被配置为响应于输入失真分割图像234来生成合成图像236。例如,合成图像236可以是基于失真分割图像232的数字图像106的重建。计算机110可以被配置为将第一损失函数应用于合成图像236和数字图像106,以确定生成损失值
238。第一损失函数可以是均方误差(mse)。根据各种方面,计算机110可以被配置为使用生成损失值238来训练生成神经网络234。生成神经网络234可以被训练来减少(例如,最小化)生成损失值238。
43.根据各种方面,计算机110可以被配置为将第二损失函数应用于合成图像236和边缘图像208,以确定边缘损失值240。计算机110可以被配置为使用生成损失值238和边缘损失值240来训练生成神经网络234。生成神经网络234可以被训练来减少生成损失值238和边缘损失值240。例如,计算机110可以被配置为对合成图像236执行边缘检测206,以生成合成边缘图像。合成边缘图像可以包括多个边缘像素,所述多个边缘像素被确定为表示合成图像236中所示的一个或多个数字对象的边缘。
44.用于确定边缘损失值240的第二损失函数可以是边缘图像208和合成图像236之间的l2差,并且可以由等式(2)描述:其中g是生成合成图像的生成神经网络234,其用于(例如使用分割图像s生成的)失真分割图像,并且e是应用于数字图像x以生成边缘图像208 并且应用于合成图像以生成边缘图像的边缘检测206(例如,边缘检测神经网络)。第二损失函数可以用于确定边缘损失值240 。
45.根据各种方面,计算机110可以被配置为实现鉴别性神经网络的至少一部分。鉴别性神经网络可以被配置为确定合成图像236是现实图像的第一概率。现实图像可以与传感器检测到的图像相关联,如本文关于数字图像106所述。现实图像可以与由模拟模型模拟的图像相关联。例如,图像可以是检测到的图像,或者可以是由任何种类的机器学习图像生成器生成的合成图像。说明性地,第一概率可以是合成图像236不是例如由机器学习图像生成器生成的合成图像的概率。生成神经网络238可以被训练成增加(例如,最大化)第一概率(例如,第一概率值)。(例如,如在生成对抗网络中使用的)鉴别性神经网络可以确定输入的图像是现实图像还是假图像。假图像可以是由机器学习图像生成器生成的合成图像。现实图像可以是不由机器学习图像生成器生成的图像。例如,鉴别性神经网络可能已经使用被标记为现实图像的多个数字图像和被标记为假图像的多个数字图像来训练,并且可以被配置为响应于输入图像来确定图像是现实图像(例如,被分类为现实图像)的概率和/或图像是假图像(例如,被分类为假图像)的概率。
46.生成神经网络238和鉴别性神经网络可以是生成对抗网络(gan)的一部分或者可以形成生成对抗网络(gan)。
47.鉴别性神经网络可以被配置为确定数字图像是现实图像的第二概率。计算机110可以被配置为使用(例如由第一概率值给出的)第一概率和(例如由第二概率值给出的)第二概率来训练鉴别性神经网络。
48.根据各种方面,可以使用最小最大(minimax)损失函数来训练gan(例如,包括生成神经网络238和鉴别性神经网络)。用于确定生成损失值240的第一损失函数可以由等式(3)描述:
其中d是确定合成图像是现实图像的第一概率的鉴别性神经网络。
49.根据各种方面,第三损失函数可以用于确定生成损失值240,并且可以包括第一损失函数和第二损失函数,并且可以由等式(4)描述:其中是边缘损失权重值。
50.可以使用第四损失函数来训练鉴别性神经网络。第四损失函数可以由等式(5)描述:。
51.图4示出了根据各种实施例的训练生成神经网络的方法400。方法400可以包括使用应用于数字图像的边缘检测来生成边缘图像(在402中)。数字图像可以包括一个或多个数字对象。边缘图像可以包括被确定为表示数字图像中的一个或多个数字对象的边缘的多个边缘像素。
52.方法400可以包括从多个边缘像素中选择边缘像素(在404中)。
53.方法400可以包括使用应用于数字图像的分割来生成分割图像(在406中)。分割图像可以包括表示一个或多个数字对象的一个或多个区段。分割图像可以包括多个第一像素。分割图像中第一像素的位置可以对应于边缘图像中所选边缘像素的位置。
54.方法400可以包括针对分割图像中的每个第一像素选择一个或多个第二像素(在408中)。
55.方法400可以包括生成失真分割图像(在410中)。可以使用应用于分割图像的二维失真来生成失真分割图像。二维失真可以使用分割图像中的第一像素和第二像素来确定失真分割图像中的每个像素的像素值。
56.方法400可以包括使用失真分割图像作为输入图像来训练生成神经网络,以估计数字图像(在412中)。
57.方法400可以进一步包括使用应用于训练分割图像的训练生成神经网络来生成训练图像。
58.根据一些方面,方法400可以进一步包括使用生成的训练图像来训练图像分类器,以对训练图像进行分类(例如,参见图5a)。
59.根据一些方面,方法400可以包括使用应用于生成的训练图像的训练图像分类器来生成分类图像。方法400可以进一步包括使用生成的分类图像和训练分割图像来确定训练图像分类器的性能(例如,参见图5b)。
60.图5a示出了根据各种实施例的处理系统500a,其用于使用训练的生成神经网络504来训练图像分类器508。
61.计算机可以被配置为实现训练的生成神经网络504的至少一部分。训练的生成神经网络504可能已经使用方法400进行了训练。训练的生成神经网络504可能已经使用处理系统200进行了训练。训练的生成神经网络504可以被配置为处理训练分割图像502(例如,语义分割图像)。训练分割图像502可以包括表示对应数字图像中的一个或多个数字对象的一个或多个区段。训练的生成神经网络504可以被配置为响应于输入训练分割图像502来估
计数字图像。例如,训练的生成神经网络504可以被配置为使用训练分割图像502生成合成图像506。合成图像506可以包括与训练分割图像502中的一个或多个区段相关联的一个或多个数字对象。
62.计算机可以被配置为实现图像分类器508的至少一部分。如本文描述的图像分类器可以是能够对数字图像中示出的对象进行分类并且使用数字图像被训练的任何种类的算法,诸如机器学习分类器(例如,神经网络,例如,分割模型)。图像分类器508可以被配置为处理合成图像506。图像分类器508可以被配置为对合成图像506进行分类。图像分类器508可以被配置为使用合成图像506生成分类图像510。分类图像510可以包括与合成图像506中的一个或多个对象中的每个对象相关联的类别。例如,分类图像510可以是合成图像506的语义分割。
63.根据各种方面,计算机可以被配置为将损失函数应用于训练分割图像502和分类图像510,以确定损失值512。计算机可以进一步被配置为使用损失值512来训练图像分类器508。计算机可以被配置为训练图像分类器508,使得损失值512被减少(例如,最小化)。
64.说明性地,训练的生成神经网络504被用于使用训练分割图像生成一个或多个训练图像,并且可以使用训练图像和训练分割图像作为训练数据来训练图像分类器508。
65.图5b示出了根据各种实施例的处理系统500b,其用于使用训练的生成神经网络504测试训练的图像分类器514。
66.处理系统500b可以包括训练的生成神经网络504。处理系统500b可以包括被配置为实现训练的生成神经网络504的至少一部分的计算机。训练的生成神经网络504可以针对训练分割图像502生成合成图像506。
67.计算机可以被配置为实现训练图像分类器514的至少一部分。训练图像分类器514可以被配置为生成合成图像506的分类图像516。训练图像分类器514可以被配置为响应于输入合成图像506而生成分类图像516。
68.计算机可以进一步被配置为使用生成的分类图像518和训练分割图像502来确定训练图像分类器514的性能518。根据各种方面,损失函数可以应用于生成的分类图像518和训练分割图像502,以确定损失值。损失值越低,训练图像分类器514的性能518可能越高。例如,训练图像分类器514的性能518可以随着正在减小的损失值而增加。
69.说明性地,训练的生成神经网络504被用于使用训练分割图像生成一个或多个训练图像,并且可以使用生成的训练图像和训练分割图像作为测试数据来测试训练图像分类器508。
70.根据各种方面,可以使用合成图像506来验证训练图像分类器514。
71.训练的生成神经网络504可以用于生成的合成图像以训练图像分类器(例如,参见图5a)或测试图像分类器(例如,参见图5b)。在其中收集数字图像(例如,通过使用一个或多个传感器获取数字图像)被禁止(例如,由于隐私原因)或具有挑战性(例如,由于极端情况)的情况下,通过生成用于分割图像的合成图像的数据扩增可以允许图像的使用(例如用于训练目的,例如用于测试目的)。
72.例如,由于隐私原因被禁止的数字图像(例如,示出人和/或其他机密信息的数字图像)可以由分割模型处理以生成分割图像,并且生成的分割图像可以被输入到训练的生成神经网络504以生成合成图像。说明性地,针对数字图像生成合成图像,使得数字图像中
所示的人在合成图像中不可识别。说明性地,合成图像是数字图像的匿名版本。
73.例如,可能难以收集到示出极端情况的数字图像,所述极端情况诸如是接近事故的驾驶场景和/或诸如野生动物的稀有对象。根据各种方面,可以生成包括各种极端情况的分割(例如,语义分割)和/或包括与稀有对象相关联的分割的分割图像。训练的生成神经网络504可以针对生成的分割图像生成合成图像。说明性地,生成示出极端情况和/或稀有对象的合成图像。
74.可以使用包括多个图像的训练数据集来训练图像分类器。多个图像中的每个图像可以包括一个或多个数字对象。然而,一些数字对象可以在多个图像中的大量图像中被示出,并且一些数字对象可以仅在少数图像中被示出。在多个图像上训练的图像分类器可以具有朝向以大量示出的数字对象的固有偏置。使用示出了仅在少数图像(例如,稀有类别)中存在的数字对象的合成图像来训练图像分类器可以减轻训练的图像分类器的固有偏置。这可以具有改进训练图像的一般化的效果。说明性地,通过将仅在少数图像中存在的数字对象示出给训练数据集的合成图像包括在内,训练数据集可以是平衡的。
75.根据各种方面,训练的生成神经网络504可以用于生成用于分割图像的多个合成图像,以放大用于训练图像分类器的数据集。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献