一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

用于图像分类器训练的数据扩充的制作方法

2022-11-30 06:38:14 来源:中国专利 TAG:

1.本发明涉及图像的自动生成,该图像尤其可以用于扩充图像分类器的训练数据集。


背景技术:

2.当车辆被操控穿过交通时,对车辆环境的光学观察是对于规划车辆下一步动作所需的信息的最重要来源。这适用于人类驾驶员以及用于至少部分自动驾驶的系统。后一种系统通常采用经训练的图像分类器,这些图像分类器将图像映射到关于它们包含哪些类型的对象的分类分数。
3.产品的几何形状和/或表面的光学检查是图像分类器的另一个重要应用领域。基于结果,产品可以被分配到一个或多个预定的质量类。在最简单的情况下,这是“ok”/“不ok = nok”形式的二元分类。
4.图像分类器通常在标注有“基本真值(ground truth)”分类分数的训练图像上进行训练。训练的目的是图像分类器将训练图像映射到它们各自的“基本真值”分类分数。如果用具有足够可变性的足够大的训练图像集来执行训练,则可以预期图像分类器也正确地分类未看见的图像。训练图像的获得是训练过程最昂贵的部分。特别地,训练图像的标注是昂贵的,因为它频繁地涉及手动工作。


技术实现要素:

5.本发明提供了一种用于从输入图像x生成输出图像xg的方法,给定的图像分类器将该输出图像xg分类为从给定分类的多个可用类中选择的目标类c’。
6.在该方法的过程中,输入图像x通过经训练的编码器网络被映射到潜在空间中的较低维度表示z。例如,该潜在空间可以由编码器网络的训练结合要重构原始输入图像x的解码器的训练来定义。这样的编码器-解码器结构被称为“自动编码器”。在本发明的上下文中可以有利地使用的一种类型的自动编码器是变分自动编码器vae。潜在空间可以理解为任意维数的笛卡尔空间的子流形。由于该属性,通过在输入图像x的空间中取得样本并借助于编码器网络将其转换成样本z来从该潜在空间获得样本z通常比直接找到属于潜在空间的样本z更容易。因为表示z的维数低于输入图像x(及其重构)的维数,所以当计算表示并且然后重构原始输入图像时,迫使信息通过“瓶颈”。该瓶颈迫使编码器仅将对重构原始图像x最重要的信息编码到表示z中。
7.噪声样本n是从给定的分布中采样的。借助于经训练的生成器网络,该噪声样本n被映射到输出图像xg。该映射以目标类c’和表示z两者为条件。
8.已知生成器网络(诸如生成性对抗网络gan的生成器部分)产生属于期望域的图像,并且因此在属于该域的其他图像的上下文中是“逼真的”。进一步使输出图像xg的生成以某个给定的量或属性“为条件”意味着优选或甚至强制xg与给定的量或属性相符。因此,以目标类c’为条件优选或强制属于目标类c’的目标图像xg。以表示z为条件优选或强制链
接到表示z的输出图像xg。特别地,以表示z为条件可以包括经训练的生成器网络产生输出图像xg,经训练的编码器网络将该输出图像xg映射到表示z。也就是说,输出图像xg优选或甚至强制为经训练的编码器网络映射到尽可能接近z的表示zg的图像。
9.以表示z为条件具有如下效果,即当从同一个输入图像x产生大量输出图像xg时,它们将都具有类c’,并且它们的最具特性内容——其对于从图像的表示z重构图像是最重要的——将非常相似。但是,允许不是该最具特性内容的部分的所有图像信息变化。也就是说,利用噪声样本n的随机性来选择性地在图像xg的包含相对于目标类c’和任何其他类之间的任何判定边界不太重要的特征的部分中产生可变性。
10.生成器可以采用任何合适的方法,以便鼓励或强制输出图像xg被映射到尽可能接近条件z的表示zg。例如,生成器可以创建多个候选图像,将每个候选图像映射到表示,并选择其表示zg最接近z的候选图像作为输出图像xg。
11.这使得输出图像xg作为图像分类器的训练图像特别有用。在训练期间,图像分类器可以学习类和实际上与类成员无关的不重要图像特征之间的混淆相关性。例如,如果图像分类器被训练成将求职者的图像映射到特定技能,并且训练图像中的一些人穿着显眼的肩垫,则图像分类器可以至少部分地学习容易发现的肩垫和技能之间的相关性,而不是难以发现的面部特征和技能之间的所寻求的相关性。在用生成的输出图像xg丰富的训练数据集中,这样的混淆相关性有可能被打破。生成器或多或少将随机给每个人各种大小和形状的肩垫或者根本没有肩垫,而与技能水平没有任何相关性。为了通过分类损失函数实现良好的评级,分类器别无选择,只能学习面部特征和技能之间的相关性。
12.交通场景中对象的分类是另一个重要的用例,其中可以学习混淆相关性。除了与交通相关的对象之外,捕获的场景通常包含许多与评测交通情形无关的其他信息。例如,如果特定类型的商店和停车标志两者在交叉路口处比在其他路段中更有可能被发现,则图像分类器可以将属于商店的图像信息与停车标志的语义相关联。这可能引起在没有这种类型商店的地方中出现的停车标志被分类为具有较低置信度分数的停车标志,或者甚至被错误分类为其他东西。但是在大的生成输出图像xg集中,任何交通标志都将与各种各样不同的背景结合出现,因此混淆相关性将被打破。
13.此外,生成任意类的图像的可能性允许在如下意义上减轻类不平衡,即具有一些基本真值类标注的图像在训练图像集中表示不足。例如,警告驾驶员不安全的平交道口或河岸的标志远不如停车标志、让行标志或限速标志出现得频繁。但是这些标志出现的频率和它们的重要性并不相关。错过限速标志的检测有可能比不在河岸处停车或在不安全的平交道口处不注意迎面而来的列车要具有小得多的危险后果。利用本方法,可以用包含所提到的罕见但重要的交通标志的许多训练图像来扩充训练图像集。
14.图像分类器的训练可以从输入图像x和生成图像xg的组合集中选择子集,该子集在基本真值类标注c(分别为目标类c’)方面和在潜在表示z(分别为zg)方面均具有目标可变性量。测量在潜在表示z、zg方面的多样性的一种示例性方式是,对于每个表示z、zg,测量输入图像x分别与生成图像xg的所有其他表示z、zg的距离,并聚集结果。这样的对多样性的测量关系到经训练的编码器。在不同的编码器或不同地训练的编码器的情况下,z、zg所属的潜在空间的整个结构将是不同的。
15.最后,从具有大可变性的大池中仅选择训练图像的子集可能比使用具有某种明显
偏差的完整训练图像集产生更好的分类准确度。这背离通常的观念,即具有更多的训练数据总是比具有更少的训练数据好。
16.在另外的有利实施例中,在将噪声样本n映射到输出图像xg的过程中,输出图像xg可以被给定的图像分类器映射到分类分数c#。借助于给定的分类损失函数,确定分类分数c#与输出图像xg到目标类c’的分类多么好地相符。到生成器网络的至少一个输入被优化,使得基于改变的输入的输出图像xg的重新计算有可能引起分类损失函数值改进。以这种方式,输出图像xg的生成可以被微调,使得它更明确地被分类到目标类c’中。
17.在另外的特别有利的实施例中,输入图像x被选择为具有源类,从而使得输出图像xg成为输入图像x的反事实图像。这样的反事实图像对于研究接近类之间的判定边界的图像分类器的行为极其有用。
18.在特别有利的实施例中,将反事实图像xg与输入图像x进行比较。其中反事实图像xg不同于输入图像x的区域被确定为相对于源类c和目标类c’之间的类边界而言有意义的区域。然后可以确定这些区域是否实际包含与手边的应用相关的信息。
19.例如,在对产品进行光学检查期间由图像分类器输出的分类分数不是非常可信——如果证明该决策是基于与产品本身无关的图像背景中的一些特征的话。同样,如果改变商店橱窗显示中的一些特征引起该商店橱窗前面的道路上的交通情形被不同地分类,则有理由怀疑该分类器是否真的适合于正确地评测交通情形。图像分类器的这样的行为有点类似于购买产品a而不是类似的产品b,唯一的原因是代表产品b的销售比代表产品a的销售高。
20.此外,特别是对于交通情形的评测,知道图像分类器使其决策基于对象的哪些部分来识别该对象的存在是非常重要的。在许多交通情形中,对象被其他对象部分遮挡,但是仍然需要被识别。例如,即使八角形的停车标志被雪覆盖,驾驶员以及还有自动化车辆仍然被预期识别它并相应地表现。此外,对将要穿过车辆轨迹的行人的及时检测关键取决于行人的哪些部分需要可见才使行人被识别。当行人被停放的汽车或其他障碍物完全或部分遮挡并突然步入车辆的路径中时,出现许多危险情形。如果图像分类器在其识别行人之前需要至少头部和两条腿为可见的并且腿被遮挡较长时间,则行人可能不会被识别,直到太晚而无法避免碰撞。相比之下,如果头部、躯干或手臂的出现已经足以检测行人,则为避免碰撞赢得了更多得多的宝贵时间。
21.因此,在另外的特别有利的实施例中,通过给定度量来确定相对于类边界而言有意义的区域与输入图像x的包含被认为显著的输入图像特征的给定区域多么好地相符。与由所述给定度量输出的结果相称的分数被归属于图像分类器。例如,当对大量生产的产品进行光学检查时,产品和相机将总是相对于彼此处于相同的空间布置中。因此,预先已知的是获取的图像的哪些部分将属于产品。同样,在交通情形中,已知的是天空不包含汽车需要对其做出反应的其他车辆。
22.特别地,在光学检查的用例中,该度量可以测量相对于将产品分类为“不ok=nok”类或任何其他非最佳类而言有意义的区域是否对应于具有具体缺陷或不足的区域。这使得自动化光学检查与手动检查相一致,在手动检查中,质量检查员在被询问为什么要丢弃具体产品时被预期指出特定的缺陷或不足。
23.归属于图像分类器的分数可以用作反馈来改进图像分类器。因此,在另外的有利
实施例中,表征图像分类器的行为的参数被优化,使得当反事实图像xg的计算和该反事实图像xg的后续评估被重复并且图像分类器的分数被重新计算时,该分数有可能改进。
24.这种情况的一个用例是对图像分类器的特定应用的进一步训练,该图像分类器先前已经以更通用的方式被预训练。例如,图像分类器可以被一般地训练来检测某些缺陷或不足,但是在具体应用中,它可以被进一步训练来寻找属于实际产品而不属于背景的正确位置。
25.如之前所讨论的,输入图像x可以是在产品的光学检查过程中已经获取的制造产品的图像,并且给定分类的类表示产品的质量等级。在另一个示例中,输入图像x可以是交通情形的图像,并且给定分类的类可以表示与交通情形的解释相关的对象。
26.本发明还提供了一种用于训练编码器网络和生成器网络的组合的方法,以用于前述方法中。
27.在该训练方法的过程中,提供了解码器网络。该解码器网络被配置为将从编码器网络已经获得的潜在空间中的较低维度表示z映射到原始输入图像x的域中的重构图像xd。然后,以重构图像xd与从中获得表示z的原始输入图像x相匹配为目的,优化表征编码器和解码器网络的行为的参数。如之前所讨论的,编码器网络和解码器网络然后形成具有信息瓶颈的自动编码器,这导致最重要的图像特征集中在表示z中。
28.此外,提供了鉴别器网络。该鉴别器网络被配置为区分图像是来自原始输入图像x的域还是来自生成图像xf的域。此外,提供了图像分类器。该图像分类器被配置为将原始输入图像x和生成图像xf映射到给定分类的一个或多个类。生成图像也被称为“伪”图像。
29.生成器网络和鉴别器网络是对抗训练的。例如,训练可以在生成器网络的训练和鉴别器网络的训练之间交替。
30.以如下各项为目的优化表征生成器网络行为的参数:
•ꢀ
鉴别器网络在原始输入图像x和生成图像xf之间进行区分的准确度降低,
•ꢀ
图像分类器将伪(即生成的)图像xf映射到它们给定的目标类c,并且
•ꢀ
编码器网络1将生成图像xf映射到它们的生成以之为条件的表示z。
31.另一方面,以增加鉴别器网络在原始输入图像x和伪图像xf之间进行区分的准确度为目的,优化表征鉴别器行为的参数。
32.例如,该对抗训练可以通过优化损失函数来实现,该损失函数包括
•ꢀ
对抗损失,其测量鉴别器网络在原始输入图像x和生成图像xf之间进行区分的准确度,
•ꢀ
分类损失,其测量图像分类器多么好地将生成图像xf映射到它们的给定目标类c’。例如,该分类损失可以是交叉熵损失,以及
•ꢀ
表示损失,其测量生成图像xf映射到的表示z’与该图像xf的生成以之为条件的表示z多么相似。
33.对抗训练的总体目的是最小化该组合损失函数。本文中,分类损失仅取决于表征生成器网络行为的参数。但是对抗损失附加地取决于表征鉴别器网络行为的参数。可以优化生成器参数以最小化对抗损失,并且同时可以优化鉴别器参数以最大化对抗损失,或者反之亦然。
34.在对抗训练已经完成之后,在上述用于生成输出图像xg的方法中,可以使用编码
器网络和生成器网络的组合来产生生成图像xf,该生成图像xf可以用作所寻求的输出图像xg。
35.对抗训练可以在自动编码器的所述训练之后执行。也就是说,在自动编码器已经被训练之后,编码器网络和解码器网络的参数可以保持固定。但是自动编码器的训练和对抗训练也可以组合成一个单个训练过程。在这种情况下,也可能的是使用相同的网络作为解码器网络和生成器网络。也就是说,可以为解码器目标和为生成器目标训练同一个网络。以这种方式,当解码器网络在训练之后被移除时,进入解码器网络的训练努力不会“丢失”。而是,该努力仍然存在于生成器网络中。
36.在另外的有利实施例中,表征编码器网络行为的参数朝着原始输入图像x和它的表示z之间的互信息最大化的目的被附加地优化。这确保了表示z保留输入图像的一些重要属性,使得它们可以被携带到生成图像xf。这避免了编码器网络和解码器网络以表示z与输入图像x几乎没有或没有可见相关性为代价实现原始输入图像x的非常好的重构的情形。
37.替代地或组合地,表征生成器网络行为的参数朝着伪图像xf和表示z之间的互信息最大化的目的被附加地优化。这引起来自原始输入图像x的被携带到表示z的属性移动到生成图像xf上。特别地,这样的属性可以是图像所属的类没有捕获到的特征。这的示例是图像样式属性、诸如线条粗度或颜色,其跨所有类而存在,而不是关系到特定类。
38.在另外的有利实施例中,图像分类器包括可训练网络,该网络被配置为将输入图像x和生成图像xf映射到潜在空间中的较低维度表示z和分类分数c#的组合。以如下各项为目的优化表征该可训练网络的行为的参数:
•ꢀ
图像分类器将原始输入图像x映射到以下各项的组合:对应于由编码器网络产生的表示z的表示z,以及与输入图像x的基本真值标注c一致的分类分数c#;和
•ꢀ
图像分类器将生成图像xf映射到以下各项的组合:对应于图像xf的生成以之为条件的表示z的表示z;以及与为其生成所生成图像xf的目标类c’一致的分类分数c#。
39.以这种方式,图像分类器不仅提供关于生成图像xf的类的反馈。而是,它还用来监视表示z的潜在空间中的自我一致性。
40.上述方法可以全部或部分地是计算机实现的,并且因此以软件来体现。因此,本发明还涉及一种包括机器可读指令的计算机程序,所述机器可读指令当由一个或多个计算机执行时,引起一个或多个计算机执行上述方法。在这方面,可以运行可执行程序代码的车辆和其他嵌入式系统的控制单元也应理解为计算机。非暂时性存储介质和/或下载产品可以包括计算机程序。下载产品是一种电子产品,其可以在线销售并通过网络传输,以便立即履行。一个或多个计算机可以配备有所述计算机程序,和/或所述非暂时性存储介质和/或下载产品。
附图说明
41.在下文中,使用各图来说明本发明及其优选实施例,而没有任何限制本发明范围的意图。
42.各图示出了:图1 用于生成输出图像xg的方法100的示例性实施例;图2 用于训练编码器网络1和生成器网络2的组合的方法200的示例性实施例;
图3 用于执行方法200的配置的示例性实施例。
具体实施方式
43.图1是用于从输入图像x生成输出图像xg的方法100的实施例的示意性流程图,给定图像分类器3将该输出图像xg分类为从给定分类的多个可用类中选择的目标类c’。在图1中所示的示例中,在步骤105中,输入图像x被选择为具有源类,从而使得输出图像xg成为输入图像x的反事实图像。但是如之前所讨论的,该方法也可以用于基于源类c的输入图像x产生相同源类c的输出图像xg,以便例如为图像分类器3扩充训练图像集。
44.在步骤110中,经训练的编码器网络1将输入图像x映射到潜在空间中的较低维度表示z。在步骤115中,从给定的分布中抽取噪声样本n。在步骤120中,经训练的生成器网络2将该噪声样本n映射到输出图像xg。该映射以目标类c’和表示z两者为条件。特别地,这种以表示z为条件可以包括,经训练的生成器网络2产生输出图像xg,经训练的编码器网络1将该输出图像xg映射到表示z。也就是说,经训练的编码器网络1将输出图像xg映射到的表示zg应尽可能接近z。
45.具体地,最终输出图像xg可以通过优化过程获得。根据块121,初始输出图像xg可以由给定的图像分类器3映射到分类分数c#。借助于给定的分类损失函数lc,然后根据块122可以确定分类分数c#与输出图像xg到目标类c’的分类多么好地相符。根据块123,到生成器网络2的至少一个输入然后可以被优化,使得基于改变的输入对输出图像xg的重新计算有可能引起分类损失函数lc的值改进。
46.如果输出图像xg是反事实图像,则这可以在步骤130中与输入图像x进行比较。在步骤140中,其中反事实图像xg不同于输入图像x的区域然后被确定为相对于源类c和目标类c’之间的类边界而言有意义的区域s。
47.在步骤150中,确定这些区域s与输入图像x的给定区域s*多么好地相符,该给定区域s*包含输入图像x的被认为显著的特征。在步骤160中,与由所述给定度量4输出的结果4a相称的分数3a被归属于图像分类器3。
48.在步骤170中,对表征给定图像分类器3的行为的参数(3b)进行优化,使得当重复步骤120中对反事实图像xg的计算以及在步骤130至160中对该反事实图像xg的后续评估时,图像分类器3的分数3a有可能改进。参数3b的最终优化状态用参考标记3b*标注。
49.图2是方法200的实施例的示意性流程图,该方法200用于训练编码器网络1和生成器网络2的组合,以在前述方法100中使用。
50.在步骤210中,提供解码器网络5。该解码器网络5被配置为将已经从编码器网络1获得的潜在空间中的较低维度表示z映射到原始输入图像x的域中的重构图像xd。在步骤220中,以重构图像xd匹配从其获得表示z的原始输入图像x为目的,优化表征编码器1和解码器5网络的行为的参数1a、5a。以这种方式,编码器1和解码器5被训练成为(变分)自动编码器,(v)ae。参数1a和5a的最终优化状态分别用参考标记1a*和5a*标注。根据块221,优化的附加目的可以是原始输入图像x及其表示z之间的互信息最大化。
51.该图像分类器3可以是固定的,并且照原样使用。但是在图2中所示的实施例中,图像分类器3也被训练。根据块241,图像分类器3可以包括可训练网络,其被配置为将输入图像x和生成图像xf映射到潜在空间中的较低维度表示z和分类分数c#的组合。根据块242,以
如下各项为目的优化表征该可训练网络的行为的参数3b:
•ꢀ
图像分类器3将原始输入图像x映射到以下各项的组合:对应于由编码器网络1产生的表示z的表示z,以及与输入图像x的基本真值标注c一致的分类分数c#;和
•ꢀ
图像分类器3将伪图像xf映射到以下各项的组合:对应于伪图像xf的生成以之为条件的表示z的表示z;以及与为其生成图像xf的目标类c一致的分类分数c#。
52.参数3b的最终优化状态用参考标记3b*标注。
53.在步骤250中,以如下各项为目的优化表征生成器网络2的行为的参数2a:
•ꢀ
鉴别器网络5在原始输入图像x和伪图像xf之间进行区分的准确度降低,
•ꢀ
图像分类器3将生成图像xf映射到它们的给定目标类c,以及
•ꢀ
编码器网络1将生成图像xf映射到它们的生成以之为条件的表示z。
54.根据块251,进一步的优化目的可以是最大化图像xf和表示z之间的互信息。参数2a的最终优化状态用参考标记2a*标注。
55.同时,在步骤260中,表征鉴别器网络6的行为的参数6a以增加鉴别器网络6在原始输入图像x和生成图像xf之间进行区分的准确度为目的。参数6a的最终优化状态用参考标记6a*标注。
56.也就是说,生成器网络2的训练250和鉴别器网络6的训练260以对抗的方式执行。
57.图3示出了可以用于执行上述训练方法200的示例性配置。编码器网络1和解码器网络5形成(变分)自动编码器,(v)ae。生成器网络2和鉴别器网络6形成生成性对抗网络gan。鉴别器网络6为输入到它的每个图像输出分类——即该图像是在原始输入图像x的域中还是它是伪图像xg。在图3中所示的实施例中,图像分类器3不仅用于预测分类分数c#,而且还用于预测分别对应于原始输入图像x或生成图像xg的较低维度表示z。因此,它可以被视为gan的一部分。编码器网络1和生成器网络2形成设备10,用于从作为图像源分布的一部分的源图像x生成作为来自相同源分布的不同样本的目标图像xg。
58.利用由图像分类器3输出的分类分数c#,可以监控伪图像xg多么好地符合其生成的条件——即应属于类c’。当伪图像xg被输入到经训练的编码器1时,可以监控所得到的表示zg多么好地符合xg生成的条件——即zg应尽可能地与z相似。
再多了解一些

本文用于创业者技术爱好者查询,仅供学习研究,如用于商业用途,请联系技术所有人。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献