一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

用于合成用于在包括偏振图像的不同成像模态下训练统计模型的数据的系统和方法与流程

2022-12-03 07:14:52 来源:中国专利 TAG:

用于合成用于在包括偏振图像的不同成像模态下训练统计模型的数据的系统和方法
1.相关申请的交叉引用
2.本技术要求于2020年1月30日在美国专利商标局提交的美国临时专利申请no.62/968,038的优先权与权益,该美国临时专利申请的全部公开内容通过引用并入本文。
技术领域
3.本公开的实施例的各方面涉及机器学习技术,特别是用于训练机器学习模型的数据的合成或生成。


背景技术:

4.通常使用大量的数据来训练统计模型(诸如机器学习模型)。在计算机视觉领域,训练数据通常包括标注的图像,这些图像被用来训练深度学习模型(诸如卷积神经网络),以执行计算机视觉任务(诸如图像分类和实例分割)。然而,手动收集各种场景的照片并标注照片是耗时且昂贵的。用于增强这些数据集的一些技术包括生成合成训练数据。例如,三维(3-d)计算机图形渲染引擎(例如,扫描线渲染引擎和光线追踪渲染引擎)能够生成物体的3-d模型的布置的虚拟环境的可以用于训练深度学习模型的逼真的二维(2-d)图像。


技术实现要素:

5.本公开的实施例的各方面涉及机器学习技术,特别是用于训练机器学习模型的数据的合成或生成。特别地,本公开的实施例的各方面涉及合成用于训练机器学习模型的图像,以对输入图像执行计算机视觉任务,所述输入图像是基于与场景中可见光强度的图像不同的成像模态捕获的。
6.根据本公开的一个实施例,一种生成虚拟场景的合成图像的方法包括:通过由处理器和存储器实施的合成数据生成器在三维(3-d)虚拟场景中放置物体的3-d模型;通过所述合成数据生成器向所述3-d虚拟场景添加照明,所述照明包括一个或多个照明源;通过所述合成数据生成器根据选定的成像模态将成像模态特定的材料应用到所述3-d虚拟场景中的物体的所述3-d模型,所述成像模态特定的材料中的每个包括经验模型;通过合成数据生成器根据所述选定的成像模态设置场景背景;以及通过所述合成数据生成器基于所述选定的成像模态渲染所述3-d虚拟场景的二维图像,以根据所述选定的成像模态生成合成图像。
7.所述经验模型可以基于使用的材料的表面的使用成像系统捕获捕获的采样图像来生成,所述成像系统被配置为使用所述选定的成像模态捕获图像,所述采样图像可以包括所述材料的所述表面的从相对于所述材料的所述表面的法线方向的多个不同的姿势捕获的图像。
8.所述选定的成像模态可以是偏振,并且所述成像系统包括偏振相机。
9.所述选定的成像模态可以是热的,并且所述成像系统可以包括热像仪(thermal camera)。所述热像仪可以包括偏振滤波器。
10.所述采样图像中的每个可以与其相对于所述材料的所述表面的法所述线方向的姿势的对应角度相关联地存储。
11.所述采样图像可以包括:由具有第一光谱轮廓的光照亮的所述材料的所述表面的捕获的多个第一采样图像;以及由具有与第一光谱轮廓不同的第二光谱轮廓的光照亮的所述材料的所述表面的捕获的多个第二采样图像。
12.所述经验模型可以包括通过在所述采样图像中的两个或多个之间插值计算的表面光场函数。
13.所述经验模型可以包括通过在所述采样图像上训练的深度神经网络计算的表面光场函数。
14.所述经验模型可以包括通过在所述采样图像上训练的生成对抗网络计算的表面光场函数。
15.所述经验模型可以包括通过基于所述采样图像生成的数学模型计算的表面光场函数。
16.本方法还可以包括对所述合成图像应用风格迁移。
17.根据本公开的一个实施例,一种用于为3-d虚拟场景生成偏振特征空间的张量的方法,包括:通过处理器和存储器实施的合成数据生成器渲染包括多个物体的3-d模型的3-d虚拟场景的表面法线的图像,所述表面法线包括方位角分量和天顶角分量;通过所述合成数据生成器为所述3-d虚拟场景中物体的3-d模型的表面确定所述物体的材料;以及通过所述合成数据生成器根据所述表面法线的所述方位角分量和所述天顶角分量计算所述偏振特征空间的张量,所述偏振特征空间的张量包括:线性偏振度;以及物体表面的线性偏振角。
18.本方法还包括:确定所述物体的所述3-d模型的所述表面是否是镜面主导的;响应于确定所述物体的所述3-d模型的所述表面是镜面主导的,基于镜面偏振方程计算所述偏振特征空间的张量;以及响应于确定所述物体的所述3-d模型的所述表面是镜面主导的,基于漫射偏振方程计算所述偏振特征空间的张量。
19.本方法还包括:基于漫射偏振方程计算所述偏振特征空间的张量。
20.本方法还包括对所述偏振特征空间的张量应用风格迁移。
21.根据本公开的一个实施例,一种用于合成训练数据集的方法,方法方法基于生成根据上述方法的任一项生成的多个合成图像。
22.根据本公开的一个实施例,一种用于训练机器学习模型的方法,所述方法包括:根据上述方法的任一项生成训练数据集;以及基于所述训练数据集计算所述机器学习模型的参数。
23.根据本公开的一个实施例,一种用于生成虚拟场景的合成图像的系统,所述系统包括:处理器;以及存储指令的存储器,所述指令在由所述处理器执行时使得所述处理器实施合成数据生成器以:在三维(3-d)虚拟场景中放置物体的3-d模型;向所述3-d虚拟场景添加照明,所述照明包括一个或多个照明源;根据选定的成像模态将成像模态特定的材料应用到所述3-d虚拟场景中的物体的所述3-d模型,所述成像模态特定的材料中的每个包括经验模型;根据所述选定的成像模态设置场景背景;以及根据所述选定的成像模态渲染所述3-d虚拟场景的二维图像,以根据所述选定的成像模态生成合成图像。
24.所述经验模型可以基于所述材料的所述表面的使用成像系统捕获的采样图像生成,所述成像系统被配置为使用所述选定的成像模态捕获图像,并且所述采样图像可以包括所述材料的所述表面的从相对于所述材料的所述表面的所述法线方向的多个不同姿势捕获的图像。
25.所述选定的成像模态可以是偏振,并且所述成像系统可以包括偏振相机。
26.所述选定的成像模态可以是热的,并且所述成像系统可以包括热像仪。所述热像仪可以包括偏振滤波器。
27.所述采样图像中的每个可以与其姿势相对于所述材料的所述表面的所述法线方向的对应角度相关联地存储。
28.所述采样图像可以包括:由具有第一光谱轮廓的光照明的材料表面捕获的多个第一采样图像;以及由具有与第一光谱轮廓不同的第二光谱轮廓的光照明的材料表面捕获的多个第二采样图像。
29.所述经验模型可以包括通过在所述采样图像中的两个或多个之间插值计算的表面光场函数。
30.所述经验模型可以包括通过在所述采样图像上训练的深度神经网络计算的表面光场函数。
31.所述经验模型可以包括通过在所述采样图像上训练的生成对抗网络计算的表面光场函数。
32.所述经验模型可以包括通过基于所述采样图像生成的数学模型计算的表面光场函数。
33.所述存储器还可以存储指令,所述指令在由所述处理器执行时使得所述合成数据生成器对所述合成图像应用风格迁移。
34.根据本公开的一个实施例,一种用于为3-d虚拟场景生成偏振特征空间的张量的系统,所述系统包括:处理器;以及存储指令的存储器,所述指令在由所述处理器执行时使得所述处理器实施合成数据生成器以:渲染包括多个物体的3-d模型的3-d虚拟场景的表面法线的图像,所述表面法线包括方位角分量和天顶角分量;为所述3-d虚拟场景的物体的3-d模型的表面确定所述物体的材料;并且根据所述表面法线的所述方位角分量和所述天顶角分量计算所述偏振特征空间的张量,所述偏振特征空间的张量包括:线性偏振度;以及物体表面的线性偏振角。
35.所述存储器还可以存储指令,所述指令在由所述处理器执行时使得所述合成数据生成器:确定所述物体的所述3-d模型的所述表面是否是镜面主导的;响应于确定所述物体的所述3-d模型的所述表面是镜面主导的,基于镜面偏振方程计算所述偏振特征空间的张量;并且响应于确定所述物体的所述3-d模型的所述表面是镜面主导的,基于漫射偏振方程计算所述偏振特征空间的张量。
36.所述存储器还可以存储指令,所述指令在由所述处理器执行时使得所述合成数据生成器:基于漫射偏振方程计算所述偏振特征空间的张量。
37.所述存储器还可以存储指令,所述指令在由所述处理器执行时使得所述合成数据生成器:对所述偏振特征空间的张量应用风格迁移。
38.根据本公开的一个实施例,一种用于合成训练数据集的系统,所述系统被配置为
使用上述系统中任一项所述的系统合成所述训练数据集。
39.根据本公开的一个实施例,一种用于训练机器学习模型的系统,所述系统包括:处理器;以及存储器,所述存储器存储指令,所述指令在由所述处理器执行指令时使得所述处理器:接收由上述系统中任一项生成的训练数据集;并且基于所述训练数据集计算所述机器学习模型的参数。
附图说明
40.附图与说明书一起说明了本发明的示例性实施例,并且与说明书一起用于解释本发明的原理。
41.图1是描述根据本公开的实施例的用于训练统计模型基于各种模态的图像执行计算机视觉任务的系统的框图,其中使用生成的数据执行训练。
42.图2是根据本发明中的一个实施例的计算机视觉系统的示意框图,该计算机视觉系统被配置为使用偏振成像并且可以生成的合成偏振图像数据进行训练。
43.图3a是场景的图像或强度图像,其中一个真实透明球放置在照片的打印输出的顶部,该照片描绘了包含两个透明球(

欺骗物

)和一些背景杂波的另一个场景。
44.图3b描绘了图3a的具有标识透明球的实体的如由基于比较掩膜区域的卷积神经网络(mask r-cnn)计算的叠加分割掩膜的强度图像,其中真实透明球被正确标识为实体,并且两个欺骗物被错误地标识为实体。
45.图3c是根据本发明的一个实施例的从场景的捕获的偏振原始帧计算出的偏振图像的角度。
46.图3d描绘了根据本发明的一个实施例的图3a的具有如使用偏振数据计算的叠加分割掩膜的强度图像,其中真实透明球被正确识别为实体并且两个欺骗物被正确地排除实体。
47.图4是对光与透明物体和非透明(例如,漫射和/或反射)物体的相互作用的高级描述。
48.图5是光在入射角范围内对具有约1.5的折射率的表面的透射与反射的能量图。
49.图6是描绘根据本公开的一个实施例的用于生成合成图像的管线的流程图。
50.图7是根据本公开的一个实施例的使用偏振相机系统从多个角度对真实材料进行采样的示意图。
51.图8是描绘根据本公开的一个实施例的使用待建模的特定成像模态从不同视角捕获材料的图像的方法的流程图。
52.图9是描绘根据本公开的一个实施例的用于基于材料的经验模型渲染虚拟物体的一部分的方法的流程图。
53.图10是描绘根据本公开的一个实施例的用于计算虚拟场景的合成特征或偏振表示空间的张量的方法的流程图。
54.图11是描绘根据本公开的一个实施例的用于生成训练数据集的方法的流程图。
具体实施方式
55.在下面的详细描述中,通过例示的方式仅示出和描述本发明的某些示例性实施
例。如本领域技术人员将认识的,本发明可以体现为不同的形式,并且不应被解释为限制于本文阐述的实施例。在整个说明书中,类似的附图标记表示类似的元素。
56.本公开的实施例的各方面涉及用于合成或生成用于训练机器学习模型的数据的系统和方法,该机器学习模型用于对基于标准模态以外的模态(诸如配置为基于可见光的强度捕获图像的彩色或单色相机)捕获的图像执行计算机视觉任务。其他模态的示例包括基于偏振光捕获的图像(例如,使用用于捕获圆和/或线性偏振光的相机的光学路径中的偏振滤波器(polarizing filter)或偏振滤波器(polarization filter)捕获的图像)、非可见光或不可见光(例如,红外或紫外范围内的光)及其组合(例如,偏振红外光),然而本公开的实施例并不限于此,并可以应用于其他多光谱成像技术。
57.更详细地,本公开实施例的各方面涉及以用于训练机器学习模型执行计算机视觉任务的不同成像模态生成合成图像。
58.通常,用于计算对场景中描绘的物体分类的分割图的计算机视觉系统可以包括经训练的卷积神经网络,该网络将(例如,由彩色相机捕获的)二维图像作为输入并基于那些图像输出分割图。这种卷积神经网络可以是在现有数据集上预训练的(参见,例如,j.deng,w.dong,r.socher,l.-j.li,k.li和l.fei-fei的imagenet:a large-scale hierarchical image database.ieee computer vision and pattern recognition(cvpr),2009)。然而,这些现有数据集可能包含不代表计算机视觉系统的特定应用中预期会遇到的图像的图像,因此这些预先训练的模型可能在计算机视觉系统要执行的特定计算机视觉任务中表现不佳。例如,用于制造环境的计算机视觉系统更有可能遇到工具、部分组装的产品、制造组件和类似物的图像,而不是可能在更多

通用目标

数据集中发现的人、动物、家用物品和户外环境的图像。
59.因此,

重新训练

涉及基于来自与将由重新训练模型执行的任务相关联的特定目标域的附加的训练数据,更新预先训练的模型的参数(例如,连接权重)。继续上面的示例,来自特定制造环境的工具、部分组装的产品、组件及类似物的标记图像可以被用作用于重新训练预训练的模型(例如,预训练的卷积神经网络)以提升其在检测和分类在该制造环境中遇到的物体的性能的训练数据。然而,手动收集在该制造环境中的典型场景的不同图像和基于它们的基础真实值标记这些图像(例如,标识对应于不同类别的物体的像素)通常是一项耗时且昂贵的任务。
60.如上所述,三维(3-d)渲染计算机图形软件可以被用来生成用于训练机器学习模型以执行计算机视觉任务的训练数据。例如,那些工具、部分组装的产品及制造组件的现有3-d模型可以根据现实世界中可能遇到此类物体的各种方式(例如,包括照明条件和在环境中支持表面和装备的3-d模型)被布置在虚拟场景中。例如,部分组装的产品可以被放置在传送带的3-d模型上,组件可以位于零件箱中,并且工具可以被放置在工具台上和/或在定位部分组装的产品中的组件的过程的场景中。因此,3-d计算机图像渲染系统被用来生成特定环境中物体的典型布置范围的逼真图像。这些生成的图像也可以被自动地标记。特别地,当用来描绘不同类型的物体中的每个的特定3-d模型已经与类别标签(例如,不同尺寸的螺丝、预组装的组件、在各种组装阶段的产品、特定类型的工具等)相关联时,可以自动生成分割图(例如,通过将物体表面映射到其特定类别标签)。
61.然而,3-d渲染计算机图像软件系统通常被定制用于基于可见光的强度(例如,红
光、绿光和蓝光的强度)生成表示典型成像模态的图像。此类3-d渲染软件(诸如blender foundation的)通常不考虑在渲染逼真场景时可能不可见或者可忽略的电磁辐射的行为。这些附加行为的例子包括光的偏振(例如,当偏振光与场景中的透明物体和反射物体相互作用时,如由其光学路径中具有偏振滤波器的相机检测时),热辐射或红外辐射(例如,如由场景中的温暖物体发出的和如由对检测红外光敏感的相机系统检测的),紫外辐射(例如,如由对紫外光敏感的相机系统检测的),它们的组合(例如,偏振和热辐射、偏振和可见光、偏振和紫外线等)等。
62.因此,本公开的实施例的各方面涉及用于对各种材料在基于偏振或其他成像模态成像时的行为进行建模的系统与方法。根据本公开的实施例生成的数据(例如,图像)可以随后被用作用于训练深度学习模型(诸如深度卷积神经网络)以基于标准成像模态以外的成像模态(例如,可见光或电磁波谱的可见部分的强度)计算预测的训练数据。
63.作为启发性示例,将在生成通过偏振滤波器捕获的物体的合成图像(本文称为

偏振原始帧

)的背景中描述本公开的实施例,其中这些图像可以用于训练深度神经网络(诸如卷积神经网络),以基于偏振原始帧执行任务。然而,本公开的实施例并不限于生成合成用于训练将偏振原始帧(或从中提取的特征)作为输入数据的卷积神经网络的偏振原始帧。
64.图1的是描绘用于训练统计模型基于各种模态的图像执行计算机视觉任务的系统的框图,其中使用根据本公开的实施例生成的数据执行训练。如图1所示,将训练数据5提供给模型训练系统7,该模型训练系统7采用模型30(例如,预训练的模型或具有初始权重的模型结构)并使用训练数据5来生成经训练的模型(或重新训练的模型)32。模型30和经训练的模型32可以是统计模型(诸如深度神经网络(深度神经网络包括卷积神经网络))。根据本公开的实施例的合成数据生成器40生成合成的数据42,所述数据42可以包括有用于生成经训练的模型32的训练数据5。模型训练系统7可以应用用于更新模型30的参数的迭代过程,以根据提供的训练数据5(例如,包括合成的数据42)生成经训练的模型32。模型30的参数的更新可以包括例如根据测量标签和模型响应于训练数据的输出之间的差异的损失函数的应用梯度下降(以及在神经网络中,反向传播)。可以使用一个或多个电子电路实施模型训练系统7和合成数据生成器40。
65.根据本公开的各种实施例,使用一个或多个电子电路实施模型训练系统7和/或合成数据生成器40,所述一个或多个电子电路被配置为执行如下面更详细地描述的各种操作。电子电路的类型可以包括中央处理单元(cpu)、图像处理单元(gpu)、人工智能(ai)加速器(例如,可以包括矢量算术逻辑单元的矢量处理器,该矢量算术逻辑单元被配置为有效地执行神经网络的常见操作,如点积和softmax)、现场可编程门阵列(fpga)、专用集成电路(asic)、数字信号处理器(dsp)等。例如,在一些情况下,本公开的实施例的各方面以存储在非易失性计算机可读存储器中的程序指令实施,该程序指令在由电子电路(例如,cpu、gpu、ai加速器或其组合)执行时,执行本文所述的操作以从输入偏振原始帧18计算分割图20。由模型训练系统7和合成数据生成器40执行的操作可以由单个电子电路(例如,单个cpu、单个gpu等)执行,或者可以在多个电子电路之间(例如,多个gpu或者与gpu结合的cpu)分配。多个电子电路可以是彼此本地的(例如,位于同一管芯上、位于同一封装内、或者位于同一嵌入式设备或计算机系统内)和/或可以是彼此远程的(例如,通过网络(诸如本地个人区域网络(诸如))、通过局域网(诸如本地有线和/或无线网络),和/或通过广域网(诸如互
联网)通信),如在本地执行一些操作并且在云计算服务托管的服务器上执行其他操作的情况)。为了实施模型训练系统7和合成数据生成器40操作的一个或多个电子电路在本文中可以被称为计算机或计算机系统,其可以包括存储指令的存储器,所述指令在由一个或多个电子电路执行时实施本文所述的系统和方法。
66.图2是根据本发明的实施例的计算机视觉系统的示意性框图,该计算机视觉系统被配置为使用偏振成像并且可以基于生成的合成偏振成像数据进行训练。
67.就上下文而言,图2是其中偏振相机对场景成像并将偏振原始帧提供给计算机视觉系统的系统的示意图,该计算机视觉系统包括被训练为基于偏振原始帧或基于偏振原始帧计算的偏振特征执行计算机视觉任务的模型。
68.偏振相机10具有具有视场的镜头12,其中镜头12和相机10被定向为使得视场包围场景1。镜头12被配置为引导光(例如,聚焦光)从场景1至光敏介质(诸如图像传感器14(例如,互补金属氧化物半导体(cmos)图像传感器或电荷耦合器件(ccd)图像传感器))。
69.偏振相机10还包括放置在场景1和图像传感器14之间的光学路径中的偏振器或偏振滤波器或偏振掩膜16。根据本公开的各种实施例,偏振器或偏振掩膜16被配置为使偏振相机10能够捕获场景1的图像,其中偏振器被设置在各种指定角度(例如,45
°
旋转或在60
°
旋转或在非均匀间距旋转)。
70.作为一个示例,图2描绘了一个实施例,其中偏振掩膜16是以类似于彩色相机的红黄蓝(rgb)彩色滤波器(例如,拜尔滤波器)的方式与图像传感器14的像素网格对齐的偏振马赛克。与彩色滤波器基于波长如何过滤入射光使得图像传感器14中的每个像素都根据马赛克的彩色滤波器的图案接收光谱的特定部分(例如,红色、绿色或蓝色)的光的方式类似,使用偏振马赛克的偏振掩膜16基于线性偏振过滤光线,使得不同像素以线性偏振的不同角度(例如,以0
°
、45
°
、90
°
和135
°
,或者以0
°
、60
°
度和120
°
)接收光线。因此,诸如图2中示出的使用偏振掩膜16的偏振相机10能够并行或同时捕获四个不同的线性偏振的光。偏振相机的一个示例是由俄勒冈州威尔逊维尔的系统公司生产的s偏振相机。
71.虽然上述描述涉及使用偏振马赛克的偏振相机一些可能的实施方式,本公开的实施例不限于此并且包括能够在多个不同偏振下捕获图像的其他类型的偏振相机。例如,偏振掩膜16可以具有少于四个或多于四个不同偏振,或者可以具有在不同角度(例如,在0
°
、60
°
度和120
°
的偏振角或在0
°
、30
°
、60
°
、90
°
、120
°
和150
°
的偏振角)的偏振。作为另一示例,偏振掩膜16可以使用电子控制的偏振掩膜(诸如电光调制器(例如,可能包括液晶层))来实施,其中可以独立地控制掩膜的个体像素的偏振角,使得图像传感器14的不同部分接收具有不同偏振的光。作为另一示例,电光调制器可以被配置为在捕获不同帧时传输不同线性偏振的光,例如,以便相机使用依次设置为不同线性偏振器角度(例如,依次设置为:0度;45度;90度;或135度)的偏振掩膜的整体捕获图像。作为另一示例,偏振掩膜16可以包括机械旋转的偏振滤波器,使得由偏振相机10使用相对于透镜12机械旋转的偏振滤波器来以不同偏振角将光透射到图像传感器14捕获不同的偏振原始帧。
72.偏振相机还可以指具有基本上平行光轴的多相机阵列,使得每个相机从基本上相同的姿势捕获场景的图像。阵列的每个相机的光学路径包括偏振滤波器,其中偏振滤波器具有不同的偏振角。例如,四台相机的二乘二(2
×
2)阵列可以包括具有设置在0
°
的角度的偏振滤波器的相机,具有设置在45
°
的角度的偏振滤波器的第二相机,具有设置在90
°
的角
度的偏振滤波器的第三相机,以及具有设置在135
°
的角度的偏振滤波器的第四相机。
73.因此,偏振相机捕获场景1的多个输入图像18(或偏振原始帧),其中每个偏振原始帧18对应于在不同偏振角度φ
pol
(例如,0度、45度、90度,或135度)的偏振滤波器或偏振器后拍摄的图像。每个偏振原始帧是从相对于场景1的基本相同姿势捕获的(例如,使用偏振滤波器在0度、45度、90度或135度捕获的图像都由位于相同位置和定向的相同偏振相机捕获),而不是从相对于场景的不同位置和定向捕获偏振原始帧。偏振相机10可以被配置为检测电磁光谱的各种不同部分中的光,诸如电磁光谱中的人类可见部分、人类可见光谱的红色部分、绿色部分和蓝色部分以及电磁光谱的不可见部分(诸如红外线和紫外线)。
74.图3a、图3b、图3c和图3d提供了用于例示根据本公开的实施例的通过比较方法和语义分割或实体分割计算的分割图的背景。更详细地,图3a是场景的图像或强度图像,其中一个真实的透明球放置在照片的打印输出的顶部,该照片描绘了包含两个透明球(

欺骗物

)和一些背景杂波的另一场景。图3b描绘了如由基于比较掩膜区域的卷积神经网络(mask r-cnn)计算的使用不同的线条图案标识图3a的强度图像上叠加的透明球实体的分割掩膜,其中真正透明的球被正确地识别为实体并且两个欺骗物被错误地识别为实体。换言之,掩膜r-cnn算法已被愚弄,将两个欺骗透明球标记为场景中实际透明球的实体。
75.图3c是根据本发明的一个实施例的从场景的捕获的偏振原始帧计算的线性偏振角(aolp)图像。如图3c所示,透明物体在偏振空间(诸如aolp域)中具有非常独特的纹理,其中边缘上存在几何相关的标志,并且在透明物体的表面上以线性偏振角呈现明显的或独特或特定的图案。换言之,透明物体的内在纹理(例如,与从通过透明物体可见的背景表面采用的外在纹理完全不同)在图3c的偏振角图像中比图3a的强度图像中更可见。
76.图3d描绘了根据本发明的一个实施例的图3a的具有如使用偏振数据计算的叠加分割掩膜的强度图像,其中使用叠加的线条图案将真实透明球正确地标识为实体并且将两个欺骗物正确地排除为实体(例如,与图3b相比,图3d不包括在两个欺骗物上的叠加的线条图案)。虽然图3a、图3b、图3c和图3d例示涉及在存在欺骗透明物体时检测真实透明物体的示例,但是本公开的实施例不限于此并且也可以被应用于其他光学挑战性物体,诸如透明、半透明和非亚光或非朗伯物体,以及非反射(例如,哑光黑色物体)和多路径诱导物体。
77.偏振特征表示空间
78.本公开的实施例的一些方面涉及用于从偏振原始帧中提取特征的系统和方法,其中这些提取的特征被处理系统100用于稳健探测物体的表面中的光学挑战特性。与之相反,仅依赖于强度图像的比较技术可能无法检测到这些光学挑战特征或表面(例如,将图3a的强度图像与图3c的aolp图像比较,如上所述)。

第一表示空间

中的术语

第一张量

将在本文中用来指代从由偏振相机捕获的偏振原始帧18计算(例如,提取)的特征,其中这些第一表示空间至少包括偏振特征空间(例如,特征空间,诸如包含关于由图像传感器检测的光的偏振的信息的aolp和dolp),并且也可以包括非偏振特征空间(例如,不需要有关到达图像传感器的光的偏振的信息的特征空间,诸如仅基于在没有任何偏振滤波器的情况下捕获的强度图像计算的图像)。
79.光和透明物体之间的相互作用是丰富且复杂的,然而物体的材料确定了其在可见光下的透明度。对于许多透明的家用物品而言,大部分可见光直接通过,而一小部分(~4%到~8%,取决于反射率)被反射。这是因为光谱的可见部分的光没有足够的能量来激活透
明物体中的原子。因此,透明物体背后的(或通过透明物体可见的)物体的纹理(例如,外观)主导透明物体的外观。例如,当观察桌上的透明玻璃杯和平底玻璃杯时,平底玻璃杯的另一侧上的物体的外观(例如,桌子的表面)通常主导通过杯子看到的东西。当试图单独基于强度图像检测透明物体(诸如玻璃窗和光滑、透明的涂层)的表面特征时,此属性导致一些困难:
80.图4是光与透明物体和非透明(例如,漫射和/或反射)物体相互作用的高级描述。如图4所示,偏振相机10捕获场景的偏振原始帧,该场景在不透明背景物体403前面包括透明物体402。撞击偏振相机10的图像传感器14的光线410包含来自透明物体402和背景物体403二者的偏振信息。来自透明物体402的反射光412的小部分是强偏振的,因此对偏振测量具有巨大的影响,与反射离开背景物体403并穿过透明物体402的光413不同。
81.类似地,撞击物体的表面的光线可以以各种方式与表面的形状相互作用。例如,具有光滑涂料的表面可以表现得与图4所示的不透明物体前面的透明物体基本相似,其中光线与光滑涂料的透明或半透明层(或清漆层)之间的相互作用使得反射离开表面的光基于透明或半透明层(例如,基于该层厚度和表面法向)的特性被偏振,这些特性在撞击图像传感器的光线中被编码。类似地,如下文关于偏振形状(sfp)理论更详细讨论的,表面的形状(例如,表面法线的方向)的变体可能导致物体表面反射的光的偏振的显著变化。例如,光滑表面通常表现出整体相同的偏振特性,但是表面中的划痕或凹痕改变了这些区域中的表面法线的方向,并且撞击划痕或凹痕的光可能以不同于物体的表面的其他部分中的方式被偏振、被衰减或被反射。光和物质之间的相互作用的模型通常考虑三个基本要素:几何形状、照明和材料。几何形状基于材料的形状。照明包括照明的方向和颜色。材料可以通过光的折射率或角度反射/透射进行参数化。这种角度反射已知为双向反射分布函数(brdf),尽管其他函数形式可以更准确表示某些场景。例如,在表现出次表面散射的材料(例如,大理石或蜡)的情况下,双向次表面散射分布函数(bssrdf)将更准确。
82.撞击偏振相机10的图像传感器16的光线410具有三个可测量的分量:光的强度(强度图像/i)、光的线性偏振的百分比或比例(线性偏振度/dolp/ρ)以及该线性偏振的方向(线性偏振角/aolp/φ)。这些属性编码关于被成像物体的表面曲率和材料的信息,所述信息可以被预测器800用来检测透明物体,如下文详细描述。在一些实施例中,预测器800可以基于传递通过半透明物体的光和/或与多路径诱导物体或非反射物体(例如,哑光黑色物体)相互作用的光的类似偏振属性检测其他的光学挑战物体。
83.因此,本公开的实施例的一些方面涉及合成可以被用来计算一个或多个第一表示空间的第一张量的偏振原始帧,所述第一张量可以包括基于强度i、dolpρ和aolpφ的衍生特征图。本公开的实施例的一些方面还涉及直接合成一个或多个表示空间的张量(诸如dolpρ和aolpφ),以用于训练深度学习系统基于关于场景中的光的偏振的信息来执行计算机视觉任务(并且,在一些实施例中,基于其他成像模态,诸如热成像以及热成像和偏振成像的组合)。
84.测量每个像素处的强度i、dolpρ和aolpφ需要在偏振滤波器(或偏振器)之后以不同角度φ
pol
拍摄的场景的3个或更多个偏振原始帧(例如,因为有三个待确定的未知值:强度i、dolpρ和aolpφ)。例如,上面描述的s偏振相机捕获偏振角φ
pol

0度、45度、90度或135度的偏振原始帧,从而产生四个偏振原始帧在本文中表示为i0、i
45
、i
90
、和i
135

85.每个像素处的与强度i、dolpρ和aolpφ之间的关系可以表示为:
[0086][0087]
因此,通过四个不同的偏振原始帧帧(i0、i
45
、i
90
、和i
135
),可以使用四个方程的系统来求解强度i、dolpρ和aolpφ。
[0088]
偏振形状(sfp)理论(参见,例如,gary a atkinson和edwin r hancock的recovery of surface orientation from diffuse polarization.ieee transactions on image processing,15(6):1653

1664,2006.)指出,当漫射主导时,物体的表面法线的折射率(n)、方位角(θa)和天顶角(θz),与来自该物体的光线的φ分量和ρ分量之间的关系遵循如下特性:
[0089][0090]
φ=θaꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(3)
[0091]
并且当镜面反射主导时:
[0092][0093][0094]
注意,在这两种情况下,ρ随着θz增加而呈指数增加,并且如果折射率相同,则镜面反射较漫射更具有偏振性。
[0095]
因此,本公开的实施例的一些方面涉及应用sfp理论以基于虚拟环境中的表面的形状(例如,表面的定向)生成合成原始偏振帧18和/或aolp图像和dolp图像。
[0096]
来自透明物体的光线具有两个分量:反射部分包括反射强度ir、反射dolpρr和反射aolpφr,折射部分包括折射强度i
t
、折射dolpρ
t
和折射aolpφ
t
。得到的图像中的单个像素的强度可以写成:
[0097]
i=ir i
t
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(6)
[0098]
当具有线性偏振角φ
pol
的偏振滤波器被放置在相机前面时,给定的像素处的值为:
[0099][0100]
根据ir、ρr、φr、i
t
、ρ
t
、和φ
t
求解dolpρ图像中的像素和aolpφ图像中的像素的值的上述表达式:
[0101][0102][0103]
因此,根据本公开的一个实施例,上述公式(7)、(8)和(9)提供了用于形成包括强度图像i、dolp图像ρ和aolp图像φ的第一表示空间的第一张量50的模型,其中在偏振表示空间中使用偏振图像或张量(包括基于公式(8)和(9)的dolp图像ρ和aolp图像φ)使得经训练的计算机视觉系统能够可靠地检测物体的光学挑战表面特性,而这些特性通常无法由仅使用强度i图像作为输入的比较系统检测到。
[0104]
更详细地,偏振表示空间(派生的特征图中)的第一张量(诸如偏振图像dolpρ和aolpφ)可以揭示物体的表面特性,这些特性可以以其他方式在强度i域中显得缺少纹理。透明物体可以具有在强度域i中不可见的纹理,因为该强度严格取决于ir/i
t
的比率(参见公式(6))。不同于i
t
=0的不透明物体,透明物体透射大部分入射光并且仅反射该入射光的小部分。作为另一示例,其他光滑表面(或其他粗糙表面中的光滑部分)的形状中薄的或小的偏差在强度i域(例如,不考虑光的偏振的域)中可能基本不可见或具有低对比度,但在偏振表示空间(诸如dolpρ和aolpφ)中明显可视或可以具有高对比度。
[0105]
因此,一种获取表面形貌的示范性方法是结合几何正则化使用偏振线索。菲涅尔方程将dolpρ和aolpφ与表面法线联系起来。通过利用所谓的表面偏振模态,这些方程可用于异常检测。偏振模态是大小为[m,n,k]的张量,其中m和n分别为水平和垂直像素维度,并且其中k是偏振数据通道,其大小可变化。例如,如果忽略圆偏振并且仅考虑线偏振,则k将等于2,因为线性偏振具有偏振角和偏振度(dolpρ和aolpφ)两者。类似于摩尔纹,在本公开的一些实施例中,特征提取模块700在偏振表示空间(例如,dolpρ空间和aolpφ空间)中提取偏振图案。如上文所示的图1a和图1b的示例特征输出20中,水平维度和垂直维度对应于由偏振相机10捕获的物体的表面的窄条或小片的横向视野。然而,这是一种示例性情况:在多种实施例中,表面的窄条或小片可以是垂直的(例如,比宽度更高),水平的(比高度更宽),或者具有趋向于接近正方形(例如,宽高比为4:3或16:9)的更常规的视野(fov)。
[0106]
虽然前述的讨论提供了在使用具有一个或多个线性偏振滤波器的偏振相机以捕获对应于不同角度的线性偏振的偏振原始帧并计算偏振表示空间(诸如dolp和aolp)的张量的情况下基于线性偏振的偏振表示空间的具体示例,本公开的实施例不限于此。例如,在本公开的一些实施例中,偏振相机包括一个或多个圆偏振滤波器,其被配置为只通过圆偏振光,并且其中进一步从偏振原始帧中提取偏振模态或圆偏振表示空间的第一张量。在一些实施例中,单独使用圆偏振表示空间的这些附加张量,并且在其他的实施例中它们与线性偏振表示空间(诸如aolp和dolp)的张量一起使用。例如,包括偏振表示空间的张量的偏振图案可以包括在圆偏振空间、aolp和dolp的张量,其中偏振图案可以具有维度[m,n,k],其中k为3,以进一步包括圆偏振表示空间的张量。
[0107]
图5是光在入射角范围内对具有约1.5的折射率的表面的透射与反射的能量图。如图5所示,在低入射角时(例如,在接近垂直于表面的平面的角度),透射能量(如图5中的实
线所示)和反射能量(如图5中的虚线所示)的斜率相对较小。因此,当入射角较小(例如,接近垂直于表面,换言之,接近表面法线)时,表面的角度的小差异可能在偏振模态中难以检测(低对比度)。另一方面,随着入射角增大,反射能量的斜率从平缓增加,而投射能量的斜率随着入射角减大从平坦减小(具有较大的绝对值)。在图5所示的折射率为1.5的示例中,两条线的斜率在约60
°
的入射角开始基本上变陡,它们的斜率在约80
°
的入射角处非常陡峭。对于不同材料,曲线的特定形状可能根据材料的折射率改变。因此,在与曲线的陡峭部分相对应的入射角(例如,角度接近平行于表面,诸如在折射率为1.5的情况下约为80
°
,如图5所示)捕获被检测表面的图像可以提高偏振原始帧18中表面形状的变化的对比度和可检测性,并且可以提高偏振表示空间的张量中此类特征的可检测性,因为入射角的微小变化(由于表面法线的微小变化)可能导致捕获的偏振原始帧的较大变化。
[0108]
使用偏振相机来检测光学挑战物体和表面的存在和形状更详细地描述在例如在2020年8月28日提交的pct专利申请no.us/2020/048604和2020年9月17日提交的pct专利申请no.us/2020/051243,这两个pct专利申请的全部公开内容通过引用并入本文。这样的计算机视觉系统可以被训练以基于本公开的实施方式生成的训练数据对偏振数据执行计算机视觉任务。在一些实施例中,这些计算机视觉系统使用机器学习模型(诸如深度神经网络(例如,卷积神经网络))来执行计算机视觉任务,其中深度学习模型被配置为将偏振原始帧和/或偏振表示空间中的特征作为输入。
[0109]
模拟不同材料的偏振物理是一项复杂的任务,这需要了解材料属性、所用照明的光谱分布和偏振参数,以及观察者观测反射光的角度。为了真实地模拟光偏振的物理现象及其对物体的照明的影响不仅是复杂任务,然而也是计算密集型任务,诸如通过应用通常产生高度不准确(不现实)的图像的复杂前向模型。因此,各种比较3-d计算机图像系统通常不能准确地建模光的偏振的物理现象及其对物体照明的影响,并且因此若使用在其光学路径中带有偏振滤波器的相机(例如,偏振相机)成像,则不能以真实地表示对应的真实环境会出现的方式合成或渲染虚拟环境的图像。因此,用于生成用于训练在标准成像模态(诸如没有偏振滤波器的可见光图像)上运行的计算机视觉系统的合成数据的比较技术通常无法生成用于训练在其他成像模态(例如、偏振相机、热像仪等)上运行的计算机视觉系统的训练数据。
[0110]
如上所述,本公开的实施例的各个方面涉及生成或合成用于训练机器学习模型的数据,以将使用由标准相机(例如,配置为捕获可见光的强度而不使用滤波器(诸如偏振滤波器)的相机)捕获的图像以外的成像模态捕获的数据作为输入,这在本文中将被称为多模态图像或全光图像。术语

多模态

是指光的全光理论,其中全光域的每个维度(例如,波长、偏振、角度等)是光的模态的例子。因此,多模态或全光成像包括但不限于,同时使用多种成像模态。例如,术语

多模态

在本文中可以用于指单个成像模态,其中单个成像模态是在不使用滤波器(诸如偏振滤波器)的情况下不同于可见光的强度的模态。由一个或多个偏振相机捕获的偏振原始帧和/或偏振表示空间的张量是多模态或全光成像模态(例如,使用多模成像或全光成像)中的一类输入的一个例子。
[0111]
通常,本公开的实施例的各个方面涉及可以单独或组合使用作为根据多模态或全光成像模态(诸如偏振成像模态)生成合成训练数据的管线的一部分的四种技术。这些技术包括:域随机化、纹理映射、法线映射和风格迁移,并在下面更详细地讨论。
[0112]
图6是描述根据本公开的一个实施例的用于生成合成图像的管道的流程图。在本公开的一些实施例中,图6的操作由合成数据生成器40例如以存储在合成数据生成器40的存储器中的专用程序指令执行,所述专用程序指令在由合成数据生成器40的处理器执行时,使得合成数据发生器执行本文中描述的用于基于光学现象的物理模拟生成合成图像的专用操作。为方便起见,将在制造背景中应用偏振成像来对具有光学挑战的制造组件和工具(诸如具有透明表面、闪亮金属表面和/或深色哑光表面的物体)执行计算机视觉任务的背景下描述本公开的实施例的各个方面。
[0113]
在操作610中,合成数据生成器40将物体的3-d模型放置在虚拟场景中。在生成制造环境中的场景的合成图像的背景下,物体的3-d模型可以很容易地从组件和部分或完全组装的制造产品的计算机辅助设计(cad)模型中获得。这些cad模型可能是先前在产品设计阶段产生的,并且可以从例如组件的供应商(例如,从为制造商提供组件的供应商)、公开可用的信息(例如,数据表格)或从制造商雇佣的内部产品设计者处获得。在一些情况下,可以基于组件的技术指标手动生成cad模型。
[0114]
在本公开的一些实施例中,物体的3-d模型以类似于对于将训练机器学习模型执行的特定计算机视觉任务预计那些物体将遇到的布置的方式放置在虚拟场景中。
[0115]
在制造背景中的计算机视觉的上述示例中,一项任务是对组件箱执行实体分割,其中组件可能是同类的(例如,箱中所有组件都是相同的,诸如弹簧箱或螺丝箱)或异类的(例如,不同类型的组件的混合,诸如不同尺寸的螺丝或与匹配螺母混合的螺丝)。物体可能随机地布置在箱内,其中组件可以在箱内以许多不同方向定向,并且其中在异类组件箱中,不同类型的组件被混合在一起,而不是被分开在箱的不同部分中。可以训练计算机视觉系统来计算箱的分割图,以标识箱内的个体组件的位置和定向(并且,在异类组件箱的情况下,标识物体的类型)。然后,该分割图可以由执行器系统(诸如机械臂)使用,以从箱中拾取出组件并将拾取的组件添加到部分组装的产品。
[0116]
因此,在本公开的一些实施例中,合成数据生成器40通过将虚拟箱的3-d模型放置在场景中并且将组件的3-d模型投放到虚拟箱中来生成组件在箱中的场景,如使用物理模拟引擎(诸如并入3-d计算机图形渲染系统的物理引擎)模拟的。例如,3-d渲染软件包括模拟各种物理真实世界现象(诸如如刚体、布、软体、流体等如受到重力或其他力的影响的移动、碰撞和潜在变形)的物理系统。因此,刚体模拟可以用于模拟刚性组件(例如,螺丝、螺栓、相对硬的弹簧)投放到刚性虚拟箱中,并且软体模拟可以用于弹性或可变形组件(例如,绳子、线、塑料片等)落入刚性模拟箱中。
[0117]
更详细地,可以生成表示箱的不同潜在状态的各种不同场景,诸如通过将组件的3-d模型的各种数量的实体投放到虚拟箱中。例如,如果一个典型的箱具有1000个螺丝的最大容量,则可以通过将1000个螺丝、900个螺丝、500个螺丝、100个螺丝和10个螺丝投放到虚拟箱中以生成表示虚拟箱的不同潜在满度状态的不同场景来生成各种场景。此外,可以生成用于任何给定数量的螺丝的多个场景(或螺丝的数量可能在不同场景的生成之间是随机的),其中箱内的组件的布置也是随机的,诸如通过一次从箱上方的不同随机位置将组件投放到箱内。
[0118]
因此,在操作610中,合成数据生成器40生成包括代表性物体的布置的场景。
[0119]
在操作630中,合成数据生成器40向操作610中生成的虚拟场景添加照明。特别地,
合成数据生成器40将一个或多个光源添加到虚拟场景,其中光源照亮箱中的物体的表面的一部分或全部。在一些实施例中,一个或多个光源的位置是随机的,并且用在相对于零件箱的不同位置(例如,不同角度和距离)中的光源生成多个场景,以提高训练的鲁棒性。在本公开的一些实施例中,虚拟照明包括代表在训练计算机视觉系统运行的环境中发现的光源的虚拟光源。潜在的代表性光源的示例包括对应于例如白炽灯、荧光灯、发光二极管(led)灯泡、来自环境中模拟窗户的自然光以及其他形式的照明技术的不同色温,其中虚拟光的形状(例如,由灯发射的光线的方向)可以在从直射光到漫射光的范围内。在本公开的一些实施例中,光的特性(例如,色温和形状)也是随机的,以生成具有不同类型的照明的不同场景。
[0120]
在操作650中,合成数据生成器40将模态特定的材料应用到3-d虚拟场景中的物体。例如,在生成合成的偏振成像数据的情况下,将偏振特定的材料应用到虚拟场景中的物体,而在生成合成的热成像数据的情况下,可以将热成像特定的材料应用到虚拟场景中的物体。为了便于说明,本文中将详细描述偏振特定的材料,但是本公开的实施例不限于此,并且还可以被应用到特定于多模态成像和/或全光成像模态生成和应用材料。
[0121]
本公开的实施例的一些方面涉及域随机化,其中场景中的物体的材料外观被随机化,超出了物体的典型外观。例如,在一些实施例中,具有随机颜色的大量材料(例如,数千种随机选择的不同颜色的不同材料)被应用到虚拟场景中的不同物体。在真实世界环境中,场景中的物体通常具有明确定义的颜色(例如,橡胶垫圈通常都看起来为哑光黑并且螺丝可能是特定色调的亮黑色、哑光黑色、金色或亮金属色)。然而,真实世界物体可能由于光照条件(诸如光的色温、反射、镜面高光等)的改变常常具有不同外观。因此,在生成训练数据时对应用到物体的材料的颜色应用随机化将训练数据的域扩大到也包括不真实的颜色,从而增加了用于训练能够在更广泛的真实世界条件下做出更准确的预测(例如,更准确的实体分割图)的更鲁棒的机器学习模型的训练数据的多样性。
[0122]
本公开的实施例的一些方面涉及执行纹理映射以根据成像模态生成取决于一个或多个参数的材料(参数化材料)的模型。例如,如上所述,如由偏振相机系统成像的场景中的给定的表面的外观可以基于表面的材料的属性、场景中的一个或多个照明源(光源)的光谱轮廓和偏振参数、光到表面上的入射角以及观察者(例如,偏振相机系统)的视点角改变。因此,模拟不同材料的偏振的物理现象是一项复杂且计算密集型的任务。
[0123]
因此,本公开的实施例的一些方面涉及基于经验数据(诸如捕获的真实世界材料的真实世界图像)仿真各种成像模态的物理现象。更详细地,实施感兴趣的特定成像模态的成像系统(例如,偏振相机系统)被用来从感兴趣的特定材料制成的物体收集样本图像。在一些实施例中,收集的样本图像被用来计算材料的经验模型,诸如其表面光场函数(例如,双向反射率密度函数或brdf)。
[0124]
图7是根据本公开的一个实施例的使用偏振相机系统从多个角度对真实材料采样的示意图。图8是描绘根据本公开的一个实施例的用于使用要建模的特定成像模态从不同视角捕获材料的图像的方法800的流程图。如图7所示,物理物体(例如,垫圈、螺丝等)的表面702是由感兴趣的材料(例如,分别为黑色橡胶、镀铬不锈钢等)制成。在操作810中,该材料被放置到一个物理场景中(例如,在实验室工作台上)。在操作830中,物理照明源704(诸如led灯或荧光灯)被放置在场景中并且被布置为照亮表面702的至少一部分。例如,如图7
所示,从物理照明源704发射的光线706以表面702上的特定点708处的相对于在该特定点708处的表面702的法线方向714的入射角α入射到表面702的特定点708上。
[0125]
在操作850中,成像系统被用来从相对于表面的法线方向的多个姿势捕获物体的表面702的图像。在图7所示的实施例中,偏振相机系统710被用作成像系统来捕获表面702(包括由物理照明源704照亮的部分(例如,包括特定点708))的图像。偏振相机系统710从不同姿势712捕获表面702的图像,诸如通过将偏振相机系统710从一个姿势移动到下一个姿势,并且从每个姿势捕获偏振原始帧。在图7所示的实施例中,偏振相机系统710在第一姿势712a中以0
°
的正面平行观察者角度β(例如,从正上方或与点708处的表面法线714对齐的正面平行视图)对表面702进行成像,在第二姿势712b中以中间观察者角度β(诸如相对于表面法线714的45
°
角)对表面702进行成像,并且在第三姿势712c中以相对于表面法线714的浅观察者角度β(例如,略小于90度,诸如89
°
)对表面702进行成像。
[0126]
如上所述,偏振相机系统710通常被配置为用不同角度的偏振滤波器(例如,用在单个镜头和传感器系统的光学路径中具有四个不同偏振角的偏振马赛克,用四个相机的阵列,每个相机具有不同角度的线性偏振滤波器,用对从同一姿势在不同时间捕获的不同帧设置不同角度的偏振滤波器等)捕获偏振原始帧。
[0127]
在操作870中,由成像系统捕获的图像与相机相对于表面的法线方向的相对姿势(例如,观察者角度β)一起存储。例如,观察者角度β可以被存储在与图像相关联的元数据中和/或可以部分地基于观察者角度β对图像进行索引。在一些实施例中,可以通过参数对图像进行索引,这些参数包括:观察者角度β(或相机位置相对于表面法线的角度)、材料类型和照明类型。
[0128]
因此,在如图7所示的布置中并使用例如图8的方法,偏振相机系统710捕获材料在给定照明条件下(例如,在已知物理照明源704的光谱轮廓的情况下)在不同反射角度(例如在不同姿势712)的多个图像(例如,线性偏振角为0
°
、45
°
、90
°
和135
°
的四个图像)。
[0129]
由于偏振的物理现象的性质,这些视角或姿势712中的每个都给出不同的偏振信号。因此,通过从不同观察者角度捕获表面702的图像,可以基于用处于一个或多个最接近的对应入射角α的物理照明源704由相机系统以具有最接近的对应观察者角度β的一个或多个姿势712捕获的图像之间的插值来估计材料的brdf的模型。
[0130]
虽然为了方便图7的实施例仅描绘了三个姿势712,但是本公开的实施例不限于此,并且可以以更高的速率(诸如在相邻姿势之间有5
°
的间距或更小的间距)对材料进行采样。例如,在一些实施例中,偏振相机系统712被配置为作为视频相机系统操作,其中以高速率(诸如每秒30帧、每秒60帧、每秒120帧或每秒240帧)捕获偏振原始帧,从而得到在相对于表面法线的大量角度捕获的高密度图像。
[0131]
类似地,在一些实施例中,物理照明源704相对于表面702的姿势被修改,使得从物理照明源704发射的光线以不同角度α入射到表面702上,其中表面的多个图像类似地由偏振相机系统710从不同姿势712捕获。
[0132]
不同角度(例如,入射角度α和观察者或偏振相机系统角度β)的采样率可以被选择使得中间视角可以被插值(例如,被双线性插值)而不会显着损失真实感。在本公开的各种实施例中,间隔的间距可能取决于成像模态的物理特性,其中一些成像模态比其他模态展示出更多的角度敏感性,并且因此对于角度敏感性较低的模态可以用更少的姿势(更宽间
隔开的)来实现高精确度,而具有较高角度敏感性的模态可以使用更大数量的姿势(更紧密在一起间隔的)。例如,在一些实施例中,当针对偏振成像模态捕获偏振原始帧时,偏振相机系统710的姿势被设置成约五度(5
°
)分开的间隔角度,并且表面702的图像也可以用物理照明源704在各种位置(类似地以约五度(5
°
)分开的角度间隔的)处捕获。
[0133]
在一些情况下,材料在经验模型的成像模态下的外观也取决于照明源的类型,诸如白炽灯、荧光灯、发光二极管(led)灯泡、阳光,并且因此用于照亮真实世界场景的一个或多个照明源的参数被包括作为经验模型的参数。在一些实施例中,为不同的照明源训练不同的经验模型(例如,材料在自然照明或阳光下的一个模型和材料在荧光照明下的另一模型)。
[0134]
参考回图6,在一些实施例中,在操作670中,合成数据发生器40为场景设置虚拟背景。在一些实施例中,虚拟背景是使用与由合成数据生成器40模拟的模态相同的成像模态捕获的图像。例如,在一些实施例中,当生成合成偏振图像时,虚拟背景是使用偏振相机捕获的真实图像,并且当生成合成热成像图像时,虚拟背景是使用热像仪捕获的真实图像。在一些实施例中,虚拟背景是与训练的机器学习模型旨在其中操作的环境(例如,在用于制造机器人的计算机视觉系统的情况下的制造场所或工厂)类似的环境的图像。在一些实施例中,虚拟背景是随机的,从而增加了合成训练数据集的多样性。
[0135]
在操作690中,合成数据生成器40使用材料的经验衍生的模态特定的模型中的一个或多个基于指定的成像模态(例如,偏振,热等)渲染3-d场景。本公开的实施例的一些方面涉及基于根据本公开的一个实施例的材料的经验模型渲染图像。材料的经验模型可以如上所述基于从感兴趣的材料制成的真实世界物体的捕获图像收集的样本进行开发。
[0136]
通常,3-d计算机图像渲染引擎通过根据由像素描绘的虚拟场景的表面的颜色计算输出图像的每个像素的颜色来生成虚拟场景的2-d渲染。例如,在光线追踪渲染引擎中,虚拟光线从虚拟相机发射至虚拟场景中(与光在真实世界中的典型路经相反),其中虚拟光线与虚拟场景中的物体的3-d模型的表面相互作用。这些3-d模型通常使用几何形状(诸如定义平坦表面(例如,三角形)的点的网格)表示,其中这些表面可以被指定描述虚拟光线如何与表面相互作用(诸如反射、折射、散射、色散和其他光学效应)的材料以及表示表面的颜色的纹理(例如,纹理可以是纯色或可以是例如应用于表面的位图图像)。每条虚拟光线的路径被跟踪(或

追踪

)通过虚拟场景,直到它到达虚拟场景中的光源(例如,虚拟灯具),并且沿着从相机到光源的光学路径遇到的纹理的累计修改与光源的特性(例如,光源的色温)结合以计算像素的颜色。如本领域技术人员所理解的,可以修改该一般过程,诸如通过追踪穿过每个像素的不同部分的多条光线并且基于通过追踪与场景相互作用的不同光线计算的不同颜色的组合(例如,平均)计算像素的颜色来执行抗锯齿(或平滑)。
[0137]
图9是描绘根据本公开的一个实施例的用于基于材料的经验模型渲染虚拟物体的一部分的方法900的流程图。特别地,图9描述了涉及当追踪一条光线通过虚拟场景的一个像素(如光线与具有根据本公开的一个实施例建模的材料的表面相互作用)时计算颜色的实施例。然而,本领域普通技术人员在本技术的有效申请日之前将理解本文所述的技术可以如何被应用作为更大的渲染过程的一部分,其中为输出图像的给定像素计算多种颜色并进行组合,或者其中使用扫描线渲染过程代替光线追踪。
[0138]
更详细地,图9的实施例描绘了用于基于来自虚拟场景中的虚拟相机的视野渲染
虚拟场景中的物体的表面的方法,其中表面具有根据本公开的实施例建模的材料。鉴于正在合成渲染物体,并且合成数据生成器40可访问正在渲染的每个物体的地面真实几何,每像素法线、材料类型和照明类型都是适当调制材料的图形渲染的已知参数。在渲染过程期间,相机光线从虚拟相机的光学中心被追踪至从相机可见的物体上的每个3-d点。物体上的每个3-d点(例如,具有x-y-z坐标)被映射到物体的表面上的2-d坐标(例如,具有u-v坐标)。物体的表面的每个u-v坐标具有其本身的表面光场函数(例如,双向反射函数或brdf),其被表示为基于真实材料的图像生成的模型,如上面例如关于图7和图8所述。
[0139]
在操作910中,(例如,运行3-d计算机图形渲染引擎的)合成数据生成器40确定给定表面(例如,相对于全局坐标系)的法线方向。在操作930中,合成数据生成器40确定物体的表面的材料作为虚拟场景的设计的一部分分配给表面。
[0140]
在操作950中,合成数据生成器40确定表面的观察者角度β,例如基于光线到达表面的方向(例如,如果表面是来自相机的光线到达的第一表面,则是从虚拟相机到表面的角度,否则是光线从虚拟场景中的另一个表面到达该表面的角度)。在一些实施例中,在操作950中,基于光线离开表面的角度(例如,在朝向场景中的虚拟光源的方向,由于在光线追踪期间光线方向的反转)也确定入射角α。在一些情况下,入射角α取决于在操作930中确定的材料的特性,诸如,材料是否是透明的、反射的、折射的、漫射的(例如,哑光)或其组合。
[0141]
在操作970和990中,合成数据生成器40基于观察者角度β(并且如果适用的话,入射角α和其他条件,诸如场景中的照明源的光谱轮廓或偏振参数)配置材料的模型,并且部分地基于材料的配置模型计算像素的颜色。材料的模型可以从不同标准材料的模型的集合或数据库中检索(例如,已经基于预期在由用于生成用于特定应用或使用场景的训练数据的合成数据生成器40生成的虚拟场景中描绘的材料(诸如在用于支持机器人制造电子设备的计算机视觉的情况下用于制造特定电子设备的组件的材料)的类型经验性地生成模型材料),其中模型是基于根据本公开的实施例的如上所述的捕获的真实材料的图像生成的。例如,在操作930中,合成数据生成器40可以确定虚拟场景中的物体的表面由黑色橡胶制成,在这种情况下,在操作970中加载和配置从黑色橡胶制成真实表面的捕获图像生成的材料的模型。
[0142]
在一些情况下,虚拟场景包括具有由不表示在材料的模型的数据库或集合中的材料制成的材料的物体。因此,本公开的实施例的一些方面涉及通过在由不同真实模型做出的预测之间进行插值来模拟在材料的模型的数据库中没有完全或类似匹配的材料外观。在一些实施例中,基于表征材料的参数集在嵌入空间中表示现有材料。更正式地说,可解释的材料嵌入m,使得f(m
glass

out

out
,x,,y)给出玻璃的偏振表面光场,其中观察者角度β由(θ
out

out
)表示,并且在表面上的位置(x,y)(映射到3-d表面上的(u,v)坐标空间)处,以及对于另一种材料(诸如橡胶)可以执行类似的嵌入f(m
rubber

out

out
,x,,y)。材料在嵌入空间中的这种嵌入可以随后使用例如beta变分自动编码器(vae)以可解释的方式进行参数化,然后进行插值以生成不直接基于经验收集样本的新材料,而是基于他们自己的经验收集样本分别构建的多个不同模型之间的插值。附加材料以这种方式的生成进一步扩展了根据本公开的实施例生成的合成训练数据的域随机性并且提高了基于该合成数据训练的深度学习模型的鲁棒性。
[0143]
本公开的各实施例涉及可以实施材料的模型的不同方式。
[0144]
在本公开的各种实施例中,表示材料的表面光场函数或brdf的模型使用,例如,基于深度学习的brdf函数(例如,基于深度神经网络(诸如卷积神经网络))、数学建模的brdf函数(例如,一组一个或多个封闭式方程或一个或多个可数学求解的开放式方程)或者使用线性插值的数据驱动的brdf函数来表示。
[0145]
在操作970中,合成数据生成器40基于当前参数(诸如入射角α和观察者角β)配置操作950中标识的材料的模型。在使用线性插值的数据驱动brdf函数的情况下,在操作970中,合成数据生成器40检索操作950中标识的在参数空间中最接近当前光线的参数的材料的图像。在一些实施例中,材料被索引(例如,被存储在数据库或其他数据结构中),并且根据材料类型、照明类型、光的入射角和相机相对于材料的表面法线的角度(例如,观察者角度)来访问。然而,本公开的实施例不限于上面列出的参数,并且可以使用其他参数,取决于成像模态的特性。例如,对于一些材料,入射角和/或照明类型可能对材料的外观没有影响,因此这些参数可省略且不需要作为方法900的一部分来确定。
[0146]
因此,在具有线性插值的数据驱动的brdf函数的情况下,在操作970中,合成数据生成器40检索最接近与正在渲染的当前像素相关联的当前光线的给定参数的一个或多个图像。例如,观察者角度可能与物体的表面法线的成53
°
,并且真实世界材料的样本可能包括以间隔5
°
的观察者角度捕获的图像,在这个例子中,相对于由感兴趣的材料制成的真实世界物体的表面法线成50
°
和55
°
捕获的图像。因此,将检索在50
°
和55
°
捕获的真实世界材料的图像(在使用附加参数的情况下,这些参数(诸如入射角和照明类型)将进一步标识将要检索的特定图像)。
[0147]
继续具有线性插值的数据驱动的brdf函数的示例,操作990,合成数据生成器40基于最接近的图像计算像素的表面的颜色。在只有一个匹配图像的情况下(例如,如果虚拟场景中的观察者角度与采样图像中的一个的观察者角度匹配),则直接使用该采样图像用于计算表面的颜色。在有多个匹配图像的情况下,合成数据生成器40对多个图像的颜色进行插值。例如,在一些实施例中,使用线性内插在多个图像之间进行插值。更具体地,如果观察者角度在相对于表面法线的方位角和相对于照明源的入射角的极角中具有不同的观察者角度的四个不同样本图像之间,则可以使用双线性插值来沿着方位角方向和极方向在四个图像之间进行插值。作为另一示例,如果材料的外观还取决于入射角,则可以基于在不同入射角捕获的图像执行进一步的插值(同时对于不同入射角度中的每个在不同观察者角度捕获的图像之间进行插值)。因此,在操作990中,基于组合从真实世界材料的一个或多个捕获的图像,为当前像素计算场景的表面的颜色。
[0148]
在模型是深度学习网络的本公开的一些实施例中,用包括训练深度神经网络以直接从参数集预测双向反射函数的值的模型实施材料的表面光场函数。更详细地,从多个不同姿势捕获的真实材料的图像(如上例如关于图7和图8所描述的)被用来生成与材料的一部分(例如,图像的中心处)的观察到的外观的参数(诸如观察者角度β、入射角α、照明源的光谱特性等)有关的训练数据。因此,在一些实施例中,深度神经网络被训练(例如,应用反向传播),以基于从收集的真实材料的图像中收集的训练数据估计brdf函数。在这些实例中,在操作970中通过以下方式配置模型:如果有多个深度神经网络,则从与该模型相关联的多个深度神经网络中选择一个深度神经网络(例如,基于虚拟场景的参数与用于训练深度神经网络的数据的参数(诸如照明源的参数)相匹配而选择),并且将参数提供给选定的
深度神经网络(或唯一的深度神经网络,如果仅有一个与模型相关联的深度神经网络)的输入(诸如观察者角度β、入射角α等)。在操作990中,合成数据生成器40通过前向传播通过深度神经网络以计算输出处的颜色来从配置的模型计算虚拟物体的表面的颜色,其中计算的颜色是如配置的模型的深度神经网络所预测的虚拟场景的表面的颜色。
[0149]
在模型是深度神经网络的本公开的一些实施例中,用包括一个或多个条件生成对抗网络的模型实施材料的表面光场函数(参见,例如,goodfellow,ian等人的"generative adversarial nets."advances in neural information processing systems.2014.)。每个条件生成对抗网络可以被训练为基于随机输入以及一个或多个条件生成材料的图像,其中条件包括观察表面的当前参数(例如,观察者角β、每个照明源的入射角α、每个照明源的偏振状态以及表面的材料属性)。根据一些实施例,以对抗性方式训练鉴别器,以基于输入图像和与图像相关联的一组条件来确定输入图像是在给定条件下捕获的真实图像还是由条件生成器基于该组条件生成的真实图像。通过交替地重新训练生成器以生成可以

欺骗

鉴别器的图像并且训练鉴别器在生成的图像和真实图像之间进行鉴别,生成器被训练为生成在各种捕获条件下(例如,在不同的观察者角度)捕获的材料的真实图像,从而使得经训练的生成器能够表示材料的表面光场函数。在本公开的一些实施例中,针对相同材料的不同条件(诸如针对不同类型的照明源、照明源的不同偏振状态等)训练不同的生成对抗网络。在这些实施例中,在操作970中通过以下方式配置模型:如果有多个与模型相关联的条件生成对抗网络(gan),则从多个与模型相关联的条件gan选择一个条件gan(例如,基于虚拟场景的参数与用于训练深度神经网络的数据的参数(诸如照明源的参数)相匹配来选择),并且提供虚拟场景的参数作为条件gan的条件,诸如观察者角β、入射角α等。在操作990中,合成数据生成器40通过前向传播通过条件gan以计算输出处(例如,基于当前参数的物体的表面的合成图像)的颜色来从配置的模型计算虚拟物体的表面的颜色,其中计算的颜色是如由配置的模型的条件gan生成的虚拟场景的表面的颜色。
[0150]
在本公开的一些实施例中,表面光场函数使用封闭形式的数学推导的双向反射分布函数(brdf)来建模,该双向反射分布函数由(如诸如根据关于图8所描述的方法从不同角度捕获的)真实材料的经验收集样本(例如,图片或照片)配置。例如,在ramamoorthi,ravi和pat hanrahan的"a signal-processing framework for inverse rendering."proceedings of the 28th annual conference on computer graphics and interactive techniques.2001.以及ramamoorthi,ravi的a signal-processing framework for forward and inverse rendering.stanford university,2002,52

79.中,描述了用于基于从不同角度或姿势收集的材料的图片或照片配置brdf的技术的示例。因此,在一些实施例中,封闭形式的数学推导的brdf是使用真实材料的经验收集样本配置的,并且被包括为用于对材料的多模态和/或全光特性建模的材料模型的组件,所述材料模型的组件用于计算机渲染虚拟场景的多模态和/或全光图像。
[0151]
在一些实施例中,由双模态或多模态的多种材料制成的虚拟物体对于所讨论的虚拟物体中使用的每种材料类型将具有类似的图像集。然后,在图像的最终渲染中组合不同材料的外观(例如,根据与虚拟模型中的每个材料相关联的权重相加组合)。在一些实施例中,这种组合多种材料的相同方法也被应用于多层材料,诸如闪亮材料上的透明图层等。在一些实施例中,多层材料通过单独采样多层材料(例如,捕获其图像)来建模。
[0152]
根据本公开的实施例的使用材料的经验模型的渲染过程的最终效果是,最终渲染具有接近真实环境中的真实偏振信号的仿真偏振信号。经验模型在渲染虚拟环境中描绘的材料的准确性取决于虚拟环境的条件与捕获真实世界材料的样本的条件的匹配程度(例如,虚拟场景中的照明源的光谱轮廓与真实世界照明光源的匹配程度,虚拟场景中的观察者角度与执行采样时使用的观察者角度的匹配程度等)。
[0153]
如上所述,虽然本文在模拟或仿真偏振的外观的背景下描述了本公开的实施例的方面,但是本公开的实施例不限于此。材料在多模态成像模态和/或全光成像模态(诸如热成像、具有偏振的热成像等)下的外观也可以根据本公开的实施例来捕获。例如,材料在热成像模态(例如,红外成像)中的行为类似地可以通过使用与图7所示布置类似的布置的热像仪和图8中所描述的方法从多个姿势捕获材料的图像进行建模。基于这些捕获的图像,然后可以通过检索对应的图像并且在必要时以与图9所示的方式类似的方式插值图像在3-d渲染引擎中模拟材料在热成像下的外观。
[0154]
因此,本公开的一些实施例涉及用于通过使用虚拟场景中的材料的经验模型渲染虚拟场景的图像生成虚拟场景在它们在各种成像模态(诸如偏振成像和热成像)下出现时的合成图像数据的系统和方法。在一些实施例中,这些经验模型可以包括使用一个或多个成像模态(诸如偏振成像和热成像)捕获的真实世界物体的图像。然后,这些合成图像数据可以用于训练机器学习模型,以对由使用这些成像模态的成像系统捕获的图像数据进行操作。
[0155]
本公开的实施例的一些方面涉及生成通常从成像数据生成的关于图像特征的合成数据。作为一个具体示例,本公开的实施例的一些方面涉及生成偏振表示空间的(例如,线性偏振度或dolpρ和线性偏振角或aolpφ的)合成特征或张量。如上所述,偏振形状(sfp)提供了dolpρ和aolpφ与物体的表面法线的折射率(n)、方位角(θa)和天顶角(θz)之间的关系。
[0156]
因此,实施例的一些方面涉及基于虚拟场景的表面的折射率(n)、方位角(θa)和天顶角(θz)(其都是虚拟3-d场景的已知参数)生成虚拟场景的对虚拟相机可见的表面的合成的线性偏振度或dolpρ和线性偏振角或aolpφ。
[0157]
图10是描绘根据本公开的一个实施例的用于计算虚拟场景的偏振表示空间的合成特征或张量的方法1000的流程图。在操作1010中,合成数据生成器40渲染法线图像(例如,每个像素对应于虚拟场景在该像素处的表面法线的方向的图像)。每个分量处的法向量包括方位角θa分量和天顶角θz分量。在操作1030中,合成数据生成器40将法线图像的每一点处的法向量分成两个分量:该像素处的方位角θa和天顶角θz。如上所述,这些分量可以通过使用来自用于漫射的情况的偏振方程(2)和(3)以及用于镜面情况的方程(4)和(5)的形状被用来计算dolpρ和aolpφ的估计值。为了模拟真实的偏振误差,在本公开的一些实施例中,合成数据生成器40在应用偏振方程(例如,偏振方程(2)、(3)、(4)和(5))之前将半全局扰动应用于法线图。该扰动改变了法线的大小同时保留了法线的梯度。这模拟了由物体的材料特性以及它们与偏振的相互作用导致的误差。在操作1050中,对于给定的像素,合成数据生成器40基于虚拟场景中的物体的参数确定物体的表面的材料(例如,与法线图中的每个像素处的表面相关联的材料),并且根据3-d渲染技术与场景的几何形状结合使用该材料,以确定该给定像素是否是镜面主导的。如果是,则合成数据生成器40在操作1092中基于
镜面方程(4)和(5)计算dolpρ和aolpφ。如果否,则合成数据生成器40在操作1094中基于漫射方程(2)和(3)计算dolpρ和aolpφ。
[0158]
在一些实施例中,假定所有表面都是漫射的,并且因此可以省略操作1050和操作1070,并且基于来自用于漫射的偏振方程(2)和(3)的形状计算合成的dolpρ和aolpφ。
[0159]
在一些实施例中,通过应用颜色图(诸如

viridis

颜色图或

jet颜色图)将合成的dolpρ和aolpφ数据渲染成彩色图像(参见,例如,liu,yang和jeffrey heer的"somewhere over the rainbow:an empirical assessment of quantitative colormaps."proceedings of the 2018chi conference on human factors in computing systems.2018.)。偏振空间的合成张量的这些颜色映射版本可以更容易地提供为用于重新训练预训练的机器学习模型(诸如卷积神经网络)的输入。在一些实施例中,在合成dolpρ和aolpφ数据时,对各种合成数据应用随机颜色图使得合成的训练数据集包括各种不同颜色图中表示dolpρ和aolpφ数据的彩色图像,使得在推理时间,网络将能够执行预测而不考虑用于编码真实dolpρ和aolpφ数据的特定颜色图。在本公开的其他实施例中,对所有合成的dolpρ和aolpφ数据应用相同的颜色图(或者第一颜色图被用于dolpρ并且不同的第二颜色图被用于aolpφ),并且在推理时间,对在偏振表示空间中提取的张量应用颜色图以匹配合成训练数据(例如,相同的第一颜色图被用于编码从捕获的真实偏振原始帧中提取的dolpρ并且相同的第二颜色图被用于编码从捕获的真实偏振原始帧中提取的aolpφ)。
[0160]
因此,本公开的实施例的一些方面涉及合成特定于特定成像模态的表示空间的特征,诸如通过合成偏振成像模态的偏振表示空间的dolpρ和aolpφ。
[0161]
本公开的实施例的一些方面涉及用于生成用于训练机器学习模型的合成图像的上述技术的组合。图11是描绘根据本公开的一个实施例的用于生成训练数据集的方法的流程图。代表目标域的一个或多个虚拟场景可以如上所述生成(例如,对于生成组件箱的图像,通过选择的组件的一个或多个3-d模型并将3-d模型的实体投放到容器中)。例如,本公开的实施例的一些方面涉及基于以下内容形成训练数据集:(1)在操作1110中仅通过域随机化生成的图像,(2)在操作1112中仅通过纹理映射生成的(例如,根据图9的实施例生成的)图像,以及(3)在操作1114中仅通过法线映射生成的(例如,根据图10的实施例生成的)图像。
[0162]
此外,训练数据集可以包括使用通过在不同的经验生成模型之间进行插值生成的(如上文所述的嵌入空间的参数化的)材料的模型生成的图像。
[0163]
在本公开的一些实施例中,通过在将图像添加到训练数据集之前在操作1120、1122和1124中分别对生成的图像应用风格迁移或其他的滤波器来进一步处理根据(1)域随机化、(2)纹理映射和(3)法线映射生成的图像。应用风格迁移导致看起来与使用上述三种技术生成的略有不同的图像具有更一致的外观。在一些实施例中,风格迁移过程将合成的输入图像转换为看起来更类似于基于感兴趣的成像模态(例如,导致使用(1)域随机化生成的图像以及使用(3)法线映射生成的特征图看起来更像偏振原始帧)或者通过使合成的输入图像看起来更像人造的(诸如通过对输入图像应用不真实的绘画风格(例如,导致使用(1)域随机化生成的图像、(2)使用纹理映射的渲染以及使用(3)法线映射生成的特征映射看起来像用画笔在画布上绘制的画))捕获的图像。
[0164]
在一些实施例中,神经风格迁移网络被训练并用于在操作1122中对针对训练数据集选择的图像执行风格迁移,诸如用于复杂全局风格迁移的sytlegan(参见,例如,karras,tero等人的"analyzing and improving the image quality of stylegan."proceedings of the ieee/cvf conference on computer vision and pattern recognition.2020.);用于本地风格迁移的基于补丁的网络(参见,例如,chen,tian qi和mark schmidt的"fast patch-based style transfer of arbitrary style."arxiv preprint arxiv:1612.04337(2016).);以及使用域适应的网络(参见,例如,dundar,aysegul等人的"domain stylization:a strong,simple baseline for synthetic to real image domain adaptation."arxiv preprint arxiv:1807.09384(2018).)。因此,训练数据集中的所有图像可以具有类似的风格或外观,无论图像是通过什么方法获得的(如通过风格迁移操作转换的)(例如,是否通过(1)域随机化、(2)纹理映射、(3)法线映射或其他的来源,诸如如使用实施感兴趣的模态(诸如偏振成像或热成像)的成像系统捕获的物体的真实图像)。
[0165]
在本公开的一些实施例中,训练数据集的图像是从基于困难样本挖掘(参见,例如,smirnov,evgeny等人的"hard example mining with auxiliary embeddings."proceedings of the ieee conference on computer vision and pattern recognition workshops.2018.)从合成数据集(1)、(2)和(3)中采样的。使用困难样本挖掘对合成的数据集进行采样可以通过减少训练集的大小以去除对训练过程影响不大的大量冗余图像同时保留对所得到的训练模型有更大影响的

困难样本

来提升训练过程的效率,。
[0166]
如上面简要提及的,当生成用于监督学习的训练数据时,合成数据生成器40还自动生成合成的图像的标签(例如,期望输出)。例如,当生成用于训练机器学习模型以执行图像分类任务的训练数据时,为给定的图像生成的标签可以包括图像中描绘的物体的类别。可以通过标识虚拟场景中可见的物体的每个独特种类生成这些类别标签。作为另一示例,当生成用于训练机器学习模型以执行实体分割任务的训练数据时,生成的标签可以包括其中每个物体的每个实体连同其类别(例如,其中相同种类的物体具有相同的类别标识符)被唯一地标识(例如,用不同实体标识符)的分割图。例如,可以通过追踪从相机到虚拟场景的光线来生成分割图,其中每条光线可以与虚拟场景的某个第一表面相交。分割图的每个像素都基于包含由从相机发出的光线通过像素撞击的表面的物体的实体标识符和类别标识符相应地标记。
[0167]
如上所述,并参考图1,由合成数据生成器40生成的合成数据42的结果训练数据集然后被模型训练系统7用作训练数据6来训练模型30(诸如预训练的模型或用随机参数初始化的模型),以产生经训练的模型32。在根据偏振成像模态生成训练数据的情况下继续上面提出的例子,训练数据集5可以用于训练模型30,以对偏振输入特征(诸如偏振原始帧(例如,通过纹理映射生成的图像)和偏振表示空间的张量(例如,通过法线映射生成的图片))进行操作。
[0168]
因此,包括合成数据42的训练数据5被用于训练或重新训练机器学习模型30以执行基于特定成像模态的计算机视觉任务,例如,根据偏振成像模态的合成数据可以被用于重新训练可能已经被预训练以基于标准色彩图像执行实体分割的卷积神经网络,以基于偏振输入特征执行实体分割。
[0169]
在部署中,基于根据本公开的实施例生成的训练数据训练的经训练的模型32随后
被配置为获取类似于训练数据(诸如偏振原始帧和/或偏振表示空间的张量)的输入(其中通过生成训练数据时应用相同的风格迁移(如果有)进一步修改这些输入图像)来生成预测的输出(诸如分割图)。
[0170]
虽然本文关于偏振成像模态描述了本公开的一些实施例,但是本公开的实施例不限于此并且包含多模态成像模态和/或全光成像模态,诸如热成像、具有偏振(例如,具有偏振滤波器)的热成像和紫外成像。在使用不同模态的这些实施例中,使用实施这些模态的成像系统从真实世界材料捕获的真实世界图像样本被用来生成材料在它们将在这些成像模态下出现时的模型,并且材料相对于这些模态的表面光场函数如上所述被建模(例如,使用深度神经网络、生成网络、线性插值、显式数学模型等)并且被用于使用3-d渲染引擎根据这些模态来渲染图像。然后,模态中的渲染图像可以用于训练或重新训练一个或多个机器学习模型(诸如卷积神经网络),以基于使用这些模态捕获的输入图像执行计算机视觉任务。
[0171]
因此,本公开的实施例的各方面涉及用于生成模拟或合成数据的系统和方法,所述模拟或合成数据代表由使用各种不同成像模态(诸如偏振、热、紫外线和其组合)的成像系统捕获的图像数据。模拟或合成数据可以被用来作为训练数据集和/或被用来增强训练数据集,以用于训练机器学习模型对使用与模拟或合成数据的成像模态相对应的成像模态捕获的数据执行任务,诸如计算机视觉任务。
[0172]
虽然已经结合某些示例性实施例描述了本发明,但是应理解,本发明不限于所公开的实施例,相反旨在涵盖包括在所附权利要求书及其等价物的精神和范围内的各种修改和等效布置。
[0173]
在本公开的一些实施例中,执行操作的顺序可能与图中描绘和本文中描述的顺序不一致。例如,虽然图6描绘了用于生成合成图像的方法的一个示例,但是本公开的实施例不限于此。例如,图6中示出的一些操作可以以不同顺序执行或者可以同时执行。作为具体示例,在本公开的各种实施例中,可以在操作690中基于指定的成像模态渲染3-d场景之前以各种顺序执行在虚拟场景610中放置物体的3-d模型、向虚拟场景630添加照明、将模态特定的材料应用到虚拟场景650中的物体以及设置场景背景670的操作。作为另一示例,虽然图8描绘了其中在将真实世界物体放置到场景中之后在真实世界的场景中放置照明的实施例,但是本公开的实施例不限于此,并且可以在将真实世界物体放置在场景中之前将照明添加到场景中。
[0174]
在本公开的一些实施例中,可以省略或不执行一些操作,并且在一些实施例中,可以在本文中所描述的各种操作之前、之后或之间执行本文中没有描述的附加操作。
再多了解一些

本文用于创业者技术爱好者查询,仅供学习研究,如用于商业用途,请联系技术所有人。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献