利用卷积神经网络跟踪多个目标的图像处理的制作方法

2022-02-20 05:54:12 来源：中国专利 TAG：

1.以下涉及使用与卷积神经网络(cnn)适配的计算设备处理图像，包括视频图像，其中此类计算设备可以包括面向消费者的智能手机或平板电脑，更具体地涉及使用cnn跟踪的图像处理(例如语义分割)多个对象，例如视频中的指甲。

背景技术：

2.指甲跟踪问题是从视频流中以像素精度实时定位和识别指甲。此外，需要支持渲染技术以适配来自视频流的图像，例如提供增强现实。可能需要在图像中定位和识别除指甲之外的对象，包括在视频流中。

技术实现要素：

3.提出了一种端到端的解决方案，用于同时实时跟踪指甲和指甲油的渲染。收集了具有语义分割和地标标签的全新数据集。为移动设备开发了高分辨率神经网络模型，并使用新数据集进行训练。除了提供语义分割外，该模型还提供方向性信息，例如指示方向。为指甲油试用提供后处理和渲染操作，这些操作至少使用模型的一些输出。
4.尽管关于指甲进行了描述，但是可以类似地处理其他对象以用于分割和用于图像更新。此类其他物体也可能是具有简单边界的小物体(例如指甲、脚趾甲、鞋子、汽车(乘用车)、车牌或汽车上的汽车零件等)。这里的术语“小”是与比例和整个图像的尺寸相关的相对术语。例如，与在包括指甲的图像中捕获的手的尺寸相比，指甲相对较小。远处成像的一组汽车中的汽车与在桌子上成像的一组李子(或其他水果)相似地小。该模型非常适合于泛化，以对具有已知计数和群集的对象集合进行分类(如这里，对手的指尖进行分类)。
5.提供了一种计算设备，其包括处理器和与其耦接的存储设备，存储设备存储cnn和指令，当由处理器执行时，指令将计算设备配置为：利用cnn处理包括多个对象的图像，cnn被配置为语义上分割图像内的多个对象，cnn包括级联语义分割模型架构，该级联语义分割模型架构具有：提供低分辨率特征的深度学习的第一分支；以及提供高分辨率特征的浅层学习的第二分支；其中，cnn组合来自第一分支和第二分支的相应预测以输出包括前景/背景和对象类分割的信息。
6.cnn可以组合来自第一分支和第二分支的相应预测，使得从cnn输出的信息还包括方向性信息。
7.第一分支可以包括产生第一分支的相应预测的编码器-解码器骨干。第一分支的相应预测包括在第一分支的编码器阶段之后产生的初始预测与在第一分支的解码器阶段的进一步处理之后产生的进一步预测的组合。可以使用第一分支融合块来组合初始预测和进一步预测，以产生第一分支的相应预测，以提供与第二分支的相应预测的进一步组合。
8.第二分支的相应预测可以在第二分支的编码器阶段的处理之后产生，与第一分支级联。可以使用第二分支融合块将第一分支的相应预测(f1)与第二分支的相应预测(f2)组合。f1可以包括上采样的低分辨率、高语义信息特征并且f2可以包括高分辨率、低语义信息
特征。因此，第二个分支融合块将f1和f2组合在一起，以在第二个分支的解码器阶段产生高分辨率融合特征f2'。cnn可以使用应用于相应预测f1的卷积分类器来生成下采样类标签。为了处理f2，cnn可以使用多个输出解码器分支来生成前景/背景和对象类分割以及方向性信息。
9.多个输出解码器分支可以包括：第一输出解码器分支，具有产生前景/背景分割的1x1卷积块和激活函数；第二个输出解码器分支，具有产生对象类分割的1x1卷积块和激活函数；以及第三个输出解码器分支，具有产生方向性信息的1x1卷积块方向性信息。
10.cnn可以使用用于克服语义分割中的逐像素(pixel-wise)类不平衡的损失最大池(lmp)损失函数进行训练，以确定前景/背景分割。
11.可以使用负对数似然损失(nll)函数对cnn进行训练，以确定前景/背景和对象类分割。
12.可以使用huber损失函数来训练cnn，以确定方向性信息。
13.每个对象可以包括基部和尖端，并且方向性信息可以包括基部-尖端方向场。
14.可以使用mobilenetv2编码器-解码器结构来定义第一分支，并且可以使用来自mobilenetv2编码器-解码器结构的编码器结构来定义第二分支。cnn最初可以使用来自imagenet的训练数据进行训练，然后使用对象跟踪数据集对标记有地面实况的多个对象进行训练。
15.这些指令可以将计算设备进一步配置为执行图像处理，以使用输出的信息中的至少一些从图像产生更新的图像。为了执行图像处理，可以使用前景/背景和对象类分割以及方向性信息中的至少一些来改变外观，诸如多个对象的颜色。
16.计算设备可以包括相机，并且被配置为：呈现用户界面以接收应用于多个对象的外观选择，并且从相机接收自拍视频图像以用作图像；处理自拍视频图像以使用外观选择产生更新的图像；并且显示更新后的图像以模拟增强现实。
17.计算设备可以包括智能手机或平板电脑。
18.图像可以包括手的具有指甲的至少一部分，并且多个对象可以包括指甲。cnn可以被定义为提供输出信息的拉普拉斯金字塔。
19.提供了一种计算设备，该计算设备包括处理器和与其耦接的存储设备，该存储设备存储指令，当该指令被该处理器执行时，将计算设备配置为：接收用于由cnn语义分割的多个对象中的每一个的前景/背景和对象类分割以及方向性信息的cnn输出，该cnn已经处理了包括多个对象的图像；并且通过在根据前景/背景分割(和对象类分割)分割的多个对象中的每一个上绘制所选颜色的梯度来处理图像以产生更新的图像，所选颜色垂直于由方向性信息所指示的每个对象的相应方向绘制。
20.计算设备可以被配置为在梯度上为多个对象中的每一个应用相应的镜面反射分量并且混合结果。
21.计算设备可以被配置为在绘制之前，拉伸由前景/背景分割所标识的多个对象中的每一个的相应区域，以确保包括诸如其尖端的边缘用于绘制。计算设备可以被配置为，在绘制之前，利用从多个对象确定的平均颜色，对在拉伸的多个对象中的每一个的相应区域之外的至少一些相邻区域进行着色；并且使拉伸的多个对象中的每一个的相应区域和相邻区域模糊。
22.计算设备可以被配置为接收在绘制时使用的所选颜色。
23.提供了一种计算设备，其包括处理器和与其耦接的存储设备，存储设备存储cnn和指令，当由处理器执行时，指令将计算设备配置为：利用cnn处理包括多个对象的图像，cnn被配置为语义上分割图像内的多个对象，cnn包括级联语义分割模型架构，该级联语义分割模型架构具有：提供低分辨率特征的深度学习的第一分支；以及提供高分辨率特征的浅层学习的第二分支；其中，cnn组合来自第一分支和第二分支的相应预测以输出包括前景/背景和对象类分割的信息，并且其中，使用损失平均轮询损失函数对cnn进行训练。
24.图像包括多个像素，并且图像内的多个对象由少量的多个像素表示。cnn可以组合来自第一分支和第二分支的相应预测，以进一步输出包括对象类分割的信息，并且其中，使用nll损失函数对cnn进行进一步训练。cnn可以组合来自第一分支和第二分支的相应预测以进一步输出包括方向性信息的信息，并且可以使用huber损失函数或l2损失函数对cnn进行进一步训练。
25.cnn可以被定义为提供输出信息的拉普拉斯金字塔。
26.提供了一种计算设备，包括处理器和与其耦接的存储设备，该存储设备存储指令，当由处理器执行时，该指令将计算设备配置为：提供注释图像数据集的图形用户界面(gui)以训练cnn，gui具有显示要注释的相应图像的图像显示部分，该显示部分配置为接收勾勒(分割)相应图像中显示的相应对象的输入，以及接收指示相应图像中的每一个的方向性信息的输入；接收注释图像的输入；以及将与注释相关联的图像保存以定义数据集。
27.计算设备可以被配置为提供控制以接收对各个对象中的每一个进行语义分类的输入。
28.cnn可以被配置为语义上分割图像内的多个对象，cnn包括级联语义分割模型架构，该级联语义分割模型架构具有：提供低分辨率特征的深度学习的第一分支；和提供高分辨率特征的浅层学习的第二分支；其中，cnn组合来自第一分支和第二分支的相应预测以输出包括前景/背景和对象类分割的信息。
29.计算设备可被配置为具有本文中的计算设备方面或特征中的任一者。显然，为每个计算设备方面和特征提供了相关的方法方面和特征以及相关的计算机程序产品方面和特征。这些和其他对于本领域普通技术人员将是显而易见的。
附图说明
30.图1是根据示例的图形用户界面(gui)的屏幕截图，利用该图形用户界面(gui)定义数据集的注释数据。
31.图2是根据示例的gui的屏幕截图的一部分，利用该图形用户界面(gui)定义数据集的注释数据。
32.图3是根据示例的处理图像的cnn的图示。
33.图4和图5分别是图3的cnn的部分的图示。
34.图6是根据本文的示例使用cnn处理的4
×
4图像阵列，示出了前景和背景掩模和方向性信息。
35.图7a-7c是图6的放大部分。
36.图8是根据本文的示例使用cnn处理的4
×
4图像阵列，示出对象类分割掩模对各个
指甲的应用的示例。
37.图9是图8的放大部分。
38.图10是操作的流程图
39.图11是用于操作的伪代码的图示。
40.通过本发明的某些实施例最好地描述本发明构思，在此参照附图对其进行描述，其中相同的附图标记始终指代相同的特征。应当理解，术语“发明”在本文中使用时意在暗示作为下面描述的实施例的基础的发明构思，而不仅仅是实施例本身。还应当理解的是，本发明的总体构思不限于下面描述的说明性实施例，并且应当根据这样的角度来阅读下面的描述。可以示出和描述多于一个的发明概念，并且除非另外说明，每个发明概念可以独立地或与一个或多个其他发明概念组合。
具体实施方式
41.提出了一种端到端的解决方案，用于同时实时跟踪指甲和指甲油的渲染。收集了具有语义分割和地标标签的全新数据集。为移动设备开发了高分辨率神经网络模型，并使用新数据集进行训练。除了提供语义分割外，该模型还提供方向性信息，例如指示方向。为指甲油试用提供后处理和渲染操作，这些操作至少使用模型的一些输出。
42.尽管关于指甲进行了描述，但是可以类似地处理其他对象以用于分割和用于图像更新。此类其他物体也可能是具有简单边界的小物体(例如指甲、脚趾甲、鞋子、汽车(乘用车)、车牌或汽车上的汽车零件等)。这里的术语“小”是与比例和整个图像的尺寸相关的相对术语。例如，与在包括指甲的图像中捕获的手的尺寸相比，指甲相对较小。远处成像的一组汽车中的汽车与在桌子上成像的一组李子(或其他水果)相似地小。该模型非常适合于泛化，以对具有已知计数和群集的对象集合进行分类(如这里，对手的指尖进行分类)。
43.经过培训的模型部署在两个硬件平台上：ios
tm
通过core ml
tm
(例如，苹果公司产品上的本地应用程序实现，如iphone
tm
支持这样的环境)，以及通过tensorflow.js[1](更不可知平台)的web浏览器。以下是苹果公司的商标：ios、core ml和iphone。模型和后处理操作足够灵活，以支持更高计算的本机ios平台以及更多资源受限的web平台，只对模型架构进行了微小的调整，并且对性能没有任何重大的负面影响。
[0044]
所选特征如下：
[0045]
·
创建了一个数据集，包括来自照片和视频的1438个图像，并用前景背景、每个手指类别和基部-尖端方向场标签进行注释。
[0046]
·
提出了一种新的用于语义分割的神经网络结构，该结构既适用于在移动设备上运行，又适用于对小对象进行精确分割。
[0047]
·
已经证明，损失最大池具鲁棒性地产生小对象的精确分割掩模，这导致空间(或逐像素)类不平衡。
[0048]
·
开发了后处理操作，其使用来自指甲跟踪模型的多个输出来分割指甲和定位单个指甲，以及找到它们的2d方向。
[0049]
·
后处理(包括渲染)操作使用这些单独的指甲位置和方向来渲染梯度，并隐藏自然指甲的浅色远侧边缘。
[0050]
5.1相关工作
[0051]
mobilenetv2[2]构成了编码器-解码器神经网络体系结构编码器的基础。本工作以mobilenetv2为基础，将其作为级联语义分割模型体系结构中的骨干。此外，该模型与所使用的特定编码器模型是不可知的，因此来自文献[3，4，5，6]的任何现有有效模型都可以用作编码器的直接替代品，任何未来的有效模型，包括手工设计和自动发现的模型(例如，通过网络修剪)也可以使用。mobilenetv2满足效率要求，以使得能够在诸如智能手机中可用的更小或更少资源(例如，具有比诸如膝上型计算机、台式计算机、游戏计算机等更大计算机更少的图形处理资源)上存储和执行模型。
[0052]
损失最大池(lmp)损失函数基于[7]，其中p范数参数固定为p＝1，因为这简化了函数，同时根据[7]将性能保持在最佳p范数参数性能的标准误差范围内。将lmp应用于指甲分割的本质类不平衡任务，实验进一步支持了lmp在克服语义分割中的像素级类不平衡方面的有效性。
[0053]
级联结构与icnet[8]有关，因为此处的神经网络模型结合了浅/高分辨率和深/低分辨率分支。与icnet不同的是，该模型被设计成运行在移动设备上，因此编码器和解码器完全根据这一要求进行了重新设计。
[0054]
5.2数据集
[0055]
由于缺乏专门针对指甲跟踪的先前工作，为此任务创建了一个全新的数据集。以自我为中心的数据是从参与者那里收集的，他们被要求拍摄他们的手的照片或视频，就好像他们在社交媒体上炫耀自己的指甲一样。
[0056]
使用多边形创建密集的语义分割标签，多边形是一种易于注释和精确的标签类型，用于诸如指甲之类的刚性对象。由于模型是在密集标签上训练的，多边形标注方法也可以用逐像素的标注来代替。图1和图2中示出的是用于通过三种标签类型的组合来创建指甲注释的接口100的示例。图1示出了具有部分102的界面100，部分102显示和接收要针对数据集注释的图像的输入。接口100还包括部分104，部分104具有多个控件，例如设置数据(例如，标志)的单选按钮控件。部分104中的其他控件可用于定义多边形和标记地标(例如尖端地标106a和基部地标106b)等。
[0057]
接口100因此启用：
[0058]
1.包围指甲像素的多边形(即，将前景指甲与背景分开)。
[0059]
2.每多边形类标签，以识别单个指甲。数据集中的每个多边形代表一个指甲，并被分类为十个指甲类别之一，即“左小指”、“右拇指”等，参见图2中的102。
[0060]
3.定义每个多边形方向的基部和尖端地标。指甲基部/尖端地标用于生成密集方向场，该密集方向场与输入图像具有相同的空间分辨率，并且每个像素具有表示该像素所属的指甲的从基部到尖端的x和y方向的一对值。
[0061]
新的带注释的数据集总共包括1438个带注释的图像，其基于贡献图像的参与者被分成训练、验证和测试集(即，每个参与者的图像仅属于训练、验证或测试)。分割数据集包含941、254和243个图像，每个图像分别在训练、验证和测试中。在实验中，模型在训练集上进行训练，并在验证集上进行评估。
[0062]
5.3模型
[0063]
指甲跟踪系统(例如，如本文所述配置的计算设备)的核心是经训练以输出前景/背景和指甲类分割以及方向性信息(例如，基部-尖端方向场)的编码器-解码器卷积神经网
络(cnn)架构。模型体系结构与icnet相关[8]，但是为了使模型足够快地运行在移动设备上，并产生多任务输出，进行了更改。模型体系结构的顶层视图如图3所示。
[0064]
图3示出了使用两个分支处理输入(图像)302的模型300。第一分支300a(图3中的上分支)包括块304-324。图3中的第二分支300b(下部)包括块326-338。应当理解，这些亮线区分可以被修改。例如，块326可以是第一分支300a的块。块304是下采样
×
2块。块306-320(也被称为stage_low1、stage_low2、...stage-low8)是进一步描述的编码器-解码器骨干(具有编码器相位和解码器相位)的块。块322是上采样
×
2块，块324是进一步描述的第一分支融合块。块326也是上采样x2块。块326-332(也被称为stage_high1、stage_high2、...stage-high4)是进一步描述的编码器阶段的块。编码器-解码器骨干基于mobilenetv2[2]。更多细节如表1所示。第二分支的编码器相位(框328-332)也基于mobilenetv2[2]的编码器建模。
[0065]
模型的编码器用mobilenetv2[2]在imagenet[9]上预先训练的模型权重进行初始化。使用了两个α＝1.0mobilenetv2编码器主干(即编码器相位)的级联，两者都在224
×
224imagenet图像上预训练。编码器级联(来自各个分支)由一个具有高分辨率输入的浅网络(stage_high1...4)和一个具有低分辨率输入的深网络(stage_low1...8)组成，这两个网络都是完整mobilenetv2的前缀。对于第一分支级6的低分辨率编码器，从步幅2改变为步幅1，并且为了补偿该改变，在级7和8中使用了扩张的2
×
卷积。因此，低分辨率编码器的输出步长相对于其输入为16
×
，而不是原始mobilenetv2中的32
×
。详细的逐层描述见表1。表1示出了指甲分割模型体系结构的详细概述。每个层名称对应于如本文所述的图3和图4中的块。高度h和宽度w是指全分辨率h
×
w输入尺寸。对于投影408和扩张层410，p∈{16，8}。对于阶段stage3_low到阶段7_low，括号中的信道数目用于阶段的第一层(未示出)，其增加到用于相同阶段中的后续层的未括号数目。
[0066][0067]
表1
[0068]
模型300的解码器被示出在图3的中间和右下角(例如，块324和336(包括融合块)以及上采样块322和326)，并且在图4中示出了块324和336中的每一个的解码器融合模型的详细视图。对于大小为h
×
w的原始输入，解码器将来自stage_low4(来自块312)的特征与来自stage_low8导出的块322的上采样特征融合，然后上采样(块326)，并经由融合块336将所得特征与stage_high4的特征融合(块334)。
[0069]
图4示出了使用块408、410、412和加法器414在解码器中用于将由特征映射f1(402)表示的上采样低分辨率、高语义信息特征与由特征映射f2(404)表示的高分辨率、低
语义信息特征融合以产生由特征映射f2′
(406)表示的高分辨率融合特征的融合模块400。关于框324，从框322输出特征映射f1(402)，并且从框312输出特征映射f2(404)。在326处对来自块324的特征映射f2′
(406)进行上采样，以提供给块336作为模型400的块实例中的特征映射f1(402)。在框336中，输出从框334接收的特征映射f2(404)，并且将特征映射f2′
(406)作为输出提供给框338。块338对输入分辨率/4进行上采样，然后将得到的特征图提供给解码器模型340。解码器模型340在图5中示出。解码器模型340产生图像的三种类型的信息(例如，3声道输出342)，如关于图5进一步描述的。
[0070]
如图4所示，将1
×
1卷积分类器412应用于上采样f1特征，其用于预测下采样标签。与[10]中一样，这种输出的“拉普拉斯金字塔”优化了更高分辨率、更小的接收场特征图，以专注于从低分辨率、更大的接收场特征图中改进预测。因此，在模型400中，来自块412的特征图(未示出)本身不用作输出。相反，在训练中，损失函数以金字塔输出正则化的形式应用(即图5中应用的损失)。
[0071]
框342表示来自解码器的一个全局输出，其包括与来自图5的三个分支502、504和506的块的输出相对应的三个通道。第一通道包括每像素分类(例如，前景/背景掩模或对象分割掩模)，第二通道包括将分割掩模分类为各个指尖类，并且第三通道包括每分割掩模像素的2d方向性矢量的场(例如，每像素(x，y))。
[0072]
如图5所示，解码器使用多个输出解码器分支502、504和506来提供在指甲尖端上渲染所需的方向性信息(例如，第三通道中从基部到尖端的矢量)，以及使用连接组件找到指甲实例所需的指甲类别预测(在第二通道中)。这些附加解码器被训练以产生仅在图像的带注释的指甲区域中出院于不利地位的密集预测。每个分支采用根据该示例的相应损失函数。而在分支502和504中示出了归一化指数函数(softmax)，可以使用用于分割/分类的另一激活函数。应当理解，这里的尺寸是代表性的，并且可以适用于不同的任务。例如，在图5中，分支502、504涉及10个类并相应地确定尺寸。
[0073]
二进制(即指甲与背景)预测与方向场预测一起在图6中可视化。即，图6示出了从被处理的输入图像产生的更新图像的4
×
4阵列600。前景/背景蒙版用于识别相应的指甲进行着色。指甲区域是逐像素着色的(尽管这里用灰度表示)，以显示与真实情况以及前景/背景蒙版中的假阳性和假阴性识别一致。阵列600的更新图像还显示了方向性信息。图6a、6b和6c示出了来自阵列600的放大图像602、604和606，带有注释，其中白色箭头指向假阳性区域而黑色箭头指向假阴性区域。在图像604中，显示了一种常见的故障模式，其中看不见的手姿势导致过度分割。在图像606中，示出了由于看不见的照明/指甲颜色组合而导致的欠分割的示例。预计可以通过添加相关的训练数据来改进这两种故障情况。
[0074]
每个手/手指组合(例如，左小指)的个体类别预测仅在指甲区域中在图8的4
×
4阵列800中可视化。图9示出了具有注释(白色箭头900)的放大图像802，注释指示一个类别(无名指)泄漏到另一个类别(中指)中。类泄漏的原因是由于相机的视角导致指甲重叠。这可以通过密集crf或引导滤波器后处理来改善。
[0075]
5.4推理(训练细节)
[0076]
神经网络模型是用pytorch[11]训练的。训练后的模型使用core ml部署到ios上，并使用tensorflow.js[1]部署到web浏览器上。
[0077]
数据增强包括对比度归一化和频率噪声α混合增强，以及随机尺度、宽高比、旋转
和裁剪增强。对比度归一化通过将每个像素值i
ij
缩放为127 α(i
ij-127)来调整对比度，其中，α∈[0.5,2.0]。频率噪声α混合使用频率噪声掩模混合两个图像源。从[1/2,2]开始有均匀的随机抽样比例放大，从[2/3,3/2]开始有展弦比拉伸放大，从
±
180
°
，开始有旋转放大，从给定的下采样训练图像的较短边长随机裁剪出边长为14/15的正方形图像。
[0078]
考虑到当前的软件实现，即core ml和tensorflow.js，以及当前的移动设备硬件，该系统可以在640
×
480(本地移动)和480
×
360(web移动)的所有分辨率下实时运行(即，在10fps)，模型分别在448
×
448和336
×
336的输入分辨率上训练。所有输入图像通过imagenet数据集的平均值和标准偏差归一化。mobilenetv2编码器骨干在imagenet上使用nestrov动量为0.9的sgd进行400个次的预训练，并在200和300个时期将10^(-2)的初始学习率降低10倍。
[0079]
码器-解码器模型在指甲跟踪数据集上训练400次。为了保留预先训练的权重值，对于所有预先训练的层，即stage_high1..4和stage_low1..8，使用5
×
10-3
的较低初始学习速率，而对于所有其他层，使用5x10-2
的初始学习速率。在前面的工作[12]之后，根据使用多项式衰减学习速率调度，其中l_t是迭代t处的学习速率，t是步骤的总数。使用的批次大小为32。优化器是sgd，nestrov动量为0.99，模型权重衰减为10-4
。在1.0时有限幅梯度。lmp损失函数将损失计算为具有最高损失值的10％像素的平均损失。
[0080]
5.5目标函数讨论
[0081]
为了处理背景(高代表类)和指甲(低代表类)之间的类不平衡，在目标函数中，通过按每个像素的损失幅度排序，对小批量中的所有像素使用损失最大池[7]，并将像素顶部10％以上的平均值作为小批量损失。研究发现，与仅将指甲类加权比背景高出20
×
的基线相比，使用最大损失池得到的增益为≈2％miou，其中miou的改善反映在沿着类边界更尖锐的指甲边缘外观上(原始基线始终过度分段)。
[0082]
使用了与图5所示模型的三个输出相对应的三个损失函数。指甲类和前景/背景预测都使等式1中给出的多项式分布的负对数似然性最小化，其中c是地面真值类，是模型对第c类的预softmax预测，并且是在(x,y)＝(i，j)处的像素的损失。
[0083][0084]
对于类预测，c∈{1，2，..，10}，而对于前景/背景预测，c∈{1，2}。lmp仅用于前景/背景预测；由于指甲类别预测仅在指甲区域中有效，所以这些类别是平衡的并且不需要lmp。
[0085][0086]
在式2中，阈值τ为第最高损失像素的损失值。[
·
]操作符为指标函数。
[0087]
对于方向场输出，对于地面实况指甲内的每个像素，在归一化的基础上对指甲的尖端方向应用了huber损失。这是为了在近似正确时不再强调场损失，因为渲染所需的全部是基部-尖端方向的近似正确性，这可以防止方向场损失减损二进制和类指甲分割损失。系统中也可以使用其他损失函数(例如l2和l1误差)来代替huber损失。
[0088][0089]
在等式3中，索引(i,j)覆盖所有空间像素位置，而k∈{0,1}索引基部-尖端方向向量的(x,y)方向。此外，每个标量场预测被归一化，使得向量vector是一个单位向量，即场方向标签也被归一化，使得对于方向场和指甲类损失不存在类不平衡问题，因此它们只是各自损失的均值，即各自损失的均值，即和其中n
class
＝h
×
w和n
field
＝2
×h×
w。整体损失为l＝l
fgbg
l
class
l
field
。
[0090]
5.6后处理和渲染
[0091]
来自模型的输出可用于处理输入图像以及产生和更新的图像。在方法1(参见图10)中，描述了一种后处理和渲染方法，该方法使用cnn模型的跟踪预测的输出在用户的指甲上绘制逼真的指甲油。该方法使用由指甲跟踪模块(使用cnn模型)预测的单个指甲位置和方向性信息来呈现渐变，并隐藏自然指甲的浅色远端边缘。
[0092]
图10示出了计算设备的操作1000。计算设备包括如这里所示和描述的cnn模型以及配置计算设备的指令。操作1000示出计算设备在步骤1002呈现用户界面(例如gui)以接收应用于多个对象(例如指甲)的外观选择。在1004，操作例如从计算设备的相机接收作为源图像。源图像可以是自拍静止图像或自拍视频图像作为待处理图像。在1006，指令将计算设备配置为处理图像以确定多个对象，在1008处理图像以应用外观选择，并且在1010产生示出应用的外观选择的更新图像。可以存在更新的图像(在1012)以模拟增强现实。
[0093]
图11示出了包括伪代码1100的“方法1”，用于在由cnn使用来自cnn的输出进行处理之后可以使用的操作。方法1显示了后处理和指甲油渲染操作。这些操作首先使用预测的指甲方向在每个指甲上绘制用户选择颜色的渐变，垂直于指甲方向，并被指甲罩遮住。然后，它从原始指甲复制镜面反射组件，并将它们混合到渐变之上。
[0094]
6杂集
[0095]
可以理解的是，在模型进行处理之前，可以使用预处理，例如产生所需尺寸的输入、将图像的所需部分居中、校正照明等。
[0096]
尽管关于指甲进行了描述，但本领域普通技术人员可以按照描述跟踪其他对象，并对本文的教导进行了修改。尽管颜色外观效果被描述为应用于产生更新的图像，但也可以使用其他外观效果。
[0097]
可以在所跟踪的对象的位置处或附近应用外观效果。除计算设备方面外，普通技
ieee conference on computer vision and pattern recognition(cvpr),june 2018.
[0107]
[3]xiangyu zhang,xinyu zhou,mengxiao lin,and jian sun.shufflenet:an extremely efficient convolutional neural network for mobile devices.in the ieee conference on computer vision and pattern recognition(cvpr),2018.
[0108]
[4]robert j wang,xiang li,and charles x ling.pelee:a real-time object detection system on mobile devices.in advances in neural information processing systems 31,2018.
[0109]
[5]forrest n.iandola,song han,matthew w.moskewicz,khalid ashraf,william j.dally,and kurt keutzer.squeezenet:alexnet-level accuracy with 50x fewer parameters and《0.5mb model size.arxiv:1602.07360,2016.
[0110]
[6]barret zoph,vijay vasudevan,jonathon shlens,and quoc v.le.learning transferable architectures for scalable image recognition.in the ieee conference on computer vision and pattern recognition(cvpr),2018.
[0111]
[7]samuel rota bul
ò
,gerhard neuhold,and peter kontschieder.loss max-pooling for semantic image segmentation.in the ieee conference on computer vision and pattern recognition(cvpr),2017.
[0112]
[8]hengshuang zhao,xiaojuan qi,xiaoyong shen,jianping shi,and jiaya jia.icnet for realtime semantic segmentation on high-resolution images.in eccv,2018.
[0113]
[9]j.deng,w.dong,r.socher,l.-j.li,k.li,and l.fei-fei.imagenet:a large-scale hierarchical image database.in the ieee conference on computer vision and pattern recognition(cvpr),2009.
[0114]
[10]golnaz ghiasi and charless c.fowlkes.laplacian reconstruction and refinement for semantic segmentation.in eccv,2016.
[0115]
[11]adam paszke,sam gross,soumith chintala,gregory chanan,edward yang,zachary devito,zeming lin,alban desmaison,luca antiga,and adam lerer.automatic differentiation in pytorch.in nips-w,2017.
[0116]
[12]liang-chieh chen,george papandreou,iasonas kokkinos,kevin murphy,and alan l.yuille.deeplab:semantic image segmentation with deep convolutional nets,atrous convolution,and fully connected crfs.arxiv preprint arxiv:1606.00915,2016.
[0117]
[13]c.grana,d.borghesani,and r.cucchiara.optimized block-based connected components labeling with decision trees.ieee transactions on image processing,2010.

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

利用卷积神经网络跟踪多个目标的图像处理的制作方法

相关文献

最热文献