一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

人物背景分离方法、装置、设备及存储介质与流程

2022-12-19 23:21:38 来源:中国专利 TAG:


1.本发明涉及视频图像处理技术领域,尤其涉及一种人物背景分离方法、 装置、设备及存储介质。


背景技术:

2.视频前景-背景分离又称视频抠图,是通过确定主体前景(如人物)的mask 遮罩,从而将前景从背景中提取出来方法,背景场景可分为绿幕背景、静态 背景、通用自然场景三种,由于通用自然场景不限制背景为特定场景或动态 场景,因此应用场景更具有普适性,但是往往技术难度也更大。现有技术采 用基于unet等u型结构模型的语义分割方案来解决通用自然场景中的前后景 分离,此类方案对数据标注要求低,因此可获取的数据量大,网络结构可以 满足一定的全局感受野,计算量适中,但图像结果边缘精度不足,细节缺失 或背景冗余,无法达到像素级分离。基于matting数据集的显著性检测方案, 此类方案可以覆盖精度要求,达到像素级处理,但是需要triplemap(黑白灰 三色图)作为前景背景的辅助信息,而非从原始图片即可得出结论,故而限 制了此方案的应用范围。
3.上述内容仅用于辅助理解本发明的技术方案,并不代表承认上述内容是 现有技术。


技术实现要素:

4.本发明的主要目的在于提供了一种人物背景分离方法、装置、设备及存 储介质,旨在解决现有技术无法解决在视频自然场景中人物-背景分离中出现 的前后景识别错误、边缘精细度差以及对数据要求高的的技术问题。
5.为实现上述目的,本发明提供了一种人物背景分离方法,所述方法包括 以下步骤:
6.获取待处理图像;
7.通过目标背景分离模型对所述待处理图像进行人物背景分离,所述目标 背景分离模型为经过维度训练和调优训练后的背景分离模型。
8.可选地,所述目标背景分离模型为经过维度训练和调优训练后的背景分 离模型之前,还包括:
9.获取人物数据集的人物姿势信息和人物边缘精度信息;
10.通过所述人物姿势信息和所述人物边缘精度信息对所述人物数据集进行 分组,获得粗糙人物数据集和精细人物数据集;
11.基于所述粗糙人物数据集和所述精细人物数据集对待优化背景分离模型 进行调优训练,获得目标背景分离模型,所述待优化背景分离模型为初始背 景分离模型经过维度训练后获得。
12.可选地,所述待优化背景分离模型为初始背景分离模型经过维度训练后 获得之前,还包括:
13.获取深度估计数据集;
14.基于深度估计数据集对所述初始背景分离模型进行维度训练,得到待优 化背景分离模型。
15.可选地,所述基于所述粗糙人物数据集和所述精细人物数据集对待优化 背景分离模型进行调优训练,获得目标背景分离模型,包括:
16.通过人体关键点模型对所述粗糙人物数据集和所述精细人物数据集进行 数据处理,得到人体关键点信息;
17.根据所述人体关键点信息制作人物单通道灰度图;
18.对所述人物数据集进行单通道处理,得到rgb三通道图;
19.将所述人物单通道灰度图和所述rgb三通道图合并,得到四通道输入数 据;
20.根据所述四通道输入数据对所述待优化背景分离模型进行调优训练,获 得目标背景分离模型。
21.可选地,所述根据所述四通道输入数据对待优化背景分离模型进行调优 训练,获得目标背景分离模型之前,还包括:
22.获取所述待优化背景分离模型的编码部分和解码部分;
23.将所述解码部分复制形成两个解码分支;
24.根据所述编码部分和所述两个解码分支对所述待优化背景分离模型进行 改造,得到改造后模型。
25.相应地,所述根据所述四通道输入数据对待优化背景分离模型进行调优 训练,获得目标背景分离模型,包括:
26.所述根据所述四通道输入数据对所述改造后模型进行调优训练,获得目 标背景分离模型。
27.可选地,所述根据所述四通道输入数据对所述改造后模型进行调优训练, 获得目标背景分离模型,包括:
28.向所述改造后的模型交替输入所述粗糙人物数据集和所述精细人物数据 集;
29.所述粗糙人物数据集和所述精细人物数据集共同训练所述编码部分,分 别独立训练所述两个解码分支,两个解码分支独立输出遮罩图像。
30.根据所述四通道输入数据和所述遮罩图像对所述改造后模型进行调优训 练,得到目标模型。
31.可选地,所述根据所述四通道输入数据和所述遮罩图像对所述改造后模 型进行调优训练,得到目标模型,包括:
32.根据所述四通道输入数据和所述遮罩图像进行损失计算,得到损失结果;
33.获取所述改造后模型的超参数;
34.根据所述损失结果通过梯度下降算法对所述超参数进行参数调整和更 新;
35.对所述改造后模型重复进行训练,在所述损失结果不再下降时,得到目 标模型。
36.此外,为实现上述目的,本发明还提出一种人物背景分离装置,所述装 置包括:
37.图像获取模块,用于获取待处理图像;
38.图像分离模块,用于通过目标背景分离模型对所述待处理图像进行人物 背景分离,所述目标背景分离模型为经过维度训练和调优训练后的背景分离 模型。
39.此外,为实现上述目的,本发明还提出一种人物背景分离设备,所述设 备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的 人物背景分离程序,所述人物背景分离程序配置为实现如上文所述的人物背 景分离方法的步骤。
40.此外,为实现上述目的,本发明还提出一种存储介质,所述存储介质上 存储有人物背景分离程序,所述人物背景分离程序被处理器执行时实现如上 文所述的人物背景分离方法的步骤。
41.本发明通过获取待处理图像,通过目标背景分离模型对所述待处理图像 进行人物背景分离,所述目标背景分离模型为经过维度训练和调优训练后的 背景分离模型。通过维度训练使得背景分离模型对图像中场景的理解扩展到 三维,参考图像的深度信息可以使得图像分离时边缘精细度达到像素级,通 过调优训练可以使得在数据有限时,明确人物主体信息并对边缘细节进行精 细化处理,以达到在利用目标背景分离模型处理自然场景中人物背景分离的 图像时,产生边缘精细度高以及前后景识别准确的图像处理结果。
附图说明
42.图1是本发明实施例方案涉及的硬件运行环境的人物背景分离设备的结 构示意图;
43.图2为本发明人物背景分离方法第一实施例的流程示意图;
44.图3为本发明人物背景分离方法第二实施例的流程示意图;
45.图4为本发明中初始背景分离模型的主干部分;
46.图5为本发明中初始背景分离模型的具体输入输出结果;
47.图6为本发明人物背景分离方法第三实施例的流程示意图;
48.图7为本发明改造后模型结构图;
49.图8为本发明原图、深度估计图、标注数据、结果遮罩,结果前景对比图;
50.图9为本发明人物背景分离装置第一实施例的结构框图。
51.本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步 说明。
具体实施方式
52.应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定 本发明。
53.参照图1,图1为本发明实施例方案涉及的硬件运行环境的人物背景分离 设备结构示意图。
54.如图1所示,该人物背景分离设备可以包括:处理器1001,例如中央处 理器(central processing unit,cpu),通信总线1002、用户接口1003,网 络接口1004,存储器1005。其中,通信总线1002用于实现这些组件之间的 连接通信。用户接口1003可以包括显示屏(display)、输入单元比如键盘 (keyboard),可选用户接口1003还可以包括标准的有线接口、无线接口。 网络接口1004可选的可以包括标准的有线接口、无线接口(如无线保真 (wireless-fidelity,wi-fi)接口)。存储器1005可以是高速的随机存取存储 器(random access memory,ram),也可以是稳定的非易失性存储器 (non-volatile memory,nvm),例如磁盘存储器。存储器1005可选的还可 以是独立于前述处理器1001的存储装置。
55.本领域技术人员可以理解,图1中示出的结构并不构成对人物背景分离 设备的限
定,可以包括比图示更多或更少的部件,或者组合某些部件,或者 不同的部件布置。
56.如图1所示,作为一种存储介质的存储器1005中可以包括操作系统、网 络通信模块、用户接口模块以及人物背景分离程序。
57.在图1所示的人物背景分离设备中,网络接口1004主要用于与网络服务 器进行数据通信;用户接口1003主要用于与用户进行数据交互;本发明人物 背景分离设备中的处理器1001、存储器1005可以设置在人物背景分离设备中, 所述人物背景分离设备通过处理器1001调用存储器1005中存储的人物背景 分离程序,并执行本发明实施例提供的人物背景分离方法。
58.本发明实施例提供了一种人物背景分离方法,参照图2,图2为本发明人 物背景分离方法第一实施例的流程示意图。
59.本实施例中,所述人物背景分离方法包括以下步骤:
60.步骤s10:获取待处理图像。
61.需要说明的是,本实施例方法的执行主体可以是具有数据处理、网络通 信以及程序运行功能的计算服务设备,例如手机、平板电脑、个人电脑等, 还可以是能够实现相同或相似功能的其他电子设备。此处以上述人物背景分 离设备对本实施例和下述各实施例提供的人物背景分离方法进行具体说明。
62.可理解的是,待处理图像可以是以人物为前景、通用自然场景为背景的 视频图像,通用自然场景包括不限制任意特定场景或动态场景的场景,使得 应用场景具有普适应。
63.在具体实现中,获取待处理图像可以是从本地或云端通过输入接口获取 待处理图像。
64.步骤s20:通过目标背景分离模型对所述待处理图像进行人物背景分离, 所述目标背景分离模型为经过维度训练和调优训练后的背景分离模型。
65.需要说明的是,视频图像的人物背景分离又称视频抠图,其原理是通过 确定主体前景的mask遮罩,例如,人物mask遮罩等,从而将前景从背景中 提取出来方法。遮罩图像在计算机中的存储形式一般为0-1之间的浮点数,或 0与1二值,其输入输出可以描述为,给定一张或一组rgb图片,返回一个 或一组单通道mask灰度图片,其中白色为前景,黑色为背景,灰色为有过渡 的半透明情况。应用时对待分离图片采用mask图片做遮罩即可分离前景、背 景。
66.可理解的是,目标背景分离模型可以是初始背景分离模型经过维度训练 和调优训练后获得的背景分离模型,初始背景分离模型的原理可以是利用神 经网络模型对人物主体进行识别,形成人物mask遮罩图像,再通过人物mask 遮罩图像对待分离图片执行人物背景分离操作。
67.在具体实现中,维度训练可以是使得背景分离模型对图片中场景的理解 从二维扩展到三维的深度学习训练。以往的模型只能从图片的二维像素角度 理解内容,并未真正学习到空间信息,因而在大多数时候仅仅利用边缘信息 的统计数据来做前后景判断,当背景变得复杂时,边缘判断便会出现错误, 扩展到三维认识时,这个问题就可以被解决。
68.应理解的是,调优训练可以是通过大量人物数据集对经历过深度学习后 的模型进行优化训练,使得模型能够将深度学习任务和前后景分离任务之间 的差异进行融合,从
而在执行人物背景分离任务时能起到明确主体,精细边 缘的作用,调优的具体操作可以是损失计算、反传和参数更新。
69.本实施例通过获取待处理图像,通过目标背景分离模型对所述待处理图 像进行人物背景分离,所述目标背景分离模型为经过维度训练和调优训练后 的背景分离模型。通过维度训练使得背景分离模型对图像中场景的理解扩展 到三维,参考图像的深度信息可以使得图像分离时边缘精细度达到像素级; 通过调优训练可以使得模型在数据有限时,明确人物主体信息并对边缘细节 进行精细化处理,以达到在利用目标背景分离模型处理自然场景中人物背景 分离的图像时,产生边缘精细度高以及前后景识别准确的图像处理结果。
70.参考图3,图3为本发明人物背景分离方法第二实施例的流程示意图。
71.基于上述第一实施例,在本实施例中,所述步骤s20之前,还包括:
72.步骤s101:获取人物数据集的人物姿势信息和人物边缘精度信息。
73.需要说明的是,人物数据集可以是经过人工标注的大量前景为人物的数 据集,其中人物可以是人物全景也可以是人物局部,可以是单人也可以是多 人;人物姿势信息可以是人物数据集图像中的人物肢体动作复杂程度信息, 例如,站立时姿态单一,舞蹈时姿态复杂;人物边缘精度信息可以是通过检 测灰度图中人物边缘与场景过渡的色差值来获得,包括人物整体轮廓边缘以 及人物局部轮廓边缘。
74.在具体实现中,获取人物数据集的人物姿势信息和人物边缘精度信息可 以是通过开源代码处理后获得的,处理后图像中表示人体关键骨骼点的红点 数目越多表示人物姿势越复杂,人物边缘与场景过渡的色差值越大则表示边 缘越精细。
75.步骤s102:通过所述人物姿势信息和所述人物边缘精度信息对所述人物 数据集进行分组,获得粗糙人物数据集和精细人物数据集。
76.需要说明的是,粗糙人物数据集可以是大量边缘粗糙但人物多样性好的 图像构成的数据集,精细人物数据集可以是少量边缘精细度高但姿态较单一 的图像构成的数据集。
77.在具体实现中,通过人物姿势信息和人物边缘精度信息对人物数据集进 行分组,获得粗糙人物数据集和精细人物数据集可以是通过人工标注获得的, 粗糙人物数据集有6万张图像数据,精细人物数据集有1万张图像数据,后 续输入为384
×
384,通过一些图片基础变换获得,将人物姿势复杂或人物边 缘粗糙的分组到粗糙数据集,将人物姿势简单且人物边缘精细的分组到精细 数据集。
78.步骤s103:基于所述粗糙人物数据集和所述精细人物数据集对待优化背 景分离模型进行调优训练,获得目标背景分离模型,所述待优化背景分离模 型为初始背景分离模型经过维度训练后获得。
79.进一步地,为了使模型维度训练的训练效果更好,人物背景分离时边缘 精细度更高,所述待优化背景分离模型为初始背景分离模型经过维度训练后 获得之前,还包括:
80.获取深度估计数据集;
81.基于深度估计数据集对所述初始背景分离模型进行维度训练,得到待优 化背景分离模型。
82.需要说明的是,深度估计数据集可以是开源的深度数据集mix6,也可以 是收集3d
电影的数据进行处理后获得的数据集。由于深度估计数据集的作用 是用来使模型从场景深度的角度来理解世界,将模型的认识从二维拓展到三 维,从而达到可以通过图片预测图中场景、人物深度信息的目的,因此实际 使用的只是模型权重,不是模型输出的数据,这里的深度估计数据集并不限 定为必须是与待分离图像相关的数据集,因为只要数据量足够大,使模型学 到足够的知识即可。
83.应当理解的是,初始背景分离模型可以是选择具有更好全局感受野的深 度学习模型为主要结构,例如,transformer结构。由于背景分离和深度估计 任务都存在像素间的全局关联,例如,左上角和右下角的像素可能都是背景, 而一般的unet结构的感受野之间联系有限,往往做不到全局关联,故这里需 要选择具有更好全局感受野的transformer结构作为模型的主要结构,并通过 timesformer对时序信息进行利用。
84.在具体实现中,基于深度估计数据集对初始背景分离模型进行维度训练, 得到待优化背景分离模型,此处的维度训练是常规的深度学习有监督训练, 输入是rgb三通道图,输出是单通道深度图,参照图4,图4为初始背景分 离模型的主干部分,其中两层resblock为传统resnet50的前两个block,后 续两个transform结构为传统vit结构,fusion结构为将前一个输入和当前输 入做融合,具体操作为拼接两个输入数据并过一层resconv。具体图片输入 输出结果参照图5,图5为本发明中初始背景分离模型的具体输入输出结果;
85.本实施例通过获取人物数据集的人物姿势信息和人物边缘精度信息,对 人物数据集进行分组,得到粗糙人物数据集和精细人物数据集,通过粗糙人 物数据集和精细人物数据集分别对模型进行调优训练,使得模型可以在明确 主体信息,不出现人物背景识别错误的情况下,保证分离出来的图像边缘精 细度高,稳定性好。
86.参考图6,图6为本发明人物背景分离方法第三实施例的流程示意图。
87.基于上述各实施例,在本实施例中,所述步骤s103包括:
88.步骤s1031:通过人体关键点模型对所述粗糙人物数据集和所述精细人物 数据集进行数据处理,得到人体关键点信息。
89.需要说明的是,人体关键点模型可以是通过检测图片中人物的骨骼关节 点,对图片中人物姿势进行预测的模型,人体关键点信息可以是预测图片中 该像素为人体骨骼关节点的可能性,关键点有19个。
90.步骤s1032:根据所述人体关键点信息制作人物单通道灰度图。
91.需要说明的是,根据人体关键点信息制作人物单通道灰度图可以是,用 0-225的数值表明该像素为人体关键点的可能性,在原始三通道颜色输入后面 添加一个通道,得到人物单通道灰度图。
92.步骤s1033:对所述人物数据集进行单通道处理,得到rgb三通道图。
93.应当理解的是,对人物数据集进行单通道处理,得到rgb三通道图可以 是将一个rgb色彩模式下的多通道图像分离成红绿蓝三个单通道图像,以便 后续图像处理。
94.步骤s1034:将所述人物单通道灰度图和所述rgb三通道图合并,得到 四通道输入数据。
95.应当理解的是,将人物单通道灰度图和rgb三通道图合并,得到四通道 输入数据可以是,将四个单通道图像合并成为一个四通道通道,以便后续输 入。
96.步骤s1035:根据所述四通道输入数据对所述待优化背景分离模型进行调 优训
练,获得目标背景分离模型。
97.进一步地,考虑到粗糙人物数据集和精细人物数据集的差异较大,需要 单独对模型进行训练,为了使模型训练结果更加准确,所述根据所述四通道 输入数据对所述待优化背景分离模型进行调优训练,获得目标背景分离模型 之前,还包括:
98.获取所述待优化背景分离模型的编码部分和解码部分;
99.将所述解码部分复制形成两个解码分支;
100.根据所述编码部分和所述两个解码分支对所述待优化背景分离模型进行 改造,得到改造后模型。
101.相应地,所述根据所述四通道输入数据对待优化背景分离模型进行调优 训练,获得目标背景分离模型,包括:
102.所述根据所述四通道输入数据对所述改造后模型进行调优训练,获得目 标背景分离模型。
103.需要说明的是,编码部分包括有数据特征提取的编码器,起到类似于数 据压缩的作用,解码部分包括有特征填补的解码器,属于编码部分的逆过程, 起到类似于数据还原的作用。
104.应当理解的是,改造后模型由公共编码部分和2个独立解码部分构成, 有两个独立的输出结果,两分支的解码部分因为是复制的,所以初始状态是 一致的,因此模型的改造过程不会对模型产生其他影响,改造后模型参考图7, 图7为本发明改造后模型结构图。
105.进一步地,为了实现两分支并行训练,使得数据集对模型的训练更精确, 所述根据所述四通道输入数据对所述改造后模型进行调优训练,获得目标背 景分离模型,包括:
106.向所述改造后的模型交替输入所述粗糙人物数据集和所述精细人物数据 集;
107.所述粗糙人物数据集和所述精细人物数据集共同训练所述编码部分,分 别独立训练所述两个解码分支,两个解码分支独立输出遮罩图像。
108.根据所述四通道输入数据和所述遮罩图像对所述改造后模型进行调优训 练,得到目标模型。
109.需要说明的是,人物数据集非常庞大,每次模型输入的图片数量是有限 的,因此需要分多个批次输入,为了减少粗糙人物数据集或精细人物数据集 对模型的过度拟合,因此采用交替输入每个批次的方式来解决,交替输入可 以是粗糙人物数据集输入一个批次,精细人物数据集输入下一个批次,再粗 糙人物数据集输入一个批次,以此类推。
110.在具体实现中,两个解码分支初始状态是一致的,在不同数据集的独立 训练下会朝着不同方向学习发展,产生两个不同的输出结果。模型训练完成 后,精细人物数据集训练的精细分支会作为最终使用的分支,而粗糙人物数 据集训练的粗糙分支最后不会使用,粗糙分支仅在训练中作为辅助,即在训 练中共同参与编码部分的训练,使得编码部分在提取特征时兼顾了主体和边 缘,而编码部分最终是保留的,会将主体的保留效果传递到精细分支,而没 有给予明确边缘精细标准的粗糙分支不会产生精细化结构,不能作为最终输 出结果,参考图8,图8为本发明原图、深度估计图、标注数据、结果遮罩, 结果前景对比图。
111.进一步地,为了使得调优训练的结果模型能准确达到边缘精度的需求, 所述根据所述四通道输入数据和所述遮罩图像对所述改造后模型进行调优训 练,得到目标模型,包括:
112.根据所述四通道输入数据和所述遮罩图像进行损失计算,得到损失结果;
113.获取所述改造后模型的超参数;
114.根据所述损失结果通过梯度下降算法对所述超参数进行参数调整和更 新;
115.对所述改造后模型重复进行训练,在所述损失结果不再下降时,得到目 标模型。
116.需要说明的是,损失计算可以是计算模型输出的遮罩图像和数据标注结 果的四通道输入数据之间的均方差损失,超参数可以是改造后模型的所有参 数。
117.在具体实现中,根据损失结果通过梯度下降算法对超参数进行参数调整 和更新可以是,通过反传的方式将损失对超参数的梯度反传,用以更新参数, 通过梯度下降的算法根据学习率调整每一个参数。反传和参数更新是训练框 架(pytorch)负责处理的。
118.本实施例通过人体关键点模型对粗糙人物数据集和精细人物数据集进行 处理,得到人体关键点信息,通过人体关键点信息制作人物单通道灰度图, 在原rgb三通道的基础上增加一个人物通道,使得模型进行训练时能明确人 物主体,提高人物前景识别的准确度。
119.此外,本发明实施例还提出一种存储介质,所述存储介质上存储有人物 背景分离程序,所述人物背景分离程序被处理器执行时实现如上文所述的人 物背景分离方法的步骤。
120.参照图9,图9为本发明人物背景分离装置第一实施例的结构框图。
121.如图9所示,本发明实施例提出的人物背景分离装置包括:
122.图像获取模块901,用于获取待处理图像;
123.需要说明的是,本实施例方法的执行主体可以是具有数据处理、网络通 信以及程序运行功能的计算服务设备,例如手机、平板电脑、个人电脑等, 还可以是能够实现相同或相似功能的其他电子设备。此处以上述人物背景分 离设备对本实施例和下述各实施例提供的人物背景分离方法进行具体说明。
124.可理解的是,待处理图像可以是以人物为前景、通用自然场景为背景的 视频图像,通用自然场景包括不限制任意特定场景或动态场景的场景,使得 应用场景具有普适应。
125.在具体实现中,获取待处理图像可以是从本地或云端通过输入接口获取 待处理图像。
126.图像分离模块902,用于通过目标背景分离模型对所述待处理图像进行人 物背景分离,所述目标背景分离模型为经过维度训练和调优训练后的背景分 离模型。
127.需要说明的是,视频图像的人物背景分离又称视频抠图,其原理是通过 确定主体前景的mask遮罩,例如,人物mask遮罩等,从而将前景从背景中 提取出来方法。遮罩图像在计算机中的存储形式一般为0-1之间的浮点数,或 0与1二值,其输入输出可以描述为,给定一张或一组rgb图片,返回一个 或一组单通道mask灰度图片,其中白色为前景,黑色为背景,灰色为有过渡 的半透明情况。应用时对待分离图片采用mask图片做遮罩即可分离前景、背 景。
128.可理解的是,目标背景分离模型可以是初始背景分离模型经过维度训练 和调优训练后获得的背景分离模型,初始背景分离模型的原理可以是利用神 经网络模型对人物主体进行识别,形成人物mask遮罩图像,再通过人物mask 遮罩图像对待分离图片执行人物
背景分离操作。
129.在具体实现中,维度训练可以是使得背景分离模型对图片中场景的理解 从二维扩展到三维的深度学习训练。以往的模型只能从图片的二维像素角度 理解内容,并未真正学习到空间信息,因而在大多数时候仅仅利用边缘信息 的统计数据来做前后景判断,当背景变得复杂时,边缘判断便会出现错误, 扩展到三维认识时,这个问题就可以被解决。
130.应理解的是,调优训练可以是通过大量人物数据集对经历过深度学习后 的模型进行优化训练,使得模型能够将深度学习任务和前后景分离任务之间 的差异进行融合,从而在执行人物背景分离任务时能起到明确主体,精细边 缘的作用,调优的具体操作可以是损失计算、反传和参数更新。
131.本实施例通过获取待处理图像,通过目标背景分离模型对所述待处理图 像进行人物背景分离,所述目标背景分离模型为经过维度训练和调优训练后 的背景分离模型。通过维度训练使得背景分离模型对图像中场景的理解扩展 到三维,参考图像的深度信息可以使得图像分离时边缘精细度达到像素级; 通过调优训练可以使得模型在数据有限时,明确人物主体信息并对边缘细节 进行精细化处理,以达到在利用目标背景分离模型处理自然场景中人物背景 分离的图像时,产生边缘精细度高以及前后景识别准确的图像处理结果。
132.基于本发明上述人物背景分离装置第一实施例,提出本发明人物背景分 离装置的第二实施例。
133.在本实施例中,所述图像分离模块902,还用于获取人物数据集的人物姿 势信息和人物边缘精度信息;通过所述人物姿势信息和所述人物边缘精度信 息对所述人物数据集进行分组,获得粗糙人物数据集和精细人物数据集;基 于所述粗糙人物数据集和所述精细人物数据集对待优化背景分离模型进行调 优训练,获得目标背景分离模型,所述待优化背景分离模型为初始背景分离 模型经过维度训练后获得。
134.所述图像分离模块902,还用于获取深度估计数据集;基于深度估计数据 集对所述初始背景分离模型进行维度训练,得到待优化背景分离模型。
135.所述图像分离模块902,还用于通过人体关键点模型对所述粗糙人物数据 集和所述精细人物数据集进行数据处理,得到人体关键点信息;根据所述人 体关键点信息制作人物单通道灰度图;对所述人物数据集进行单通道处理, 得到rgb三通道图;将所述人物单通道灰度图和所述rgb三通道图合并, 得到四通道输入数据;根据所述四通道输入数据对所述待优化背景分离模型 进行调优训练,获得目标背景分离模型。
136.所述图像分离模块902,还用于获取所述待优化背景分离模型的编码部分 和解码部分;将所述解码部分复制形成两个解码分支;根据所述编码部分和 所述两个解码分支对所述待优化背景分离模型进行改造,得到改造后模型。 相应地,所述根据所述四通道输入数据对待优化背景分离模型进行调优训练, 获得目标背景分离模型,包括:所述根据所述四通道输入数据对所述改造后 模型进行调优训练,获得目标背景分离模型。
137.所述图像分离模块902,还用于向所述改造后的模型交替输入所述粗糙人 物数据集和所述精细人物数据集;所述粗糙人物数据集和所述精细人物数据 集共同训练所述编码部分,分别独立训练所述两个解码分支,两个解码分支 独立输出遮罩图像。根据所述四通道输入数据和所述遮罩图像对所述改造后 模型进行调优训练,得到目标模型。
138.所述图像分离模块902,还用于根据所述四通道输入数据和所述遮罩图像 进行损失计算,得到损失结果;获取所述改造后模型的超参数;根据所述损 失结果通过梯度下降算法对所述超参数进行参数调整和更新;对所述改造后 模型重复进行训练,在所述损失结果不再下降时,得到目标模型。
139.本发明人物背景分离装置的其他实施例或具体实现方式可参照上述各方 法实施例,此处不再赘述。
140.需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在 涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者系 统不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括 为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下, 由语句“包括一个
……”
限定的要素,并不排除在包括该要素的过程、方法、物 品或者系统中还存在另外的相同要素。
141.上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
142.通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述 实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通 过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技 术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体 现出来,该计算机软件产品存储在一个存储介质(如只读存储器/随机存取存 储器、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机, 计算机,服务器,空调器,或者网络设备等)执行本发明各个实施例所述的方 法。
143.以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是 利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间 接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。
再多了解一些

本文用于创业者技术爱好者查询,仅供学习研究,如用于商业用途,请联系技术所有人。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献