一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

基于时序上下文线索的三维人体重建方法与流程

2022-11-12 20:21:08 来源:中国专利 TAG:


1.本发明涉及人工智能技术领域,更具体地说,本发明涉及基于时序上下文线索的三维人体重建方法。


背景技术:

2.基于单目视频的人体模型姿势和形状重建问题是计算机视觉和人工智能领域的重要问题。生成准确以及平滑的三维人体重建结果在虚拟和增强现实领域具有广泛的应用前景和重要的应用价值。
3.近年来,随着深度学习技术和计算机视觉技术的融合与发展,出现了基于深度神经网络的三维重建方法,然而,由于缺乏拥有三维人体标注的自然场景下的数据集,现有的人体运动时间模型没有捕捉到真实人体运动的复杂性和可变性;其次,由于每个关节位置的平均误差只惩罚空间错误,而没有考虑时间一致性,所以姿态估计出现“抖动”现象,使结果很难接近真实姿态;室内三维人体数据集在目标数量、运动范围和图像复杂度方面受到限制。


技术实现要素:

4.为了克服现有技术的上述缺陷,本发明提供一种基于时序上下文线索的三维人体重建方法,通过将深度神经网络三维人体重建方法引入到单目视频中,一方面利用卷积神经网络对视频序列进行空间信息的提取,另一方面利用转换器网络捕捉多帧输入的时间相关性,最终得到包含整个输入的时空信息的特征,同时结合光流,轮廓等时序上下文线索进一步提升人体模型姿势和形状重建的质量和精度,使其达到平滑且自然真实的人体模型姿势和形状重建以解决上述背景技术中提出的问题。
5.为实现上述目的,本发明提供如下技术方案:基于时序上下文线索的三维人体重建方法,包括如下步骤:步骤s1、输入一段单人体视频帧序列,记作,其中为序列长度,即图像序列数目,表示第张图像,即第i帧;步骤s2、利用卷积神经网络,对图像序列的每一帧提取空间特征,其中每个特征是一个大小为2048维的向量;步骤s3、经过一个运动编码器将每一帧的人体外部轮廓和光流信息加入到输入特征中,得到特征值为:,其中为视频帧的空间特征,为人体外部轮廓特征,为光流特征;步骤s4、训练一个转换器网络作为时序编码器提取上下文时间信息,输出每一帧包含前后帧信息的隐变量;
步骤s5、利用回归参数化人体模板参数和相机参数和,回归器初始化为平均姿态,之后为上一帧的姿态结果作为下一帧初始化,对整个序列拟合对应的三维人体模板动态序列;步骤s6、采用自监督集成各个时间对应的特征向量用于判别真实自然的人体动作姿态;步骤s7、利用回归得到的参数化人体模板参数进行可微分渲染,得到的二维关节点信息,人体轮廓,光流信息与网络估算的值比较,计算重投影误差;步骤s8、利用人体模板姿态序列和所有图像视频帧序列构建损失函数,训练网络模型;步骤s9、在步骤s8训练完成后,给定任意一段视频帧序列,通过训练好的模型,完成三维人体模型姿势和形状重建。
6.在一个优选的实施方式中,在步骤s5中,拟合的三维人体模板为一个线性函数,线性函数的输入是人体的姿态参数,输出是三维人体模板的顶点坐标,即 ,其中为三维人体模板的顶点总数;从输出的三维人体模板顶点坐标中,可以回归出人体模板的关节点坐标:,其中为回归矩阵。
7.在一个优选的实施方式中,在步骤s8中,损失函数为:其中,三维误差,使用l2范数损失函数:,其中,为三维关节参数二维误差,使用l2范数损失函数:,其中,为二维关节参数参数化人体模板误差,使用l2范数损失函数:,其中,为人体形状参数,为人体姿态参数判别器误差,使用l2范数损失函数:,其中,为运动参数的对抗损失判别器误差,使用l2范数损失函数:
运动编码器误差,使用l2范数损失函数: ,其中,为人体外部轮廓特征,为光流特征,为视频帧的空间特征。
8.本发明的技术效果和优点:本发明基于时序上下文线索的三维重建方法,将深度神经网络三维重建方法引入到单目视频中,一方面利用卷积神经网络对视频序列进行空间信息的提取,另一方面利用转换器网络捕捉多帧输入的时间相关性,最终得到包含整个输入的时空信息的特征,同时结合光流,轮廓等时序上下文线索进一步提升人体模型姿势和形状重建的质量和精度,使其达到平滑且自然真实的人体模型姿势和形状重建。
附图说明
9.图1为本发明基于时序上下文线索的三维人体重建方法的网络结构图。
10.图2为本发明基于时序上下文线索的三维人体重建方法流程图。
具体实施方式
11.下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
12.本发明基于时序上下文线索的三维人体重建方法,专注于将深度神经网络三维重建方法引入到单目视频中,一方面利用卷积神经网络对视频序列进行空间信息的提取,另一方面利用转换器网络捕捉多帧输入的时间相关性,最终得到包含整个输入的时空信息的特征,同时结合光流,轮廓等时序上下文线索进一步提升人体模型姿势和形状重建的质量和精度,使其达到平滑且自然真实的人体模型姿势和形状重建。
13.为此,本发明利用时空编码器和运动编码器提取人体运动特征,捕捉多帧信息的时间相关性。与现有方法不同的是,在进行空间特征提取时,本方法使用转换器网络捕捉长时序输入的内在关联,最终得到包含整个输入的时空信息的特征,同时融合运动信息和轮廓信息,预测人体模型参数。
14.具体的,本发明应用于视频中人体模型姿势和形状重建时,包括以下步骤:如图1所示,自监督作为转换器网络的核心,将输入图片帧序列的运动特征与嵌入特征联系起来。我们的转换器网络是由多路自监督与多层感知机组成。归一化层在每个模块前应用,残差连接在每个模块后应用。
15.注意力模块可以描述为一个映射函数,它将查询矩阵 、键矩阵和值矩阵映射到输出注意力矩阵。,其中是序列中向量的个数,是维数。注意力模块的输出可以表示为:
本文中,。和是由嵌入的特征通过线性变换和计算出来的:多路自监督利用多路分支对不同位置的表示子空间中的信息进行建模。每个分支并行应用注意力模块。msa输出将个多路自监督的输出进行连接:个多路自监督的输出进行连接:输入嵌入特征,具有层的转换器网络结构可以表示为:层的转换器网络结构可以表示为:层的转换器网络结构可以表示为:其中为层级归一化操作。转换器网络的输出与输入保持相同的大小。为了预测,将编码器输出压缩为向量,并在帧维度中取平均值。最后,经过一个多层感知机层将输出回归到。
16.本文所使用的三维人体模板,为一个线性函数,该函数的输入是人体的姿态参数,即骨架关节的旋转量,输出是三维人体模板的顶点坐标,即 ,其中为三维人体模板的顶点总数。从输出的三维人体模板顶点坐标中,可以回归出人体模板的关节点坐标:,其中为回归矩阵。
17.其中=(这里为真值),是当前时间的姿态参数(即代表人体关节的旋转),是单个人身体形状的预测参数(即高矮胖瘦等),参数是使用每帧的形状参数取平均得到的。
18.整个模型的损失函数为:其中,三维误差,使用l2范数损失函数:,其中,为三维关节参数二维误差,使用l2范数损失函数:,其中,为二维关节参数参数化人体模板误差,使用l2范数损失函数:
,其中,为人体形状参数,为人体姿态参数判别器误差,使用l2范数损失函数:,其中,为运动参数的对抗损失判别器误差,使用l2范数损失函数:运动编码器误差,使用l2范数损失函数: ,其中,为人体外部轮廓特征,为光流特征,为视频帧的空间特征。
19.具体的,如图2所示,基于时序上下文线索的三维人体重建方法的具体步骤如下:步骤s101,基于时序上下文线索的三维人体重建神经网络预训练,主要包括空间编码器、时序编码器、运动编码器、回归器和可微分渲染器,数据集包括混合的二维和三维数据集,5000段带有二维真值的视频数据集,8000段使用二维关键点检测器得到的伪标签数据集,对于三维数据集,使用2000段带有参数化人体模板真值的视频数据来计算。
20.步骤s102,利用卷积神经网络,对图像序列的每一帧提取空间特征,其中每个特征是一个大小为2048维的向量,具体网络为50层的残差网络,最终输出特征尺寸为2048维,序列长度,批大小为32。
21.步骤s103,经过一个运动编码器将每一帧的人体外部轮廓和光流信息加入到输入特征中,得到该点的特征值为:,其中为视频帧的空间特征,为人体外部轮廓特征,为光流特征。
22.步骤s104,更新后的特征随后传入到转换器网络编码层,其模型的网络架构包含一个自注意力机制和一个浅层全连接前馈网络两部分构成,且每一部分的输出都进行残差网络和层级归一化处理,转换器网络构成的时序编码器提取上下文时间信息,输出每一帧包含前后帧信息的隐变量。
23.步骤s105,利用回归参数化人体模型参数和相机参数,回归器初始化为平均姿态,之后为上一帧的姿态结果作为下一帧初始化,对整个序列拟合对应的三维人体模板动态序列,参数化人体模板回归器由2个全连接层组成,每个层有1024个神经元,最后输出=85维的最终层,包含姿势、形状和相机参数等信息。
24.步骤s106,采用多路自监督集成各个时间对应的特征向量用于判别真实自然的人体动作姿态,使用2个多层感知机层,每个层有1024个神经元和正弦激活来学习注意力权重,最终线性层预测每个样本是否属于一个真实且合理的人体运动姿态。
25.步骤s107,利用回归得到的参数化人体模型参数进行可微分渲染,得到的二维关节点信息,人体轮廓,光流信息与网络估算的值比较,计算重投影误差。
26.步骤s108,利用人体模板姿态序列和所有图像构建损失函数,训练网络模型。
27.步骤s109,训练过程中,使用自适应矩估计优化器,学习率固定为0.0001,训练120
轮,评价指标包括平均每关节位置误差、平均每关节位置误差、正确关键点百分比和逐顶点误差,以及加速度误差,加速度该误差是根据真实值与预测的各关节三维坐标点加速度之差计算的,单位为,是估计运动序列的主要平滑指标,一个更好的加速度误差标志着一个平滑且自然的人体运动估计。
28.步骤s110,训练完成后,给定任意一段视频帧序列,通过训练好的模型,即可完成三维人体模型姿势和形状重建。
29.以上所述仅为本发明的优选实施例而已,并不用于限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
再多了解一些

本文用于创业者技术爱好者查询,仅供学习研究,如用于商业用途,请联系技术所有人。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献