一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种基于数字孪生的复杂光照下人的动作识别方法与流程

2023-04-05 02:11:49 来源:中国专利 TAG:

技术特征:
1.一种基于数字孪生的复杂光照下人的动作识别方法,其特征在于,分为训练和推理两阶段:训练阶段的步骤为:步骤s1:对深度学习的输入数据进行视频图像预处理;步骤s2:对监控视频图像进行自适应的亮度变换;步骤s3:将变换亮度后的图像作为输入,将不同光照条件下的图像分布进一步拉近,使得无标签的不同光照下的视频数据具有和带标签的数据拥有更加相接近的数据分布,训练得到一个分布调校模型;步骤s4:对经过步骤s3变换后的有标签数据进行分类训练,得到一个动作分类模型;推理阶段的步骤为:步骤s5:对监控视频图像进行自适应的亮度变换;步骤s6:将预处理后的图像依次输入所述分布调校模型和所述动作分类模型进行推理,实现动作识别。2.根据权利要求1所述的一种基于数字孪生的复杂光照下人的动作识别方法,其特征在于,所述视频图像预处理方法为精细化裁切,具体包括以下两个步骤:步骤s11:通过目标检测网络yolov5,对n帧图像中人的坐标进行定位,得到目标的左上角和右下角坐标;步骤s12:将n帧视频取坐标的车辆检测区域取并集。3.根据权利要求1或2所述的一种基于数字孪生的复杂光照下人的动作识别方法,其特征在于,自适应亮度变换的具体步骤如下:步骤s21:计算裁切图像加权平均亮度;步骤s22:利用所述加权平均亮度计算hist_mean得到非线性变换参数gamma值,图像亮度越暗,gamma越小,图像经过非线性变换后越亮,反之,图像越亮,gamma值越大,图像经过非线性变换后越暗,gamma值的计算公式为:步骤s23:对原始图像进行非线性gamma变换,变换公式为:步骤s23:对原始图像进行非线性gamma变换,变换公式为:i取值范围为从1至totalpixel,对从1至totalpixel的每一个i值,按照从小到大的顺序根据所述变换公式进行非线性gamma变换;其中totalpixel为所有像素点的个数,new_pixel[i]为像素i进行线性变换后的像素值,old_pixel[i]为像素i的像素值,hist_mean为s21得到的加权平均亮度。4.根据权利要求1所述的一种基于数字孪生的复杂光照下人的动作识别方法,其特征在于,训练分布调校模型需要将经过自适应亮度变换处理后的大量未标记视频图像以及正常光照的视频图像作为输入,对gan模型进行训练,得到分布调校模型,将未标记视频图像和正常光照视频图像的分布进一步拉近。5.根据权利要求4所述的一种基于数字孪生的复杂光照下人的动作识别方法,其特征
在于,所述分布调校模型的网络结构为两个镜像对称的gan,两个gan共享两个生成器,并各自带一个鉴别器。6.根据权利要求4所述的一种基于数字孪生的复杂光照下人的动作识别方法,其特征在于,所述分布调校模型的损失函数为:l
total
(g,f,dx,dy)=l
gan
(g,dy,x,y) l
gan
(f,dx,x,y) λl
cyc
(g,f):其中,λ为权重系数,l
gan
(g,dy,x,y)和l
gan
(f,dx,x,y)为可使生成图像更真实的生成图像损失函数,l
cyc
(g,f)为可使生成器的输出图片与输入图片内容相同而风格不同的循环一致性损失函数,其计算公式分别为:l
gan
(g,dy,x,y)=e
y~pdata(y)
[logdy(y)] e
x~pdata(x)
[log(1-dy(g(x)));l
cyc
(g,f)=e
x~pdata(x)
[||f(g(x))-x||] e
y~pdata(y)
[||g(g(y))-y||];式中,x为在数据集x中所取的样本,y为在数据集y中所取的样本,g、f分别为两个生成器,dx、dy分别为两个判别器,dx、dy输出值均为[0,1],dx=1指输出来自x空间,dy=1指输出来自y空间,e
y~pdata(y)
为在y空间中所取样本,dy(y)指判别器dy判断y是否是取自y空间样本的概率,e
x~pdata(x)
为在x空间中所取样本,dy(g(x))为判别器dy判断生成器g生成的图片是否是取自y空间样本的概率;g(x)为生成器g所生成的图片,f(g(x))是对生成器g生成的图像通过生成器f再次生成,g(g(y))是对生成器g生成的图像通过生成器g再次生成。7.根据权利要求1所述的一种基于数字孪生的复杂光照下人的动作识别方法,其特征在于,所述分类训练是将带标记的正常光照视频图像经过分布调校模型变换后输入到动作识别分类网络进行训练。8.根据权利要求7所述的一种基于数字孪生的复杂光照下人的动作识别方法,其特征在于,所述动作识别分类网络的网络输入为(1,n,3,h,w),其中n为待识别动作序列抽样后的长度,h和w分别为图像的高和宽,网络结构采用3d resnet50作为分类网络,损失函数为softmax cross entropy。9.根据权利要求7所述的一种基于数字孪生的复杂光照下人的动作识别方法,其特征在于,所述动作识别分类网络的网络输入为(1,n,3,h,w),其中n为32。

技术总结
本发明涉及一种基于数字孪生的复杂光照下人的动作识别方法。具体包括以下步骤:准备视频数据;对深度学习的输入数据进行视频图像预处理:精细化裁切;对监控视频图像进行自适应的亮度变换;将变换亮度后的图像作为输入训练一个分布调校模型,将不同光照条件下的图像分布进一步拉近,使得无标签的不同光照下的视频数据具有和带标签的数据拥有更加相接近的数据分布;对经过变换后的有标签数据进行分类训练;未标记视频图像推理过程重复步骤S1-步骤S2,并将结果作为GAN模型的输入推理得到变换后的视频图像,将变换后的视频图像输入到步骤S5训练好的网络中进行分类。骤S5训练好的网络中进行分类。骤S5训练好的网络中进行分类。


技术研发人员:李响 陈硕 陈金 侯圣文
受保护的技术使用者:天翼云科技有限公司
技术研发日:2022.12.07
技术公布日:2023/3/10
再多了解一些

本文用于创业者技术爱好者查询,仅供学习研究,如用于商业用途,请联系技术所有人。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献