一种基于深度学习的单张图片的运动估计系统及方法与流程

2021-10-24 07:30:00 来源：中国专利 TAG：深度图像学习图像处理重建

技术特征：
1.一种基于深度学习的单张图像的运动估计方法，其特征在于，步骤如下：步骤(1)、构建数据集；拍摄具有运动状态的物体的视频集，制作相同时间戳的前后两帧的运动图片对，构建数据集；步骤(2)、构建场景信息提取网络，并通过数据集进行训练，用于提取输入图片场景信息s
e
；步骤(3)、构建运动信息估计网络，并通过数据集进行训练，用于提取并估计输入图片运动信息m
e
；步骤(4)、构建信息融合网络，并通过数据集进行训练，用于融合场景信息和运动信息估计结果，得到具有运动估计效果的输出图片；步骤(5)、将需要进行运动估计的真实图片分别输入训练好的场景信息提取网络和运动信息估计网络，得到输入图片的场景信息s
e
和运动信息估计结果m
e
，然后通过训练好的信息融合网络对场景信息s
e
和运动信息估计结果m
e
进行融合，得到具有运动估计效果的输出图片。2.根据权利要求1所述的一种基于深度学习的单张图像的运动估计方法，其特征在于，步骤(1)具体方法如下；1
‑
1：数据收集，拍摄具有运动状态的物体的视频集；拍摄视频数据时将相机位置固定，确保相机位置和相机参数在拍摄同一段视频时不发生改变，即连续拍摄的一段视频只有画面中运动物体的运动状态改变，无其他变量；1
‑
2：数据集制作，制作相同时间戳的前后两帧的运动图片对；将拍摄的视频按帧分离，在每段视频中挑选具有明显运动状态改变的物体的连续两帧图片作为一组图片，即每组图片的第一帧图片(i
t
)作为初始图片，第二帧图片(i
t 1
)作为基于第一帧图片产生相对运动的图片；其中数据集中的第一帧图片(i
t
)作为模型训练过程的输入数据，数据集中的具有相对运动的第二帧图片(i
t 1
)作为模型训练过程中的用于与模型输出图片进行对比的对比图片。3.根据权利要求2所述的一种基于深度学习的单张图像的运动估计方法，其特征在于，步骤(2)具体方法如下；2
‑
1：建立场景信息提取任务的理论模型；场景信息指同一对图片中不发生运动状态改变的内容信息，即第一帧图片(i
t
)和第二帧图片(t 1)具有相同像素分布的内容信息；场景信息提取任务的理论模型用公式表示为：s
e
＝ψ(i
t
)其中ψ表示场景信息提取函数，i
t
表示数据集中每组图片的第一帧图片；2
‑
2：构建场景信息提取网络，用于提取输入图片场景信息；场景信息提取网络由卷积层，最大池化层，正则化层和relu非线性激活函数构成；将数据集中的第一帧图片(i
t
)和第二帧图片(i
t 1
)分别作为输入图片送到场景信息提取网络中，并采用l1损失函数进行监督，实现l1(ψ(i
t
)
‑
ψ(i
t 1
))
→
0，即使得输入的第一帧图片(i
t
)和第二帧图片(i
t 1
)经过场景信息提取网络，得到近似相同的输出结果，即场景信息s
e
，场景信息提取网络经过训练具有提取输入图片场景信息的效果后，保持场景信息提取网络的权重不再发生任何改变。4.根据权利要求3所述的一种基于深度学习的单张图像的运动估计方法，其特征在于，
步骤(3)具体方法如下；3
‑
1：建立运动信息估计任务的理论模型；运动信息指同一对图片中发生运动状态改变的内容信息，即第一帧图片(i
t
)和第二帧图片(i
t 1
)具有不同像素分布的运动目标信息；运动信息估计任务是根据给定的第一帧图片(i
t
)，能够对图片的运动目标信息进行检测并重新估计目标的像素分布，产生运动目标状态改变的效果；运动信息估计任务的理论模型用公式表示为：m
e
＝υ(i
t
)其中υ表示运动信息估计函数，i
t
表示数据集中每组图片的第一帧图片；3
‑
2：构建运动信息估计网络，用于提取并估计输入图片运动信息；运动信息估计网络由卷积层，最大池化层，正则化层和relu非线性激活函数构成；将数据集中的第一帧图片(i
t
)作为输入图片送到运动信息估计网络中，得到输入图片(i
t
)的运动信息估计结果m
e
。5.根据权利要求4所述的一种基于深度学习的单张图像的运动估计方法，其特征在于，步骤(4)具体方法如下；4
‑
1：建立信息融合网络的理论模型；信息融合网络用于融合场景信息提取网络的输出场景信息s
e
和运动信息估计网络的输出运动信息估计结果m
e
，信息融合的理论模型用公式表示为：out＝θ(s
e
，m
e
)其中s
e
为场景信息提取网络的输出场景信息，m
e
为运动信息估计网络的输出运动信息估计结果，θ为信息融合函数；4
‑
2：构建信息融合网络，用于融合场景信息和运动信息估计结果，得到具有运动估计效果的输出图片；信息融合网络由卷积层，正则化层和relu非线性激活函数构成；将场景信息提取网络的输出场景信息s
e
和运动信息估计网络的输出运动信息估计结果m
e
在通道维度上进行拼接，作为信息融合网络的输入，数据集中的具有相对运动的第二帧图片(i
t 1
)作为信息融合网络训练过程中的用于与输出图片进行对比的真实图片；信息融合网络采用l1损失函数进行监督，实现l1(out
‑
(i
t 1
))
→
0，即使得信息融合网络输出图片(i
out
)和第二帧图片(i
t 1
)具有近似相同的输出结果。6.一种基于深度学习的单张图像的运动估计系统，其特征在于，包括场景信息提取模块、运动信息估计模块和信息融合模块：所述的场景信息提取模块采用场景信息提取网络提取输入图片场景信息，所述的场景信息提取网络由卷积层，最大池化层，正则化层和relu非线性激活函数构成；场景信息提取网络经过训练具有提取输入图片场景信息的效果后，保持场景信息提取网络的权重不再发生任何改变；所述的运动信息估计模块采用运动信息估计网络提取并估计输入图片运动信息，所述的运动信息估计网络由卷积层，最大池化层，正则化层和relu非线性激活函数构成；所述的信息融合模块采用信息融合网络融合场景信息和运动信息估计结果，得到具有运动估计效果的输出图片；所述的信息融合网络由卷积层，正则化层和relu非线性激活函数构成。7.根据权利要求6所述的一种基于深度学习的单张图像的运动估计系统，其特征在于，场景信息提取网络由卷积层，最大池化层，正则化层和relu非线性激活函数构成，一共分成
3个部分：第一部分包含1个卷积核数量为64的步幅为2*2的7*7的卷积层核一个正则化层；第二部分包含1个步幅为2*2的最大池化层；第三部分包含3个结构参数相同的自定义模块，每个自定义模块内包含一个卷积核数量为64的1*1的卷积层，一个卷积核数量为64的3*3的卷积层，一个卷积核数量为256的1*1的卷积层；每个卷积层后面都接了一个relu非线性激活函数和正则化层；经过场景信息提取网路，图像尺寸h*w变成了(h/4)*(w/4)。8.根据权利要求7所述的一种基于深度学习的单张图像的运动估计系统，其特征在于，运动信息估计网络由卷积层，最大池化层，正则化层，转置卷积层和relu非线性激活函数构成，一共分成2部分：第一部分包含四个双卷积模块，每个双卷积模块包含两个参数相同的卷积层和两个正则化层，四个双卷积模块的参数分别为滤波核尺寸均为3*3，滤波核数量为64，128，256，512，每个双卷积模块后都连接一个步幅为2*2的最大池化层；第二部分包含两个双卷积模块，参数分别为滤波核尺寸均为3*3，滤波核数量为512，256，每个双卷积模块后面都连接一个与双卷积模块具有相同参数的转置卷积层和正则化层；运动信息估计网络采用的卷积层后面都接了一个relu非线性激活函数；经过场景信息提取网路，图像尺寸h*w变成了(h/4)*(w/4)。9.根据权利要求8所述的一种基于深度学习的单张图像的运动估计系统，其特征在于，信息融合网络由卷积层，最大池化层，正则化层，转置卷积层和relu非线性激活函数构成，一共分成2部分：第一部分包含两个双卷积模块，参数分别为滤波核尺寸均为3*3，滤波核数量为256，128，每个双卷积模块后面都连接一个与双卷积模块具有相同参数的转置卷积层和正则化层；第二部分包含两个双卷积模块，参数分别为滤波核尺寸均为3*3，滤波核数量为64，3；运动信息估计网络采用的卷积层后面都接了一个relu非线性激活函数；经过信息融合网路，图像尺寸(h/4)*(w/4)变成了h*w。

技术总结
本发明公开了一种基于深度学习的单张图片的运动估计系统及方法，首先拍摄具有运动状态的物体的视频集，制作相同时间戳的前后两帧的运动图片对，构建数据集。然后构建场景信息提取网络，用于提取输入图片场景信息S

技术研发人员：颜成钢陈泉许成浩孙垚棋张继勇李宗鹏
受保护的技术使用者：杭州电子科技大学
技术研发日：2021.06.17
技术公布日：2021/10/23

再多了解一些

2/2 首页上一页 1 2

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

一种基于深度学习的单张图片的运动估计系统及方法与流程

相关文献

最热文献