一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

应用深度学习的二维影像转三维影像的系统与方法与流程

2022-02-19 05:39:26 来源:中国专利 TAG:


1.本发明涉及一种二维影像转三维影像的系统与方法,特别是涉及一种应用深度学习的二维影像转三维影像的系统与方法。


背景技术:

2.在三维(three-dimension,3d)影像中,其所包含的信息(例如影像中物体形状或景深程度等)比二维(two-dimension,2d)影像更多,因此,直接从2d影像推测3d影像形状对计算机而言并不是容易的工作。然而,对人类来说,对于生活中常见到的物体,常常可以从单一角度看,就可以推测物体的整个形状(在三维空间中的样子),人类之所以能做到这样是因为长久经验的累积,因此对于计算机而言,如果能学习足够多的2d影像以及3d形状的信息,理应可以将2d影像成功地转换为3d影像。
3.因此,近来有不少应用深度学习的2d影像转3d影像的方法,利用大量的训练数据(例如:影像以及相对应的三维形状)来训练深度学习的神经网络建构的模型,达到由单张或多张2d影像作为输入,推测转换为3d影像。
4.然而,采用深度学习方法预测2d影像的景深时,并无法准确模拟还原真实3d影像的景深程度,而且逐帧(frame)景深结果难以将影像的抖动问题消除。另外,影像的景深预测是应用卷积神经网络(convolutional neural network,cnn)模型来做预测,深度学习的模型训练损失函数不可能降到0,误差总存在。以深度影像为基础的绘图(depth-image-based rendering,dibr)转换模型需要设定多个参数还原3d的影像效果,新生成的影像视角部分的图像是有缺失的,应用深度学习(dibr)进行补图不是真正的缺失还原。
5.应用深度影像为基础的绘图(dibr)生成3d视频时,双目距离、观影距离或出入屏效果参数等需要根据实际场景设置观影参数。而且,在深度学习中,3d影像的补图,并不能还原真实缺失的图像。景深预测通常是利用深度学习的卷积神经网络(convolutional neural network,cnn)模型,通过学习大量深度图像素材,在建立的损失函数基础上,优化cnn模型结构的各层参数,最终利用训练得到的cnn模型离线预测深度图像对应的3d景深图像。深度图像在dibr演算演算法下生成虚拟新视角,并和原图一起构成3d图像。
6.故,如何通过设计改良,来提升深度学习的影像转换效果,来克服上述的缺陷,已成为该项事业想要解决的重要课题之一。


技术实现要素:

7.本发明所要解决的技术问题在于解决现有二维影像转三维影像的转换效果差,针对现有技术的不足提供应用深度学习的二维影像转三维影像的系统,其采用空洞修复技术以生成更好的三维影像。
8.为了解决上述的技术问题,本发明所采用的其中一技术方案是提供一种应用深度学习的二维影像转三维影像的系统,其包括一二维(two-dimension,2d)影像景深生成模块、一新视角生成模块与一三维(three-dimension,3d)影像显示器。二维影像景深生成模
块包括一2d影像采集单元与一景深计算单元,2d影像采集单元用于接收至少一2d影像,景深计算单元连接2d影像采集单元,用于进行至少一2d影像的至少一景深图的建立。新视角生成模块连接景深计算单元,用于结合至少一2d影像与至少一景深图以输出一三维影像。3d影像显示器连接新视角生成模块,用于显示3d影像。
9.为了解决上述的技术问题,本发明所采用的另外一技术方案是提供一种应用深度学习的二维影像转三维影像的方法,其包括:收集至少一2d影像,并将至少一2d影像传送至一景深计算单元进行至少一景深图的建立;通过取样实现至少一2d影像的分辨率转换;应用多个卷积神经网络(convolutional neural network,cnn)模型进行至少一2d影像的至少一景深图预测;用一新视角生成模块结合至少一2d影像与至少一景深图以生成一3d影像;以及以单通道景深影像输出方式输出经过深度处理的3d影像。
10.本发明的一个有益效果在于,本发明所提供的应用深度学习的二维影像转三维影像的系统与方法,其能通过卷积神经网络模型以及空洞修复技术的技术方案,最大限度的保留了原始2d影像的主要信息,同时去除冗余信息,进而有效地表征景深信息,可以获得更好的3d转换效果。
11.为使能更进一步了解本发明的特征及技术内容,请参阅以下有关本发明的详细说明与附图,然而所提供的附图仅用于提供参考与说明,并非用来对本发明加以限制。
附图说明
12.图1为本发明应用深度学习的二维影像转三维影像的系统方框图。
13.图2为本发明所应用的卷积神经网络架构的示意图。
14.图3为本发明应用深度影像为基础的绘图(dibr)的示意图。
15.图4为应用深度学习的二维影像转三维影像的方法流程图。
16.【符号说明】
17.10:二维影像转三维影像的系统
18.11:二维(2d)影像景深生成模块
19.111:2d影像采集单元
20.112:景深计算单元
21.1121:彩色影像输入器
22.1122:下取样器
23.1123:影像调节器
24.1124:第一卷积计算器
25.1125:编码器
26.1125a:区块
27.1125b:第二卷积计算器
28.1126:解码器
29.1126a:上取样器
30.1127:叠加器
31.1127a:多分辨率特征融合器
32.1127b:第三卷积计算器
33.1128:影像增强器
34.1128a:第四卷积计算器
35.1129:单通道景深影像输出器
36.12:新视角生成模块
37.121:三维(3d)影像生成模块
38.122:空洞修复模块
39.13:三维影像显示器
40.s401-s405:步骤
具体实施方式
41.以下是通过特定的具体实施例来说明本发明所公开有关“应用深度学习的二维影像转三维影像的系统与方法”的实施方式,本领域技术人员可由本说明书所公开的内容了解本发明的优点与效果。本发明可通过其他不同的具体实施例加以施行或应用,本说明书中的各项细节也可基于不同观点与应用,在不背离本发明的构思下进行各种修改与变更。另外,本发明的附图仅为简单示意说明,并非依实际尺寸的描绘,事先声明。以下的实施方式将进一步详细说明本发明的相关技术内容,但所公开的内容并非用以限制本发明的保护范围。另外,本文中所使用的术语“或”,应视实际情况可能包括相关联的列出项目中的任一个或者多个的组合。
42.【系统实施例】
43.参阅图1所示,本发明实施例提供一种应用深度学习的二维影像转三维影像的系统10,其包括一二维(two-dimension,2d)影像景深生成模块11、一新视角生成模块12以及一三维(three-dimension,3d)影像显示器13。
44.2d影像景深生成模块11包括一2d影像采集单元111与一景深计算单元112,2d影像采集单元111接收至少一2d影像,并可以将所接收的至少一2d影像传送至景深计算单元112进行2d影像的景深图的建立,景深图是一种由灰阶值介于0到255的图元所构成的影像。灰阶值为0的图元代表这个影像的图元的位元在最远或最近的地方,而灰阶值为255的图元代表这个影像图元的位元在最近或最远的地方。在景深图中,每一个图元将定义其所对应的2d图元在z-轴的位置,因此,通过产生2d影像的景深图,可以将2d影像产生立体效果。
45.本发明的景深计算单元112主要采用卷积神经网络(convolutional neural network,cnn)模型进行景深影像的预测。卷积神经网络是一种深度学习的神经网络,卷积神经网络已经广泛应用在影像识别中,其识别精准度甚至超越人类识别,由于卷积神经网络的原理与运行方式为本领域技术人员所熟知,在此不再赘述。在本发明中,景深计算单元112采用cnn网络模型进行预测以产生景深图,构建深度学习的cnn网络模型,并通过训练大量彩色图像(rgb 影像深度(depth)),并以神经网络模型的损失函数对训练过程进行约束,进而获得更好的景深图。
46.图2显示本发明所应用的卷积神经网络架构的示意图,2d影像经过多分辨率、下采样与上采样过程,分别将上采样与下采样的各层特征进行融合,形成现状如u型的网络结构,最大限度的保留了原始图像的主要信息,同时去掉冗余信息用来表征景深信息,最后生成景深图。其中,所谓的u型网络结构,是在卷积神经网络的前段部分实现逐层卷积操作,2d
影像尺寸减小,特征压缩,卷积神经网络的后段部分实现逐层反卷积操作,2d影像尺寸逐层增加到输入尺寸大小。
47.详细来说,本发明的景深计算单元112包括一彩色影像输入器1121、一下取样器(downsample)1122、一影像调节器1123、一第一卷积计算器1124、一编码器(encoder)1125、一解码器(decoder)1126、一叠加器(concatenate)1127、一影像增强器(refinement)1128以及一单通道景深影像输出器1129。其中,彩色影像输入器1121连接2d影像采集单元111,其用于接收至少一2d影像,下取样器1122连接彩色影像输入器1121,下取样器1122用于下取样至少一2d影像,举例来说,原本传输至彩色影像输入器至少一2d影像的分辨率为640x480,经过下取样器1122的取样,将至少一2d影像取样为分辨率320x240的影像。影像调节器1123连接下取样器1122,其用于将调整取样后的至少一2d影像,去除至少一2d影像中的噪声或裁切至少一2d影像中不需要的影像边缘等,例如,将分辨率为320x240的2d影像剪裁至分辨率为304x228的2d影像。第一卷积计算器1124连接影像调节器1123,其用于获取下取样以及调节后的至少一2d影像中的特征。
48.编码器1125连接第一卷积计算器(conv 1)1124,其包括多个区块1125a与一第二卷积计算器(conv 2)1125b,每个区块1125a可以抽取2d影像不同分辨率的特征影像,例如1/4、1/8、1/16或1/32,相同分辨率的2d影像的数据量并不等于其拥有的信息量,改变影像图片的分辨率并不一定会改变信息量,期望在不减少每张影像图片信息量情况下,有效减少影像图片数据量,加快分析效率,因此,通过编码器1125改变2d影像的图片分辨率,以加快影像图片分析效率,并将改变图片分辨率的2d影像传送至第二卷积计算器1125b进行影像特征获取。
49.解码器1126连接编码器1125,其包括多个上取样(up)器1126a,例如,可以实现将1/32特征分辨率的2d影像转换为1/2特征分辨率的2d影像。叠加器1127连接编码器1125与解码器1126,其包括多个多分辨率特征融合(multi-scale feature fusion module,mff)器1127a以及一第三卷积计算器(conv3)1127b,叠加器1127接收经过编码器1125改变分辨率的2d影像或经过解码器1126的上取样器1126a的2d影像,然后通过进行多分辨率特征融合器1127a,再将经过多分辨率特征融合的2d影像经过第三卷积计算器1127b获取特征。影像增强器1128连接叠加器1127,且包括多个第四卷积计算器(conv 4)1128a,影像增强器1128通过多个第四卷积计算器1128a提升2d影像的特征获取,以获得更好的2d影像的景深图,单通道景深影像输出器1129连接影像增强器1128,接收以输出经过深度获取的2d影像的景深图。
50.在第一卷积计算器1124、第二卷积计算器1125b、第三卷积计算器1127b与第四卷积计算器1128a中,景深预测模型损失函数用来表示卷积神经网络输出结果与真实景深的距离,本发明采用联合损失函数l=i
depth
λi
grad
μi
normal
,其中,λ与μ为子损失函数的权重系数、i
depth
为全域景深图欧拉损失函数、i
grad
为景深图空间倒数损失函数以及i
normal
为表面法向量点积误差损失函数。设di为影像(pix)的预测景深值,gi为标签景深值,测pix误差可表示为e
i
=‖d
i-g
i
‖,为了表征全域深度误差f(x),令f(x)=ln(x a)(a>0),其中,x为pix误差,a为任意大于0的实数,计算全域景深图欧拉损失函数景深图的影像边缘处的轮廓对3d转换的效果影响较大,为了更好得到表示图像边沿的深度误差,
因此,提出计算景深图空间倒数损失函数景深图具有连续性的景深能增强最终生成的3d图效果,因此,提出了景深图表面法向量点积误差损失函数,设将景深图分别沿横轴与纵轴方向作3x3矩阵的索伯(sobel)运算,其中,将景深图分别沿横轴与纵轴方向作3x3矩阵的索伯(sobel)运算,其中,分别表示图像任意坐标点在横轴方向与纵轴方向的sobel运算值,则其中的表述见上文。
51.新视角生成模块12连接2d影像景深生成模块11,根据2d影像景深生成模块11接收至少一2d影像以及景深图,新视角生成模块12结合至少一2d影像与景深图以生成具有不同视角的2d影像。新视角生成模块12包括一3d影像生成模块121与一空洞修复模块122,3d影像生成模块121应用深度影像为基础的绘图(dibr)的技术,如图3所示,其中虚拟视角图可表示为表示为cr为原相机,cv为虚拟相机,公式中xv为水平方向矩阵向量,xr为水平虚拟矩阵向量,b为两个相机的距离,zc为两个相机的融合距离,fr、fv为两个相机的焦距,当位移s=-1时,估计视角在左侧,位移s= 1时,虚拟视角在右侧,z表示在(x,y)位置的景深值,h为相机轴水平平移距离。
52.空洞修复模块122是应用一种快速进行方法的图像修复的技术,该技术从影像的空洞边界开始修复,然后进入影像区域内,逐渐填充影像边界的所有内容,其需要在近邻的图元周围的小领域内进行修复。另外,本发明的空洞修复模块122进一步应用流体动力学和图像和视频修补的技术,该技术是基于流体动力学并利用偏微分方程。首先沿着影像边缘,从已知区域移动到未知区域(因为边缘是连续的),其延续了等距线(线连接具有相同强度的点,就像轮廓线连接具有相同高程的点一样),同时在修复区域的边界匹配梯度向量。通过上述的空洞修复技术,就可以输出转换后具有3d立体效果的影像至3d影像显示器13显示。
53.【方法实施例】
54.图4为本发明应用深度学习的二维影像转三维影像方法的流程图,如图4所示,其方法包括下列步骤。
55.在步骤s401中,收集至少一2d影像,并将至少一2d影像传送至一景深计算单元进行景深图的建立。为了将2d影像转换为3d影像,将所收集的2d影像进行影像的景深图建立,景深图是一种由灰阶值介于0到255的图元所构成的影像。灰阶值为0的图元代表这个影像的图元的位元在最远的地方,而灰阶值为255的图元代表这个影像的图元的位元在最近的地方。在景深图中,每一个图元将定义其所对应的2d图元在z-轴的位置,通过景深图的建立才可以建构出具立体感的3d影像。
56.在步骤s402中,通过取样实现至少一2d影像的分辨率转换。举例来说,原本传输至彩色影像输入器至少一2d影像的分辨率为640x480,经过下取样器的取样,将至少一2d影像取样为分辨率320x240的影像。接着,可以将取样后的至少一2d影像,去除至少一2d影像中的噪声或裁切至少一2d影像中不需要的影像边缘等,例如,将分辨率为320x240的2d影像剪
裁至分辨率为304x228的2d影像。或者,应用上取样器,将1/32特征分辨率的2d影像转换为1/2特征分辨率的2d影像,然后将经过改变分辨率的2d影像或经过上取样的2d影像通过进行多分辨率特征融合,将经过多分辨率特征融合的2d影像经过卷积计算获取特征,再次应用卷积计算提升2d影像的特征获取,以获得更好的2d影像的景深图。
57.在步骤s403中,应用卷积神经网络(convolutional neural network,cnn)模型进行至少一2d影像的至少一景深图预测。卷积神经网络是一种深度学习的神经网络,卷积神经网络已经广泛应用在影像识别中,其识别精准度甚至超越人类识别,由于卷积神经网络的原理与运行方式为本领域技术人员所熟知,在此不再赘述。在本发明中,采用cnn网络模型进行预测以产生景深图,构建深度学习的cnn网络,并通过训练大量彩色图像(rgb 影像深度(depth)),并以神经网络的损失函数对训练过程进行约束。
58.详细来说,在建立至少一2d影像的景深图的过程中,先将分辨率为640x480的2d影像经过下取样器的取样为320x240的分辨率。然后,去除2d影像中的噪声,或者裁切至少一2d影像中不需要的影像边缘等,举例来说,将分辨率为320x240的2d影像剪裁为分辨率304x228的2d影像,此时,进行第一次卷积计算,以获取至少一2d影像中的特征。为了要获取更好的景深图,本发明的方法中,抽取2d影像的不同分辨率的特征影像,例如分辨率为1/4、1/8、1/16或1/32,相同分辨率的2d影像的数据量并不等于其拥有的信息量,改变影像图片分辨率并不一定会改变信息量,期望在不减少每张影像图片信息量情况下,有效减少影像图片数据量,加快分析效率,因此,通过改变2d影像的图片分辨率,以加快影像图片分析效率,并将改变图片分辨率的2d影像进行第二次卷积计算以进行影像特征获取。
59.在步骤s404中,应用一新视角生成模块结合至少一2d影像与至少一景深图以生成一3d影像。新视角生成模块12包括一3d影像生成模块121与一空洞修复模块122,3d影像生成模块121应用dibr的技术,如图3所示,其中,虚拟视角图可表示为cr为原相机,cv为虚拟相机,公式中xv为水平方向矩阵向量,xr为水平虚拟矩阵向量,b为两个相机的距离,zc为两个相机的融合距离,fr、fv为两个相机的焦距,当s=-1时,估计视角在左侧,s= 1时,虚拟视角在右侧,z表示在(x,y)位置的景深值,h为相机轴水平平移距离。
60.空洞修复模块122是应用一种快速进行方法的图像修复的技术,该技术从影像的空洞边界开始修复,然后进入影像区域内,逐渐填充影像边界的所有内容,其需要在近邻的图元周围的小领域内进行修复。另外,本发明的空洞修复模块122进一步应用流体动力学和图像和视频修补的技术,该技术是基于流体动力学并利用偏微分方程。首先沿着边缘从已知区域移动到未知区域(因为边缘是连续的),其延续了等距线(线连接具有相同强度的点,就像轮廓线连接具有相同高程的点一样),同时在修复区域的边界匹配梯度向量。通过上述的空洞修复技术,就可以输出转换后的具有3d显示的影像至3d影像显示器13显示。
61.在步骤s405,以单通道景深影像输出方式输出经过深度处理的3d影像。最后,通过上述的空洞修复技术而完成的3d影像,就可以通过单通道影像输出的方式输出转换后具有3d立体效果的影像至3d影像显示器13显示。
62.【实施例的有益效果】
63.本发明的一个有益效果在于,本发明所提供的应用深度学习的二维影像转三维影像的系统与方法,其能通过卷积神经网络模型以及空洞修复技术的技术方案,最大限度的
保留了原始2d影像的主要信息,同时去除冗余信息,进而有效地表征景深信息,可以获得更好的3d转换效果。
64.以上所公开的内容仅为本发明的优选可行实施例,并非因此局限本发明的权利要求,所以凡是运用本发明说明书及附图内容所做的等效技术变化,均包含于本发明的权利要求内。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献