一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种视频数据显隐混合对齐方法、系统及设备

2022-07-17 00:21:54 来源:中国专利 TAG:

1.本发明属于数字视频技术领域,涉及一种视频数据对齐方法,具体涉及一种显隐混合对齐机制。


背景技术:

2.人类感知外界时80%依赖视觉信息,视频数据已经成为大数据中的体量最大的部分,占据65%的比例。但是,受成像环境、硬件条件、经济成本等制约因素,大量视频数据存在清晰度低、帧率低、噪声、光照不足等等质量问题。视频超分辨率、插帧、去噪、去模糊、色彩还原等技术可用于提升视频质量,而如何更好地捕捉视频中相似性物体和场景的运动信息,对视频进行对齐,是这些技术发挥效用的共性需求。
3.在现存的国际领先的视频处理技术中,关于视频对齐方面,往往采用单纯的显式的光流估计和运动补偿,或是隐式长间距计算的方式。显式的方式具有明确的语义约束项,但受限于光流网络的感受野,往往只能计算局部时空特征;隐式的方式往往有较大的感受野,但缺乏明确的语义约束以保证对时空互补特性进行有效利用。因而,单纯采用显式或隐式对齐中的一种,难以实现视频中复杂运动行为的精确建模。


技术实现要素:

4.为了解决上述技术问题,本发明提供了一种视频显隐混合对齐方法、系统及设备。
5.本发明的方法所采用的技术方案是:一种视频数据显隐混合对齐方法,包括以下步骤:步骤1:根据给定视频序列,提取该视频序列各视频帧对应的特征图;步骤2:提取视频序列中当前时刻视频帧相对于前后视频帧的运动光流场;步骤3:用步骤2中得到的运动光流场,对当前时刻前后的视频帧对应的特征图进行运动补偿,生成补偿后的特征图;步骤4:将步骤1中当前时刻视频帧的特征图,以及步骤3中补偿后的特征图送入局部-非局部自相似性网络,生成初步的偏移量和掩膜;所述局部-非局部自相似性网络,并联设置两个卷积层,卷积核大小和步长均为1;所述两个卷积层后均设置有一个滑动窗口聚集层,用于提取出特征f和特征g;所述滑动窗口聚集层,其一后设置有softmax操作层,用于对特征f采用softmax操作,得到特征;另一后设置有全局平均池化层,用于对特征g采用全局平均池化,得到特征;所述softmax操作层和全局平均池化层后设置有一矩阵乘操作层,用于将特征和矩阵相乘;所述矩阵乘操作层后设置有特征w提取层,为卷积核大小和步长均为1的卷积层;所述特征w提取层后设置有残差学习层,用于将特征w与输入相加,进行残差学习,得到输出特征y;步骤5:将步骤1生成的当前时刻前后的视频特征图,步骤2中得到的光流场,以及步骤4中生成的偏移量和掩膜作为可变形卷积的输入,输出经显隐混合对齐后的当前时刻
的特征图。
6.本系统的方法所采用的技术方案是:一种视频数据显隐混合对齐系统,包括以下模块:模块1,用于根据给定视频序列,提取该视频序列各视频帧对应的特征图;模块2,用于提取视频序列中当前时刻视频帧相对于前后视频帧的运动光流场;模块3,用于用模块2中得到的运动光流场,对当前时刻前后的视频帧对应的特征图进行运动补偿,生成补偿后的特征图;模块4,用于将模块1中当前时刻视频帧的特征图,以及模块3中补偿后的特征图送入局部-非局部自相似性网络,生成初步的偏移量和掩膜;所述局部-非局部自相似性网络,并联设置两个卷积层,卷积核大小和步长均为1;所述两个卷积层后均设置有一个滑动窗口聚集层,用于提取出特征f和特征g;所述滑动窗口聚集层,其一后设置有softmax操作层,用于对特征f采用softmax操作,得到特征;另一后设置有全局平均池化层,用于对特征g采用全局平均池化,得到特征;所述softmax操作层和全局平均池化层后设置有一矩阵乘操作层,用于将特征和矩阵相乘;所述矩阵乘操作层后设置有特征w提取层,为卷积核大小和步长均为1的卷积层;所述特征w提取层后设置有残差学习层,用于将特征w与输入相加,进行残差学习,得到输出特征y;模块5,用于将模块1生成的当前时刻前后的视频特征图,模块2中得到的光流场,以及模块4中生成的偏移量和掩膜作为可变形卷积的输入,输出经显隐混合对齐后的当前时刻的特征图。
7.本发明的设备所采用的技术方案是:一种视频数据显隐混合对齐设备,包括:一个或多个处理器;存储装置,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现所述的视频数据显隐混合对齐方法。
8.相对于现有单纯显式或隐式的视频对齐技术,本发明巧妙地结合了显式方式含明确物理指导意义的优点,以及隐式方式感受野大、不规则的优势,对视频中的运动现象进行精确建模,充分利用视频中空间位置或形状不同但相似物体和场景之间的互补信息。
附图说明
9.图1为本发明实施例的方法原理图;图2为本发明实施例的局部-非局部自相似性网络原理图;图3为本发明实施例的可变形卷积网络原理图。
具体实施方式
10.为了便于本领域普通技术人员理解和实施本发明,下面结合附图及实施例对本发明作进一步的详细描述,应当理解,此处所描述的实施示例仅用于说明和解释本发明,并不用于限定本发明。
11.显隐混合对齐方法的核心思想在于结合显式方式具有明确语义的优点,以及隐式方式擅长提取长间距相似性的优势,更精准地捕捉视频中的运动信息。为此,本发明设计了
一种隐式局部-非局部自相似性计算模块,并与显式光流估计和运动补偿以及隐式和可变形卷积模块相结合,形成一种显隐混合对齐方法。
12.请见图1,本发明提供的一种视频数据显隐混合对齐方法,包括以下步骤:步骤1:根据给定视频序列,提取该视频序列各视频帧对应的特征图;本实施例使用特征提取网络,其具体结构不受限制,提取每个视频帧i
t
对应的特征图h
t

13.特征提取的过程可由公式(1)表示:
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(1)其中,i
t
表示当前时刻的视频帧,h
t
为提取的对应特征图,fe(

)为特征提取网络。h
t
仅包含每个视频帧内的空间特征信息。
14.步骤2:用现有的光流网络提取视频序列中当前时刻视频帧相对于前后视频帧的运动光流场;本实施例以当前时刻视频帧i
t
和上一时刻视频帧i
t-1
为例,提取两帧之间的光流场:
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(2)其中表示光流网络,而为提取的运动光流场。
15.本实施例得到光流场后,初步利用运动信息对视频帧i
t-1
,i
t 1
和特征图h t-1
,h t 1
进行显式的图像级和特征层级运动补偿,得到补偿后的视频帧和特征图,显式地利用了运动信息。
16.步骤3:用步骤2中得到的运动光流场,对当前时刻前后的视频帧对应的特征图进行运动补偿,生成补偿后的特征图;步骤4:将步骤1中当前时刻视频帧的特征图,以及步骤3中补偿后的特征图送入局部-非局部自相似性网络,生成初步的偏移量和掩膜;请见图2,本实施例的局部-非局部自相似性网络,并联设置两个卷积层,卷积核大小和步长均为1;两个卷积层后均设置有一个滑动窗口聚集层,用于提取出特征f和特征g;所述滑动窗口聚集层,其一后设置有softmax操作层,用于对特征f采用softmax操作,得到特征;另一后设置有全局平均池化层,用于对特征g采用全局平均池化,得到特征; softmax操作层和全局平均池化层后设置有一矩阵乘操作层,用于将特征和矩阵相乘;矩阵乘操作层后设置有特征w提取层,为卷积核大小和步长均为1的卷积层;特征w提取层后设置有残差学习层,用于将特征w与输入相加,进行残差学习,得到输出特征y。
17.本实施例将当前时刻特征图h
t
,以及补偿后的前后时刻特征图和在通道维度拼接起来,用x表示,作为局部-非局部自相似性网络的输入,且有,h、w、c分别为其高、宽和特征层数,表示实数空间。
18.分别用两个卷积核大小1
×
1,滤波器数量为c1的卷积和对输入进行处理,再以滑动窗口的形式,聚集每个像素点周围k
×
k大小的局部尺寸区域内的像素点:
ꢀꢀꢀ
(4)其中,代表滑动窗口聚集操作,f和g为生成的特征图,且有。
19.将特征图f通道维度累加起来,再采用softmax函数,对局部区域维度的权重进行重新分配,使总值归一化:
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(5)其中,为重新分配权重后的特征图,且有。
20.对于特征图g,通过全局平均池化将其空间维度浓缩至1个像素点:
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(6)其中,g(i)表示特征图g在位置i的像素值,为提取全局相关性后的特征图,且有;将特征和进行矩阵相乘,并进一步用卷积将通道层数还原至c:
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(7)其中,w为捕捉了特征空间的局部-非局部自相似性后的特征图。
21.最后,将输入x和w相加得到输出y:
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(8)其中,y包含了偏移量和掩膜,,与输入特征图x形状一致。
22.本发明将当前特征图h t
和运动补偿后的特征图和在通道维度拼接起来,形成一个整体x,作为局部-非局部自相似性模块的输入。用两个1
×
1大小的卷积和提取输入x的一种线性表示,同时将特征图的通道从c降为c1,以降低计算复杂度。再以滑动窗口的形式,聚集特征图中每个像素点周围k
×
k大小区域的像素点,得到特征f和g,它们便包含局部尺寸区域内的信息。用softmax函数处理f得到,它对局部区域维度的权重进行了重新分配,同时用全局平均池化处理g生成,它包含了整个特征图空间的非局部相关性。最后,将特征图和进行矩阵相乘,以相对局部的方式捕捉了非局部相关性,并进一步用卷积将通道层数还原至c,再与输入x相加得到输出y,输出y包含了偏移量和掩膜。局部-非局部自相似性模块不仅能捕捉视频中相同物体的复杂大幅度运动情况,还可能利用到不同但相似物体之间存在的互补信息。
23.步骤5:将步骤1生成的当前时刻前后的视频特征图,步骤2中得到的光流场,以及步骤4中生成的偏移量和掩膜作为可变形卷积的输入,输出经显隐混合对齐后的当前时刻的特征图。
24.请见图3,本实施例以过去时刻为例,将局部-非局部自相似性网络的输出拆分为偏移量和掩膜两部分,将光流场与偏移量部分相加:
ꢀꢀꢀꢀꢀꢀ
(9)其中,为当前相对过去时刻的偏移量,是当前相对过去时刻的光流场,表示局部-非局部自相似性计算输出中,属于偏移量的那一部分。h
t
为当前时刻的特征图,而特征图和分别为过去和未来时刻运动补偿后的特征图。
25.相应的,过去时刻掩膜的计算过程为:
ꢀꢀꢀꢀꢀ
(10)其中,为sigmoid函数,为当前相对过去时刻的掩膜,表示局部-非局部自相似性计算输出中,属于掩膜的那一部分。
26.最后,经过可变形卷积处理后,更新当前时刻特征图信息:
ꢀꢀꢀꢀ
(11)其中,表示可变形卷积,为更新后的特征图信息。
27.本发明将非局部自相似性模块的输出分为偏移量和掩膜两部分,将偏移量与光流场相加得到,从而结合了隐式和显式的运动信息。用sigmoid函数处理掩膜得到,对权重进行了归一化。最后用可变形卷积生成当前时刻更新后的特征图,它捕捉到了视频中不规则的运动和形变现象。
28.本发明能够对视频中的运动现象进行精确建模,充分利用视频中空间位置或形状不同但相似物体和场景之间的互补信息。
29.应当理解的是,上述针对较佳实施例的描述较为详细,并不能因此而认为是对本发明专利保护范围的限制,本领域的普通技术人员在本发明的启示下,在不脱离本发明权利要求所保护的范围情况下,还可以做出替换或变形,均落入本发明的保护范围之内,本发明的请求保护范围应以所附权利要求为准。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献