一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

视频行为预测方法、系统、电子设备及存储介质与流程

2021-11-29 11:50:00 来源:中国专利 TAG:


1.本发明涉及视频分析技术领域,尤其涉及一种视频行为预测方法、系统、电子设备及存储介质。


背景技术:

2.随着计算机与物联网技术的飞速发展,在自动驾驶、人机交互和穿戴设备助手等领域,基于视频的未来行为预测技术具有越来越广泛的实际应用场景。
3.目前传统的视频行为预测方法通过对观测到的视频进行上下文建模后,直接使用观测视频的隐状态表示生成未来行为特征,进而实现行为预测。但是,这种基于过去视频片段直接预测未来行为的方式,忽略了过去行为和未来行为之间潜在存在的强关联性。
4.此外,传统的视频行为预测方法在模型的训练阶段,没有考虑到使用包含未来视频片段的训练样本,导致对过去行为和未来行为之间的关联知识的学习不够充分,得到的行为预测结果不够准确、可靠。


技术实现要素:

5.本发明提供一种视频行为预测方法、系统、电子设备及存储介质,用以解决现有技术中视频行为预测不够准确、可靠的技术问题。
6.第一方面,本发明提供一种视频行为预测方法,包括:
7.获取待预测的目标视频;
8.将所述目标视频输入至视频行为预测模型,得到所述视频行为预测模型输出的行为预测结果;
9.其中,所述视频行为预测模型用于通过图卷积神经网络对目标视频的历史时刻特征和预测得到的未来时刻的状态特征进行动态关系建模,并通过知识蒸馏对所述图卷积神经网络进行优化,基于优化后的图卷积神经网络,融合动态关系建模后的多模态特征,得到视频行为预测结果。
10.根据本发明提供的一种视频行为预测方法,所述视频行为预测模型的训练过程,包括:
11.特征提取:提取训练集中观测视频的历史时刻特征,对所述历史时刻特征进行多模态特征学习,预测得到未来时刻的状态特征;
12.动态关系建模:通过预先构建的图卷积神经网络,对观测视频的所述历史时刻特征和所述未来时刻的状态特征进行动态关系建模,得到更新后各模态的图节点特征;
13.网络优化:获取完整视频,对所述完整视频进行序列动态关系建模,分别将所述完整视频的特征知识和关系知识蒸馏到所述图卷积神经网络中,并进行多模态特征互学习和关系互学习,得到优化后的图卷积神经网络;其中,所述完整视频包含视频历史片段和真实未来片段;
14.特征融合:基于优化后的图卷积神经网络,将所述更新后各模态的图节点特征进
行融合,得到视频行为预测结果。
15.根据本发明提供的一种视频行为预测方法,所述特征提取的过程,包括:
16.提取训练集中观测视频的历史时刻特征,所述历史时刻特征包含多种模态的视频特征;
17.分别对所述历史时刻特征中各模态的视频特征进行序列上下文建模,并将各模态的视频特征映射至同一维度;
18.根据序列上下文建模并统一维度后的各模态视频特征,预测得到未来时刻的状态特征。
19.根据本发明提供的一种视频行为预测方法,所述多种模态的视频特征包括:rgb视觉特征、光流特征和目标物体特征。
20.根据本发明提供的一种视频行为预测方法,所述将所述更新后各模态的图节点特征进行融合,融合表达式为:
[0021][0022]
其中,y为最终预测的未来行为发生概率,m为视频特征模态,为第l 1时刻的图节点特征,w
m
为行为分类器的权重参数,b
m
为行为分类器的偏置参数。
[0023]
根据本发明提供的一种视频行为预测方法,所述动态关系建模的过程,包括:
[0024]
建立用于行为预测的图卷积神经网络;
[0025]
将观测视频中视频片段隐状态特征作为图网络节点,构建各模态视频特征对应的节点特征矩阵;
[0026]
根据所述节点特征矩阵,分别计算各模态视频特征对应的动态节点关系;
[0027]
根据所述节点特征矩阵和所述动态节点关系,分别更新各模态视频特征对应的特征图中图节点特征。
[0028]
根据本发明提供的一种视频行为预测方法,所述网络优化的过程,包括:
[0029]
获取完整视频,所述完整视频包含视频历史片段和真实未来片段;
[0030]
对所述完整视频进行序列动态关系建模,学习得到教师模型;
[0031]
分别将所述教师模型的特征知识和关系知识蒸馏到所述图卷积神经网络中;
[0032]
通过特征互学习和关系互学习,学习各模态视频特征之间的互补信息,得到优化后的图卷积神经网络。
[0033]
第二方面,本发明还提供一种视频行为预测系统,包括:
[0034]
获取模块,用于获取待预测的目标视频;
[0035]
行为预测模块,用于将所述目标视频输入至视频行为预测模型,得到所述视频行为预测模型输出的行为预测结果;
[0036]
其中,所述视频行为预测模型用于通过图卷积神经网络对目标视频的历史时刻特征和预测得到的未来时刻的状态特征进行动态关系建模,并通过知识蒸馏对所述图卷积神经网络进行优化,基于优化后的图卷积神经网络,融合动态关系建模后的多模态特征,得到视频行为预测结果。
[0037]
第三方面,本发明还提供一种电子设备,包括存储器、处理器及存储在所述存储器
上并可在所述处理器上运行的计算机程序,所述处理器执行所述程序时实现上述任一种所述视频行为预测方法的步骤。
[0038]
第四方面,本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述任一种所述视频行为预测方法的步骤。
[0039]
本发明提供的视频行为预测方法、系统、电子设备及存储介质,通过对目标视频的历史时刻特征和预测得到的未来时刻的状态特征进行动态关系建模,可以有效的推理视频中历史片段和未来片段的动态关系,进而有效地捕捉视频中历史片段和未来片段的多模态动态关系变化,最后通过知识蒸馏优化后的图卷积神经网络,可以更加准确的预测视频未来发生行为。
附图说明
[0040]
为了更清楚地说明本发明或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0041]
图1是本发明提供的视频行为预测方法的流程示意图;
[0042]
图2是视频行为预测模型的训练流程示意图;
[0043]
图3是视频行为预测模型的训练原理示意图;
[0044]
图4是本发明提供的视频行为预测系统的结构架构示意图;
[0045]
图5是本发明提供的电子设备的结构架构示意图。
具体实施方式
[0046]
为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明中的附图,对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
[0047]
附图1示出了本发明实施例提供的视频行为预测方法,包括:
[0048]
s110:获取待预测的目标视频;
[0049]
s120:将目标视频输入至视频行为预测模型,得到视频行为预测模型输出的行为预测结果;
[0050]
其中,视频行为预测模型用于通过图卷积神经网络对目标视频的历史时刻特征和预测得到的未来时刻的状态特征进行动态关系建模,并通过知识蒸馏对图卷积神经网络进行优化,基于优化后的图卷积神经网络,融合动态关系建模后的多模态特征,得到视频行为预测结果。
[0051]
参见附图2和附图3,视频行为预测模型的训练过程,具体包括:
[0052]
s210:特征提取步骤,提取训练集中观测视频的历史时刻特征,对历史时刻特征进行多模态特征学习,预测得到未来时刻的状态特征。
[0053]
本步骤主要考虑视频的多模态信息,对训练集中的观测视频进行多模态特征学习。针对观测视频的每一种模态特征,建模上下文序列依赖性,并预测未来时刻的状态特
征。
[0054]
具体地,首先,对训练数据集中的每一个视频,使用卷积神经网络提取视频的rgb视觉特征,记为以及光流特征,记为记为使用faster rcnn提取目标物体特征,记为其中d
r
,d
f
和d
o
分别代表rgb视觉特征、光流特征和目标物体特征的维度。i为视频片段的索引,输入视频共包含l个片段。
[0055]
然后,使用3个门控循环单元(gated recurrent unit,gru)网络分别对rgb视觉特征{r1,r2,

,r
l
}、光流特征{f1,f2,

,f
l
}和目标物体特征{o1,o2,

,o
l
}进行序列上下文建模,同时把三种特征映射到统一维度d
h
,对三种模态特征进行上述处理操作,得到的历史时刻特征对应的表达式如下:
[0056][0057][0058][0059]
其中,
[0060]
最后,设计3个步进门控循环单元(progressive gated recurrent unit,pgru)预测未来时间节点的多模态视频特征,得到的预测结果的表达式如下:
[0061][0062][0063][0064]
其中,和为预测的未来时刻的三种模态特征。
[0065]
s220:动态关系建模步骤,通过预先构建的图卷积神经网络,对观测视频的历史时刻特征和未来时刻的状态特征进行动态关系建模,得到更新后各模态的图节点特征。
[0066]
本步骤使用图卷积神经网络(graph convolutional networks,gcn)对观测视频中的历史时刻特征和预测得到的未来时刻的状态特征进行动态关系建模,进一步推理未来时刻即将发生的行为。
[0067]
具体地,本实施例中gcn的操作定义为:
[0068][0069]
其中,x为图网络中所有节点排列组成的输入矩阵。a为邻接矩阵,描述了图卷积神经网络中节点与节点之间的关系。w为gcn的网络参数。relu为非线性激活函数。
[0070]
将建模后的视频片段隐状态特征作为图网络节点,构成3种模态的节点特征矩阵,三个矩阵分别为三个矩阵分别为以及然后根据节点特征计算动态的节点关系,计算公式分别为:
[0071]
[0072][0073][0074]
其中,a
r
(i,j)、a
f
(i,j)和a
o
(i,j)分别表示3种模态的关系图中第i个和第j个节点的关系。
[0075]
最后分别对3种模态的特征图使用3层gcn更新节点特征,更新后的图节点特征的表达式分别为:
[0076][0077][0078][0079]
其中,和为3种模态更新后的图节点特征。
[0080]
s230:网络优化步骤,获取完整视频,对完整视频进行序列动态关系建模,分别将完整视频的特征知识和关系知识蒸馏到图卷积神经网络中,并进行多模态特征互学习和关系互学习,得到优化后的图卷积神经网络;其中,完整视频包含视频历史片段和真实未来片段。
[0081]
本步骤中,设计使用包含视频历史片段和真实未来片段的完整视频进行序列动态关系建模,学习教师(teacher)模型,并把教师网络的关系知识蒸馏到上述图卷积神经网络中,即蒸馏到学生(student)模型中。教师模型中的未来节点特征和基于真实的未来视频片段计算得到,而非由上述s210中的pgru预测得到。
[0082]
具体地,本实施例使用特征蒸馏和关系蒸馏两种知识蒸馏策略将教师模型的知识蒸馏到s220中的用于行为预测的图卷积神经网络中。
[0083]
特征蒸馏策略的损失函数为教师模型和学生模型中得到的图节点特征之间的2

范数差异,即:
[0084][0085]
其中,和为用于行为预测的图卷积神经网络(即学生模型)得到的图节点特征,和为教师模型得到的图节点特征。
[0086]
关系蒸馏策略的损失函数为教师模型和学生模型中得到的图关系矩阵之间的kullback

leibler散度,即:
[0087][0088]
其中,a
r
、a
f
和a
o
均为学生模型得到的图关系矩阵,和为教师模型得到的图关系矩阵。
[0089]
具体地,kullback

leibler散度的计算方式为:
[0090]
d
kl
(p,q)=e[log(p)

log(q)](16)
[0091]
同时,本步骤还通过特征互学习和关系互学习两种多模态互学习策略,学习三种视频模态之间的互补信息。特征互学习的损失函数为步图卷积神经网络中得到的图节点特征之间的2

范数差异,即:
[0092][0093]
关系互学习的损失函数为图卷积神经网络中得到的图关系矩阵之间的kullback

leibler散度,即:
[0094]
l
mu_rel
=d
kl
(a
f
,a
r
) d
kl
(a
r
,a
o
) d
kl
(a
r
,a
f
) d
kl
(a
r
,a
f
)d
kl
(a
o
,a
r
) d
kl
(a
f
,a
r
)(18)
[0095]
通过上述知识蒸馏和互学习过程,可以对用于行为预测的图卷积神经网络进行优化,提高网络处理数据的准确性和可靠性。
[0096]
s240:特征融合步骤,基于优化后的图卷积神经网络,将更新后各模态的图节点特征进行融合,得到视频行为预测结果。
[0097]
本步骤对s220中得到的多模态预测结果进行融合,并在统一框架下学习优化,最终输出视频行为预测结果。
[0098]
特征融合涉及的多模态融合策略为:
[0099][0100]
其中,y为最终预测的未来行为概率分布,m为视频特征模态,为s220中得到的第l 1时刻的图节点特征,w
m
为行为分类器的权重参数,b
m
为行为分类器的偏置参数。
[0101]
上述统一框架的学习优化损失函数为:
[0102][0103]
其中,l
ce
为交叉熵损失函数,为真实的未来行为标签。l
kd_fea
、l
kd_rel
、l
mu_fea
和l
mu_rel
为知识蒸馏和多模态互学习中的损失函数。
[0104]
考虑到图卷积神经网络在动态关系建模方面取得了很大的成功,但很少有方法把gcn应用到基于视频的行为预测中。为了使gcn可以有效地建模视频对应者的过去行为和未来行为之间的关系,同时充分利用完整视频片段学习过去行为和未来行为之间动态关联关系,本发明实施例充分考虑多模态特征学习、全局关系建模以及完整视频片段关系知识蒸馏三个方面,提供了上述视频行为预测方法,该方法利用多模态关系建模和知识蒸馏实现了鲁棒的视频行为预测,得到的行为预测结果更加准确、可靠。
[0105]
下面对本发明提供的视频行为预测系统进行描述,下文描述的视频行为预测系统与上文描述的视频行为预测方法可相互对应参照。
[0106]
参见附图4,本发明实施例提供的视频行为预测系统,包括:
[0107]
获取模块410,用于获取待预测的目标视频;
[0108]
行为预测模块420,用于将目标视频输入至视频行为预测模型,得到视频行为预测模型输出的行为预测结果;
[0109]
其中,视频行为预测模型用于通过图卷积神经网络对目标视频的历史时刻特征和预测得到的未来时刻的状态特征进行动态关系建模,并通过知识蒸馏对图卷积神经网络进行优化,基于优化后的图卷积神经网络,融合动态关系建模后的多模态特征,得到视频行为预测结果。
[0110]
行为预测模块420通过视频行为预测模型实现视频中未来行为的预测,具体地,关于视频行为预测模型的训练部分,包括:
[0111]
特征提取单元,用于提取训练集中观测视频的历史时刻特征,对历史时刻特征进行多模态特征学习,预测得到未来时刻的状态特征;
[0112]
动态关系建模单元,用于通过预先构建的图卷积神经网络,对观测视频的历史时刻特征和未来时刻的状态特征进行动态关系建模,得到更新后各模态的图节点特征;
[0113]
网络优化单元,用于获取完整视频,对完整视频进行序列动态关系建模,分别将完整视频的特征知识和关系知识蒸馏到图卷积神经网络中,并进行多模态特征互学习和关系互学习,得到优化后的图卷积神经网络;其中,完整视频包含视频历史片段和真实未来片段;
[0114]
特征融合单元,用于基于优化后的图卷积神经网络,将更新后各模态的图节点特征进行融合,得到视频行为预测结果。
[0115]
可以理解的是,特征提取单元首先需要提取训练集中观测视频的历史时刻特征,历史时刻特征包含多种模态的视频特征,本实施例中使用rgb视觉特征、光流特征和目标物体特征三个模态的特征;然后分别对历史时刻特征中各模态的视频特征进行序列上下文建模,并将各模态的视频特征映射至同一维度;最后根据序列上下文建模并统一维度后的各模态视频特征,预测得到未来时刻的状态特征。
[0116]
可以理解的是,动态关系建模单元首先需要建立用于行为预测的图卷积神经网络;然后将观测视频中视频片段隐状态特征作为图网络节点,构建各模态视频特征对应的节点特征矩阵;接着根据节点特征矩阵,分别计算各模态视频特征对应的动态节点关系;最后根据节点特征矩阵和动态节点关系,分别更新各模态视频特征对应的特征图中图节点特征。
[0117]
可以理解的是,网络优化单元首先要获取包含视频历史片段和真实未来片段的完整视频;然后对完整视频进行序列动态关系建模,学习得到教师模型;接着分别将教师模型的特征知识和关系知识蒸馏到图卷积神经网络中;最后通过特征互学习和关系互学习,学习各模态视频特征之间的互补信息,得到优化后的图卷积神经网络。
[0118]
本发明实施例提供的视频行为预测系统,通过行为预测模块对目标视频的历史时刻特征和预测得到的未来时刻的状态特征进行动态关系建模,可以有效的推理视频中历史片段和未来片段的动态关系,进而有效地捕捉视频中历史片段和未来片段的多模态动态关系变化,最后通过知识蒸馏优化后的图卷积神经网络,可以更加准确的预测视频未来发生行为。
[0119]
图5示例了一种电子设备的实体结构示意图,如图5所示,该电子设备可以包括:处理器(processor)510、通信接口(communications interface)520、存储器(memory)530和通信总线540,其中,处理器510,通信接口520,存储器530通过通信总线540完成相互间的通信。处理器510可以调用存储器530中的逻辑指令,以执行视频行为预测方法,该方法包括:获取待预测的目标视频;将目标视频输入至视频行为预测模型,得到视频行为预测模型输出的行为预测结果;其中,视频行为预测模型用于通过图卷积神经网络对目标视频的历史时刻特征和预测得到的未来时刻的状态特征进行动态关系建模,并通过知识蒸馏对图卷积神经网络进行优化,基于优化后的图卷积神经网络,融合动态关系建模后的多模态特征,得
到视频行为预测结果。
[0120]
此外,上述的存储器530中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:u盘、移动硬盘、只读存储器(rom,read

only memory)、随机存取存储器(ram,random access memory)、磁碟或者光盘等各种可以存储程序代码的介质。
[0121]
另一方面,本发明还提供一种计算机程序产品,所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,计算机能够执行上述各方法所提供的视频行为预测方法,该方法包括:获取待预测的目标视频;将目标视频输入至视频行为预测模型,得到视频行为预测模型输出的行为预测结果;其中,视频行为预测模型用于通过图卷积神经网络对目标视频的历史时刻特征和预测得到的未来时刻的状态特征进行动态关系建模,并通过知识蒸馏对图卷积神经网络进行优化,基于优化后的图卷积神经网络,融合动态关系建模后的多模态特征,得到视频行为预测结果。
[0122]
又一方面,本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各提供的视频行为预测方法,该方法包括:获取待预测的目标视频;将目标视频输入至视频行为预测模型,得到视频行为预测模型输出的行为预测结果;其中,视频行为预测模型用于通过图卷积神经网络对目标视频的历史时刻特征和预测得到的未来时刻的状态特征进行动态关系建模,并通过知识蒸馏对图卷积神经网络进行优化,基于优化后的图卷积神经网络,融合动态关系建模后的多模态特征,得到视频行为预测结果。
[0123]
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
[0124]
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如rom/ram、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
[0125]
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和
范围。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献