一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

基于动作与其共现特征重组的时序动作定位方法及系统与流程

2022-05-06 06:56:42 来源:中国专利 TAG:


1.本发明属于计算机视觉与模式识别技术领域,涉及时序动作定位领域,特别涉及一种基于动作与其共现特征重组的时序动作定位方法及系统。


背景技术:

2.伴随着视频数据的快速增长,视频的自动处理技术的重要程度与日俱增;时序动作定位旨在自动地检索视频中的动作的开始时间和结束时间以及预测它们的类别,时序动作定位问题具有越来越大的理论研究价值与实际应用价值。
3.目前,时序动作定位的工作和文献都在专注于设计先进的动作检测器;其中,一方面借鉴目标检测领域的思想提出基于锚或无锚的动作检测器,另一方面基于对时序动作自身的特点针对性地解决定位问题。
4.然而,人类动作不会发生在一个孤立的真空管中,它也不是视频唯一记录的信息。未剪辑的视频包含人类动作和各种其他成分,包括背景场景、对象工具、相机运动、照明条件、其他人或物体的运动,这些成分与人类动作无关却时常共同出现,这使得动作检测器难以捕捉微妙的人类动作。
5.当前的动作检测器基于预训练的双流网络提取的视频特征进行时序动作定位,可以将每个视频片段拆解为真实的动作内容和动作的共现内容。真实动作内容可以描述为一个人或多个人之间的运动模式,以及和特定物体之间的交互;动作的共现内容可以描述为时常与某类动作共同出现的视频元素,它们可分为类相关的上下文,如泳池之于“跳水”和类无关的背景元素,如观众之于“三级跳”。因此如何平衡二者的关系,使得视频内动作信息更显著,同时保持合适的上下文信息,是后续准确动作定位的关键。综上,亟需一种新的基于动作与其共现特征重组的时序动作定位方法。


技术实现要素:

6.本发明的目的在于提供一种基于动作与其共现特征重组的时序动作定位方法及系统,以解决上述存在的一个或多个技术问题。本发明中,首次提出对视频特征重构,以获得包含显著动作信息的新的视频特征,能够准确地分类动作和精确地检测动作边界。
7.为达到上述目的,本发明采用以下技术方案:
8.本发明提供的一种基于动作与其共现特征重组的时序动作定位方法,包括以下步骤:
9.获取待时序动作定位的原始视频序列,分解为若干个视频片段并编码,获得编码后的视频特征序列;
10.基于所述编码后的视频特征序列,通过预训练好的特征重组网络对原始视频特征序列进行特征重组,获得特征重组后的视频特征序列;其中,所述特征重组网络包括串接的特征解耦子网络和特征重构子网络,用于解纠缠动作特征向量并规则化共现特征向量;
11.基于所述特征重组后的视频特征序列,获得时序动作定位结果。
12.本发明方法的进一步改进在于,所述获取待时序动作定位的原始视频序列并分解为若干个视频片段并编码,获得编码后的视频特征序列的步骤具体包括:
13.获取待时序动作定位的原始视频序列并分解为若干个视频片段;其中,每个视频片段均包含原始视频序列固定长度的连续帧;
14.通过预训练好的特征提取器编码每个视频片段,获得编码后的视频特征序列;其中,所述编码后的视频特征序列包含每个视频片段的rgb信息和相邻视频片段之间的光流信息。
15.本发明方法的进一步改进在于,所述特征重组网络中:
16.所述特征解耦子网络包含特征编码器ea、ec,分别用于提取每个视频片段特征内的动作特征、动作共现特征;
17.所述特征重构子网络包含两个特征生成器ga、gc,分别用于生成重组的动作特征、动作共现特征。
18.本发明方法的进一步改进在于,所述预训练好的特征重组网络的获取步骤包括:
19.在训练阶段,采用的损失函数包括两个余弦相似度损失、kl散度损失以及分类损失;
20.其中,两个余弦相似度损失la、lc的损失函数表达式分别为,
21.式中,a、c分别是训练时所需要的动作样本和耦合样本;是编码器ea的输出,分别表示动作样本a中的动作特征向量、耦合样本c中的动作特征向量;是编码器ec的输出,分别表示动作样本a中的共现特征向量、耦合样本c中的共现特征向量;
22.其中,kl散度损失l
kl
的损失函数表示为,式中,μ、σ分别表示的均值和方差,n表示维度;
23.其中,分类损失l
cls
的损失函数表示为,式中,a

是ga的输出,wc是分类器可学习参数,p(y|w
ca′
)为分类器预测的动作概率,y和y分别表示类别标签和类别标签集合;qc是指示函数,当训练样本的类别标签与目标类别yn相同时,qc=1,否则qc=0;
24.在推理阶段,利用分类分数对a

和c

组合,得到重组的视频片段特征;其中,组合表达式为,f

t
=s
·a′
(1-s)
·c′
;式中,f

t
表示特征重组后的视频片段特征向量,s表示分类分数,a

、c

分别表示生成器ga、gc生成的特征向量。
25.本发明方法的进一步改进在于,所述基于所述特征重组后的视频特征序列,获得时序动作定位结果的步骤具体包括:
26.基于所述特征重组后的视频特征序列,执行预训练好的动作检测器,获得时序动作定位结果。
27.本发明提供的一种基于动作与其共现特征重组的时序动作定位系统,包括:
28.分解及编码模块,用于获取待时序动作定位的原始视频序列,分解为若干个视频片段并编码,获得编码后的视频特征序列;
29.特征重组模块,用于基于所述编码后的视频特征序列,通过预训练好的特征重组
网络对原始视频特征序列进行特征重组,获得特征重组后的视频特征序列;其中,所述特征重组网络包括串接的特征解耦子网络和特征重构子网络,用于解纠缠动作特征向量并规则化共现特征向量;
30.定位结果获取模块,用于基于所述特征重组后的视频特征序列,获得时序动作定位结果。
31.本发明系统的进一步改进在于,所述分解及编码模块中,获取待时序动作定位的原始视频序列并分解为若干个视频片段并编码,获得编码后的视频特征序列的步骤具体包括:
32.获取待时序动作定位的原始视频序列并分解为若干个视频片段;其中,每个视频片段均包含原始视频序列固定长度的连续帧;
33.通过预训练好的特征提取器编码每个视频片段,获得编码后的视频特征序列;其中,所述编码后的视频特征序列包含每个视频片段的rgb信息和相邻视频片段之间的光流信息。
34.本发明系统的进一步改进在于,所述特征重组网络中:
35.所述特征解耦子网络包含特征编码器ea、ec,分别用于提取每个视频片段特征内的动作特征、动作共现特征;
36.所述特征重构子网络包含两个特征生成器ga、gc,分别用于生成重组的动作特征、动作共现特征。
37.本发明系统的进一步改进在于,所述预训练好的特征重组网络的获取步骤包括:
38.在训练阶段,采用的损失函数包括两个余弦相似度损失、kl散度损失以及分类损失;
39.其中,两个余弦相似度损失la、lc的损失函数表达式分别为,
40.式中,a、c分别是训练时所需要的动作样本和耦合样本;是编码器ea的输出,分别表示动作样本a中的动作特征向量、耦合样本c中的动作特征向量;是编码器ec的输出,分别表示动作样本a中的共现特征向量、耦合样本c中的共现特征向量;
41.其中,kl散度损失l
kl
的损失函数表示为,式中,μ、σ分别表示的均值和方差,n表示维度;
42.其中,分类损失l
cls
的损失函数表示为,式中,a

是ga的输出,wc是分类器可学习参数,p(y|w
ca′
)为分类器预测的动作概率,y和y分别表示类别标签和类别标签集合;qc是指示函数,当训练样本的类别标签与目标类别yn相同时,qc=1,否则qc=0;
43.在推理阶段,利用分类分数对a

和c

组合,得到重组的视频片段特征;其中,组合表达式为,f

t
=s
·a′
(1-s)
·c′
;式中,f
t
表示特征重组后的视频片段特征向量,s表示分类分数,a

、c

分别表示生成器ga、gc生成的特征向量。
44.本发明系统的进一步改进在于,所述定位结果获取模块中,基于所述特征重组后的视频特征序列,获得时序动作定位结果的步骤具体包括:
45.基于所述特征重组后的视频特征序列,执行预训练好的动作检测器,获得时序动作定位结果。
46.与现有技术相比,本发明具有以下有益效果:
47.本发明的方法,首次提出对视频特征重构,以获得包含显著动作信息的新的视频特征,能够准确地分类动作和精确地检测动作边界。具体的,本发明提出一个新颖的特征重组网络,重组视频片段中的动作特征与动作的共现特征,通过显式地解耦视频片段特征中的动作特征向量和共现特征向量,可有效地控制新的视频片段的成分。
48.解释性的,本发明的基于动作与其共现特征重组的时序动作定位方法旨在获得一个合适的视频片段表征,其包含显著的动作信息和合适的共现信息,以期望降低视频中动作边界的模糊性,同时避免动作检测器过度依赖共现信息。本发明提出的基于特征重构网络的时序动作定位方法完全区别于以前的时序动作定位方法。
49.示例性的,本发明实施例中基于两个公开的数据集,证明了本发明实施例方法定位性能的显著提升。
附图说明
50.为了更清楚地说明本发明实施例或现有技术中的技术方案,下面对实施例或现有技术描述中所需要使用的附图做简单的介绍;显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来说,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
51.图1是本发明实施例的一种基于动作与其共现特征重组的时序动作定位方法的流程示意框图;
52.图2是本发明实施例中,动作样本与相应的耦合样本的示意图;
53.图3是本发明实施例中,特征解耦子网络解纠缠动作内容和其共现内容的空间示意图;
54.图4是本发明实施例的一种基于动作与其共现特征重组的时序动作定位系统的整体架构示意图。
具体实施方式
55.为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
56.需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品
或设备固有的其它步骤或单元。
57.下面结合附图对本发明做进一步详细描述:
58.请参阅图1,本发明实施例的一种基于动作与其共现特征重组的时序动作定位方法,包括以下步骤:
59.将待时序动作定位的原始视频序列分解为若干个视频片段并编码,获得编码后的视频特征序列;
60.基于所述编码后的视频特征序列,利用预训练好的特征重组网络对原始视频特征序列进行特征重组,获得特征重组后的视频特征序列;其中,所述特征重组网络包括特征解耦子网络和特征重构子网络,用于解纠缠动作特征向量并规则化共现特征向量;
61.基于所述特征重组后的视频特征序列,执行一个预训练好的动作检测器,获得时序动作定位结果。
62.本发明实施例中,所述预训练好的特征重组网络包括:特征解耦子网络,其包含两个特征编码器ea和ec,分别用于提取每个视频片段特征内的动作特征和动作共现特征;特征重构子网络,其包含两个特征生成器ga和gc,分别用于生成新的动作特征和动作共现特征;其中,在训练时采用的损失函数包括两个余弦相似度损失函数、kl散度损失函数以及分类损失函数;在推理阶段两个特征编码器分别提取视频片段内的动作特征向量和共现特征向量,两个生成器生成新的视频片段特征。
63.具体解释性的,所述特征解耦子网络中,解纠缠动作特征向量和共现特征向量的步骤具体包括:
64.首先收集动作样本a和耦合样本c,所述动作样本为包含真实动作内容的视频片段,由人工注释获得,耦合样本为不包含真实动作内容但与动作样本高度相似的视频片段,进而得到动作样本a和耦合样本集合c。
65.在训练时,随机从a和c中选择一个动作样本a和相应的耦合样本c作为特征解耦网络的输入。特征解耦网络包含两个不同的编码器ea和ec,采用的两个余弦相似度损失函数更新编码器的参数,损失函数表达式为,新编码器的参数,损失函数表达式为,新编码器的参数,损失函数表达式为,和是编码器ea的输出,它们分别表示动作样本a中的动作特征向量和耦合样本c中的动作特征向量;相应地,和是编码器ec的输出,它们分别表示动作样本a中的共现特征向量和耦合样本c中的共现特征向量。因此两个编码器被训练用于提取视频片段中的动作特征向量和共现特征向量。
66.具体解释性的,所述的特征重构子网络中,特征重构的步骤具体包括:特征重构子网络包括两个不同的生成器ga和gc,用于生成新的特征向量,表示为:
[0067][0068]
在训练时,采用一个kl散度损失函数规则化编码器的输出,其目的是使共现特征向量分布接近于正态分布,从而限制其分布范围。
[0069]
kl散度损失函数表示为,其中μ和σ分别表示和的均值和方差,n表示它们的维度。
[0070]
分类损失l
cls
的损失函数表示为,式中,a

是ga的输
出,wc是分类器可学习参数,p(y|w
ca′
)为分类器预测的动作概率,y和y分别表示类别标签和类别标签集合。qc是一个指示函数,当该训练样本的类别标签与目标类别yn相同时,即y=yn,qc=1,否则qc=0。
[0071]
本发明实施例中,分类损失函数的目的为使生成器自动地选择对分类有帮助的共现特征。因此两个生成器被训练生成理想的特征向量,即新的特征向量包含显著的动作信息和合适的共现信息。
[0072]
基于上述实施例的技术方案,本发明解决一个在时序动作定位领域中相对未被探索的问题,即重组视频片段中的动作特征与动作的共现特征。本发明提出一个新颖的特征重组网络,通过显式地解耦视频片段特征中的动作特征向量和共现特征向量,进而有效地控制新的视频片段的成分。具体的,本发明提供的基于动作与其共现特征重组的时序动作定位方法旨在获得一个合适的视频片段表征,其包含显著的动作信息和合适的共现信息,以期望降低视频中动作边界的模糊性,同时避免动作检测器过度依赖共现信息。
[0073]
本发明实施例示例性可选的,将待时序动作定位的原始视频序列分解为若干个视频片段并编码,获得编码后的视频特征序列的步骤具体包括:
[0074]
将待时序动作定位的原始视频序列分解为若干个视频片段,每个视频片段包含原始视频序列固定长度的连续帧;
[0075]
利用一个预训练好的特征提取器编码每个视频片段,获得编码后的视频特征序列;其中,所述编码后的视频特征序列包含每个视频片段的rgb信息和相邻片段之间的光流信息。
[0076]
本发明实施例示例性可选的,所述常见的动作检测器包含动作提案生成器,两个分类器和一个回归器,获得时序动作定位结果的步骤包括:
[0077]
基于所述特征重组后的新的视频特征序列,利用预训练好的动作提案生成器获得候选动作提案集合其中t
s,n
和t
e,n
分别为动作提案ψn的开始时间和结束时间,n为候选动作提案的数量。一个动作分类器预测其动作类别分数yn,一个完整性分类器预测其完整性分数vn,一个回归器预测边界的偏移量{δt
s,n
,δt
e,n
};
[0078]
计算每个动作提案的置信度分数为sn=yn×
vn,以及其最终的动作边界位置{t
s,n
δt
s,n
,t
e,n
δt
e,n
};最终动作提案集合表示为
[0079]
利用soft-nms算法抑制冗余的重叠率高的动作提案,处理后的置信度分数高于预设值的动作提案为时序动作定位的最终结果。
[0080]
请参阅图1,本发明实施例的一种基于动作与其共现特征重组的时序动作定位方法,包括以下步骤:
[0081]
步骤1,已知一个未剪辑的视频序列,为降低计算量,将所述未剪辑的视频序列分解为若干个视频片段,每个视频片段包含视频固定长度的连续帧。本发明实施例具体的,利用一个预训练好的双流网络作为特征提取器编码每个视频片段,进而得到一个编码后的视频特征序列,表示为其中f
t
表示视频的第t个片段的特征向量,t表示视频片段的数量。
[0082]
步骤2,已知步骤1中得到的视频特征序列f,其包含视频的每个视频片段的rgb信息和相邻片段之间的光流信息;收集动作样本和耦合样本,它们的特征向量表示为a和c。利
用动作样本和耦合样本的相似性和差异性,训练两个不同的编码器学习提取视频片段的动作特征向量和共现特征向量;利用两个不同的生成器重新组合动作特征向量和共现特征向量,以生成新的视频特征片段,其包含显著的动作信息和合适的共现信息。样本示例性的如图2所示。
[0083]
步骤3,已知步骤2获得的新的视频特征序列,利用基于边界的动作提案生成器为每个视频的生成动作提案集合;对于每个候选动作提案,利用两个分类器预测它的类别分数和完整性分数,作为它的置信度分数。利用一个回归器预测动作提案边界的偏移量。最终利用soft-nms后处理所有候选动作提案得到最终的时序动作定位结果。
[0084]
本发明实施例具体的,步骤1中利用双流网络编码视频序列的具体步骤包括:
[0085]
步骤1.1,已知一个未剪辑的视频序列,定义其包含的真实动作实例集合为步骤1.1,已知一个未剪辑的视频序列,定义其包含的真实动作实例集合为其中和分别表示第n个动作实例的开始时间、结束时间以及类别标签,ng表示动作实例的数量;将视频序列分解为t个互不重叠的片段,作为双流网络i3d网络(解释性的,现有技术方案都采用的特征提取网络)的输入;
[0086]
步骤1.2,为了分别探索视频序列的外观和运动信息,对原始视频序列进行编码,以生成视频表示。具体的,本发明实施例利用i3d网络处理每个视频片段,并提取得到d维的rgb特征向量和光流特征向量。
[0087]
本发明实施例在步骤2中,已知原始的视频特征序列,采用本发明提出的特征重组网络生成新的视频特征序列,其具体包括以下步骤:
[0088]
步骤2.1,收集动作样本和耦合样本。已知一个未剪辑的视频序列,以及它的动作实例注释收集每个动作实例开始和结束之间所有的视频片段作为一个动作样本,其特征向量记为a。为了更好地促进解耦过程,接下来收集与动作样本具有高余弦相似度的视频片段,作为高质量的耦合样本,其特征向量记为c。最终得到一个动作样本集合a和一个耦合样本集合c。
[0089]
步骤2.2,特征解耦子网络。特征解耦子网络包含两个编码器ea和ec,它们将一对动作样本和耦合样本作为输入,分别输出动作样本和耦合样本的动作特征向量和共现特征向量,该过程表示为:基于动作样本与耦合样本的相似性与差异性,即相似于共现特征,区别于是否包含真实动作。因此引入两个余弦相似度损失函数来训练两个编码器分离动作特征向量和共现特征向量,此引入两个余弦相似度损失函数来训练两个编码器分离动作特征向量和共现特征向量,两个编码器的参数通过最小化这两个目标函数更新。
[0090]
步骤2.3,特征重构子网络。特征重构子网络包含两个不同的生成器ga和gc,用于生成新的特征向量,表示为:本发明实施例中,期望重组的特征表示包含显著的动作信号和有用的共现信息,从而导致更有效的动作检测。为此引入两个损失函数来合成理想的视频表征。为了防止引入冗余的共现特征而损害动作检测器的性能,采用一个kl散度损失函数规则化编码器的输出和其目的是使共现特征向量分布接近于正态分布,从而限制其分布范围。kl散度损失函数表示为,
其中μ和σ分别表示和的均值和方差,n表示它们的维度。另一方面,由于共现特征包含对动作分类有益的辅助信息,如台球桌之于“打台球”。因此引入分类损失函数鼓励生成器包含有利的上下文信息,表示为,其中wc是分类器可学习参数。qc是一个指示函数,当y=yn时,qc=1,否则qc=0。生成器ga将输出新的特征表示,其包含显著的动作成分和支持性的共现成分,用于精确地动作检测。
[0091]
在推理阶段,已知未剪辑的视频的一个视频片段,其特征向量表示为f
t
,则新的视频片段特征可得:f

t
=s
·a′
(1-s)
·c′
,其中s为分类分数,表示该视频片段包含动作的概率。
[0092]
本发明实施例在步骤3中,基于新的视频特征序列,动作检测器执行时序动作定位,具体包括以下步骤:
[0093]
步骤3.1,动作提案生成。本发明实施例应用现有的动作提案生成技术,如基于边界的动作提案生成方法,生成候选动作提案集合。首先训练一个动作边界预测器,即分类每个视频片段是动作开始和动作结束的概率。目标函数定义为其中γ为超参数,l
bl
为二分类逻辑回归损失函数。在推理阶段,每个视频片段对应一个动作开始的概率值和一个动作结束的概率值,记录概率值为峰值的视频片段位置,得到一个开始位置集合和一个结束位置集合,进而匹配开始位置和结束位置来生成候选动作提案,表示为步骤3.2,动作提案校正。对于每个动作提案ψn,其特征向量可通过收集开始时间和结束之间的视频片段特征获得,表示为fn。随后训练两个标准的分类器用于预测ψn的动作类别和完整性分数,和一个标准的回归器用于学习ψn的边界偏移,目标函数定义为ld=l

cls
λ1l
com
λ2l
reg
,其中λ1和λ2为两个不同的超参数,采用交叉熵损失函数作为l

cls
,铰链损失函数作为l
com
,smooth-l1损失函数作为l
reg
。在推理阶段,分类器得到每个动作提案的动作类别分数yn,完整性分数vn和边界的偏移量{δt
s,n
,δt
e,n
}。
[0094]
计算每个动作提案的置信度分数为sn=yn×
vn,以及其最终的动作边界位置{t
s,n
δt
s,n
,t
e,n
δt
e,n
};最终动作提案集合表示为
[0095]
步骤3.3,后处理阶段。利用soft-nms工具进行后处理,抑制冗余的动作提案,得到时序动作定位的最终结果。
[0096]
本发明公开了一种基于动作与其共现特征重组的时序动作定位方法,属于计算机视觉与模式识别领域,步骤包括:首先利用双流网络编码输入视频的特征序列,其包含视频内的外观特征信息和运动光流信息。随后,利用特征重组网络提取出每个原始视频特征内的动作成分和动作的共现成分,进而规则化共现特征向量,重新生成一个新的包含显著动作信息的视频特征序列。动作检测器基于新的视频特征序列检索动作实例。最后利用置信度传播的方式求解整体模型,获得具有最大后验概率的动作提案作为最终的检测结果。本发明通过显式地控制视频片段特征中的动作和共现内容,最终提高模型识别和定位动作实例的准确性。
[0097]
请参阅图1和图3,本发明实施例的一种基于动作与其共现特征重组的时序动作定位方法,包括以下步骤:
[0098]
步骤1,利用双流网络编码视频序列。具体建模步骤包括:
[0099]
步骤1.1,已知一个未剪辑的视频序列,定义其包含的真实动作实例集合为步骤1.1,已知一个未剪辑的视频序列,定义其包含的真实动作实例集合为其中和分别表示第n个动作实例的开始时间、结束时间以及类别标签,ng表示动作实例的数量;将视频序列分解为t个互不重叠的片段,作为双流网络的输入;
[0100]
步骤1.2,为了分别探索视频序列的外观和运动信息,本发明对原始视频序列进行编码,以生成视频表示。具体的,本发明利用现有技术i3d网络处理每个视频片段,并提取得到d维的rgb特征向量和光流特征向量。
[0101]
步骤2,利用特征重组网络获取新的视频特征序列。具体建模步骤包括:
[0102]
步骤2.1,特征解耦子网络。特征解耦子网络包含两个编码器ea和ec,它们将未知视频片段f
t
作为输入,分别输出动作特征向量和共现特征向量,该过程表示为:作为输入,分别输出动作特征向量和共现特征向量,该过程表示为:
[0103]
步骤2.2,特征重构子网络。特征重构子网络包含两个不同的生成器ga和gc,用于生成新的特征向量,表示为:则新的视频片段特征可得:f

t
=s
·a′
(1-s)
·c′
,其中s为分类分数,表示该视频片段包含动作的概率。
[0104]
步骤3,动作检测器执行时序动作定位。具体包括以下步骤:
[0105]
步骤3.1,动作提案生成。本发明应用现有的动作提案生成技术,如基于边界的动作提案生成方法,生成候选动作提案集合。首先训练一个动作边界预测器,即分类每个视频片段是动作开始和动作结束的概率。每个视频片段对应一个动作开始的概率值和一个动作结束的概率值,记录概率值为峰值的视频片段位置,得到一个开始位置集合和一个结束位置集合,进而匹配开始位置和结束位置来生成候选动作提案,表示为
[0106]
步骤3.2,动作提案校正。对于每个动作提案ψn,其特征向量可通过收集开始时间和结束之间的视频片段特征获得,表示为fn。随后两个标准的分类器和一个回归器用于预测ψn的动作类别分数yn,完整性分数vn和边界的偏移量{δt
s,n
,δt
e,n
}。计算每个动作提案的置信度分数为sn=yn×
vn,以及其最终的动作边界位置{t
s,n
δt
s,n
,t
e,n
δt
e,n
};最终动作提案集合表示为
[0107]
步骤3.3,后处理阶段。利用soft-nms工具进行后处理,抑制冗余的动作提案,得到时序动作定位的最终结果。
[0108]
本发明实施例使用平均精度(map)对提出的方法进行了评价,采用activitynet提供的官方评估代码来评估本发明在这两个数据集上的性能。特别地,对于thumos14和activitynet v1.3,tiou阈值分别来自{0.3、0.4、0.5、0.5、0.6、0.7}和{0.5、0.75、0.95、0.95}。在activitynet v1.3上,本发明报告了10个不同的tiou阈值[0.5:0.05:0.95]的map。与其他方法相比较,本发明实施例公开的方法在时序动作定位任务的评价指标map@tiou上取得显著的性能提升,表明本发明的方法能够精确定位和分类特定的动作。
[0109]
表1是不同的方法在用于评价时序动作定位任务的公开数据集thumos14和activitynet v1.3上的实验结果,由表1可以看出,本发明提出的基于动作与其共现特征重组的时序动作定位方法具有明显定位性能优势。
[0110]
表1.在thumos14数据集和activitynet v1.3数据集上与不同方法的对比结果
[0111][0112]
请参阅图3,图3为动作特征与共现特征的空间可视化例子,即两个编码器提取的动作特征向量和共现特征向量的热图在原始视频帧上的可视化。明显地,本发明提出的两个编码器能够有效地提取视频片段内的动作特征向量,其能关注动作区域。同时,编码器能够有效地提取视频片段内的共现特征向量,其能关注场景区域。综上所述,空间可视化例子表明本发明能够有效地解耦动作内容和共现内容。
[0113]
下述为本发明的装置实施例,可以用于执行本发明方法实施例。对于装置实施例中未纰漏的细节,请参照本发明方法实施例。
[0114]
请参阅图4,本发明实施例的一种基于动作与其共现特征重组的时序动作定位系统,包括:
[0115]
视频特征序列编码模块(即分解及编码模块),用于将待时序动作定位的原始视频序列分解为若干个视频片段并编码,获得编码后的视频特征序列;
[0116]
视频特征序列重组模块(即特征重组模块),用于基于所述编码后的视频特征序列,重新生成新的理想的视频特征序列;其中包含两步,分别是特征解耦子模块用于分离视频片段中的动作成分和共现成分,特征重构子模块用于重构生成新的视频片段特征;
[0117]
动作检测模块(即定位结果获取模块),用于基于所述新的视频特征序列,执行动作检测器获得时序动作定位结果。
[0118]
综上所述,本发明实施例中公开了一种基于动作与其共现特征重组的时序动作定位方法及系统,所述方法包括以下步骤:基于编码后的视频特征序列,利用预训练好的特征重组网络对所述视频片段特征进行特征解耦,其目的是显式地分离动作特征与其共现特征;随后基于所述动作特征与其共现特征进行特征重构,其目的是获得新的视频片段特征,包含显著的动作信息和合适的共现信息;最后基于新的视频特征序列,利用预训练好的动作检测器检索视频中的动作实例。本发明中,首次探索视频片段特征中的动作内容和动作的共现内容,引入解耦表征学习显式地解耦和有效地重构视频片段特征,进而降低动作的模糊性和动作检测器对共现信息的依赖性。
[0119]
本领域内的技术人员应明白,本技术的实施例可提供为方法、系统、或计算机程序产品。因此,本技术可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实
施例的形式。而且,本技术可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd-rom、光学存储器等)上实施的计算机程序产品的形式。
[0120]
本技术是参照根据本技术实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
[0121]
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
[0122]
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
[0123]
最后应当说明的是:以上实施例仅用以说明本发明的技术方案而非对其限制,尽管参照上述实施例对本发明进行了详细的说明,所属领域的普通技术人员应当理解:依然可以对本发明的具体实施方式进行修改或者等同替换,而未脱离本发明精神和范围的任何修改或者等同替换,其均应涵盖在本发明的权利要求保护范围之内。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献