基于动作与其共现特征重组的时序动作定位方法及系统与流程

2022-05-06 06:56:42 来源：中国专利 TAG：

技术特征：
1.一种基于动作与其共现特征重组的时序动作定位方法，其特征在于，包括以下步骤：获取待时序动作定位的原始视频序列，分解为若干个视频片段并编码，获得编码后的视频特征序列；基于所述编码后的视频特征序列，通过预训练好的特征重组网络对原始视频特征序列进行特征重组，获得特征重组后的视频特征序列；其中，所述特征重组网络包括串接的特征解耦子网络和特征重构子网络，用于解纠缠动作特征向量并规则化共现特征向量；基于所述特征重组后的视频特征序列，获得时序动作定位结果。2.根据权利要求1所述的一种基于动作与其共现特征重组的时序动作定位方法，其特征在于，所述获取待时序动作定位的原始视频序列并分解为若干个视频片段并编码，获得编码后的视频特征序列的步骤具体包括：获取待时序动作定位的原始视频序列并分解为若干个视频片段；其中，每个视频片段均包含原始视频序列固定长度的连续帧；通过预训练好的特征提取器编码每个视频片段，获得编码后的视频特征序列；其中，所述编码后的视频特征序列包含每个视频片段的rgb信息和相邻视频片段之间的光流信息。3.根据权利要求1所述的一种基于动作与其共现特征重组的时序动作定位方法，其特征在于，所述特征重组网络中：所述特征解耦子网络包含特征编码器e
a
、e
c
，分别用于提取每个视频片段特征内的动作特征、动作共现特征；所述特征重构子网络包含两个特征生成器g
a
、g
c
，分别用于生成重组的动作特征、动作共现特征。4.根据权利要求3所述的一种基于动作与其共现特征重组的时序动作定位方法，其特征在于，所述预训练好的特征重组网络的获取步骤包括：在训练阶段，采用的损失函数包括两个余弦相似度损失、kl散度损失以及分类损失；其中，两个余弦相似度损失l
a
、l
c
的损失函数表达式分别为，式中，a、c分别是训练时所需要的动作样本和耦合样本；是编码器e
a
的输出，分别表示动作样本a中的动作特征向量、耦合样本c中的动作特征向量；是编码器e
c
的输出，分别表示动作样本a中的共现特征向量、耦合样本c中的共现特征向量；其中，kl散度损失l
kl
的损失函数表示为，式中，μ、σ分别表示的均值和方差，n表示维度；其中，分类损失l
cls
的损失函数表示为，式中，a
′
是g
a
的输出，w
c
是分类器可学习参数，p(y|w
c
a
′
)为分类器预测的动作概率，y和y分别表示类别标签和类别标签集合；q
c
是指示函数，当训练样本的类别标签与目标类别y
n
相同时，q
c
＝1，否则q
c
＝0；在推理阶段，利用分类分数对a
′
和c
′
组合，得到重组的视频片段特征；其中，组合表达式为，f
t
′
＝s
·
a
′
(1-s)
·
c
′
；式中，f
t
表示特征重组后的视频片段特征向量，s表示分类分数，a
′
、c
′
分别表示生成器g
a
、g
c
生成的特征向量。
5.根据权利要求1所述的一种基于动作与其共现特征重组的时序动作定位方法，其特征在于，所述基于所述特征重组后的视频特征序列，获得时序动作定位结果的步骤具体包括：基于所述特征重组后的视频特征序列，执行预训练好的动作检测器，获得时序动作定位结果。6.一种基于动作与其共现特征重组的时序动作定位系统，其特征在于，包括：分解及编码模块，用于获取待时序动作定位的原始视频序列，分解为若干个视频片段并编码，获得编码后的视频特征序列；特征重组模块，用于基于所述编码后的视频特征序列，通过预训练好的特征重组网络对原始视频特征序列进行特征重组，获得特征重组后的视频特征序列；其中，所述特征重组网络包括串接的特征解耦子网络和特征重构子网络，用于解纠缠动作特征向量并规则化共现特征向量；定位结果获取模块，用于基于所述特征重组后的视频特征序列，获得时序动作定位结果。7.根据权利要求6所述的一种基于动作与其共现特征重组的时序动作定位系统，其特征在于，所述分解及编码模块中，获取待时序动作定位的原始视频序列并分解为若干个视频片段并编码，获得编码后的视频特征序列的步骤具体包括：获取待时序动作定位的原始视频序列并分解为若干个视频片段；其中，每个视频片段均包含原始视频序列固定长度的连续帧；通过预训练好的特征提取器编码每个视频片段，获得编码后的视频特征序列；其中，所述编码后的视频特征序列包含每个视频片段的rgb信息和相邻视频片段之间的光流信息。8.根据权利要求6所述的一种基于动作与其共现特征重组的时序动作定位系统，其特征在于，所述特征重组网络中：所述特征解耦子网络包含特征编码器e
a
、e
c
，分别用于提取每个视频片段特征内的动作特征、动作共现特征；所述特征重构子网络包含两个特征生成器g
a
、g
c
，分别用于生成重组的动作特征、动作共现特征。9.根据权利要求8所述的一种基于动作与其共现特征重组的时序动作定位系统，其特征在于，所述预训练好的特征重组网络的获取步骤包括：在训练阶段，采用的损失函数包括两个余弦相似度损失、kl散度损失以及分类损失；其中，两个余弦相似度损失l
a
、l
c
的损失函数表达式分别为，式中，a、c分别是训练时所需要的动作样本和耦合样本；是编码器e
a
的输出，分别表示动作样本a中的动作特征向量、耦合样本c中的动作特征向量；是编码器e
c
的输出，分别表示动作样本a中的共现特征向量、耦合样本c中的共现特征向量；其中，kl散度损失l
kl
的损失函数表示为，式中，μ、σ分别表示的均值和方差，n表示维度；
其中，分类损失l
cls
的损失函数表示为，式中，a
′
是g
a
的输出，w
c
是分类器可学习参数，p(y|w
c
a
′
)为分类器预测的动作概率，y和y分别表示类别标签和类别标签集合；q
c
是指示函数，当训练样本的类别标签与目标类别y
n
相同时，q
c
＝1，否则q
c
＝0；在推理阶段，利用分类分数对a
′
和c
′
组合，得到重组的视频片段特征；其中，组合表达式为，f
t
′
＝s
·
a
′
(1-s)
·
c
′
；式中，f
t
′
表示特征重组后的视频片段特征向量，s表示分类分数，a
′
、c
′
分别表示生成器g
a
、g
c
生成的特征向量。10.根据权利要求6所述的一种基于动作与其共现特征重组的时序动作定位系统，其特征在于，所述定位结果获取模块中，基于所述特征重组后的视频特征序列，获得时序动作定位结果的步骤具体包括：基于所述特征重组后的视频特征序列，执行预训练好的动作检测器，获得时序动作定位结果。

技术总结
本发明公开了一种基于动作与其共现特征重组的时序动作定位方法及系统，所述方法包括以下步骤：获取待时序动作定位的原始视频序列，分解为若干个视频片段并编码，获得编码后的视频特征序列；基于所述编码后的视频特征序列，通过预训练好的特征重组网络对原始视频特征序列进行特征重组，获得特征重组后的视频特征序列；其中，所述特征重组网络包括串接的特征解耦子网络和特征重构子网络，用于解纠缠动作特征向量并规则化共现特征向量；基于所述特征重组后的视频特征序列，获得时序动作定位结果。本发明中，首次提出对视频特征重构，以获得包含显著动作信息的新的视频特征，能够准确地分类动作和精确地检测动作边界。分类动作和精确地检测动作边界。分类动作和精确地检测动作边界。

技术研发人员：王乐夏锟周三平陈仕韬辛景民郑南宁
受保护的技术使用者：宁波市舜安人工智能研究院
技术研发日：2022.01.27
技术公布日：2022/5/5

再多了解一些

2/2 首页上一页 1 2

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

基于动作与其共现特征重组的时序动作定位方法及系统与流程

相关文献

最热文献