一种基于区域中心采样的无锚点时序动作定位方法

2022-05-21 05:06:58 来源：中国专利 TAG：

一种基于区域中心采样的无锚点时序动作定位方法
一、技术领域
1.视频动作定位、计算机视觉、人工智能
二、

背景技术：

2.2.1通用技术方法介绍
3.视频动作定位是给出某动作在一段视频中起始位置和终止位置的方法。
4.卷积神经网络是一种利用卷积核提供特征的深度神经网络方法，其中二维卷积神经网络作用于二维数据结构，典型的如图像数据；三维卷积神经网络作用于二维数据结构，典型的如视频数据。
5.非极大值抑制算法是一种对重叠区域达到一定比例的预测结果进行精简，仅保留最高置信度的预测结果的方法。
6.2.2相似方法介绍
7.视频动作定位方法主要分为有锚点的视频动作定位方法和无锚点的视频动作定位方法。
8.有锚点的视频动作定位方法需要先给出动作定位的大体位置，跟根据这个位置进行精准预测，最后调整这个大体位置的方法。有锚点的视频动作定位方法受预先给出的大体位置的影响较大，当大体位置不太准确时，无法较准确预测动作的起始与结束位置。典型的方法如cn108399380a。
9.本方法采用了无锚点的视频动作定位方法。其不需要预先给出的动作的大体位置就可以预测动作的起始与结束位置。
三、

技术实现要素：

10.本方法在融合了创新技术和已有方法的基础上，实现了一种基于区域中心采样的无锚点时序动作定位方法。本方法是一种端到端的方法。
11.本方法模型分为2个部分：基于三维卷积金字塔模型的特征提取、基于多尺度的无锚点定位回归。三维卷积金字塔模型采用了类似文献[1]的结构，但有所区别是仅采用了最大的3层卷积尺度而不是原文的4 层，同时在时间、空间三维坐标轴上，下一层卷积核是上一层卷积核大小的二分之一。如图1所示，该部分有2个金字塔，分别为c1-c2-c3、p1-p2-p3，数字越小，卷积核越大。c、p金字塔同层卷积层同时相连。
[0012]
在多尺度无锚点定位回归网络部分，p金字塔分别连接3个head部分，即目标回归模型，其分别在3 个尺度上对动作时长的一半r和动作得分s进行回归。得分s的定义为tp和tg的区域交集除以tp和tg 的区域并集，其中tp为预测的动作的开始时间和结束时间的区域，tg为真实的动作的开始时间和结束时间的区域。模型的损失函数采用smooth l1损失函数。
[0013]
每个尺度的回归结果集中起来，对于预测动作的区间重叠部分大于二分之一区域的区间，采用文献[2] 所采用的软极大值抑制算法去掉重叠区域过大的预测结果。
四、附图说明
[0014]
图1是本申请的方法的模型结构图。
[0015]
本方法模型分为2个部分：基于三维卷积金字塔模型的特征提取、基于多尺度的无锚点定位回归。三维卷积金字塔模型采用了类似文献[1]的结构，但有所区别是仅采用了最大的3层卷积尺度而不是原文的4层，同时在时间、空间三维坐标轴上，下一层卷积核是上一层卷积核大小的二分之一。如图1所示，该部分有2个金字塔，分别为c1-c2-c3、p1-p2-p3，数字越小，卷积核越大。c、p金字塔同层卷积层同时相连。
[0016]
在多尺度无锚点定位回归网络部分，p金字塔分别连接3个head部分，即目标回归模型，其分别在3个尺度上对动作时长的一半r和动作得分s进行回归。
五、具体实施方式
[0017]
本方法是一个端到端的模型。因此主要需要通过3个步骤，实现了对无锚点的视频动作定位方法。
[0018]
步骤一：预定义动作中心点
[0019]
每次前进5帧，以该帧为预想的中心点，测试下下来的步骤
[0020]
步骤二：预测多尺度动作窗口
[0021]
构建金字塔结构的三维卷积网络对视频序列进行从粗尺度到细尺度，再从细尺度到粗的特征提取。对于每一尺度特征，分别预测其在3个尺度上的动作时长的一半r和动作得分s，并进行回归。
[0022]
步骤三：多尺度结果融合
[0023]
每个尺度的回归结果集中起来，对于预测动作的区间重叠部分大于二分之一区域的区间，采用文献[2]所采用的软极大值抑制算法去掉重叠区域过大的预测结果。
[0024]
参考文献：
[0025]
[1]aliathar，sabarinathmahadevan，aljosaosep，lauraleal-taix
é
，bastianleibe：stem-seg：spatio-temporalembeddingsforinstancesegmentationinvideos.eccv(11)2020：158-177
[0026]
[2]navaneethbodla，bharatsingh，ramachellappa，larrys.davis：soft-nms-improvingobjectdetectionwithonelineofcode.iccv2017：5562-5570

技术特征：
1.本发明专利提出了一种基于区域中心采样的无锚点时序动作定位方法，其特征在于如下步骤：(1)构建金字塔结构的三维卷积网络对视频序列进行从粗尺度到细尺度，再从细尺度到粗的特征提取；(2)构建一种无锚点的中心区域采样动作定位的回归模型，该模型的头部区域对每一帧预想为中心区域，把以其为中心点的视频长度的一半和动作定位得分作为回归目标，不需要预先提供可供参考的获选区域；(3)对不同尺度的动作定位的结果用非极大值抑制算法选取最合适的定位区域。

技术总结
本发明专利提出了一种基于区域中心采样的无锚点时序动作定位方法，其特征在于：(1)构建金字塔结构的三维卷积网络对视频序列进行从粗尺度到细尺度，再从细尺度到粗的特征提取；(2)构建一种无锚点的中心区域采样动作定位的回归模型，该模型的头部区域对每一帧预想为中心区域，把以其为中心点的视频长度的一半和动作定位得分作为回归目标，不需要预先提供可供参考的获选区域；(3)对不同尺度的动作定位的结果用非极大值抑制算法选取最合适的定位区域。位区域。

技术研发人员：周志雄王秋睿
受保护的技术使用者：首都体育学院
技术研发日：2022.02.21
技术公布日：2022/5/20

再多了解一些

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：一种基于人体骨骼关键点向量化特征表示的人体运动功能评估方法

一种基于区域中心采样的无锚点时序动作定位方法

相关文献

最热文献