一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种用于运动场地活动人员的关键镜头捕捉方法

2022-05-21 05:06:30 来源:中国专利 TAG:

一种用于运动场地活动人员的关键镜头捕捉方法
一、技术领域
1.视频关键镜头提取、视频片段封面静态提取、计算机视觉、人工智能
二、

背景技术:

2.2.1通用技术方法介绍
3.视频关键镜头提取和视频片段封面静态提取技术类似,都是在一段视频片段中提取有代表性的某帧的关键区域。
4.卷积神经网络是一种利用卷积核提供特征的深度神经网络方法,其中二维卷积神经网络作用于二维数据结构,典型的如图像数据;三维卷积神经网络作用于二维数据结构,典型的如视频数据。
5.2.2相似方法介绍
6.已有的方法多采用人脸检测、动作检测灯手段,通过不同方法的叠加达到提取关键画面的功能,如参考文献[2],主要包括人脸检测、显著性检测、区域提名和区域打分(其中长图分割属于异常流程,非必经主流程)。通过人脸检测和显著性检测技术来提名候选区域是比较有效的聚集方法,可以快速地找到图片中的“重点”,过滤掉一些无用信息。
[0007]
另一类利用视频的图像和语音信号,从多模态提取进行视频内容理解与关键镜头捕捉。
三、

技术实现要素:

[0008]
本发明专利提供了一种用于运动场地活动人员的关键镜头捕捉方法。
[0009]
本方法是一个端到端的方法。其包括3个模块:多尺度特征提取模块、双向长短时记忆模块、回归模块。
[0010]
首先,利用三维卷积金字塔结构提取视频片段多尺度特征。其次,利用多尺度双向长短时记忆模块筛选多尺度有效特征。最后,用回归模型得到该段视频片段关键镜头的定位,包括片段序号t、关键镜头区域的中心点坐标(x,y)、中心点距离边界的距离(w,h)、置信度得分s。回归模型采用smooth l1损失函数作为模型的损失函数。
四、附图说明
[0011]
图1是本方法的神经网络模型的结构图。本方法是一个端到端的方法。其包括3个模块:多尺度特征提取模块、双向长短时记忆模块、回归模块。
[0012]
多尺度特征提取模块利用三维卷积金字塔结构提取视频片段多尺度特征。三维卷积金字塔模型采用了类似文献[1]的结构,但有所区别是仅采用了最大的3层卷积尺度而不是原文的4层,同时在时间、空间三维坐标轴上,下一层卷积核是上一层卷积核大小的二分之一。如图1所示,该部分有2个金字塔,分别为c1-c2-c3、p1-p2-p3,数字越小,卷积核越大。c、p金字塔同层卷积层同时相连。
[0013]
多尺度特征提取模块、双向长短时记忆模块利用1x1卷积相连。双向长短时记忆模
块用于筛选多尺度有效特征。回归模块对该段视频片段关键镜头的定位,所要回归的参数包括:帧序号t、关键镜头区域的中心点坐标(x,y)、中心点距离边界的距离(w,h)、置信度得分s。
五、具体实施方式
[0014]
本方法通过3个步骤,实现了一种用于运动场地活动人员的关键镜头捕捉方法。
[0015]
步骤一:视频片段切割与多尺度特征提取
[0016]
将一段视频切割成多个片段,每个片段长50帧,等间隔采样10帧图像,作为模型的输入。构建金字塔结构的三维卷积网络对视频序列进行从粗尺度到细尺度,再从细尺度到粗的特征提取。
[0017]
步骤二:特征提纯与视频片段关键帧捕捉
[0018]
通过1x1卷积,双向长短时记忆模块获取多尺度特征提取模块产生的特生,并利用长短时记忆模型的自身特点,保留有效特征,丢弃无效特征。并用回归模型对片段帧序号t、关键镜头区域的中心点坐标(x,y)、中心点距离边界的距离(w,h)、置信度得分s进行回归。第t帧的矩形框[x-w:x w,y-h:y h]所在区域,且得分s大于阈值的,即为该片段的关键镜头。本方法阈值取0.5。
[0019]
步骤三:全视频遍历
[0020]
对所有视频片段重复第二步,获取所有片段的关键镜头。对所有关键镜头的得分s进行排序,仅保留得分最高的10个片段。若视频的片段少于10个,则都保留。
[0021]
参考文献:
[0022]
[1]aliathar,sabarinathmahadevan,aljosaosep,lauraleal-taix
é
,bastianleibe:stem-seg:spatio-temporalembeddingsforinstancesegmentationinvideos.eccv(11)2020:158-177
[0023]
[2]https://cloud.tencent.com/developer/article/1475027
[0024]
[3]dijin,zhongangqi,yingminluo,yingshan:transfusion:multi-modalfusionforvideotaginferenceviatranslation-basedknowledgeembedding.acmmultimedia2021:1093-1101。


技术特征:
1.本发明专利提供了一种用于运动场地活动人员的关键镜头捕捉方法。其特征在于如下步骤:(1)利用三维卷积金字塔结构提取视频片段多尺度特征;(2)利用多尺度双向长短时记忆模块筛选多尺度有效特征;(3)用回归模型得到该段视频片段关键镜头的定位,包括片段序号t、关键镜头区域的中心点坐标(x,y)、中心点距离边界的距离(w,h)、置信度得分s。

技术总结
本发明专利提供了一种用于运动场地活动人员的关键镜头捕捉方法。其特征在于:(1)利用三维卷积金字塔结构提取视频片段多尺度特征;(2)利用多尺度双向长短时记忆模块筛选多尺度有效特征;(3)用回归模型得到该段视频片段关键镜头的定位,包括片段序号t、关键镜头区域的中心点坐标(x,y)、中心点距离边界的距离(w,h)、置信度得分s。置信度得分s。


技术研发人员:周志雄 王秋睿
受保护的技术使用者:首都体育学院
技术研发日:2022.02.21
技术公布日:2022/5/20
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献