一种基于动作捕捉的注意力网络的视频问答方法与流程

2021-10-24 09:58:00 来源：中国专利 TAG：问答注意力网络视频捕捉动作

技术特征：
1.一种基于动作捕捉的注意力网络的视频问答方法，其特征在于，包括以下步骤：(1)、特征提取(1.1)、将待处理视频输入至faster rcnn网络中，提取出每一视频帧中物体的特征，其中，第j帧中第k个物体的特征记为v
j,k
，j＝1,2
…
,n，k＝1,2,
…
,k，n表示视频的总帧数，k表示每帧画面提取的物体个数；(1.2)、将待处理视频分割成多个视频片段段，然后将每一个视频片段输入至resnext网络，提取出每一个视频片段的特征，记为v
i
，i＝1,2,
…
,c，c为待处理视频被分割成视频片段的数量；(1.3)、将待处理的提问先后经过bi_lstm网络和自注意力机制的处理，提取出提问的特征，记为q；(2)、基于物体动作注意力机制提取动作信息u；(2.1)、通过双向bi_lstm网络提取物体的动作信息u
j,k
；u
j,k
＝bi_lstm(v
j,k
)(2.2)、使用物体动作注意力机制对不同时刻的特征进行加权，得到当前物体k在整个视频内的全局动作信息u
k
；β
j,k
＝softmax(w1u
j,k
w2q)其中，w1、w2为权重参数；β
j,k
表示第j帧中第k个物体的重要程度指标；(2.3)、使用物体动作注意力机制提取整个视频与提问有关的动作信息u；α
k
＝softmax(w3u
k
w4q)其中，w3、w4为权重参数；α
k
表示第k个物体与提问的关联程度指标；(3)、基于物体关系注意力机制提取待处理视频的全局物体关系信息μ；(3.1)、使用物体关系注意力机制计算当前视频帧j中的物体关系信息μ
j
；γ
j,k
＝softmax(w5v
j,k
w6q)其中，w5、w6为为权重参数，γ
j,k
是第j帧中第k个物体的关系值；(3.2)、将不同时刻的物体关系信息μ
j
按先后顺序构成序列，然后输入至bi
‑
lstm网络，从而提取出整个视频的全局物体关系信息μ；μ＝bi_lstm(μ1,μ2,
…
,μ
j
,
…
μ
n
)(4)、基于全局动作注意力机制提取待处理视频的全局动作信息u；(4.1)、计算第i个视频片段的特征v
i
的权重值λ
i
；λ
i
＝softmax(w7v
i
w8q)其中，w7、w8为权重参数；(4.2)、使用全局动作注意力机制计算整个视频的全局动作信息；
(5)、提取待处理视频的全局特征向量f；(5.1)、对三种注意力机制下提取的信息进行融合：表示向量拼接操作；(5.2)、提取整个视频的全局特征向量f；其中，与φ(q)表示统一向量与q的维度，表示向量的对应元素乘积；(6)、根据提问的格式输出不同类型答案；(6.1)、确定待处理的提问的格式，具体包括三种提问格式：选择式、开放式单词、开放式数字；(6.2)、当待处理的提问为选择式时，将待处理的提问视为一个五分类的场景，再利用lstm网络提取每类场景的特征c
τ
，τ＝1,2,3,4,5；然后计算出每类场景的概率值最后选出最大的一个概率值作为预测结果；(6.3)、当待处理的提问为开放式单词时，将待处理的提问视为一个n多分类的场景，然后利用softmax函数提取n类场景的概率矩阵p，最后在概率矩阵p中选择最大概率值对应的单词作为预测结果；(6.4)、当待处理的提问为开放式数字时，将待处理的提问视为一个线性回归问题，通过全连接层将全局特征向量f转为实数并取整作为预测结果，即最终预测结果为：

技术总结
本发明公开了一种基于动作捕捉的注意力网络的视频问答方法，先提取将待处理视频和待处理的提问的特征，然后基于这些特征，通过物体动作注意力机制提取动作信息，通过物体关系注意力机制提取待处理视频的全局物体关系信息，通过全局动作注意力机制提取待处理视频的全局动作信息；接着对三种注意力机制下提取的信息进行融合，提取整个视频的全局特征向量；最后基于全局特征向量根据提问的格式输出不同类型答案。同类型答案。同类型答案。

技术研发人员：杨阳杨双吉彭亮王国庆
受保护的技术使用者：电子科技大学
技术研发日：2021.06.22
技术公布日：2021/10/23

再多了解一些

2/2 首页上一页 1 2

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：一种可溯源信息的具有MD5特征手机号码隐式数据水印方法与流程

一种基于动作捕捉的注意力网络的视频问答方法与流程

相关文献

最热文献