一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

视频片段定位方法、系统、控制装置及可读存储介质与流程

2022-08-13 14:16:25 来源:中国专利 TAG:


1.本发明涉及跨模态感知技术领域,具体提供一种视频片段定位方法、系统、控制装置及可读存储介质。


背景技术:

2.随着高清摄像头的普及以及短视频的快速发展,视频领域的相关技术,如动作识别、时序动作检测、视频检索、视频字幕等都得到了广泛的关注,相关的应用包括视频分类、智能字幕、智能封面、文本视频检索、视频精彩片段提取等也逐渐成为人们生活中的重要部分。其中,基于语言查询的视频片段定位任务是近年来比较新颖的研究课题,这个任务的目的是给定一个未经裁剪的视频和一段语言描述,需要感知和交互视觉语言两种模态的信息,然后在视频中定位出这段语言所描述的动作发生的视频片段。这个任务不仅需要关注视频内容的特征,还需要融合语言的特征,是一个多模态的任务,具有一定的挑战性,在学术界同时吸引了计算机视觉领域和自然语言处理领域的关注,在工业界也有一定的应用前景,比如说可以通过一段语言描述定位出冗长的视频中的某种行为,有效地减少了人力时间;又如在网路娱乐中,我们可以通过一段语言描述,检索出自己感兴趣的电影片段,方便剪辑和观看。
3.现有技术中,基于语言查询的视频片段定位方法主要分为三类:
4.(1)一阶段方法:
5.这种方法的通常是对视频中的每一帧进行预测,判断其是否是起始帧或者结束帧,又或者对每一帧来回归其到边界的距离。一阶段方法由于只需对每个视频帧进行预测或回归,所以效率很高,但是又忽略了视频帧的上下文信息,不能很好地获取视频的全局特征,所以定位的效果不是很好。
6.(2)两阶段方法:
7.这种方法通常利用滑动窗口等技术,预先定义出一系列不同长度的候选视频片段提案,然后在同一空间中计算这些视频片段与描述语句的相似度,根据相似度对这些候选视频片段进行排序,选择出和描述语句最佳匹配的视频片段。这种方法由于感知了视频的全局特征,通常可以获得较好的定位结果,但是仍然存在两个缺陷:

由于滑动窗口是预先定义的,导致候选的视频片段边界不够灵活,并且最终的定位结果很大程度上依赖于这些预先生成的候选视频片段的质量。

由于在视频的每个位置都需要预定义一些不同尺寸的候选视频片段,所以整段视频就需要密集采样出大量的候选视频片段,巨大的计算量也会影响模型的落地使用。
8.(3)强化学习法:
9.这种方法把视频片段定位任务看成序列决策任务,使用强化学习的方式来处理该任务。给定一个初始的窗口,每次迭代都根据回馈值来决定向左还是向右移动窗口,移动多少步长,是否需要扩大或者缩小窗口,这种方法可以用强化学习的方式来训练,但是存在两个弊端:

强化学习的训练方式不够稳定,难以训练,不易找出最佳匹配的视频片段;


于决策空间受限,窗口的移动和缩放都受限于预定义的策略,检索出的视频片段的质量可能不高,影响模型表现。
10.相应地,本领域需要一种新的视频片段定位方案来解决上述问题。


技术实现要素:

11.为了克服上述缺陷,提出了本发明,以提供解决或至少部分地解决如何高效、快速、准确地进行视频片段的定位的问题。
12.在第一方面,本发明提供一种视频片段定位方法,所述方法包括:
13.根据待查询视频和查询语句,获取查询感知的视频表征和视频感知的语言表征;
14.根据所述待查询视频构建所述待查询视频的多个有效候选视频片段;并根据所述查询感知的视频表征获取每个有效候选视频片段的内容特征和边界特征;
15.分别对查询感知的视频表征和视频感知的语言表征进行细粒度编码,获取细粒度视频编码特征和细粒度语言编码特征;并将所述细粒度视频编码特征和所述细粒度语言编码特征进行深度融合,获取细粒度融合特征;
16.根据所述细粒度融合特征、所述内容特征和所述边界特征,获取每个有效候选视频片段的关系感知特征;
17.根据所述关系感知特征,获取最终的视频片段的定位结果。
18.在上述视频片段定位方法的一个技术方案中,“根据所述待查询视频构建所述待查询视频的多个有效候选视频片段”的步骤包括:
19.构建t
×
t个网格的二维时间网络图;其中,t为所述查询感知的视频表征的特征长度,所述二维时间网络图的纵坐标表示所述待查询视频中的候选视频片段的开始时间,横坐标表示所述待查询视频中的候选视频片段的结束时间,所述二维时间网络图中开始时间小于结束时间的网络为有效网格;
20.根据每个有效网格中对应的候选视频片段与其他有效网格对应的候选视频片段之间的时间间隔,对有效网格进行稀疏采样,以获得多个采样后的有效网格,将采样后的有效网格对应的候选视频片段,作为有效候选视频片段。
21.在上述视频片段定位方法的一个技术方案中,“根据所述查询感知的视频表征获取每个有效候选视频片段的内容特征和边界特征”的步骤包括:
22.根据以下公式获取第n个有效候选视频片段的内容特征和边界特征
[0023][0024][0025]
其中,为第n个有效候选视频片段的开始时间的查询感知的视频表征,为第n个有效候选视频片段的结束时间的查询感知的视频表征,maxpooling为最大池化操作,addition相加运算。
[0026]
在上述视频片段定位方法的一个技术方案中,“分别对查询感知的视频表征和视频感知的语言表征进行细粒度编码,获取细粒度视频编码特征和细粒度语言编码特征”的步骤包括:
[0027]
根据以下公式获取细粒度视频编码特征:
[0028][0029]
其中,为所述细粒度视频编码特征,为所述查询感知的视频表征,linear为线性全连接层操作,relu为线性整流函数。
[0030]
应用一维卷积网络,对视频感知的语言表征进行编码,分别获得一元语言特征、二元语言特征和三元语言特征;
[0031]
根据所述一元语言特征、二元语言特征和三元语言特征,应用以下公式,获得所述细粒度语言编码特征:
[0032][0033]
其中,为所述细粒度语言编码特征,令别为所述一元语言特征、二元语言特征和三元语言特征,concat为特征融合操作。
[0034]
在上述视频片段定位方法的一个技术方案中,“将所述细粒度视频编码特征和所述细粒度语言编码特征进行深度融合,获取细粒度融合特征”的步骤包括:
[0035]
根据以下公式获取所述细粒度融合特征:
[0036][0037]
其中,勾所述细粒度融合特征,勾查询感知的视频片段特征,为视频感知的视频片段特征;根据以下公式获取所述查询感知的视频片段特征:
[0038][0039]ac
为有效候选视频片段的内容特征的集合,gq为门控语言特征,通过以下公式获取所述门控语言特征:
[0040][0041]
σ为门函数,an为有效候选视频片段的边界特征的集合,为转移语言特征,通过以下公式获取所述转移语言特征:
[0042][0043]
linear为线性全连接层操作,maxpooling为最大池化层操作;
[0044]
根据以下公式所述视频感知的视频片段特征:
[0045][0046]
avgpooling为平均池化层操作。
[0047]
在上述视频片段定位方法的一个技术方案中,“根据所述细粒度融合特征、所述内容特征和所述边界特征,获取每个有效候选视频片段的关系感知特征”的步骤包括:
[0048]
将所述细粒度融合特征、所述内容特征和所述边界特征进行特征融合,并根据以下公式获取增强的融合特征
[0049][0050]
将所述增强的融合特征输入至堆叠多层分组卷积网络中,并根据以下公式获取每个有效候选视频片段的关系感知特征:
[0051][0052]
勾有效候选视频片段的关系感知特征的集合。
[0053]
在上述视频片段定位方法的一个技术方案中,“根据所述关系感知特征,获取最终的视频片段的定位结果”的步骤包括:
[0054]
根据每个有效候选视频片段的关系感知特征,对每个有效候选视频片段进行打分,以获取每个有效候选视频片段的分数;
[0055]
根据所述有效候选视频片段的分数确定最终的视频片段的定位结果。
[0056]
在上述视频片段定位方法的一个技术方案中,“根据每个有效候选视频片段的关系感知特征,对每个有效候选视频片段进行打分,以获取每个有效候选视频片段的分数”的步骤包括:
[0057]
根据以下公式获取每个有效候选视频片段的分数:
[0058][0059]
其中,pa为有效候选视频片段的分数的集合。
[0060]
在上述视频片段定位方法的一个技术方案中,“根据所述有效候选视频片段的分数确定最终的视频片段的定位结果”的步骤包括:
[0061]
将所述有效候选视频片段的分数按照从高到低的顺序进行排序;
[0062]
根据排序结果和预设需求,选择分数最高的有效候选视频片段作为最终的视频片段的定位结果;或,
[0063]
根据排序结果和预设需求,前k个有效候选视频片段作为最终的视频片段的定位结果。
[0064]
在上述视频片段定位方法的一个技术方案中,“根据待查询视频和查询语句,获取查询感知的视频表征和视频感知的语言表征”的步骤包括:
[0065]
将所述待查询视频划分为多个视频片段;
[0066]
使用预设的视频特征提取模型对每个视频片段进行特征提取,获取每个视频片段的视频特征;
[0067]
对所有视频片段的视频特征进行粗粒度编码,获取粗粒度视频特征;
[0068]
使用预设的语言特征提取模型对所述查询语句进行特征提取,获取所述查询语句的语言特征;
[0069]
对查询语句的语言特征进行粗粒度编码,获取粗粒度语言特征;
[0070]
将所述粗粒度视频特征和所述粗粒度语言特征进行模态交互,获得查询感知的视频表征和视频感知的语言表征。
[0071]
在上述视频片段定位方法的一个技术方案中,“对所有视频片段的视频特征进行粗粒度编码,获取粗粒度视频特征”的步骤包括:
[0072]
应用一维卷积网络对视频片段的视频特征进行编码,并通过平均池化层网络将编码后的视频特征进行降维,获得降维后的视频特征;
[0073]
应用bi-gru网络对降维后的视频特征进行编码,以获取所述粗粒度视频特征;和/或,
[0074]“对查询语句的语言特征进行粗粒度编码,获取粗粒度语言特征”的步骤包括:
[0075]
应用bi-gru网络对查询语句的语言特征进行编码,以获得所述粗粒度语言特征。
[0076]
在上述视频片段定位方法的一个技术方案中,“将所述粗粒度视频特征和所述粗粒度语言特征进行模态交互,获得查询感知的视频表征和视频感知的语言表征”的步骤包括根据以下公式获取查询感知的视频表征和视频感知的语言表征:
[0077][0078][0079]
其中,为所述查询感知的视频表征,勾所述粗粒度视频特征,勾所述视频感知的语言表征,v
atten
为所述粗粒度视频特征的加权和,所述粗粒度语言特征,t为所述粗粒度视频特征的长度,c为所述粗粒度视频特征和所述粗粒度语言特征的维度,l为所述粗粒度语言特征的长度,q
atten
为所述粗粒度语言特征的加权和,根据以下公式获取q
atten

[0080][0081]
勾所述粗粒度语言特征的第j个元素均注意力权重,根据以下公式获取所述注意力权重:
[0082][0083]aq
为所述粗粒度语言特征的注意力权重矩阵,勾所述粗粒度语言特征矩阵的转置;wq为第一可学习参数矩阵,bq为第二可学习参数矩阵;
[0084]vatten
为所述粗粒度视频特征的加权和,根据以下公式获取v
atten

[0085][0086]
为所述粗粒度视频特征的第j个元素的注意力权重,根据以下公式获取所述注意力权重:
[0087][0088]
av为所述粗粒度视频特征的注意力权重矩阵,勾所述粗粒度视频特征矩阵的转置。
[0089]
在第二方面,本发明提供一种视频片段定位系统,所述系统包括:
[0090]
粗粒度编码及模态交互模块,其被配置为根据待查询视频和查询语句,获取查询感知的视频表征和视频感知的语言表征;
[0091]
候选视频频段构建模块,其被配置为根据所述待查询视频构建所述待查询视频的多个候选视频片段;并根据所述查询感知的视频表征获取每个候选视频片段的内容特征和边界特征;
[0092]
细粒度融合特征获取模块,其被配置为分别对查询感知的视频表征和视频感知的语言表征进行细粒度编码,获取细粒度视频编码特征和细粒度语言编码特征;并将所述细粒度视频编码特征和所述细粒度语言编码特征进行深度融合,获取细粒度融合特征;
[0093]
关系感知特征获取模块,其被配置为根据所述细粒度融合特征、所述内容特征和所述边界特征,获取每个候选视频片段的关系感知特征;
[0094]
视频定位结果获取模块,其被配置为根据所述关系感知特征,获取最终的视频片段的定位结果。
[0095]
在第三方面,提供一种控制装置,该控制装置包括处理器和存储装置,所述存储装置适于存储多条程序代码,所述程序代码适于由所述处理器加载并运行以执行上述视频片段定位方法的技术方案中任一项技术方案所述的视频片段定位方法。
[0096]
在第四方面,提供一种计算机可读存储介质,该计算机可读存储介质其中存储有多条程序代码,所述程序代码适于由处理器加载并运行以执行上述视频片段定位方法的技术方案中任一项技术方案所述的视频片段定位方法。
[0097]
本发明上述一个或多个技术方案,至少具有如下一种或多种有益效果:
[0098]
在实施本发明的技术方案中,本发明能够根据待查询视频和查询语句,获得融合查询语句信息的查询感知的视频表征和融合了视频特征的视频感知的语言表征,分别对查询感知的视频表征和视频感知的语言表征进行细粒度编码,并对编码后的特征进行融合获得细粒度融合特征。根据待查询视频,构建多个有效候选视频片段,并根据细粒度融合特征,以及有效候选视频片段的内容特征和边界特征,获取有效候选视频片段的关系感知特征,根据关系感知特征获取最终的视频片段的定位结果。通过上述配置,本发明将视频片段定位任务类比为人类的阅读理解任务,借鉴阅读理解任务先粗读后细读的阅读策略来处理视频定位任务,使得视频定位过程中能够融合多模态特征,同时能够深度挖掘出语言模态和视觉模态内部和之间的语义信息,使得视频片段定位方法能够更加符合人类进行阅读理解任务的策略,能够获得更好的定位效果。同时,由于构建了多个有效候选视频片段,有效候选视频片段的关系感知特征中包含了与其他有效候选视频片段之间的关系,通过关系感知特征能够帮助进一步区分视觉上相似的视频片段,在确保视频片段定位的准确性的同时,也能够提升视频片段定位的效率。
附图说明
[0099]
参照附图,本发明的公开内容将变得更易理解。本领域技术人员容易理解的是:这些附图仅仅用于说明的目的,而并非意在对本发明的保护范围组成限制。其中:
[0100]
图1是根据本发明的一个实施例的视频片段定位方法的主要步骤流程示意图;
[0101]
图2是将视频片段定位任务类比为人类阅读理解任务的主要步骤流程示意图;
[0102]
图3是根据本发明实施例的一个实施方式的二维时间网络图的示意图;
[0103]
图4是根据本发明实施例的一个实施方式的获取有效候选视频片段的内容特征和边界特征的方法示意图;
[0104]
图5是根据本发明实施例的一个示例的视频片段定位方法的定位结果示意图;
[0105]
图6是根据本发明实施例的另一个示例的视频片段定位方法的定位结果示意图;
[0106]
图7是根据本发明的一个实施例的视频片段定位系统的主要结构框图;
[0107]
图8是根据本发明实施例的一个实施方式的视频片段定位系统的主要结构框图。
具体实施方式
[0108]
下面参照附图来描述本发明的一些实施方式。本领域技术人员应当理解的是,这些实施方式仅仅用于解释本发明的技术原理,并非旨在限制本发明的保护范围。
[0109]
在本发明的描述中,“模块”、“处理器”可以包括硬件、软件或者两者的组合。一个模块可以包括硬件电路,各种合适的感应器,通信端口,存储器,也可以包括软件部分,比如
程序代码,也可以是软件和硬件的组合。处理器可以是中央处理器、微处理器、图像处理器、数字信号处理器或者其他任何合适的处理器。处理器具有数据和/或信号处理功能。处理器可以以软件方式实现、硬件方式实现或者二者结合方式实现。非暂时性的计算机可读存储介质包括任何合适的可存储程序代码的介质,比如磁碟、硬盘、光碟、闪存、只读存储器、随机存取存储器等等。术语“a和/或b”表示所有可能的a与b的组合,比如只是a、只是b或者a和b。术语“至少一个a或b”或者“a和b中的至少一个”含义与“a和/或b”类似,可以包括只是a、只是b或者a和b。单数形式的术语“一个”、“这个”也可以包含复数形式。
[0110]
本发明针对现有技术中存在的问题,提出了一种新的视频片段定位方法,借鉴了人类处理阅读理解任务的方法。参阅附图2,图2是将视频片段定位任务类比为人类阅读理解任务的主要步骤流程示意图。如图2所示,基于查询语句的视频片段定位任务类比为自然语言的阅读理解任务中多项选择阅读任务。视频片段定位任务的输入包括视频、查询语句以及预定义的候选视频片段,其中视频对应于阅读理解中的文章,查询语句对应于阅读理解中的问题,候选视频片段对应于阅读理解中的候选答案,最终输出的就是选择出匹配概率最大的k个候选视频片段。
[0111]
参阅附图1,图1是根据本发明的一个实施例的视频片段定位方法的主要步骤流程示意图。如图1所示,本发明实施例中的视频片段定位方法主要包括下列步骤s101-步骤s105。
[0112]
步骤s101:根据待查询视频和查询语句,获取查询感知的视频表征和视频感知的语言表征。
[0113]
在本实施例中,可以根据待查询视频和查询语句来获取查询感知的视频表征和视频感知的语言表征。其中,查询感知的视频表征是指融合了语言特征的视频特征,视频感知的语言表征是指融合了视频特征的语言特征。
[0114]
一个实施方式中,可以先分别对待查询视频和查询语句进行特征提取,再对提取的特征进行粗粒度编码,将编码获得的特征进行模态交互以获得查询感知的视频表征和视频感知的语言表征。其中,粗粒度编码是指将提取的特征进行简单映射,并获得时序依赖的编码过程。时序依赖是指特征之间的时序关系。模态交互是指不同的模态的特征之间进行相互融合。模态是指感官,不同的模态就是指通过不同的感官获得的信息,如视频模态即为视频感官,语言模态即为文字感官等。
[0115]
步骤s102:根据待查询视频构建待查询视频的多个有效候选视频片段;并根据查询感知的视频表征获取每个有效候选视频片段的内容特征和边界特征。
[0116]
在本实施例中,可以根据待查询视频构建待查询视频的多个有效候选视频片段,也就是根据待查询视频生成多个有效候选视频片段。同时,为了更为全面的获得有效候选视频片段的表征,可以根据查询感知的视频表征获得有效视频片段的内容特征和边界特征。其中,内容特征是指根据有效候选视频片段中所有时刻的视频表征获得的特征;边界特征是指根据有效候选视频片段的开始时间和结束时间的视频表征获得的特征。
[0117]
步骤s103:分别对查询感知的视频表征和视频感知的语言表征进行细粒度编码,获取细粒度视频编码特征和细粒度语言编码特征;并将细粒度视频编码特征和细粒度语言编码特征进行深度融合,获取细粒度融合特征。
[0118]
在本实施例中,可以分别对查询感知的视频表征和视频感知的语言表征进行细粒
度编码,获取细粒度视频编码特征和细粒度语言编码特征,将获得的细粒度视频编码特征和细粒度语言编码特征进行深度融合,以获得细粒度融合特征。其中,细粒度编码是相对粗粒度编码而言的,即为对视频表征和语言表征进一步地细化编码,以获得视频模态和语言模态的更深层次的特征。并将细粒度视频编码特征和细粒度语言编码特征进行深度融合,获取细粒度融合特征。其中,细粒度融合特征是视频模态和语言模态之间进行进一步交互(深度融合)后获得的更深层次的特征。
[0119]
一个实施方式中,可以使用concat函数,实现细粒度视频编码特征和细粒度语言编码特征的深度融合。
[0120]
步骤s104:根据细粒度融合特征、内容特征和边界特征,获取每个有效候选视频片段的关系感知特征。
[0121]
在本实施方式中,可以根据有效候选视频片段的内容特征和边界特征,并结合步骤s103获得的细粒度融合特征,获得每个有效候选视频片段的关系感知特征。其中,关系感知特征中包含了不同的候选视频片段之间关系的特征。即可以根据细粒度融合特征、内容特征和边界特征可以学习不同有效候选视频片段的上下文信息,从而获得不同候选视频片段之间的关系。
[0122]
步骤s105:根据关系感知特征,获取最终的视频片段的定位结果。
[0123]
在本实施方式中,可以根据每个有效候选视频片段的关系感知特征,对每个有效候选视频片段进行评估,并根据评估结果,获取最终的视频片段的定位结果。
[0124]
一个实施方式中,可以根据预设的需求来确定最终的视频片段的定位结果。即,当预设的需求为只获取一个有效候选视频片段,则可以将关系感知特征最符合的一个有效候选视频片段作为最终的视频片段的定位结果;当预设的需求为获取前k个有效候选视频片段,则可以将关系感知特征最符合的前k个有效候选视频片段作为最终的视频片段的定位结果。
[0125]
基于上述步骤s101-步骤s105,本发明实施例能够根据待查询视频和查询语句,获得融合查询语句信息的查询感知的视频表征和融合了视频特征的视频感知的语言表征,分别对查询感知的视频表征和视频感知的语言表征进行细粒度编码,并对编码后的特征进行融合获得细粒度融合特征。根据待查询视频,构建多个有效候选视频片段,并根据细粒度融合特征,以及有效候选视频片段的内容特征和边界特征,获取有效候选视频片段的关系感知特征,根据关系感知特征获取最终的视频片段的定位结果。通过上述配置,本发明实施例将视频片段定位任务类比为人类的阅读理解任务,借鉴阅读理解任务先粗读后细读的阅读策略来处理视频定位任务,使得视频定位过程中能够融合多模态特征,同时能够深度挖掘出语言模态和视觉模态内部和之间的语义信息,使得视频片段定位方法能够更加符合人类进行阅读理解任务的策略,能够获得更好的定位效果。同时,由于构建了多个有效候选视频片段,有效候选视频片段的关系感知特征中包含了与其他有效候选视频片段之间的关系,通过关系感知特征能够帮助进一步区分视觉上相似的视频片段,在确保视频片段定位的准确性的同时,也能够提升视频片段定位的效率。
[0126]
下面对步骤s101-步骤s105作进一步地说明。
[0127]
在本发明实施例的一个实施方式中,步骤s101可以进一步包括以下步骤s1011至步骤s1016:
[0128]
步骤s1011:将待查询视频划分为多个视频片段。
[0129]
在本实施方式中,可以先对待查询视频进行切帧,以获得切帧后先图片序列。可以将连续tc张图片作为一个视频片段。即,待查询视频vc可以表示为其中,vi为待查询视频中的第i个视频片段,nc为待查询视频中视频片段的个数。
[0130]
一个实施方式中,当切帧后的图片序列的图片总数tv不是tc的整数倍时,将最后多出来的不足tc张的图片序列舍弃。
[0131]
步骤s1012:使用预设的视频特征提取模型对每个视频片段进行特征提取,获取每个视频片段的视频特征。
[0132]
在本实施方式中,可以使用视频特征提取模型对视频片段进行特征提取,以获取每个视频片段的视频特征。可以将提取到的视频特征记为其中,cv每个视频片段的特征维度。
[0133]
一个实施方式中,视频特征提取模型包括但不限于vgg(visual geometry group,视觉几何组)模型、c3d(convolution 3d,3d卷积网络)模型或者i3d(inflated 3d convnets,膨胀3d卷积网络)模型等。
[0134]
步骤s1013:对所有视频片段的视频特征进行粗粒度编码,获取粗粒度视频特征。
[0135]
在本实施方式中,可以多对视频片段的视频特征进行粗粒度编码,以获得视频片段的粗粒度视频特征。
[0136]
一个实施方式中,步骤s1013可以进一步包括以下步骤s10131和步骤s10132:
[0137]
步骤s10131:应用一维卷积网络对视频片段的视频特征进行编码,并通过平均池化层网络将编码后的视频特征进行降维,获得降维后的视频特征。
[0138]
在本实施方式中,可以使用一维卷积网络对视频特征进行编码,并将编码后的视频特征通过平均池化层映射到r
t
×c空间中,以实现视频特征的降维,获得降维后的视频特征。其中,t为降维后的视频特征的特征长度,c为降维后视频特征的维度。平均池化层是指取池化区域的平均值,通过平均池化层操作能够降低特征的维度。
[0139]
步骤s10132:应用bi-gru(bi-gated recurrent unit,双向门控循环单元)网络对降维后的视频特征进行编码,以获取粗粒度视频特征。
[0140]
在本实施方式中,考虑到视频片段之间的时序特征,可以使用bi-gru网络对降维后的视频特征进行编码,以获得视频片段之间的时序依赖,编码后即可获得粗粒度视频特征
[0141]
步骤s1014:使用预设的语言特征提取模型对查询语句进行特征提取,获取查询语句的语言特征。
[0142]
在本实施方式中,可以使用语言特征提取模型提取查询语句的语言特征。可以将查询语句表示为其中,qi为查询语句的第i个元素,nq为查询语句中元素的个数。
[0143]
一个实施方式中,语言特征提取模型包括但不限于glove(global vectors,全局向量)模型、bert(bidirectional transformers,双向语言)模型等。
[0144]
步骤s1015:对查询语句的语言特征进行粗粒度编码,获取粗粒度语言特征。
[0145]
在本实施方式中,同样可以使用bi-gru网络对查询语句的语言特征进行编码,以获得粗粒度语言特征。
[0146]
步骤s1016:将粗粒度视频特征和粗粒度语言特征进行模态交互,获得查询感知的视频表征和视频感知的语言表征。
[0147]
在本实施方式中,在获得粗粒度视频特征和粗粒度语言特征后,可以先对这两个模态的特征进行模态交互,以使得视频特征融合语言信息,语言特征融合视频信息,即获得查询感知的视频表征和视频感知的语言表征。
[0148]
一个实施方式中,可以根据以下公式(1)-公式(3)获得查询感知的视频表征:
[0149][0150][0151][0152]
其中,为查询感知的视频表征,aq为粗粒度语言特征的注意力权重矩阵,为粗粒度语言特征矩阵的转置;wq为第一可学习参数矩阵,bq为第二可学习参数矩阵;为粗粒度语言特征的第j个元素的注意力权重;q
atten
为粗粒度语言特征的加权和。
[0153]
也就是说,可以将粗粒度语言特征输入至线性层网络,进行线性变换,并使用softmax函数来获得粗粒度语言特征的注意力权重,其中注意力权重表示粗粒度语言特征中各个元素的重要程度。然后将注意力权重和粗粒度语言特征中的语言特征进行相乘累加后与粗粒度视频特征进行点乘,即可获得查询感知的视频表征。可以使用l
2 normalization对查询感知的视频表征进行归一化。
[0154]
由于模态交互是具有对称性的,因而可以使用同样的方法获得视频感知的语言表征,具体为公式(4)-公式(6):
[0155][0156][0157][0158]
其中,av为粗粒度视频特征的注意力权重矩阵,勾粗粒度视频特征矩阵的转置,v
atten
为粗粒度视频特征的加权和,为粗粒度视频特征的第j个元素的注意力权重,为视频感知的语言表征,粗粒度语言特征。
[0159]
在本发明实施例的一个实施方式中,步骤s102可以进一步包括以下步骤s1021至步骤s1022:
[0160]
步骤s1021:构建t
×
t个网格的二维时间网络图;其中,t为查询感知的视频表征的特征长度,二维时间网络图的纵坐标表示待查询视频中的候选视频片段的开始时间,横坐标表示待查询视频中的候选视频片段的结束时间,二维时间网络图中开始时间小于结束时间的网络为有效网格。
[0161]
在本实施方式中,可以参阅附图3,图3是根据本发明实施例的一个实施方式的二维时间网络图的示意图,其中,图3的横坐标为候选视频片段的结束时间,纵坐标为候选视频片段的开始时间。如图3所示,可以构建t
×
t个网格的二维时间网络图,由于开始时间必须小于结束时间才有意义,所以二维时间网络图中开始时间小于结束时间的网格为有效网格。
[0162]
步骤s1022:根据每个有效网格中对应的候选视频片段与其他有效网格对应的候选视频片段之间的时间间隔,对有效网格进行稀疏采样,以获得多个采样后的有效网格,将采样后的有效网格对应的候选视频片段,作为有效候选视频片段。
[0163]
在本实施方式中,由于有效网格的数量较大,可以根据每个有效网格对应的候选视频片段与其他有效网格对应的候选视频片段之间的时间间隔,对有效网络进行稀疏采样。即,候选视频片段之间的时间间隔从短到长变化的过程中,对有效网格的采样也由密到疏进行调整。
[0164]
在本发明实施例的一个实施方式中,步骤s102还可以包括:
[0165]
根据以下公式(7)和公式(8)获得第n个有效候选视频片段的内容特征和边界特征
[0166][0167][0168]
其中,为第n个有效候选视频片段的开始时间查询感知的视频表征,为第n个有效候选视频片段的结束时间查询感知的视频表征,maxpoolin9为最大池化操作,addition相加运算。
[0169]
在本实施方式中,参阅附图4,图4是根据本发明实施例的一个实施方式的获取有效候选视频片段的内容特征和边界特征的方法示意图,其中,图4的横坐标为候选视频片段的结束时间,纵坐标为候选视频片段的开始时间。如图4所示,可以通过将有效候选视频片段的开始时间到结束时间内的所有时刻的查询感知的视频表征进行最大池化操作,以获得有效候选视频片段的内容特征;将有效候选视频片段的开始时间和结束时间内的查询感知的视频表征进行相加运算,获得有效候选视频片段的边界特征。可以将步骤s1022获得的所有有效候选视频片段的内容特征和边界特征进行整合,即可获得有效候选视频片段的内容特征的集合ac和边界特征的集合ab,其中:ac和ab可以用以下公式(9)和公式(10)表示:
[0170][0171][0172]
在本发明实施例的一个实施方式中,步骤s103可以进一步包括以下步骤s1031至步骤s1033:
[0173]
步骤s1031:根据以下公式(11)获取细粒度视频编码特征:
[0174][0175]
其中,勾细粒度视频编码特征,为查询感知的视频表征。linear为线性全连接层操作,relu为线性整流函数。
[0176]
在本实施方式中,为了进一步感知模态内部的信息,可以模仿人类处理阅读理解任务的习惯,对查询感知的视频表征进行细粒度编码。具体地,可以使用前馈神经网络对查询感知的视频表征进行编码,并与查询感知的视频表征相加,以获得细粒度视频编码特征。其中,前馈神经网络包括线性全链接层,其激活函数为线性整流函数——relu函数。
[0177]
步骤s1032:应用一维卷积网络,对视频感知的语言表征进行编码,分别获得一元语言特征、二元语言特征和三元语言特征。
[0178]
在本实施方式中,为了进一步挖掘单词层面的特征和短语层面的特征,从而获得更为准确的细粒度特征,可以应用一维卷积网络,对视频感知的语言表征进行编码。其中,可以使用不同大小的卷积核来实现不同编码过程,即,使用卷积核大小为1的卷积核进行卷积操作获得一元语言特征;使用卷积核大小为3的卷积核进行卷积操作获得二元语言特征;使用卷积核大小为5的卷积核进行卷积操作获得三元语言特征。
[0179]
步骤s1033:根据一元语言特征、二元语言特征和三元语言特征,应用以下公式(12),获得细粒度语言编码特征:
[0180][0181]
其中,为细粒度语言编码特征,分别为一元语言特征、二元语言特征和三元语言特征,concat为特征融合操作。
[0182]
在本实施方式中,可以使用concat函数将一元语言特征、二元语言特征和三元语言特征串接起来传入线性全连接层网络中,即可获得细粒度语言编码特征。
[0183]
在本发明实施例的一个实施方式中,步骤s103除了包括步骤s1031至步骤s1033外,还可以包括步骤s1034:
[0184]
步骤s1034:根据以下公式(13)至公式(17)获取细粒度融合特征:
[0185][0186][0187][0188][0189][0190]
其中,勾细粒度融合特征,为查询感知的视频片段特征,为视频感知的视频片段特征,gq为门控语言特征,σ为门函数,为转移语言特征,avgpooling为平均池化层操作。
[0191]
在本实施方式中,在进行细粒度感知模态内部信息后,可以进一步获取交互模态间的信息,使用门函数挖掘两个模态间的关系。在本实施方式中,门函数为sigmoid函数。可以通过公式(13)至公式(15)获得查询感知的视频片段特征,通过公式(16)获得视频感知的视频片段特征,并根据公式(17)将查询感知的视频片段特征和视频感知的视频片段特征进行特征融合,以获得细粒度融合特征。
[0192]
在本发明实施例的一个实施方式中,步骤s104可以包括以下步骤s1041和步骤s1042:
[0193]
步骤s1041:将细粒度融合特征、内容特征和边界特征进行特征融合,并根据以下公式(18)获取增强的融合特征
[0194][0195]
在本实施方式中,在获得细粒度融合特征后,可以仿照人类处理阅读理解任务时比较不同选项然后再下结论的习惯,比较不同的有效候选视频片段的特征,学习上下文信
息,以准确分辨出相似的有效候选视频片段。具体地,可以通过二维卷积网络(conv2d)将细粒度融合特征、内容特征和边界特征进行特征融合获得的融合特征进行整合,获得增强的融合特征。
[0196]
步骤s1042:将增强的融合特征输入至堆叠多层分组卷积网络中,并根据以下公式(19)获取每个有效候选视频片段的关系感知特征:
[0197][0198]
勾有效候选视频片段的关系感知特征的集合。
[0199]
在本实施方式中,可以通过堆叠多层分组卷积网络来从相邻的有效候选视频片段中感知更多的上下文信息,以获得每个有效候选视频片段的关系感知特征。由于分组卷积网络的参数量远小于一般的卷积网络且本发明中的分组卷积网络的隐藏层的大小仅为通常解决方案的一半,因而,根据关系感知特征能够进一步提升视频片段的定位能力,提升了运算过程的效率。
[0200]
在本发明实施例的一个实施方式中,步骤s105可以进一步包括以下步骤s1051和步骤s1052:
[0201]
步骤s1051:根据每个有效候选视频片段的关系感知特征,对每个有效候选视频片段进行打分,以获取每个有效候选视频片段的分数。
[0202]
在本实施方式中,可以根据以下公式(20)获取每个有效候选视频片段的分数:
[0203][0204]
其中,pa为有效候选视频片段的分数的集合,σ可以为sigmoid激活函数。
[0205]
步骤s1052:根据有效候选视频片段的分数确定最终的视频片段的定位结果。
[0206]
一个实施方式中,步骤s1052可以包括以下步骤s10521和步骤s10522:
[0207]
步骤s10521:将有效候选视频片段的分数按照从高到低的顺序进行排序;
[0208]
步骤s10522:根据排序结果和预设需求,选择分数最高的有效候选视频片段作为最终的视频片段的定位结果。
[0209]
在本实施方式中,当预设需求为获取一个有效候选视频片段时,则将分数最高的有效候选视频片段作为最终的视频片段的定位结果。
[0210]
一个实施方式中,步骤s1052可以包括以下步骤s10521和步骤s10523:
[0211]
步骤s10521:将有效候选视频片段的分数按照从高到低的顺序进行排序;
[0212]
步骤s10523:根据排序结果和预设需求,前k个有效候选视频片段作为最终的视频片段的定位结果。
[0213]
在本实施方式中,当预设需求为获取k个有效候选视频片段时,则根据排序结果获取前k个有效候选视频片段作为最终的视频片段的定位结果。
[0214]
一个实施方式中,可以准备训练视频和对应的标注文件作为训练集,对实现本发明实施例的视频片段定位方法的模型进行训练。其中,训练视频中包含了多个人类行为,标注文件中标注了每个人类行为的开始时间和结束时间,以及描述这个人类行为的语句。每个人类行为对应的视频片段可能会有交叉,并且时间长短不同,每个描述语句都只对应一个视频片段。可以将每个标注文件中的行为开始时间和结束时间进行归一化,使得归一化后的时间戳位于[0,1]之间。可以对训练集中的每一个视频样本,计算该视频中每一个视频
片段与该视频所对应的标注文件中的行为时间的重叠百分比,如果重叠百分比大于等于第一阈值,则该视频片段样本的标签就设置为1;如果重叠百分比小于等于第二阈值,则该视频片段样本的标签就设置为0;如果重叠百分比在第二阈值和第一阈值之间时,则可以归一化使得标签值在0到1之间。训练过程中使用的损失函数为二元交叉熵损失函数,如公式(21)和公式(22)所示:
[0215][0216][0217]
其中,gi为样本的标签,l为二元交叉熵损失函数,pi第i个有效候选视频片段的分数,n为有效候选视频片段的数量,θ
max
为第一阈值,θ
min
为第二阈值。
[0218]
在对模型进行训练的过程中,学习率设置为1
×
10-3
,使用adam优化器,一共迭代训练15次。
[0219]
参阅附图5和附图6,图5是根据本发明实施例的一个示例的视频片段定位方法的定位结果示意图;图6是根据本发明实施例的另一个示例的视频片段定位方法的定位结果示意图。其中,图5和图6中模型3对应的结果为去掉细粒度编码步骤后的视频片段定位结果,模型4对应的结果为去掉获取细粒度融合特征步骤后的视频片段定位结果。如图5和图6所示,当给定一段查询语句后,本发明实施例的视频定位方法获得的定位结果更为接近训练过程标注的数据。
[0220]
需要指出的是,尽管上述实施例中将各个步骤按照特定的先后顺序进行了描述,但是本领域技术人员可以理解,为了实现本发明的效果,不同的步骤之间并非必须按照这样的顺序执行,其可以同时(并行)执行或以其他顺序执行,这些变化都在本发明的保护范围之内。
[0221]
进一步,本发明还提供了一种视频片段定位系统。
[0222]
参阅附图7,图7是根据本发明的一个实施例的视频片段定位系统的主要结构框图。如图7所示,本发明实施例中的视频片段定位系统可以包括粗粒度编码及模态交互模块、候选视频频段构建模块、细粒度融合特征获取模块、关系感知特征获取模块和视频定位结果获取模块。在本实施例中,粗粒度编码及模态交互模块可以被配置为根据待查询视频和查询语句,获取查询感知的视频表征和视频感知的语言表征。候选视频频段构建模块可以被配置为根据待查询视频构建待查询视频的多个候选视频片段;并根据查询感知的视频表征获取每个候选视频片段的内容特征和边界特征。细粒度融合特征获取模块可以被配置为分别对查询感知的视频表征和视频感知的语言表征进行细粒度编码,获取细粒度视频编码特征和细粒度语言编码特征;并将细粒度视频编码特征和细粒度语言编码特征进行深度融合,获取细粒度融合特征。关系感知特征获取模块可以被配置为根据细粒度融合特征、内容特征和边界特征,获取每个候选视频片段的关系感知特征。视频定位结果获取模块可以被配置为根据关系感知特征,获取最终的视频片段的定位结果。
[0223]
一个实施方式中,参阅附图8,图8是根据本发明实施例的一个实施方式的视频片
段定位系统的主要结构框图。如图8所示,视频片段定位系统可以包括视频特征提取模块、粗粒度视频特征获取模块、语言特征提取模块、粗粒度语言特征获取模块、模态交互模块,细粒度视频编码特征获取模块、细粒度语言编码特征获取模块、有效候选视频片段生成模块、细粒度融合特征获取模块、关系感知特征获取模块和视频片段定位模块。待查询视频输入至视频特征提取模块,查询语句输入至语言特征提取模块,视频片段定位模块可以输出视频片段的定位结果。
[0224]
上述视频片段定位系统以用于执行图1所示的视频片段定位方法实施例,两者的技术原理、所解决的技术问题及产生的技术效果相似,本技术领域技术人员可以清楚地了解到,为了描述的方便和简洁,视频片段定位系统的具体工作过程及有关说明,可以参考视频片段定位方法的实施例所描述的内容,此处不再赘述。
[0225]
本领域技术人员能够理解的是,本发明实现上述一实施例的方法中的全部或部分流程,也可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。其中,所述计算机程序包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读存储介质可以包括:能够携带所述计算机程序代码的任何实体或装置、介质、u盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器、随机存取存储器、电载波信号、电信信号以及软件分发介质等。需要说明的是,所述计算机可读存储介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如在某些司法管辖区,根据立法和专利实践,计算机可读存储介质不包括电载波信号和电信信号。
[0226]
进一步,本发明还提供了一种控制装置。在根据本发明的一个控制装置实施例中,控制装置包括处理器和存储装置,存储装置可以被配置成存储执行上述方法实施例的视频片段定位方法的程序,处理器可以被配置成用于执行存储装置中的程序,该程序包括但不限于执行上述方法实施例的视频片段定位方法的程序。为了便于说明,仅示出了与本发明实施例相关的部分,具体技术细节未揭示的,请参照本发明实施例方法部分。该控制装置可以是包括各种电子设备形成的控制装置设备。
[0227]
进一步,本发明还提供了一种计算机可读存储介质。在根据本发明的一个计算机可读存储介质实施例中,计算机可读存储介质可以被配置成存储执行上述方法实施例的视频片段定位方法的程序,该程序可以由处理器加载并运行以实现上述视频片段定位方法。为了便于说明,仅示出了与本发明实施例相关的部分,具体技术细节未揭示的,请参照本发明实施例方法部分。该计算机可读存储介质可以是包括各种电子设备形成的存储装置设备,可选的,本发明实施例中计算机可读存储介质是非暂时性的计算机可读存储介质。
[0228]
进一步,应该理解的是,由于各个模块的设定仅仅是为了说明本发明的装置的功能单元,这些模块对应的物理器件可以是处理器本身,或者处理器中软件的一部分,硬件的一部分,或者软件和硬件结合的一部分。因此,图中的各个模块的数量仅仅是示意性的。
[0229]
本领域技术人员能够理解的是,可以对装置中的各个模块进行适应性地拆分或合并。对具体模块的这种拆分或合并并不会导致技术方案偏离本发明的原理,因此,拆分或合并之后的技术方案都将落入本发明的保护范围内。
[0230]
至此,已经结合附图所示的优选实施方式描述了本发明的技术方案,但是,本领域
技术人员容易理解的是,本发明的保护范围显然不局限于这些具体实施方式。在不偏离本发明的原理的前提下,本领域技术人员可以对相关技术特征作出等同的更改或替换,这些更改或替换之后的技术方案都将落入本发明的保护范围之内。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献