一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

视频文本互检方法及其模型训练方法、装置、设备、介质与流程

2022-12-07 18:55:05 来源:中国专利 TAG:


1.本技术涉及信息检索技术领域,特别是涉及一种视频文本互检模型训练方法及装置、视频文本互检方法及装置、电子设备及可读存储介质。


背景技术:

2.随着计算机技术以及网络技术被广泛地应用在日常工作生活中,数据呈现数量及多样性的显著增长,文本类数据如新闻报道、微博淘宝等评论数据、微信聊天记录等,图像数据如表情包、文章配图、手机照片、医疗影像等,视频数据如各种视频播放器的电视、电影,以及小视频如抖音、快手等,摄像头采集的数据等,音频数据如各种语音播报、微信语音、视频配音等。这些不同多媒体形式的数据通常还共同用于描述同一物体或同一场景。为了方便管理多样的多媒体内容,不同媒体间实现灵活检索的方法应用而生。
3.其中,对于视频数据和文本数据之间的互检索,相关技术并不以视频为直接处理对象,通常是将视频数据分割为多帧图像数据,然后对图像数据进行处理。在图像处理过程中,相关技术利用注意力方法将提取到的图像特征加权到文本特征中,对文本特征进行重构,增强文本与图像之间的相似性。该方法虽然能够利用注意力重构电子文本特征。但是,其只是简单地在重构电子文本特征时使用自然图像对电子文本的单向注意力,由于自然图像与电子文本存在对应关系,相互对应的高阶特征间互相影响,仅仅重构电子文本特征而忽略自然图像特征,使得自然图像特征无法准确与电子文本特征对应,影响视频文本互相检索。
4.鉴于此,如何有效提高视频文本互检索精度,是所属领域技术人员需要解决的技术问题。


技术实现要素:

5.本技术提供了一种视频文本互检模型训练方法及装置、视频文本互检方法及装置、电子设备及可读存储介质,可有效提高视频文本互检索精度。
6.为解决上述技术问题,本发明实施例提供以下技术方案:本发明实施例第一方面提供了一种视频文本互检模型训练方法,包括:获取训练样本集的每组训练样本中的样本文本的文本特征信息;所述样本文本包括第一类文本数据、第二类文本数据及第三类文本数据,所述第二类文本数据包括第一类文本数据,且所述第三类文本数据用于概括所述第二类文本数据和所述第一类文本数据;所述文本特征信息包括所述第一类文本数据、所述第二类文本数据和第三类文本数据对应的第一类文本特征、第二类文本特征和第三类文本特征;所述第一类文本特征和所述第二类文本特征确定视频文本互检模型中的异质图神经网络的节点特征和连接边;对每组训练样本中的样本视频,将从所述样本视频中提取的多帧图像进行重新组合,以得到多个图像集,且同一张图像被包含在不同图像集中;根据不同图像集的图像特征及各图像集之间的关联关系,生成所述样本视频的视
频特征;基于每组训练样本的文本特征及相应的视频特征,训练所述视频文本互检模型;所述文本特征为利用所述异质图神经网络提取所述第二类文本数据的特征和所述第三类文本特征的融合特征。
7.可选的,所述将从所述样本视频中提取的多帧图像进行重新组合,以得到多个图像集,包括:获取图像重组合参数;所述图像重组合参数包括图像集总数以及各图像集包含的图像帧总数;根据所述图像重组合参数,确定每个图像集所包含的图像帧,以对由多帧图像形成的图像序列进行分割处理。
8.可选的,各图像集所包含图像帧总数相同,所述根据所述图像重组合参数,确定每个图像集所包含的图像帧,包括:对第一个图像集,根据所述图像帧总数和所述图像序列的第一帧图像确定所述第一个图像集所包含的图像帧;调用图像分割关系式,确定相邻图像集的图像帧序号差;所述图像分割关系式为:m nk=n;对其余各图像集,基于当前图像集的上一个图像集所包含的图像帧和所述图像帧序号差,确定相应图像集所包含的图像帧;式中,m为各图像集所包含图像帧总数,n为所述图像序列所包含图像帧总数,n为图像集总数,k为图像帧序号差,且其为整数。
9.可选的,所述将从所述样本视频中提取的多帧图像进行重新组合,以得到多个图像集,包括:通过解析视频拆分指令,获取视频拆分参数;按照所述视频拆分参数,将所述样本视频拆分为多个视频段;对每个视频段,提取用于标识当前视频段的目标图像帧。
10.可选的,所述提取用于标识当前视频段的目标图像帧,包括:提取所述当前视频段的第一帧图像,以作为所述当前视频段的目标图像帧。
11.可选的,所述根据不同图像集的图像特征及各图像集之间的关联关系,生成所述样本视频的视频特征,包括:预先训练图像特征提取网络;对每个图像集,将当前图像集所包含的图像帧均输入至所述图像特征提取网络,得到所述当前图像集对应的图像特征;其中,所述图像特征提取网络包括第一3d卷积结构、第一降采样结构、第二3d卷积结构、第二降采样结构、2d卷积结构和全连接层;所述第一3d卷积结构用于对所述图像特征提取网络的输入信息进行3d卷积操作;所述第一降采样结构用于对所述第一3d卷积结构的输出特征进行降采样操作;所述第二3d卷积结构用于对所述第一降采样结构的输出特征进行3d卷积操作;所述第二降采样结构用于对所述第二3d卷积结构输出的特征进行降采样操作;所述2d卷积结构用于对所述第二降采样结构的输出特征进行2d卷积操作。
12.可选的,所述根据不同图像集的图像特征及各图像集之间的关联关系,生成所述样本视频的视频特征,包括:对每个图像集,基于当前图像集的图像特征确定所述当前图像集的当前初始权重,并基于所述当前初始权重和每个图像集的初始权重确定所述当前图像集的权重系数;根据各图像集的图像特征及相应的权重系数,生成所述样本视频的视频特征。
13.可选的,所述基于当前图像集的图像特征确定所述当前图像集的当前初始权重,包括:调用初始权重计算关系式,计算所述当前图像集的当前初始权重;所述初始权重计算关系式为:ai=q
t relu(h
·
yi);式中,ai为第i个图像集的初始权重,q为已知向量,q
t
表示q的转置,relu()为relu函数,h为权重矩阵,yi为第i个图像集的图像特征。
14.可选的,所述基于所述当前初始权重和每个图像集的初始权重确定所述当前图像集的权重系数,包括:调用权重计算关系,计算所述当前图像集的权重系数;所述权重计算关系式为:;式中,为第i个图像集的权重系数,ai为第i个图像集的初始权重,softmax()为softmax函数,aj为第j个图像集的初始权重,n为图像集总数。
15.可选的,所述基于每组训练样本的文本特征及相应的视频特征,训练所述视频文本互检模型,包括:基于每组训练样本的文本特征信息及相应的视频特征,调用损失函数指导视频文本互检模型的训练过程;所述损失函数为:;式中,为所述损失函数,n为训练样本组数,min d()表示计算距离的最小值,为所述训练样本集中所包含的所有样本视频中的第a个样本视频,为所述训练样本集中所包含的所有样本文本中第p个样本文本、且其与第a个样本视频相对应,为在所有样本文本数据中的第n个样本文本、且其与第a个样本视频不对应,为所有样本文本数据中的第a个样本文本,为所有样本视频中第p个样本视频、且其与第a个样本文本相对应,为所有样本视频数据中的第n个样本视频、且其与第a个样本文本不对应,

为超参数。
16.本发明实施例第二方面提供了一种视频文本互检模型训练装置,包括:文本特征获取模块,用于获取训练样本集的每组训练样本中的样本文本的文本特征信息;所述样本文本包括第一类文本数据、第二类文本数据及第三类文本数据,所述第二类文本数据包括第一类文本数据,且所述第三类文本数据用于概括所述第二类文本数据和所述第一类文本数据;所述文本特征信息包括所述第一类文本数据、所述第二类文本数据和第三类文本数据对应的第一类文本特征、第二类文本特征和第三类文本特征;所述第一类文本特征和所述第二类文本特征确定视频文本互检模型中的异质图神经网络的节点特征和连接边;视频特征生成模块,用于对每组训练样本中的样本视频,将从所述样本视频中提取的多帧图像进行重新组合,以得到多个图像集,且同一张图像被包含在不同图像集中;根据不同图像集的图像特征及各图像集之间的关联关系,生成所述样本视频的视频特征;训练模块,用于基于每组训练样本的文本特征及相应的视频特征,训练所述视频文本互检模型;所述文本特征为利用所述异质图神经网络提取所述第二类文本数据的特征和所述第三类文本特征的融合特征。
17.本发明实施例第三方面提供了一种视频文本互检方法,包括:预先利用如前任意一项所述的视频文本互检模型训练方法,训练得到视频文本互检模型;将从待检索视频中提取的多帧图像进行重新组合,以得到多个图像集,且同一张图像被包含在不同图像集中;根据不同图像集的图像特征及各图像集之间的关联关系,生成所述待检索视频的待匹配视频特征;将待检索文本的待匹配文本特征和所述待匹配视频特征,输入至所述视频文本互检模型,得到视频文本互检结果;所述待检索文本包括第一类文本数据、第二类文本数据及第三类文本数据,所述第二类文本数据包括第一类文本数据,且所述第三类文本数据用于概括所述第二类文本数据和所述第一类文本数据;所述待匹配文本特征为利用所述视频文本互检模型的异质图神经网络提取所述第二类文本数据的特征和所述第三类文本特征的融合特征。
18.本发明实施例第四方面提供了一种视频文本互检装置,包括:模型训练模块,用于预先如前任意一项所述的视频文本互检模型训练方法,训练得到视频文本互检模型;视频处理模块,用于将从待检索视频中提取的多帧图像进行重新组合,以得到多个图像集,且同一张图像被包含在不同图像集中;根据不同图像集的图像特征及各图像集之间的关联关系,生成所述待检索视频的待匹配视频特征;互检模块,用于将待检索文本的待匹配文本特征和所述待匹配视频特征,输入至所述视频文本互检模型,得到视频文本互检结果;所述待检索文本包括第一类文本数据、第二类文本数据及第三类文本数据,所述第二类文本数据包括第一类文本数据,且所述第三类文本数据用于概括所述第二类文本数据和所述第一类文本数据;所述待匹配文本特征为利用所述视频文本互检模型的异质图神经网络提取所述第二类文本数据的特征和所述第三类文本特征的融合特征。
19.本发明实施例还提供了一种电子设备,包括处理器,所述处理器用于执行存储器中存储的计算机程序时实现如前任一项所述视频文本互检模型训练方法和/或如前所述视频文本互检方法的步骤。
20.本发明实施例最后还提供了一种可读存储介质,所述可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如前任一项所述视频文本互检模型训练方法和/或如前所述视频文本互检方法的步骤。
21.本技术提供的技术方案的优点在于,将不同文本类型作为图神经网络的异构节点,采用图神经网络有利于提取更深层次、更丰富的文本特征,将概括文本数据的第三类文本数据和第二类文本数据的融合特征作为执行匹配任务的文本特征,可进一步挖掘文本数据之间的内在关系,进而有利于提升视频文本互检索的精度。将从视频数据中提取的图像帧进行重新组合后再提取图像视频,有利于获取到可更加精准反映视频的图像特征,在确定视频特征的过程中同时还考虑到不同图像帧之间的关联关系,有利于得到更加准确的视频特征,从而进一步文本视频互检索精度。
22.此外,本发明实施例还针对视频文本互检模型训练方法,提供了相应的实现装置、电子设备及可读存储介质,以及视频文本互检方法及装置、进一步使得所述方法更具有实用性,所述装置、电子设备、可读存储介质视频文本互检方法及装置均具有相应的优点。
23.应当理解的是,以上的一般描述和后文的细节描述仅是示例性的,并不能限制本公开。
附图说明
24.为了更清楚的说明本发明实施例或相关技术的技术方案,下面将对实施例或相关技术描述中所需要使用的附图作简单的介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
25.图1为本发明实施例提供的一种视频文本互检模型训练方法的流程示意图;图2为本发明实施例提供的一种构建异质图神经网络的示意图;图3为本发明实施例提供的多帧图像重新组合生成的多个图像集的示意图;图4为本发明实施例提供的样本视频切割流程示意图;图5为本发明实施例提供的图像特征提取示意图;图6为本发明实施例提供的一种视频文本互检方法的流程示意图;图7为本发明实施例提供的一个示例性应用场景的视频文本互检模型框架示意图;图8为本发明实施例提供的一个示例性应用场景的系统结构框架示意图;图9为本发明实施例提供的视频文本互检模型训练装置的一种具体实施方式结构图;图10为本发明实施例提供的视频文本互检装置的一种具体实施方式结构图;图11为本发明实施例提供的电子设备的一种具体实施方式结构图。
具体实施方式
26.为了使本技术领域的人员更好地理解本发明方案,下面结合附图和具体实施方式对本发明作进一步的详细说明。显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
27.本技术的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等是用于区别不同的对象,而不是用于描述特定的顺序。此外术语“包括”和“具有”以及他们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可包括没有列出的步骤或单元。
28.在介绍了本发明实施例的技术方案后,下面详细的说明本技术的各种非限制性实施方式。
29.首先参见图1,图1为本发明实施例提供的一种视频文本互检模型训练方法的流程示意图,本发明实施例可包括以下内容:s101:获取训练样本集的每组训练样本中的样本文本的文本特征信息。
30.在本实施例中,训练样本集为用于训练视频文本互检模型的样本数据,训练样本集包括多组训练样本,每组训练样本均包括相对应的样本文本和样本视频,也就是样本文本和样本视频为相匹配的一组样本数据,至于训练样本组数可根据实际训练需求以及所采用的数据库来确定,本技术对此不作任何限定。视频文本互检模型用于执行视频数据与文本数据的互相检索任务,其包括异质图神经网络和视频编码网络,异质图神经网络用于对样本文本以及待检索文本的第二类文本数据进行处理并最终输出该文本数据对应的文本特征,视频编码网络用于对视频数据进行处理,并最终输出该视频数据的视频特征,基于文本特征和视频特征训练得到该模型。本实施例的样本文本所包含的数据类型至少包括三种,其中两种数据类型对应的文本特征作为图结构的异构节点,为了便于描述,可称为第一类文本数据和第二类文本数据,另一类数据为概括第一类文本数据和第二类文本数据的文本数据。相应的,文本特征信息包括第一类文本数据、第二类文本数据和第三类文本数据对应的第一类文本特征、第二类文本特征和第三类文本特征;对于异质图神经网络是基于图结构的网络,图结构的节点为第一类文本特征和第二类文本特征,图结构的连接边由各异构节点对应特征之间是否具有关联关系来决定,如果某两个节点对应的特征之间具有关联关系,则该两个节点之间具有连接边关系。如图2所示,对于样本文本的两类文本数据,第一类文本数据所提取的特征包括、,第二类文本数据提取的特征包括,则异质图神经网络的节点包括,若和均有关联关系,比如中包含的特征,则和具有连接边,若和有关联关系,则和之间包括连接边。至于异质图神经网络的具体图结构,可基于实际应用场景选择相应的图结构,本技术对此不作任何限定。
31.s102:对每组训练样本中的样本视频,将从样本视频中提取的多帧图像进行重新组合,以得到多个图像集。
32.在本实施例中,对训练样本集所包含的所有样本视频,分别执行s102和s103。在本步骤中,对每个样本视频,从样本视频中提取多帧表示该样本视频的图像,至于提取该样本
视频的哪些帧图像,可根据实际需求进行灵活选择,进一步的,至于提取的图像帧总数,也可基于实际需求灵活选择,本技术对此均不做任何限定。提取到多帧图像之后,对这多帧图像进行重新组合,可将这多帧图像按照提取的顺序在整合为一个图像序列,然后通过对图像序列进行交叉分割得到多个图像集,本实施例的同一张图像被包含在不同图像集中,表示同一张图像至少出现在两个图像集中。当然,提取到多帧图像之后,也可将这多帧图像随机整合为一个图像序列,然后通过对图像序列进行分割得到多个图像集。当然,提取到多帧图像之后,还可以将这多帧图像随机分配至不同的图像集,同一张图像可以被分配至多个图像集中。至于采用何种方法将多帧图像通过重新组合再生成多个新的图像集,所属领域技术人员可根据实际需求灵活决定。
33.s103:根据不同图像集的图像特征及各图像集之间的关联关系,生成样本视频的视频特征。
34.在上个步骤获取各个图像集之后,可采用任何一种现有的机器学习模型如卷积神经网络、vgg、resnet等提取各图像集中包含的每帧图像的图像特征,并将该图像集中所有帧图像的图像特征整合为该图像集的图像特征。各图像集之间的关联关系用于标识不同图像集的图像特征对整个视频的重要程度,基于不同图像集的重要程度和该图像集的图像特征确定样本视频的最终视频特征。
35.s104:基于每组训练样本的文本特征及相应的视频特征,训练视频文本互检模型。
36.在本实施例中,一个样本文本的文本特征对应一个样本视频的视频特征,本实施例的每个样本文本的文本特征均为融合特征,融合的是该样本文本的第三类文本数据对应的文本特征以及其第二类文本数据由视频文本互检模型的异质图神经网络提取所得到的特征。对于第三类文本数据对应的文本特征可采用任何一种文本特征提取模型提取得到,本实施例对此不做任何限定。模型训练过程中,会采用损失函数来指导模型的训练,然后通过诸如梯度反传等方式实现对视频文本互检模型的各网络参数的更新,直至满足模型训练条件,如达到迭代次数或者收敛效果较好。举例来说,视频文本互检模型的训练过程可包括前向传播阶段和反向传播阶段,前向传播阶段是数据由低层次向高层次传播的阶段,反向传播阶段是当前向传播得出的结果与预期不相符时,将误差从高层次向底层次进行传播训练的阶段。具体来说,首先初始化所有网络层权值,如随机初始化;然后输入视频特征和文本特征信息经过图神经网络、卷积层、下采样层、全连接层等各层的前向传播得到输出值;计算视频文本互检模型的模型输出值,并基于损失函数计算该输出值的损失值。将误差反向传回视频文本互检模型中,依次求得视频文本互检模型的各部分如图神经网络层,全连接层,卷积层等各层的反向传播误差。视频文本互检模型的各层根据各层的反向传播误差对视频文本互检模型的所有权重系数进行调整,实现权重的更新。重新随机选取新批次的视频特征和文本特征信息,然后再次进行上述过程,获得网络前向传播得到输出值。无限往复迭代,当计算得到的模型输出值与目标值(也即标签)之间的误差小于预设阈值时,或者迭代次数超过预设迭代次数时,结束模型训练。将结束模型训练当前对应的模型的所有层参数作为训练好的视频文本互检模型的网络参数。
37.在本发明实施例提供的技术方案中,将不同文本类型作为图神经网络的异构节点,采用图神经网络有利于提取更深层次、更丰富的文本特征,进而有利于提升视频文本互检索的精度。将从视频数据中提取的图像帧进行重新组合后再提取图像视频,有利于获取
到可更加精准反映视频的图像特征,在确定视频特征的过程中同时还考虑到不同图像帧之间的关联关系,有利于得到更加准确的视频特征,从而进一步文本视频互检索精度。
38.上述实施例对s104步骤中,对于采用哪种损失函数指导模型训练过程并没有进行限定,所属领域技术人员可采用任何一种现有技术中的损失函数,如l1范数损失函数、均方误差损失函数、交叉熵损失等。而可以理解的是,损失函数是用于衡量预测模型预测期望结果表现的指标,损失函数是否准确,影响整个模型精准度,为了进一步提高视频文本互检索精准度,本技术还给出了一种损失函数的可选实施方式,也即可基于每组训练样本的文本特征及相应的视频特征,调用损失函数指导视频文本互检模型的训练过程;损失函数可表述为:;式中,为所述损失函数,n为训练样本组数,min d()表示计算距离的最小值,为所述训练样本集中所包含的所有样本视频中的第a个样本视频,为所述训练样本集中所包含的所有样本文本中第p个样本文本、且其与第a个样本视频相对应,为在所有样本文本数据中的第n个样本文本、且其与第a个样本视频不对应,为所有样本文本数据中的第a个样本文本,为所有样本视频中第p个样本视频、且其与第a个样本文本相对应,为所有样本视频数据中的第n个样本视频、且其与第a个样本文本不对应,

为超参数。
39.在本实施例中,损失函数对于成对儿的数据,会遍历每一个视频特征和文本特征信息计算损失函数的平均值。本实施例例如可遍历n次,n代表在本batch(批次)中,共有n个成对的样本数据,也即训练样本集共有n组训练样本,可将这n组训练样本的所有样本视频作为一个视频图像组,所有样本文本作为一个文本组。首先对视频图像组特征进行遍历(共n个),遍历选中视频特征可称为,a代表anchor(锚点样本)。与锚点样本成对的文本特征编码记为,p代表positive。同理,在本batch中与不配对的文本特征记为。

是超参数,在训练时固定,例如设置为0.3。同理,对于文本特征也做相同的遍历操作,代表遍历中被选中的那个样本,与其对应的视频图像组特征样本记为,不对应的记为。
40.在上述实施例中,对于如何执行步骤s102并不做限定,本实施例中给出一种可选的图像帧组合方式,可包括如下步骤:获取图像重组合参数,根据该图像重组合参数,确定每个图像集所包含的图像帧,以对由多帧图像形成的图像序列进行分割处理。
41.在本实施例中,图像重组合参数可包括图像集总数以及各图像集包含的图像帧总数,图像集总数和各图像集包含的图像帧总数可实时更改,也即用户可实时输入最新采用的参数值,可以直接写入系统的指定位置,这均不影响本技术的实现。而至于每个图像集包含的图像帧数可相同也可设置为不同,为了便于后续图像处理,本实施例可设置每个图像集所包含的图像帧数相同。在确定了图像集总数以及各图像集包含的图像帧总数之后,结合提取的图像帧数,可通过人工交互方式进行图像帧的分配与再处理。当然也可采用自动化的图像分割方法,本实施例对于各图像集所包含图像帧总数相同的场景,还给出根据图像重组合参数确定每个图像集所包含的图像帧的一种可选的实施方式,可包括下述内容:对第一个图像集,根据图像帧总数和图像序列的第一帧图像确定第一个图像集所包含的图像帧;调用图像分割关系式,确定相邻图像集的图像帧序号差;图像分割关系式为:m nk=n;对其余各图像集,基于当前图像集的上一个图像集所包含的图像帧和图像帧序号差,确定相应图像集所包含的图像帧;式中,m为各图像集所包含图像帧总数,n为图像序列所包含图像帧总数,n为图像集总数,k为图像帧序号差,且其为整数。
42.在本实施例中,为了使所属领域技术人员更加清楚实现方式,结合图3给出了一个示意性例子,若样本视频提取的图像帧为n帧图像,将该n帧图像分成n个相互重叠的图像集,每个图像集可包括m帧图像。基于m nk=n可计算得到图像帧序号差k值,第一个图像集包括[1,

,m],第二个图像集包括[k 1,

,m k],第三个图像集包括[2k 1,

,m 2k],第n个图像集包括[nk 1,

,m nk]。举例来说,n=32,n=5,m=16,则k=3.2,向上取整,k=4,则分成的图像集可为:[1,16]、[5,20]、[9,24]、[13,28]和[16,n]。
[0043]
样本视频是由很多帧视频图像组成,上述实施例对从样本视频中提取多帧图像的过程并没有进行限定,如图4所示,本实施例还给出一种可选的实施方式,也即通过解析视频拆分指令,获取视频拆分参数;按照视频拆分参数,将样本视频拆分为多个视频段;对每个视频段,提取用于标识当前视频段的目标图像帧。可选的,可提取当前视频段的第一帧图像,作为当前视频段的目标图像帧。其中,视频拆分参数是指样本视频拆分段数以及样本视频标识信息等,本实施可将一段样本视频平均分成n段,然后取每一段的第一帧的图像作为该段图像的代表。
[0044]
本实施例通过将从视频中提取的图像帧划分为多个相互重叠的区间,有利于提取更丰富的图像特征,提升模型训练精准度。
[0045]
上述实施例对如何生成视频特征,并不进行限定,本技术还给出一个示意性例子,可包括下述内容:首先结合图5所示,本技术给出一种用于提取各图像集的每帧图像的图像特征的网络结构,在本实施例中称为图像特征提取网络,该图像特征提取网络可包括第一3d卷积结构、第一降采样结构、第二3d卷积结构、第二降采样结构、2d卷积结构和全连接层;第一3d卷积结构用于对图像特征提取网络的输入信息进行3d卷积操作;第一降采样结构用于对第一3d卷积结构的输出特征进行降采样操作;第二3d卷积结构用于对第一降采样结构的输出特征进行3d卷积操作;第二降采样结构用于对第二3d卷积结构输出的特征进行降采样操作;2d卷积结构用于对第二降采样结构的输出特征进行2d卷积操作。基于上述结构,可采用任何一种图像数据库对该图像特征提取网络进行训练,直至到达训练结束条件。对每个图像集,将当前图像集所包含的图像帧均输入至图像特征提取网络,得到当前图像集对应的
图像特征。
[0046]
举例来说,考虑一个图像集的输入是多帧图像的体素块,其大小可为c
∗m∗h∗
w,c为图像通道(一般为rgb彩色3通道), m为视频序列的长度=本图像集的图像的帧数,h和w分别为样本视频的宽与高。进行一次3d卷积核为k
∗3∗3∗
3的操作,stride为1,padding=true,滤波器个数为k的3d 卷积后,输出的大小为k
∗m∗h∗
w。池化层同理。基于以上3d卷积操作,本实施例使用如图5所示的c3d network结构,其包含3d convolution=3d卷积,2d convolution=2d卷积,subsampling降采样层,full connection=全连接层。共有4次卷积操作,2次降采样操作。其中卷积核的大小如图5所示。池化核的大小为2

2,步长为2。最终网络在经过1次2d 卷积操作和1次全连接层层后就得到了最终的输出特征。网络的输入尺寸为3

16

224

224,即一次输入16帧图像,输入图像尺寸是224
×
224。在实施例中,对于每个图像集的输入,可得到一个128维度的特征向量。
[0047]
在提取到每个图像集的图像特征之后,根据不同图像集的图像特征及各图像集之间的关联关系生成样本视频的视频特征的过程,可包括:对每个图像集,基于当前图像集的图像特征确定当前图像集的当前初始权重,并基于当前初始权重和每个图像集的初始权重确定当前图像集的权重系数;根据各图像集的图像特征及相应的权重系数,生成样本视频的视频特征。
[0048]
其中,可通过调用初始权重计算关系式计算当前图像集的当前初始权重;初始权重计算关系式可表述为:ai=q
t relu(h
·
yi);式中,ai为第i个图像集的初始权重,q为已知向量,q
t
表示q的转置,relu()为relu函数,h为权重矩阵,yi为第i个图像集的图像特征。经过h
·
yi的矩阵乘法可将yi映射到一个公共空间,h可通过模型训练得到,q
t
与relu(h
·
yi)相乘会得到一个数。
[0049]
其中,可通过调用权重计算关系计算当前图像集的权重系数;权重计算关系可表示为:;式中,为第i个图像集的权重系数,softmax()为softmax函数,aj为第j个图像集的初始权重,n为图像集总数。
[0050]
最终本实施例生成的视频特征e
video
可表示为:。
[0051]
在本实施例中,通过对不同的图像集的特征进行加权处理,使得每个图像集的特征能够更加显著的表达,从而有利于得到更精确的视频特征,有助于提升模型训练精准度。
[0052]
此外,本实施例还提供了视频文本互检方法,请参阅图6,可包括下述内容:s601:预先训练视频文本互检模型。
[0053]
本步骤可预先利用上述任意一个实施例中所记载的视频文本互检模型训练方法来训练得到视频文本互检模型。
[0054]
s602:将从待检索视频中提取的多帧图像进行重新组合,以得到多个图像集,且同
the mango”,则其位置信息分别为“1,2,3,4,5”。文本类型是指:若输入文本是步骤,其文本类型为 1;若输入文本是成分,其文本类型为2。通过该bert模型,可以获得每句话和每个单词的编码特征,该特征用于代表节点特征,即成分节点特征和步骤节点特征,成分节点特征和步骤节点特征都是一个高维向量,其维度均为维度(d维实向量)。在确定节点特征之后,如果该主成分存在该操作步骤中,则该成分节点和步骤节点需要有一条边连接,也即两个节点之间具有连接关系。可选的,可通过文本比对的方法,遍历步骤信息,提取每个步骤文本,然后依次查找主成分,如果该主成分中的单词在该步骤中出现,则该步骤和该主成分之间连接一条边即有连接关系。通过遍历所有步骤文本,可以构建步骤节点预成分节点的连接关系,即异质图的连接关系。在异质图建立之后,异质图信息更新可采用图注意力网络实现特征聚合与更新,更新方法是依次遍历每个异质节点进行更新。通过异质图运算来实现文本特征的聚合与提取,计算方法可如下所示:首先对步骤节点进行更新,是步骤节点的第q个节点的节点特征,代表成分节点的第p个节点的特征。若步骤节点的第q个节点与成分节点的第p个节点有连接(也即具有边连接关系),则用成分节点的第p个节点的特征去更新步骤节点的第q个节点特征。在更新过程中,需要考虑各节点之间的相关性,本实施例可通过赋予权重来表示节点间的关联性,可选的,可调用下述关系式(1)计算步骤节点的第q个节点与成分节点的第p个节点特征的相关权重z
pq
。对于每个步骤节点,例如,遍历所有与其有相连的边的成分节点,假设有np个,都会得到与其对应的相关权重z
pq

[0064]
ꢀꢀ
(1)其中,wa、wb、wc为已知的维矩阵,代表矩阵乘法,也即向量映射。
[0065]
在更新完各步骤节点之后,可对所有与步骤节点相连的边的成分节点进行相关权重的归一化,也即可调用下述关系式(2)得到归一化的相关权重α
qp
: (2)式中,exp代表求指数函数,代表求取所有与步骤节点相连的边的成分节点的相关权重的总和。最后通过归一化的相关权重对步骤节点的节点特征进行更新,也即调用下述关系式(3)进行计算:
ꢀꢀ
(3)其中,σ代表超参数,在[0,1]区间。是维矩阵,是被与其相连的成分节点更新后的新的特征向量。
[0066]
进一步,基于残差网络的思想,调用下述关系式(4)可将更新后的与未更前的初始特征相加:

(4)同理,可调用关系式(5)对成分节点也做相同的计算与更新:
ꢀꢀ
(5)遍历完所有的成分节点和步骤节点,即完成图注意力网络一层的网络更新。通常,可叠加t层图注意力网络,用t代表第t层的图注意力网络,每一层的节点特征的更新方式都如上所述。通常会在每层图注意力网络后面加入集成全连接层,实现对节点特征(包括成分节点和步骤节点)特征的再编码,如下述关系式(6)所示:
ꢀꢀꢀ
(6)ffn代表全连接层,、代表t 1层的图注意力网络的初始化节点特征。
[0067]
如上完成了对本节点特征的更新,为了实现与菜谱视频的检索,还需要将所有文字节点的特征如操作步骤、成分信息和菜名进行归纳和综合。在本实施例中,由于步骤节点融合了成分节点信息,成分节点通过图神经网络更新,以关键词的形式对相关步骤节点特征进行了强调。同时,由于菜名信息中包含重要的主材信息和烹饪手段,同时,菜名文本在基于菜谱的图文互检任务中通常是一个广泛的存在。基于此,本实施例还可通过bert模型提取菜名的特征。在获取各文本特征之后,可采用bilstm(双向长短期记忆神经网络)方法进一步挖掘步骤节点的时序信息,实现对文字节点特征的归纳综合,并将其打包成一个向量。
[0068]
本实施例可调用下述关系式(7)和(8)提取所有步骤节点的时序信息特征:
ꢀꢀ
(7)
ꢀꢀ
(8)其中,向左和向右的箭头代表lstm编码的方向,即步骤节点特征正序编码和倒序编码。代表bilstm中第q个单元的输出,箭头方向不同代表按照步骤节点输入顺序不同得到的bilstm编码输出。同理,则代表bilstm中第q-1个单元的输出,也即上一个状态的输出。假设菜谱步骤共有q步,为0,代表第t层的图神经网络的第q个步骤节点的特征。按照步骤的顺序和逆序,依次输入到其对应的bilstm网络中,最后得到所有步骤节点的bilstm编码,如下述关系式(9)所示:(9)
在获取所有bilstm单元的输出之后,可通过求和后取平均值得到整个文本特征的输出。其中,e
rec
代表文本特征的输出,用来进行下一步的检索。将e
rec
特征与菜名title特征进行融合,代表特征拼接,即特征首尾相连。e
rec
特征最后会经过一个全连接层进行特征映射,也即e
rec
=fc(e
rec
),得到新维度的向量,也即菜谱文本的文本特征信息,其用于作为与菜谱视频的编码特征进行匹配。
[0069]
对于菜谱视频的编码过程,可将样本视频作为菜谱视频,采用上述任意一个实施例实现对菜谱特征的编码。在得到训练样本集的每组训练样本的菜谱视频特征和菜谱文本特征信息之后,可采用上述实施例的损失函数指导视频文本互检模型的训练,使其收敛。
[0070]
菜谱检索终端设备701可以包括显示屏、输入接口、输入键盘、无线传输模块。当显示屏为触摸屏时,输入键盘可以是在显示屏上呈现的软键盘。输入接口可以用于实现与外部设备如u盘的连接。输入接口可以有多个。在实际应用中,用户可以通过输入键盘向菜谱检索终端设备701输入待检索菜谱文本或待检索视频,也可以将待检索菜谱文本或待检索视频写入u盘,将u盘插入菜谱检索终端设备701的输入接口。用户向菜谱检索终端设备701输入检索请求,检索请求携带待检索的菜谱文本或待检索的菜谱视频,菜谱检索终端可以通过无线传输模块向服务器702发送该检索请求,服务器702基于训练好的模型检索相应的数据库可以将最终互检索结果反馈至菜谱检索终端设备701,菜谱检索终端设备701可以通过显示屏向用户展示所检索到的菜谱文本或菜谱视频。
[0071]
本发明实施例还针对视频文本互检模型训练方法以及视频文本互检方法提供了相应的装置,进一步使得方法更具有实用性。其中,装置可从功能模块的角度和硬件的角度分别说明。下面对本发明实施例提供的视频文本互检模型训练装置以及视频文本互检装置进行介绍,下文描述的视频文本互检模型训练装置以及视频文本互检装置与上文描述的视频文本互检模型训练方法以及视频文本互检方法可相互对应参照。
[0072]
基于功能模块的角度,首先参见图9,图9为本发明实施例提供的视频文本互检模型训练装置在一种具体实施方式下的结构图,该装置可包括:文本特征获取模块901,用于获取训练样本集的每组训练样本中的样本文本的文本特征信息,样本文本包括第一类文本数据、第二类文本数据及第三类文本数据,第二类文本数据包括第一类文本数据,且第三类文本数据用于概括第二类文本数据和第一类文本数据;文本特征信息包括第一类文本数据、第二类文本数据和第三类文本数据对应的第一类文本特征、第二类文本特征和第三类文本特征;所述第一类文本特征和所述第二类文本特征确定视频文本互检模型中的异质图神经网络的节点特征和连接边;视频特征生成模块902,用于对每组训练样本中的样本视频,将从样本视频中提取的多帧图像进行重新组合,以得到多个图像集,且同一张图像被包含在不同图像集中;根据不同图像集的图像特征及各图像集之间的关联关系,生成样本视频的视频特征;训练模块903,用于基于每组训练样本的文本特征及相应的视频特征,训练视频文本互检模型;文本特征为利用异质图神经网络提取第二类文本数据的特征和第三类文本特征的融合特征。
[0073]
可选的,在本实施例的一些实施方式中,上述视频特征生成模块902还可用于:获取图像重组合参数;图像重组合参数包括图像集总数以及各图像集包含的图像帧总数;根据图像重组合参数,确定每个图像集所包含的图像帧,以对由多帧图像形成的图像序列进
行分割处理。
[0074]
作为上述实施例的一种可选的实施方式,上述视频特征生成模块902还可进一步用于:各图像集所包含图像帧总数相同,对第一个图像集,根据图像帧总数和图像序列的第一帧图像确定第一个图像集所包含的图像帧;调用图像分割关系式,确定相邻图像集的图像帧序号差;图像分割关系式为:m nk=n;对其余各图像集,基于当前图像集的上一个图像集所包含的图像帧和图像帧序号差,确定相应图像集所包含的图像帧;式中,m为各图像集所包含图像帧总数,n为图像序列所包含图像帧总数,n为图像集总数,k为图像帧序号差,且其为整数。
[0075]
可选的,在本实施例的一些实施方式中,上述视频特征生成模块902还可包括视频分解单元,该单元用于通过解析视频拆分指令,获取视频拆分参数;按照视频拆分参数,将样本视频拆分为多个视频段;对每个视频段,提取用于标识当前视频段的目标图像帧。
[0076]
作为本实施例的一种可选的实施方式,上述视频分解单元还可进一步用于:提取当前视频段的第一帧图像,以作为当前视频段的目标图像帧。
[0077]
可选的,在本实施例的另一些实施方式中,上述视频特征生成模块902还可包括特征提取单元,该单元用于:预先训练图像特征提取网络;对每个图像集,将当前图像集所包含的图像帧均输入至图像特征提取网络,得到当前图像集对应的图像特征;其中,图像特征提取网络包括第一3d卷积结构、第一降采样结构、第二3d卷积结构、第二降采样结构、2d卷积结构和全连接层;第一3d卷积结构用于对图像特征提取网络的输入信息进行3d卷积操作;第一降采样结构用于对第一3d卷积结构的输出特征进行降采样操作;第二3d卷积结构用于对第一降采样结构的输出特征进行3d卷积操作;第二降采样结构用于对第二3d卷积结构输出的特征进行降采样操作;2d卷积结构用于对第二降采样结构的输出特征进行2d卷积操作。
[0078]
可选的,在本实施例的再一些实施方式中,上述视频特征生成模块902还可用于:对每个图像集,基于当前图像集的图像特征确定当前图像集的当前初始权重,并基于当前初始权重和每个图像集的初始权重确定当前图像集的权重系数;根据各图像集的图像特征及相应的权重系数,生成样本视频的视频特征。
[0079]
作为上述实施例的一种可选的实施方式,上述视频特征生成模块902还可进一步用于:调用初始权重计算关系式,计算当前图像集的当前初始权重;初始权重计算关系式为:ai=q
t relu(h
·
yi);式中,ai为第i个图像集的初始权重,q为已知向量,q
t
表示q的转置,relu()为relu函数,h为权重矩阵,yi为第i个图像集的图像特征。
[0080]
作为上述实施例的另一种可选的实施方式,上述视频特征生成模块902还可进一步用于:调用权重计算关系,计算当前图像集的权重系数;权重计算关系式为:;式中,为第i个图像集的权重系数,min d()表示计算距离的最小值,softmax()为softmax函数,aj为第j个图像集的初始权重,n为图像集总数。
array,现场可编程门阵列)、pla(programmable logic array,可编程逻辑阵列)中的至少一种硬件形式来实现。处理器111也可以包括主处理器和协处理器,主处理器是用于对在唤醒状态下的数据进行处理的处理器,也称cpu(central processing unit,中央处理器);协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中,处理器111可以集成有gpu(graphics processing unit,图像处理器),gpu用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中,处理器111还可以包括ai(artificial intelligence,人工智能)处理器,该ai处理器用于处理有关机器学习的计算操作。
[0087]
存储器110可以包括一个或多个计算机可读存储介质,该计算机可读存储介质可以是非暂态的。存储器110还可包括高速随机存取存储器以及非易失性存储器,比如一个或多个磁盘存储设备、闪存存储设备。存储器110在一些实施例中可以是电子设备的内部存储单元,例如服务器702的硬盘。存储器110在另一些实施例中也可以是电子设备的外部存储设备,例如服务器702上配备的插接式硬盘,智能存储卡(smart media card,smc),安全数字(secure digital,sd)卡,闪存卡(flash card)等。进一步地,存储器110还可以既包括电子设备的内部存储单元也包括外部存储设备。存储器110不仅可以用于存储安装于电子设备的应用软件及各类数据,例如:执行上述视频文本互检模型训练方法和/或上述视频文本互检方法过程中的程序的代码等,还可以用于暂时地存储已经输出或者将要输出的数据。本实施例中,存储器110至少用于存储以下计算机程序1101,其中,该计算机程序被处理器111加载并执行之后,能够实现前述任一实施例公开的视频文本互检模型训练方法和/或视频文本互检方法的相关步骤。另外,存储器110所存储的资源还可以包括操作系统1102和数据1103等,存储方式可以是短暂存储或者永久存储。其中,操作系统1102可以包括windows、unix、linux等。数据1103可以包括但不限于视频文本互检模型训练过程产生的数据和/或视频文本互检结果对应的数据等。
[0088]
在一些实施例中,上述电子设备还可包括有显示屏112、输入输出接口113、通信接口114或者称为网络接口、电源115以及通信总线116。其中,显示屏112、输入输出接口113比如键盘(keyboard)属于用户接口,可选的用户接口还可以包括标准的有线接口、无线接口等。可选地,在一些实施例中,显示器可以是led显示器、液晶显示器、触控式液晶显示器以及oled(organic light-emitting diode,有机发光二极管)触摸器等。显示器也可以适当的称为显示屏或显示单元,用于显示在电子设备中处理的信息以及用于显示可视化的用户界面。通信接口114可选的可以包括有线接口和/或无线接口,如wi-fi接口、蓝牙接口等,通常用于在电子设备与其他电子设备之间建立通信连接。通信总线116可以是外设部件互连标准(peripheral component interconnect,简称pci)总线或扩展工业标准结构(extended industry standard architecture,简称eisa)总线等。该总线可以分为地址总线、数据总线、控制总线等。为便于表示,图11中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
[0089]
本领域技术人员可以理解,图11中示出的结构并不构成对该电子设备的限定,可以包括比图示更多或更少的组件,例如还可包括实现各类功能的传感器117。
[0090]
本发明实施例所述电子设备的各功能模块的功能可根据上述方法实施例中的方法具体实现,其具体实现过程可以参照上述方法实施例的相关描述,此处不再赘述。
[0091]
由上可知,本实施例可有效提高视频文本互检索精度。
[0092]
可以理解的是,如果上述实施例中的视频文本互检模型训练方法和/或视频文本互检方法以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本技术的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,执行本技术各个实施例方法的全部或部分步骤。而前述的存储介质包括:u盘、移动硬盘、只读存储器(read-only memory,rom)、随机存取存储器(random access memory,ram)、电可擦除可编程rom、寄存器、硬盘、多媒体卡、卡型存储器(例如sd或dx存储器等)、磁性存储器、可移动磁盘、cd-rom、磁碟或者光盘等各种可以存储程序代码的介质。
[0093]
基于此,本发明实施例还提供了一种可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时如上任意一实施例所述视频文本互检模型训练方法和/或视频文本互检方法。
[0094]
本发明实施例所述可读存储介质的各功能模块的功能可根据上述方法实施例中的方法具体实现,其具体实现过程可以参照上述方法实施例的相关描述,此处不再赘述。
[0095]
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其它实施例的不同之处,各个实施例之间相同或相似部分互相参见即可。对于实施例公开的硬件包括装置及电子设备而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
[0096]
专业人员还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
[0097]
以上对本技术所提供的一种视频文本互检模型训练方法及装置、视频文本互检方法及装置、电子设备及可读存储介质,进行了详细介绍。本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想。应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以对本技术进行若干改进和修饰,这些改进和修饰也落入本技术权利要求的保护范围内。
再多了解一些

本文用于创业者技术爱好者查询,仅供学习研究,如用于商业用途,请联系技术所有人。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献