一种文本与视频的互检方法、装置、设备及存储介质与流程

2022-12-07 18:51:22 来源：中国专利 TAG：

1.本发明涉及数据检索领域，特别是涉及一种文本与视频的互检方法，本发明还涉及一种文本与视频的互检装置、设备及可读存储介质。

背景技术：

2.近年来，随着计算机技术的飞速发展，人们利用手机、电脑等工具在各个互联网平台中产生了海量的多模态数据（例如文本、图像与视频等存储结构不同的数据），在所有的多模态数据中，视频和文本是日常生活中最常用的两种模态数据，虽然视频和文本的存储结构不一致，但两者可能拥有相似的语义信息，用户在很多情况下需要通过其中一种模态数据（例如文本），搜索出语义相关的另一种模态数据（例如视频），然而现有技术中缺少一种成熟的文本与视频的互检方法，使得在文本与视频的互检的过程中，效率以及精度有所欠缺。
3.因此，如何提供一种解决上述技术问题的方案是本领域技术人员目前需要解决的问题。

技术实现要素：

4.本发明的目的是提供一种文本与视频的互检方法，由于通过异志图神经网络对文本中第一文本信息以及第二文本信息的特征进行了提取，因此本技术能够快速准确确定出文本的特征向量，因此有利于提升文本与视频的互检的效率以及精度；本发明的另一目的是提供一种文本与视频的互检装置、设备及可读存储介质，由于通过异志图神经网络对文本中第一文本信息以及第二文本信息的特征进行了提取，因此本技术能够快速准确确定出文本的特征向量，因此有利于提升文本与视频的互检的效率以及精度。
5.为解决上述技术问题，本发明提供了一种文本与视频的互检方法，包括：通过异质图神经网络对待检测的文本中的第一文本信息以及第二文本信息进行编码，所述第一文本信息包括第二文本信息；根据所述异质图神经网络中各文本信息对应节点间的连接关系，对所述异质图神经网络中各个文本信息对应节点的节点特征进行更新；基于所述第一文本信息的时序信息将多个第一文本信息对应的节点特征聚合为第一目标特征向量；将预设数据库中与所述第一目标特征向量相似度最高的特征数据对应的视频作为目标视频。
6.优选地，所述待检测的文本还包括用于概括所述待检测的文本的第三文本信息；所述基于所述第一文本信息的时序信息将多个第一文本信息对应的节点特征聚合为第一目标特征向量之后，所述将预设数据库中与所述第一目标特征向量相似度最高的特征数据对应的视频作为目标视频之前，该文本与视频的互检方法还包括：将所述第三文本信息对应的节点特征融合至所述第一目标特征向量，以得到融合
后的所述第一目标特征向量。
7.优选地，所述通过异质图神经网络对待检测的文本中第一文本信息以及第二文本信息进行编码具体为：通过异质图神经网络确定出待检测的文本中第一文本信息对应的节点以及第二文本信息对应的节点；提取出每个所述第一文本信息以及所述第二文本信息对应节点的节点特征；在每个所述第一文本信息对应节点与该第一文本信息所包含的各个所述第二文本信息对应节点间建立连接关系。
8.优选地，所述根据所述异质图神经网络中各文本信息对应节点间的连接关系，对所述异质图神经网络中各个文本信息对应节点的节点特征进行更新具体为：基于所述异质图神经网络中各文本信息对应节点间的连接关系，通过图注意力网络对所述异质图神经网络中各个文本信息对应节点的节点特征进行更新。
9.优选地，所述基于所述第一文本信息的时序信息将多个第一文本信息对应的节点特征聚合为第一目标特征向量具体为：基于所述第一文本信息的时序信息，通过bilstm双向长短期记忆神经网络将多个第一文本信息对应的节点特征聚合为第一目标特征向量。
10.优选地，应用于预训练的视频文本检索网络；其中，所述视频文本检索网络通过预设的视频文本距离度量函数进行训练；所述视频文本距离度量函数为：其中，b为批次编号，trihard为三项损失函数，代表对第b批次求损失函数，n表示与锚点样本不配对的样本组，为对应样本的真实标签，为对应样本的真实标签，n为在本训练批次中共有n个成对的样本，其中，为遍历第二目标特征向量过程中选中的视频图像组对应的第二目标特征向量，a代表锚点样本，与锚点样本成对的第一目标特征向量记为，p代表位置，同理，为在本训练批次中与不配对的第一目标特征向量，为超参数，代表遍历第一目标特征向量过程中选中的第一目标特征向量，与其对应的第二目标特征向量记为，不对应的记为，是超参数。
11.优选地，该文本与视频的互检方法还包括：通过预设的混合特征编码方法获取待检测视频中各帧图像的混合特征；根据每帧图像的所述混合特征将所述待检测视频分段并确定出每一视频片段的关键帧；通过第一预设类型神经网络提取由所述关键帧组成的关键帧序列对应的特征向
量，并将其作为第二目标特征向量；将所述预设数据库中与所述第二目标特征向量相似度最高的特征数据对应的文本作为目标文本；其中，所述混合特征包括图像在原始图像空间以及语义空间中的特征。
12.优选地，所述通过预设的混合特征编码方法获取待检测视频中各帧图像的混合特征具体为：分别将待检测视频中各帧图像转换为多个指定尺度；将每帧图像在原始图像空间中各个所述指定尺度对应的图像特征进行拼接，得到每帧图像的图像拼接特征；通过第二预设神经网络提取所述检测视频中各帧图像在语义空间中的语义级别特征；将每帧图像对应的所述图像拼接特征以及所述语义级别特征进行拼接，得到每帧图像的混合特征。
13.优选地，所述根据每帧图像的所述混合特征将所述待检测视频分段并确定出每一视频片段的关键帧具体为：根据相邻帧图像的所述混合特征以及预设的相似度检测函数，计算每组相邻帧的相似度；在数值小于预设阈值的所述相似度对应的位置分割所述待检测视频，以便将所述待检测视频划分为多个视频片段；分别从各个所述视频片段中提取关键帧；将各个所述关键帧按照所述视频片段的顺序构建得到关键帧序列。
14.优选地，所述根据相邻帧图像的所述混合特征以及预设的相似度检测函数，计算每组相邻帧的相似度之后，所述在数值小于预设阈值的所述相似度对应的位置分割所述待检测视频，以便将所述待检测视频划分为多个视频片段之前，该文本与视频的互检方法还包括：将每帧图像前后共预设数量帧图像的相似度的均值作为该帧图像更新后的相似度。
15.优选地，所述在数值小于预设阈值的所述相似度对应的位置分割所述待检测视频，以便将所述待检测视频划分为多个视频片段之后，所述分别从各个所述视频片段中提取关键帧之前，该文本与视频的互检方法还包括：将帧数量小于预设帧数的所述视频片段剔除。
16.优选地，所述相似度检测函数为：；其中，为相邻帧中的前序帧x与后序帧y间的相似度，p(x)为像素x在前序帧x中的像素序号与前序帧x中的像素总数的比值，p(y)表示像素y在后序帧y中的像素序号与后序帧y中的像素总数的比值，p(x，y)为通过联合前序帧x与后序帧y计算得到的联合分布。
17.为解决上述技术问题，本发明还提供了一种文本与视频的互检装置，包括：编码模块，用于通过异质图神经网络对待检测的文本中的第一文本信息以及第二文本信息进行编码，所述第一文本信息包括第二文本信息；
更新模块，用于根据所述异质图神经网络中各文本信息对应节点间的连接关系，对所述异质图神经网络中各个文本信息对应节点的节点特征进行更新；聚合模型，用于基于所述第一文本信息的时序信息将多个第一文本信息对应的节点特征聚合为第一目标特征向量；匹配模块，用于将预设数据库中与所述第一目标特征向量相似度最高的特征数据对应的视频作为目标视频。
18.为解决上述技术问题，本发明还提供了一种文本与视频的互检设备，包括：存储器，用于存储计算机程序；处理器，用于执行所述计算机程序时实现如上所述调试方法的步骤。
19.为解决上述技术问题，本发明还提供了一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如上所述调试方法的步骤。
20.本发明提供了一种文本与视频的互检方法，为了挖掘文本中特征较为复杂的第一文本信息及其包括的第二文本信息的特征，本技术可以通过异质图神经网络对待检测的文本中第一文本信息以及第二文本信息进行编码，然后利用异质图神经网络中各文本信息对应节点间的连接关系对各节点的节点特征进行更新，然后结合时序信息将各个经过第二文本信息更新后的第一文本信息对应的节点特征聚合为第一目标特征向量，通过该第一目标特征向量进行对应视频的检索，本技术能够快速准确确定出文本信息的特征向量，因此有利于提升文本与视频的互检的效率以及精度。
21.本发明还提供了一种文本与视频的互检装置、设备及计算机可读存储介质，具有如上文本与视频的互检方法相同的有益效果。
附图说明
22.为了更清楚地说明本发明实施例中的技术方案，下面将对现有技术和实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。
23.图1为本发明提供的一种文本与视频的互检方法的流程示意图；图2为本发明提供的一种异质图的结构示意图；图3为本发明提供的视频分段示意图；图4为本发明提供的一种resnet50网络的结构示意图；图5为本发明提供的一种3d残差网络的结构示意图；图6为本发明提供的一种文本与视频的互检装置的结构示意图；图7为本发明提供的一种文本与视频的互检设备的结构示意图。
具体实施方式
24.本发明的核心是提供一种文本与视频的互检方法，由于通过异志图神经网络对文本中第一文本信息以及第二文本信息的特征进行了提取，因此本技术能够快速准确确定出文本的特征向量，因此有利于提升文本与视频的互检的效率以及精度；本发明的另一核心
是提供一种文本与视频的互检装置、设备及可读存储介质，由于通过异志图神经网络对文本中第一文本信息以及第二文本信息的特征进行了提取，因此本技术能够快速准确确定出文本的特征向量，因此有利于提升文本与视频的互检的效率以及精度。
25.为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。
26.请参考图1，图1为本发明提供的一种文本与视频的互检方法的流程示意图，该文本与视频的互检方法包括：s101：通过异质图神经网络对待检测的文本中第一文本信息以及第二文本信息进行编码；具体的，接上述背景技术，视频和文本是日常生活中最常用的两种模态数据，又称为多模态数据。实现多模态数据之间的互检具有重要的研究意义。近年来，随着计算机技术的飞速发展，人们利用手机、电脑等工具在各个互联网平台中产生了海量的多模态数据。这些多模态数据包括文本、图像与视频等存储结构不同的数据。根据最新的数据显示，全球最大的视频分享网站每小时有长达18000小时的视频数据被发布，被数以亿计的用户传阅；某些社交网络平台每日分享的图片高达上亿张；而我国用户量最大的社交软件每月有超过9亿人在聊天，朋友圈每天上传的照片和视频量都超过了十亿。虽然这些平台中分享的数据类型多种多样，存储结构不一，但可能拥有相似的语义信息，例如，视频通过图片，文本和音频等不同模态数据描述同一个事件。针对现阶段海量的、具有内在关联的多模态数据，用户急切地需要人工智能技术通过某一种模态数据（例如文本），搜索出语义相关的其他模态数据（例如视频和音频等）。由于短视频平台的快速发展，用户和厂商都迫切地希望能够高效地实现跨模态视频检索，为平台提供更多便利。所以，近年来跨模态视频检索任务在学术界和产业界都受到了广泛的关注，研究该任务具有重要意义，本文针对该任务进行研究。
27.具体的，视频和文本模态数据中含有丰富的语义信息，如何捕捉到这些信息是跨模态视频检索任务的重点和难点之一。考虑到文本中第一以及第二文本信息中的特征较为复杂，又结合考虑到异志图神经网络可以很好地挖掘多类数据中的特征以及相关关系，因此申请中试图通过异质图神经网络对待检测的文本中第一文本信息以及第二文本信息进行编码，以进行对应视频的检索，因此本步骤中首先通过异质图神经网络对待检测的文本中第一文本信息以及第二文本信息进行编码。
28.s102：根据异质图神经网络中各文本信息对应节点间的连接关系，对异质图神经网络中各个文本信息对应节点的节点特征进行更新；具体的，为了更好地对本发明实施例进行说明，请参考图2，图2为本发明提供的一种异质图的结构示意图，在通过异质图神经网络对待检测的文本中第一文本信息以及第二文本信息进行编码后，得到了异质图，其中包含各个文本信息对应的节点以及异志节点之间的连接关系，其中，每一个第一文本信息构造1个节点，同理每1个第二文本信息构造1个节点，由于第二文本信息和第一文本信息从构造到性质都是不同的，所以称为异质节点。如图2所示，经由做菜步骤instructions确定出的节点是第一文本信息节点，经由菜谱主成分信息ingredients确定出的节点是第二文本信息节点。
29.其中，图2中transformer layers为语言表征模型bert（bidirectionalencoder representations fromtransformer，基于转换器的双向编码表征），其可以从文本信息中提取出对应节点的节点特征，不管是第一文本信息还是第二文本信息还是文本中第三文本信息，它们都是文字，由单词或多句话组成。可以将单词或某句话的特征构建出一个异质节点，如图2所示。
30.具体的，如图2所示，由于不同层的文本信息中具有相同的单词，基于此，不同层的文本信息之间建立了连接关系，也就是说具有连接关系的这些节点之间具有一定的联系，且由于本技术最终的目标是将一个文本转换为一个第一目标特征向量，因此可以基于异质图神经网络中各文本信息对应节点间的连接关系，对异质图神经网络中各个文本信息对应节点的节点特征进行更新，从而将与自身具有连接关系的节点的特征与自身特征进行融合。
31.s103：基于第一文本信息的时序信息将多个第一文本信息对应的节点特征聚合为第一目标特征向量；具体的，考虑到对于第一文本信息来说其语句是较为复杂且带有时序的，而且其已经通过与自身关联的第二文本信息对自身进行了更新，也就是说第一文本信息目前已经融合了第二文本信息的内容，为了实现将第一文本信息以及第二文本信息最终汇总为一个第一目标特征向量的目的，本发明实施例中可以基于第一文本信息的时序信息将多个第一文本信息对应的节点特征聚合为第一目标特征向量，并将其作为后续步骤的数据基础。
32.s104：将预设数据库中与第一目标特征向量相似度最高的特征数据对应的视频作为目标视频。
33.具体的，在得到第一目标特征向量后，也即完成了对于待检测的文本的编码，可以将预设数据库中与第一目标特征向量相似度最高的特征数据对应的视频作为目标视频。
34.本发明提供了一种文本与视频的互检方法，为了挖掘文本中特征较为复杂的第一文本信息及其包括的第二文本信息的特征，本技术可以通过异质图神经网络对待检测的文本中第一文本信息以及第二文本信息进行编码，然后利用异质图神经网络中各文本信息对应节点间的连接关系对各节点的节点特征进行更新，然后结合时序信息将各个经过第二文本信息更新后的第一文本信息对应的节点特征聚合为第一目标特征向量，通过该第一目标特征向量进行对应视频的检索，本技术能够快速准确确定出文本信息的特征向量，因此有利于提升文本与视频的互检的效率以及精度。
35.在上述实施例的基础上：作为一种优选的实施例，待检测的文本还包括用于概括待检测的文本的第三文本信息；基于第一文本信息的时序信息将多个第一文本信息对应的节点特征聚合为第一目标特征向量之后，将预设数据库中与第一目标特征向量相似度最高的特征数据对应的视频作为目标视频之前，该文本与视频的互检方法还包括：将第三文本信息对应的节点特征融合至第一目标特征向量，以得到融合后的第一目标特征向量；其中，本发明实施例中涉及到的文本主要指的是三层次的文本数据，三种层次的文本信息之间的层次划分实际上可以理解为按照信息在结构等级上的不同进行的层次划分，不同层的文本信息之间的主要区别在于信息量的差别，也即最表层第三文本信息是一
层概括度最高的文本信息，其大概率仅包括少量的单词，而第二文本信息的信息量要高于第三文本信息，第一文本信息则是信息量最丰富，表达内容最多的一层文本信息，例如日常生活中常见到的菜谱或者论文等，为了加深读者对于第一文本信息、第二文本信息以及第三文本信息的理解，这里举个例子，对于某个菜谱来说，菜名属于第三文本信息，菜谱的主成分信息属于第二文本信息，菜谱的具体做菜步骤则属于第一文本信息，本发明实施例在此不做限定。
36.具体的，考虑到某些待检测文本中具有第三文本信息，例如在菜谱中，菜名即为第三文本信息，菜谱成分为第二文本信息，而做菜步骤为第一文本信息，为了更好地表征待检测文本的特征，本发明实施例中还可以提取出第三文本信息对应的节点特征，然后将其融合至第一目标特征向量以对第一目标特征向量进行更新。
37.其中，融合的方式可以为多种，例如可以拼接在一起，即特征进行首尾相连等，本发明实施例在此不做限定。
38.作为一种优选的实施例，通过异质图神经网络对待检测的文本中第一文本信息以及第二文本信息进行编码具体为：通过异质图神经网络确定出待检测的文本中第一文本信息对应的节点以及第二文本信息对应的节点；提取出每个第一文本信息以及第二文本信息对应节点的节点特征；在每个第一文本信息对应节点与该第一文本信息所包含的各个第二文本信息对应节点间建立连接关系。
39.具体的，异质图神经网络包括各个节点及其节点特征以及节点间的连接关系，在确定出各个文本信息对应的节点后，还需要确定出各个节点的节点特征以及连接关系，其中，可以通过语言表征模型bert提取出每个第一文本信息以及第二文本信息对应节点的节点特征，其具体过程为：将待提取的本文信息以及文本信息相伴随的位置信息和文本类型输入到bert模型，例如对于文本信息“peel and slice the mango”来说，位置信息是指若一句话中有5个单词，则其位置信息分别为“1，2，3，4，5”，文本类型是指：若输入文本是第一文本信息，其文本类型为1；若输入文本是第二文本信息，其文本类型为2。通过bert模型，可以快速准确的提取每个文本信息的节点特征，每个节点特征其实都是一个高维向量。
40.当然，除了bert模型外，还可以采用其他方式提取文本信息对应的节点特征，本发明实施例在此不做限定。
41.具体的，考虑到第一文本信息的层次深于第二文本信息，因此其表达的内容更新细节丰富，因此第一文本信息通常包含第二文本信息，因此本发明实施例可以在每个第一文本信息与其所包含的各个第二文本信息间建立连接关系。
42.作为一种优选的实施例，根据异质图神经网络中各文本信息对应节点间的连接关系，对异质图神经网络中各个文本信息对应节点的节点特征进行更新具体为：基于异质图神经网络中各文本信息对应节点间的连接关系，通过图注意力网络对异质图神经网络中各个文本信息对应节点的节点特征进行更新。
43.具体的，通过图注意力网络可以高效准确地将关联节点的节点特征融合到第一文本信息对应节点的节点特征，具体过程为：
异质图信息的更新，采用图注意力网络实现特征聚合与更新，更新方法是依次遍历每个异质节点进行更新。
44.ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
（1）其中，，，是维矩阵，代表矩阵乘法，也代表了向量映射。
45.如上公式，首先对第一文本信息节点特征进行更新，代表第一文本信息节点（instruction）的第q个节点的节点特征，代表第二文本信息节点的第p个节点的特征。若第一文本信息节点的第q个节点与第二文本信息节点的第p个节点有连接（边），则会用第二文本信息节点的第p个节点的特征去更新第一文本信息节点的第q个节点特征，但是需要算一个权重，公式（1）就是算权重的，其中代表第一文本信息节点的第q个节点与第二文本信息节点的第p个节点特征的相关权重。
46.对于每个第一文本信息节点，例如，遍历所有与其有相连的边的第二文本信息节点，假设有个，都会得到与其对应的相关权重。
47.下一步对所有与第一文本信息节点相连的边的第二文本信息节点，进行相关权重的归一化：
ꢀꢀꢀ
（2）得到了归一化的相关权重，exp代表求指数函数。代表求取所有与第一文本信息节点相连的边的第二文本信息节点的相关权重的总和。
48.最后通过归一化的相关权重对第一文本信息节点的节点特征进行更新。公式如下：
ꢀꢀꢀ
（3）其中，代表超参数，在[0,1]区间。是维矩阵。是相连的第二文本信息节点对第一文本信息节点更新的补偿量。
[0049]
进一步，引入残差网络的思想，将补偿量与该第一文本信息节点的初始节点特征相加，得到更新后的第一文本信息的节点特征。公式如下：
ꢀꢀꢀ
（4）其中，为更新后的第一文本信息的节点特征，同理，对第二文本信息节点也做相同的计算与更新。公式如下：
ꢀꢀꢀ
（5）遍历完所有的第二文本信息节点和第一文本信息节点，即完成图注意力网络一层的网络更新。
[0050]
通常，会叠加t层图注意力网络，每一层的节点特征的更新方式都如上所述。
[0051]
用t代表第t层的图注意力网络。
[0052]
通常会在每层图注意力网络后面加入集成全连接层，实现对节点特征（包括第二文本信息节点和第一文本信息节点）特征的再编码。公式如下：
ꢀꢀꢀꢀ
（6）ffn（feed-forward network，前馈神经网络）代表全连接层。，代表t 1层的图注意力网络的初始化节点特征。
[0053]
如上完成了对本发明第一文本信息节点特征的更新，为了实现与视频的检索，需要将所有文字节点的特征进行归纳和综合（包括第一文本信息（instruction list）和第二文本信息信息（ingredients）和第三文本信息（title）），在本发明中，由于第一文本信息节点融合了第二文本信息节点信息，第二文本信息节点通过图神经网络更新，以关键词的形式对相关第一文本信息节点特征进行了强调。
[0054]
当然，除了图注意力网络外，还可以通过其他方式将关联节点的节点特征融合到第一文本信息对应节点的节点特征，本发明实施例在此不做限定。
[0055]
作为一种优选的实施例，基于第一文本信息的时序信息将多个第一文本信息对应的节点特征聚合为第一目标特征向量具体为：基于第一文本信息的时序信息，通过bilstm（bi-directional long short-term memory，双向长短期记忆神经网络）将多个第一文本信息对应的节点特征聚合为第一目标特征向量。
[0056]
具体的，下面用bilstm方法去进一步挖掘第一文本信息节点的时序信息，实现对文字节点特征的归纳综合，打包成一个向量。
[0057]
下一步用bilstm（双向长短期记忆神经网络）提取所有第一文本信息节点的时序信息特征。公式如下：
ꢀꢀꢀ
（7）
ꢀꢀꢀ
（8）其中，向左和向右的箭头代表lstm编码的方向。即第一文本信息节点特征正序编码和倒序编码。所以有2个公式。
[0058]
代表bilstm中第q个单元的输出，箭头方向不同代表按照第一文本信息节点输入顺序不同得到的bilstm编码输出。同理，则代表bilstm中第q-1个单元的输出，也即上一个状态的输出。
[0059]
假设第一文本信息共有q步，记为0，代表第t层的图神经网络的第q个第一文本信息节点的特征。按照第一文本信息的顺序和逆序，依次输入到其对应的bilstm网络中，最后得到所有第一文本信息节点的bilstm编码。公式如下：
ꢀꢀꢀ
（9）如上公式所示，取所有bilstm单元的输出，求和后取平均值做为整个文本特征的输出。其中，代表文本特征的输出，用来进行下一步的检索。
[0060]
最后，会将特征与title特征进行融合：
ꢀꢀꢀ
（10）[]代表特征拼接，即特征首尾相连。
[0061]
特征最后会经过一个全连接层进行特征映射，得到新维度的向量，用来和视频的编码特征进行匹配。
[0062]
ꢀꢀꢀ
（11）作为一种优选的实施例，应用于预训练的视频文本检索网络；其中，视频文本检索网络通过预设的视频文本距离度量函数进行训练；视频文本距离度量函数为：
ꢀꢀꢀ
（12）其中，b为批次编号，trihard为三项损失函数，代表对第b批次求损失函数，n表示与锚点样本不配对的样本组，为对应样本的真实标签，为对应样本的真实标签，n为在本训练批次中共有n个成对的样本，其中，为遍历第二目标特征向量过程中选中的视频图像组对应的第二目标特征向量，a代表锚点样本，与锚点样本成对的第一目标特征向量记为，p代表位置，同理，为在本训练批次中与不配对的第一目标特征向量，为超参数，代表遍历第一目标特征向量过程中选中的第一目标特征向量，与其对应的第二目标特征向量记为，不对应的记为，是超参数。
[0063]
具体的，在训练过程中视频的特征向量以及文本的特征向量是成对出现的。一个文本特征的编码对应一个视频图像组特征编码，即一个视频对应一个文本。在损失函数设计中，对于这种成对的数据，会遍历每一个视频图像组特征编码和文本特征编码求取损失
函数的平均值。如上公式所示。
[0064]
共遍历n次，n代表在本batch(训练批次)中，共有n个成对的样本。首先对视频图像组特征进行遍历（共n个），遍历选中的那个就称为，a代表anchor（锚点样本）。与锚点样本成对的文本特征编码记为，p代表positive。同理，在本batch中与不配对的文本特征记为，是超参数，在训练时固定，本发明设置为0.3。
[0065]
同理，对于文本特征也做相同的遍历操作，代表遍历中被选中的那个样本，与其对应的正视频图像组特征样本记为，不对应的记为，是超参数。
[0066]
用以上loss函数在训练中，进行梯度反传，对异质图网络、bilstm以及resnet网络参数进行更，构建基于异质图的图像文本检索网络，包括文本信息特征编码器和视频特征编码器。建立如上的视频文本距离度量函数。
[0067]
根据如上视频文本距离度量函数对网络进行训练，使其收敛。
[0068]
网络训练过程如下：卷积神经网络的训练过程分为两个阶段。第一个阶段是数据由低层次向高层次传播的阶段，即前向传播阶段。另外一个阶段是，当前向传播得出的结果与预期不相符时，将误差从高层次向底层次进行传播训练的阶段，即反向传播阶段。训练过程为：（1）所有网络层权值进行初始化，一般采用随机初始化；（2）输入图像和文本数据经过图神经网络、卷积层、下采样层、全连接层等各层的前向传播得到输出值；（3）求出网络的输出值，根据视频文本距离度量函数求取网络的输出值的损失。
[0069]
（4）将误差反向传回网络中，依次求得网络各层：图神经网络层，全连接层，卷积层等各层的反向传播误差。
[0070]
（5）网络各层根据各层的反向传播误差对网络中的所有权重系数进行调整，即进行权重的更新。
[0071]
（6）重新随机选取新的batch的图像文本数据，然后进入到第二步，获得网络前向传播得到输出值。
[0072]
（7）无限往复迭代，当求出网络的输出值与目标值（标签）之间的误差小于某个阈值，或者迭代次数超过某个阈值时，结束训练。
[0073]
（8）保存训练好的所有层的网络参数。
[0074]
下面简述网络推理过程，即检索匹配过程：在推理过程中，预先加载网络训练好的权重系数，对待文本或视频进行特征提取并存入待检索数据集中。
[0075]
用户给定任意待检测的文本或视频，称为query数据。
[0076]
提取query数据的目标特征向量，使用基于异质图的图像文本检索网络，将query数据的目标特征向量与待检索数据集中所有样本特征进行距离匹配，即求向量距离（本发明求欧式距离）。
[0077]
例如：若query数据是文本数据就去取待检索数据集中所有的视频特征进行求距
离，同理query数据是视频数据，则可以与待检索数据集中所有的文本特征求欧式距离，距离最小的样本即为推荐样本，进行输出。
[0078]
具体的，通过本发明实施例中的损失函数可以高效准确地对模型进行训练。
[0079]
当然，除了该具体形式外，损失函数还可以为其他类型，本发明实施例在此不做限定。
[0080]
作为一种优选的实施例，将预设数据库中与第一目标特征向量相似度最高的特征数据对应的视频作为目标视频具体为：将预设数据库中与第一目标特征向量相似度最高的前预设数量个特征数据对应的视频均作为目标视频。
[0081]
具体的，为了便于用户更有效地获取想要检索的数据，本发明实施例中可以将预设数据库中与第一目标特征向量相似度最高的前预设数量个特征数据对应的视频均作为目标视频。
[0082]
其中，预设数量可以进行自主设定，本发明实施例在此不做限定。
[0083]
作为一种优选的实施例，该文本与视频的互检方法还包括：通过预设的混合特征编码方法获取待检测视频中各帧图像的混合特征；根据每帧图像的混合特征将待检测视频分段并确定出每一视频片段的关键帧；通过第一预设类型神经网络提取由关键帧组成的关键帧序列对应的特征向量，并将其作为第二目标特征向量；将预设数据库中与第二目标特征向量相似度最高的特征数据对应的文本作为目标文本；其中，混合特征包括图像在原始图像空间以及语义空间中的特征。
[0084]
具体的，本发明实施例中提供了对视频数据编码的一种方式，本发明实施例首先通过预设的混合特征编码方法获取待检测视频中各帧图像的混合特征（包括图像在原始图像空间以及语义空间中的特征），由于镜头切换处的两帧图像的混合特征存在明显变化，因此本技术可以据此将待检测视频分段，又考虑到通常情况下某一镜头可以用该镜头中的一帧关键图像进行代替，因此为了缩减数据处理量，本发明实施例中可以确定出每一视频片段中的关键帧，然后将所有的关键帧按顺序组成关键帧序列，并最终通过第一预设类型神经网络提取关键帧序列对应的特征向量，并将其作为第二目标特征向量，该第二目标特征向量也就表达了待检测视频的特征。
[0085]
具体的，如果图像在原始像素空间中是相像的，那么图像在高级语义空间中也是相互紧邻的，为了挖掘视频图像更丰富的特征，本发明实施例中的混合特征既包含了原始图像空间的图像特征，也包含了语义空间中的特征，从而使得混合特征能够更加全面准确地表达视频中图像的特征，从而有利于提高检测精度。
[0086]
其中，由于本发明实施例中进行了视频分段的关键帧的提取，因此极大缩减了数据处理量，提高了数据处理速度，且不会损失太多的检测精度。
[0087]
作为一种优选的实施例，通过预设的混合特征编码方法获取待检测视频中各帧图像的混合特征具体为：分别将待检测视频中各帧图像转换为多个指定尺度；将每帧图像在原始图像空间中各个指定尺度对应的图像特征进行拼接，得到每帧
图像的图像拼接特征；通过第二预设神经网络提取检测视频中各帧图像在语义空间中的语义级别特征；将每帧图像对应的图像拼接特征以及语义级别特征进行拼接，得到每帧图像的混合特征。
[0088]
具体的，考虑到图像的尺度越大则越有利于识别图像的细节特征，而图像的尺寸越小则越有利于识别图像的宏观特征，因此为了全面识别图像的细节以及宏观特征，本发明实施例中可以将待检测视频中各帧图像转换为多个指定尺度，并将每帧图像在原始图像空间中各个指定尺度对应的图像特征进行拼接，得到每帧图像的图像拼接特征，能够全面挖掘图像在原始图像空间中的细节以及宏观特征，提升了特征表达的准确性。
[0089]
其中，多个指定尺度可以进行自主设定，通常可以通过将图像缩小的方式获取多个尺度的缩小图像，再加上原始尺度的图像便可以共同组成“指定尺度”的图像，本发明实施例在此不做限定。
[0090]
具体的，为了减小数据处理量，考虑到一般情况下所观察到的图像特征基本不受颜色影响，因此还可以首先将待检测视频中的各帧图像转换为灰度图后进行后续处理。
[0091]
其中，提取每帧图像在原始图像空间中各个指定尺度对应的图像特征的过程具体可以为：（1）对于待检测视频中的某一尺度的某一帧图像，计算该图像所有像素的平均值，将其作为一个均值阈值。
[0092]
（2）让该尺度图像每个像素都与阈值比较，如果某一个像素大于均值阈值则将此像素置为1，否则置为0。
[0093]
（3）将该尺度图像经由像素转换的所有1/0数据，按照对应像素的顺序排列为一个向量，即可形成该尺度图像的图像特征。
[0094]
为了更好地对本发明实施例进行说明，请参考图3，图3为本发明提供的视频分段示意图，作为一种优选的实施例，根据每帧图像的混合特征将待检测视频分段并确定出每一视频片段的关键帧具体为：根据相邻帧图像的混合特征以及预设的相似度检测函数，计算每组相邻帧的相似度；在数值小于预设阈值的相似度对应的位置分割待检测视频，以便将待检测视频划分为多个视频片段；分别从各个视频片段中提取关键帧；将各个关键帧按照视频片段的顺序构建得到关键帧序列。
[0095]
具体的，考虑到在视频的转场处形成的相邻帧图像间的差别巨大，因此本发明实施例中可以首先根据相邻帧图像的混合特征以及预设的相似度检测函数，计算每组相邻帧的相似度，然后在数值小于预设阈值的相似度对应的位置分割待检测视频，以便将待检测视频划分为多个视频片段，该种分割方式的准确性以及效率均较高。
[0096]
具体的，在图3中，k为预设阈值。
[0097]
当然，除了该种分割方式外，还可以通过其他方式将视频进行分段处理，本发明实施例在此不做限定。
[0098]
具体的，提取视频片段中关键帧的方式可以为多种，例如可以采用随机提取1帧的
方式等，本发明实施例在此不做限定。
[0099]
作为一种优选的实施例，根据相邻帧图像的混合特征以及预设的相似度检测函数，计算每组相邻帧的相似度之后，在数值小于预设阈值的相似度对应的位置分割待检测视频，以便将待检测视频划分为多个视频片段之前，该文本与视频的互检方法还包括：将每帧图像前后共预设数量帧图像的相似度的均值作为该帧图像更新后的相似度。
[0100]
具体的，为了去除各个相似度中的噪声并提升相似度的准确性，本发明实施例中可以通过均值滤波，对所有相邻帧的相似度进行平滑操作，即以某一帧图像为中心，与其前m/2以及后m/2共m（预设数量）帧图像的相似度求均值。
[0101]
作为一种优选的实施例，在数值小于预设阈值的相似度对应的位置分割待检测视频，以便将待检测视频划分为多个视频片段之后，分别从各个视频片段中提取关键帧之前，该文本与视频的互检方法还包括：将帧数量小于预设帧数的视频片段剔除。
[0102]
具体的，考虑到视频中可能夹杂着时长较小的无效镜头，因此本发明实施例中可以过滤掉帧数小于h（预设时长）帧的视频片段，保留长视频片段用于后续关键帧的提取，从而提高处理效率。
[0103]
作为一种优选的实施例，相似度检测函数为：；其中，为相邻帧中的前序帧x与后序帧y间的相似度，p(x)为像素x在前序帧x中的像素序号与前序帧x中的像素总数的比值，p(y)表示像素y在后序帧y中的像素序号与后序帧y中的像素总数的比值，p(x，y)为通过联合前序帧x与后序帧y计算得到的联合分布。
[0104]
具体的，相似度用来表示变量x与y之间是否有关系，相似度的值表示关系的强弱。
[0105]
给定两个随机变量(x，y)以及联合分布p(x，y)和边缘分布p(x)、p(y)，可得x与y的相似度，请参考下表1，表1为本发明提供的一种两变量的数值分布示意表：表1x10110y11100根据x，y的值（上下为对应的一组）可以得到p(x，y)：上表第五列：p(x=0;y=0)=1/5上表第二列：p(x=0;y=1)=1/5上表第四列：p(x=1;y=0)=1/5上表第一与三列：p(x=1;y=1)=2/5如上相似度检测函数，p(x，y)的概率通过统计和遍历x，y的不同取值可以获得不同的p(x，y)的值。
[0106]
当然，除了该种具体形式外，相似度检测函数还可以为其他多种类型，本发明实施例在此不做限定。
[0107]
作为一种优选的实施例，第二预设神经网络为resnet50（residual network，残差网络）网络。
[0108]
具体的，resnet50具有数据处理速度快以及结构简单等优点。
[0109]
为了更好地对本发明实施例进行说明，请参考图4，图4为本发明提供的一种resnet50网络的结构示意图；当然，除了resnet50外，第二预设神经网络还可以为其他类型，本发明实施例在此不做限定。
[0110]
为了更好地对本发明实施例进行说明，请参考图5，图5为本发明提供的一种3d残差网络的结构示意图；作为一种优选的实施例，第一预设类型神经网络为3d残差网络。
[0111]
具体的，3d残差网络具有数据处理速度快以及稳定性强等优点，3d卷积的方法可以同时实现提取空间特征和时间特征，可以实现捕捉视频序列中的多维信息内容。
[0112]
本发明的3d残差网络包括3d卷积层conv1，3d降采样层=maxpool3d，4个3d残差模块conv2_x、conv3_x、conv4_x以及conv5_x，3d avgpool层和全连接层=linear组成。
[0113]
其中，输入的关键帧序列r通过3d残差网络可以直接获得视频图像的特征表示，其是一个向量，在本发明中维度是1024维。
[0114]
当然除了3d残差网络外，第一预设神经网络还可以为其他类型，本发明实施例在此不做限定。
[0115]
请参考图6，图6为本发明提供的一种文本与视频的互检装置的结构示意图，该文本与视频的互检装置包括：编码模块61，用于通过异质图神经网络对待检测的文本中第一文本信息以及第二文本信息进行编码；更新模块62，用于根据异质图神经网络中各文本信息对应节点间的连接关系，对异质图神经网络中各个文本信息对应节点的节点特征进行更新；聚合模型63，用于基于第一文本信息的时序信息将多个第一文本信息对应的节点特征聚合为第一目标特征向量；匹配模块64，用于将预设数据库中与第一目标特征向量相似度最高的特征数据对应的视频作为目标视频。
[0116]
对于本发明实施例提供的文本与视频的互检装置的介绍请参照前述的文本与视频的互检方法的实施例，本发明实施例在此不再赘述。
[0117]
请参考图7，图7为本发明提供的一种文本与视频的互检设备的结构示意图，该文本与视频的互检设备包括：存储器71，用于存储计算机程序；处理器72，用于执行计算机程序时实现如前述实施例中调试方法的步骤。
[0118]
对于本发明实施例提供的文本与视频的互检设备的介绍请参照前述的文本与视频的互检方法的实施例，本发明实施例在此不再赘述。
[0119]
本发明还提供了一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序，计算机程序被处理器执行时实现如前述实施例中调试方法的步骤。
[0120]
对于本发明实施例提供的计算机可读存储介质的介绍请参照前述的文本与视频
的互检方法的实施例，本发明实施例在此不再赘述。
[0121]
本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。还需要说明的是，在本说明书中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个
……”
限定的要素，并不排除在包括该要素的过程、方法、物品或者设备中还存在另外的相同要素。
[0122]
对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其他实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

再多了解一些

1/2 1 2 下一页尾页

本文用于创业者技术爱好者查询，仅供学习研究，如用于商业用途，请联系技术所有人。

上一篇：返回列表
下一篇：无人机事故取证方法、系统、终端设备与介质与流程

一种文本与视频的互检方法、装置、设备及存储介质与流程

相关文献

最热文献