一种基于多模态特征的视频实体关系及交互识别方法与流程

2022-02-20 14:06:51 来源：中国专利 TAG：

技术特征：
1.一种基于多模态特征的视频实体关系及交互识别方法，其特征是对影片利用识别、跟踪手段提取出视觉特征，结合音频和台词特征，对影片中实体之间的交互进行预测识别：对影片根据场景划分为中等长度视频片段，称为中片段，首先根据场景、视觉和声音模型对中片段分别向上聚合为长片段，以及根据场景的镜头向下分割为短片段，同时根据指定的人物截图和场景截图对中、短片段中的人物和场景进行识别和跟踪，提取中片段中对应的实体特征，对中片段中同时出现的两个实体提取实体对特征，并导出对应中片段的音频和文字特征，对于每个中片段，将提取的实体特征、实体对特征、视频片段特征、音频特征和文字特征进行拼接作为该片段的融合特征，然后将构成一个长片段的多个中片段的特征取平均，作为长片段的特征预测长片段中的实体关系，并将该平均特征连接到每一个中片段特征，用于预测对应的中片段中的实体之间的互动，实体关系和实体互动同时进行预测，并联合训练对应的识别网络；由短片段直接预测人物的互动，用于提供中片段实体互动的时序；对长片段的视频、音频和文字特征进行拼接，组成场景特征，再根据已知的场景标签，训练用来预测该视频的场景信息的模型。2.根据一种基于多模态特征的视频实体关系及交互识别方法，其特征是根据人物和场景进行对长片段识别和跟踪，与中片段一样得到融合特征，对长片段预测其中的实体关系，作为实体关系的结果输出。3.根据权利要求1或2所述的一种基于多模态特征的视频实体关系及交互识别方法，其特征是建立识别网络用于识别视频中的实体关系图、实体交互图以及场景信息，识别网络的输入包括待识别影片的中片段，以及指定的场景截图、场景名称、人物截图及对应的人物名称，输出为对应场景和人物间的关系图、互动图以及相应的场景信息；使用多模态特征联合训练识别网络，首先将中片段根据场景、视觉和声音模型通过语义聚合为为长片段，然后从中片段中提取视频、声音和字幕文字特征，根据给定的场景截图和人物截图识别场景或人物出现在视频段中的位置，提取得到对应的融合特征，将组成长片段的一组中片段的融合特征取平均作为该长片段的特征，用于预测该长片段中的实体关系，并将该平均特征连接到每一个中片段特征，用于预测对应的中片段中的实体之间的互动，训练识别网络时，长片段实体关系和中片段实体互动同时进行预测，联合进行训练；同时，中片段的视频、声音和文字特征单独拼接作为该中片段的场景特征；其中，通过小样本学习结合零样本学习同时预测长片段中的实体关系和中片段中的实体互动以及场景信息，以达到关系、互动以及场景状态互相影响、联合学习的目的。4.根据权利要求3所述的一种基于多模态特征的视频实体关系及交互识别方法，其特征是包括以下步骤：1)基于多模态特征，将输入的中片段语义聚合为长片段，同时根据场景的镜头分割为多个短片段，每个短片段对应一个场景的镜头；2)根据给定的场景截图，在步骤1)得到的每个短/中/长片段中采用surf特征匹配将场景截图与帧进行匹配，选取匹配点总数最高的场景为视频段所对应的场景，场景的轨迹在时间上为整个片段，在空间上是片段中每个帧的画面区域；3)根据给定的人物截图，在步骤1)得到的每个短/中/长片段中采用人体跟踪方法和人脸检测识别方法进行人物的识别和跟踪，并且通过surf特征匹配将人物截图与帧进行匹配
作为人脸识别的补充，得到人物实体包围框及其在幕中的轨迹；4)对步骤1)得到的每个短/中/长片段进行平均采样得到一组关键帧，然后输入预训练的c3d网络计算得到视频特征；5)在步骤1)得到的每个短/中/长片段中对音频提取梅尔频率倒谱系数mfcc和对数梅尔能量lmfe特征，并计算mfcc特征和lmfe特征的一阶差分和二阶差分，得到声音特征；6)对输入视频自动生成字幕，并根据时间轴对应到步骤1)得到的每个短/中/长片段中，采用bert网络生成幕的文字特征；7)根据步骤2)和步骤3)中的场景轨迹和人物实体包围框轨迹通过预训练的c3d网络计算实体的视觉特征，得到实体特征，并根据每两个实体的联合包围框轨迹同样计算实体对的视觉特征，得到实体对特征；8)对中视频段中的每个实体对相关的视频特征、声音特征、文字特征、实体的视觉特征和实体对的视觉特征连接起来作为该实体对的互动特征；9)将组成一个长视频段的所有中视频段中的同一实体对通过8)获得的所有互动特征取平均，作为该实体对的关系特征，然后该实体对的关系特征与每一个互动特征连接作为最终的互动特征；10)对中视频段的视频特征、声音特征、文字特征连接起来作为该中视频段的场景特征；11)将8)、9)和10)得到的关系特征、互动特征和场景特征转换到语义空间，结合由bert模型对关系谓语、互动谓语和场景状态生成的语义特征，通过小样本学习结合零样本学习的方式，进行同时预测，联合学习长视频段上该实体对之间的关系和中视频段上该实体对之间的互动关系以及中视频段的场景状态；12)根据步骤11)预测的实体关系/互动/场景状态，取与预定义的关系类别/互动类别/场景状态类别相似性度量大于0的为关系/互动/场景状态候选，构建初步的实体关系图和互动图，以及场景状态图；13)在步骤12)的基础上，根据实体的类型、名称、关系的类型调整关系预测概率，补充实体间的关系；14)根据步骤13)构建的长视频段实体关系图填充视频知识图，得到整个视频上的实体关系图，用于回答实体之间的关系和查找两个实体之间的关系路径；再根据步骤12)构建的实体互动图和场景状态图，得到中视频段上的实体互动情况以及场景状态，直接回答实体之间的互动问题以及场景识别问题。15)对短视频段中的每个实体对相关的视频特征、声音特征、文字特征、实体的视觉特征和实体对的视觉特征连接起来作为该实体对的互动特征；16)将15)得到的互动特征转换到语义空间，结合由bert模型对互动谓语生成的语义特征，通过小样本学习结合零样本学习的方式，预测短视频段上该实体对之间的互动关系；17)根据步骤16)预测的实体互动，仿照步骤12)和13)得到最后的短视频段实体互动图，将组成同一个中视频段的所有短视频段中的实体互动按时间先后进行排序，用于回答实体互动顺序问题。5.根据权利要求4所述的一种基于多模态特征的视频实体关系及交互识别方法，其特征是步骤1)所述的中视频段聚合长视频段的计算方法：
1.1)对输入的中视频段分别根据场景模型、视觉模型和声音模型提取特征；1.2)利用步骤1.1)中提取的三种特征分别合并中视频段为长视频段；1.3)将步骤1.2)中根据三种特征的聚合结果合并：e＝e
p
∪e
v
∪e
a
其中，e是最终视频上的长视频段分割边界集合，e
p
是根据场景模型的长视频段分割边界集合，e
v
是根据视觉模型的长视频段分割边界集合，e
a
是根据声音模型的长视频段分割边界集合。6.根据权利要求4所述的一种基于多模态特征的视频实体关系及交互识别方法，其特征是步骤2)中视频段与每个场景的匹配点总数的计算方法为：其中m
l
表示场景l的匹配点总数，表示场景l的截图ls的匹配点数，s
l
为场景l的截图集合，视频段所对应的场景为的匹配点总数最高的场景。7.根据权利要求4所述的一种基于多模态特征的视频实体关系及交互识别方法，其特征是步骤11)具体为：11.1)将8)、9)和10)得到的关系特征、互动特征和场景特征经过线性变换转换到语义空间；11.2)将预定义的关系谓语、互动谓语和场景状态描述通过bert模型生成关系谓语、互动谓语和场景状态语义特征；11.3)根据11.1)和11.2)得到的语义特征，小样本结合零样本学习训练时损失函数的计算方法：计算方法：计算方法：计算方法：其中，lr是关系损失函数，li是互动损失函数，ls是场景状态损失函数，l是总的损失函数，β表示关系/互动/场景状态特征的语义空间特征，γ表示真实关系谓语/互动谓语/场景状态的语义特征，p表示长片段中非真实关系的集合，q表示中片段中互动的集合，h表示中片段中场景状态的集合，μ
i
表示非真关系/互动/场景状态i的特征，p表示非真实关系的数量，q表示非真实互动的数量，h表示非真实场景状态的数量，n表示组成该长片段的中视频段集合，n表示组成该长片段的中片段数量，lij是第j个中片段的互动损失，lsj是第j个中片段是场景状态损失；11.4)计算关系/互动/场景状态特征与关系谓语/互动谓语/场景状态语义特征的相似度作为对应视频段上实体对关系/互动以及场景状态的概率，进而确定实体对间的关系/互动以及场景状态。

技术总结
一种基于多模态特征的视频实体关系及交互识别方法，对影片中实体之间的交互进行预测识别：对影片根据场景划分为中片段，对中片段分别向上聚合为长片段，向下分割为短片段，对于每个中片段，将提取的实体特征、实体对特征、视频片段特征、音频特征和文字特征进行拼接作为该片段的融合特征，取平均作为长片段的特征预测长片段中的实体关系，并将该平均特征连接到每一个中片段特征，用于预测对应的中片段中的实体之间的互动，实体关系和实体互动同时进行预测，并联合训练对应的识别网络。本发明将长视频分为三种长度的视频，对长片段预测实体关系，对中片段预测实体交互和场景状态，对短片段预测实体交互，构建出实体关系图和互动图。图。图。

技术研发人员：任桐炜武港山张贝贝于凡高妍欣
受保护的技术使用者：南京大学
技术研发日：2021.09.23
技术公布日：2022/1/14

再多了解一些

2/2 首页上一页 1 2

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：可用于人工智能物联网的高能效二值神经网络加速器的制作方法

一种基于多模态特征的视频实体关系及交互识别方法与流程

相关文献

最热文献