视频特征提取方法、装置、设备以及存储介质与流程

2021-10-19 23:43:00 来源：中国专利 TAG： 提取视频处理装置特征特别

技术特征：
1.一种视频特征提取方法，其特征在于，所述方法包括：从目标视频中获取多个视频帧；将第一数量个所述视频帧输入第一特征提取模型，通过所述第一特征提取模型，提取所述目标视频的第一视觉特征，所述第一特征提取模型为以多个样本视频为训练样本，以所述多个样本视频对应的多个样本视频标签为监督训练得到的视觉特征提取模型；将第二数量个所述视频帧输入第二特征提取模型，通过所述第二特征提取模型，提取所述第二数量个所述视频帧的所述第二数量个视频帧特征，所述第二特征提取模型为以多个样本视频帧为训练样本进行自监督训练得到的视觉特征提取模型；将所述目标视频的第一视觉特征和所述第二数量个所述视频帧特征进行融合，得到所述目标视频的目标视觉特征。2.根据权利要求1所述的方法，其特征在于，所述第一特征提取模型包括第一子模型和第二子模型，所述第一子模型用于提取所述目标视频的静态视觉特征，所述第二子模型用于提取所述目标视频的动态视觉特征，所述将第一数量个所述视频帧输入第一特征提取模型包括：对所述第一数量个所述视频帧进行均匀采样，得到第三数量个所述视频帧，所述第三数量小于所述第一数量；将所述第三数量个所述视频帧输入所述第一子模型；将所述第一数量个所述视频帧输入所述第二子模型。3.根据权利要求2所述的方法，其特征在于，所述通过所述第一特征提取模型，提取所述目标视频的第一视觉特征包括：通过所述第一子模型的多个卷积核，对所述第三数量个所述视频帧进行卷积处理，得到所述目标视频的静态视觉特征；通过所述第二子模型的多个卷积核，对所述第一数量个所述视频帧进行卷积处理，得到所述目标视频的动态视觉特征；基于所述静态视觉特征和所述动态视觉特征，获取所述目标视频的第一视觉特征；其中，所述第一子模型中卷积核的数量大于所述第二子模型中卷积核的数量。4.根据权利要求3所述的方法，其特征在于，所述基于所述静态视觉特征和所述动态视觉特征，获取所述目标视频的第一视觉特征包括：对所述静态视觉特征进行时空注意力处理，得到所述目标视频的第一静态特征；对所述动态视觉特征进行时空注意力处理，得到所述目标视频的第一动态特征；将所述第一静态特征与所述第一动态特征进行融合，得到融合特征；分别对所述融合特征和所述第一动态特征进行全局池化处理，得到所述目标视频的第二静态特征和第二动态特征；将所述第二静态特征和所述第二动态特征进行融合，得到所述目标视频的第一视觉特征。5.根据权利要求4所述的方法，其特征在于，所述对所述静态视觉特征进行时空注意力处理，得到所述目标视频的第一静态特征包括：对所述静态视觉特征进行通道注意力处理，得到与所述静态视觉特征对应的静态通道注意力权重；
将所述静态通道注意力权重与所述静态视觉特征相乘，得到第三静态特征；对所述第三静态特征进行最大值池化处理、均值池化处理和空洞卷积处理，得到所述第三静态特征对应的第一时空注意力权重；将所述第三静态特征与所述第一时空注意力权重相乘后与所述静态视觉特征相加，得到所述第一静态特征。6.根据权利要求5所述的方法，其特征在于，所述对所述第三静态特征进行最大值池化处理、均值池化处理和空洞卷积处理，得到所述第三静态特征对应的第一时空注意力权重包括：对所述第三静态特征进行最大值池化处理和均值池化处理，得到第四静态特征；采用多个空洞率对应的不同空洞卷积核对所述第四静态特征进行卷积处理，得到多个第五静态特征；将所述多个第五静态特征相加后进行归一化处理，得到所述第三静态特征对应的第一时空注意力权重。7.根据权利要求4所述的方法，其特征在于，所述对所述动态视觉特征进行时空注意力处理，得到所述目标视频的第一动态特征包括：对所述动态视觉特征进行通道注意力处理，得到与所述动态视觉特征对应的动态通道注意力权重；将所述动态通道注意力权重与所述动态视觉特征相乘，得到第三动态特征；对所述第三动态特征进行最大值池化处理、均值池化处理和空洞卷积处理，得到所述第三动态特征对应的第二时空注意力权重；将所述第三动态特征与所述第二时空注意力权重相乘后与所述动态视觉特征相加，得到所述第一动态特征。8.根据权利要求7所述的方法，其特征在于，所述对所述第三静态特征进行最大值池化处理、均值池化处理和空洞卷积处理，得到所述第三静态特征对应的第一时空注意力权重包括：对所述第三动态特征进行最大值池化处理和均值池化处理，得到第四动态特征；采用多个空洞率对应的不同空洞卷积核对所述第四动态特征进行卷积处理，得到多个第五动态特征；将所述多个第五动态特征相加后进行归一化处理，得到所述第三动态特征对应的第二时空注意力权重。9.根据权利要求4所述的方法，其特征在于，所述将所述第二静态特征和所述第二动态特征进行融合，得到所述目标视频的第一视觉特征包括：分别对所述第二静态特征和所述第二动态特征进行均值池化处理，将均值池化处理后的所述第二静态特征和均值池化处理后的所述第二动态特征进行拼接，得到所述目标视频的第一视觉特征。10.根据权利要求1所述的方法，其特征在于，所述将所述目标视频的第一视觉特征和所述第二数量个所述视频帧特征进行融合，得到所述目标视频的目标视觉特征包括：对所述第二数量个所述视频帧特征进行均值池化处理，得到所述目标视频的第二视觉特征；
将所述第一视觉特征和所述第二视觉特征进行拼接，得到所述目标视频的目标视觉特征。11.根据权利要求1所述的方法，其特征在于，所述第二特征提取模型的训练方法包括：从所述多个样本视频帧中获取第一样本视频帧；对所述第一样本视频帧进行两种方式的数据增强，得到第一增强视频帧和第二增强视频帧；将所述第一增强视频帧输入第二模型，通过所述第二模型提取所述第一增强视频帧的第一样本视频帧特征；将所述第二增强视频帧输入参照模型，通过所述参照模型提取所述第二增强视频帧的参照视频帧特征，所述参照模型和所述第二模型具有相同的模型结构；基于所述第一样本视频帧特征与所述参照视频帧特征之间的相似度，对所述第二模型的模型参数进行调整；响应于所述第二模型的模型参数符合第二目标条件，将所述第二模型确定为所述第二特征提取模型。12.根据权利要求11所述的方法，其特征在于，所述响应于所述第二模型的模型参数符合第二目标条件，将所述第二模型确定为所述第二特征提取模型之前，所述方法还包括：从所述多个样本视频中获取第二样本视频帧；将所述第二样本视频帧输入所述参照模型，通过所述参照模型提取所述第二样本视频帧的第二样本视频帧特征；基于所述第一样本视频帧特征与所述第二样本视频帧特征之间的相似度，对所述第二模型的模型参数进行调整。13.一种视频特征提取装置，其特征在于，所述装置包括：视频帧获取模块，用于从目标视频中获取多个视频帧；第一输入模块，用于将第一数量个所述视频帧输入第一特征提取模型，通过所述第一特征提取模型，提取所述目标视频的第一视觉特征，所述第一特征提取模型为以多个样本视频为训练样本，以所述多个样本视频对应的多个样本视频标签为监督训练得到的视觉特征提取模型；第二输入模块，用于将第二数量个所述视频帧输入第二特征提取模型，通过所述第二特征提取模型，提取所述第二数量个所述视频帧的所述第二数量个视频帧特征，所述第二特征提取模型为以多个样本视频帧为训练样本进行自监督训练得到的视觉特征提取模型；特征融合模块，用于将所述目标视频的第一视觉特征和所述第二数量个所述视频帧特征进行融合，得到所述目标视频的目标视觉特征。14.一种计算机设备，其特征在于，所述计算机设备包括一个或多个处理器和一个或多个存储器，所述一个或多个存储器中存储有至少一条计算机程序，所述计算机程序由所述一个或多个处理器加载并执行以实现如权利要求1至权利要求12任一项所述的视频特征提取方法。15.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有至少一条计算机程序，所述计算机程序由处理器加载并执行以实现如权利要求1至权利要求12任一项所述的视频特征提取方法。

技术总结
本申请公开了一种视频特征提取方法、装置、设备以及存储介质，属于视频处理领域。在本申请实施例中，在提取视频特征的过程中，引入了基于监督训练得到的第一特征提取模型和基于自监督训练的第二特征提取模型，由于第一特征提取模型是基于样本视频和样本视频对应的标签训练得到的，输出的第一视觉特征的目标性较强，比较适合为目标视频添加视频标签。第二特征提取模型是基于自监督训练得到的模型，而自监督模型预测特征的目标性没有监督模型那么强，因此第二特征提取模型提取的第二视觉特征包括更加丰富的信息，第一视觉特征和第二视觉特征之间形成互补，得到的目标视觉特征也就能够更加完整的反映目标视频的特征。能够更加完整的反映目标视频的特征。能够更加完整的反映目标视频的特征。

技术研发人员：岑杰鹏徐孩杨伟东王珩叶振旭曹圣明蔡俊贤车翔陈宇
受保护的技术使用者：腾讯科技（深圳）有限公司
技术研发日：2020.12.09
技术公布日：2021/10/18

再多了解一些

2/2 首页上一页 1 2

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：嵌入式三维扫描系统和三维扫描装置的制作方法
下一篇：一种服务器定制方法、系统及装置与流程

视频特征提取方法、装置、设备以及存储介质与流程

相关文献

最热文献