视频处理方法、装置、设备及存储介质与流程

2021-11-26 22:47:00 来源：中国专利 TAG：

技术特征：
1.一种视频处理方法，其特征在于，包括：获取待处理视频包括的多个模态信息，每个模态信息通过一种信息类型反映所述待处理视频中内容；对所述多个模态信息进行特征提取处理得到多个特征向量，一个模态信息对应一个特征向量；确定各个特征向量对应的相似度集合，任一特征向量对应的相似度集合包括所述任一特征向量与所述多个特征向量中各个特征向量之间的相似度；基于所述各个特征向量对应的相似度集合进行融合处理得到融合特征向量，并基于融合特征向量对所述待处理视频进行类别预测，得到所述待处理视频所属类别。2.如权利要求1所述的方法，其特征在于，所述确定各个特征向量对应的相似度集合，包括：将每个特征向量分别与查询参考矩阵和关键参考矩阵进行相乘运算，得到每个特征向量对应的查询向量和关键向量；将所述任一特征向量对应的查询向量分别与各个特征向量对应的关键向量进行放缩点积运算得到所述任一特征向量与各个特征向量之间的相似度，并将得到的相似度存入所述任一特征向量对应的相似度集合中。3.如权利要求2所述的方法，其特征在于，所述基于所述各个特征向量对应的相似度集合进行融合处理得到融合特征向量，包括：基于所述各个特征向量对应的相似度集合确定所述多个特征向量中各个特征向量对应的待融合特征向量；将所述各个特征向量对应的待融合特征向量进行拼接得到融合特征向量。4.如权利要求3所述的方法，其特征在于，所述多个特征向量的数量为n，任一特征向量对应的相似度集合中包括n个相似度，所述多个特征向量中包括第n个特征向量，n为大于等于1且小于等于n个的任意整数，所述基于所述各个特征向量对应的相似度集合确定所述多个特征向量中各个特征向量对应的待融合的特征向量，包括：从所述第n个特征向量对应的相似度集合中选取第i个相似度，以及获取所述第i个相似度对应的第i个特征向量，并获取所述第i个特征向量对应的值向量；其中，所述第i个特征向量与所述第n个特征向量之间的相似度等于第i个相似度；i为大于等于1且小于等于n的整数；将所述第i个相似度与所述第i个特征向量对应的值向量进行相乘运算，得到相乘运算结果，并存入相乘运算结果集合中；若所述相似度集合中存在未被选取的相似度，则将未被选取的相似度作为第i个相似度，并触发执行获取所述第i个相似度对应的第i个特征向量的步骤；若所述相似度集合中不存在未被选取的相似度，则将所述相乘运算结果集合中的相乘运算结果进行加权平均运算，得到所述第n个特征向量对应的待融合特征向量。5.如权利要求1所述的方法，其特征在于，对所述多个模态信息中任一模态信息进行特征提取处理，得到所述任一模态信息对应的特征向量，包括：对所述任一模态信息进行编码处理得到所述任一模态信息的编码信息；获取所述任一模态信息对应的特征向量提取策略，并采用所述任一模态信息对应的特
征向量提取策略对所述任一模态信息进行特征提取处理，得到所述任一模态信息对应的初始特征向量；将所述任一模态信息的编码信息转换为向量表示，并将所述初始特征向量和转换为向量表示的编码信息进行相加运算，得到所述任一模态信息对应的特征向量。6.如权利要求5所述的方法，其特征在于，所述多个模态信息包括音频模态信息、视频模态信息以及文本模态信息中任意两种或三种；所述音频模态信息对应的特征向量提取策略是采用音频特征提取网络进行特征提取；所述视频模态信息对应的特征向量提取策略是采用图像特征提取网络进行特征提取；所述文本模态信息对应的特征提取策略是采用词向量技术进行特征提取。7.如权利要求1所述的方法，其特征在于，所述对所述多个模态信息中每个模态信息进行特征提取处理得到多个特征向量是调用类别预测模型中的特征编码模块执行的；所述确定各个特征向量对应的相似度集合以及所述基于各个特征向量对应的相似度集合进行融合处理得到融合特征向量是调用类别预测模型中的自注意力模块执行的；所述基于融合特征向量对所述待处理视频进行类别预测得到所述待处理视频所属类别是调用所述类别预测模型中的模态分析输出模块执行的。8.如权利要求7所述的方法，其特征在于，所述方法还包括：获取训练样本集合，所述训练样本集合包括第一样本视频、第二样本视频以及所述第二样本视频对应的类别标签，所述第二样本视频对应的类别标签用于指示所述第二样本视频所属类别；获取所述第一样本视频对应的多个样本模态信息，并基于所述多个样本模态信息对所述类别预测模型进行预训练；基于所述第二样本视频和所述第二样本视频对应的类别标签对预训练后的类别预测模型进行更新训练。9.如权利要求8所述的方法，其特征在于，所述基于所述多个样本模态信息对所述类别预测模型进行预训练，包括：从任一样本模态信息中确定待掩膜处理的参考内容，并为所述参考内容添加掩膜；将添加掩膜的任一样本模态信息和其他样本模态信息组成一个预训练样本，并调用所述类别预测模型对所述预训练样本进行分析处理，得到所述任一样本模态信息中被掩膜处理的预测内容；根据所述参考内容和所述预测内容训练所述类别预测模型。10.如权利要求9所述的方法，其特征在于，所述根据所述参考内容与所述预测内容训练所述类别预测模型，包括：获取所述类别预测模型对应的损失函数；根据所述参考内容和所述预测内容确定所述损失函数的值；按照减小所述损失函数的值方向更新所述类别预测模型的模型参数。11.如权利要求9所述的方法，其特征在于，若所述多个样本模态信息包括音频模态信息、视频模态信息以及文本模态信息，则所述调用所述类别预测模型对所述预训练样本进行分析处理，得到所述任一样本模态信息中被掩膜处理的预测内容，包括：获取所述文本模态信息对应的第一对抗噪声以及所述视频模态信息对应的第二对抗
噪声；调用所述类别预测模型基于所述第一对抗噪声、所述第二对抗噪声以及所述预训练样本，预测所述任一样本模态信息中被掩膜处理的预测内容。12.如权利要求11所述的方法，其特征在于，所述文本模态信息包括第一类文本模态信息和第二类文本模态信息，所述第一类文本模态信息是通过下述任意一种或多种方式得到的：所述样本视频进行文本识别、对所述样本视频进行语音识别；所述第二类文本模态信息是通过对所述第一类文本模态信息进行反向翻译处理得到的。13.一种视频处理装置，其特征在于，包括：获取单元，用于获取待处理视频包括的多个模态信息，每个模态信息通过一种信息类型反映所述待处理视频中内容；处理单元，用于对所述多个模态信息进行特征提取处理得到多个特征向量，一个模态信息对应一个特征向量；确定单元，用于确定各个特征向量对应的相似度集合，任一特征向量对应的相似度集合包括所述任一特征向量与所述多个特征向量中各个特征向量之间的相似度；所述处理单元，还用于基于所述各个特征向量对应的相似度集合进行融合处理得到融合特征向量，并基于融合特征向量对所述待处理视频进行类别预测，得到所述待处理视频所属类别。14.一种视频处理设备，其特征在于，包括：处理器，适于实现一条或多条指令，以及计算机存储介质，所述计算机存储介质存储有一条或多条指令，所述一条或多条指令适于由所述处理器加载并执行如权利要求1
‑
12任一项所述的视频处理方法。15.一种计算机存储介质，其特征在于，所述计算机存储介质中存储有计算机程序指令，所述计算机程序指令被处理器执行时，用于执行如权利要求1
‑
12任一项所述的视频处理方法。

技术总结
本发明实施例公开了一种视频处理方法、装置、设备及存储介质，涉及人工智能中的自然语言处理技术，其中方法可包括：获取待处理视频包括的多个模态信息，每个模态信息通过一种信息类型反映所述待处理视频中内容；对多个模态信息进行特征提取处理得到多个特征向量，一个模态信息对应一个特征向量；确定各个特征向量对应的相似度集合，任一特征向量对应的相似度集合包括任一特征向量与多个特征向量中各个特征向量之间的相似度；基于各个特征向量对应相似度集合进行融合处理得到融合特征向量，并基于融合特征向量对待处理视频进行类别预测，得到待处理视频所属类别。采用本发明实施例，可以提高视频分类的准确性。可以提高视频分类的准确性。可以提高视频分类的准确性。

技术研发人员：刘敬禹霍浩岩
受保护的技术使用者：腾讯科技（深圳）有限公司
技术研发日：2021.04.08
技术公布日：2021/11/25

再多了解一些

2/2 首页上一页 1 2

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：数据看板生成方法、装置、设备和介质与流程

视频处理方法、装置、设备及存储介质与流程

相关文献

最热文献