一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

视频片段检索方法、视频片段检索模型的训练方法及装置与流程

2021-11-03 12:29:00 来源:中国专利 TAG:

技术特征:
1.一种视频片段检索方法,其特征在于,所述方法包括:获取待查询视频的视频特征和检索文本的文本特征;将所述视频特征和所述文本特征输入预先训练的视频片段检索模型,得到所述待查询视频中与所述检索文本匹配的候选视频片段;其中,所述预先训练的视频片段检索模型,为根据样本视频、样本文本以及与所述样本文本匹配的目标候选视频片段对待训练的视频片段检索模型进行训练得到的;其中,所述目标候选视频片段从候选样本视频片段库中获取,所述候选样本视频片段库中包括按照多种时长划分标准对所述样本视频进行划分得到的多组候选样本视频片段,其中,每组候选样本视频片段中包括采用一种时长划分标准对所述样本视频进行划分得到的多个候选样本视频片段;不同组候选样本视频片段之间采用的时长划分标准不同。2.根据权利要求1所述的视频片段检索方法,其特征在于,所述获取待查询视频的视频特征和检索文本的文本特征,包括:获取待查询视频的视觉特征和所述检索文本的初始文本特征;对所述视觉特征进行映射处理,得到所述待查询视频的视频特征,以及对所述初始文本特征进行映射处理,得到处理后的初始文本特征;通过注意力机制,对所述处理后的初始文本特征进行再次映射处理,得到所述检索文本的文本特征;所述文本特征和所述视频特征对应的特征矩阵的结构相同,且在特征矩阵中的对应位置上存在语义关联。3.根据权利要求2所述的视频片段检索方法,其特征在于,所述通过注意力机制,对所述处理后的初始文本特征进行再次映射处理,得到所述检索文本的文本特征,包括:通过注意力机制,获取所述视频特征中每个视频帧的特征与所述处理后的初始文本特征中各单词的特征之间的注意力权重;根据每个视频帧的特征与所述处理后的初始文本特征中各单词的特征之间的注意力权重,对所述各单词的特征进行加权求和,得到针对于每个视频帧的文本特征;将针对于每个视频帧的文本特征进行组合,得到所述检索文本的文本特征。4.根据权利要求1所述的视频片段检索方法,其特征在于,所述预先训练的视频片段检索模型通过下述方式训练得到:获取样本视频的样本视频特征和样本文本的样本文本特征;将所述样本视频特征和所述样本文本特征输入待训练的视频片段检索模型,得到所述样本视频的各候选样本视频片段与所述样本文本之间的匹配度情况;根据所述匹配度情况,从所述各候选样本视频片段中筛选出与所述样本文本匹配的目标候选视频片段;根据所述目标候选视频片段与所述样本文本之间的匹配度情况确定损失值,根据所述损失值对所述待训练的视频片段检索模型进行训练,得到训练完成的视频片段检索模型。5.一种视频片段检索模型的训练方法,其特征在于,所述方法包括:获取样本视频的样本视频特征和样本文本的样本文本特征;将所述样本视频特征和所述样本文本特征输入待训练的视频片段检索模型,得到所述样本视频的各候选样本视频片段与所述样本文本之间的匹配度情况;其中,所述各候选样本视频片段中包括按照多种时长划分标准对所述样本视频进行划分得到的多组候选样本
视频片段,其中,每组候选样本视频片段中包括采用一种时长划分标准对所述样本视频进行划分得到的多个候选样本视频片段;不同组候选样本视频片段之间采用的时长划分标准不同;根据所述匹配度情况,从所述各候选样本视频片段中筛选出与所述样本文本匹配的目标候选视频片段;根据所述目标候选视频片段与所述样本文本之间的匹配度情况确定损失值,根据所述损失值对所述待训练的视频片段检索模型进行训练,得到训练完成的视频片段检索模型。6.一种视频片段检索装置,其特征在于,包括:特征获取单元,被配置为执行获取待查询视频的视频特征和检索文本的文本特征;特征输入单元,被配置为执行将所述视频特征和所述文本特征输入预先训练的视频片段检索模型,得到所述待查询视频中与所述检索文本匹配的候选视频片段;其中,所述预先训练的视频片段检索模型,为根据样本视频、样本文本以及与所述样本文本匹配的目标候选视频片段对待训练的视频片段检索模型进行训练得到的;其中,所述目标候选视频片段从候选样本视频片段库中获取,所述候选样本视频片段库中包括按照多种时长划分标准对所述样本视频进行划分得到的多组候选样本视频片段,其中,每组候选样本视频片段中包括采用一种时长划分标准对所述样本视频进行划分得到的多个候选样本视频片段;不同组候选样本视频片段之间采用的时长划分标准不同。7.一种视频片段检索模型的训练装置,其特征在于,包括:获取单元,被配置为执行获取样本视频的样本视频特征和样本文本的样本文本特征;输入单元,被配置为执行将所述样本视频特征和所述样本文本特征输入待训练的视频片段检索模型,得到所述样本视频的各候选样本视频片段与所述样本文本之间的匹配度情况;其中,所述各候选样本视频片段中包括按照多种时长划分标准对所述样本视频进行划分得到的多组候选样本视频片段,其中,每组候选样本视频片段中包括采用一种时长划分标准对所述样本视频进行划分得到的多个候选样本视频片段;不同组候选样本视频片段之间采用的时长划分标准不同;筛选单元,被配置为执行根据所述匹配度情况,从所述各候选样本视频片段中筛选出与所述样本文本匹配的目标候选视频片段;训练单元,被配置为执行根据所述目标候选视频片段与所述样本文本之间的匹配度情况确定损失值,根据所述损失值对所述待训练的视频片段检索模型进行训练,得到训练完成的视频片段检索模型。8.一种电子设备,其特征在于,包括:处理器;用于存储所述处理器可执行指令的存储器;其中,所述处理器被配置为执行所述指令,以实现如权利要求1至4中任一项所述的视频片段检索方法,和/或,如权利要求5所述的视频片段检索模型的训练方法。9.一种计算机可读存储介质,其特征在于,当所述计算机可读存储介质中的指令由电子设备的处理器执行时,使得所述电子设备能够执行如权利要求1至4中任一项所述的视频片段检索方法,和/或,如权利要求5所述的视频片段检索模型的训练方法。10.一种计算机程序产品,所述计算机程序产品中包括指令,其特征在于,所述指令被
电子设备的处理器执行时,使得所述电子设备能够执行如权利要求1至4任一项所述的视频片段检索方法,和/或,如权利要求5所述的视频片段检索模型的训练方法。

技术总结
本公开关于一种视频片段检索方法、视频片段检索模型的训练方法、装置、电子设备及存储介质,该方法包括:获取待查询视频的视频特征和检索文本的文本特征;将视频特征和文本特征输入预先训练的视频片段检索模型,得到待查询视频中与检索文本匹配的候选视频片段;其中,预先训练的视频片段检索模型,为根据样本视频、样本文本以及与样本文本匹配的目标候选视频片段对待训练的视频片段检索模型进行训练得到的;其中,目标候选视频片段从候选样本视频片段库中获取,候选样本视频片段库中包括按照多种时长划分标准对样本视频进行划分得到的多组候选样本视频片段。采用本方法,有利于提高得到的目标视频片段的准确率。提高得到的目标视频片段的准确率。提高得到的目标视频片段的准确率。


技术研发人员:聂礼强 刘萌 王蕴潇 程志勇 王英龙 雷小强 李岩
受保护的技术使用者:山东大学
技术研发日:2021.08.09
技术公布日:2021/11/2
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献