视频片段检索方法、视频片段检索模型的训练方法及装置与流程

2021-11-03 12:29:00 来源：中国专利 TAG：

1.本公开涉及视频处理技术领域，尤其涉及一种视频片段检索方法、视频片段检索模型的训练方法、视频片段检索方法、装置、电子设备及存储介质。

背景技术：

2.随着互联网技术的发展，视频数量呈爆炸式增长，尤其短视频和直播视频；为了从这些视频中快速检索得到感兴趣的目标视频片段，视频片段检索任务得到了广泛的研究关注。
3.相关技术中，目前的视频片段检索方法，一般是通过滑动窗口将视频划分为多种尺度的候选视频片段，并根据候选视频片段和查询文本对神经网络进行训练，以通过训练好的神经网络输出目标视频片段；但是，不同的目标视频片段的持续时间长度不一样，通过采用滑动窗口的机制，预先生成多尺度的候选视频片段，灵活性较低，难以覆盖尽可能多的潜在视频片段，导致通过神经网络检索得到的目标视频片段的准确率较低。

技术实现要素：

4.本公开提供一种视频片段检索方法、视频片段检索模型的训练方法、装置、电子设备及存储介质，以至少解决相关技术中得到的目标视频片段的准确率较低的问题。本公开的技术方案如下：
5.根据本公开实施例的第一方面，提供一种视频片段检索方法，包括：
6.获取待查询视频的视频特征和检索文本的文本特征；
7.将所述视频特征和所述文本特征输入预先训练的视频片段检索模型，得到所述待查询视频中与所述检索文本匹配的候选视频片段；
8.其中，所述预先训练的视频片段检索模型，为根据样本视频、样本文本以及与所述样本文本匹配的目标候选视频片段对待训练的视频片段检索模型进行训练得到的；其中，所述目标候选视频片段从候选样本视频片段库中获取，所述候选样本视频片段库中包括按照多种时长划分标准对所述样本视频进行划分得到的多组候选样本视频片段，其中，每组候选样本视频片段中包括采用一种时长划分标准对所述样本视频进行划分得到的多个候选样本视频片段；不同组候选样本视频片段之间采用的时长划分标准不同。
9.在一示例性实施例中，所述获取待查询视频的视频特征和检索文本的文本特征，包括：
10.获取待查询视频的视觉特征和所述检索文本的初始文本特征；
11.对所述视觉特征进行映射处理，得到所述待查询视频的视频特征，以及对所述初始文本特征进行映射处理，得到处理后的初始文本特征；
12.通过注意力机制，对所述处理后的初始文本特征进行再次映射处理，得到所述检索文本的文本特征；所述文本特征和所述视频特征对应的特征矩阵的结构相同，且在特征矩阵中的对应位置上存在语义关联。
13.在一示例性实施例中，所述通过注意力机制，对所述处理后的初始文本特征进行再次映射处理，得到所述检索文本的文本特征，包括：
14.通过注意力机制，获取所述视频特征中每个视频帧的特征与所述处理后的初始文本特征中各单词的特征之间的注意力权重；
15.根据每个视频帧的特征与所述处理后的初始文本特征中各单词的特征之间的注意力权重，对所述各单词的特征进行加权求和，得到针对于每个视频帧的文本特征；
16.将针对于每个视频帧的文本特征进行组合，得到所述检索文本的文本特征。
17.在一示例性实施例中，所述预先训练的视频片段检索模型通过下述方式训练得到：
18.获取样本视频的样本视频特征和样本文本的样本文本特征；
19.将所述样本视频特征和所述样本文本特征输入待训练的视频片段检索模型，得到所述样本视频的各候选样本视频片段与所述样本文本之间的匹配度情况；
20.根据所述匹配度情况，从所述各候选样本视频片段中筛选出与所述样本文本匹配的目标候选视频片段；
21.根据所述目标候选视频片段与所述样本文本之间的匹配度情况确定损失值，根据所述损失值对所述待训练的视频片段检索模型进行训练，得到训练完成的视频片段检索模型。
22.在一示例性实施例中，在将所述样本视频特征和所述样本文本特征输入待训练的视频片段检索模型，得到所述样本视频的各候选样本视频片段与所述样本文本之间的匹配度情况之后，还包括：
23.通过所述待训练的视频片段检索模型，得到所述各候选样本视频片段的时间信息；所述时间信息包括对应的候选样本视频片段的开始时间和结束时间；
24.所述根据所述匹配度情况，从所述各候选样本视频片段中筛选出与所述样本文本匹配的预测样本视频片段，包括：
25.获取所述各候选样本视频片段中，任意两个候选样本视频片段的时间信息之间的时序交并比；
26.根据所述匹配度情况和所述时序交并比，得到各候选样本视频片段与所述样本文本之间的目标匹配度情况；
27.从所述各候选样本视频片段中筛选出所述目标匹配度情况最大的候选样本视频片段，作为与所述样本文本匹配的目标候选视频片段。
28.在一示例性实施例中，所述根据所述匹配度情况和所述时序交并比，得到各候选样本视频片段与所述样本文本之间的目标匹配度情况，包括：
29.针对每个候选样本视频片段，将所述候选样本视频片段与除所述候选样本视频片段之外的其余候选样本视频片段的时间信息之间的时序交并比，进行归一化处理，得到所述其余候选样本视频片段的匹配度情况的权重；
30.根据所述权重，对所述其余候选样本视频片段的匹配度情况进行加权求和处理，得到所述其余候选样本视频片段的匹配度情况总和；
31.将所述候选样本视频片段的匹配度情况和所述匹配度情况总和进行相加，得到所述候选样本视频片段与所述样本文本之间的目标匹配度情况。
32.在一示例性实施例中，所述根据所述预测样本视频片段与所述样本文本之间的匹配度情况确定损失值，包括：
33.将所述目标候选视频片段与除所述目标候选视频片段之外的其余候选样本视频片段的时间信息之间的时序交并比，进行归一化处理，得到所述其余候选样本视频片段的目标匹配度情况的权重；
34.根据所述权重，对所述其余候选样本视频片段的目标匹配度情况进行加权求和处理，得到所述其余候选样本视频片段的目标匹配度情况总和；
35.将所述目标候选视频片段的目标匹配度情况和所述目标匹配度情况总和进行相加，得到所述目标候选视频片段与所述样本文本之间的匹配情况；
36.根据所述匹配情况和预设阈值确定所述损失值。
37.在一示例性实施例中，所述根据所述损失值对所述待训练的视频片段检索模型进行训练，得到训练完成的视频片段检索模型，包括：
38.若所述损失值大于或者等于预设损失值，则根据所述损失值调整所述待训练的视频片段检索模型的模型参数；
39.对模型参数调整后的视频片段检索模型进行反复训练，直到根据训练后的视频片段检索模型得到的损失值小于所述预设损失值，则将所述训练后的视频片段检索模型，作为所述训练完成的视频片段检索模型。
40.根据本公开实施例的第二方面，提供一种视频片段检索模型的训练方法，包括：
41.获取样本视频的样本视频特征和样本文本的样本文本特征；
42.将所述样本视频特征和所述样本文本特征输入待训练的视频片段检索模型，得到所述样本视频的各候选样本视频片段与所述样本文本之间的匹配度情况；其中，所述各候选样本视频片段中包括按照多种时长划分标准对所述样本视频进行划分得到的多组候选样本视频片段，其中，每组候选样本视频片段中包括采用一种时长划分标准对所述样本视频进行划分得到的多个候选样本视频片段；不同组候选样本视频片段之间采用的时长划分标准不同；
43.根据所述匹配度情况，从所述各候选样本视频片段中筛选出与所述样本文本匹配的目标候选视频片段；
44.根据所述目标候选视频片段与所述样本文本之间的匹配度情况确定损失值，根据所述损失值对所述待训练的视频片段检索模型进行训练，得到训练完成的视频片段检索模型。
45.在一示例性实施例中，所述获取样本视频的样本视频特征和样本文本的样本文本特征，包括：
46.获取样本视频的视觉特征和所述样本文本的初始文本特征；
47.对所述视觉特征进行映射处理，得到所述样本视频的样本视频特征，以及对所述初始文本特征进行映射处理，得到处理后的初始文本特征；
48.通过注意力机制，对所述处理后的初始文本特征进行再次映射处理，得到所述样本文本的样本文本特征；所述样本文本特征和所述样本视频特征对应的特征矩阵的结构相同，且在特征矩阵中的对应位置上存在语义关联。
49.在一示例性实施例中，所述将所述样本视频特征和所述样本文本特征输入待训练
的视频片段检索模型，得到所述样本视频的各候选样本视频片段与所述样本文本之间的匹配度情况，包括：
50.将所述样本视频特征和所述样本文本特征输入待训练的视频片段检索模型，得到所述各候选样本视频片段的视频特征和待匹配文本特征；
51.分别获取所述各候选样本视频片段的视频特征和待匹配文本特征之间的相似度情况，对应作为所述各候选样本视频片段与所述样本文本之间的匹配度情况。
52.在一示例性实施例中，所述将所述样本视频特征和所述样本文本特征输入待训练的视频片段检索模型，得到所述各候选样本视频片段的视频特征和待匹配文本特征，包括：
53.通过所述待训练的视频片段检索模型中的第一层次卷积模块和第一层次池化模块，对所述样本视频特征进行多次处理，对应得到所述各候选样本视频片段的视频特征；
54.通过所述待训练的视频片段检索模型中的第二层次卷积模块和第二层次池化模块，对所述样本文本特征进行多次处理，对应得到所述各候选样本视频片段的待匹配文本特征；
55.其中，所述第一层次卷积模块和所述第二层次卷积模块共享卷积参数，所述第一层次池化模块和所述第二层次池化模块共享池化参数；所述第一层次卷积模块中的各个卷积层的卷积参数和所述第一层次池化模块中的各个池化层的池化参数对应相同，所述第二层次卷积模块中的各个卷积层的卷积参数和所述第二层次池化模块中的各个池化层的池化参数对应相同。
56.在一示例性实施例中，所述在将所述样本视频特征和所述样本文本特征输入待训练的视频片段检索模型，得到所述样本视频的各候选样本视频片段与所述样本文本之间的匹配度情况之后，还包括：
57.通过所述待训练的视频片段检索模型，得到所述各候选样本视频片段的时间信息；所述时间信息包括对应的候选样本视频片段的开始时间和结束时间；
58.所述根据所述匹配度情况，从所述各候选样本视频片段中筛选出与所述样本文本匹配的目标候选视频片段，包括：
59.获取所述各候选样本视频片段中，任意两个候选样本视频片段的时间信息之间的时序交并比；
60.根据所述匹配度情况和所述时序交并比，得到各候选样本视频片段与所述样本文本之间的目标匹配度情况；
61.从所述各候选样本视频片段中筛选出所述目标匹配度情况最大的候选样本视频片段，作为与所述样本文本匹配的目标候选视频片段。
62.在一示例性实施例中，所述根据所述匹配度情况和所述时序交并比，得到各候选样本视频片段与所述样本文本之间的目标匹配度情况，包括：
63.针对每个候选样本视频片段，将所述候选样本视频片段与除所述候选样本视频片段之外的其余候选样本视频片段的时间信息之间的时序交并比，进行归一化处理，得到所述其余候选样本视频片段的匹配度情况的权重；
64.根据所述权重，对所述其余候选样本视频片段的匹配度情况进行加权求和处理，得到所述其余候选样本视频片段的匹配度情况总和；
65.将所述候选样本视频片段的匹配度情况和所述匹配度情况总和进行相加，得到所
述候选样本视频片段与所述样本文本之间的目标匹配度情况。
66.在一示例性实施例中，所述根据所述目标候选视频片段与所述样本文本之间的匹配度情况确定损失值，包括：
67.将所述目标候选视频片段与除所述目标候选视频片段之外的其余候选样本视频片段的时间信息之间的时序交并比，进行归一化处理，得到所述其余候选样本视频片段的目标匹配度情况的权重；
68.根据所述权重，对所述其余候选样本视频片段的目标匹配度情况进行加权求和处理，得到所述其余候选样本视频片段的目标匹配度情况总和；
69.将所述目标候选视频片段的目标匹配度情况和所述目标匹配度情况总和进行相加，得到所述目标候选视频片段与所述样本文本之间的匹配情况；
70.根据所述匹配情况和预设阈值确定所述损失值。
71.在一示例性实施例中，所述根据所述损失值对所述待训练的视频片段检索模型进行训练，得到训练完成的视频片段检索模型，包括：
72.若所述损失值大于或者等于预设损失值，则根据所述损失值调整所述待训练的视频片段检索模型的模型参数；
73.对模型参数调整后的视频片段检索模型进行反复训练，直到根据训练后的视频片段检索模型得到的损失值小于所述预设损失值，则将所述训练后的视频片段检索模型，作为所述训练完成的视频片段检索模型。
74.根据本公开实施例的第三方面，提供一种视频片段检索装置，包括：
75.特征获取单元，被配置为执行获取待查询视频的视频特征和检索文本的文本特征；
76.特征输入单元，被配置为执行将所述视频特征和所述文本特征输入预先训练的视频片段检索模型，得到所述待查询视频中与所述检索文本匹配的候选视频片段；
77.其中，所述预先训练的视频片段检索模型，为根据样本视频、样本文本以及与所述样本文本匹配的目标候选视频片段对待训练的视频片段检索模型进行训练得到的；其中，所述目标候选视频片段从候选样本视频片段库中获取，所述候选样本视频片段库中包括按照多种时长划分标准对所述样本视频进行划分得到的多组候选样本视频片段，其中，每组候选样本视频片段中包括采用一种时长划分标准对所述样本视频进行划分得到的多个候选样本视频片段；不同组候选样本视频片段之间采用的时长划分标准不同。
78.在一示例性实施例中，所述特征获取单元，还被配置为执行获取待查询视频的视觉特征和所述检索文本的初始文本特征；对所述视觉特征进行映射处理，得到所述待查询视频的视频特征，以及对所述初始文本特征进行映射处理，得到处理后的初始文本特征；通过注意力机制，对所述处理后的初始文本特征进行再次映射处理，得到所述检索文本的文本特征；所述文本特征和所述视频特征对应的特征矩阵的结构相同，且在特征矩阵中的对应位置上存在语义关联。
79.在一示例性实施例中，所述特征获取单元，还被配置为执行通过注意力机制，获取所述视频特征中每个视频帧的特征与所述处理后的初始文本特征中各单词的特征之间的注意力权重；根据每个视频帧的特征与所述处理后的初始文本特征中各单词的特征之间的注意力权重，对所述各单词的特征进行加权求和，得到针对于每个视频帧的文本特征；将针
对于每个视频帧的文本特征进行组合，得到所述检索文本的文本特征。
80.在一示例性实施例中，所述装置还包括模型训练单元，被配置为执行获取样本视频的样本视频特征和样本文本的样本文本特征；将所述样本视频特征和所述样本文本特征输入待训练的视频片段检索模型，得到所述样本视频的各候选样本视频片段与所述样本文本之间的匹配度情况；根据所述匹配度情况，从所述各候选样本视频片段中筛选出与所述样本文本匹配的目标候选视频片段；根据所述目标候选视频片段与所述样本文本之间的匹配度情况确定损失值，根据所述损失值对所述待训练的视频片段检索模型进行训练，得到训练完成的视频片段检索模型。
81.在一示例性实施例中，所述模型训练单元，还被配置为执行通过所述待训练的视频片段检索模型，得到所述各候选样本视频片段的时间信息；所述时间信息包括对应的候选样本视频片段的开始时间和结束时间；获取所述各候选样本视频片段中，任意两个候选样本视频片段的时间信息之间的时序交并比；根据所述匹配度情况和所述时序交并比，得到各候选样本视频片段与所述样本文本之间的目标匹配度情况；从所述各候选样本视频片段中筛选出所述目标匹配度情况最大的候选样本视频片段，作为与所述样本文本匹配的目标候选视频片段。
82.在一示例性实施例中，所述模型训练单元，还被配置为执行针对每个候选样本视频片段，将所述候选样本视频片段与除所述候选样本视频片段之外的其余候选样本视频片段的时间信息之间的时序交并比，进行归一化处理，得到所述其余候选样本视频片段的匹配度情况的权重；根据所述权重，对所述其余候选样本视频片段的匹配度情况进行加权求和处理，得到所述其余候选样本视频片段的匹配度情况总和；将所述候选样本视频片段的匹配度情况和所述匹配度情况总和进行相加，得到所述候选样本视频片段与所述样本文本之间的目标匹配度情况。
83.在一示例性实施例中，所述模型训练单元，还被配置为执行将所述目标候选视频片段与除所述目标候选视频片段之外的其余候选样本视频片段的时间信息之间的时序交并比，进行归一化处理，得到所述其余候选样本视频片段的目标匹配度情况的权重；根据所述权重，对所述其余候选样本视频片段的目标匹配度情况进行加权求和处理，得到所述其余候选样本视频片段的目标匹配度情况总和；将所述目标候选视频片段的目标匹配度情况和所述目标匹配度情况总和进行相加，得到所述目标候选视频片段与所述样本文本之间的匹配情况；根据所述匹配情况和预设阈值确定所述损失值。
84.在一示例性实施例中，所述模型训练单元，还被配置为执行若所述损失值大于或者等于预设损失值，则根据所述损失值调整所述待训练的视频片段检索模型的模型参数；对模型参数调整后的视频片段检索模型进行反复训练，直到根据训练后的视频片段检索模型得到的损失值小于所述预设损失值，则将所述训练后的视频片段检索模型，作为所述训练完成的视频片段检索模型。
85.根据本公开实施例的第四方面，提供一种视频片段检索装置，包括：
86.获取单元，被配置为执行获取样本视频的样本视频特征和样本文本的样本文本特征；
87.输入单元，被配置为执行将所述样本视频特征和所述样本文本特征输入待训练的视频片段检索模型，得到所述样本视频的各候选样本视频片段与所述样本文本之间的匹配
度情况；其中，所述各候选样本视频片段中包括按照多种时长划分标准对所述样本视频进行划分得到的多组候选样本视频片段，其中，每组候选样本视频片段中包括采用一种时长划分标准对所述样本视频进行划分得到的多个候选样本视频片段；不同组候选样本视频片段之间采用的时长划分标准不同；
88.筛选单元，被配置为执行根据所述匹配度情况，从所述各候选样本视频片段中筛选出与所述样本文本匹配的目标候选视频片段；
89.训练单元，被配置为执行根据所述目标候选视频片段与所述样本文本之间的匹配度情况确定损失值，根据所述损失值对所述待训练的视频片段检索模型进行训练，得到训练完成的视频片段检索模型。
90.在一示例性实施例中，所述获取单元，还被配置为执行获取样本视频的视觉特征和所述样本文本的初始文本特征；对所述视觉特征进行映射处理，得到所述样本视频的样本视频特征，以及对所述初始文本特征进行映射处理，得到处理后的初始文本特征；通过注意力机制，对所述处理后的初始文本特征进行再次映射处理，得到所述样本文本的样本文本特征；所述样本文本特征和所述样本视频特征对应的特征矩阵的结构相同，且在特征矩阵中的对应位置上存在语义关联。
91.在一示例性实施例中，所述输入单元，还被配置为执行将所述样本视频特征和所述样本文本特征输入待训练的视频片段检索模型，得到所述各候选样本视频片段的视频特征和待匹配文本特征；分别获取所述各候选样本视频片段的视频特征和待匹配文本特征之间的相似度情况，对应作为所述各候选样本视频片段与所述样本文本之间的匹配度情况。
92.在一示例性实施例中，所述输入单元，还被配置为执行通过所述待训练的视频片段检索模型中的第一层次卷积模块和第一层次池化模块，对所述样本视频特征进行多次处理，对应得到所述各候选样本视频片段的视频特征；通过所述待训练的视频片段检索模型中的第二层次卷积模块和第二层次池化模块，对所述样本文本特征进行多次处理，对应得到所述各候选样本视频片段的待匹配文本特征；其中，所述第一层次卷积模块和所述第二层次卷积模块共享卷积参数，所述第一层次池化模块和所述第二层次池化模块共享池化参数；所述第一层次卷积模块中的各个卷积层的卷积参数和所述第一层次池化模块中的各个池化层的池化参数对应相同，所述第二层次卷积模块中的各个卷积层的卷积参数和所述第二层次池化模块中的各个池化层的池化参数对应相同。
93.在一示例性实施例中，所述筛选单元，还被配置为执行通过所述待训练的视频片段检索模型，得到所述各候选样本视频片段的时间信息；所述时间信息包括对应的候选样本视频片段的开始时间和结束时间；获取所述各候选样本视频片段中，任意两个候选样本视频片段的时间信息之间的时序交并比；根据所述匹配度情况和所述时序交并比，得到各候选样本视频片段与所述样本文本之间的目标匹配度情况；从所述各候选样本视频片段中筛选出所述目标匹配度情况最大的候选样本视频片段，作为与所述样本文本匹配的目标候选视频片段。
94.在一示例性实施例中，所述筛选单元，还被配置为执行针对每个候选样本视频片段，将所述候选样本视频片段与除所述候选样本视频片段之外的其余候选样本视频片段的时间信息之间的时序交并比，进行归一化处理，得到所述其余候选样本视频片段的匹配度情况的权重；根据所述权重，对所述其余候选样本视频片段的匹配度情况进行加权求和处
理，得到所述其余候选样本视频片段的匹配度情况总和；将所述候选样本视频片段的匹配度情况和所述匹配度情况总和进行相加，得到所述候选样本视频片段与所述样本文本之间的目标匹配度情况。
95.在一示例性实施例中，所述训练单元，还被配置为执行将所述目标候选视频片段与除所述目标候选视频片段之外的其余候选样本视频片段的时间信息之间的时序交并比，进行归一化处理，得到所述其余候选样本视频片段的目标匹配度情况的权重；根据所述权重，对所述其余候选样本视频片段的目标匹配度情况进行加权求和处理，得到所述其余候选样本视频片段的目标匹配度情况总和；将所述目标候选视频片段的目标匹配度情况和所述目标匹配度情况总和进行相加，得到所述目标候选视频片段与所述样本文本之间的匹配情况；根据所述匹配情况和预设阈值确定所述损失值。
96.在一示例性实施例中，所述训练单元，还被配置为执行若所述损失值大于或者等于预设损失值，则根据所述损失值调整所述待训练的视频片段检索模型的模型参数；对模型参数调整后的视频片段检索模型进行反复训练，直到根据训练后的视频片段检索模型得到的损失值小于所述预设损失值，则将所述训练后的视频片段检索模型，作为所述训练完成的视频片段检索模型。
97.根据本公开实施例的第五方面，提供一种电子设备，包括：处理器；用于存储所述处理器可执行指令的存储器；其中，所述处理器被配置为执行所述指令，以实现如第一方面的任一项实施例中所述的视频片段检索方法，或者如第二方面的任一项实施例中所述的视频片段检索模型的训练方法。
98.根据本公开实施例的第六方面，提供一种计算机可读存储介质，包括：当所述计算机可读存储介质中的指令由电子设备的处理器执行时，使得所述电子设备能够执行如第一方面的任一项实施例中所述的视频片段检索方法，或者如第二方面的任一项实施例中所述的视频片段检索模型的训练方法。
99.根据本公开实施例的第七方面，提供一种计算机程序产品，所述计算机程序产品中包括指令，所述指令被电子设备的处理器执行时，使得所述电子设备能够执行如第一方面的任一项实施例中所述的视频片段检索方法，或者如第二方面的任一项实施例中所述的视频片段检索模型的训练方法。
100.本公开的实施例提供的技术方案至少带来以下有益效果：
101.获取待查询视频的视频特征和检索文本的文本特征；将所述视频特征和所述文本特征输入预先训练的视频片段检索模型，得到所述待查询视频中与所述检索文本匹配的候选视频片段；这样，通过从多种视频片段中获取目标视频片段，有利于在目标视频片段的持续时间长度不一样的情况下，覆盖尽可能多的潜在视频片段，从而提高了目标视频片段的检索准确率，进而提高了得到的目标视频片段的准确率。
102.应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。
附图说明
103.此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理，并不构成对本公开的不当限定。
104.图1是根据一示例性实施例示出的一种视频片段检索模型的训练方法的应用环境图。
105.图2是根据一示例性实施例示出的一种视频片段检索方法的流程图。
106.图3是根据一示例性实施例示出的一种视频片段检索模型的训练方法的流程图。
107.图4是根据一示例性实施例示出的获取样本视频的样本视频特征和样本文本的样本文本特征的步骤的流程图。
108.图5是根据一示例性实施例示出的另一种视频片段检索模型的训练方法的流程图。
109.图6是根据一示例性实施例示出的根据匹配度情况，从各候选样本视频片段中筛选出与样本文本匹配的目标候选视频片段的流程图。
110.图7是根据一示例性实施例示出的一种视频片段检索装置的框图。
111.图8是根据一示例性实施例示出的一种视频片段检索模型的训练装置的框图。
112.图9是根据一示例性实施例示出的一种电子设备的框图。
具体实施方式
113.为了使本领域普通人员更好地理解本公开的技术方案，下面将结合附图，对本公开实施例中的技术方案进行清楚、完整地描述。
114.需要说明的是，本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。
115.还需要说明的是，本公开所涉及的用户信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于展示的数据、分析的数据等)，均为经用户授权或者经过各方充分授权的信息和数据。
116.本公开所提供的视频片段检索模型的训练方法，可以应用于如图1所示的应用环境中。参照图1，该应用环境图包括终端110。终端110是具有视频片段检索功能的电子设备，该电子设备可以是智能手机、平板电脑或个人计算机等等。图1中以终端110是智能手机为例进行说明，终端110获取待查询视频的视频特征和检索文本的文本特征；将视频特征和文本特征输入预先训练的视频片段检索模型，得到待查询视频中与检索文本匹配的候选视频片段；其中，预先训练的视频片段检索模型，为根据样本视频、样本文本以及与样本文本匹配的目标候选视频片段对待训练的视频片段检索模型进行训练得到的；其中，目标候选视频片段从候选样本视频片段库中获取，候选样本视频片段库中包括按照多种时长划分标准对样本视频进行划分得到的多组候选样本视频片段，其中，每组候选样本视频片段中包括采用一种时长划分标准对样本视频进行划分得到多个候选样本视频片段；不同组候选样本视频片段之间采用的时长划分标准不同。
117.需要说明的是，本公开实施例提供的视频片段检索方法也可以应用于服务器，还可以应用于包括终端和服务器的系统，并通过终端和服务器的交互实现；其中，服务器可以
用独立的服务器或者是多个服务器组成的服务器集群来实现。
118.图2是根据一示例性实施例示出的一种视频片段检索方法的流程图，如图2所示，视频片段检索方法用于如图1所示的终端中，包括以下步骤：
119.在步骤s210中，获取待查询视频的视频特征和检索文本的文本特征。
120.其中，待查询视频是指需要查询的完整视频，检索文本是指在查询视频时所输入的文本。
121.举例说明，终端根据用户输入的检索文本，在本地数据库中用户所指定的待查询视频中，查找出与用户输入的检索文本匹配的目标视频片段，并在终端界面上展示该目标视频片段，便于用户进行观看。
122.在步骤s220中，将视频特征和文本特征输入预先训练的视频片段检索模型，得到待查询视频中与检索文本匹配的候选视频片段。
123.其中，与检索文本匹配的候选视频片段，是指最终得到的目标视频片段。
124.其中，预先训练的视频片段检索模型，为根据样本视频、样本文本以及与样本文本匹配的目标候选视频片段对待训练的视频片段检索模型进行训练得到的；其中，目标候选视频片段从候选样本视频片段库中获取，候选样本视频片段库中包括按照多种时长划分标准对样本视频进行划分得到的多组候选样本视频片段，其中，每组候选样本视频片段中包括采用一种时长划分标准对样本视频进行划分得到多个候选样本视频片段；不同组候选样本视频片段之间采用的时长划分标准不同。
125.比如，针对1
‑
30s的样本视频，如果按照5s为单位进行划分，可以得到1
‑
5s、6
‑
10s、11
‑
15s、16
‑
20s、21
‑
25s、26
‑
30s的候选样本视频片段；如果按照10s为单位进行划分，可以得到1
‑
10s、11
‑
20s、21
‑
30s的候选样本视频片段；如果按照15s为单位进行划分，可以得到1
‑
15s、16
‑
30s的候选样本视频片段。
126.具体地，终端根据候选视频片段与检索文本之间的匹配度分数，从候选视频片段中筛选出匹配度分数最大的候选视频片段，作为与检索文本匹配的目标视频片段。
127.举例说明，假设候选视频片段包括候选视频片段a1、候选视频片段a2、候选视频片段a3、候选视频片段a4和候选视频片段a5，且候选视频片段a5的匹配度分数最大，则将候选视频片段a5，作为与检索文本匹配的目标视频片段。
128.上述视频片段检索方法，获取待查询视频的视频特征和检索文本的文本特征；将视频特征和文本特征输入预先训练的视频片段检索模型，得到待查询视频中与检索文本匹配的候选视频片段；这样，通过从多种视频片段中获取目标视频片段，有利于在目标视频片段的持续时间长度不一样的情况下，覆盖尽可能多的潜在视频片段，从而提高了目标视频片段的检索准确率，进而提高了得到的目标视频片段的准确率。
129.在一示例性实施例中，获取待查询视频的视频特征和检索文本的文本特征，包括：获取待查询视频的视觉特征和检索文本的初始文本特征；对视觉特征进行映射处理，得到待查询视频的视频特征，以及对初始文本特征进行映射处理，得到处理后的初始文本特征；通过注意力机制，对处理后的初始文本特征进行再次映射处理，得到检索文本的文本特征；文本特征和视频特征对应的特征矩阵的结构相同，且在特征矩阵中的对应位置上存在语义关联。
130.本公开实施例提供的技术方案，通过注意力机制，使得待查询视频的视频特征和
检索文本的文本特征的格式相同，且存在语义关联，有利于减少模态间的语义鸿沟，便于后续对候选视频片段和检索文本进行准确匹配。
131.在一示例性实施例中，通过注意力机制，对处理后的初始文本特征进行再次映射处理，得到检索文本的文本特征，包括：通过注意力机制，获取视频特征中每个视频帧的特征与处理后的初始文本特征中各单词的特征之间的注意力权重；根据每个视频帧的特征与处理后的初始文本特征中各单词的特征之间的注意力权重，对各单词的特征进行加权求和，得到针对于每个视频帧的文本特征；将针对于每个视频帧的文本特征进行组合，得到检索文本的文本特征。
132.本公开实施例提供的技术方案，有利于进一步减少模态间的语义鸿沟，便于后续对候选视频片段和检索文本进行准确匹配。
133.在一示例性实施例中，预先训练的视频片段检索模型通过下述方式训练得到：获取样本视频的样本视频特征和样本文本的样本文本特征；将样本视频特征和样本文本特征输入待训练的视频片段检索模型，得到样本视频的各候选样本视频片段与样本文本之间的匹配度情况；根据匹配度情况，从各候选样本视频片段中筛选出与样本文本匹配的目标候选视频片段；根据目标候选视频片段与样本文本之间的匹配度情况确定损失值，根据损失值对待训练的视频片段检索模型进行训练，得到训练完成的视频片段检索模型。
134.本公开实施例提供的技术方案，通过对待训练的视频片段检索模型进行反复训练，有利于提高通过训练得到的视频片段检索模型输出的目标视频片段的准确率。
135.在一示例性实施例中，在将样本视频特征和样本文本特征输入待训练的视频片段检索模型，得到样本视频的各候选样本视频片段与样本文本之间的匹配度情况之后，还包括：通过待训练的视频片段检索模型，得到各候选样本视频片段的时间信息；时间信息包括对应的候选样本视频片段的开始时间和结束时间。
136.那么，根据匹配度情况，从各候选样本视频片段中筛选出与样本文本匹配的预测样本视频片段，包括：获取各候选样本视频片段中，任意两个候选样本视频片段的时间信息之间的时序交并比；根据匹配度情况和时序交并比，得到各候选样本视频片段与样本文本之间的目标匹配度情况；从各候选样本视频片段中筛选出目标匹配度情况最大的候选样本视频片段，作为与样本文本匹配的目标候选视频片段。
137.本公开实施例提供的技术方案，有利于提高与样本文本匹配的目标候选视频片段的确定准确率。
138.在一示例性实施例中，根据匹配度情况和时序交并比，得到各候选样本视频片段与样本文本之间的目标匹配度情况，包括：针对每个候选样本视频片段，将候选样本视频片段与除候选样本视频片段之外的其余候选样本视频片段的时间信息之间的时序交并比，进行归一化处理，得到其余候选样本视频片段的匹配度情况的权重；根据权重，对其余候选样本视频片段的匹配度情况进行加权求和处理，得到其余候选样本视频片段的匹配度情况总和；将候选样本视频片段的匹配度情况和匹配度情况总和进行相加，得到候选样本视频片段与样本文本之间的目标匹配度情况。
139.本公开实施例提供的技术方案，有利于进一步提高候选样本视频片段与样本文本之间的目标匹配度情况的确定准确率。
140.在一示例性实施例中，根据预测样本视频片段与样本文本之间的匹配度情况确定
损失值，包括：将目标候选视频片段与除目标候选视频片段之外的其余候选样本视频片段的时间信息之间的时序交并比，进行归一化处理，得到其余候选样本视频片段的目标匹配度情况的权重；根据权重，对其余候选样本视频片段的目标匹配度情况进行加权求和处理，得到其余候选样本视频片段的目标匹配度情况总和；将目标候选视频片段的目标匹配度情况和目标匹配度情况总和进行相加，得到目标候选视频片段与样本文本之间的匹配情况；根据匹配情况和预设阈值确定损失值。
141.本公开实施例提供的技术方案，有利于提高损失值的确定准确率，使得通过损失值训练得到的视频片段检索模型更加准确。
142.在一示例性实施例中，根据损失值对待训练的视频片段检索模型进行训练，得到训练完成的视频片段检索模型，包括：若损失值大于或者等于预设损失值，则根据损失值调整待训练的视频片段检索模型的模型参数；对模型参数调整后的视频片段检索模型进行反复训练，直到根据训练后的视频片段检索模型得到的损失值小于预设损失值，则将训练后的视频片段检索模型，作为训练完成的视频片段检索模型。
143.本公开实施例提供的技术方案，通过对待训练的视频片段检索模型进行反复训练，有利于提高通过训练得到的视频片段检索模型输出的目标视频片段的准确率。
144.图3是根据一示例性实施例示出的一种视频片段检索模型的训练方法的流程图，如图3所示，视频片段检索模型的训练方法用于如图1所示的终端中，包括以下步骤：
145.在步骤s310中，获取样本视频的样本视频特征和样本文本的样本文本特征。
146.其中，样本视频是指用于训练的待查询视频，可以是各种类型的视频，比如短视频、微电影、电影、电视剧等；样本文本是指用于训练的检索文本，可以是各种类型的文本，比如一句话(如他在滑板上做了一个翻转动作)、一段话、一个关键词等。
147.需要说明的是，样本视频和样本文本是成对的，可以是正样本对，也可以是负样本对；正样本对是指相互匹配的视频
‑
文本对，负样本对是指不匹配的视频
‑
文本对。
148.其中，样本视频的样本视频特征，用于表征样本视频的特征信息，可以通过特征矩阵表示；样本文本的样本文本特征，用于表征样本文本的特征信息，也可以通过特征矩阵表示。
149.具体地，终端获取成对的样本视频和样本文本，通过预设的视频特征提取指令，提取样本视频的样本视频特征，以及通过预设的文本特征提取指令，提取样本文本的样本文本特征。
150.此外，终端还可以将样本视频输入到预先训练的视频特征提取模型，通过预先训练的视频特征提取模型对样本视频进行视频特征提取处理，得到样本视频的样本视频特征；将样本文本输入到预先训练的文本特征提取模型，通过预先训练的文本特征提取模型对样本文本进行文本特征提取处理，得到样本文本的样本文本特征。
151.在步骤s320中，将样本视频特征和样本文本特征输入待训练的视频片段检索模型，得到样本视频的各候选样本视频片段与样本文本之间的匹配度情况。
152.其中，各候选样本视频片段中包括按照多种时长划分标准对样本视频进行划分得到的多组候选样本视频片段，其中，每组候选样本视频片段中包括采用一种时长划分标准对样本视频进行划分得到多个候选样本视频片段；不同组候选样本视频片段之间采用的时长划分标准不同。
153.其中，视频片段检索模型是一种用于针对同一个待查询视频，输出不同时间长度的候选视频片段的视频特征和文本特征的孪生匹配网络模型，用于解决弱监督的跨模态视频片段检索任务；在实际场景中，通过视频片段检索模型可以一次性输出多种不同时间长度的候选视频片段及其对应的视频特征和文本特征，比如输出同一个待查询视频的各种时间长度的候选视频片段，且同一时间长度的候选视频片段可以构成一个完整的待查询视频。
154.其中，候选视频片段是指样本视频中的一段视频；时间长度是指候选视频片段的视频时长，比如5秒、10秒、1分钟等；每一种时间长度的候选视频片段有多个，且可以构成完整的样本视频。比如，针对样本视频m，时间长度a的候选视频片段包括候选视频片段a1、候选视频片段a2、候选视频片段a3、候选视频片段a4，且候选视频片段a1、候选视频片段a2、候选视频片段a3、候选视频片段a4可以构成完整的样本视频；时间长度b的候选视频片段包括候选视频片段b1、候选视频片段b2、候选视频片段b3，且候选视频片段b1、候选视频片段b2、候选视频片段b3可以构成完整的样本视频。
155.需要说明的是，现有技术中，通过滑动窗口将视频划分为多种尺度的候选视频片段，是指通过离线的方式，预先把某个视频划分为几种时间长度的候选视频片段，比如将视频n划分为候选视频片段a1(对应时间长度a)、候选视频片段b1(时间长度b)、候选视频片段c1(对应时间长度c)、候选视频片段d1(对应时间长度d)。
156.其中，候选视频片段的视频特征，用于表征候选视频片段的视觉特征信息，可以通过特征矩阵表示；候选视频片段的文本特征，是指样本文本的文本特征中，特定于该候选视频片段的文本特征，也可以通过特征矩阵表示。
157.具体地，终端将样本视频的样本视频特征和样本文本的样本文本特征，输入待训练的视频片段检索模型，通过待训练的视频片段检索模型对样本视频的样本视频特征和样本文本的样本文本特征进行多次卷积处理和池化处理，对应得到不同时间长度的候选视频片段的视频特征和待匹配文本特征；获取不同时间长度的候选视频片段的视频特征和待匹配文本特征之间的相似度分数，根据相似度分数从不同时间长度的候选视频片段中筛选出目标候选视频片段。
158.其中，候选视频片段的视频特征和待匹配文本特征之间的匹配度情况，是指视频特征和待匹配文本特征之间的余弦相似度分数。
159.具体地，终端获取每个候选视频片段的视频特征和文本特征之间的初始相似度分数；获取每个候选视频片段的其余候选视频片段的初始相似度分数的加权和，根据加权和对每个候选视频片段的初始相似度分数进行调整，得到每个候选视频片段的调整后的初始相似度分数，作为每个候选视频片段的相似度分数；从不同时间长度的候选视频片段中，筛选出相似度分数最大的候选视频片段，作为目标视频片段。
160.在步骤s330中，根据匹配度情况，从各候选样本视频片段中筛选出与样本文本匹配的目标候选视频片段。
161.其中，目标候选视频片段是指不同时间长度的候选视频片段中，匹配度情况最大的候选视频片段。
162.具体地，终端根据匹配度情况，从各候选样本视频片段中筛选出匹配度情况最大的候选样本视频片段，作为与样本文本匹配的目标候选视频片段。
163.在步骤s340中，根据目标候选视频片段与样本文本之间的匹配度情况确定损失值，根据损失值对待训练的视频片段检索模型进行训练，得到训练完成的视频片段检索模型。
164.其中，损失值用于衡量视频片段检索模型的视频片段检索准确率，也可以用于衡量视频片段检索模型是否训练完毕。
165.具体地，终端将匹配分数输入到损失函数中，得到待训练的视频片段检索模型的损失值；根据损失值对待训练的视频片段检索模型进行反复训练，直到根据训练后的视频片段检索模型得到的损失值小于预设损失值，则停止训练，并将该训练后的视频片段检索模型作为训练完成的视频片段检索模型。
166.上述视频片段检索模型的训练方法中，获取样本视频的样本视频特征和样本文本的样本文本特征；将样本视频特征和样本文本特征输入待训练的视频片段检索模型，得到样本视频的各候选样本视频片段与样本文本之间的匹配度情况；其中，各候选样本视频片段中包括按照多种时长划分标准对样本视频进行划分得到的多组候选样本视频片段，其中，每组候选样本视频片段中包括采用一种时长划分标准对样本视频进行划分得到多个候选样本视频片段；不同组候选样本视频片段之间采用的时长划分标准不同；根据匹配度情况，从各候选样本视频片段中筛选出与样本文本匹配的目标候选视频片段；根据目标候选视频片段与样本文本之间的匹配度情况确定损失值，根据损失值对待训练的视频片段检索模型进行训练，得到训练完成的视频片段检索模型；这样，根据样本视频的视频特征和样本文本的文本特征，对待训练的视频片段检索模型进行训练，使得训练后的视频片段检索模型可以灵活输出各种时间长度的候选视频片段，且同一时间长度的候选视频片段用于构成完整的样本视频，有利于在目标视频片段的持续时间长度不一样的情况下，覆盖尽可能多的潜在视频片段，从而提高了目标视频片段的检索准确率，进而提高了得到的目标视频片段的准确率；同时，先根据相似度分数从不同时间长度的候选视频片段中筛选出目标视频片段，并将针对目标视频片段的其余候选视频片段的相似度分数，作为目标视频片段的相似度分数的辅助信息，以对待训练的视频片段检索模型进行训练，使得训练后的视频片段检索模型可以更好地对候选视频片段和查询文本进行匹配，从而提高了候选视频片段和查询文本的匹配度的确定准确率，进一步提高了得到的目标视频片段的准确率。
167.在一示例性实施例中，如图4所示，在步骤s310中，获取样本视频的样本视频特征和样本文本的样本文本特征，具体可以通过以下步骤实现：
168.在步骤s410中，获取样本视频的视觉特征和样本文本的初始文本特征。
169.其中，视觉特征用于表征样本视频的三维视频特征信息；初始文本特征是指样本文本中的单词的语义特征和上下文信息。
170.具体地，终端通过预先训练的视觉特征提取模型，提取样本视频的视觉特征；通过预先训练的初始文本特征提取模型，提取样本文本的初始文本特征。
171.在步骤s420中，对视觉特征进行映射处理，得到样本视频的视频特征，以及对初始文本特征进行映射处理，得到处理后的初始文本特征。
172.其中，对视觉特征进行映射处理，是指将视觉特征以特征矩阵的形式进行表示；对初始文本特征进行映射处理，是指将初始文本特征以特征矩阵的形式进行表示。
173.具体地，终端对样本视频的视觉特征进行全连接处理，以将视觉特征映射到公共
空间中，得到样本视频的视频特征；终端对样本文本的初始文本特征进行全连接处理，以将初始文本特征映射到公共空间中，得到样本视频的处理后的初始文本特征。
174.举例说明，参考图5，在视觉分支中，终端利用预训练的c3d(convolutional 3d，三维卷积网络)模型为每一个样本视频提取视觉特征，其中v
i
表示样本视频的第i帧，n
v
表示样本视频的总帧数；然后，利用全连接网络将提取出的视觉特征映射到公共空间当中，得到样本视频的视频特征其中表示第i帧的视觉特征。其中，c3d模型是指是在二维卷积网络的基础上拓展了时序维度，以用于三维视频特征的提取。
175.进一步地，参考图5，在文本分支中，终端利用预训练的glove(global vectors，全局向量)模型为样本文本提取初始文本特征，其中q
i
表示第i个单词，n
q
表示当前样本文本包含的单词数目；然后，用gru(gate recurrent unit，门控循环单元)网络捕获样本文本中的单词的上下文信息，并利用全连接网络将初始文本特征和上下文信息映射到公共空间当中，得到样本文本的处理后的初始文本特征其中表示第i个单词的特征表示。其中，glove模型是一种通过统计共现矩阵为单词学习语义特征表示的模型，gru网络是循环神经网络的一种变体，通过门控机制控制序列信息的输入和遗忘，以解决循环神经网络在长期记忆中梯度消失的问题。
176.在步骤s430中，通过注意力机制，对处理后的初始文本特征进行再次映射处理，得到样本文本的文本特征；文本特征和视频特征对应的特征矩阵的结构相同，且在特征矩阵中的对应位置上存在语义关联。
177.其中，文本特征和视频特征对应的特征矩阵的结构相同，是指文本特征和视频特征对应的特征矩阵的格式相同，即行数和列数相同，且每行和每列包含的元素个数相同。在特征矩阵中的对应位置上存在语义关联，是指文本特征的特征矩阵中的每个位置的元素，与视频特征的特征矩阵中的对应位置的元素存在语义关联。
178.其中，注意力机制是指控制信息的权重的机制。
179.具体地，终端通过注意力机制，获取样本视频中的每个视频帧与样本文本中的每个单词之间的注意力权重；根据注意力权重对样本文本中的每个单词的特征表示进行加权处理，得到特定于每个视频帧的文本特征；将特定于每个视频帧的文本特征进行拼接处理，得到样本文本的文本特征。
180.举例说明，参考图5，终端利用注意力机制将处理后的初始文本特征f
q
映射到视觉空间当中，使映射后的文本特征具有与视频特征f
v
相同的形状，并且在特征矩阵的对应位置上具有语义关联，具体计算公式如下：
[0181][0182]
其中，a
i,j
是第i个候选片段和第j个单词之间的注意力权重，是特定于第i个视频帧的文本特征。
[0183]
本公开实施例提供的技术方案，通过注意力机制，使得样本视频的视频特征和样本文本的文本特征的格式相同，且存在语义关联，有利于减少模态间的语义鸿沟，便于后续对候选视频片段和样本文本进行准确匹配。
[0184]
在一示例性实施例中，将样本视频特征和样本文本特征输入待训练的视频片段检索模型，得到样本视频的各候选样本视频片段与样本文本之间的匹配度情况，包括：将样本视频特征和样本文本特征输入待训练的视频片段检索模型，得到各候选样本视频片段的视频特征和待匹配文本特征；分别获取各候选样本视频片段的视频特征和待匹配文本特征之间的相似度情况，对应作为各候选样本视频片段与样本文本之间的匹配度情况。
[0185]
本公开实施例提供的技术方案，通过将样本视频特征和样本文本特征输入待训练的视频片段检索模型，得到样本视频的各候选样本视频片段与样本文本之间的匹配度情况，有利于后续根据匹配度情况，从各候选样本视频片段中筛选出与样本文本匹配的目标候选视频片段。
[0186]
在一示例性实施例中，上述步骤s220，将样本视频特征和样本文本特征输入待训练的视频片段检索模型，得到各候选样本视频片段的视频特征和待匹配文本特征，具体包括：通过待训练的视频片段检索模型中的第一层次卷积模块和第一层次池化模块，对样本视频特征进行多次处理，对应各候选样本视频片段的视频特征；通过待训练的视频片段检索模型中的第二层次卷积模块和第二层次池化模块，对样本文本特征进行多次处理，对应得到各候选样本视频片段的待匹配文本特征；其中，第一层次卷积模块和第二层次卷积模块共享卷积参数，第一层次池化模块和第二层次池化模块共享池化参数；第一层次卷积模块中的各个卷积层的卷积参数和第一层次池化模块中的各个池化层的池化参数对应相同，第二层次卷积模块中的各个卷积层的卷积参数和第二层次池化模块中的各个池化层的池化参数对应相同。
[0187]
其中，各候选样本视频片段的视频特征，和各候选样本视频片段的待匹配文本特征都是一一对应的。
[0188]
其中，第一层次卷积模块中包括多个一维卷积层，每个一维卷积层可以输出一种时间长度的候选视频片段；卷积参数是指卷积核大小和卷积步长。
[0189]
其中，第一层次池化模块中包括多个最大值池化层，池化参数是指最大值池化层的池化尺寸和步长，其值与对应卷积层的卷积核大小和卷积步长相同。
[0190]
具体地，终端通过第一层次卷积模块中的第一个卷积层，对样本视频特征进行卷积处理，得到视频特征的卷积结果；通过第一层次池化模块中的第一个最大值池化层，对视频特征进行最大池化处理，得到视频特征的最大池化结果；将视频特征的卷积结果和视频特征的最大池化结果进行融合处理，得到第一个视频特征，即第一种时间长度的候选视频片段的视频特征；接着，通过第一层次卷积模块中的第二个卷积层和第一层次池化模块中的第二个最大值池化层，对第一视频特征进行卷积处理和最大池化处理，得到第二个视频特征，即第二种时间长度的候选视频片段的视频特征；以此类推，直到通过第一层次卷积模块中的最后一个卷积层和第一层次池化模块中的最后一个最大值池化层，得到最后一个视频特征，即最后一种时间长度的候选视频片段的视频特征。
[0191]
进一步地，跟得到不同时间长度的候选视频片段的视频特征的过程类似，终端通过第二层次卷积模块中的第一个卷积层，对样本文本特征进行卷积处理，得到文本特征的
卷积结果；通过第二层次池化模块中的第一个最大值池化层，对文本特征进行最大池化处理，得到文本特征的最大池化结果；将文本特征的卷积结果和文本特征的最大池化结果进行融合处理，得到第一个文本特征，即第一种时间长度的候选视频片段的文本特征；接着，通过第二层次卷积模块中的第二个卷积层和第二层次池化模块中的第二个最大值池化层，对第一文本特征进行卷积处理和最大池化处理，得到第二个文本特征，即第二种时间长度的候选视频片段的文本特征；以此类推，直到通过第二层次卷积模块中的最后一个卷积层和第二层次池化模块中的最后一个最大值池化层，得到最后一个文本特征，即最后一种时间长度的候选视频片段的文本特征；最后，根据不同时间长度的候选视频片段的视频特征和不同时间长度的候选视频片段的文本特征，得到不同时间长度的候选视频片段的视频特征和文本特征
[0192]
举例说明，参考图5，引入一个层次卷积模块对视觉分支进行处理，该模块由多个一维卷积层组成，每个卷积层具有不同大小的卷积核，其中每个卷积层可以输出一种尺寸的候选片段。形式上，将每个卷积层表示为：
[0193][0194]
其中，和分别表示第l层卷积层的卷积核大小和卷积步长，分别表示第l层卷积层的卷积核大小和卷积步长，是第l层卷积层的输入，特别地，
[0195]
需要说明的是，为了使训练过程更稳定，我们在每一层卷积层上增加了残差连接，最终表示为：
[0196][0197]
其中，和是第l层最大值池化层的池化尺寸和步长，其值与第l层卷积层的卷积核大小和卷积步长一致。
[0198]
接着，将映射后的文本特征送入一个与视觉分支相同的层次卷积模块，并通过共享两个模块的网络参数，约束网络捕获一致性信息，进一步减小跨模态语义差异，具体计算公式如下：
[0199][0200]
其中，是第l层卷积层的输入，特别地，
[0201]
进一步地，将每一层得到的视频特征和文本特征各自聚合到一个集合当中，并分别用共享参数的全连接网络进行映射，得到视频特征表示和文本特征表示其中和分别是第i个候选视频片段的视频特征表示和文本特征表示，n
m
是候选视频片段的总数目。
[0202]
本公开实施例提供的技术方案，通过视频片段检索模型的层次卷积模块一次性生成多种不同时间长度的候选视频片段，相对于滑动窗口的方式更加高效快捷，而且有利于覆盖尽可能多的潜在候选视频片段，使得最终得到的目标视频片段更加猪准确；同时，通过共享参数的方式，从视频和文本两种模态中捕获一致性信息，减小了跨模态语义差异，有利于更精确地对候选视频片段和样本文本进行匹配。
[0203]
在一示例性实施例中，通过待训练的视频片段检索模型中的第一层次卷积模块和第一层次池化模块，对视频特征进行多次处理，对应得到不同时间长度的候选视频片段的视频特征，具体包括：分别通过第一层次卷积模块中的各个卷积层对相应的视频特征进行处理，得到对应时间长度的候选视频片段的第一视频特征，以及分别通过第一层次池化模块中的各个池化层对相应的视频特征进行处理，得到对应时间长度的候选视频片段的第二视频特征；对应时间长度的种数为一种或者至少两种；分别将各种时间长度的候选视频片段的第一视频特征和第二视频特征进行融合处理，得到不同时间长度的候选视频片段的视频特征。
[0204]
举例说明，以第一层次卷积模块中的第一个卷积层为例，假设第一层次卷积模块中的每个卷积层只有一种尺度的卷积核和第一层次卷积模块中的每个最大值池化层只有一种尺度的池化尺寸，则终端通过第一层次卷积模块中的第一个卷积层对视频特征进行处理，得到对应一种时间长度的候选视频片段的第一视频特征；通过第一层次池化模块中的第一个最大值池化层对视频特征进行处理，得到对应一种时间长度的候选视频片段的第二视频特征；将该种时间长度的候选视频片段的第一视频特征和第二视频特征进行融合处理，得到该种时间长度的候选视频片段的视频特征。
[0205]
举例说明，以第一层次卷积模块中的第一个卷积层为例，假设第一层次卷积模块中的每个卷积层包括两种尺度的卷积核和第一层次卷积模块中的每个最大值池化层包括两种尺度的池化尺寸，则终端通过第一层次卷积模块中的第一个卷积层对视频特征进行两次卷积处理，得到对应两种时间长度的候选视频片段的第一视频特征；通过第一层次池化模块中的第一个最大值池化层对视频特征进行两次池化处理，得到对应两种时间长度的候选视频片段的第二视频特征；分别将这两种时间长度的候选视频片段的第一视频特征和第二视频特征进行融合处理，得到这两种时间长度的候选视频片段的视频特征。
[0206]
需要说明的是，第一层次卷积模块中的其他卷积层和第一层次池化模块中的其他最大值池化层的处理方式，跟第一层次卷积模块中的第一个卷积层和第一层次池化模块中的第一个最大值池化层的处理方式一样，在此不再赘述。
[0207]
需要说明的是，通过待训练的视频片段检索模型中的第二层次卷积模块和第二层次池化模块，对文本特征进行多次处理，对应得到不同时间长度的候选视频片段的文本特征的具体处理方式，跟通过待训练的视频片段检索模型中的第一层次卷积模块和第一层次池化模块，对视频特征进行多次处理，对应得到不同时间长度的候选视频片段的视频特征的具体处理方式类似，在此不再赘述。
[0208]
本公开实施例提供的技术方案，在每一个卷积层内部采用多种尺度的卷积核，从而在每一层卷积层均可得到多种时间长度的候选视频片段，进而增加了候选视频片段生成的灵活性和效率。
[0209]
在一示例性实施例中，在将样本视频特征和样本文本特征输入待训练的视频片段检索模型，得到样本视频的各候选样本视频片段与样本文本之间的匹配度情况之后之后，还包括：通过待训练的视频片段检索模型，得到各候选样本视频片段的时间信息；时间信息包括对应的候选样本视频片段的开始时间和结束时间。
[0210]
举例说明，参考图5，不同的卷积层具有不同大小的感受野，因此可以得到不同时间尺度的候选视频片段；终端利用卷积层的位置和感受野大小，可以计算出每个候选视频
片段对应的时间信息具体计算公式如下：
[0211][0212]
其中，r
l
表示第l层卷积层的感受野尺寸，
l
表示第l层卷积层的累计步长，和分别是第l层第j个候选视频片段的开始信息和结束时间。
[0213]
本公开实施例提供的技术方案，在得到不同时间长度的候选视频片段的视频特征和文本特征的同时，还可以得到不同时间长度的候选视频片段的时间信息，便于后续根据时间信息，从不同时间长度的候选视频片段中筛选出目标视频片段。
[0214]
在一示例性实施例中，如图6所示，根据匹配度情况，从各候选样本视频片段中筛选出与样本文本匹配的目标候选视频片段，具体可以通过以下步骤实现：
[0215]
在步骤s610中，获取各候选样本视频片段中，任意两个候选样本视频片段的时间信息之间的时序交并比。
[0216]
其中，时序交并比是指任意两个候选视频片段的时间信息之间的交集和并集的比值。
[0217]
具体地，终端获取每个候选视频片段的视频特征和文本特征之间的余弦相似度分数，作为每个候选视频片段的初始相似度分数；获取任意两个候选视频片段的时间信息之间的交集和并集的比值，作为任意两个候选视频片段的时间信息之间的时序交并比。
[0218]
举例说明，参考图5，终端对每个候选视频片段的视频特征表示和文本特征表示计算余弦相似度分数s
i
，具体计算公式如下：
[0219][0220]
接着，终端计算任意两个候选时刻片段和之间的时序交并比δ
i,j
，具体计算公式如下：
[0221][0222]
其中，和分别是第i个候选视频片段的开始时间和结束时间，和分别是第j个候选视频片段的开始时间和结束时间。
[0223]
在步骤s620中，根据匹配度情况和所述时序交并比，得到各候选样本视频片段与所述样本文本之间的目标匹配度情况。
[0224]
具体地，针对每个候选视频片段，终端利用其余候选视频片段的时序交并比，对其余候选视频片段的初始相似度分数进行加权求和处理，并结合每个候选视频片段的初始相似度分数，得到每个候选视频片段的相似度分数。
[0225]
在步骤s630中，从各候选样本视频片段中筛选出目标匹配度情况最大的候选样本视频片段，作为与样本文本匹配的目标候选视频片段。
[0226]
本公开实施例提供的技术方案，将每个候选视频片段的初始相似度分数进行调整
后，得到每个候选视频片段的相似度分数，再从所有的候选视频片段中筛选出相似度分数最大的目标视频片段，有利于提高筛选出的目标视频片段的准确率。
[0227]
在一示例性实施例中，根据匹配度情况和所述时序交并比，得到各候选样本视频片段与样本文本之间的目标匹配度情况，具体包括：针对每个候选样本视频片段，将候选样本视频片段与除候选样本视频片段之外的其余候选样本视频片段的时间信息之间的时序交并比，进行归一化处理，得到其余候选样本视频片段的匹配度情况的权重；根据权重，对其余候选样本视频片段的匹配度情况进行加权求和处理，得到其余候选样本视频片段的匹配度情况总和；将候选样本视频片段的匹配度情况和匹配度情况总和进行相加，得到候选样本视频片段与样本文本之间的目标匹配度情况。
[0228]
举例说明，针对每一个候选视频片段，终端将其余所有候选视频片段与其的时序交并比进行归一化，并作为权重对其余候选视频片段的初始相似度分数进行加权求和；最后，利用加权求和的结果增强当前候选视频片段的初始相似度分数，得到当前候选视频片段的相似度分数；具体计算公式如下：
[0229][0230]
其中，s
i
表示第i个候选视频片段的初始相似度分数，表示第i个候选视频片段增强后的初始相似度分数，即第i个候选视频片段的相似度分数，λ表示平衡系数，n
c
表示候选视频片段的数目，即n
c
＝n
m
‑
1。
[0231]
本公开实施例提供的技术方案，根据初始相似度分数和时序交并比，得到每个候选视频片段的视频特征和文本特征之间的相似度分数，实现了对每个候选视频片段的初始相似度分数进行调整的目的，进而提高了后续目标视频片段的确定准确率。
[0232]
在一示例性实施例中，根据目标候选视频片段与样本文本之间的匹配度情况确定损失值，具体包括：将目标候选视频片段与除目标候选视频片段之外的其余候选样本视频片段的时间信息之间的时序交并比，进行归一化处理，得到其余候选样本视频片段的目标匹配度情况的权重；根据权重，对其余候选样本视频片段的目标匹配度情况进行加权求和处理，得到其余候选样本视频片段的目标匹配度情况总和；将目标候选视频片段的目标匹配度情况和目标匹配度情况总和进行相加，得到目标候选视频片段与样本文本之间的匹配情况；根据匹配情况和预设阈值确定损失值。
[0233]
举例说明，终端计算相似度分数最高的目标视频片段[t
s
,t
e
]与其余候选片段的时序交并δ
i
，具体计算公式如下：
[0234][0235]
其中，t
s
和t
e
分别是相似度分数最高的目标视频片段的开始时间和结束时间，和分别是第i个候选视频片段的开始时间和结束时间。
[0236]
接着，终端通过归一化后的时序交并比，对其余候选视频片段的相似度分数进行加权聚合；最后，将加权结果与相似度分数最大值的和，作为样本文本与样本视频的匹配
分数s，具体计算公式如下：
[0237][0238]
其中，是平衡系数。
[0239]
本公开实施例提供的技术方案，根据针对目标视频片段的其余候选视频片段的相似度分数，对目标视频片段的相似度分数进行调整，有利于综合考虑目标视频片段的相邻视频片段，便于从相邻视频片段中挖掘情境信息作为辅助，进一步提高了样本文本与样本视频的匹配分数的确定准确率。
[0240]
在一示例性实施例中，根据损失值对待训练的视频片段检索模型进行训练，得到训练完成的视频片段检索模型，具体包括：若损失值大于或者等于预设损失值，则根据损失值调整待训练的视频片段检索模型的模型参数；对模型参数调整后的视频片段检索模型进行反复训练，直到根据训练后的视频片段检索模型得到的损失值小于预设损失值，则将训练后的视频片段检索模型，作为训练完成的视频片段检索模型。
[0241]
其中，预设阈值是指匹配分数的边界阈值；预设损失值是预先设置的损失值，可以根据实际情况进行调整，具体本公开不做限定。
[0242]
具体地，终端将匹配分数和预设阈值输入到对比损失函数中，计算得到损失值；将损失值和预设损失值进行对比，若损失值大于或者等于预设损失值，则根据损失值调整待训练的视频片段检索模型的模型参数，并重复执行步骤s220至步骤s250，以对模型参数调整后的视频片段检索模型进行反复训练；当根据训练后的视频片段检索模型得到的损失值小于预设损失值，则停止训练。
[0243]
举例说明，终端从每一个批次的数据中采样正负样本对，并通过下述公式计算损失值l：
[0244][0245]
其中，v是指样本视频，q是指样本文本，s是指匹配分数，δ是边界阈值，(v,q)和(q,v)为正样本对，(v
‑
,q)和(q
‑
,v)为负样本对。
[0246]
本公开实施例提供的技术方案，通过对待训练的视频片段检索模型进行多次训练，有利于提高通过训练好的视频片段检索模型输出的不同时间长度的候选视频片段及其对应的视频特征和文本特征的准确率，进一步提高了得到的目标视频片段的准确率。
[0247]
为了更清晰阐明本公开实施例提供的视频片段检索模型的训练方法，以下以一个具体的实施例对该视频片段检索模型的训练方法进行具体说明。在一个实施例中，如图5所示，本公开还提供了另一种视频片段检索模型的训练方法，利用预训练模型提取视频和文本的特征表示，并进一步映射到公共空间中；利用多尺度孪生模块生成多尺度候选片段，并共享视觉和文本分支的参数；利用情境多示例学习模块挖掘情境信息，评估视频和查询文本的相似度；具体包括以下内容：
[0248]
参考图5，本公开提出了一个孪生匹配网络，命名为san，用于解决弱监督跨模态视频片段检索任务；模型主要包含两部分：多尺度孪生模块和情境多示例学习模块；特别地，
多尺度孪生模块通过层次卷积一次性生成多尺度的候选视频片段，并将视觉和文本特征递进地映射到一个对偶的公共空间当中；此外，多尺度孪生模块通过共享参数的方式约束模型从视觉和文本两种模态中捕获一致性信息，从而更好地对视频片段和查询文本进行匹配；而情境多示例学习模块基于多示例学习算法从视频中挖掘关键片段，并进一步从相邻视频片段中挖掘情境信息作为补充，以进行更精确的匹配。
[0249]
需要说明的是，在训练时，将成对的视频
‑
文本对送入上述模型中，依次提取特征、生成候选片段、跨模态匹配、计算损失；在送入的一个批次的数据中，所有相互匹配的视频
‑
文本对视为正样本对，所有不匹配的视频
‑
文本对视为负样本对。在测试时，将查询文本和待查询视频送入模型中，在多尺度孪生模块中得到所有候选片段与查询文本的相似度得分(即候选片段的视频特征和文本特征的余弦相似度分数)，其中相似度得分最高的候选片段即用户要检索的目标片段。
[0250]
上述视频片段检索模型的训练方法，可以达到以下技术效果：(1)为了尽可能多的覆盖潜在的候选视频片段，本方法采用层次卷积网络一次性生成多尺度的候选视频片段，相对于滑动窗口更加高效快捷；(2)为了更精确地对视频和查询文本进行匹配，本方法引入孪生结构，通过共享视觉和文本分支的网络参数来约束网络从两种模态中捕获一致性信息，减小了跨模态语义差异；(3)本方法通过从相邻视频片段中挖掘情境信息作为辅助，进一步提高了评估候选视频片段和查询文本相似度的准确率；(4)本方法大幅度提高了弱监督跨模态视频片段检索的召回率。
[0251]
应该理解的是，虽然图2
‑
图6的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图2
‑
图6中的至少一部分步骤可以包括多个步骤或者多个阶段，这些步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。
[0252]
可以理解的是，本说明书中上述方法的各个实施例之间相同/相似的部分可互相参见，每个实施例重点说明的是与其他实施例的不同之处，相关之处参见其他方法实施例的说明即可。
[0253]
图7是根据一示例性实施例示出的一种视频片段检索装置的框图。参照图7，该装置包括特征获取单元710和特征输入单元720。
[0254]
特征获取单元710，被配置为执行获取待查询视频的视频特征和检索文本的文本特征。
[0255]
特征输入单元720，被配置为执行将视频特征和文本特征输入预先训练的视频片段检索模型，得到待查询视频中与检索文本匹配的候选视频片段。
[0256]
其中，预先训练的视频片段检索模型，为根据样本视频、样本文本以及与样本文本匹配的目标候选视频片段对待训练的视频片段检索模型进行训练得到的；其中，目标候选视频片段从候选样本视频片段库中获取，候选样本视频片段库中包括按照多种时长划分标准对样本视频进行划分得到的多组候选样本视频片段，其中，每组候选样本视频片段中包括采用一种时长划分标准对样本视频进行划分得到多个候选样本视频片段；不同组候选样
本视频片段之间采用的时长划分标准不同。
[0257]
在一示例性实施例中，特征获取单元710，还被配置为执行获取待查询视频的视觉特征和检索文本的初始文本特征；对视觉特征进行映射处理，得到待查询视频的视频特征，以及对初始文本特征进行映射处理，得到处理后的初始文本特征；通过注意力机制，对处理后的初始文本特征进行再次映射处理，得到检索文本的文本特征；文本特征和视频特征对应的特征矩阵的结构相同，且在特征矩阵中的对应位置上存在语义关联。
[0258]
在一示例性实施例中，特征获取单元710，还被配置为执行通过注意力机制，获取视频特征中每个视频帧的特征与处理后的初始文本特征中各单词的特征之间的注意力权重；根据每个视频帧的特征与处理后的初始文本特征中各单词的特征之间的注意力权重，对各单词的特征进行加权求和，得到针对于每个视频帧的文本特征；将针对于每个视频帧的文本特征进行组合，得到检索文本的文本特征。
[0259]
在一示例性实施例中，视频片段检索装置还包括模型训练单元，被配置为执行获取样本视频的样本视频特征和样本文本的样本文本特征；将样本视频特征和样本文本特征输入待训练的视频片段检索模型，得到样本视频的各候选样本视频片段与样本文本之间的匹配度情况；根据匹配度情况，从各候选样本视频片段中筛选出与样本文本匹配的目标候选视频片段；根据目标候选视频片段与样本文本之间的匹配度情况确定损失值，根据损失值对待训练的视频片段检索模型进行训练，得到训练完成的视频片段检索模型。
[0260]
在一示例性实施例中，模型训练单元，还被配置为执行通过待训练的视频片段检索模型，得到各候选样本视频片段的时间信息；时间信息包括对应的候选样本视频片段的开始时间和结束时间；获取各候选样本视频片段中，任意两个候选样本视频片段的时间信息之间的时序交并比；根据匹配度情况和时序交并比，得到各候选样本视频片段与样本文本之间的目标匹配度情况；从各候选样本视频片段中筛选出目标匹配度情况最大的候选样本视频片段，作为与样本文本匹配的目标候选视频片段。
[0261]
在一示例性实施例中，模型训练单元，还被配置为执行针对每个候选样本视频片段，将候选样本视频片段与除候选样本视频片段之外的其余候选样本视频片段的时间信息之间的时序交并比，进行归一化处理，得到其余候选样本视频片段的匹配度情况的权重；根据权重，对其余候选样本视频片段的匹配度情况进行加权求和处理，得到其余候选样本视频片段的匹配度情况总和；将候选样本视频片段的匹配度情况和匹配度情况总和进行相加，得到候选样本视频片段与样本文本之间的目标匹配度情况。
[0262]
在一示例性实施例中，模型训练单元，还被配置为执行将目标候选视频片段与除目标候选视频片段之外的其余候选样本视频片段的时间信息之间的时序交并比，进行归一化处理，得到其余候选样本视频片段的目标匹配度情况的权重；根据权重，对其余候选样本视频片段的目标匹配度情况进行加权求和处理，得到其余候选样本视频片段的目标匹配度情况总和；将目标候选视频片段的目标匹配度情况和目标匹配度情况总和进行相加，得到目标候选视频片段与样本文本之间的匹配情况；根据匹配情况和预设阈值确定损失值。
[0263]
在一示例性实施例中，模型训练单元，还被配置为执行若损失值大于或者等于预设损失值，则根据损失值调整待训练的视频片段检索模型的模型参数；对模型参数调整后的视频片段检索模型进行反复训练，直到根据训练后的视频片段检索模型得到的损失值小于预设损失值，则将训练后的视频片段检索模型，作为训练完成的视频片段检索模型。
[0264]
图8是根据一示例性实施例示出的一种视频片段检索模型的训练装置的框图。参照图8，该装置包括获取单元810，输入单元820，筛选单元830和训练单元840。
[0265]
获取单元810，被配置为执行获取样本视频的样本视频特征和样本文本的样本文本特征。
[0266]
输入单元820，被配置为执行将样本视频特征和样本文本特征输入待训练的视频片段检索模型，得到样本视频的各候选样本视频片段与样本文本之间的匹配度情况；其中，各候选样本视频片段中包括按照多种时长划分标准对样本视频进行划分得到的多组候选样本视频片段，其中，每组候选样本视频片段中包括采用一种时长划分标准对样本视频进行划分得到多个候选样本视频片段；不同组候选样本视频片段之间采用的时长划分标准不同。
[0267]
筛选单元830，被配置为执行根据匹配度情况，从各候选样本视频片段中筛选出与样本文本匹配的目标候选视频片段。
[0268]
训练单元840，被配置为执行根据目标候选视频片段与样本文本之间的匹配度情况确定损失值，根据损失值对待训练的视频片段检索模型进行训练，得到训练完成的视频片段检索模型。
[0269]
在一示例性实施例中，获取单元810，还被配置为执行获取样本视频的视觉特征和样本文本的初始文本特征；对视觉特征进行映射处理，得到样本视频的样本视频特征，以及对初始文本特征进行映射处理，得到处理后的初始文本特征；通过注意力机制，对处理后的初始文本特征进行再次映射处理，得到样本文本的样本文本特征；样本文本特征和样本视频特征对应的特征矩阵的结构相同，且在特征矩阵中的对应位置上存在语义关联。
[0270]
在一示例性实施例中，输入单元820，还被配置为执行将样本视频特征和样本文本特征输入待训练的视频片段检索模型，得到各候选样本视频片段的视频特征和待匹配文本特征；分别获取各候选样本视频片段的视频特征和待匹配文本特征之间的相似度情况，对应作为各候选样本视频片段与样本文本之间的匹配度情况。
[0271]
在一示例性实施例中，输入单元820，还被配置为执行通过待训练的视频片段检索模型中的第一层次卷积模块和第一层次池化模块，对样本视频特征进行多次处理，对应得到各候选样本视频片段的视频特征；通过待训练的视频片段检索模型中的第二层次卷积模块和第二层次池化模块，对样本文本特征进行多次处理，对应得到各候选样本视频片段的待匹配文本特征；其中，第一层次卷积模块和第二层次卷积模块共享卷积参数，第一层次池化模块和第二层次池化模块共享池化参数；第一层次卷积模块中的各个卷积层的卷积参数和第一层次池化模块中的各个池化层的池化参数对应相同，第二层次卷积模块中的各个卷积层的卷积参数和第二层次池化模块中的各个池化层的池化参数对应相同。
[0272]
在一示例性实施例中，筛选单元830，还被配置为执行通过待训练的视频片段检索模型，得到各候选样本视频片段的时间信息；时间信息包括对应的候选样本视频片段的开始时间和结束时间；获取各候选样本视频片段中，任意两个候选样本视频片段的时间信息之间的时序交并比；根据匹配度情况和时序交并比，得到各候选样本视频片段与样本文本之间的目标匹配度情况；从各候选样本视频片段中筛选出目标匹配度情况最大的候选样本视频片段，作为与样本文本匹配的目标候选视频片段。
[0273]
在一示例性实施例中，筛选单元830，还被配置为执行针对每个候选样本视频片
段，将候选样本视频片段与除候选样本视频片段之外的其余候选样本视频片段的时间信息之间的时序交并比，进行归一化处理，得到其余候选样本视频片段的匹配度情况的权重；根据权重，对其余候选样本视频片段的匹配度情况进行加权求和处理，得到其余候选样本视频片段的匹配度情况总和；将候选样本视频片段的匹配度情况和匹配度情况总和进行相加，得到候选样本视频片段与样本文本之间的目标匹配度情况。
[0274]
在一示例性实施例中，训练单元840，还被配置为执行将目标候选视频片段与除目标候选视频片段之外的其余候选样本视频片段的时间信息之间的时序交并比，进行归一化处理，得到其余候选样本视频片段的目标匹配度情况的权重；根据权重，对其余候选样本视频片段的目标匹配度情况进行加权求和处理，得到其余候选样本视频片段的目标匹配度情况总和；将目标候选视频片段的目标匹配度情况和目标匹配度情况总和进行相加，得到目标候选视频片段与样本文本之间的匹配情况；根据匹配情况和预设阈值确定损失值。
[0275]
在一示例性实施例中，训练单元840，还被配置为执行若损失值大于或者等于预设损失值，则根据损失值调整待训练的视频片段检索模型的模型参数；对模型参数调整后的视频片段检索模型进行反复训练，直到根据训练后的视频片段检索模型得到的损失值小于预设损失值，则将训练后的视频片段检索模型，作为训练完成的视频片段检索模型。
[0276]
关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。
[0277]
图9是根据一示例性实施例示出的一种用于执行视频片段检索方法或者视频片段检索模型的训练方法的电子设备900的框图。例如，电子设备900可以是移动电话、计算机、数字广播终端、消息收发设备、游戏控制台、平板设备、医疗设备、健身设备、个人数字助理等。
[0278]
参照图9，电子设备900可以包括以下一个或多个组件：处理组件902、存储器904、电源组件906、多媒体组件908、音频组件910、输入/输出(i/o)的接口912、传感器组件914以及通信组件916。
[0279]
处理组件902通常控制电子设备900的整体操作，诸如与显示、电话呼叫、数据通信、相机操作和记录操作相关联的操作。处理组件902可以包括一个或多个处理器920来执行指令，以完成上述的方法的全部或部分步骤。此外，处理组件902可以包括一个或多个模块，便于处理组件902和其他组件之间的交互。例如，处理组件902可以包括多媒体模块，以方便多媒体组件908和处理组件902之间的交互。
[0280]
存储器904被配置为存储各种类型的数据以支持在电子设备z00的操作。这些数据的示例包括用于在电子设备900上操作的任何应用程序或方法的指令、联系人数据、电话簿数据、消息、图片、视频等。存储器904可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(sram)、电可擦除可编程只读存储器(eeprom)、可擦除可编程只读存储器(eprom)、可编程只读存储器(prom)、只读存储器(rom)、磁存储器、快闪存储器、磁盘、光盘或石墨烯存储器。
[0281]
电源组件906为电子设备900的各种组件提供电力。电源组件906可以包括电源管理系统，一个或多个电源，及其他与为电子设备900生成、管理和分配电力相关联的组件。
[0282]
多媒体组件908包括在所述电子设备900和用户之间的提供输出接口的屏幕。在一些实施例中，屏幕可以包括液晶显示器(lcd)和触摸面板(tp)。如果屏幕包括触摸面板，屏
幕可以被实现为触摸屏，以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界，而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中，多媒体组件908包括前置摄像头和/或后置摄像头。当电子设备900处于操作模式，如拍摄模式或视频模式时，前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是固定的光学透镜系统或具有焦距和光学变焦能力。
[0283]
音频组件910被配置为输出和/或输入音频信号。例如，音频组件910包括麦克风(mic)，当电子设备900处于操作模式，如呼叫模式、记录模式和语音识别模式时，麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器z04或经由通信组件916发送。在一些实施例中，音频组件910还包括扬声器，用于输出音频信号。
[0284]
i/o接口912为处理组件902和外围接口模块之间提供接口，上述外围接口模块可以是键盘，点击轮，按钮等。这些按钮可包括但不限于：主页按钮、音量按钮、启动按钮和锁定按钮。
[0285]
传感器组件914包括一个或多个传感器，用于为电子设备900提供各个方面的状态评估。例如，传感器组件914可以检测到电子设备900的打开/关闭状态，组件的相对定位，例如所述组件为电子设备900的显示器和小键盘，传感器组件914还可以检测电子设备900或电子设备900组件的位置改变，用户与电子设备900接触的存在或不存在，设备900方位或加速/减速和电子设备900的温度变化。传感器组件914可以包括接近传感器，被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件914还可以包括光传感器，如cmos或ccd图像传感器，用于在成像应用中使用。在一些实施例中，该传感器组件914还可以包括加速度传感器、陀螺仪传感器、磁传感器、压力传感器或温度传感器。
[0286]
通信组件916被配置为便于电子设备900和其他设备之间有线或无线方式的通信。电子设备900可以接入基于通信标准的无线网络，如wifi，运营商网络(如2g、3g、4g或5g)，或它们的组合。在一个示例性实施例中，通信组件916经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中，所述通信组件916还包括近场通信(nfc)模块，以促进短程通信。例如，在nfc模块可基于射频识别(rfid)技术，红外数据协会(irda)技术，超宽带(uwb)技术，蓝牙(bt)技术和其他技术来实现。
[0287]
在示例性实施例中，电子设备900可以被一个或多个应用专用集成电路(asic)、数字信号处理器(dsp)、数字信号处理设备(dspd)、可编程逻辑器件(pld)、现场可编程门阵列(fpga)、控制器、微控制器、微处理器或其他电子元件实现，用于执行上述方法。
[0288]
在示例性实施例中，还提供了一种包括指令的计算机可读存储介质，例如包括指令的存储器904，上述指令可由电子设备900的处理器920执行以完成上述方法。例如，计算机可读存储介质可以是rom、随机存取存储器(ram)、cd
‑
rom、磁带、软盘和光数据存储设备等。
[0289]
在示例性实施例中，还提供一种计算机程序产品，所述计算机程序产品中包括指令，上述指令可由电子设备900的处理器920执行以完成上述方法。
[0290]
需要说明的，上述的装置、电子设备、计算机可读存储介质、计算机程序产品等根据方法实施例的描述还可以包括其他的实施方式，具体的实现方式可以参照相关方法实施例的描述，在此不作一一赘述。
[0291]
本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其它实施方案。本公开旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由权利要求指出。
[0292]
应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

视频片段检索方法、视频片段检索模型的训练方法及装置与流程

相关文献

最热文献