确定下一视频的方法、装置、电子设备及存储介质与流程

2022-02-22 18:05:01 来源：中国专利 TAG：

1.本公开涉及视频处理技术，尤其涉及一种确定下一视频的方法、装置、电子设备及存储介质。

背景技术：

2.短视频平台上，一个长视频通常会被切割成多个不同的短视频。用户为了完整观看当前短视频所属的整个长视频，往往需要查看多个不属于该长视频的视频，才有可能确定当前视频的下一连续视频，而且，同属一个长视频的短视频之间往往有重叠，用户的连续观看体验较差，给用户带来了不好的观看体验。
3.因此，为了提高用户观看体验，急需一种确定用户当前观看的视频的下一连续视频的方法。

技术实现要素：

4.为克服相关技术中存在的问题，本公开提供一种确定下一视频的方法、装置、电子设备及存储介质。本公开的技术方案如下：
5.根据本公开实施例的第一方面，提供一种确定下一视频的方法，包括：
6.获取当前视频的尾部视频段的多模态特征，所述多模态特征是从多个视频特征维度进行提取而得到的，所述多个视频特征维度包括以下至少两者：视觉特征维度、文本特征维度、音频特征维度；
7.根据所述尾部视频段的多模态特征与多个待选视频的多模态特征的对比结果，确定所述当前视频的下一连续视频。
8.可选地，所述方法还包括：
9.获取多个待选视频各自的描述信息；
10.根据所述多个待选视频各自的描述信息，对所述多个待选视频进行聚类，得到多个视频簇；
11.获取所述多个视频簇中每个视频簇包括的各个待选视频的多模态特征，将所述多个视频簇各自包括的各个待选视频的多模态特征，存储在所述多个视频簇各自的视频特征库中；
12.根据所述尾部视频段的多模态特征与多个待选视频的多模态特征的对比结果，确定所述当前视频的下一连续视频，包括：
13.获取所述当前视频所属的视频簇；
14.根据所述尾部视频段的多模态特征，与所述当前视频所属的视频簇的视频特征库中多个待选视频各自的对比结果，确定所述当前视频的下一连续视频。
15.可选地，获取所述多个视频簇中每个视频簇包括的各个待选视频的多模态特征，将所述多个视频簇各自包括的各个待选视频的多模态特征，存储在所述多个视频簇各自的视频特征库中，包括：
16.将所述多个视频簇中每个视频簇包括的各个待选视频分别切割成预设时长的多个视频段；
17.从所述每个视频段中抽取多个视频帧；
18.获取所述每个视频帧的多模态特征；
19.将属于同一个视频段的多个视频帧的多模态特征进行拼接，得到该视频段的多模态特征；
20.将所述多个视频簇中每个视频簇包括的各个待选视频的多个视频段的多模态特征，存储在所述多个视频簇各自的视频特征库中。
21.可选地，在将所述多个视频簇中每个视频簇包括的各个待选视频分别切割成预设时长的多个视频段之后，所述方法还包括：
22.获取所述多个待选视频中每个待选视频的视频标识；
23.存储所述每个视频段的多模态特征与其所属的视频的视频标识之间的对应关系；
24.根据所述尾部视频段的多模态特征与多个待选视频的多模态特征的对比结果，确定所述当前视频的下一连续视频，包括：
25.根据所述尾部视频段的多模态特征与视频特征库中多个视频段的多模态特征的对比结果，确定目标视频段的多模态特征；
26.根据所述对应关系，查询所述目标视频段的多模态特征对应的目标视频标识；
27.将所述目标视频标识对应的目标视频，确定为所述当前视频的下一连续视频。
28.可选地，所述方法还包括：
29.确定所述多个视频簇中每个视频簇包括的各个视频的下一连续视频，并记录多个视频对的时序关系，每个视频对包括一个视频与其下一连续视频；
30.根据所述多个视频对的时序关系，确定头部视频，所述头部视频不为任何视频的下一连续视频；
31.按照所述多个视频对的时序关系，将所述头部视频的视频标识和所述头部视频的多个后续视频的标识依次串联，生成所述头部视频对应的视频链。
32.可选地，在所述头部视频对应的视频链为多条的情况下，所述方法还包括：
33.确定所述头部视频对应的多条视频链各自的质量，所述质量包括以下至少一者：视频清晰度、多模态特征相似度、视频描述信息的相似度、视频链时长、人工审核分数；
34.根据所述头部视频对应的多条视频链各自的质量，对所述头部视频对应的多条视频链进行筛选，得到筛选后的视频链。
35.可选地，所述方法还包括：
36.检测用户终端当前播放的视频；
37.获取包含所述当前播放的视频的视频链，进而获取所述当前播放的视频的下一连续视频；
38.在检测到所述当前播放的视频被播放完毕时，将所述当前播放的视频的下一连续视频推送给所述用户终端。
39.可选地，所述方法还包括：
40.将所述目标视频段的开始播放时间确定为所述当前播放的视频的下一连续视频的开始播放时间；
41.在检测到所述当前播放的视频被播放完毕时，将所述当前播放的视频的下一连续视频推送给所述用户终端，包括：
42.在检测到所述当前播放的视频被播放完毕时，生成所述当前播放的视频的下一连续视频的播放指示，以指示所述用户终端从所述开始播放时间播放所述当前播放视频的下一连续视频；
43.将所述当前播放的视频的下一连续视频和所述播放指示推送给所述用户终端。
44.可选地，根据所述尾部视频段的多模态特征与多个待选视频的多模态特征的对比结果，确定所述当前视频的下一连续视频，包括：
45.将所述尾部视频段的多模态特征分别与多个待选视频各自的多模态特征进行相似度比较；
46.将与所述尾部视频段的多模态特征之间的相似度超过预设阈值的目标视频，确定为所述当前视频的下一连续视频。
47.根据本公开实施例的第二方面，提供一种确定下一视频的装置，包括：
48.特征获取模块，被配置为获取当前视频的尾部视频段的多模态特征，所述多模态特征是从多个视频特征维度进行提取而得到的，所述多个视频特征维度包括以下至少两者：视觉特征维度、文本特征维度、音频特征维度；
49.对比确定模块，被配置为根据所述尾部视频段的多模态特征与多个待选视频的多模态特征的对比结果，确定所述当前视频的下一连续视频。
50.可选地，所述装置还包括：
51.描述信息获取模块，被配置获取多个待选视频各自的描述信息；
52.聚类模块，被配置为根据所述多个待选视频各自的描述信息，对所述多个待选视频进行聚类，得到多个视频簇；
53.存储模块，被配置为获取所述多个视频簇中每个视频簇包括的各个待选视频的多模态特征，将所述多个视频簇各自包括的各个待选视频的多模态特征，存储在所述多个视频簇各自的视频特征库中；
54.所述对比确定模块，包括：
55.视频簇单元，被配置为获取所述当前视频所属的视频簇；
56.对比确定单元，被配置为根据所述尾部视频段的多模态特征，与所述当前视频所属的视频簇的视频特征库中多个待选视频各自的对比结果，确定所述当前视频的下一连续视频。
57.可选地，所述存储模块，包括：
58.切割单元，被配置为将所述多个视频簇中每个视频簇包括的各个待选视频分别切割成预设时长的多个视频段；
59.抽取单元，被配置为从所述每个视频段中抽取多个视频帧；
60.视频帧单元，被配置为获取所述每个视频帧的多模态特征；
61.拼接单元，被配置为将属于同一个视频段的多个视频帧的多模态特征进行拼接，得到该视频段的多模态特征；
62.视频段特征存储单元，被配置为将所述多个视频簇中每个视频簇包括的各个待选视频的多个视频段的多模态特征，存储在所述多个视频簇各自的视频特征库中。
63.可选地，所述装置还包括：
64.视频标识获取模块，被配置为获取所述多个待选视频中每个待选视频的视频标识；
65.存储对应关系模块，被配置为存储所述每个视频段的多模态特征与其所属的视频的视频标识之间的对应关系；
66.所述对比确定模块，包括：
67.目标视频段确定单元，被配置为根据所述尾部视频段的多模态特征与视频特征库中多个视频段的多模态特征的对比结果，确定目标视频段的多模态特征；
68.查询单元，被配置为根据所述对应关系，查询所述目标视频段的多模态特征对应的目标视频标识；
69.确定单元，被配置为将所述目标视频标识对应的目标视频，确定为所述当前视频的下一连续视频。
70.可选地，所述装置还包括：
71.时序模块，被配置为确定所述多个视频簇中每个视频簇包括的各个视频的下一连续视频，并记录多个视频对的时序关系，每个视频对包括一个视频与其下一连续视频；
72.头部视频确定模块，被配置为根据所述多个视频对的时序关系，确定头部视频，所述头部视频不为任何视频的下一连续视频；
73.串联模块，被配置为按照所述多个视频对的时序关系，将所述头部视频的视频标识和所述头部视频的多个后续视频的标识依次串联，生成所述头部视频对应的视频链。
74.可选地，所述装置还包括：
75.质量确定模块，被配置为确定所述头部视频对应的多条视频链各自的质量，所述质量包括以下至少一者：视频清晰度、多模态特征相似度、视频描述信息的相似度、视频链时长、人工审核分数；
76.筛选模块，被配置为根据所述头部视频对应的多条视频链各自的质量，对所述头部视频对应的多条视频链进行筛选，得到筛选后的视频链。
77.可选地，所述装置还包括：
78.检测模块，被配置为检测用户终端当前播放的视频；
79.视频链获取模块，被配置为获取包含所述当前播放的视频的视频链，进而获取所述当前播放的视频的下一连续视频；
80.推送模块，被配置为在检测到所述当前播放的视频被播放完毕时，将所述当前播放的视频的下一连续视频推送给所述用户终端。
81.可选地，所述装置还包括：
82.时间确定模块，被配置为将所述目标视频段的开始播放时间确定为所述当前播放的视频的下一连续视频的开始播放时间；
83.所述推送模块包括：
84.指示生成单元，被配置为在检测到所述当前播放的视频被播放完毕时，生成所述当前播放的视频的下一连续视频的播放指示，以指示所述用户终端从所述开始播放时间播放所述当前播放视频的下一连续视频；
85.推送单元，被配置为将所述当前播放的视频的下一连续视频和所述播放指示推送
给所述用户终端。
86.可选地，所述对比确定模块，包括：
87.相似度比较单元，被配置为将所述尾部视频段的多模态特征分别与多个待选视频各自的多模态特征进行相似度比较；
88.视频确定单元，被配置为将与所述尾部视频段的多模态特征之间的相似度超过预设阈值的目标视频，确定为所述当前视频的下一连续视频。
89.根据本公开实施例的第三方面，提供一种电子设备，包括：
90.处理器；
91.用于存储所述处理器可执行指令的存储器；
92.其中，所述处理器被配置为执行所述指令，以实现如第一方面所述的确定下一视频的方法。
93.根据本公开实施例的第四方面，提供一种计算机可读存储介质，当所述计算机可读存储介质中的指令由电子设备的处理器执行时，使得电子设备能够执行如第一方面所述的确定下一视频的方法。
94.根据本公开实施例的第五方面，提供一种计算机程序产品，包括计算机程序或计算机指令，所述计算机程序或计算机指令被处理器执行时实现如第一方面所述的确定下一视频的方法。
95.本公开的实施例提供的技术方案可以包括以下有益效果：根据当前视频的尾部视频段的多模态特征与多个待选视频的多模态特征的对比结果，可以确定当前视频的下一连续视频。其中，根据多模态特征进行对比，可以从多个视频特征维度对视频进行刻画和比较，具有较高的准确性；多个待选视频的多模态特征是和当前视频的尾部视频段的多模态特征进行对比，因此保证了确定的下一连续视频是紧邻当前视频的尾部视频段的视频，解决了需要查看多个视频才能确定当前视频的下一连续视频的问题。
96.应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。
附图说明
97.此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本发明的实施例，并与说明书一起用于解释本发明的原理。
98.图1是根据一示例性实施例示出的一种确定下一视频的方法的流程图；
99.图2是本公开中的一种视频链的一个示例图；
100.图3是根据一示例性实施例示出的一种确定下一视频的装置的框图；
101.图4是根据一示例性实施例示出的一种确定下一视频的装置的框图。
具体实施方式
102.为了使本领域普通人员更好地理解本公开的技术方案，下面将结合附图，对本公开实施例中的技术方案进行清楚、完整地描述。
103.需要说明的是，本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用
的数据在适当情况下可以互换，以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。
104.可以理解的是，本公开不仅适用于短视频播放平台，还适用于其他可以播放视频的平台。
105.图1是根据一示例性实施例示出的一种确定下一视频的方法的流程图，如图1所示，该确定下一连续视频的方法可以用于计算机、手机、平板电脑等电子设备中，包括以下步骤。
106.在步骤s11中，获取当前视频的尾部视频段的多模态特征，所述多模态特征是从多个视频特征维度进行提取而得到的，所述多个视频特征维度包括以下至少两者：视觉特征维度、文本特征维度、音频特征维度。
107.当前视频的尾部视频段是指当前视频的预设倒数时长的视频。例如，当前视频为30秒的视频，预设倒数时长为5秒，则该当前视频的尾部视频段是指该视频第25秒至第30秒的视频。
108.考虑到仅仅利用视频的像素统计特征或者深度学习中间特征等视觉信号来确定当前视频的下一连续视频，在视频质量不同或者有噪音的情况下，准确度不高，本发明人想到可以利用视频的多模态特征来确定下一连续视频。其中，多模态特征是从多个视频特征维度进行提取而得到的，将多个维度的视频特征进行拼接可以得到多模态特征。多个视频特征维度包括以下至少两者：视觉特征维度、文本特征维度、音频特征维度。
109.在视觉特征维度可以利用视频特征抽取器，获取深度学习模型的中间层输出的特征作为视觉特征维度的视觉特征。在文本特征维度可以获取视频中的音频文字和视频文字，首先利用asr(automatic speech recognition，自动语音识别)识别模块识别出视频中的音频文字，以及利用ocr(optical character recognition，光学字符识别)模块识别出视频中的视频文字，将文字与时间刻度进行绑定，然后利用文本特征抽取器抽取音频文字和视频文字的向量表征。在音频特征维度，可以利用音频特征抽取器抽取音频的向量表征。
110.通过将当前视频的尾部视频段划分为以1秒为宽的视频段、100毫秒为步长从后向前进行滑动，从每个视频段中抽取多个视频帧，对每个视频帧从多个视频特征维度提取相应的特征，然后将提取到的特征进行拼接，作为这1秒钟的视频段的多模态特征。可以理解的是，其中的1秒和100毫秒只是一种可选的实施方式，实际应用中可以分别选取其它时长。
111.在步骤s12中，根据所述尾部视频段的多模态特征与多个待选视频的多模态特征的对比结果，确定所述当前视频的下一连续视频。
112.为了确定当前视频的下一连续视频，因此将当前视频的尾部视频段的多模态特征与多个待选视频各自的多模态特征进行对比。如此，可以根据多个待选视频中任意视频的多模态特征和当前视频的尾部视频段的多模态特征的对比结果，确定当前视频的下一连续视频。
113.在上述技术方案的基础上，根据所述尾部视频段的多模态特征与多个待选视频的多模态特征的对比结果，确定所述当前视频的下一连续视频，包括：将所述尾部视频段的多模态特征分别与多个待选视频各自的多模态特征进行相似度比较；将与所述尾部视频段的
多模态特征之间的相似度超过预设阈值的目标视频，确定为所述当前视频的下一连续视频。
114.对比结果可以是利用当前视频的尾部视频段中每个1秒钟的多模态特征与多个视频各自的多模态特征进行相似度比较确定的，也可以将尾部视频段的每个1秒钟的多模态特征进行拼接得到尾部视频段的多模态特征，然后直接利用尾部视频段的多模态特征进行相似度比较确定的。
115.利用ann(approximate nearest neighbor，近似近邻检索)检索能力，同时检索到其多模态特征和当前视频的尾部视频段的多模态特征相似的多个视频。
116.多模态特征是用向量表征的，通过计算目标视频的多模态特征和当前视频的尾部视频段的多模态特征之间的余弦距离可以得到二者的相似度。
117.当目标视频的多模态特征和当前视频的尾部视频段的多模态特征之间的相似度超过预设阈值时，将目标视频确定为当前视频的下一连续视频，其中，下一连续视频为和当前视频相连的后续视频。例如，一个长视频a被分割为三个短视频a1、a2和a3，其中a1 a2 a3＝a，则a2为a1的下一连续视频，a3为a2的下一连续视频，a2和a3都为a1的后续视频；可以理解的是，有时候切割的短视频之间并不能准确对齐，可能存在两个相连视频之间有间隙或有重复的情况，其中，间隙指两个视频之间有空白，例如a1和a2有间隙，则a1 a2＜a-a3。
118.本示例性实施例提供的确定下一视频的方法，通过将当前视频的尾部视频段的多模态特征分别与多个视频各自的多模态特征进行相似度比较，将与尾部视频段的多模态特征之间的相似度超过预设阈值的目标视频，确定为当前视频的下一连续视频；其中，比较的是多模态特征的相似度，可以从多个视频特征维度对视频进行刻画和比较，具有较高的准确性；目标视频的多模态特征和当前视频的尾部视频段的多模态特征相似度超过预设阈值，则目标视频是和当前视频的尾部视频段在多个视频特征维度都相似的视频，可以认为目标视频是紧邻当前视频的尾部视频段的视频，因此可以将目标视频确定为当前视频的下一连续视频，如此，解决了需要查看多个视频才能确定当前视频的下一连续视频的问题。
119.在上述技术方案的基础上，确定下一视频的方法还包括：获取多个待选视频各自的描述信息；根据所述多个待选视频各自的描述信息，对所述多个待选视频进行聚类，得到多个视频簇；获取所述多个视频簇中每个视频簇包括的各个待选视频的多模态特征，将所述多个视频簇各自包括的各个待选视频的多模态特征，存储在所述多个视频簇各自的视频特征库中；根据所述尾部视频段的多模态特征与多个待选视频的多模态特征的对比结果，确定所述当前视频的下一连续视频，包括：获取所述当前视频所属的视频簇；根据所述尾部视频段的多模态特征，与所述当前视频所属的视频簇的视频特征库中多个待选视频各自的对比结果，确定所述当前视频的下一连续视频。
120.视频播放平台或服务器等会存储非常多的视频，直接将尾部视频段的多模态特征和多个视频各自的多模态特征进行相似度比较，计算量会非常大、耗费较多资源。考虑到当前视频和其下一连续视频的描述信息通常具有较大的关联性，因此可以利用视频的描述信息对多个待选视频进行聚类，得到多个视频簇，其中视频的描述信息包括视频标题、视频标签和视频文案等。可选地，还可以利用视频的视觉内容等信息对视频进行聚类，或者同时利用多种信息对视频进行聚类。如此，同属于同一视频簇中的各个待选视频之间，比不属于同一视频簇中的各个待选视频，更有可能分别为当前视频和下一连续视频。
121.比较的是多模态特征之间的相似度，因此可以为多个视频簇中每个视频簇构建一个对应的视频特征库，将每个视频簇中各个待选视频的多模态特征存储在对应的视频特征库中。
122.如此，将尾部视频段的多模态特征分别与多个待选视频各自的多模态特征进行相似度比较时，可以获取当前视频所属的视频簇，然后将尾部视频段的多模态特征，与该当前视频所属的视频簇的视频待选特征库中多个视频各自的多模态特征进行相似度比较。其中，若当前视频原本就是视频簇中的视频，则直接获取当前视频所属的视频簇；若当前视频是新获取到的、尚未被聚类到任一视频簇中的视频，则先根据当前视频的描述信息，将当前视频聚类到视频簇中。
123.本示例性实施例提供的确定下一视频的方法，可以先利用待选视频的描述信息对视频进行聚类得到多个视频簇，然后为每个视频簇构建视频特征库，将该视频簇中的各个待选视频的多模态特征存储在对应的视频特征库中。如此，在将尾部视频段的多模态特征分别与多个待选视频各自的多模态特征进行相似度比较时，只需将当前视频对应的视频特征库中的多个待选视频各自的多模态特征与尾部视频段的多模态特征进行相似度比较，从而节约了计算资源、提升了工作效率。
124.在上述技术方案的基础上，获取所述多个视频簇中每个视频簇包括的各个待选视频的多模态特征，将所述多个视频簇各自包括的各个待选视频的多模态特征，存储在所述多个视频簇各自的视频特征库中，包括：将所述多个视频簇中每个视频簇包括的各个待选视频分别切割成预设时长的多个视频段；从所述每个视频段中抽取多个视频帧；获取所述每个视频帧的多模态特征；将属于同一个视频段的多个视频帧的多模态特征进行拼接，得到该视频段的多模态特征；将所述多个视频簇中每个视频簇包括的各个待选视频的多个视频段的多模态特征，存储在所述多个视频簇各自的视频特征库中。
125.为了提高准确性，可以用多个视频段多模态特征表征视频的多模态特征。将多个视频簇中每个视频簇包括的各个待选视频分别切割成预设时长的多个视频段，例如可以将各个待选视频切割为多个1秒的视频段。
126.从每个视频段中抽取多个视频帧，并获取每个视频帧的多模态特征，其中获取每个视频帧的多模态特征的方法可以参照前述方法，在此不再赘述。将同属于同一个视频段的多个视频帧的多模态特征进行拼接，得到该视频段的多模态特征。
127.将多个视频簇中每个视频簇包括的各个待选视频的多个视频段的多模态特征，存储在所述多个视频簇各自的视频特征库中。
128.如此，相较于将多个待选视频各自的多模态特征和当前视频的尾部视频段的多模态特征进行相似度比较，利用多个待选视频的视频段的多模态特征和前视频的尾部视频段的多模态特征进行相似度比较，可以确定到和当前视频的尾部视频对齐效果更好的视频。
129.可选地，为了更加提升和当前视频的对齐效果，可以将当前视频的尾部视频段中每个1秒钟的多模态特征与多个待选视频的视频段的多模态特征进行相似度比较，以确定目标视频。
130.在上述技术方案的基础上，在将所述多个视频簇中每个视频簇包括的各个待选视频分别切割成预设时长的多个视频段之后，所述方法还包括：获取所述多个待选视频中每个待选视频的视频标识；存储所述每个视频段的多模态特征与其所属的视频的视频标识之
间的对应关系；根据所述尾部视频段的多模态特征与多个待选视频的多模态特征的对比结果，确定所述当前视频的下一连续视频，包括：根据所述尾部视频段的多模态特征与视频特征库中多个视频段的多模态特征的对比结果，确定目标视频段的多模态特征；根据所述对应关系，查询所述目标视频段的多模态特征对应的目标视频标识；将所述目标视频标识对应的目标视频，确定为所述当前视频的下一连续视频。
131.在将每个视频簇包括的各个视频分别切割成预设时长的多个视频段之后，可以获取多个视频中每个视频的视频标识，并存储每个视频段的多模态特征与其所属的视频的视频标识之间的对应关系。
132.根据所述尾部视频段的多模态特征与多个待选视频的多模态特征的对比结果，确定所述当前视频的下一连续视频，可以包括：根据所述尾部视频段的多模态特征与视频特征库中多个视频段的多模态特征的对比结果，确定目标视频段的多模态特征，然后对应关系中查询目标视频段的多模态特征对应的目标视频标识；将目标视频标识对应的目标视频，确定为当前视频的下一连续视频。
133.本示例性实施例提供的确定下一视频的方法，可以存储视频特征库中的多模态特征和对应的视频标识之间的对应关系，因为计算的是多模态特征之间的相似度，因此首先确定的是相似度超过预设阈值的多模态特征，然后再确定该多模态特征对应的视频，因此可以在确定目标视频段的多模态特征时，直接根据对应关系快速确定目标视频的视频标识。如此，可以提升工作效率。
134.在上述技术方案的基础上，确定下一视频的方法还包括：确定所述多个视频簇中每个视频簇包括的各个视频的下一连续视频，并记录多个视频对的时序关系，每个视频对包括一个视频与其下一连续视频；根据所述多个视频对的时序关系，确定头部视频，所述头部视频不为任何视频的下一连续视频；按照所述多个视频对的时序关系，将所述头部视频的视频标识和所述头部视频的多个后续视频的标识依次串联，生成所述头部视频对应的视频链。可以理解的是，属于同一视频链中的各个视频，并不一定是由同一个视频切割而成的，其可能本身就属于不同视频，但相连的两个视频之间具有连贯性。例如，电视剧的第一集和第二集可以本身就属于两个独立的视频，但其二者具有连贯性，因此可以认为电视剧第二集为该电视剧第一集的下一连续视频。
135.以多个视频簇中每个视频簇包括的各个视频为当前视频，确定该当前视频的下一连续视频，并记录多个视频对的时序关系，视频对包括一个视频与其下一连续视频。例如，在确定当前视频b的多个下一视分别为c1和c2时，则可以记录时序关系为b
→
c1，以及时序关系b
→
c2。
136.根据每个视频对的时序关系，可以确定头部视频，头部视频不为任何视频的下一连续视频。在确定头部视频之后，可以查询每个视频对的时序关系，将头部视频的视频标识和该头部视频的多个后续视频的标识依次串联，生成该头部视频对应的视频链。头部视频的后续视频是指和该头部视频具有直接或间接的时序关系的视频，且后续视频属于头部视频对应的视频链中的视频。
137.例如，具有时序关系a
→
b、b
→
c1、b
→
c2、c1
→
d1、c1
→
d2、c2
→
d1，根据上述时序关系可以确定头部视频为a，该头部视频a对应的视频链如图2所示，其中包含3条视频链：a
→b→
c1
→
d1，a
→b→
c1
→
d2和a
→b→
c2
→
d1。
138.可选地，可以将同一头部视频对应的多条视频链中的每一个视频，确定为同一个视频合集中的视频。
139.在上述技术方案的基础上，在所述头部视频对应的视频链为多条的情况下，确定下一连续视频的方法还包括：确定所述头部视频对应的多条视频链各自的质量，所述质量包括以下至少一者：视频清晰度、多模态特征相似度、视频描述信息的相似度、视频链时长、人工审核分数；根据所述头部视频对应的多条视频链各自的质量，对所述头部视频对应的多条视频链进行筛选，得到筛选后的视频链。
140.同一头部视频对应的多条视频链的质量可能是参差不齐的，为此需要对头部视频对应的多条视频链进行筛选，以去除质量较差的视频链，保留质量较好的视频链，得到筛选后的视频链。
141.其中，视频链的质量可以包括以下至少一者：视频清晰度、多模态特征相似度、视频描述信息的相似度、视频链时长、人工审核分数。以同一视频链中每个视频的视频清晰度的平均值作为该视频链的视频清晰度；根据同一视频链中每两个相连的视频的之间的多模态相似度的平均值作为该视频链的多模态特征相似度；视频链时长可以为同一视频链中所有视频的总时长和/或所有视频的平均时长，通过视频链时长，可以判断该视频链中各视频和相连的下一连续视频之间是否有间隙或重复部分。
142.可以在根据视频清晰度、多模态特征相似度、视频链时长和视频描述信息的相似度确定了多条质量较好的视频链之后，再由人工对该多条质量较好的视频链进行人工审核，去掉一些没有头或者没有尾的视频链，最后保留质量较好的多条视频。如此，可以对同一头部视频对应的多条视频链进行筛选，得到筛选后的、质量较好的视频链。
143.在上述技术方案的基础上，确定下一视频的方法还包括：检测用户终端当前播放的视频；获取包含所述当前播放的视频的视频链，进而获取所述当前播放的视频的下一连续视频；在检测到所述当前播放的视频被播放完毕时，将所述当前播放的视频的下一连续视频推送给所述用户终端。
144.检测用户终端当前播放的视频，获取包含当前播放的视频的视频链，并根据包含当前播放的视频的视频链，确定当前播放的视频的下一连续视频。在检测到当前播放的视频被播放完毕时，将该当前播放的视频的下一连续视频推送给该用户终端。其中，当包含当前播放的视频的视频链为多条时，可以选择将质量最好的视频链中当前播放的视频的下一连续视频推送给该用户终端。当该用户终端在播放当前播放视频之前，播放了当前播放视频所在的一个视频链中的该当前播放视频的上一视频，则可以根据当前播放视频及其上一视频确定一个或多个视频链，因此在推送下一连续视频时，只需从该一个或多个视频链中确定质量最好的视频链，然后将该质量最好的视频链中当前播放视频的下一连续视频推送给用户终端。
145.本示例性实施例提供的确定下一视频的方法，可以在用户终端中当前播放的视频被播放完毕之后，自动将当前播放的视频的下一连续视频推送给用户终端，如此用户无需观看多个视频后才能确定下一连续视频，从而可以流畅地观看整个视频链中的各个视频，可以有效提升用户体验。
146.在上述技术方案的基础上，确定下一视频的方法还包括：将所述目标视频段的开始播放时间确定为所述当前播放的视频的下一连续视频的开始播放时间；在检测到所述当
前播放的视频被播放完毕时，将所述当前播放的视频的下一连续视频推送给所述用户终端，包括：在检测到所述当前播放的视频被播放完毕时，生成所述当前播放的视频的下一连续视频的播放指示，以指示所述用户终端从所述开始播放时间播放所述当前播放视频的下一连续视频；将所述当前播放的视频的下一连续视频和所述播放指示推送给所述用户终端。
147.在将多个视频簇中每个视频簇包括的各个视频分别切割成预设时长的多个视频段时，记录每个视频段的开始播放时间，并在存储每个视频段的多模态特征与其所属的视频的视频标识之间的对应关系时，存储每个视频段的多模态特征与其开始播放时间的对应关系。
148.将目标视频段的开始播放时间确定为当前播放视频的下一连续视频的开始播放时间。可选地，在确定与当前视频的尾部视频段的多模态特征的相似度超过预设阈值的目标视频段后，从存储的对应关系中获取该目标视频段的开始播放时间；并在记录多个视频对的时序关系时，记录每个下一连续视频的开始播放时间；在生成头部视频对应的视频链时，在视频链中记录每个下一连续视频的开始播放时间。
149.在检测到当前播放的视频被播放完毕时，生成该当前播放的视频的下一连续视频的播放指示，该播放指示用于指示该用户终端从该当前视频的下一连续视频的开始播放时间播放该当前播放视频的下一连续视频。将该当前播放的视频的下一连续视频和该播放指示推送给所述用户终端，用户终端根据该播放指示，从下一连续视频中的目标视频段的开始播放时间播放下一连续视频，以使下一连续视频和当前播放的视频自动对齐，其中两个视频对齐是指只显示一次两个视频重合的部分、将两个视频相连。例如，视频a＝a1 a2 a3，其中a3为视频a的尾部视频段，视频a’＝a3 a4，则播放对齐后的视频a和a’为依次播放a1、a2、a3和a4，其中重合的a3被跳过一次。
150.如此，用户在观看完当前播放的视频后，可以直接观看到下一连续视频，且自动跳过重复部分，从而使当前播放的视频的尾部和下一连续视频的目标视频段自动进行对齐，解决了用户需要重复观看相同的内容、体验不佳的问题。
151.图3是根据一示例性实施例示出的一种确定下一视频的装置的框图，参照图3，该装置包括特征获取模块31、对比确定模块32.
152.该特征获取模块31，被配置为获取当前视频的尾部视频段的多模态特征，所述多模态特征是从多个视频特征维度进行提取而得到的，所述多个视频特征维度包括以下至少两者：视觉特征维度、文本特征维度、音频特征维度；
153.该对比确定模块32，被配置为根据所述尾部视频段的多模态特征与多个待选视频的多模态特征的对比结果，确定所述当前视频的下一连续视频。
154.可选地，所述装置还包括：
155.描述信息获取模块，被配置获取多个待选视频各自的描述信息；
156.聚类模块，被配置为根据所述多个待选视频各自的描述信息，对所述多个待选视频进行聚类，得到多个视频簇；
157.存储模块，被配置为获取所述多个视频簇中每个视频簇包括的各个待选视频的多模态特征，将所述多个视频簇各自包括的各个待选视频的多模态特征，存储在所述多个视频簇各自的视频特征库中；
158.所述对比确定模块32，包括：
159.视频簇单元，被配置为获取所述当前视频所属的视频簇；
160.对比确定单元，被配置为根据所述尾部视频段的多模态特征，与所述当前视频所属的视频簇的视频特征库中多个待选视频各自的对比结果，确定所述当前视频的下一连续视频。
161.可选地，所述存储模块，包括：
162.切割单元，被配置为将所述多个视频簇中每个视频簇包括的各个待选视频分别切割成预设时长的多个视频段；
163.抽取单元，被配置为从所述每个视频段中抽取多个视频帧；
164.视频帧单元，被配置为获取所述每个视频帧的多模态特征；
165.拼接单元，被配置为将属于同一个视频段的多个视频帧的多模态特征进行拼接，得到该视频段的多模态特征；
166.视频段特征存储单元，被配置为将所述多个视频簇中每个视频簇包括的各个待选视频的多个视频段的多模态特征，存储在所述多个视频簇各自的视频特征库中。
167.可选地，所述装置还包括：
168.视频标识获取模块，被配置为获取所述多个待选视频中每个待选视频的视频标识；
169.存储对应关系模块，被配置为存储所述每个视频段的多模态特征与其所属的视频的视频标识之间的对应关系；
170.所述对比确定模块32，包括：
171.目标视频段确定单元，被配置为根据所述尾部视频段的多模态特征与视频特征库中多个视频段的多模态特征的对比结果，确定目标视频段的多模态特征；
172.查询单元，被配置为根据所述对应关系，查询所述目标视频段的多模态特征对应的目标视频标识；
173.确定单元，被配置为将所述目标视频标识对应的目标视频，确定为所述当前视频的下一连续视频。
174.可选地，所述装置还包括：
175.时序模块，被配置为确定所述多个视频簇中每个视频簇包括的各个视频的下一连续视频，并记录多个视频对的时序关系，每个视频对包括一个视频与其下一连续视频；
176.头部视频确定模块，被配置为根据所述多个视频对的时序关系，确定头部视频，所述头部视频不为任何视频的下一连续视频；
177.串联模块，被配置为按照所述多个视频对的时序关系，将所述头部视频的视频标识和所述头部视频的多个后续视频的标识依次串联，生成所述头部视频对应的视频链。
178.可选地，所述装置还包括：
179.质量确定模块，被配置为确定所述头部视频对应的多条视频链各自的质量，所述质量包括以下至少一者：视频清晰度、多模态特征相似度、视频描述信息的相似度、视频链时长、人工审核分数；
180.筛选模块，被配置为根据所述头部视频对应的多条视频链各自的质量，对所述头部视频对应的多条视频链进行筛选，得到筛选后的视频链。
181.可选地，所述装置还包括：
182.检测模块，被配置为检测用户终端当前播放的视频；
183.视频链获取模块，被配置为获取包含所述当前播放的视频的视频链，进而获取所述当前播放的视频的下一连续视频；
184.推送模块，被配置为在检测到所述当前播放的视频被播放完毕时，将所述当前播放的视频的下一连续视频推送给所述用户终端。
185.可选地，所述装置还包括：
186.时间确定模块，被配置为将所述目标视频段的开始播放时间确定为所述当前播放的视频的下一连续视频的开始播放时间；
187.所述推送模块包括：
188.指示生成单元，被配置为在检测到所述当前播放的视频被播放完毕时，生成所述当前播放的视频的下一连续视频的播放指示，以指示所述用户终端从所述开始播放时间播放所述当前播放视频的下一连续视频；
189.推送单元，被配置为将所述当前播放的视频的下一连续视频和所述播放指示推送给所述用户终端。
190.可选地，所述对比确定模块32，包括：
191.相似度比较单元，被配置为将所述尾部视频段的多模态特征分别与多个待选视频各自的多模态特征进行相似度比较；
192.视频确定单元，被配置为将与所述尾部视频段的多模态特征之间的相似度超过预设阈值的目标视频，确定为所述当前视频的下一连续视频。
193.本示例性实施例提供的确定下一连续视频的装置，通过将当前视频的尾部视频段的多模态特征分别与多个视频各自的多模态特征进行相似度比较，将与尾部视频段的多模态特征之间的相似度超过预设阈值的目标视频，确定为当前视频的下一连续视频；其中，比较的是多模态特征的相似度，可以从多个视频特征维度对视频进行刻画和比较，具有较高的准确性；目标视频的多模态特征和当前视频的尾部视频段的多模态特征相似度超过预设阈值，则目标视频是和当前视频的尾部视频段在多个视频特征维度都相似的视频，可以认为目标视频是紧邻当前视频的尾部视频段的视频，因此可以将目标视频确定为当前视频的下一连续视频，如此，解决了需要查看多个视频才能确定当前视频的下一连续视频的问题。
194.关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。
195.图4是根据一示例性实施例示出的一种用于确定下一视频的装置400的框图。例如，装置400可以是移动电话，计算机，数字广播终端，消息收发设备，游戏控制台，平板设备，医疗设备，健身设备，个人数字助理等。
196.参照图4，电子设备400可以包括以下一个或多个组件：处理组件402，存储器404，电力组件406，多媒体组件408，音频组件410，输入/输出(i/o)的接口412，传感器组件414，以及通信组件416。
197.处理组件402通常控制装置400的整体操作，诸如与显示，电话呼叫，数据通信，相机操作和记录操作相关联的操作。处理组件402可以包括一个或多个处理器420来执行指令，以完成上述的方法的全部或部分步骤。此外，处理组件402可以包括一个或多个模块，便
于处理组件402和其他组件之间的交互。例如，处理组件402可以包括多媒体模块，以方便多媒体组件408和处理组件402之间的交互。
198.存储器404被配置为存储各种类型的数据以支持在设备400的操作。这些数据的示例包括用于在装置400上操作的任何应用程序或方法的指令，联系人数据，电话簿数据，消息，图片，视频等。存储器404可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(sram)，电可擦除可编程只读存储器(eeprom)，可擦除可编程只读存储器(eprom)，可编程只读存储器(prom)，只读存储器(rom)，磁存储器，快闪存储器，磁盘或光盘。
199.电源组件406为装置400的各种组件提供电力。电源组件406可以包括电源管理系统，一个或多个电源，及其他与为装置400生成、管理和分配电力相关联的组件。
200.多媒体组件408包括在所述装置400和用户之间的提供一个输出接口的屏幕。在一些实施例中，屏幕可以包括液晶显示器(lcd)和触摸面板(tp)。如果屏幕包括触摸面板，屏幕可以被实现为触摸屏，以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界，而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中，多媒体组件408包括一个前置摄像头和/或后置摄像头。当设备400处于操作模式，如拍摄模式或视频模式时，前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。
201.音频组件410被配置为输出和/或输入音频信号。例如，音频组件410包括一个麦克风(mic)，当装置400处于操作模式，如呼叫模式、记录模式和语音识别模式时，麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器404或经由通信组件416发送。在一些实施例中，音频组件410还包括一个扬声器，用于输出音频信号。
202.i/o接口412为处理组件402和外围接口模块之间提供接口，上述外围接口模块可以是键盘，点击轮，按钮等。这些按钮可包括但不限于：主页按钮、音量按钮、启动按钮和锁定按钮。
203.传感器组件414包括一个或多个传感器，用于为装置400提供各个方面的状态评估。例如，传感器组件414可以检测到设备400的打开/关闭状态，组件的相对定位，例如所述组件为装置400的显示器和小键盘，传感器组件414还可以检测装置400或装置400一个组件的位置改变，用户与装置400接触的存在或不存在，装置400方位或加速/减速和装置400的温度变化。传感器组件414可以包括接近传感器，被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件414还可以包括光传感器，如cmos或ccd图像传感器，用于在成像应用中使用。在一些实施例中，该传感器组件414还可以包括加速度传感器，陀螺仪传感器，磁传感器，压力传感器或温度传感器。
204.通信组件416被配置为便于装置400和其他设备之间有线或无线方式的通信。装置400可以接入基于通信标准的无线网络，如wifi，运营商网络(如2g、3g、4g或5g)，或它们的组合。在一个示例性实施例中，通信组件416经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中，所述通信组件416还包括近场通信(nfc)模块，以促进短程通信。例如，在nfc模块可基于射频识别(rfid)技术，红外数据协会(irda)技术，超宽带(uwb)技术，蓝牙(bt)技术和其他技术来实现。
205.在示例性实施例中，电子设备400可以被一个或多个应用专用集成电路(asic)、数字信号处理器(dsp)、数字信号处理设备(dspd)、可编程逻辑器件(pld)、现场可编程门阵列(fpga)、控制器、微控制器、微处理器或其他电子元件实现，用于执行上述确定下一连续视频的方法。
206.在示例性实施例中，还提供了一种包括指令的计算机可读存储介质，例如包括指令的存储器404，上述指令可由装置400的处理器420执行以完成上述方法。例如，所述非临时性计算机可读存储介质可以是rom、随机存取存储器(ram)、cd-rom、磁带、软盘和光数据存储设备等。
207.在示例性实施例中，还提供了一种计算机程序产品，该计算机程序产品包括可读性程序代码，该可读性程序代码可由电子设备400的处理器420执行以完成上述确定下一视频的方法。可选地，该程序代码可以存储在电子设备400的存储介质中，该存储介质可以是非临时性计算机可读存储介质，例如，所述非临时性计算机可读存储介质可以是rom、随机存取存储器(ram)、cd-rom、磁带、软盘和光数据存储设备等。
208.本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本发明的其它实施方案。本技术旨在涵盖本发明的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本发明的真正范围和精神由下面的权利要求指出。
209.应当理解的是，本发明并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本发明的范围仅由所附的权利要求来限制。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：一种基于卫星遥感的森林火灾风险预警方法与流程

确定下一视频的方法、装置、电子设备及存储介质与流程

相关文献

最热文献