视频的处理方法、装置、计算机存储介质及智能交互平板与流程

2023-03-05 21:57:55 来源：中国专利 TAG：

1.本发明涉及视觉检索技术领域，具体而言，涉及一种视频的处理方法、装置、计算机存储介质及智能交互平板。

背景技术：

2.在教学领域中，教学录播系统可以拍下教学视频并进行存储。为了便于教师或学生对教学视频的检索，还可以通过人工剪辑等方式获取具有代表性的、有意义的视频片段作为视频摘要，例如，学生可以通过视频摘要的内容从视频数据库中选取所需要的教学视频并学习。视频摘要与完整的教学视频相比，减少了长度，并保留了教学视频中具有代表性的、有意义的信息，可以实现对教学视频感兴趣的内容快速浏览和检索。然而，相关技术中，教学视频摘要通常通过人工剪辑的方式制作，导致效率较低。
3.针对上述现有技术中通过人工从教学录播软件中获取教学视频摘要，导致效率低的问题，目前尚未提出有效的解决方案。

技术实现要素：

4.本发明实施例提供了一种视频的处理方法、装置、计算机存储介质及智能交互平板，以至少解决相关技术中通过人工从教学录播软件中获取教学视频摘要，导致效率低的技术问题。
5.根据本发明实施例的一个方面，提供了一种视频的处理方法，包括：获取待处理视频所包含的多个目标视频帧；基于特征提取模型提取多个目标视频帧的特征信息；基于特征信息从多个目标视频帧中抽取多个第一关键帧，并将多个第一关键帧进行融合得到待处理视频的静态摘要；以及基于特征信息从多个目标视频帧中抽取至少一个第二关键帧，并根据第二关键帧对待处理视频进行视频截取，得到待处理视频对应的动态摘要。
6.根据本发明实施例的另一方面，还提供了一种视频的处理装置，包括：获取模块，用于获取待处理视频所包含的多个目标视频帧；提取模块，用于基于特征提取模型提取多个目标视频帧的特征信息；第一抽取模块，用于基于特征信息从多个目标视频帧中抽取多个第一关键帧，并将多个第一关键帧进行融合得到待处理视频的静态摘要；以及第二抽取模块，用于基于特征信息从多个目标视频帧中抽取至少一个第二关键帧，并根据第二关键帧对待处理视频进行视频截取，得到待处理视频对应的动态摘要。
7.根据本发明实施例的另一方面，还提供了一种计算机存储介质，计算机存储介质存储有多条指令，指令适于由处理器加载并执行上述任意一项的视频的处理方法。
8.根据本发明实施例的另一方面，还提供了一种智能交互平板，包括：处理器和存储器；其中，存储器存储有计算机程序，计算机程序适于由处理器加载并执行上述任意一项的视频的处理方法。
9.在本发明实施例中，通过获取待处理视频所包含的多个目标视频帧；基于特征提取模型提取多个目标视频帧的特征信息；基于特征信息从多个目标视频帧中抽取多个第一
关键帧，并将多个第一关键帧进行融合得到待处理视频的静态摘要；以及基于特征信息从多个目标视频帧中抽取至少一个第二关键帧，并根据第二关键帧对待处理视频进行视频截取，得到待处理视频对应的动态摘要。可以实现对待处理视频的目标视频帧对应的三维特征向量进行降维处理，得到整个视频的特征矩阵，基于特征矩阵表示的特征信息从多个目标视频帧中抽取多个第一关键帧，对多个第一关键帧进行融合得到静态视频摘要，或从多个目标视频帧中抽取多个第二关键帧，根据多个关键帧对待处理视频进行视频截取得到动态视频摘要，降低了视频检索技术的难度，提高了视频检索的效率，解决了相关技术中通过人工从教学录播软件中获取教学视频摘要，导致效率低的技术问题。
附图说明
10.此处所说明的附图用来提供对本发明的进一步理解，构成本技术的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：
11.图1是根据本发明实施例的一种视频的处理方法的流程图；
12.图2是根据本发明实施例的一种可选的视频的处理方法的示意图；
13.图3是根据本发明实施例的一种视频的处理装置的示意图；
14.图4是本技术实施例提供的一种智能交互平板的示意图。
具体实施方式
15.为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。
16.需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
17.实施例1
18.对本发明实施例进行进一步说明之前，对本发明实施例中涉及的名词和术语进行说明，本发明实施例中涉及的名词和术语适用于如下解释。
19.视频摘要，对视频内容的一个简单概括，又称为视频概要，通过分析视频的结构和内容存在的时空冗余，从原始视频中抽取出来的静态语义单元表示视频内容，即在一段视频中提取出有意义的片段/帧作为视频关键帧，如宣传片(片花)，教学录播系统保存的有意义的教学视频段，通过多个关键帧组合成视频摘要，使得用户可以通过少量的关键帧快速浏览原始视频内容，其中，视频摘要分为静态视频摘要和动态视频摘要，静态视频摘要由多帧静止的图像融合处理得到，动态视频摘要由待处理的视频截取视频段得到。
20.视频检索，指在相关视频数据库的系统中输入一个视频片段，并在该数据库中找出一个或者多个与该输入视频相似的视频并返回给用户。
21.在从图像和视频中提取视频摘要的相关技术中，对于一个特定的视频文件，首先是提取视频中帧图像的图像特征，然后基于提取的图像特征从多个视频帧中抽取关键帧，对抽取得到的多个关键帧进行组合，得到该视频的视频摘要；
22.在一些相关技术中，可通过有监督方式或无监督方式训练视频摘要模型，在采用有监督方式进行视频摘要模型训练时，结合了长短期记忆网络及行列式点过程，首先利用googlenet网络获取视频每帧的特征信息，然后将特征信息输入网络中，经过双层lstm之后，获得视频帧的关键性分值，以及帧之间的相似性，然后利用或得的帧间相似性对整体视频进行时间分割，以避免提取的关键帧重复。得到每个视频帧的关键性分值之后，根据分值大小以及视频摘要所需要的关键帧数目，进行关键帧提取，最后，可以将获得的关键帧为关键图集或对其进行聚类后重新组合，获得概括有视频内容的视频摘要。
23.在一些相关技术中，采用无监督方式获取视频摘要的方法，通过一些图像处理算子对视频帧进行特征提取，之后基于提取的图像特征去除视频帧中相似度较大的帧；对去除相似度较大的帧后剩余的视频帧做聚类处理，提取关键帧，对提取的关键帧进行重组，形成视频摘要。
24.相关技术中，可通过有监督方式或无监督方式训练视频摘要模型，通过有监督的方式训练所采用的训练数据需要标注，而视频的标注困难，迁移效率低；通过无监督方式无需进行标注，然而此方式训练得到的视频摘要模型相较于有监督方式的摘要准确度低；由于把不同视频所包含的内容不同，致使有些视频适合采用有监督方式进行训练，有些视频适合采用无监督方式进行训练，然而对于某特定视频，相关技术中无法智能的识别相应的训练方式。
25.基于上述问题，本实施例提出了一种视频处理的方法。
26.根据本发明实施例，提供了一种视频的处理的方法实施例，需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。
27.图1是根据本发明实施例的视频的处理的方法，如图1所示，该方法包括如下步骤：
28.步骤s102，获取待处理视频所包含的多个目标视频帧。
29.上述待处理的视频可以为待进行视频摘要制作的视频，目标视频帧可以是通过对待处理视频利用视频结构化以及去噪等技术手段获取的。在一种可选的实施方式中，待处理的视频可以为教学录播系统通过教室内安装的摄像头所录制的初始教学视频，教学视频按课节保存，每一节课保存为一份待处理的视频，将待处理的视频处理为多个视频帧，根据本节课教学视频的重点选择出所需要的部分视频帧作为目标视频帧。
30.帧是视频数据的最小单元，是一副静止的画面，对非结构化的图像流进行处理，使之成为结构化的数据，每一份视频先去除无用帧(如单色帧，条色帧等)和模糊帧，然后拆分成n帧静止图像，每帧静止图像由三个维度构成，三个维度为空间维度，分别为：每帧图像的通道(以下用“c”来表示)、每帧图像的宽度(以下用“w”来表示)、每帧图像的高度(以下用“h”来表示)，即一份视频的大小可表示为n*c*h*w。
31.步骤s104，基于特征提取模型提取多个目标视频帧的特征信息。
32.上述特征提取模型可以为三维特征提取模型，上述特征信息为视觉内容，可以包括颜色、纹理、形状、结构等。
33.上述基于特征提取模型提取多个目标视频帧的特征信息，包括以下几个步骤：首先，对于每个目标视频帧，可以利用在imagenet上预训练的resnet模型进行特征提取，具体提取的可以为最后一层卷积特征，进而得到每个目标视频帧对应的三维特征向量，即上述每帧图像的通道、宽度以及高度，大小为c*h*w。其次，将每个目标视频帧对应的三维特征向量利用卷积神经网络进行降维处理，将高维的目标视频帧映射成低维的向量，得到每个目标视频帧对应的一维特征向量，大小可以用“v”来表示，用以表征图像。最后，根据每个目标视频帧对应的一维特征向量构成特征矩阵，并确定特征矩阵为多个目标视频帧的特征信息，也就是通过特征提取，整个视频的n帧得到n*v的特征矩阵，即每一帧用向量v来表示其特征信息。
34.步骤s106，基于特征信息从多个目标视频帧中抽取多个第一关键帧，并将多个第一关键帧进行融合得到待处理视频的静态摘要。
35.上述第一关键帧可以为从待处理的视频的多个目标视频帧中选取的具有代表性的、有意义的视频帧，例如，在教学录播视频生成摘要的场景中，上述第一关键帧可以为某学科教学老师授课视频中基于特征信息抽取的多个目标视频帧，也可以为多个目标视频帧中的部分目标视频帧，将多个第一关键帧进行融合处理以生成待处理视频的静态摘要，其中，该多个第一关键帧可以大致描述待处理视频的主题以及授课的核心内容。
36.在一种可选的实施例中，上述第一关键帧提取的方法可以包括基于镜头的方法，主要包括以下过程：先按照某种技术手段把待处理视频按照镜头变化分割，然后在待处理视频每个镜头中选择首、尾两帧作为第一关键帧。在另一种可选的实施例中，第一关键帧提取的方法还可以包括基于运动分析的方法，主要包括以下过程：在待处理视频镜头中分析物体运动的光流量，每次选择待处理视频镜头中光流移动次数最少的视频帧作为提取到的第一关键帧。当然，第一关键帧的提取方法不限于此。
37.上述第一关键帧融合得到视频摘要的方法可以包括拼接融合、加权融合、基于系数特征表示理论的特征融合、基于贝叶斯理论融合等中的一种。
38.在一种可选的实施方式中，在教学录播视频摘要的场景中，教学录播系统通过教室内安装的摄像头录制并保存每节课的教学视频，在需要生成a老师的教学视频摘要时，可以从教学录播系统中获取保存的视频作为待处理视频的目标视频帧，将每个目标视频帧输入至预设的特征提取模型中提取出目标视频帧对应的一维特征向量，然后根据每个目标视频帧对应的一维特征向量构成特征矩阵，最后基于特征矩阵表示的特征信息从多个目标视频帧中抽取多个第一关键帧，并对得到的第一关键帧进行融合得到a老师的教学视频静态摘要。
39.步骤s108，基于特征信息从多个目标视频帧中抽取至少一个第二关键帧，并根据第二关键帧对待处理视频进行视频截取，得到待处理视频对应的动态摘要。
40.在一种可选的实施方式中，在教学录播视频摘要的场景中，教学录播系统通过教室内安装的摄像头录制并保存每节课的教学视频，在需要生成a老师的教学视频摘要时，可以从教学录播系统中获取保存的视频作为待处理视频的目标视频帧，将每个目标视频帧输
入至预设的特征提取模型中提取出目标视频帧对应的一维特征向量，然后根据每个目标视频帧对应的一维特征向量构成特征矩阵，最后基于特征矩阵表示的特征信息从多个目标视频帧中抽取至少一个第二关键帧，并根据第二关键帧对待处理的视频进行视频截取得到a老师的教学视频动态摘要。
41.本实施例中，通过获取待处理视频所包含的多个目标视频帧；基于特征提取模型提取多个目标视频帧的特征信息；基于特征信息从多个目标视频帧中抽取多个第一关键帧，并将多个第一关键帧进行融合得到待处理视频的静态摘要；以及基于特征信息从多个目标视频帧中抽取至少一个第二关键帧，并根据第二关键帧对待处理视频进行视频截取，得到待处理视频对应的动态摘要。可以实现对待处理视频的目标视频帧对应的三维特征向量进行降维处理，得到整个视频的特征矩阵，基于特征矩阵表示的特征信息从多个目标视频帧中抽取多个第一关键帧，对多个第一关键帧进行融合得到静态视频摘要，或从多个目标视频帧中抽取多个第二关键帧，根据多个关键帧对待处理视频进行视频截取得到动态视频摘要，降低了视频检索技术的难度，提高了视频检索的效率，解决了相关技术中通过人工从教学录播软件中获取教学视频摘要，导致效率低的技术问题。
42.作为一种可选的实施例，获取待处理视频所包含的多个目标视频帧，包括：获取待处理视频所包括的全部视频帧；从全部视频帧中提取干扰帧，其中，干扰帧包括如下至少一项：单色帧、条色帧和模糊帧；从全部视频帧中剔除干扰帧，得到目标视频帧。
43.上述全部视频帧为待处理视频的所有帧，将每一份视频帧中的干扰帧去除，然后将剩余的视频帧拆分成n帧静止画面，即本实施例的多个目标视频帧。其中干扰帧包括单色帧、条色帧和模糊帧，单色帧表示该帧静止图像的所有位置的像素颜色一样；条色帧表示在该帧静止图像上呈条形状的位置的像素颜色一样，模糊帧表示该帧静止图像上相邻两个位置的像素颜色相近，导致整帧图像看起来比较模糊。
44.作为一种可选的实施例，基于特征信息从多个目标视频帧中抽取多个第一关键帧，并将多个第一关键帧进行融合得到待处理视频的静态摘要，包括：对特征信息进行聚类处理，得到多个簇和每个簇对应的质心视频帧；根据每个簇对应的质心视频帧，从多个目标视频帧中抽取多个第一关键帧；对每个簇的多个第一关键帧进行图形融合，得到簇对应的摘要视频帧；确定每个簇对应的摘要视频帧为待处理视频的静态摘要。
45.上述聚类处理方法可以为k-means聚类方法，利用k-means聚类方法对特征信息进行聚类处理得到多个簇和每个簇对应的质心视频帧。其中，质心视频帧所表示的特征信息具有代表性，可以作为第一关键帧的提取依据。例如，基于上述n*v矩阵，利用k-means聚类方法，将多个目标视频帧划分为k簇，每个簇对应一个质心视频帧，即k个质心视频帧，k个质心视频帧可以构成一个k*v的质心矩阵。然后基于上述n*v特征矩阵和上述k*v质心矩阵，为n*v帧建立索引，为k个质心视频帧检索出最接近每个质心视频帧的top-k帧，这样k个质心视频帧各自有top-k帧，其中，top-k帧中的每一帧均为第一关键帧。
46.上述图像融合的方法可以为基于梯度金字塔(gradient pyramid，gp)分解的图像融合算法，可利用上述图像融合算法将k个质心视频帧的top-k帧融合为一帧。例如，基于上述k个质心视频帧检索出最接近每个质心视频帧的多个第一关键帧，然后将每个质心视频帧中的前k帧(例如前3帧，分别为第一帧、第二帧以及第三帧)视频融合为一帧，总共有k个质心视频帧，即可以得到k张图像作为待处理视频的静态摘要。
47.需要说明的是，多个第一关键帧融合是一种将时间叠加到空间上的转换，将不同时间上的事件显示到同一张画面上，融合的目的是让多个第一关键帧的信息用一帧来显示，这多个第一关键帧相似度很高，没有必要都作为摘要，因此通过帧融合的方式可以将多个第一关键帧上的信息都体现在同一张画面上。
48.在一种可选的实施方式中，在教学视频摘要的场景中，在获取了a老师的待处理视频中多个目标视频帧的特征信息后，利用k-means聚类方法基于特征信息进行特征处理得到k个簇以及k个质心视频帧，然后在每个质心视频帧中选取k个最相似的帧作为第一关键帧，第一关键帧可以包括a老师讲授第一章节的k个相似小标题图像、第一章节的k个相似知识点图像等，可以将k个第一关键帧中相似小标题图像按照时间叠加到空间的方式将k个相似小标题图像的内容显示到同一张画面上来；同理，可以将k个相似知识点图像的内容显示到同一张画面上来，由此，可以得到多张图像作为待处理视频的静态摘要，学生可以根据上述多张图像中的一张或几张配合使用从教学录播系统中检索出所需要的视频，从而可以提高学生的检索效率。
49.作为一种可选的实施例，根据每个簇对应的质心视频帧，从多个目标视频帧中抽取多个第一关键帧，包括：在每个簇中，获取其他视频帧的第一特征向量与质心视频帧的第二特征向量之间的第一相似度参数；确定每个簇中第一相似度参数较大的第一预设数量的其他视频帧为第一关键帧。
50.上述第一相似度参数可以通过余弦距离表示。具体的，首先，在每个簇中获取除质心视频帧以外的其他视频帧的第一特征向量与质心视频帧的第二特征向量之间的第一相似度参数，然后对上述多个第一相似度参数按照从大到小的顺序排序，最后确定每个簇中第一相似度参数较大的第一预设数量(即上述top-k帧中的“k”值)的其他视频帧作为第一关键帧。
51.需要说明的是，第一特征向量和第二特征向量之间的相似度参数主要包括颜色参数、纹理参数、形状参数以及结构参数等，第一相似度参数为第一特征向量与第二特征向量之间的距离。
52.在一种可选的实施方式中，在其中一个簇中，总共有n-1帧目标视频帧，分别为第一帧、第二帧
……
第n-1帧，第一预设数量为k个。在具体的计算过程中，分别计算第一帧的第一特征向量与质心视频帧的第二特征向量之间的第一相似度参数，计算第二帧的第一特征向量与质心视频帧的第二特征向量之间的第一相似度参数
……
计算第n-1帧的第一特征向量与质心视频帧的第二特征向量之间的第一相似度参数，总共n-1个第一特征向量与第二特征向量的距离值，然后对n-1个距离值进行排序，根据第一预设数量选择出距离较大的top-k个视频帧作为第一关键帧。同理，可以根据上述方式获取每个簇中其他视频帧的第一特征向量与质心视频帧的第二特征向量之间的第一相似度参数，根据每个簇中第一预设数量的值选择相应簇中第一相似度参数较大的其他视频帧作为第一关键帧。
53.作为一种可选的实施例，基于特征信息从多个目标视频帧中抽取至少一个第二关键帧，并根据第二关键帧对待处理视频进行视频截取，得到待处理视频对应的动态摘要，包括：将多个目标视频帧按照生成时间排列，得到排列结果；获取排列结果中，相邻的目标视频帧的特征向量之间的第二相似度参数；确定较大的第二预设数量的第二相似度参数两端的目标视频帧为第二关键帧；基于第二关键帧分别向前和向后截取多个视频帧，得到待处
理视频的动态摘要。
54.将多个目标视频帧基于特征信息获得n*v特征矩阵后，对n*v特征矩阵进行时序化处理，即将这n帧目标视频帧按照待处理视频中的时序构建索引存储。例如，n帧目标视频帧中按照时间顺序每一帧有一个序号，分别由1到n，第一帧在待处理视频中最早出现，而第n帧则是最后出现的，这n帧目标视频帧的一维v向量存储在视频数据库中，完成特征时序化，得到n个排列结果。
55.在获取n个排列结果后，对前后时序的两个目标视频帧进行相似度计算，获取相邻的目标视频帧的特征向量之间的第二相似度参数，其中，相似度参数可以通过余弦距离来表示。例如，根据第一帧和第二帧之间的特征向量获取第一帧和第二帧之间的余弦距离，用该余弦距离表示一个第二相似度参数；根据第二帧和第三帧之间的特征向量获取第二帧和第三帧之间的余弦距离，用该余弦距离表示另一个第二相似度参数
……
根据第n-1帧和第n帧之间的特征向量获取第n-1帧和第n帧之间的余弦距离，用该余弦距离表示又一个第二相似度参数，n帧目标视频帧前后两个帧之间的余弦距离计算，总共可以得到n-1个第二相似度参数。
56.对n-1个第二相似度参数进行排序。以第二预设数量为m个为例，将n-1个第二相似度参数根据余弦距离的大小从大到小进行排序，选择出余弦距离较大的top-m个第二相似度参数。
57.对视频帧进行截取获得待处理视频的动态摘要。将上述m个第二相似度参数两端的目标视频帧作为第二关键帧，因为这两帧的视觉内容变化比较大，蕴含的视频信息较多。然后以第二关键帧为中心，分别向前和向后自定义一个预设距离，根据该预设距离向前截取多个视频帧，向后截取多个视频帧，将截取的所有视频帧和第二关键帧构成一个视频摘要。
58.作为一种可选的实施例，基于第二关键帧分别向前和向后截取多个视频帧，得到待处理视频的动态摘要，包括：获取前向截止帧和后向截止帧，其中，前向截止帧为当前视频帧的特征向量与前一视频帧的特征向量的距离小于预设距离的视频帧，后向截止帧为当前视频帧的特征向量与后一视频帧的特征向量的距离小于预设距离的视频帧；基于关键帧向前截取至前向截止帧，并向后截取至后向截止帧，得到待处理视频对应的动态摘要。
59.例如，以top-m个第二关键帧对应的前后帧为中心，分别向前和向后截取f帧和b帧构成一个视频段摘要，预设距离为θ，其中，f帧为当前第二关键帧的特征向量与前f帧的特征向量的距离大于或等于θ的视频帧，b帧为当前第二关键帧的特征向量与后b帧的特征向量的距离大于或等于θ的视频帧。遇到小于θ的值就截止，说明这两个视频帧的相似度很高，没有必要作为摘要，如此，便可获得m个视频段作为整个待处理视频的动态摘要。
60.在一种可选的实施方式中，n帧目标视频帧中的第n帧目标视频帧和第n 1帧目标视频帧的第二相似度参数是top-m中的一个。从n帧开始向前搜索，n帧的特征向量和n-1帧的特征向量的距离大于预设距离θ，继续向前n-2，比较n-1帧的特征向量和n-2帧的特征向量的距离是否大于预设距离θ；反之，则向前停止截取。从n 1帧开始向后搜索，n 1帧的特征向量和n 2帧的特征向量的距离大于预设距离θ，继续向后n 3，比较n 2帧的特征向量和n 3帧的特征向量的距离是否大于预设距离θ；反之，则向后停止截取。如此，便可获得m视频段作为整个待处理视频的动态摘要。
61.作为一种可选的实施例，获取待处理视频的关联信息，其中，关联信息用于表示待处理视频中时间与属性信息的关联关系；基于关联关系，确定待处理视频的标签，其中，标签用于表示待处理视频的属性信息。
62.上述关联信息用于对待处理视频进行分类和归档管理。可以基于待处理视频中时间与属性信息的关联关系可以确定待处理视频的标签。也可以根据标签筛选得到待处理视频的属性信息，根据待处理视频的属性信息去除与待处理视频无关的其他视频，进而确定待处理视频。
63.在一种可选的实施方式中，图2是根据本发明实施例的一种可选的视频的处理方法的示意图，如图2所示，在教学视频摘要的场景中，待处理视频为教学录播系统保存的每一节课的视频21，上述关联信息可以为课程表22，通过课程表22可以得到学科信息表23、教师信息表24以及学生信息表25中的信息，上述属性信息可以为学科、教师或学生，课程表包含了每节课的属性信息，将每一节课的视频21与课程表22关联后，可以确定出每个待处理视频所关联的学科信息(比如，语文课)、学生信息、教师信息等，进而可以对每个待处理视频根据课程表22添加标签，并进行分类和归档管理，例如，根据课程表22分类后的待处理视频标签可以包括：学科标签(语文课)，教师标签(a老师)，班级标签(二年级六班)，根据待处理视频标签可以确定该待处理视频为二年级六班语文学科a老师的课，如果需要生成a老师讲授语文课的视频摘要时，可以根据上述待处理视频标签筛选出a老师语文课的关联视频。
64.实施例2
65.根据本发明实施例，提供了一种视频的处理装置的实施例，图3是根据本发明实施例的一种视频的处理装置的示意图，如图3所示，该装置包括：
66.获取模块31，用于获取待处理视频所包含的多个目标视频帧；提取模块32，用于基于特征提取模型提取所述多个目标视频帧的特征信息；第一抽取模块33，用于基于所述特征信息从所述多个目标视频帧中抽取多个第一关键帧，并将所述多个第一关键帧进行融合得到所述待处理视频的静态摘要；以及第二抽取模块34，用于基于所述特征信息从所述多个目标视频帧中抽取至少一个第二关键帧，并根据所述第二关键帧对所述待处理视频进行视频截取，得到所述待处理视频对应的动态摘要。
67.作为一种可选的实施例，上述获取模块包括：全部视频帧获取子模块，用于获取所述待处理视频所包括的全部视频帧；干扰帧提取子模块，用于从所述全部视频帧中提取干扰帧，其中，所述干扰帧包括如下至少一项：单色帧、条色帧和模糊帧；目标视频帧获取子模块，用于从所述全部视频帧中剔除所述干扰帧，得到所述目标视频帧。
68.作为一种可选的实施例，上述第一抽取模块包括：处理模块，用于对所述特征信息进行聚类处理，得到多个簇和每个簇对应的质心视频帧；第一抽取子模块，用于根据所述每个簇对应的质心视频帧，从所述多个目标视频帧中抽取多个第一关键帧；融合模块，用于对所述每个簇的多个所述第一关键帧进行图形融合，得到所述簇对应的摘要视频帧；确定模块，用于确定所述每个簇对应的摘要视频帧为所述待处理视频的静态摘要。
69.作为一种可选的实施例，上述第一抽取子模块包括：第一获取子模块，用于在所述每个簇中，获取其他视频帧的第一特征向量与所述质心视频帧的第二特征向量之间的第一相似度参数；第一确定子模块，用于确定所述每个簇中第一相似度参数较大的第一预设数量的其他视频帧为所述第一关键帧。
70.作为一种可选的实施例，上述第二抽取模块包括：生成子模块，用于将所述多个目标视频帧按照生成时间排列，得到排列结果；第二获取子模块，用于获取所述排列结果中，相邻的目标视频帧的特征向量之间的第二相似度参数；第二确定子模块，用于确定较大的第二预设数量的第二相似度参数两端的目标视频帧为第二关键帧；截取模块，用于基于所述第二关键帧分别向前和向后截取多个视频帧，得到所述待处理视频的动态摘要。
71.作为一种可选的实施例，上述截取模块包括：第三获取子模块，用于获取前向截止帧和后向截止帧，其中，所述前向截止帧为当前视频帧的特征向量与前一视频帧的特征向量的距离小于预设距离的视频帧，所述后向截止帧为当前视频帧的特征向量与后一视频帧的特征向量的距离小于所述预设距离的视频帧；截取子模块，用于基于所述关键帧向前截取至所述前向截止帧，并向后截取至所述后向截止帧，得到所述待处理视频对应的动态摘要。
72.作为一种可选的实施例，上述装置还包括：第四获取子模块，用于获取所述待处理视频的关联信息，其中，所述关联信息用于表示所述待处理视频中时间与属性信息的关联关系；第三确定子模块，用于基于所述关联关系，确定所述待处理视频的标签，其中，所述标签用于表示所述待处理视频的属性信息。
73.需要说明的是，本实施例的可选或优选实施方式可以参见实施例1中的相关描述，此处不再赘述。
74.实施例3
75.根据本发明实施例，提供了一种计算机存储介质，计算机存储介质存储有多条指令，指令适于由处理器加载并执行实施例1中的方法步骤。
76.本实施例中，通过获取待处理视频所包含的多个目标视频帧；基于特征提取模型提取多个目标视频帧的特征信息；基于特征信息从多个目标视频帧中抽取多个第一关键帧，并将多个第一关键帧进行融合得到待处理视频的静态摘要；以及基于特征信息从多个目标视频帧中抽取至少一个第二关键帧，并根据第二关键帧对待处理视频进行视频截取，得到待处理视频对应的动态摘要。可以实现对待处理视频的目标视频帧对应的三维特征向量进行降维处理，得到整个视频的特征矩阵，基于特征矩阵表示的特征信息从多个目标视频帧中抽取多个第一关键帧，对对个第一关键帧进行融合得到静态视频摘要，或从多个目标视频帧中抽取多个第二关键帧，根据多个关键帧对待处理视频进行视频截取得到动态视频摘要，降低了视频检索技术的难度，提高了视频检索的效率，解决了相关技术中通过人工从教学录播软件中获取教学视频摘要，导致效率低的技术问题。
77.实施例4
78.根据本技术实施例，提供了一种智能交互平板，包括：处理器和存储器；其中，存储器存储有计算机程序，计算机程序适于由处理器加载并执行实施例1中任意一项的方法步骤。
79.图4是本技术实施例提供的一种智能交互平板的示意图，该智能交互平板包含上述的交互设备主体和触摸框，结合图4所示，智能交互平板1000可以包括：至少一个处理器1001，至少一个网络接口1004，用户接口1003，存储器1005，至少一个通信总线1002。
80.其中，通信总线1002用于实现这些组件之间的连接通信。
81.其中，用户接口1003可以包括显示屏(display)、摄像头(camera)，可选用户接口
1003还可以包括标准的有线接口、无线接口。
82.其中，网络接口1004可选的可以包括标准的有线接口、无线接口(如wi-fi接口)。
83.其中，处理器1001可以包括一个或者多个处理核心。处理器1001利用各种接口和线路连接整个智能交互平板1000内的各个部分，通过运行或执行存储在存储器1005内的指令、程序、代码集或指令集，以及调用存储在存储器1005内的数据，执行智能交互平板1000的各种功能和处理数据。可选的，处理器1001可以采用数字信号处理(digital signal processing，dsp)、现场可编程门阵列(field-programmable gate array，fpga)、可编程逻辑阵列(programmable logic array，pla)中的至少一种硬件形式来实现。处理器1001可集成中央处理器(central processing unit，cpu)、图像处理器(graphics processing unit，gpu)和调制解调器等中的一种或几种的组合。其中，cpu主要处理操作系统、用户界面和应用程序等；gpu用于负责显示屏所需要显示的内容的渲染和绘制；调制解调器用于处理无线通信。可以理解的是，上述调制解调器也可以不集成到处理器1001中，单独通过一块芯片进行实现。
84.其中，存储器1005可以包括随机存储器(random access memory，ram)，也可以包括只读存储器(read-only memory)。可选的，该存储器1005包括非瞬时性计算机可读介质(non-transitory computer-readable storage medium)。存储器1005可用于存储指令、程序、代码、代码集或指令集。存储器1005可包括存储程序区和存储数据区，其中，存储程序区可存储用于实现操作系统的指令、用于至少一个功能的指令(比如触控功能、声音播放功能、图像播放功能等)、用于实现上述各个方法实施例的指令等；存储数据区可存储上面各个方法实施例中涉及到的数据等。存储器1005可选的还可以是至少一个位于远离前述处理器1001的存储装置。如图4所示，作为一种计算机存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及智能交互平板的操作应用程序。
85.在图4所示的智能交互平板1000中，用户接口1003主要用于为用户提供输入的接口，获取用户输入的数据；而处理器1001可以用于调用存储器1005中存储的智能交互平板的操作应用程序，并具体执行实施例1中的任意一项操作。
86.上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。
87.在本发明的上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。
88.在本技术所提供的几个实施例中，应该理解到，所揭露的技术内容，可通过其它的方式实现。其中，以上所描述的装置实施例仅仅是示意性的，例如所述单元的划分，可以为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，单元或模块的间接耦合或通信连接，可以是电性或其它的形式。
89.所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
90.另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单
元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。
91.所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：u盘、只读存储器(rom，read-only memory)、随机存取存储器(ram，random access memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
92.以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

再多了解一些

1/2 1 2 下一页尾页

本文用于创业者技术爱好者查询，仅供学习研究，如用于商业用途，请联系技术所有人。

上一篇：图像处理方法、智能终端及存储介质与流程
下一篇：图像处理方法、装置、设备及存储介质与流程

视频的处理方法、装置、计算机存储介质及智能交互平板与流程

相关文献

最热文献