视频处理方法、装置、计算机设备和存储介质与流程

2021-10-29 20:06:00 来源：中国专利 TAG：计算机装置视频处理方法设备

1.本技术涉及计算机技术领域，特别是涉及一种视频处理方法、装置、计算机设备和存储介质。

背景技术：

2.随着计算机技术和互联网技术的发展，视频成为人们获取信息的重要渠道之一，视频形式也愈发多样，比如直播视频、电商视频、自媒体视频等，各种视频形式相互促进、不断发展。
3.在一些场景中，用户需要从视频中获得简短的视频内容，例如，视频中的精华视频内容或是视频中的关键视频内容，这些简短的视频可使用户快速了解视频的大概内容。然而，目前一般是通过人工粗略地从原始的视频中选取部分视频内容，该种方式选取的视频内容往往不够准确。

技术实现要素：

4.基于此，有必要针对上述技术问题，提供一种能够提高从视频中抽取核心内容的准确性的视频处理方法、装置、计算机设备和存储介质。
5.一种视频处理方法，该方法包括：
6.获取待处理视频，待处理视频用于描述目标对象；
7.将待处理视频划分为多个视频片段后，获得各视频片段在待处理视频中的位置信息，各视频片段用于描述目标对象的不同内容；
8.将各视频片段分别划分为多个视频单元；
9.基于各视频单元对应的视频特征和各视频单元所在的视频片段对应的位置信息，获得各视频单元的内容核心程度；
10.根据内容核心程度，从待处理视频中确定描述目标对象的核心视频。
11.在一个实施例中，将待处理视频划分为多个视频片段，包括：
12.获取待处理视频中各视频帧的特征向量；
13.根据特征向量对各视频帧进行聚类处理，得到多个聚类簇；
14.根据划分至同一个聚类簇的视频帧，得到多个视频片段。
15.在一个实施例中，根据特征向量对各视频帧进行聚类处理，得到多个聚类簇，包括：
16.从待处理视频的各视频帧中选取目标数量的视频帧，作为聚类中心；
17.根据各视频帧的特征向量与聚类中心的特征向量之间的相似度，对各视频帧进行聚类处理，得到目标数量的聚类簇。
18.在一个实施例中，该方法还包括：
19.在按照目标数量进行聚类处理并获得视频片段后，遍历待处理视频的各视频帧；
20.确定遍历的当前视频帧与同一视频片段中其它视频帧之间的簇内相似度；
21.确定遍历的当前视频帧与其他视频片段之间的簇外相似度；
22.根据簇内相似度与簇外相似度之间的差异，确定当前视频帧对应的聚类系数；
23.根据遍历结束后所获得的待处理视频中各视频帧对应的聚类系数，确定按目标数量进行聚类处理所对应的聚类分数；
24.根据聚类分数最高时目标数量所对应的聚类簇，确定待处理视频对应的多个视频片段。
25.在一个实施例中，将各视频片段分别划分为多个视频单元，包括：
26.获取视频片段中各视频帧的特征向量；
27.根据特征向量对视频片段中各视频帧进行聚类处理，得到多个聚类簇；
28.根据划分至同一个聚类簇的视频帧，得到多个视频单元。
29.在一个实施例中，根据特征向量对视频片段中各视频帧进行聚类处理，得到多个聚类簇，包括：
30.从视频片段的各视频帧中选取目标数量的视频帧，作为聚类中心；
31.根据各视频帧的特征向量与聚类中心的特征向量之间的相似度，对视频片段中各视频帧进行聚类处理，得到目标数量的聚类簇。
32.在一个实施例中，该方法还包括：
33.在按照目标数量进行聚类处理并获得视频单元后，遍历视频片段的各视频帧；
34.确定遍历的当前视频帧与同一视频单元中其它视频帧之间的簇内相似度；
35.确定遍历的当前视频帧与其他视频单元之间的簇外相似度；
36.根据簇内相似度与簇外相似度之间的差异，确定当前视频帧对应的聚类系数；
37.根据遍历结束后所获得的视频片段中各视频帧对应的聚类系数，确定按目标数量进行聚类处理所对应的聚类分数；
38.根据聚类分数最高时目标数量所对应的聚类簇，确定视频片段对应的多个视频单元。
39.在一个实施例中，该方法还包括：
40.将待处理视频输入训练好的核心视频生成模型；
41.通过核心视频生成模型中的特征向量生成网络，对待处理视频中各视频帧进行特征向量提取，获得各视频帧对应的特征向量。
42.在一个实施例中，获得各视频片段在待处理视频中的位置信息，包括：
43.获取视频片段中各视频帧在待处理视频中的先后顺序；
44.根据先后顺序确定视频帧所在的视频片段在待处理视频中的位置信息。
45.在一个实施例中，基于各视频单元对应的视频特征和各视频单元所在的视频片段对应的位置信息，获得各视频单元的内容核心程度，包括：
46.根据各视频单元对应的图像特征和各视频单元所在的视频片段对应的位置信息，确定各视频单元的图像核心分数；
47.根据各视频单元对应的音频特征和各视频单元所在的视频片段对应的位置信息，确定各视频单元的音频核心分数；
48.融合各视频单元的图像核心分数和音频核心分数，获得各视频单元的内容核心程度。
49.在一个实施例中，根据各视频单元对应的图像特征和各视频单元所在的视频片段对应的位置信息，确定各视频单元的图像核心分数，包括：
50.获取各视频单元的位置信息对应的特征向量；
51.依次将各视频单元对应的图像特征和特征向量，输入训练好的核心视频生成模型中的图像评估网络，得到各视频单元的图像核心分数。
52.在一个实施例中，根据各视频单元对应的音频特征和各视频单元所在的视频片段对应的位置信息，确定各视频单元的音频核心分数，包括：
53.获取各视频单元的位置信息对应的特征向量；
54.依次将各视频单元对应的音频特征和特征向量，输入训练好的核心视频生成模型中的音频评估网络，得到各视频单元的音频核心分数。
55.在一个实施例中，融合各视频单元的图像核心分数和音频核心分数，获得各视频单元的内容核心程度，包括：
56.获取图像核心分数与音频核心分数各自对应的权重；
57.按照权重对各视频单元的图像核心分数与音频核心分数进行加权求和，获得各视频单元的内容核心程度。
58.在一个实施例中，根据内容核心程度，从待处理视频中确定描述目标对象的核心视频，包括：
59.根据各视频单元及相应的内容核心程度，确定待处理视频对应的核心程度分布曲线；
60.根据核心程度分布曲线，从划分出的视频单元中筛选内容核心程度高于阈值的视频单元；
61.根据筛选出的视频单元生成描述目标对象的核心视频。
62.在一个实施例中，该方法还包括：
63.在将各视频片段分别划分为多个视频单元后，获得各视频单元在待处理视频中的位置信息；
64.基于各视频单元对应的视频特征和各视频单元在待处理视频中的位置信息，获得各视频单元的内容核心程度。
65.在一个实施例中，获取待处理视频，包括：
66.获取描述商品的待处理视频；
67.根据内容核心程度，从待处理视频中确定描述目标对象的核心视频，包括：
68.根据内容核心程度确定描述商品的关键信息的视频单元；
69.根据确定的视频单元生成描述商品的关键信息的核心视频。
70.在一个实施例中，核心视频通过核心视频生成模型获得，核心视频生成模型的训练步骤，包括：
71.获取样本视频以及样本视频对应的标注核心视频；
72.将样本视频输入核心视频生成模型；
73.通过核心视频生成模型将样本视频划分为多个视频片段后，获得各视频片段在样本视频中的位置信息，将各视频片段分别划分为多个视频单元，基于各视频单元对应的视频特征和各视频单元所在的视频片段对应的位置信息，获得各视频单元的内容核心程度，
根据内容核心程度，从样本视频中确定描述目标对象的预测核心视频；
74.基于标注核心视频与预测核心视频构造损失函数；
75.根据损失函数更新核心视频生成模型的模型参数后，返回获取样本视频以及样本视频对应的标注核心视频的步骤继续训练，直至满足训练停止条件时，获得训练好的核心视频生成模型。
76.一种视频处理装置，该装置包括：
77.获取模块，用于获取待处理视频，待处理视频用于描述目标对象；
78.划分模块，用于将待处理视频划分为多个视频片段后，获得各视频片段在待处理视频中的位置信息，各视频片段用于描述目标对象的不同内容；
79.划分模块，还用于将各视频片段分别划分为多个视频单元；
80.获取模块，还用于基于各视频单元对应的视频特征和各视频单元所在的视频片段对应的位置信息，获得各视频单元的内容核心程度；
81.确定模块，用于根据内容核心程度，从待处理视频中确定描述目标对象的核心视频。
82.一种计算机设备，包括存储器和处理器，存储器存储有计算机程序，处理器执行计算机程序时实现以下步骤：
83.获取待处理视频，待处理视频用于描述目标对象；
84.将待处理视频划分为多个视频片段后，获得各视频片段在待处理视频中的位置信息，各视频片段用于描述目标对象的不同内容；
85.将各视频片段分别划分为多个视频单元；
86.基于各视频单元对应的视频特征和各视频单元所在的视频片段对应的位置信息，获得各视频单元的内容核心程度；
87.根据内容核心程度，从待处理视频中确定描述目标对象的核心视频。
88.一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现以下步骤：
89.获取待处理视频，待处理视频用于描述目标对象；
90.将待处理视频划分为多个视频片段后，获得各视频片段在待处理视频中的位置信息，各视频片段用于描述目标对象的不同内容；
91.将各视频片段分别划分为多个视频单元；
92.基于各视频单元对应的视频特征和各视频单元所在的视频片段对应的位置信息，获得各视频单元的内容核心程度；
93.根据内容核心程度，从待处理视频中确定描述目标对象的核心视频。
94.一种计算机程序，计算机程序包括计算机指令，计算机指令存储在计算机可读存储介质中，计算机设备的处理器从计算机可读存储介质读取计算机指令，处理器执行计算机指令，使得计算机设备执行上述视频处理方法的步骤。
95.上述视频处理方法、装置、计算机设备和存储介质，在从视频中抽取核心部分时，利用核心部分在视频中的相对位置具有共通点这一特性，首先，将视频划分为多个视频片段，使得各视频片段描述目标对象的不同内容，相对于传统技术中按照指定时长对待处理视频进行均分的方式，能够保证视频中描述目标对象的各内容的完整性；接着，获取各视频
片段在待处理视频中的位置信息，按照该种划分方式所获得的位置信息，能够反映视频片段包含核心部分的可能性；接着，将各视频片段分别划分为多个视频单元，基于各视频单元对应的视频特征和各视频单元所在的视频片段对应的位置信息，获得各视频单元的内容核心程度，结合位置信息所获得的内容核心程度，能够更加准确地反映视频单元是核心部分的可能性，故根据内容核心程度从待处理视频中确定核心视频，能够提高从视频中抽取核心部分的准确性。
附图说明
96.图1为一个实施例中视频处理方法的应用环境图；
97.图2为一个实施例中视频处理方法的流程示意图；
98.图3为一个实施例中视频处理页面的界面示意图；
99.图4为一个实施例中视频处理方法的流程框图；
100.图5为一个实施例中从电商直播视频提取核心部分的示意图；
101.图6为一个实施例中将待处理视频划分为视频片段的细化流程示意图；
102.图7为一个实施例中将视频片段分别划分为视频单元的细化流程示意图；
103.图8为一个实施例中获得视频单元的内容核心程度的细化流程示意图；
104.图9(a)为一个实施例中核心视频生成模型的结构示意图；
105.图9(b)为一个实施例中核心视频生成模型的部分结构示意图；
106.图10为一个实施例中确定核心程度分布曲线的流程框图；
107.图11为另一个实施例中视频处理方法的流程示意图；
108.图12为一个实施例中视频处理装置的结构框图；
109.图13为一个实施例中计算机设备的内部结构图；
110.图14为另一个实施例中计算机设备的内部结构图。
具体实施方式
111.为了使本技术的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本技术进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本技术，并不用于限定本技术。
112.本技术提供的视频处理方法，涉及机器学习(machine learning,ml)技术，机器学习是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。
113.本技术提供的视频处理方法，可以应用于如图1所示的应用环境中。其中，终端102通过网络与服务器104进行通信。终端102获取描述目标对象的待处理视频，将待处理视频发送至服务器104，服务器104将待处理视频划分为多个视频片段后，获得各视频片段在待处理视频中的位置信息，各视频片段用于描述目标对象的不同内容；服务器104将各视频片段分别划分为多个视频单元；服务器104基于各视频单元对应的视频特征和各视频单元所
在的视频片段对应的位置信息，获得各视频单元的内容核心程度；服务器104根据内容核心程度，从待处理视频中确定描述目标对象的核心视频。服务器104还可以将核心视频返回至终端102，终端102显示核心视频。
114.其中，终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备，服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。
115.本技术实施例提供的视频处理方法，其执行主体可以是本技术实施例提供的视频处理装置，或者集成了该视频处理装置的计算机设备，其中该视频处理装置可以采用硬件或软件的方式实现。计算机设备可以是图1中所示的终端102 或服务器104。
116.本技术实施例提供的视频处理方法，可用于从各类视频中抽取高光时刻。视频的高光时刻指的是视频的核心部分，即最能体现视频的关键内容、精彩之处以及视频制作目的的部分。比如，一段视频的时长为60秒，其中第20秒至 30秒、第35秒至45秒是视频的核心部分，那么通过本技术实施例能够自动将第20秒至30秒、第35秒至45秒的部分从视频中抽取出来。其中，各类视频包括但不限于电视视频广告、网络视频广告、电商视频、视频博客、自媒体视频，等等。
117.以电商直播为例，电商直播用于向直播观看用户推荐商品，以引起直播观看用户的购买欲望，从而达到商品促销的目的。电商直播的高光时刻即介绍商品关键信息的部分。商品关键信息是描述商品特性的信息。比如，对于扫地机器人来说，其关键信息就是扫地机器人的功能、使用方法、扫地效果、购买方式等。
118.本技术实施例提供的视频处理方法，还可以应用于广告制作场景、短视频制作场景、视频编辑场景，等等。
119.例如，在广告制作场景中，一段视频的总时长为60秒，而广告位只有30 秒，可通过本技术实施例提供的方法，从60秒的视频中抽取30秒的核心部分，即最能体现商品关键信息的部分，作为广告内容呈现给大众。广告位可以是电视广告位或者网络广告位。
120.又例如，在短视频制作场景中，继续参照上述电商直播的例子，可以理解，为了活跃直播气氛，主播常常与直播观看用户聊天互动，而聊天内容大多与商品无关。在直播结束后，可通过本技术实施例提供的方法，从录制的直播中抽取核心部分作为短视频内容投放至短视频平台，以达到宣传商品的目的。
121.再例如，在视频编辑场景中，视频创作者录制了一个美妆视频，为了提升粉丝粘度，视频创作者在美妆教程中穿插着分享日常生活，使得视频总时长过长。通过本技术实施例提供的方法，可从录制的视频中抽取美妆教程部分，在降低视频总时长的同时，还能保留视频的核心部分。
122.在一个实施例中，如图2所示，提供了一种视频处理方法，本实施例主要以该方法应用于计算机设备(上述图1中的终端102或服务器104)来举例说明，包括以下步骤：
123.步骤s202，获取待处理视频，待处理视频用于描述目标对象。
124.其中，待处理视频是待通过本技术实施例抽取高光时刻的视频。待处理视频包括但不限于电视视频广告、网络视频广告、电商视频、视频博客、自媒体视频，等等。目标对象是待处理视频着重描述的对象，具体可以是商品、物品、教程、经验总结，等等。比如，视频拍摄用户通过视频介绍商品，视频观看用户基于该视频即可了解到商品的性能、购买方式等。
125.在一个实施例中，计算机设备可获取本机存储的待处理视频。例如，终端可根据用户操作启动其上安装的视频处理应用，并进入视频处理页面，视频处理页面中包括视频上传入口，响应于对视频上传入口的触发操作，获取从本地存储的视频中选中的待处理视频。举例说明，参照图3，图3为一个实施例中视频处理页面的界面示意图。可以看到，图3中包括视频上传入口302，用户点击视频上传入口302，即可从本地存储的视频中选择待处理视频。
126.在另一些实施例中，计算机设备也可以获取从网络上下载的待处理视频，例如视频处理页面中可包括视频地址输入区域，响应于在视频地址输入区域的输入操作，获取与视频地址相对应的待处理视频。计算机设备还可以获取其他计算机设备传递的待处理视频，例如上述图1中服务器104获取终端102传递的待处理视频。
127.在一个实施例中，终端获取待处理视频，由终端对待处理视频进行处理，以从待处理视频中抽取核心部分。在另一个实施例中，终端获取待处理视频，将待处理视频发送至服务器，由服务器对待处理视频进行处理，以从待处理视频中抽取核心部分。
128.步骤s204，将待处理视频划分为多个视频片段后，获得各视频片段在待处理视频中的位置信息，各视频片段用于描述目标对象的不同内容。
129.其中，计算机设备将待处理视频的视频帧划分为多个部分，每个部分所包含的视频帧构成一个视频片段。参照图4，图4为一个实施例中视频处理方法的流程框图。可以看到，计算机设备先将待处理视频划分为视频片段a、视频片段b、视频片段c等多个视频片段。位置信息用于描述视频片段在待处理视频中的先后顺序。位置信息可以是由数字、字母中的至少一种构成的字符或者字符串，比如序号1、2、3等。视频片段的位置信息可由其所包含的视频帧在待处理视频中的先后顺序确定。
130.在一个实施例中，计算机设备将待处理视频划分为多个视频片段，各视频片段描述目标对象的内容不同。描述目标对象的内容不同，具体可以体现在是否涉及对目标对象的描述，也可以体现在描述的目标对象不同，还可以体现在描述同一个目标对象的主题内容不同。比如，将电商直播视频划分为多个视频片段，有的视频片段不涉及对商品的描述，有的视频片段描述商品a的内容，有的视频片段描述商品b的内容，等等。再比如，将电商直播视频划分为多个视频片段，有的视频片段不涉及对商品的描述，有的视频片段描述商品a的功能，有的视频片段描述商品a的使用方法，有的视频片段描述商品a的使用效果，等等。
131.下面介绍一下发明人将待处理视频划分为多个视频片段的思路：
132.首先，发明人对大量视频研究后发现，核心部分在视频中出现的相对位置具有共通点。以电商直播视频为例，主播通常会在直播开始时，先与直播观看用户聊天互动，聊天内容比如天气、餐饮等。接着主播会介绍本场直播推荐的商品，以服饰为例，主播会依次试穿并介绍该服饰的材质、版型、试穿效果、搭配建议等，并给出购买链接。其中，本场直播的核心部分出现在主播介绍本场直播推荐的商品的部分。由此可见，核心部分在电商直播视频中出现的相对位置具有规律性。
133.其次，为了利用核心部分在视频中出现的相对位置具有共通点这一特性，需要对视频进行划分。可按照描述目标对象的内容不同，将视频划分为多个部分。比如，按照是否涉及目标对象，可将视频初步划分为不涉及目标对象的部分和涉及目标对象的部分；而按照描述的目标对象不同，可将涉及目标对象的部分进一步划分为描述不同目标对象的部分；而按照描述同一个目标对象的主题内容不同，可将各描述不同目标对象的部分分别划
分为描述同一个目标对象不同主题内容的部分。以电商直播视频为例，参照图5，图5为一个实施例中从电商直播视频提取核心部分的示意图。可将电商直播视频划分为部分
①
、部分
②
和部分
③
，部分
①
是主播与直播观看用户聊天互动的部分，也即是本场直播中不涉及商品的部分；部分
②
和部分
③
是主播介绍不同商品的部分，也即是本场直播中描述不同商品的部分，其包括本场直播的核心部分。
134.接着，由于视频各部分所呈现的内容存在差异，这个差异体现在视频画面、视频语音、视频时长等方面。继续参照图5，对比部分
①
、部分
②
和部分
③
，仅从视频画面来看，视频主体(即主播)在屏幕的占比、位置等，以及视频主体自身的因素比如服饰等均存在差异。由于视频同一部分所呈现的内容存在相似性，这个相似性主要体现在视频画面、视频语音等方面。继续参照图5，以部分
②
为例，视频主体在屏幕的占比、位置等，以及视频主体自身的因素比如服饰等均存在相似性。因此可利用视频各部分存在差异，且同一部分存在相似性这一特性，自动对待处理视频进行划分。
135.在一个实施例中，计算机设备可通过视频划分策略对待处理视频进行划分。视频划分策略可以是视频分割网络或者聚类算法等。其中，视频分割网络是通过样本学习具备视频划分能力的模型结构。该视频分割网络的输入端为视频，输出端为多个视频片段。视频分割网络可包括多层网络结构，不同的网络层对输入其的数据进行不同的处理，并输出处理结果至下一网络层。关于通过聚类算法对待处理视频进行划分的具体实现方式，可参照后面的实施例，在此不再赘述。
136.由于视频中描述目标对象的不同内容的时长不同，比如描述商品a的功能是2分钟，描述商品a的使用方法是5分钟，按照描述目标对象的不同内容对待处理视频进行划分，相对于传统技术中按照指定时长对待处理视频进行均分的方式，能够保证视频中描述目标对象的各内容的完整性；并且，按照该种划分方式获得的各视频片段的位置信息，能够在一定程度上反映该视频片段包含有核心部分的可能性。
137.在一个实施例中，获得各视频片段在待处理视频中的位置信息，包括：获取视频片段中各视频帧在待处理视频中的先后顺序；根据先后顺序确定视频帧所在的视频片段在待处理视频中的位置信息。
138.具体地，计算机设备对待处理视频的视频帧进行划分，获得各视频帧所属的视频片段，按照各视频帧在待处理视频中的先后顺序，确定每个视频片段的位置信息。
139.在一个具体的实施例中，计算机设备按照每个视频片段中，在待处理视频中排序最靠前的视频帧，确定每个视频片段的位置信息。比如，待处理视频划分为视频片段a、视频片段b、视频片段c和视频片段d四个视频片段，其中视频片段a包括第1
‑
100帧和第400
‑
500帧，视频片段b包括第101
‑
300帧，那么视频片段a的位置信息可以是1，视频片段b的位置信息可以是2。
140.步骤s206，将各视频片段分别划分为多个视频单元。
141.其中，对于每个视频片段，计算机设备将视频片段的视频帧划分为多个部分，每个部分所包含的视频帧构成一个视频单元。继续参照图4，可以看到，计算机设备在将待处理视频划分为视频片段a、视频片段b、视频片段c等多个视频片段后，对于每个视频片段，以视频片段a为例，进一步划分为视频单元 a1、视频单元a2等多个视频单元。
142.在一个实施例中，计算机设备将各视频片段分别划分为多个视频单元，各视频单
元描述的目标对象的内容不同。这里的描述目标对象的内容不同，具体可以体现在描述同一个目标对象的主题内容不同。比如，一视频片段描述商品a 的内容，将视频片段分别划分为多个视频单元，有的视频单元描述商品a的功能，有的视频单元描述商品a的使用方法，有的视频单元描述商品a的使用效果，等等。再比如，一视频片段描述商品a的功能，将视频片段分别划分为多个视频单元，有的视频单元描述商品a的功能1，有的视频单元描述商品a的功能2，有的视频单元描述商品a的功能3，等等。
143.本技术先将待处理视频划分为多个视频片段，获得各视频片段在待处理视频中的位置信息，再将视频片段划分为多个视频单元，也就是说，本技术包括两次分割操作。本技术之所以采用两次分割操作，而不是一次分割操作，目的是通过第一次划分操作获得各视频片段的位置信息，将该位置信息作为位置特征参与核心视频的生成过程。
144.对于第一次划分操作，由于视频中描述目标对象不同内容的时长不同，按照描述目标对象的不同内容对待处理视频进行划分，能够保证视频中描述目标对象的各内容的完整性，并且按照该种划分方式获得的各视频片段的位置信息，能够在一定程度上反映该视频片段包含有核心部分的可能性。对于第二次划分操作，将视频片段划分为多个视频单元，是为了从每个视频片段中找寻亮点。比如，一视频片段描述商品a的材质，其时长为20秒，其中5秒最能突出商品a材质的优势，这5秒即为该视频片段的亮点。
145.这样，结合第一次划分操作得到的各视频片段的位置信息和第二次划分操作得到的各视频单元的视频特征，能够从待处理视频中准确识别得到属于核心部分的视频单元。
146.在一个实施例中，计算机设备可通过视频划分策略对视频片段进行划分。视频划分策略可以是视频片段分割网络或者聚类算法等。其中，视频片段分割网络是通过样本学习具备视频片段划分能力的模型结构。该视频片段分割网络的输入端为视频片段，输出端为多个视频单元。视频片段分割网络可包括多层网络结构，不同的网络层对输入其的数据进行不同的处理，并输出处理结果至下一网络层。关于通过聚类算法对视频片段进行划分的具体实现方式，可参照后面的实施例，在此不再赘述。
147.步骤s208，基于各视频单元对应的视频特征和各视频单元所在的视频片段对应的位置信息，获得各视频单元的内容核心程度。
148.其中，视频特征是反映视频的固有特性的数据。内容核心程度用于描述视频单元为核心部分的可能性，内容核心程度与视频单元为核心部分的可能性呈正相关。继续参照图4，可以看到，计算机设备获取各视频单元的内容核心程度，以按照内容核心程度，从各视频单元中筛选得到属于核心部分的视频单元。
149.在一个实施例中，视频特征包括音频特征和图像特征中的至少一种。音频特征是反映视频音频的固有特性的数据。图像特征是反映视频画面的固有特性的数据。计算机设备从待处理视频中提取各视频帧对应的音频元素和图像元素，基于视频单元所包含的视频帧对应的音频元素，确定该视频单元对应的音频特征，基于视频单元所包含的视频帧对应的图像元素，确定该视频单元对应的图像特征。可以理解，通用的音频特征和图像特征即可满足本技术对视频特征的需求，因此可从待处理视频中提取通用的音频特征和图像特征，作为本技术中的视频特征。
150.在一个实施例中，计算机设备可通过特征提取策略从待处理视频中提取视频特征。特征提取策略可以是特征提取网络或者通用的特征提取算法等。其中，特征提取网络是
通过样本学习具备特征提取能力的模型结构。特征提取网络的输入端为视频单元，输出端为视频特征。特征提取网络也可包括音频特征提取网络和图像特征提取网络中的至少一种，音频特征提取网络的输入端为音频元素，输出端为音频特征，图像特征提取网络的输入端为图像元素，输出端为图像特征。
151.在一个实施例中，计算机设备将各视频单元对应的视频特征和各视频单元所在的视频片段对应的位置信息，输入训练后的内容核心程度评价网络中，得到各视频单元的内容核心程度。其中，内容核心程度评价网络是通过样本学习具备内容核心程度评价能力的模型结构。
152.在获取视频单元的内容核心程度时，由于位置信息能够在一定程度上反映视频片段包含有核心部分的可能性，因此结合各视频单元所在的视频片段对应的位置信息所获取得到的内容核心程度更加准确。
153.步骤s210，根据内容核心程度，从待处理视频中确定描述目标对象的核心视频。
154.其中，核心视频是仅包含待处理视频的核心部分的视频。具体地，计算机设备可根据各视频单元的内容核心程度，由高至低选取视频单元，根据选取的视频单元生成核心视频。
155.可以理解，可预先设定核心视频的时长。计算机设备按照预先设定的时长，根据各视频单元的内容核心程度，由高至低选取视频单元。若选取得到的视频单元的时长大于预先设定的时长，计算机设备可减少最后选取的视频单元的视频帧数量。
156.在一个实施例中，计算机设备根据选取的视频单元中各视频帧在待处理视频的先后顺序，生成核心视频。
157.将本技术提供的方法与传统方法进行比较，采用召回率和准确率评价核心部分抽取效果，如下表一所示：
[0158] 召回率准确率本技术提供的方法71.5％69.2％传统方法168.8％62.7％传统方法267.4％59.6％
[0159]
表一
[0160]
由此可见，通过本技术提供的方法，能够极大地提升从视频中抽取核心部分的准确性。
[0161]
上述视频处理方法中，在从视频中抽取核心部分时，利用核心部分在视频中的相对位置具有共通点这一特性，首先，将视频划分为多个视频片段，使得各视频片段描述目标对象的不同内容，相对于传统技术中按照指定时长对待处理视频进行均分的方式，能够保证视频中描述目标对象的各内容的完整性；接着，获取各视频片段在待处理视频中的位置信息，按照该种划分方式所获得的位置信息，能够反映视频片段包含核心部分的可能性；接着，将各视频片段分别划分为多个视频单元，基于各视频单元对应的视频特征和各视频单元所在的视频片段对应的位置信息，获得各视频单元的内容核心程度，结合位置信息所获得的内容核心程度，能够更加准确地反映视频单元是核心部分的可能性，故根据内容核心程度从待处理视频中确定核心视频，能够提高从视频中抽取核心部分的准确性。
[0162]
在一个实施例中，如图6所示，将待处理视频划分为多个视频片段，包括：
[0163]
步骤s602，获取待处理视频中各视频帧的特征向量。
[0164]
其中，特征向量是指将其它形式的数据以数学形式进行表达的结果。比如，将视频帧表示为数学形式“[0 0 0 1 0 0 0 0 0 0 0...]”，此时，“[0 0 0 1 0 0 0 0 0 00...]”即为对视频帧进行向量化处理的结果，即为视频帧的特征向量。可以理解，这里不限定将视频帧转换为何种表示的向量，只要能够将视频帧进行数学化表示即可。比如可将视频帧转换为高维稀疏向量或者低维稠密向量。
[0165]
具体地，计算机设备将待处理视频的各视频帧转换为特征向量。比如待处理视频具有n个视频帧，则可以得到n个特征向量。
[0166]
步骤s604，根据特征向量对各视频帧进行聚类处理，得到多个聚类簇。
[0167]
其中，聚类处理是将相似的数据对象自动归到一个类别中。聚类簇是一组数据对象的集合。
[0168]
具体地，计算机设备对各特征向量进行聚类处理，将相似的特征向量划分至同一个聚类簇中，将迥异的特征向量划分至不同的聚类簇中，使得划分至同一个聚类簇的特征向量所对应的视频帧具有相似性。
[0169]
在一个实施例中，计算机设备可通过通用的聚类算法对各特征向量进行聚类处理，比如k
‑
means聚类算法、k
‑
means 聚类算法、ap(affinity propagationclustering algorithm)聚类算法、基于密度的聚类算法、凝聚层次聚类算法、分裂层次聚类算法，等等。
[0170]
在一个实施例中，步骤s604包括：从待处理视频的各视频帧中选取目标数量的视频帧，作为聚类中心；根据各视频帧的特征向量与聚类中心的特征向量之间的相似度，对各视频帧进行聚类处理，得到目标数量的聚类簇。
[0171]
其中，特征向量之间的相似度可通过特征向量之间的向量距离进行表征。
[0172]
具体地，计算机设备将待处理视频的各视频帧划分为目标数量的视频片段，各视频片段描述目标对象的不同内容。目标数量可根据待处理视频的总时长确定。比如，目标数量的取值范围可设置为：r(t/15)≤n≤r(t/10)，其中r表示取整数，t表示待处理视频的总时长，n表示目标数量。
[0173]
具体地，计算机设备从待处理视频的各视频帧中选取目标数量的视频帧，将选取的视频帧的特征向量作为聚类中心，对于各剩余的视频帧，计算视频帧的特征向量与各聚类中心的特征向量之间的相似度，将视频帧的特征向量划分至与其相似度最大的聚类中心所对应的聚类簇中。对于各聚类簇，每加入一个视频帧的特征向量，则重新计算该聚类簇所对应的聚类中心，直至所有的视频帧的特征向量分配完成。
[0174]
在一个实施例中，计算机设备可随机选取目标数量的视频帧，将选取的视频帧的特征向量作为聚类中心。在另一个实施例中，计算机设备可先随机选取其中一个视频帧，将该视频帧的特征向量作为聚类中心，计算各剩余的视频帧的特征向量与聚类中心的特征向量之间的相似度，相似度越大，表示该视频帧的特征向量作为下一个聚类中心的可能性越大。基于轮盘模式选取可能性最大的视频帧的特征向量作为下一个聚类中心，直至选取得到目标数量的聚类中心。
[0175]
具体地，计算机设备将待处理视频的各视频帧划分为目标数量的聚类簇后，对本次聚类结果进行评估。
[0176]
在一个实施例中，该方法还包括：在按照目标数量进行聚类处理并获得视频片段
后，遍历待处理视频的各视频帧；确定遍历的当前视频帧与同一视频片段中其它视频帧之间的簇内相似度；确定遍历的当前视频帧与其他视频片段之间的簇外相似度；根据簇内相似度与簇外相似度之间的差异，确定当前视频帧对应的聚类系数；根据遍历结束后所获得的待处理视频中各视频帧对应的聚类系数，确定按目标数量进行聚类处理所对应的聚类分数；根据聚类分数最高时目标数量所对应的聚类簇，确定待处理视频对应的多个视频片段。
[0177]
其中，簇内相似度用于描述当前视频帧与同一视频片段中其它视频帧之间的相似度。簇内相似度可以是当前视频帧与同一视频片段中其中一个视频帧之间的相似度，也可以是当前视频帧与同一视频片段中多于一个视频帧之间的相似度均值。簇内相似度越大，说明当前视频帧属于当前的视频片段的可能性越大。簇外相似度用于描述当前视频帧与其他视频片段中视频帧之间的相似度。簇外相似度可以是当前视频帧与其他视频片段中其中一个视频帧之间的相似度，也可以是当前视频帧与其他视频片段中多于一个视频帧之间的相似度均值，还可以是当前视频帧与多于一个其他视频片段的相似度均值中的极值或均值。簇外相似度越小，说明当前视频帧属于当前的视频片段的可能性越大，属于其他视频片段的可能性越小。
[0178]
在一个实施例中，计算机设备遍历待处理视频的各视频帧，确定当前视频帧i与同一视频片段(比如f
a
)中其它视频帧之间的相似度均值v
ia
，将v
ia
作为簇内相似度。确定当前视频帧i与其他视频片段(比如fb、f
c
)分别对应的相似度均值v
ib
、v
ic
，从v
ib
、v
ic
中选取最小值v
i
‑
min
作为簇外相似度。
[0179]
具体地，计算机设备根据簇内相似度与簇外相似度之间的差异，确定当前视频帧对应的聚类系数。在一个实施例中，计算机设备根据簇内相似度与簇外相似度之间的差值，确定当前视频帧对应的聚类系数。比如，聚类系数s
i
可根据以下公式进行计算：
[0180][0181]
具体地，计算机设备根据遍历结束后所获得的待处理视频中各视频帧对应的聚类系数，确定本次聚类的聚类分数。在一个实施例中，计算机设备将各视频帧对应的聚类系数之和，作为本次聚类的聚类分数。
[0182]
具体地，计算机设备对待处理视频的各视频进行多次聚类，从中选取聚类分数最高时所对应的聚类结果，作为最终的聚类结果。
[0183]
本实施例中，对待处理视频的各视频帧进行多次聚类，且根据每次聚类的聚类分数，从中选取聚类效果最好的聚类结果作为最终的聚类结果，提高了对待处理视频划分的准确性。
[0184]
步骤s606，根据划分至同一个聚类簇的视频帧，得到多个视频片段。
[0185]
具体地，计算机设备将划分至同一个聚类簇的特征向量所对应的视频帧作为视频片段，由此得到描述目标对象的不同内容的多个视频片段。
[0186]
本实施例中，通过聚类算法将待处理视频划分为多个视频片段，使得多个视频片段分别描述目标对象的不同内容，提高了划分后所确定的位置信息的准确性。
[0187]
在一个实施例中，如图7所示，将各视频片段分别划分为多个视频单元，包括：
[0188]
步骤s702，获取视频片段中各视频帧的特征向量。
[0189]
具体地，计算机设备将视频片段的各视频帧转换为特征向量。比如视频片段包括n个视频帧，则可以得到n个特征向量。
[0190]
步骤s704，根据特征向量对视频片段中各视频帧进行聚类处理，得到多个聚类簇。
[0191]
具体地，计算机设备对各特征向量进行聚类处理，将相似的特征向量划分至同一个聚类簇中，将迥异的特征向量划分至不同的聚类簇中，使得划分至同一个聚类簇的特征向量所对应的视频帧具有相似性。
[0192]
在一个实施例中，计算机设备可通过通用的聚类算法对各特征向量进行聚类处理，比如k
‑
means聚类算法、k
‑
means 聚类算法、ap(affinity propagationclustering algorithm)聚类算法、基于密度的聚类算法、凝聚层次聚类算法、分裂层次聚类算法，等等。
[0193]
在一个实施例中，根据特征向量对视频片段中各视频帧进行聚类处理，得到多个聚类簇，包括：从视频片段的各视频帧中选取目标数量的视频帧，作为聚类中心；根据各视频帧的特征向量与聚类中心的特征向量之间的相似度，对视频片段中各视频帧进行聚类处理，得到目标数量的聚类簇。
[0194]
其中，特征向量之间的相似度可通过特征向量之间的向量距离进行表征。
[0195]
具体地，计算机设备将视频片段的各视频帧划分为目标数量的视频单元。目标数量可根据视频片段的时长确定。比如，目标数量的取值范围可设置为： r(t/15)≤n≤r(t/10)，其中r表示取整数，t表示视频片段的时长，n表示目标数量。
[0196]
具体地，计算机设备从视频片段的各视频帧中选取目标数量的视频帧，将选取的视频帧的特征向量作为聚类中心，对于各剩余的视频帧，计算视频帧的特征向量与各聚类中心的特征向量之间的相似度，将视频帧的特征向量划分至与其相似度最大的聚类中心所对应的聚类簇中。对于各聚类簇，每加入一个视频帧的特征向量，则重新计算该聚类簇所对应的聚类中心，直至所有的视频帧的特征向量分配完成。
[0197]
在一个实施例中，计算机设备可随机选取目标数量的视频帧，将选取的视频帧的特征向量作为聚类中心。在另一个实施例中，计算机设备可先随机选取其中一个视频帧，将该视频帧的特征向量作为聚类中心，计算各剩余的视频帧的特征向量与聚类中心的特征向量之间的相似度，相似度越大，表示该视频帧的特征向量作为下一个聚类中心的可能性越大。基于轮盘模式选取可能性最大的视频帧的特征向量作为下一个聚类中心，直至选取得到目标数量的聚类中心。
[0198]
具体地，计算机设备将视频片段的各视频帧划分为目标数量的聚类簇后，对本次聚类结果进行评估。
[0199]
在一个实施例中，该方法还包括：在按照目标数量进行聚类处理并获得视频单元后，遍历视频片段的各视频帧；确定遍历的当前视频帧与同一视频单元中其它视频帧之间的簇内相似度；确定遍历的当前视频帧与其他视频单元之间的簇外相似度；根据簇内相似度与簇外相似度之间的差异，确定当前视频帧对应的聚类系数；根据遍历结束后所获得的视频片段中各视频帧对应的聚类系数，确定按目标数量进行聚类处理所对应的聚类分数；根据聚类分数最高时目标数量所对应的聚类簇，确定视频片段对应的多个视频单元。
[0200]
其中，簇内相似度用于描述当前视频帧与同一视频单元中其它视频帧之间的相似度。簇内相似度可以是当前视频帧与同一视频单元中其中一个视频帧之间的相似度，也可以是当前视频帧与同一视频单元中多于一个视频帧之间的相似度均值。簇内相似度越大，
说明当前视频帧属于当前的视频单元的可能性越大。簇外相似度用于描述当前视频帧与其他视频单元中视频帧之间的相似度。簇外相似度可以是当前视频帧与其他视频单元中其中一个视频帧之间的相似度，也可以是当前视频帧与其他视频单元中多于一个视频帧之间的相似度均值，还可以是当前视频帧与多于一个其他视频单元的相似度均值中的极值或均值。簇外相似度越小，说明当前视频帧属于当前的视频单元的可能性越大，属于其他视频单元的可能性越小。
[0201]
在一个实施例中，计算机设备遍历视频片段的各视频帧，确定当前视频帧i 与同一视频单元(比如u
a
)中其它视频帧之间的相似度均值v
ia
，将v
ia
作为簇内相似度。确定当前视频帧i与其他视频单元(比如u
b
、u
c
)分别对应的相似度均值 v
ib
、v
ic
，从v
ib
、v
ic
中选取最小值v
i
‑
min
作为簇外相似度。
[0202]
具体地，计算机设备根据簇内相似度与簇外相似度之间的差异，确定当前视频帧对应的聚类系数。在一个实施例中，计算机设备根据簇内相似度与簇外相似度之间的差值，确定当前视频帧对应的聚类系数。比如，聚类系数s
i
可根据以下公式进行计算：
[0203][0204]
具体地，计算机设备根据遍历结束后所获得的视频片段中各视频帧对应的聚类系数，确定本次聚类的聚类分数。在一个实施例中，计算机设备将各视频帧对应的聚类系数之和，作为本次聚类的聚类分数。
[0205]
具体地，计算机设备对视频片段的各视频进行多次聚类，从中选取聚类分数最高时所对应的聚类结果，作为最终的聚类结果。
[0206]
本实施例中，对视频片段的各视频帧进行多次聚类，且根据每次聚类的聚类分数，从中选取聚类效果最好的聚类结果作为最终的聚类结果，提高了对视频片段划分的准确性。
[0207]
步骤s706，根据划分至同一个聚类簇的视频帧，得到多个视频单元。
[0208]
具体地，计算机设备将划分至同一个聚类簇的特征向量所对应的视频帧作为视频单元，由此得到多个视频单元。
[0209]
本实施例中，通过聚类算法将视频片段划分为多个视频单元，提高了对视频片段划分的准确性。
[0210]
在一个实施例中，该方法还包括：将待处理视频输入训练好的核心视频生成模型；通过核心视频生成模型中的特征向量生成网络，对待处理视频中各视频帧进行特征向量提取，获得各视频帧对应的特征向量。
[0211]
其中，核心视频生成模型是通过样本学习具备核心视频抽取能力的模型结构。特征向量生成网络是核心视频生成模型中的一部分模型结构，其具有根据输入的视频帧生成特征向量的能力。特征向量生成网络可包括多层网络结构，不同的网络层对输入其的数据进行不同的处理，并输出处理结果至下一网络层。
[0212]
具体地，计算机设备将待处理视频输入训练好的核心视频生成模型，通过核心视频生成模型的特征向量生成网络，对待处理视频中各视频帧进行特征向量提取，得到各视频帧对应的特征向量，以通过特征向量对视频帧进行聚类处理等。
[0213]
本实施例中，通过特征向量生成网络，将各视频帧映射至同一特征向量空间中，方便对各视频帧进行聚类处理等操作。
[0214]
在一个实施例中，如图8所示，基于各视频单元对应的视频特征和各视频单元所在的视频片段对应的位置信息，获得各视频单元的内容核心程度，包括：
[0215]
步骤s802，根据各视频单元对应的图像特征和各视频单元所在的视频片段对应的位置信息，确定各视频单元的图像核心分数。
[0216]
其中，图像特征可包括纹理特征、颜色特征、梯度特征、空间关系特征等。纹理特征描述了图像中各目标的表面性质。颜色特征描述了图像中各目标的颜色。梯度特征描述了图像中各目标的形状和结构。空间关系特征是指图像中分割出来的多个目标之间的相互的空间位置或相对方向关系，这些关系也可分为连接/邻接关系、交叠/重叠关系和包含/包容关系等。
[0217]
在一个实施例中，计算机设备从待处理视频中提取各视频帧对应的图像元素，基于视频单元所包含的视频帧对应的图像元素，确定该视频单元对应的图像特征。计算机设备可通过图像特征提取策略提取图像特征。图像特征提取策略可以是图像特征提取网络或者通用的图像特征提取算法等。比如，纹理特征可通过灰度共生矩阵法、voronio棋盘格特征法、小波变换法等提取，颜色特征可通过颜色直方图法、颜色集法、颜色矩法等提取，梯度特征可通过边界特征法、傅里叶形状描述符法、几何参数法、形状不变矩法等提取，空间关系特征可通过对图像进行分割，划分出图像所包含的对象或颜色区域，根据这些区域提取图像特征并建立索引的方式提取。
[0218]
具体地，计算机设备根据各视频单元对应的图像特征和各视频单元所在的视频片段对应的位置信息，通过图像评估策略，确定各视频单元的图像核心分数。该图像评估策略可以是图像评估算法或者图像评估网络等。
[0219]
在一个实施例中，步骤s802包括：获取各视频单元的位置信息对应的特征向量；依次将各视频单元对应的图像特征和特征向量，输入训练好的核心视频生成模型中的图像评估网络，得到各视频单元的图像核心分数。
[0220]
其中，图像核心分数反映视频单元的图像元素的内容核心程度。图像评估网络是核心视频生成模型中的一部分模型结构，其具有根据输入的图像特征和位置信息对应的特征向量生成图像核心分数的能力。图像评估网络可包括多层网络结构，不同的网络层对输入其的数据进行不同的处理，并输出处理结果至下一网络层。
[0221]
在一个实施例中，视频单元的位置信息对应的特征向量，可通过核心视频生成模型中的特征向量生成网络得到。计算机设备将视频单元的位置信息输入训练好的核心视频生成模型，通过核心视频生成模型的特征向量生成网络对位置信息进行特征向量提取，得到位置信息对应的特征向量。
[0222]
具体地，计算机设备将视频单元对应的图像特征和视频单元的位置信息对应的特征向量，输入训练好的核心视频生成模型中的图像评估网络，得到视频单元的图像核心分数。
[0223]
步骤s804，根据各视频单元对应的音频特征和各视频单元所在的视频片段对应的位置信息，确定各视频单元的音频核心分数。
[0224]
其中，音频特征可包括过零率特征、短时能量特征、短时自相关函数特征、短时平
均幅度差特征、语谱图特征、短时功率谱密度特征、谱熵特征、基频特征、共振峰特征，等等。
[0225]
在一个实施例中，计算机设备从待处理视频中提取各视频帧对应的音频元素，基于视频单元所包含的视频帧对应的音频元素，确定该视频单元对应的音频特征。计算机设备可通过音频特征提取策略提取音频特征。音频特征提取策略可以是音频特征提取网络或者通用的音频特征提取算法等。
[0226]
具体地，计算机设备根据各视频单元对应的音频特征和各视频单元所在的视频片段对应的位置信息，通过音频评估策略，确定各视频单元的音频核心分数。该音频评估策略可以是音频评估算法或者音频评估网络等。
[0227]
在一个实施例中，步骤s804包括：获取各视频单元的位置信息对应的特征向量；依次将各视频单元对应的音频特征和特征向量，输入训练好的核心视频生成模型中的音频评估网络，得到各视频单元的音频核心分数。
[0228]
其中，音频核心分数反映视频单元的音频元素的内容核心程度。音频评估网络是核心视频生成模型中的一部分模型结构，其具有根据输入的音频特征和位置信息对应的特征向量生成音频核心分数的能力。音频评估网络可包括多层网络结构，不同的网络层对输入其的数据进行不同的处理，并输出处理结果至下一网络层。
[0229]
具体地，计算机设备将视频单元对应的音频特征和视频单元的位置信息对应的特征向量，输入训练好的核心视频生成模型中的音频评估网络，得到视频单元的音频核心分数。
[0230]
步骤s806，融合各视频单元的图像核心分数和音频核心分数，获得各视频单元的内容核心程度。
[0231]
具体地，计算机设备根据各视频单元的图像核心分数和音频核心分数，确定各视频单元的内容核心程度，比如获取各视频单元的图像核心分数和音频核心分数之和，等等。
[0232]
在一个实施例中，步骤s806包括：获取图像核心分数与音频核心分数各自对应的权重；按照权重对各视频单元的图像核心分数与音频核心分数进行加权求和，获得各视频单元的内容核心程度。
[0233]
其中，图像核心分数与音频核心分数各自对应的权重可根据实际应用进行设定，比如图像核心分数对应的权重可以是0.7，音频核心分数对应的权重可以是0.3。
[0234]
具体地，计算机设备按照图像核心分数与音频核心分数各自对应的权重，对各视频单元的图像核心分数与音频核心分数进行加权求和，得到各视频单元的内容核心程度。
[0235]
本实施例中，基于各视频单元对应的图像特征、音频特征以及位置信息，对各视频单元的图像元素和音频元素的内容核心程度进行评估，能够准确地从各视频单元中筛选得到核心部分。
[0236]
在一个实施例中，核心视频可通过核心视频生成模型获得，下面对通过核心视频生成模型获取核心视频的步骤进行介绍。
[0237]
参照图9(a)，图9(a)为一个实施例中核心视频生成模型的结构示意图。可以看到，核心视频生成模型可包括特征向量生成网络902、特征向量生成网络910、图像评估网络912和音频评估网络914。而关于核心视频生成模型中的视频划分部分904，可采用聚类算法执行，也可采用视频分割网络执行；关于核心视频生成模型中的视频片段划分部分906，可采用聚类算法执行，也可采用视频片段分割网络执行；关于核心视频生成模型中的视频特征
提取部分908，可采用图像特征提取算法和音频特征提取算法执行，也可采用图像特征提取网络和音频特征提取网络执行。
[0238]
在一个实施例中，图像评估网络912和音频评估网络914可采用相同的网络结构，比如深度神经网络、deepfm等模型结构。图像评估网络和音频评估网络均可包括抽取低阶特征的部分和抽取高阶特征的部分，因此能够抽取丰富层次的图像特征。
[0239]
在一个实施例中，以deepfm模型结构为例，参照图9(b)，图像评估网络 912可包括抽取低阶特征的因子分解机部分9121和抽取高阶特征的前馈神经网络部分9122。因子分解机部分9121和前馈神经网络部分9122共用由特征向量生成网络910提供的特征，对于图像评估网络912而言，输入是图像特征与位置信息构成的输入向量x
o
，对于音频评估网络914而言，输入是音频特征与位置信息构成的输入向量x
o
。以图像评估网络912举例来说，向量因子分解机部分对输入向量x
o
进行特征交叉处理获得低阶特征，前馈神经网络部分利用不同的网络层对输入向量x
o
进行不同的处理获得高阶特征。具体地，前馈神经网络部分对输入向量x
o
的处理可通过以下公式进行表示：
[0240]
h1＝relu(w
h,o
*x
o
b
h,o
)
[0241]
其中，h1是前馈神经网络部分的首个网络层的处理结果；w
h,o
是模型权重； b
h,o
是常数系数。通过神经网络对图像特征与位置信息进行深度特征交叉，获得高阶特征。
[0242]
具体地，因子分解机部分对输入向量x
o
的处理可通过以下公式进行表示：
[0243]
x
c
＝x
oi
*x
oj
[0244]
其中，x
c
是因子分解机部分的首个网络层的处理结果；x
oi
是输入向量x
o
在第i特征维度的特征值；x
oj
是输入向量x
o
在第j特征维度的特征值。
[0245]
因子分解机部分的预测结果可通过以下公式表示：
[0246][0247]
其中，y
fm
是因子分解机部分的预测结果；w
fm
是模型权重；x
ci
是特征向量x
c
在第i特征维度的特征值；x
cj
是特征向量x
c
在第j特征维度的特征值；v
i
是在第i特征维度的表征向量；v
j
是在第j特征维度的表征向量。通过因子分解机中的内积单元对输入向量中的图像特征与位置信息进行二阶特征交叉，获得二阶特征，即低阶特征。
[0248]
具体地，图像评估网络的预测效果，即图像核心分数，可通过以下公式表示：
[0249]
p＝sigmoid(y
fm
y
dnn
)
[0250]
其中，p是图像评估网络的预测效果，y
fm
是因子分解机部分的预测结果， y
dnn
是前馈神经网络部分的预测结果。
[0251]
具体地，在从待处理视频中获取核心视频时，首先，计算机设备将待处理视频输入训练好的核心视频生成模型，通过核心视频生成模型中的特征向量生成网络902，对待处理视频中各视频帧进行特征向量提取，获得各视频帧对应的特征向量。
[0252]
接着，计算机设备通过视频划分部分904，将待处理视频划分为多个视频片段，各视频片段描述目标对象的不同内容，并且，计算机设备获得各视频片段在待处理视频中的位置信息。
[0253]
进一步地，计算机设备通过视频片段划分部分906，将各视频片段分别划分为多个
视频单元。
[0254]
接着，计算机设备通过视频特征提取部分908，提取各视频单元对应的图像特征和音频特征。
[0255]
进一步地，计算机设备通过特征向量生成网络910对各视频单元所在视频片段的位置信息进行特征向量提取，得到各视频单元的位置信息的特征向量。
[0256]
接着，计算机设备将各视频单元的图像特征和位置信息的特征向量输入图像评估网络912，得到各视频单元的图像核心分数，并将各视频单元的音频特征和位置信息的特征向量输入音频评估网络914，得到各视频单元的音频核心分数。
[0257]
最后，计算机设备融合各视频单元的图像核心分数和音频核心分数，获得各视频单元的内容核心程度，并根据内容核心程度，从待处理视频中确定描述目标对象的核心视频。
[0258]
在一个实施例中，核心视频生成模型的训练步骤，包括：获取样本视频以及样本视频对应的标注核心视频；将样本视频输入核心视频生成模型；通过核心视频生成模型将样本视频划分为多个视频片段后，获得各视频片段在样本视频中的位置信息，将各视频片段分别划分为多个视频单元，基于各视频单元对应的视频特征和各视频单元所在的视频片段对应的位置信息，获得各视频单元的内容核心程度，根据内容核心程度，从样本视频中确定描述目标对象的预测核心视频；基于标注核心视频与预测核心视频构造损失函数；根据损失函数更新核心视频生成模型的模型参数后，返回获取样本视频以及样本视频对应的标注核心视频的步骤继续训练，直至满足训练停止条件时，获得训练好的核心视频生成模型。
[0259]
其中，样本视频是用于训练核心视频生成模型的样本数据。样本视频包括但不限于电视视频广告、网络视频广告、电商视频、视频博客、自媒体视频，等等。
[0260]
具体地，继续参照图9(a)，首先，计算机设备将样本视频输入待训练的核心视频生成模型，通过核心视频生成模型中的特征向量生成网络902，对样本视频中各视频帧进行特征向量提取，获得各视频帧对应的特征向量。
[0261]
接着，计算机设备通过视频划分部分904，将样本视频划分为多个视频片段，各视频片段描述目标对象的不同内容，并且，计算机设备获得各视频片段在样本视频中的位置信息。
[0262]
进一步地，计算机设备通过视频片段划分部分906，将各视频片段分别划分为多个视频单元。
[0263]
接着，计算机设备通过视频特征提取部分908，提取各视频单元对应的图像特征和音频特征。
[0264]
进一步地，计算机设备通过特征向量生成网络910对各视频单元所在视频片段的位置信息进行特征向量提取，得到各视频单元的位置信息的特征向量。
[0265]
接着，计算机设备将各视频单元的图像特征和位置信息的特征向量输入图像评估网络912，得到各视频单元的图像核心分数，并将各视频单元的音频特征和位置信息的特征向量输入音频评估网络914，得到各视频单元的音频核心分数。
[0266]
进一步地，计算机设备融合各视频单元的图像核心分数和音频核心分数，获得各视频单元的内容核心程度，并根据内容核心程度，从样本视频中确定描述目标对象的预测核心视频。
[0267]
最后，计算机设备基于标注核心视频与预测核心视频构造损失函数，按照最小化损失函数的方向，更新核心视频生成模型的模型参数，并返回获取样本视频以及样本视频对应的标注核心视频的步骤继续训练，直至满足训练停止条件。
[0268]
本实施例中，通过样本视频对核心视频生成模型进行训练，使得核心视频生成模型具备基于待处理视频准确获取核心视频的能力；并且，结合第一次划分操作得到的各视频片段的位置信息和第二次划分操作得到的各视频单元的视频特征对核心视频生成模型进行训练，在实际应用中，能够提高核心视频生成模型从待处理视频中识别属于核心部分的视频单元的准确性。
[0269]
在一个实施例中，根据内容核心程度，从待处理视频中确定描述目标对象的核心视频，包括：根据各视频单元及相应的内容核心程度，确定待处理视频对应的核心程度分布曲线；根据核心程度分布曲线，从划分出的视频单元中筛选内容核心程度高于阈值的视频单元；根据筛选出的视频单元生成描述目标对象的核心视频。
[0270]
其中，核心程度分布曲线的横坐标可以是各视频单元，纵坐标可以是各视频单元相应的内容核心程度。
[0271]
具体地，参照图10，图10为一个实施例中确定核心程度分布曲线的流程框图。计算机设备在得到各视频单元相应的内容核心程度后，可根据各视频单元及其相应的内容核心程度生成核心程度分布曲线，核心程度分布曲线能够明显反映出各视频单元的内容核心程度高低。计算机设备根据核心程度分布曲线，从各视频单元中选取内容核心程度高于阈值的视频单元，并根据选取的视频单元生成核心视频。
[0272]
本实施例中，基于核心程度分布曲线，能够快速、准确地筛选得到内容核心程度高于阈值的视频单元。
[0273]
在一个实施例中，该方法还包括：在将各视频片段分别划分为多个视频单元后，获得各视频单元在待处理视频中的位置信息；基于各视频单元对应的视频特征和各视频单元在待处理视频中的位置信息，获得各视频单元的内容核心程度。
[0274]
本实施例中，在从视频中抽取核心部分时，利用核心部分在视频中的相对位置具有共通点这一特性，首先，将视频划分为多个视频片段，使得各视频片段描述目标对象的不同内容；接着，将各视频片段分别划分为多个视频单元，获取各视频单元在待处理视频中的位置信息，按照该种划分方式所获得的位置信息，能够反映视频单元包含核心部分的可能性；接着，基于各视频单元对应的视频特征和各视频单元在待处理视频中的位置信息，获得各视频单元的内容核心程度，结合位置信息所获得的内容核心程度，能够更加准确地反映视频单元是核心部分的可能性，故根据内容核心程度从待处理视频中确定核心视频，能够提高从视频中抽取核心部分的准确性。
[0275]
在一个实施例中，获取待处理视频，包括：获取描述商品的待处理视频；根据内容核心程度，从待处理视频中确定描述目标对象的核心视频，包括：根据内容核心程度确定描述商品的关键信息的视频单元；根据确定的视频单元生成描述商品的关键信息的核心视频。
[0276]
具体地，本技术实施例可应用于电商领域，对电商视频的核心部分进行抽取。
[0277]
在一个实施例中，参照图11，提供了一种视频处理方法，本实施例主要以该方法应用于计算机设备(上述图1中的终端102或服务器104)来举例说明，包括以下步骤：
[0278]
步骤s1102，获取描述商品的待处理视频。
[0279]
步骤s1104，将待处理视频输入训练好的核心视频生成模型，通过核心视频生成模型中的特征向量生成网络，对待处理视频中各视频帧进行特征向量提取，获得各视频帧对应的特征向量。
[0280]
步骤s1106，从待处理视频的各视频帧中选取目标数量的视频帧，作为聚类中心；根据各视频帧的特征向量与聚类中心的特征向量之间的相似度，对各视频帧进行聚类处理，得到目标数量的聚类簇；根据划分至同一个聚类簇的视频帧，得到多个视频片段，各视频片段用于描述商品的不同内容。
[0281]
步骤s1108，在按照目标数量进行聚类处理并获得视频片段后，遍历待处理视频的各视频帧；确定遍历的当前视频帧与同一视频片段中其它视频帧之间的簇内相似度，确定遍历的当前视频帧与其他视频片段之间的簇外相似度；根据簇内相似度与簇外相似度之间的差异，确定当前视频帧对应的聚类系数；根据遍历结束后所获得的待处理视频中各视频帧对应的聚类系数，确定按目标数量进行聚类处理所对应的聚类分数；根据聚类分数最高时目标数量所对应的聚类簇，确定待处理视频对应的多个视频片段。
[0282]
步骤s1110，将待处理视频划分为多个视频片段后，获取视频片段中各视频帧在待处理视频中的先后顺序，根据先后顺序确定视频帧所在的视频片段在待处理视频中的位置信息。
[0283]
步骤s1112，获取视频片段中各视频帧的特征向量，从视频片段的各视频帧中选取目标数量的视频帧，作为聚类中心；根据各视频帧的特征向量与聚类中心的特征向量之间的相似度，对视频片段中各视频帧进行聚类处理，得到目标数量的聚类簇；根据划分至同一个聚类簇的视频帧，得到多个视频单元。
[0284]
步骤s1114，在按照目标数量进行聚类处理并获得视频单元后，遍历视频片段的各视频帧；确定遍历的当前视频帧与同一视频单元中其它视频帧之间的簇内相似度；确定遍历的当前视频帧与其他视频单元之间的簇外相似度；根据簇内相似度与簇外相似度之间的差异，确定当前视频帧对应的聚类系数；根据遍历结束后所获得的视频片段中各视频帧对应的聚类系数，确定按目标数量进行聚类处理所对应的聚类分数；根据聚类分数最高时目标数量所对应的聚类簇，确定视频片段对应的多个视频单元。
[0285]
步骤s1116，获取各视频单元的位置信息对应的特征向量，依次将各视频单元对应的图像特征和特征向量，输入训练好的核心视频生成模型中的图像评估网络，得到各视频单元的图像核心分数；获取各视频单元的位置信息对应的特征向量，依次将各视频单元对应的音频特征和特征向量，输入训练好的核心视频生成模型中的音频评估网络，得到各视频单元的音频核心分数；获取图像核心分数与音频核心分数各自对应的权重；按照权重对各视频单元的图像核心分数与音频核心分数进行加权求和，获得各视频单元的内容核心程度。
[0286]
步骤s1118，根据各视频单元及相应的内容核心程度，确定待处理视频对应的核心程度分布曲线；根据核心程度分布曲线，从划分出的视频单元中筛选内容核心程度高于阈值的视频单元；根据筛选出的视频单元生成描述商品的关键信息的核心视频。
[0287]
本实施例中，在从电商视频中抽取核心部分时，利用电商视频的共通性质，即核心部分在电商视频中的相对位置具有共通点，首先，将视频划分为多个视频片段，使得各视频
片段描述目标对象的不同内容，相对于传统技术中按照指定时长对待处理视频进行均分的方式，能够保证视频中描述目标对象的各内容的完整性；接着，获取各视频片段在待处理视频中的位置信息，按照该种划分方式所获得的位置信息，能够反映视频片段包含核心部分的可能性；接着，将各视频片段分别划分为多个视频单元，基于各视频单元对应的视频特征和各视频单元所在的视频片段对应的位置信息，获得各视频单元的内容核心程度，结合位置信息所获得的内容核心程度，能够更加准确地反映视频单元是核心部分的可能性，故根据内容核心程度从待处理视频中确定核心视频，能够提高对电商视频的核心部分抽取的准确性。
[0288]
应该理解的是，虽然图2、6
‑
8、11的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图2、6
‑
8、11中的至少一部分步骤可以包括多个步骤或者多个阶段，这些步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。
[0289]
在一个实施例中，如图12所示，提供了一种视频处理装置，该装置可以采用软件模块或硬件模块，或者是二者的结合成为计算机设备的一部分，该装置具体包括：获取模块1202、划分模块1204和确定模块1206，其中：
[0290]
获取模块1202，用于获取待处理视频，待处理视频用于描述目标对象；
[0291]
划分模块1204，用于将待处理视频划分为多个视频片段后，获得各视频片段在待处理视频中的位置信息，各视频片段用于描述目标对象的不同内容；
[0292]
划分模块1204，还用于将各视频片段分别划分为多个视频单元；
[0293]
获取模块1202，还用于基于各视频单元对应的视频特征和各视频单元所在的视频片段对应的位置信息，获得各视频单元的内容核心程度；
[0294]
确定模块1206，用于根据内容核心程度，从待处理视频中确定描述目标对象的核心视频。
[0295]
在一个实施例中，划分模块1204，还用于：获取待处理视频中各视频帧的特征向量；根据特征向量对各视频帧进行聚类处理，得到多个聚类簇；根据划分至同一个聚类簇的视频帧，得到多个视频片段。
[0296]
在一个实施例中，划分模块1204，还用于：从待处理视频的各视频帧中选取目标数量的视频帧，作为聚类中心；根据各视频帧的特征向量与聚类中心的特征向量之间的相似度，对各视频帧进行聚类处理，得到目标数量的聚类簇。
[0297]
在一个实施例中，划分模块1204，还用于：在按照目标数量进行聚类处理并获得视频片段后，遍历待处理视频的各视频帧；确定遍历的当前视频帧与同一视频片段中其它视频帧之间的簇内相似度；确定遍历的当前视频帧与其他视频片段之间的簇外相似度；根据簇内相似度与簇外相似度之间的差异，确定当前视频帧对应的聚类系数；根据遍历结束后所获得的待处理视频中各视频帧对应的聚类系数，确定按目标数量进行聚类处理所对应的聚类分数；根据聚类分数最高时目标数量所对应的聚类簇，确定待处理视频对应的多个视频片段。
[0298]
在一个实施例中，划分模块1204，还用于：获取视频片段中各视频帧的特征向量；根据特征向量对视频片段中各视频帧进行聚类处理，得到多个聚类簇；根据划分至同一个聚类簇的视频帧，得到多个视频单元。
[0299]
在一个实施例中，划分模块1204，还用于：从视频片段的各视频帧中选取目标数量的视频帧，作为聚类中心；根据各视频帧的特征向量与聚类中心的特征向量之间的相似度，对视频片段中各视频帧进行聚类处理，得到目标数量的聚类簇。
[0300]
在一个实施例中，划分模块1204，还用于：在按照目标数量进行聚类处理并获得视频单元后，遍历视频片段的各视频帧；确定遍历的当前视频帧与同一视频单元中其它视频帧之间的簇内相似度；确定遍历的当前视频帧与其他视频单元之间的簇外相似度；根据簇内相似度与簇外相似度之间的差异，确定当前视频帧对应的聚类系数；根据遍历结束后所获得的视频片段中各视频帧对应的聚类系数，确定按目标数量进行聚类处理所对应的聚类分数；根据聚类分数最高时目标数量所对应的聚类簇，确定视频片段对应的多个视频单元。
[0301]
在一个实施例中，视频处理装置还包括模型处理模块，模型处理模块，还用于：将待处理视频输入训练好的核心视频生成模型；通过核心视频生成模型中的特征向量生成网络，对待处理视频中各视频帧进行特征向量提取，获得各视频帧对应的特征向量。
[0302]
在一个实施例中，划分模块1204，还用于：获取视频片段中各视频帧在待处理视频中的先后顺序；根据先后顺序确定视频帧所在的视频片段在待处理视频中的位置信息。
[0303]
在一个实施例中，获取模块1202，还用于：根据各视频单元对应的图像特征和各视频单元所在的视频片段对应的位置信息，确定各视频单元的图像核心分数；根据各视频单元对应的音频特征和各视频单元所在的视频片段对应的位置信息，确定各视频单元的音频核心分数；融合各视频单元的图像核心分数和音频核心分数，获得各视频单元的内容核心程度。
[0304]
在一个实施例中，获取模块1202，还用于：获取各视频单元的位置信息对应的特征向量；依次将各视频单元对应的图像特征和特征向量，输入训练好的核心视频生成模型中的图像评估网络，得到各视频单元的图像核心分数。
[0305]
在一个实施例中，获取模块1202，还用于：获取各视频单元的位置信息对应的特征向量；依次将各视频单元对应的音频特征和特征向量，输入训练好的核心视频生成模型中的音频评估网络，得到各视频单元的音频核心分数。
[0306]
在一个实施例中，获取模块1202，还用于：获取图像核心分数与音频核心分数各自对应的权重；按照权重对各视频单元的图像核心分数与音频核心分数进行加权求和，获得各视频单元的内容核心程度。
[0307]
在一个实施例中，确定模块1206，还用于：根据各视频单元及相应的内容核心程度，确定待处理视频对应的核心程度分布曲线；根据核心程度分布曲线，从划分出的视频单元中筛选内容核心程度高于阈值的视频单元；根据筛选出的视频单元生成描述目标对象的核心视频。
[0308]
在一个实施例中，划分模块1204，还用于：在将各视频片段分别划分为多个视频单元后，获得各视频单元在待处理视频中的位置信息；基于各视频单元对应的视频特征和各视频单元在待处理视频中的位置信息，获得各视频单元的内容核心程度。
[0309]
在一个实施例中，获取模块1202，还用于：获取描述商品的待处理视频；确定模块
1206，还用于：根据内容核心程度确定描述商品的关键信息的视频单元；根据确定的视频单元生成描述商品的关键信息的核心视频。
[0310]
在一个实施例中，核心视频通过核心视频生成模型获得，视频处理装置还包括模型训练模块，模型训练模块用于：获取样本视频以及样本视频对应的标注核心视频；将样本视频输入核心视频生成模型；通过核心视频生成模型将样本视频划分为多个视频片段后，获得各视频片段在样本视频中的位置信息，将各视频片段分别划分为多个视频单元，基于各视频单元对应的视频特征和各视频单元所在的视频片段对应的位置信息，获得各视频单元的内容核心程度，根据内容核心程度，从样本视频中确定描述目标对象的预测核心视频；基于标注核心视频与预测核心视频构造损失函数；根据损失函数更新核心视频生成模型的模型参数后，返回获取样本视频以及样本视频对应的标注核心视频的步骤继续训练，直至满足训练停止条件时，获得训练好的核心视频生成模型。
[0311]
关于视频处理装置的具体限定可以参见上文中对于视频处理方法的限定，在此不再赘述。上述视频处理装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。
[0312]
上述视频处理装置，在从视频中抽取核心部分时，利用核心部分在视频中的相对位置具有共通点这一特性，首先，将视频划分为多个视频片段，使得各视频片段描述目标对象的不同内容，相对于传统技术中按照指定时长对待处理视频进行均分的方式，能够保证视频中描述目标对象的各内容的完整性；接着，获取各视频片段在待处理视频中的位置信息，按照该种划分方式所获得的位置信息，能够反映视频片段包含核心部分的可能性；接着，将各视频片段分别划分为多个视频单元，基于各视频单元对应的视频特征和各视频单元所在的视频片段对应的位置信息，获得各视频单元的内容核心程度，结合位置信息所获得的内容核心程度，能够更加准确地反映视频单元是核心部分的可能性，故根据内容核心程度从待处理视频中确定核心视频，能够提高从视频中抽取核心部分的准确性。
[0313]
在一个实施例中，提供了一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图13所示。该计算机设备包括通过系统总线连接的处理器、存储器和网络接口。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储视频处理数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种视频处理方法。
[0314]
在一个实施例中，提供了一种计算机设备，该计算机设备可以是终端，其内部结构图可以如图14所示。该计算机设备包括通过系统总线连接的处理器、存储器、通信接口、显示屏和输入装置。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的通信接口用于与外部的终端进行有线或无线方式的通信，无线方式可通过wifi、运营商网络、nfc(近场通信)或其他技术实现。该计算机程序被处理器执行时以实现一种视频处理方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏，该计
算机设备的输入装置可以是显示屏上覆盖的触摸层，也可以是计算机设备外壳上设置的按键、轨迹球或触控板，还可以是外接的键盘、触控板或鼠标等。
[0315]
本领域技术人员可以理解，图13、图14中示出的结构，仅仅是与本技术方案相关的部分结构的框图，并不构成对本技术方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。
[0316]
在一个实施例中，还提供了一种计算机设备，包括存储器和处理器，存储器中存储有计算机程序，该处理器执行计算机程序时实现上述各方法实施例中的步骤。
[0317]
在一个实施例中，提供了一种计算机可读存储介质，存储有计算机程序，该计算机程序被处理器执行时实现上述各方法实施例中的步骤。
[0318]
在一个实施例中，提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述各方法实施例中的步骤。
[0319]
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本技术所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(read
‑
only memory，rom)、磁带、软盘、闪存或光存储器等。易失性存储器可包括随机存取存储器(randomaccess memory，ram)或外部高速缓冲存储器。作为说明而非局限，ram可以是多种形式，比如静态随机存取存储器(static random access memory， sram)或动态随机存取存储器(dynamic random access memory，dram)等。
[0320]
以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。
[0321]
以上所述实施例仅表达了本技术的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本技术构思的前提下，还可以做出若干变形和改进，这些都属于本技术的保护范围。因此，本技术专利的保护范围应以所附权利要求为准。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：图像配准方法、装置、计算机设备及介质与流程

视频处理方法、装置、计算机设备和存储介质与流程

相关文献

最热文献