视频划分方法、装置、计算机设备及存储介质与流程

2021-11-26 21:42:00 来源：中国专利 TAG：

1.本技术实施例涉及计算机技术领域，特别涉及一种视频划分方法、装置、计算机设备及存储介质。

背景技术：

2.随着多媒体技术的不断发展，播放视频已成为用户休闲状态下常用的一种娱乐形式，受到广大用户的青睐。为了便于用户在观看视频时跳转到自己感兴趣的视频情节，可以先将视频划分为多个视频段，以使每个视频段包含一个视频情节。
3.相关技术中，对原始视频中的多个视频段进行动作识别，得到每个视频段中包含的动作，将包含同一个动作且相邻的视频段确定为属于同一个视频情节的视频段。但是，由于能够识别到的动作有限，因此上述技术具有较大的局限性，导致视频划分的效果不佳。

技术实现要素：

4.本技术实施例提供了一种视频划分方法、装置、计算机设备及存储介质，能够提高视频划分的效果。所述技术方案如下：
5.一方面，提供了一种视频划分方法，所述方法包括：
6.将原始视频划分为连续的多个原始视频段，所述多个原始视频段中包括人物视频段和非人物视频段；
7.将所述多个原始视频段中的人物视频段与对应的参考视频段进行合并处理，得到多个目标视频段，所述参考视频段为与所述人物视频段相邻且与所述人物视频段之间的相似度大于第一相似度的非人物视频段；
8.基于处理得到的每个目标视频段中的每个视频帧的背景区域，获取所述每个目标视频段的背景特征；
9.响应于相邻的至少两个目标视频段的背景特征之间的相似度大于第二相似度，将所述至少两个目标视频段确定为属于同一个视频情节的视频段。
10.可选地，所述对所述目标视频段中的每个视频帧的背景区域进行特征提取，得到所述每个视频帧的背景特征，包括：
11.对于所述每个视频帧，对所述视频帧进行图像分割，得到所述视频帧对应的背景图像，所述背景图像中包括所述视频帧的背景区域，不包括所述视频帧的前景区域；
12.对所述背景图像进行特征提取，得到所述视频帧的背景特征。
13.可选地，所述基于所述目标视频段中的多个视频帧的背景特征，确定所述目标视频段的背景特征，包括：
14.基于所述视频段中的多个视频帧的背景特征，对所述多个视频帧进行聚类，得到多个视频帧集合，每个视频帧集合中包括至少一个视频帧；
15.在所述多个视频帧集合中选取参考视频帧集合，所述参考视频帧集合是指包括的视频帧的个数最多的视频帧集合；
16.将所述参考视频帧集合中的多个视频帧的背景特征的均值，确定为所述视频段的背景特征。
17.另一方面，提供了一种视频划分装置，所述装置包括：
18.视频划分模块，用于将原始视频划分为连续的多个原始视频段，所述多个原始视频段中包括人物视频段和非人物视频段；
19.合并处理模块，用于将所述多个原始视频段中的人物视频段与对应的参考视频段进行合并处理，得到多个目标视频段，所述参考视频段为与所述人物视频段相邻且与所述人物视频段之间的相似度大于第一相似度的非人物视频段；
20.特征获取模块，用于基于处理得到的每个目标视频段中的每个视频帧的背景区域，获取所述每个目标视频段的背景特征；
21.视频段确定模块，用于响应于相邻的至少两个目标视频段的背景特征之间的相似度大于第二相似度，将所述至少两个目标视频段确定为属于同一个视频情节的视频段。
22.可选地，所述视频划分模块，包括：
23.视频划分单元，用于将所述原始视频划分为连续的多个原始视频段，每个原始视频段中的相邻视频帧之间的相似度大于第三相似度；
24.确定单元，用于对于划分得到的每个原始视频段，响应于所述原始视频段中的人物视频帧的数量与所述原始视频段中的视频帧的总数量之间的比例大于第一比例，将所述原始视频段确定为所述人物视频段，所述人物视频帧是指包括人物的视频帧；
25.所述确定单元，还用于响应于所述原始视频段中的人物视频帧的数量与所述原始视频段中的视频帧的总数量之间的比例不大于所述第一比例，将所述原始视频段确定为所述非人物视频段。
26.可选地，所述装置还包括：
27.视频帧确定模块，用于响应于任一视频帧中的人物区域的面积与所述视频帧的总面积之间的比例大于第二比例，将所述视频帧确定为所述人物视频帧。
28.可选地，所述装置还包括：
29.人物区域检测模块，用于对所述视频帧进行人物检测，得到所述视频帧对应的人物标注图，所述人物标注图用于指示所述视频帧中的人物区域；
30.面积确定模块，用于基于所述人物标注图，确定所述人物区域的面积。
31.可选地，所述视频帧中包括多个人物区域，所述视频帧确定模块，包括：
32.视频帧确定单元，用于响应于所述多个人物区域的面积中的最大面积与所述视频帧的总面积之间的比例大于所述第二比例，将所述视频帧确定为所述人物视频帧。
33.可选地，所述合并处理模块，包括：
34.非人物视频段确定单元，用于确定位于所述人物视频段之前的第一非人物视频段，以及位于所述人物视频段之后的第二非人物视频段；
35.视频特征确定单元，用于分别确定所述人物视频段、所述第一非人物视频段和所述第二非人物视频段的视频特征；
36.视频特征相似度确定单元，用于确定所述人物视频段的视频特征与所述第一非人物视频段的视频特征之间的相似度，以及所述人物视频段的视频特征与所述第二非人物视频段的视频特征之间的相似度；
37.参考视频段确定单元，用于确定所述第一非人物视频段和所述第二非人物视频段中与所述人物视频段的相似度大于所述第一相似度的参考视频段；
38.视频段合并单元，用于将所述人物视频段与所述参考视频段进行合并。
39.可选地，所述特征获取模块，包括：
40.特征提取单元，用于对于所述每个目标视频段，对所述目标视频段中的每个视频帧的背景区域进行特征提取，得到所述每个视频帧的背景特征；
41.特征确定单元，用于基于所述目标视频段中的多个视频帧的背景特征，确定所述目标视频段的背景特征。
42.可选地，所述特征提取单元，用于：
43.对于所述每个视频帧，对所述视频帧进行图像分割，得到所述视频帧对应的背景图像，所述背景图像中包括所述视频帧的背景区域，不包括所述视频帧的前景区域；
44.对所述背景图像进行特征提取，得到所述视频帧的背景特征。
45.可选地，所述特征确定单元，用于：
46.从所述目标视频段中提取多个参考视频帧，且所述多个参考视频帧中不包含所述目标视频段的起始视频帧和终止视频帧；
47.将所述多个参考视频帧的背景特征的均值，确定为所述目标视频段的背景特征。
48.可选地，所述特征确定单元，用于：
49.基于所述目标视频段中的多个视频帧的背景特征，对所述多个视频帧进行聚类，得到多个视频帧集合，每个视频帧集合中至少包括一个中心视频帧；
50.在所述多个视频帧集合中选取参考视频帧集合，所述参考视频帧集合是指包括的视频帧的个数最多的视频帧集合；
51.将所述参考视频帧集合中的中心视频帧的背景特征，确定为所述目标视频段的背景特征。
52.可选地，所述特征确定单元，用于：
53.基于所述目标视频段中的多个视频帧的背景特征，对所述多个视频帧进行聚类，得到多个视频帧集合，每个视频帧集合中包括至少一个视频帧；
54.在所述多个视频帧集合中选取参考视频帧集合，所述参考视频帧集合是指包括的视频帧的个数最多的视频帧集合；
55.将所述参考视频帧集合中的多个视频帧的背景特征的均值，确定为所述目标视频段的背景特征。
56.可选地，所述视频段确定模块，包括：
57.背景特征相似度确定单元，用于在连续的多个目标视频段中，从第二个目标视频段开始，确定每个目标视频段与前一个目标视频段的视频背景特征之间的相似度；
58.视频段确定单元，用于响应于任一目标视频段与所述任一目标视频段的前一个目标视频段的背景特征之间的相似度大于所述第二相似度，将所述任一目标视频段与所述前一个目标视频段确定为属于同一个视频情节的视频段。
59.可选地，所述视频段确定单元，用于：
60.在所述任一目标视频段是所述人物视频段与对应的参考视频段进行合并处理得到的视频段的情况下，响应于所述任一目标视频段与所述任一目标视频段的前一个目标视
频段的背景特征之间的相似度大于第一目标相似度，将所述任一目标视频段与所述前一个目标视频段确定为属于同一个视频情节的视频段；
61.在所述任一目标视频段不是所述人物视频段与对应的参考视频段进行合并处理得到的视频段的情况下，响应于所述任一目标视频段与所述任一目标视频段的前一个目标视频段的背景特征之间的相似度大于第二目标相似度，将所述任一目标视频段与所述前一个目标视频段确定为属于同一个视频情节的视频段，所述第二目标相似度大于所述第一目标相似度。
62.可选地，所述装置还包括：
63.划分记录创建模块，用于创建所述原始视频对应的视频划分记录，所述视频划分记录中包括所述每个目标视频段的视频段标识，以及属于同一个视频情节的不同目标视频段的视频段标识之间的关联关系。
64.另一方面，提供了一种计算机设备，所述计算机设备包括处理器和存储器，所述存储器中存储有至少一条计算机程序，所述至少一条计算机程序由所述处理器加载并执行以实现如上述方面所述的视频划分方法中所执行的操作。
65.另一方面，提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有至少一条计算机程序，所述至少一条计算机程序由处理器加载并执行以实现如上述方面所述的视频划分方法中所执行的操作。
66.另一方面，提供了一种计算机程序产品或计算机程序，所述计算机程序产品或计算机程序包括计算机程序代码，所述计算机程序代码存储在计算机可读存储介质中，计算机设备的处理器从计算机可读存储介质读取所述计算机程序代码，处理器执行所述计算机程序代码，使得所述计算机设备实现如上述方面所述的视频划分方法中所执行的操作。
67.本技术实施例提供的方法、装置、计算机设备及存储介质，由于视频段的背景特征表示视频段中的环境，相邻的至少两个视频段的背景特征之间的相似度大于第二相似度，则说明该至少两个视频段中的环境相似或者相同，可以认为该至少两个视频段中的视频情节是相同的，因此确定为属于同一视频情节的视频段。基于视频段的背景特征之间的相似度来进行视频划分，能够覆盖任一类型的视频情节，避免了基于动作进行视频划分的局限性，提高了视频划分的效果。并且，先将视频中的视频段分为人物视频段和非人物视频段，可以认为与人物视频段相邻且相似度较高的非人物视频段的视频情节，和该人物视频段的视频情节是相同的，因此将该人物视频段与非人物视频段进行合并，并根据合并得到的视频段的背景特征来划分视频情节，有效避免了由于人物视频段的背景特征不能准确表示视频情节所导致的误差，提高了视频情节划分的准确性。
附图说明
68.为了更清楚地说明本技术实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本技术实施例的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。
69.图1是本技术实施例提供的一种视频划分方法的流程图。
70.图2是本技术实施例提供的一种视频划分方法的流程图。
71.图3是本技术实施例提供的一种视频帧的示意图。
72.图4是本技术实施例提供的一种人物视频段和非人物视频段的示意图。
73.图5是本技术实施例提供的一种人物视频段和非人物视频段的示意图。
74.图6是本技术实施例提供的一种人物视频段和非人物视频段的示意图。
75.图7是本技术实施例提供的一种分布直方图的示意图。
76.图8是本技术实施例提供的一种获取背景图像的流程图。
77.图9是本技术实施例提供的一种视频帧和视频帧的背景图像的示意图。
78.图10是本技术实施例提供的一种获取视频帧对应的背景图像的流程图。
79.图11是本技术实施例提供的一种获取视频段的背景特征的流程图。
80.图12是本技术实施例提供的一种进行视频划分的流程图。
81.图13是本技术实施例提供的一种进行视频划分的示意图。
82.图14是本技术实施例提供的一种视频划分方法的流程图。
83.图15是本技术实施例提供的一种视频划分和视频播放的流程图。
84.图16是本技术实施例提供的一种视频划分装置的结构示意图。
85.图17是本技术实施例提供的一种视频划分装置的结构示意图。
86.图18是本技术实施例提供的一种终端的结构示意图。
87.图19是本技术实施例提供的一种服务器的结构示意图。
具体实施方式
88.为使本技术实施例的目的、技术方案和优点更加清楚，下面将结合附图对本技术实施方式作进一步地详细描述。
89.可以理解，本技术所使用的术语“第一”、“第二”等可在本文中用于描述各种概念，但除非特别说明，这些概念不受这些术语限制。这些术语仅用于将一个概念与另一个概念区分。举例来说，在不脱离本技术的范围的情况下，可以将第一指示标记称为第二指示标记，且类似地，可将第二指示标记称为第一指示标记。
90.其中，至少一个是指一个或者一个以上，例如，至少一个视频段可以是一个视频段、两个视频段、三个视频段等任一大于等于一的整数个视频段。多个是指两个或者两个以上，例如，多个视频段可以是两个视频段、三个视频段等任一大于等于二的整数个视频段。每个是指至少一个中的每一个，例如，每个视频段是指多个视频段中的每一个视频段，若多个视频段为3个视频段，则每个视频段是指3个视频段中的每一个视频段。
91.人工智能(artificial intelligence，ai)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。
92.人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术包括自然语言处理技术和机器学习。
93.机器学习(machine learning，ml)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、示教学习等技术。
94.计算机视觉技术(computer vision，cv)是一门研究如何使机器“看”的科学，更进一步的说，就是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉，并进一步做图形处理，使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科，计算机视觉研究相关的理论和技术，试图建立能够从图像或者多维数据中获取信息的人工智能系统。计算机视觉技术包括图像处理、图像识别、图像语义理解、图像检索、ocr(optical character recognition，光学字符识别)、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3d(3
‑
dimension，三维)技术、虚拟现实、增强现实、同步定位与地图构建等技术，还包括常见的人脸识别、指纹识别等生物特征识别技术。
95.云技术(cloud technology)是指在广域网或局域网内将硬件、软件、网络等系列资源统一起来，实现数据的计算、储存、处理和共享的一种托管技术。技术网络系统的后台服务需要大量的计算、存储资源，如视频网站、图片类网站和更多的门户网站。伴随着互联网行业的高度发展和应用，将来每个物品都可能存在自己的识别标志，都需要传输到后台系统进行逻辑处理，不同程度级别的数据将会分开处理，各类行业数据需要强大的系统后盾支撑，只能通过云计算来实现。
96.云存储(cloud storage)是在云计算概念上延伸和发展出来的一个新的概念，分布式云存储系统(以下简称存储系统)是指通过集群应用、网格技术以及分布存储文件系统等功能，将网络中大量各种不同类型的存储设备(存储设备也称之为存储节点)通过应用软件或应用接口集合起来协同工作，共同对外提供数据存储和业务访问功能的一个存储系统。
97.以下将基于人工智能技术和云存储技术，对本技术实施例提供的视频划分方法进行说明。
98.本技术实施例提供了一种视频划分方法，执行主体为计算机设备，可以确定原始视频中的哪些视频段是属于同一个视频情节的视频段。在一种可能实现方式中，该计算机设备为终端，终端可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表、智能电视、智能车载终端等。可选地，终端上设置有客户端，终端能够通过该客户端实现播放视频等功能。该客户端可以为终端的操作系统中的客户端，或者为第三方提供的客户端。该客户端可以为视频播放客户端、浏览器客户端、即时通信客户端、教育客户端等。在另一种可能实现方式中，该计算机设备为服务器，服务器可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、cdn(content delivery network，内容分发网络)、以及大数据和人工智能平台等基础云计算服务的云服务器。
99.可选地，该计算机设备为服务器，该服务器与终端通过有线或无线通信方式进行
直接或间接地连接，服务器用于对原始视频进行划分，得到属于同一个视频情节的视频段。服务器还用于根据划分结果创建视频划分记录，并将视频划分记录发送给终端，由终端对视频划分记录进行校验。
100.可选地，该计算机设备为服务器，该服务器与终端通过有线或无线通信方式进行直接或间接地连接，服务器将原始视频和视频划分记录下发给终端，该终端在播放原始视频时，还会基于该视频划分记录来标记该原始视频中的视频情节划分的位置，以便用户了解视频情节的划分情况。
101.本技术实施例提供的视频划分方法，可应用于进行视频划分的任一场景下，例如划分电影情节的场景中。一部影片中包括多个电影情节，例如在餐厅吃饭、到游乐场游玩、在街上发生枪战等。为了便于用户在观看电影时跳转到自己感兴趣的电影情节，则采用本技术实施例提供的方法，先对该影片进行划分得到多个原始视频段，确定每个原始视频段为人物视频段还是非人物视频段，并将每个人物视频段与非人物视频段进行合并处理，然后确定处理得到的目标视频段中属于同一个电影情节的视频段，因此在播放该影片时即可将属于同一个电影情节的目标视频段添加标记，以便用户得知哪些目标视频段属于同一个电影情节，哪些目标视频段属于下一个电影情节。
102.图1是本技术实施例提供的一种视频划分方法的流程图。本技术实施例的执行主体为计算机设备，参见图1，该方法包括：
103.101、计算机设备将原始视频划分为连续的多个原始视频段。
104.计算机设备获取需要进行划分的原始视频，该原始视频可以为多种类型的视频，如电影、电视剧、综艺、动漫或者纪录片等。可选地，计算机设备获取已存储的原始视频，或者计算机设备通过其他途径获取该原始视频等，本技术实施例对此不做限定。
105.计算机设备将该原始视频划分为连续的多个原始视频段，每个原始视频段中包括连续的多个视频帧。其中，多个原始视频段中包括人物视频段和非人物视频段，多个原始视频段中的某一视频段为人物视频段或者非人物视频段，人物视频段是指包括人物的视频段。
106.102、计算机设备将多个原始视频段中的人物视频段与对应的参考视频段进行合并处理，得到多个目标视频段。
107.每个视频帧包括前景区域和背景区域，前景是指在视频帧中相对靠近镜头的对象，是视频帧的主体，如人物、动物或者车辆等。背景是指视频帧中的位于前景后面的景物，能够表现前景所处的时空环境，如街道、餐厅、篮球场等。
108.本技术实施例中，基于视频段的背景特征来确定视频段的视频情节，而视频段的背景特征是基于视频段中的视频帧的背景区域确定的。但是，由于人物视频段中包括人物，人物位于前景区域中，因此人物视频段中的视频帧的背景区域相对较小，根据背景区域所确定的背景特征，不足以表示人物视频段的视频情节。因此计算机设备先将多个原始视频段中的人物视频段与对应的参考视频段进行合并处理，得到多个目标视频段，该多个目标视频段中包括人物视频段与对应的参考视频段进行合并处理后的视频段。可选地，目标视频段还包括未进行合并处理的原始视频段，例如未进行合并处理的人物视频段或者非人物视频段。
109.其中，参考视频段为与人物视频段相邻且与人物视频段之间的相似度大于第一相
似度的非人物视频段。由于人物视频段与参考视频段之间的相似度较高，可以认为该人物视频段的视频情节和对应的参考视频段的视频情节是相同的，所以可以将视频情节相同的该人物视频段与非人物视频段进行合并，以便后续基于合并得到的视频段来确定视频情节。可选地，该第一相似度为计算机设备默认设置的，或者计算机设备根据运维人员的操作设置的。
110.103、计算机设备基于处理得到的每个目标视频段中的每个视频帧的背景区域，获取每个目标视频段的背景特征。
111.对于处理得到的每个目标视频段，计算机设备基于目标视频段中的每个视频帧的背景区域，获取该目标视频段的背景特征，该背景特征用于描述该目标视频段中的背景，也即是该目标视频段中的对象所处的环境。由于人物视频段已经和参考视频段合并在一起，则基于合并后的视频段的背景特征来确定视频情节，相当于确定人物视频段的视频情节时参考了属于非人物视频段的参考视频段的背景特征，有效避免了由于人物视频段的背景特征不能准确表示视频情节所导致的误差。
112.104、计算机设备响应于相邻的至少两个目标视频段的背景特征之间的相似度大于第二相似度，将至少两个目标视频段确定为属于同一个视频情节的视频段。
113.计算机设备获取每两个相邻的目标视频段的背景特征之间的相似度，若两个相邻的目标视频段的背景特征之间的相似度大于第二相似度，则说明这两个目标视频段中的环境相似或者相同，由于这两个目标视频段相邻，则可以认为这两个目标视频段中的视频情节是同一个视频情节。可选地，该第二相似度为计算机设备默认设置的，或者计算机设备根据运维人员的操作设置的。
114.因此，计算机设备响应于相邻的至少两个目标视频段的背景特征之间的相似度大于第二相似度，将该至少两个目标视频段确定为属于同一个视频情节的视频段。若某一个目标视频段与相邻的目标视频段的背景特征之间的相似度不大于第二相似度，则该目标视频段单独属于一个视频情节。计算机设备可以在多个目标视频段中，确定多组目标视频段，每组目标视频段分别表示不同的视频情节，且每组目标视频段中包括一个目标视频段或者多个目标视频段。例如，当一组目标视频段中包括一个目标视频段时，该目标视频段单独属于一个视频情节，当一组目标视频段中包括多个目标视频段时，该多个目标视频段属于同一个视频情节。
115.本技术实施例提供的方法，由于视频段的背景特征表示视频段中的环境，相邻的至少两个视频段的背景特征之间的相似度大于第二相似度，则说明该至少两个视频段中的环境相似或者相同，可以认为该至少两个视频段中的视频情节是相同的，因此确定为属于同一视频情节的视频段。基于视频段的背景特征之间的相似度来进行视频划分，能够覆盖任一类型的视频情节，避免了基于动作进行视频划分的局限性，提高了视频划分的效果。并且，先将视频中的视频段分为人物视频段和非人物视频段，可以认为与人物视频段相邻且相似度较高的非人物视频段的视频情节，和该人物视频段的视频情节是相同的，因此将该人物视频段与非人物视频段进行合并，并根据合并得到的视频段的背景特征来划分视频情节，有效避免了由于人物视频段的背景特征不能准确表示视频情节所导致的误差，提高了视频情节划分的准确性。
116.图2是本技术实施例提供的一种视频划分方法的流程图。本技术实施例的执行主
体为计算机设备，参见图2，该方法包括：
117.201、计算机设备将原始视频划分为连续的多个原始视频段。
118.计算机设备获取需要进行划分的原始视频，该原始视频可以为多种类型的视频，如电影、电视剧、综艺、动漫或者纪录片等。可选地，计算机设备获取已存储的原始视频，例如该计算机设备为视频应用计算机设备，该视频应用计算机设备中存储有多个视频，用于将存储的视频提供给视频应用进行播放。
119.计算机设备将该原始视频划分为连续的多个原始视频段，每个原始视频段中包括连续的多个视频帧，且多个视频帧中相邻的视频帧之间的相似度大于第三相似度，也即是每个原始视频段中包括多个相似的视频帧。
120.其中，计算机设备得到的每个原始视频段可以看作一个分镜，计算机设备通过对原始视频进行镜头切分得到连续的多个分镜。其中，镜头切分是指将连续的视频画面以一次运镜为单位进行分解，一个分镜是指通过一次连续的拍摄所得到的连续的视频画面。可选地，计算机设备采用开源库pyscenedetect(视频切分器)进行镜头切分。
121.在一种可能实现方式中，计算机设备将原始视频划分为连续的多个视频帧，并提取每个视频帧的帧特征，确定每两个相邻的视频帧的帧特征之间的相似度，响应于相邻的至少两个视频帧的帧特征之间的相似度大于第三相似度，将该至少两个视频帧确定为一个原始视频段，从而得到连续的多个原始视频段。
122.图3是本技术实施提供的一种视频帧的示意图，计算机设备对原始视频进行划分得到多个原始视频段，图3中展示了划分得到的原始视频段301、原始视频段302、原始视频段303、原始视频段304和原始视频段305。每个原始视频段中包括多个相似的视频帧，图3中分别选取每个原始视频段中的两个视频帧进行展示。
123.202、计算机设备确定多个原始视频段中的人物视频段和非人物视频段。
124.计算机设备得到多个原始视频段后，确定多个原始视频段中的每个原始视频段为人物视频段还是非人物视频段，人物视频段是指包括人物的视频段，该人物视频段又可以称为是特写视频段，表示是包括人物特写的视频段。
125.在一种可能实现方式中，对于每个原始视频段，计算机设备响应于原始视频段中的人物视频帧的数量与原始视频段中的视频帧的总数量之间的比例大于第一比例，将该原始视频段确定为人物视频段，人物视频帧是指包括人物的视频帧。计算机设备响应于原始视频段中的人物视频帧的数量与原始视频段中的视频帧的总数量之间的比例不大于第一比例，将原始视频段确定为非人物视频段。
126.计算机设备确定原始视频段中的人物视频帧的数量，以及原始视频段中的视频帧的总数量，并基于人物视频帧的数量和视频帧的总数量，来区分原始视频段为人物视频段还是非人物视频段。其中，第一比例为计算机设备默认设置的，或者计算机设备根据运维人员的操作设置的。例如，该第一比例为50％或者80％等。
127.在另一种可能实现方式中，在确定原始视频段为人物视频段还是非人物视频段之前，需要先确定原始视频段中的视频帧为人物视频帧还是非人物视频帧。计算机设备响应于任一视频帧中的人物区域的面积与视频帧的总面积之间的比例大于第二比例，将视频帧确定为人物视频帧。如果视频帧中的人物区域的面积与视频帧的总面积之间的比例大于第二比例，说明该视频帧中的人物区域所占的比例较大，则认为该视频帧为人物视频帧。其
中，第二比例为计算机设备默认设置的，或者计算机设备根据运维人员的操作设置的。例如，该第二比例为40％或者50％等。
128.在另一种可能实现方式中，视频帧中包括多个人物区域，则计算机设备在多个人物区域的面积中确定最大面积，响应于该最大面积与视频帧的总面积之间的比例大于第二比例，将视频帧确定为人物视频帧。或者，计算机设备确定多个人物区域的总面积，响应于多个人物区域的总面积与视频帧的总面积之间的比例大于第二比例，将该视频帧确定为人物视频帧。
129.在另一种可能实现方式中，在确定原始视频段中的视频帧为人物视频帧还是非人物视频帧之前，需要先确定视频帧中的人物区域的面积。计算机设备对视频帧进行人物检测，得到视频帧对应的人物标注图，基于该人物标注图，确定人物区域的面积。其中，人物标注图用于指示视频帧中的人物区域。
130.可选地，计算机设备基于人物标注图可能会确定一个人物区域，也可能会确定多个人物区域，如果计算机设备基于人物标注图确定视频帧中包括多个人物区域，则分别确定每个人物区域的面积。
131.可选地，该人物检测包括人脸检测和人体检测，对视频帧进行人脸检测得到的人物标注图用于指示视频帧中的人脸区域，对视频帧进行人体检测得到的人物标注图用于指示视频帧中的人体区域，该人脸区域和人体区域都属于人物区域。
132.可选地，计算机设备对视频帧进行人物检测，得到多个标注点的坐标，该多个标注点为视频帧中的像素点，计算机设备基于多个标注点的坐标，生成该视频帧对应的人物标注图，该人物标注图中包括该多个标注点，将多个标注点进行连接所构成的闭环，即为检测得到的人物区域。例如，对视频帧进行人物检测，得到4个标注点x1、y1、x2和y2的坐标，该x1、y1、x2和y2构成的检测框(box)的面积，即为检测得到的人物区域的面积。
133.可选地，计算机设备调用人物检测模型，对视频帧进行人物检测，得到视频帧对应的人物标注图。其中，该人物检测模型可以包括人脸检测模型(retina
‑
face)和人体检测模型。其中，该人物检测模型可以为计算机设备中预先存储的其他设备训练好的模型，或者，该人物检测模型为计算机设备基于开源的训练数据进行训练得到的模型，本技术实施例对此不做限定。
134.图4是本技术实施例提供的一种人物视频段和非人物视频段的示意图，参见图4，原始视频段401
‑
406为连续的多个原始视频段，其中原始视频段403和原始视频段405中的视频帧中的人物区域的面积较大，该原始视频段403和原始视频段405为人物视频段，原始视频段401、原始视频段402、原始视频段404和原始视频段406中的视频帧中没有人物区域或者人物区域的面积较小，该原始视频段401、原始视频段402、原始视频段404和原始视频段406为非人物视频段。
135.203、计算机设备将多个原始视频段中的人物视频段与对应的参考视频段进行合并处理，得到多个目标视频段。
136.本技术实施例中，基于视频段的背景特征来确定视频段的视频情节，而视频段的背景特征是基于视频段中的视频帧的背景区域确定的。但是，由于人物视频段中包括人物，人物位于前景区域中，因此人物视频段中的视频帧的背景区域相对较小，根据背景区域确定的背景特征不足以表示人物视频段的视频情节。因此计算机设备先将多个原始视频段中
的人物视频段与对应的参考视频段进行合并处理，得到多个目标视频段。该多个目标视频段中包括人物视频段与对应的参考视频段进行合并处理后的视频段。可选地，目标视频段还包括未进行合并处理的原始视频段，例如未进行合并处理的人物视频段或者非人物视频段。
137.其中，参考视频段为与人物视频段相邻且与人物视频段之间的相似度大于第一相似度的非人物视频段。由于人物视频段与参考视频段之间的相似度较高，可以认为该人物视频段的视频情节和对应的参考视频段的视频情节是相同的，所以可以将视频情节相同的该人物视频段与非人物视频段进行合并，以便后续基于合并得到的视频段来确定视频情节。如果某一人物视频段没有对应的参考视频段，则无需对该人物视频段进行合并处理，也即是该人物视频段会直接作为目标视频段。
138.在一种可能实现方式中，计算机设备确定位于人物视频段之前的第一非人物视频段，以及位于人物视频段之后的第二非人物视频段，然后分别确定人物视频段、第一非人物视频段和第二非人物视频段的视频特征，确定人物视频段的视频特征与第一非人物视频段的视频特征之间的相似度，以及人物视频段的视频特征与第二非人物视频段的视频特征之间的相似度，再确定第一非人物视频段和第二非人物视频段中与人物视频段的相似度大于第一相似度的参考视频段，将人物视频段与参考视频段进行合并。
139.如图5所示，对于人物视频段501，位于该人物视频段501之前的第一非人物视频段为非人物视频段502，位于该人物视频段501之后的第二非人物视频段为非人物视频段503，该非人物视频段503与人物视频段501之间的相似度大于第一相似度，计算机设备将非人物视频段503与人物视频段501进行合并处理。
140.可选地，对于人物视频段、第一非人物视频段和第二非人物视频段，计算机设备分别基于视频段中的视频帧，确定该视频段的视频特征。可选地，计算机设备将视频段中的参考视频帧的特征，确定为该视频段的视频特征，例如，该视频特征为参考视频帧的归一化图像分布直方图。其中，该参考视频帧可以为视频段中的任一视频帧，或者该参考视频帧为视频段中的位于中间位置的视频帧。
141.如图6所示，人物视频段601和非人物视频段602相邻，如图7所示，图7为人物视频段601和非人物视频段602的视频特征的分布直方图，该分布直方图的横坐标为像素点，纵坐标为特征值，其中实线代表人物视频段601的分布直方图，虚线代表非人物视频段602的分布直方图，从图7中可以看出，人物视频段601的分布直方图和非人物视频段602的分布直方图相似，因此该人物视频段601和非人物视频段602的相似度较高。
142.可选地，计算机设备将视频段中的参考视频帧的特征，确定为该视频段的视频特征，该视频特征中包括参考视频帧中的每个像素点对应的特征值，计算机设备采用以下公式，确定两个视频段的视频特征之间的相似度：
[0143][0144]
其中，n表示像素点的个数，n为大于等于1的正整数，i为小于等于n的正整数。m表示视频段g和视频段s的视频特征之间的相似度，g
i
表示视频段g的第i个像素点的特征值，s
i
表示视频段s的第i个像素点的特征值,max(g
i
,s
i
)表示g
i
和s
i
中的最大值。
[0145]
可选地，如果第一非人物视频段与人物视频段的相似度，以及第二非人物视频段与人物视频段的相似度均大于第一相似度，则将第一非人物视频段和第二非人物视频段均确定为参考视频段，将人物视频段与这两个参考视频段进行合并处理。或者，将第一非人物视频段和第二非人物视频段中的任一非人物视频段确定为参考视频段。可选地，如果第一非人物视频段与人物视频段的相似度，以及第二非人物视频段与人物视频段的相似度均不大于第一相似度，则计算机设备无需将该人物视频段与任一非人物视频段进行合并处理。
[0146]
例如，对原始视频进行划分，得到连续的视频段1、视频段2、视频段3、视频段4、视频段5和视频段6，其中视频段3为人物视频段，其他视频段为非人物视频段，且视频段4与视频段3之间的相似度大于第一相似度，则计算机设备将视频段3和视频段4进行合并处理，得到视频段34，则处理得到的目标视频段包括视频段1、视频段2、视频段34、视频段5和视频段6。
[0147]
204、对于处理得到的每个目标视频段，计算机设备对目标视频段中的每个视频帧的背景区域进行特征提取，得到每个视频帧的背景特征。
[0148]
可选地，处理得到的目标视频段包括将人物视频段和参考视频段进行合并处理后的视频段，以及未进行合并的视频段，例如未进行合并的人物视频段或者非人物视频段。
[0149]
每个视频帧包括前景区域和背景区域。其中，前景是指在视频帧中相对靠近镜头的对象，是视频帧的主体，如人物、动物或者车辆等。背景是指视频帧中的位于前景后面的景物，能够表现前景所处的时空环境，如街道、餐厅、篮球场等。由于属于同一视频情节的视频段中，前景可能并不相同，因此前景区域的特征并不适合用于确定视频情节，因此对于处理得到的每个视频段，计算机设备对视频段中的每个视频帧的背景区域进行特征提取，得到该视频段中的每个视频帧的背景特征。其中视频帧的背景特征用于描述视频帧中的背景，也即是该视频帧中的对象所处的环境。
[0150]
在一种可能实现方式中，对于每个视频帧，计算机设备对视频帧进行图像分割，得到视频帧对应的背景图像；对背景图像进行特征提取，得到视频帧的背景特征。其中，背景图像中包括视频帧的背景区域，不包括视频帧的前景区域。也即是该背景图像中仅包括背景区域的图像信息，不包括前景区域的图像信息，因此直接对该背景图像进行特征提取，即可得到该视频帧的背景特征。可选地，计算机设备基于训练好的特征提取模型，对背景图像进行特征提取，得到背景图像对应的视频帧的背景特征。
[0151]
可选地，计算机设备基于视频帧中的前景区域或背景区域所在的位置，生成视频帧对应的背景标注图；基于背景标注图，对视频帧进行图像分割，得到背景图像。其中，背景标注图用于指示视频帧中的背景区域。可选地，视频帧对应的背景标注图与视频帧的尺寸相同，背景标注图中的各个像素点的像素值均为0或者1，其中像素值为1的像素点位于背景区域，像素值为0的像素点位于前景区域，例如该背景标注图为背景mask(掩模)图。则计算机设备将该背景标注图与视频帧相乘，即可得到该视频帧对应的背景图像。
[0152]
可选地，计算机设备检测视频帧中的前景区域，基于检测到的前景区域，生成视频帧对应的前景标注图，该前景标注图用于指示视频帧中的前景区域。然后将视频帧对应的前景标注图取反，得到视频帧对应的背景标注图。可选地，计算机设备可采用显著性检测算法来检测视频帧中的前景区域，或者还可以采用其他算法进行检测，本技术实施例对此不做限定。
[0153]
其中，视频帧对应的前景标注图与视频帧的尺寸相同，前景标注图中的各个像素点的像素值均为0或者1，其中像素值为1的像素点位于前景区域，像素值为0的像素点位于背景区域，例如该前景标注图为前景mask(掩模)图。则将前景标注图取反是指在前景标注图中，将像素值中的0替换为1，将像素值中的1替换为0，从而得到背景标注图。
[0154]
图8是本技术实施例提供的一种获取背景图像的流程图，参加图8，计算机设备检测视频帧801中的前景区域，基于检测到的前景区域，生成视频帧801对应的前景标注图802，然后将前景标注图802取反，得到视频帧801对应的背景标注图803，计算机设备基于背景标注图803，对视频帧801进行图像分割，得到背景图像804。其中，前景标注图像802中像素值为1的像素点位于前景区域，像素值为0的像素点位于背景区域，因此前景区域显示为黑色，背景区域显示为白色。背景标注图803中像素值为1的像素点位于背景区域，像素值为0的像素点位于前景区域，因此前景区域显示为白色，背景区域显示为黑色。
[0155]
图9是本技术实施例提供的一种视频帧和视频帧的背景图像的示意图，参见图9，图9中包括视频帧901以及对应的背景图像902，视频帧903以及对应的背景图像904，视频帧905以及对应的背景图像906，其中背景图像902、背景图像904和背景图像906中仅包括背景区域，不包括前景区域。
[0156]
图10是本技术实施例提供的一种获取视频帧对应的背景图像的流程图，如图10所示，包括：
[0157]
1001、获取视频帧；
[0158]
1002、检测视频帧中的前景区域；
[0159]
1003、通过检测视频帧中的前景区域得到前景标注图；
[0160]
1004、将前景标注图中的像素值取反，得到背景标注图；
[0161]
1005、基于背景标注图对视频帧进行图像分割得到背景图像。
[0162]
在另一种可能实现方式中，计算机设备预先训练背景识别模型，该背景识别模型用于生成任一图像对应的背景图像。后续基于训练好的背景识别模型，对视频帧进行背景识别，得到视频帧对应的背景图像。可选地，该背景识别模型可以为基于imagenet(一种大型通用物体识别开源数据集)训练的一个深度学习网络模型，通过训练得到该深度学习网络模型的参数权重，从而得到imagenet预训练模型作为背景识别模型。
[0163]
205、计算机设备基于目标视频段中的多个视频帧的背景特征，确定目标视频段的背景特征。
[0164]
计算机设备得到每个目标视频段中的每个视频帧的背景特征，则对于每个目标视频段，基于该目标视频段中的多个视频帧的背景特征，确定该目标视频段的背景特征，目标视频段的背景特征用于描述该视频段的背景，也即是该目标视频段中的对象所处的环境。
[0165]
在一种可能实现方式中，计算机设备从目标视频段中提取多个参考视频帧，将多个参考视频帧的背景特征的均值，确定为目标视频段的背景特征。其中，该多个参考视频帧中不包含目标视频段的起始视频帧和终止视频帧，也即是在起始视频帧和终止视频帧之间的位于中间部分的视频帧中，选取多个参考视频帧。该多个参考视频帧的背景特征的均值，即为该目标视频段的embedding特征(嵌入特征)，作为该目标视频段的背景特征。由于一个目标视频段的起始视频帧和终止视频帧可能包括目标视频段之间进行切换的特效，因此起始视频帧和终止视频帧的背景特征不能准确地表示整个目标视频段的背景特征，会影响分
镜特征的表达，因此去除起始视频帧和终止视频帧，根据参考视频帧的背景特征确定的目标视频段的背景特征更加准确。
[0166]
可选地，计算机设备先确定与目标视频段中的多个视频帧的总数量之间的比例为第一比例的第一数量，以及与总数量之间的比例为第二比例的第二数量，然后从目标视频段的起始视频帧开始依次往前，去除第一数量的视频帧，从目标视频段的终止视频帧开始依次往后，去除第二数量的视频帧，剩余的多个视频帧作为参考视频帧。
[0167]
例如，以选取80％的参考视频帧为例，计算机设备从目标视频段的起始视频帧开始依次往前，去除10％的视频帧，从目标视频段的终止视频帧开始依次往后，去除10％的视频帧，得到位于中间部分的80％的参考视频帧，作为确定目标视频段的背景特征的依据。
[0168]
在另一种可能实现方式中，计算机设备基于目标视频段中的多个视频帧的背景特征，对多个视频帧进行聚类，得到多个视频帧集合，每个视频帧集合中包括至少一个视频帧；在多个视频帧集合中选取参考视频帧集合，参考视频帧集合是指包括的视频帧的个数最多的视频帧集合，将参考视频帧集合中的多个视频帧的背景特征的均值，确定为目标视频段的背景特征。
[0169]
对多个视频帧进行聚类得到的多个视频帧集合中，每个视频帧集合中包括的至少一个视频帧的背景特征之间彼此相似，视频帧集合中的视频帧的个数越多，说明该目标视频段中与该视频帧集合中的视频帧的背景特征相似的视频帧越多，该视频帧集合中的视频帧的背景特征更能反映该目标视频段的背景特征。因此计算机设备确定每个视频帧集合中包括的视频帧的个数，并从中选取包括的视频帧的个数最多的参考视频帧集合，将参考视频帧集合中的多个视频帧的背景特征，作为确定该目标视频段的背景特征的依据，得到的目标视频段的背景特征更加准确。
[0170]
可选地，计算机设备可采用k
‑
means算法(一种聚类算法)对多个视频帧进行聚类，或者采用其他聚类算法对多个视频帧进行聚类，本技术实施例对此不做限定。
[0171]
在另一种可能实现方式中，计算机设备基于目标视频段中的多个视频帧的背景特征，对多个视频帧进行聚类，得到每个视频帧集合，每个视频帧集合中至少包括一个中心视频帧，视频帧集合中的中心视频帧为聚类过程中的聚类中心。计算机设备在多个视频帧集合中选取参考视频帧集合，参考视频帧集合是指包括的视频帧的个数最多的视频帧集合，将该参考视频帧集合中的中心视频帧的背景特征，确定为目标视频段的背景特征。
[0172]
由于参考视频帧集合中的视频帧的背景特征更能反映该目标视频段的背景特征，而参考视频帧集合中的每个视频帧的背景特征均与中心视频帧的背景特征相似度较高，因此与参考视频帧集合中的其他视频帧相比，该中心视频帧的背景特征更能反映该目标视频段的背景特征，将中心视频帧的背景特征确定为目标视频段的背景特征，该目标视频段的背景特征更加准确。
[0173]
图11是本技术实施例提供的一种获取目标视频段的背景特征的流程图，参见图11，包括：
[0174]
1101、获取视频帧对应的背景图像；
[0175]
1102、对背景图像进行特征提取；
[0176]
1103、通过对背景图像进行特征提取得到视频帧的背景特征；
[0177]
1104、基于多个视频帧的背景特征，确定目标视频段的背景特征。
[0178]
需要说明的是，计算机设备通过执行上述步骤204
‑
205，实现了基于处理得到的每个目标视频段中的每个视频帧的背景区域，获取每个目标视频段的背景特征。除了采用上述步骤204
‑
205中提供的方法之外，计算机设备还可以采用其他方法，基于每个视频帧的背景区域获取目标视频段的背景特征。
[0179]
需要说明的是，本技术实施例中进行背景区域识别和背景特征提取等过程，均可基于深度学习模型来执行，能够加强本方案的泛化性，后续可以通过优化模型来不断提高本方案的准确性。
[0180]
206、计算机设备响应于相邻的至少两个目标视频段的背景特征之间的相似度大于第二相似度，将至少两个目标视频段确定为属于同一个视频情节的视频段。
[0181]
计算机设备获取每两个相邻的目标视频段的背景特征之间的相似度，若两个相邻的目标视频段的背景特征之间的相似度大于第二相似度，则说明这两个目标视频段中的环境相似或者相同，由于这两个目标视频段相邻，则可以认为这两个目标视频段中的视频情节是连续的相同的视频情节。因此，计算机设备响应于相邻的至少两个目标视频段的背景特征之间的相似度大于第二相似度，将该至少两个目标视频段确定为属于同一个视频情节的视频段。其中，属于同一个视频情节的多个目标视频段中，第一个目标视频段中的起始视频帧的位置即为一个视频情节开始的位置，最后一个目标视频段中的终止视频帧的位置即为一个视频情节结束的位置。
[0182]
计算机设备可以在原始视频中的多个目标视频段中，确定出多组目标视频段，每组目标视频段分别表示不同的视频情节，且每组目标视频段中包括一个目标视频段或者多个目标视频段。例如，多组目标视频段中包括属于视频情节a的一组目标视频段、属于视频情节b的一组目标视频段和属于视频情节c的一组目标视频段。其中，属于视频情节a的一组目标视频段中包括一个目标视频段1；属于视频情节b的一组目标视频段中包括目标视频段2和目标视频段3，则目标视频段2和目标视频段3的背景特征之间的相似度大于第二相似度；属于视频情节c的一组目标视频段中包括目标视频段4、目标视频段5和目标视频段6，则目标视频段4和目标视频段5的背景特征之间的相似度大于第二相似度，且目标视频段5和目标视频段6的背景特征之间的相似度大于第二相似度。
[0183]
在一种可能实现方式中，计算机设备在连续的多个目标视频段中，从第二个目标视频段开始，确定每个目标视频段与前一个目标视频段的视频背景特征之间的相似度，响应于任一目标视频段与任一目标视频段的前一个目标视频段的背景特征之间的相似度大于第二相似度，将任一目标视频段与前一个目标视频段确定为属于同一个视频情节的目标视频段。
[0184]
计算机设备从第二个目标视频段开始进行遍历，确定每一个目标视频段与上一个目标视频段的背景特征之间的相似度是否大于第二相似度。如果某一个目标视频段与前一个目标视频段的背景特征之间的相似度大于第二相似度，则计算机设备将该目标视频段与前一个目标视频段确定为属于同一个视频情节的视频段，如果某一个目标视频段与前一个目标视频段的背景特征之间的相似度不大于第二相似度，说明该目标视频段与前一个目标视频段的视频情节不同，则计算机设备继续执行对下一个目标视频段的遍历。
[0185]
可选地，在任一目标视频段是人物视频段与对应的参考视频段进行合并处理得到的视频段的情况下，该第二相似度为第一目标相似度，则计算机设备响应于该任一目标视
频段与该任一目标视频段的前一个目标视频段的背景特征之间的相似度大于该第一目标相似度，将任一目标视频段与前一个目标视频段确定为属于同一个视频情节的视频段。在任一目标视频段不是人物视频段与对应的参考视频段进行合并处理得到的视频段的情况下，该第二相似度为第二目标相似度，则计算机响应于该任一目标视频段与该任一目标视频段的前一个目标视频段的背景特征之间的相似度大于该第二目标相似度，将任一目标视频段与前一个目标视频段确定为属于同一个视频情节的视频段。
[0186]
其中，该第二相似度包括该第一目标相似度和该第二目标相似度，并且该第二目标相似度大于第一目标相似度，例如，第一目标相似度为0.3，第二目标相似度为0.5。该第一目标相似度和第二目标相似度均为判断两个目标视频段是否属于同一个视频情节的阈值。由于合并处理得到的目标视频段中包括人物视频段，而人物视频段中的视频帧的背景区域相对较小，因此相对于不是进行合并处理得到的目标视频段来说，该合并处理得到的目标视频段的背景特征不能充分表示该目标视频段的视频情节，如果将该目标视频段对应的阈值设置得太高，会增大误将该目标视频段与前一个目标视频段确定为属于不同视频情节的目标视频段的可能性。由于不是人物视频段与参考视频段进行合并处理得到的目标视频段中不包括人物视频段，因此该目标视频段的背景特征可以充分表示该目标视频段的视频情节，如果将该目标视频段对应的阈值设置得太低，会增大误将该目标视频段与前一个目标视频段确定为属于同一视频情节的视频段的可能性。因此，为了降低产生这种误差的可能性，计算机设备可以将第一目标相似度设置为比第二目标相似度高。
[0187]
通过执行上述步骤201
‑
206，完成对原始视频的视频情节切分，从而将一个视频根据叙事划分成多个视频情节，如餐厅吃饭情节、停车场对话情节等。需要说明的是，本技术实施例说明了对原始视频进行视频情节划分的过程。在另一实施例中，当计算机设备执行上述步骤206完成视频情节的划分之后，还可以将属于同一个视频情节的多个目标视频段进行合并，则本次合并得到的每个视频段分别属于一个视频情节，其他未合并的每个视频段也分别属于一个视频情节。
[0188]
计算机设备根据人物视频段与非人物视频段的视频特征之间的相似度以及处理得到的目标视频段的背景特征之间的相似度进行视频情节的划分，按照视频段为人物视频段还是非人物视频段，将对视频情节的划分过程分成两个分支，能够有效避免仅根据背景特征进行视频情节划分所产生的误差，提高视频情节划分的准确性。
[0189]
207、计算机设备创建原始视频对应的视频划分记录。
[0190]
当计算机设备完成对原始视频的视频情节划分，确定哪些目标视频段为属于同一个视频情节的目标视频段后，创建该原始视频对应的视频划分记录，其中，该视频划分记录中包括每个目标视频段的目标视频段标识，以及属于同一个视频情节的不同目标视频段的视频段标识之间的关联关系。其中，视频段标识用于指示目标视频段，例如视频段标识为目标视频段的序号等。
[0191]
该视频划分记录能够表示该原始视频中的哪些目标视频段属于同一个视频情节，后续当计算机设备将原始视频下发给播放终端进行播放时，可同步将该原始视频的视频划分记录发送给播放终端。则播放终端可以根据视频划分记录得知原始视频中的哪些目标视频段属于同一个视频情节，从而在原始视频中确定不同的视频情节切分的位置对应的视频帧，以便在播放原始视频时为这些视频帧添加标记，例如在进度条中该视频帧对应的位置
添加标记，以便用户在观看原始视频时根据显示的标记跳转到自己感兴趣的视频情节。
[0192]
需要说明的是，本技术实施例仅说明了计算机设备自动进行视频划分，确定属于同一视频情节的视频段的过程，在另一实施例中，计算机设备创建视频划分记录之后，还可以将该视频划分记录发送给校验终端，由校验终端展示给校验人员进行人工校验并更新视频划分记录以纠正划分不正确的部分，然后将更新后的视频划分记录返回给计算机设备，从而进一步保证视频划分的准确性。
[0193]
图12是本技术实施例提供的一种进行视频划分的流程图，参见图12，包括：
[0194]
1201、计算机设备将原始视频划分为多个原始视频段，多个原始视频段中包括人物视频段和非人物视频段。
[0195]
1202、计算机设备获取人物视频段与相邻的非人物视频段之间的相似度。
[0196]
1203、计算机设备将与人物视频段之间的相似度大于第一相似度的非人物视频段，与人物视频段进行合并处理，得到多个原始视频段处理后的多个目标视频段。
[0197]
1204、计算机设备获取处理得到的每个目标视频段的背景特征。
[0198]
1205、计算机设备基于获取到的背景特征进行视频情节的划分。
[0199]
图13是本技术实施例提供的一种进行视频划分的示意图，参见图13，视频中包括连续的视频段1301
‑
1306，视频段1303为人物视频段，其他的视频段为非人物视频段。由于人物视频段1303和相邻的非人物视频段1304之间的相似度大于第一相似度，因此计算机设备将人物视频段1303和非人物视频段1304进行合并处理，得到视频段1307，计算机设备根据视频段1301、视频段1302、视频段1307、视频段1305和视频段1306的背景特征进行视频情节划分，确定视频段1301和视频段1302为属于同一视频情节的视频段，视频段1307和视频段1305为属于同一视频情节的视频段，视频段1306为属于其他视频情节的视频段。
[0200]
本技术实施例提供的方法，由于视频段的背景特征表示视频段中的环境，相邻的至少两个视频段的背景特征之间的相似度大于第二相似度，则说明该至少两个视频段中的环境相似或者相同，可以认为该至少两个视频段中的视频情节是相同的，因此确定为属于同一视频情节的视频段。基于视频段的背景特征之间的相似度来进行视频划分，能够覆盖任一类型的视频情节，避免了基于动作进行视频划分的局限性，提高了视频划分的效果。并且，先将视频中的视频段分为人物视频段和非人物视频段，可以认为与人物视频段相邻且相似度较高的非人物视频段的视频情节，和该人物视频段的视频情节是相同的，因此将该人物视频段与非人物视频段进行合并，并根据合并得到的视频段的背景特征来划分视频情节，有效避免了由于人物视频段的背景特征不能准确表示视频情节所导致的误差，提高了视频情节划分的准确性。
[0201]
并且，由于一个视频段的起始视频帧和终止视频帧可能包括视频段之间进行切换的特效，因此起始视频帧和终止视频帧的背景特征不能准确地表示整个视频段的背景特征，会影响分镜特征的表达，因此去除起始视频帧和终止视频帧，根据参考视频帧的背景特征确定的视频段的背景特征更加准确。
[0202]
并且，相关技术中采用人工标注的方法来划分一个完整的视频中所有的视频情节，耗费大量人力和时间。而本技术实施例结合人工智能技术，能够实现自动化划分视频的视频情节，减少人力投入，提高了视频划分的效率。
[0203]
并且，对多个视频帧进行聚类得到的多个视频帧集合中，包括的视频帧的个数最
多的参考视频帧集合更能反映该视频段的背景特征，因此将参考视频帧集合中的多个视频帧的背景特征，作为确定该视频段的背景特征的依据，得到的视频段的背景特征更加准确。
[0204]
并且，参考视频帧集合中的每个视频帧的背景特征均与中心视频帧的背景特征相似度较高，因此与参考视频帧集合中的其他视频帧相比，中心视频帧的背景特征更能反映该视频段的背景特征，将中心视频帧的背景特征确定为视频段的背景特征，该视频段的背景特征更加准确。
[0205]
并且，本技术实施例中进行背景区域识别和背景特征提取等过程，均可基于深度学习模型来执行，从而加强本方案的泛化性，后续还可以通过优化模型来不断提高视频划分的准确性。
[0206]
图14是本技术实施例提供的一种视频划分方法的流程图，参见图14，包括：
[0207]
1401、计算机设备对多个原始视频段中的视频帧进行人物检测，确定多个人物视频段11和多个非人物视频段21。
[0208]
1402、计算机设备分别对多个人物视频段11和多个人物视频段21进行视频特征提取。
[0209]
1403、计算机设备将视频特征之间的相似度大于第一相似度的人物视频段和非人物视频段进行合并处理，得到多个原始视频段处理后的多个目标视频段。
[0210]
1404、计算机设备对合并处理后的每个目标视频段的视频帧进行区域检测，得到视频帧的背景标注图14。
[0211]
1405、计算机设备根据视频帧的背景标注图14对视频帧进行图像分割，得到视频帧的背景图像15。
[0212]
1406、计算机设备根据视频帧的背景图像15，获取视频帧的背景特征。
[0213]
1407、计算机设备根据目标视频段中的视频帧的背景特征，获取目标视频段的背景特征。
[0214]
1408、计算机设备根据目标视频段的背景特征，进行视频情节的划分。
[0215]
上述实施例提供的方法可应用于根据视频情节播放视频的场景中，在该场景中包括视频划分和视频播放两个过程，则如图15所示，视频划分和视频播放的过程包括：
[0216]
1501、服务器将原始视频划分为连续的多个原始视频段，其中，多个原始视频段中的包括人物视频段和非人物视频段。
[0217]
1502、服务器根据人物视频段和非人物视频段之间的相似度，将每个任务视频段与对应的相似度大于第一相似度的非人物视频段进行合并处理，得到多个原始视频段处理后的多个目标视频段。
[0218]
1503、服务器根据处理得到的每个目标视频段中的每个视频帧的背景区域，获取每个目标视频段的背景特征。
[0219]
1504、服务器响应于相邻的至少两个目标视频段的背景特征之间的相似度大于第二相似度，将至少两个目标视频段确定为属于同一个视频情节的视频段。
[0220]
1505、服务器创建原始视频对应的视频划分记录，其中，视频划分记录中包括每个目标视频段的视频段标识，以及属于同一个视频情节的不同目标视频段的视频段标识之间的关联关系。
[0221]
1506、服务器响应于播放终端发送的视频播放请求，将该原始视频和原始视频的
视频划分记录发送给播放终端。
[0222]
1507、播放终端接收原始视频和视频划分记录，根据视频划分记录确定属于一个视频情节的至少一个目标视频段。
[0223]
1508、播放终端在播放原始视频时，确定属于一个视频情节的至少一个目标视频段中的起始视频帧，在进度条中的起始视频帧对应的位置处显示跳转标记，其中，进度条中每两个跳转标记之间的至少一个目标视频段属于一个视频情节。
[0224]
1509、播放终端响应于对任一跳转标记的点击操作，跳转至该跳转标记对应的视频帧进行播放。其中，如果用户对当前播放的目标视频段的视频情节不感兴趣，则可以点击下一个跳转标记，跳转至下一个视频情节的目标视频段。
[0225]
图16是本技术实施例提供的一种视频划分装置的结构示意图。参见图16，该装置包括：
[0226]
视频划分模块1601，用于将原始视频划分为连续的多个原始视频段，多个原始视频段中包括人物视频段和非人物视频段；
[0227]
合并处理模块1602，用于将多个原始视频段中的人物视频段与对应的参考视频段进行合并处理，得到多个目标视频段，参考视频段为与人物视频段相邻且与人物视频段之间的相似度大于第一相似度的非人物视频段；
[0228]
特征获取模块1603，用于基于处理得到的每个目标视频段中的每个视频帧的背景区域，获取每个目标视频段的背景特征；
[0229]
视频段确定模块1604，用于响应于相邻的至少两个目标视频段的背景特征之间的相似度大于第二相似度，将至少两个目标视频段确定为属于同一个视频情节的视频段。
[0230]
本技术实施例提供的视频划分装置，由于视频段的背景特征表示视频段中的环境，相邻的至少两个视频段的背景特征之间的相似度大于第二相似度，则说明该至少两个视频段中的环境相似或者相同，可以认为该至少两个视频段中的视频情节是相同的，因此确定为属于同一视频情节的视频段。基于视频段的背景特征之间的相似度来进行视频划分，能够覆盖任一类型的视频情节，避免了基于动作进行视频划分的局限性，提高了视频划分的效果。并且，先将视频中的视频段分为人物视频段和非人物视频段，可以认为与人物视频段相邻且相似度较高的非人物视频段的视频情节，和该人物视频段的视频情节是相同的，因此将该人物视频段与非人物视频段进行合并，并根据合并得到的视频段的背景特征来划分视频情节，有效避免了由于人物视频段的背景特征不能准确表示视频情节所导致的误差，提高了视频情节划分的准确性。
[0231]
可选地，参见图17，视频划分模块1601，包括：
[0232]
视频划分单元16011，用于将原始视频划分为连续的多个原始视频段，每个原始视频段中的相邻视频帧之间的相似度大于第三相似度；
[0233]
确定单元16012，用于对于划分得到的每个原始视频段，响应于原始视频段中的人物视频帧的数量与原始视频段中的视频帧的总数量之间的比例大于第一比例，将原始视频段确定为人物视频段，人物视频帧是指包括人物的视频帧；
[0234]
确定单元16012，还用于响应于原始视频段中的人物视频帧的数量与原始视频段中的视频帧的总数量之间的比例不大于第一比例，将原始视频段确定为非人物视频段。
[0235]
可选地，参见图17，装置还包括：
[0236]
视频帧确定模块1605，用于响应于任一视频帧中的人物区域的面积与视频帧的总面积之间的比例大于第二比例，将视频帧确定为人物视频帧。
[0237]
可选地，参见图17，装置还包括：
[0238]
人物区域检测模块1606，用于对视频帧进行人物检测，得到视频帧对应的人物标注图，人物标注图用于指示视频帧中的人物区域；
[0239]
面积确定模块1607，用于基于人物标注图，确定人物区域的面积。
[0240]
可选地，参见图17，视频帧中包括多个人物区域，视频帧确定模块1605，包括：
[0241]
视频帧确定单元16051，用于响应于多个人物区域的面积中的最大面积与视频帧的总面积之间的比例大于第二比例，将视频帧确定为人物视频帧。
[0242]
可选地，参见图17，合并处理模块1602，包括：
[0243]
非人物视频段确定单元16021，用于确定位于人物视频段之前的第一非人物视频段，以及位于人物视频段之后的第二非人物视频段；
[0244]
视频特征确定单元16022，用于分别确定人物视频段、第一非人物视频段和第二非人物视频段的视频特征；
[0245]
视频特征相似度确定单元16023，用于确定人物视频段的视频特征与第一非人物视频段的视频特征之间的相似度，以及人物视频段的视频特征与第二非人物视频段的视频特征之间的相似度；
[0246]
参考视频段确定单元16024，用于确定第一非人物视频段和第二非人物视频段中与人物视频段的相似度大于第一相似度的参考视频段；
[0247]
视频段合并单元16025，用于将人物视频段与参考视频段进行合并。
[0248]
可选地，参见图17，特征获取模块1603，包括：
[0249]
特征提取单元16031，用于对于每个目标视频段，对目标视频段中的每个视频帧的背景区域进行特征提取，得到每个视频帧的背景特征；
[0250]
特征确定单元16032，用于基于目标视频段中的多个视频帧的背景特征，确定目标视频段的背景特征。
[0251]
可选地，参见图17，特征提取单元16031，用于：
[0252]
对于每个视频帧，对视频帧进行图像分割，得到视频帧对应的背景图像，背景图像中包括视频帧的背景区域，不包括视频帧的前景区域；
[0253]
对背景图像进行特征提取，得到视频帧的背景特征。
[0254]
可选地，参见图17，特征确定单元16032，用于：
[0255]
从目标视频段中提取多个参考视频帧，且多个参考视频帧中不包含目标视频段的起始视频帧和终止视频帧；
[0256]
将多个参考视频帧的背景特征的均值，确定为目标视频段的背景特征。
[0257]
可选地，参见图17，特征确定单元16032，用于：
[0258]
基于目标视频段中的多个视频帧的背景特征，对多个视频帧进行聚类，得到多个视频帧集合，每个视频帧集合中至少包括一个中心视频帧；
[0259]
在多个视频帧集合中选取参考视频帧集合，参考视频帧集合是指包括的视频帧的个数最多的视频帧集合；
[0260]
将参考视频帧集合中的中心视频帧的背景特征，确定为目标视频段的背景特征。
[0261]
可选地，参见图17，特征确定单元16032，用于：
[0262]
基于目标视频段中的多个视频帧的背景特征，对多个视频帧进行聚类，得到多个视频帧集合，每个视频帧集合中包括至少一个视频帧；
[0263]
在多个视频帧集合中选取参考视频帧集合，参考视频帧集合是指包括的视频帧的个数最多的视频帧集合；
[0264]
将参考视频帧集合中的多个视频帧的背景特征的均值，确定为目标视频段的背景特征。
[0265]
可选地，参见图17，目标视频段确定模块1604，包括：
[0266]
背景特征相似度确定单元16041，用于在连续的多个目标视频段中，从第二个目标视频段开始，确定每个目标视频段与前一个目标视频段的视频背景特征之间的相似度；
[0267]
目标视频段确定单元16042，用于响应于任一目标视频段与任一目标视频段的前一个目标视频段的背景特征之间的相似度大于第二相似度，将任一目标视频段与前一个目标视频段确定为属于同一个视频情节的视频段。
[0268]
可选地，参见图17，视频段确定单元16042，用于：
[0269]
在任一目标视频段是人物视频段与对应的参考视频段进行合并处理得到的视频段的情况下，响应于任一目标视频段与任一目标视频段的前一个目标视频段的背景特征之间的相似度大于第一目标相似度，将任一目标视频段与前一个目标视频段确定为属于同一个视频情节的视频段；
[0270]
在任一目标视频段不是人物视频段与对应的参考视频段进行合并处理得到的视频段的情况下，响应于任一目标视频段与任一目标视频段的前一个目标视频段的背景特征之间的相似度大于第二目标相似度，将任一目标视频段与前一个目标视频段确定为属于同一个视频情节的视频段，第二目标相似度大于第一目标相似度。
[0271]
可选地，参见图17，装置还包括：
[0272]
划分记录创建模块1608，用于创建原始视频对应的视频划分记录，视频划分记录中包括每个目标视频段的视频段标识，以及属于同一个视频情节的不同目标视频段的视频段标识之间的关联关系。
[0273]
需要说明的是：上述实施例提供的视频划分装置在对视频进行划分时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将计算机设备的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的视频划分装置与视频划分方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。
[0274]
本技术实施例还提供了一种计算机设备，该计算机设备包括处理器和存储器，存储器中存储有至少一条计算机程序，该至少一条计算机程序由处理器加载并执行，以实现上述实施例的视频划分方法中所执行的操作。
[0275]
在一种可能实现方式中，该计算机设备提供为终端。图18示出了本技术一个示例性实施例提供的终端1800的结构示意图。
[0276]
终端1800包括有：处理器1801和存储器1802。
[0277]
处理器1801可以包括一个或多个处理核心，比如4核心处理器、8核心处理器等。处理器1801可以采用dsp(digital signal processing，数字信号处理)、fpga
(fieldprogrammable gate array，现场可编程门阵列)、pla(programmable logic array，可编程逻辑阵列)中的至少一种硬件形式来实现。处理器1801也可以包括主处理器和协处理器，主处理器是用于对在唤醒状态下的数据进行处理的处理器，也称cpu(central processing unit，中央处理器)；协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中，处理器1801可以集成有gpu(graphics processing unit，图像处理的交互器)，gpu用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中，处理器1801还可以包括ai(artificial intelligence，人工智能)处理器，该ai处理器用于处理有关机器学习的计算操作。
[0278]
存储器1802可以包括一个或多个计算机可读存储介质，该计算机可读存储介质可以是非暂态的。存储器1802还可包括高速随机存取存储器，以及非易失性存储器，比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中，存储器1802中的非暂态的计算机可读存储介质用于存储至少一条计算机程序，该至少一条计算机程序用于被处理器1801所具有以实现本技术中方法实施例提供的视频划分方法。
[0279]
在一些实施例中，终端1800还可选包括有：外围设备接口1803和至少一个外围设备。处理器1801、存储器1802和外围设备接口1803之间可以通过总线或信号线相连。各个外围设备可以通过总线、信号线或电路板与外围设备接口1803相连。可选地，外围设备包括：射频电路1804和显示屏1805中的至少一种。
[0280]
外围设备接口1803可被用于将i/o(input/output，输入/输出)相关的至少一个外围设备连接到处理器1801和存储器1802。在一些实施例中，处理器1801、存储器1802和外围设备接口1803被集成在同一芯片或电路板上；在一些其他实施例中，处理器1801、存储器1802和外围设备接口1803中的任意一个或两个可以在单独的芯片或电路板上实现，本实施例对此不加以限定。
[0281]
射频电路1804用于接收和发射rf(radio frequency，射频)信号，也称电磁信号。射频电路1804通过电磁信号与通信网络以及其他通信设备进行通信。射频电路1804将电信号转换为电磁信号进行发送，或者，将接收到的电磁信号转换为电信号。可选地，射频电路1804包括：天线系统、rf收发器、一个或多个放大器、调谐器、振荡器、数字信号处理器、编解码芯片组、用户身份模块卡等等。射频电路1804可以通过至少一种无线通信协议来与其它设备进行通信。该无线通信协议包括但不限于：城域网、各代移动通信网络(2g、3g、4g及5g)、无线局域网和/或wifi(wireless fidelity，无线保真)网络。在一些实施例中，射频电路1804还可以包括nfc(near field communication，近距离无线通信)有关的电路，本技术对此不加以限定。
[0282]
显示屏1805用于显示ui(user interface，用户界面)。该ui可以包括图形、文本、图标、视频及其它们的任意组合。当显示屏1805是触摸显示屏时，显示屏1805还具有采集在显示屏1805的表面或表面上方的触摸信号的能力。该触摸信号可以作为控制信号输入至处理器1801进行处理。此时，显示屏1805还可以用于提供虚拟按钮和/或虚拟键盘，也称软按钮和/或软键盘。在一些实施例中，显示屏1805可以为一个，设置在终端1800的前面板；在另一些实施例中，显示屏1805可以为至少两个，分别设置在终端1800的不同表面或呈折叠设计；在另一些实施例中，显示屏1805可以是柔性显示屏，设置在终端1800的弯曲表面上或折叠面上。甚至，显示屏1805还可以设置成非矩形的不规则图形，也即异形屏。显示屏1805可
以采用lcd(liquid crystal display，液晶显示屏)、oled(organic light
‑
emitting diode，有机发光二极管)等材质制备。
[0283]
本领域技术人员可以理解，图18中示出的结构并不构成对终端1800的限定，可以包括比图示更多或更少的组件，或者组合某些组件，或者采用不同的组件布置。
[0284]
在另一种可能实现方式中，该计算机设备提供为服务器。图19是本技术实施例提供的一种服务器的结构示意图，该服务器1900可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上处理器(central processing units，cpu)1901和一个或一个以上的存储器1902，其中，所述存储器1902中存储有至少一条计算机程序，所述至少一条计算机程序由所述处理器1901加载并执行以实现上述各个方法实施例提供的方法。当然，该服务器还可以具有有线或无线网络接口、键盘以及输入输出接口等部件，以便进行输入输出，该服务器还可以包括其他用于实现设备功能的部件，在此不做赘述。
[0285]
本技术实施例还提供了一种计算机可读存储介质，该计算机可读存储介质中存储有至少一条计算机程序，该至少一条计算机程序由处理器加载并执行，以实现上述实施例的视频划分方法中所执行的操作。
[0286]
本技术实施例还提供了一种计算机程序产品或计算机程序，计算机程序产品或计算机程序包括计算机程序代码，计算机程序代码存储在计算机可读存储介质中，计算机设备的处理器从计算机可读存储介质读取计算机程序代码，处理器执行计算机程序代码，使得计算机设备实现如上述实施例的视频划分方法中所执行的操作。
[0287]
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。
[0288]
以上所述仅为本技术实施例的可选实施例，并不用以限制本技术实施例，凡在本技术实施例的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本技术的保护范围之内。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：播放控制、配置方法、装置、电子设备及存储介质与流程

视频划分方法、装置、计算机设备及存储介质与流程

相关文献

最热文献