视频处理方法、装置、电子设备和可读存储介质与流程

2021-10-24 10:35:00 来源：中国专利 TAG：视频处理电子设备装置可读方法

1.本技术涉及视频处理技术领域，更具体的，涉及一种视频处理方法、装置、电子设备和可读存储介质。

背景技术：

2.随着人们生活水平的提高，终端应用程序已经成为人们生活不可或缺的一部分。为了满足人们的使用需求，应用程序的功能也在不断强大，应用的交互式功能也已经成为应用程序的常用功能之一。目前，用户已经能够随时随地通过应用程序进行视频拍摄或发布。为使视频的显示效果更加丰富、更加与众不同，用户可以通过对视频增加特效。然而，现有的特效增加的过程繁琐，需要用户多次操作才能够添加成功。因此，如何更好的为视频增加特效是亟待解决的技术问题。

技术实现要素：

3.本技术提出了一种视频处理方法、装置、电子设备和可读存储介质，以改善上述缺陷。
4.第一方面，本技术实施例提供了一种视频处理方法，所述方法包括：获取待处理视频，所述待处理视频包括多个待处理视频帧；获取特效视频对应的多个参考视频帧，从多个所述待处理视频帧中确定与每个所述参考视频帧匹配的目标视频帧；由多个所述目标视频帧确定目标时间段，并基于所述特效视频为所述目标时间段内的视频添加特效。
5.第二方面，本技术实施例还提供了一种视频处理装置，所述装置包括：第一获取模块、第二获取模块、特效添加模块。其中，第一获取模块，用于获取待处理视频，所述待处理视频包括多个待处理视频帧。第二获取模块，用于获取特效视频对应的多个参考视频帧，从多个所述待处理视频帧中确定与每个所述参考视频帧匹配的目标视频帧。特效添加模块，用于由多个所述目标视频帧确定目标时间段，并基于所述特效视频为所述目标时间段内的视频添加特效。
6.第三方面，本技术实施例还提供了一种电子设备，包括一个或多个处理器；存储器；一个或多个应用程序，其中所述一个或多个应用程序被存储在所述存储器中并被配置为由所述一个或多个处理器执行，所述一个或多个程序配置用于执行上述方法。
7.第四方面，本技术实施例还提供了一种计算机可读介质，所述计算机可读取存储介质中存储有程序代码，所述程序代码可被处理器调用执行上述方法。
8.本技术实施例提供的视频处理方法、装置、电子设备和可读存储介质，通过获取与参考视频帧匹配的目标视频帧，在一定程度上可以提高视频处理的准确性，具体的，获取待处理视频，其中，待处理视频可以包括多个待处理视频帧，基于此，获取特效视频对应的多个参考视频帧，并从多个待处理视频帧中确定与每个参考视频帧匹配的目标视频帧，最后由多个目标视频帧确定目标时间段，并基于特效视频为目标时间段内的视频添加特效。本技术在获取到特效视频对应的多个参考视频帧之后，其通过将待处理视频帧与每个参考视
频帧进行匹配，并基于匹配的目标视频帧确定出一个准确的目标时间段，如此可以使特效的添加更加准确。
9.本技术实施例的其他特征和优点将在随后的说明书阐述，并且，部分地从说明书中变得显而易见，或者通过实施本技术实施例而了解。本技术实施例的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。
附图说明
10.为了更清楚地说明本技术实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本技术的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。
11.图1示出了本技术一个实施例提供的视频处理方法的方法流程图；
12.图2示出了本技术一个实施例提供的视频处理方法中视频帧的示例图；
13.图3示出了本技术一个实施例提供的视频处理方法中同一待处理视频中不同视频帧的对比示例图；
14.图4示出了本技术一个实施例提供的视频处理方法中同一特效视频中不同视频帧的对比示例图；
15.图5示出了本技术一个实施例提供的视频处理方法中人体做旋转动作时中心点的位置变化示例图；
16.图6示出了本技术一个实施例提供的视频处理方法中人体做起跳动作时中心点的位置变化示例图；
17.图7示出了本技术一个实施例提供的视频处理方法中利用特效视频为目标时间段内的视频添加特效后得到的视频帧的示例图；
18.图8示出了本技术另一个实施例提供的视频处理方法的方法流程图；
19.图9示出了本技术另一个实施例提供的视频处理方法中步骤s220的步骤流程图；
20.图10示出了本技术另一个实施例提供的视频处理方法中步骤s220的其他步骤流程图；
21.图11示出了本技术又一个实施例提供的视频处理方法的方法流程图；
22.图12示出了本技术又一个实施例提供的视频处理方法中步骤s330的步骤流程图；
23.图13示出了本技术又一个实施例提供的视频处理方法中对视频帧进行人体检测的结果示例图；
24.图14示出了本技术又一个实施例提供的视频处理方法中目标检测框的获取示例图；
25.图15示出了本技术又一个实施例提供的视频处理方法中人体关节示例图；
26.图16示出了本技术实施例提供的视频处理装置的结构框图；
27.图17示出了本技术实施例提供的电子设备的结构框图；
28.图18示出了本技术实施例提供的用于保存或者携带实现根据本技术实施例的视频处理方法的程序代码的存储单元。
具体实施方式
29.下面将结合本技术实施例中附图，对本技术实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本技术一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本技术实施例的组件可以以各种不同的配置来布置和设计。因此，以下对在附图中提供的本技术的实施例的详细描述并非旨在限制要求保护的本技术的范围，而是仅仅表示本技术的选定实施例。基于本技术的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本技术保护的范围。
30.应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。同时，在本技术的描述中，术语“第一”、“第二”等仅用于区分描述，而不能理解为指示或暗示相对重要性。
31.目前，用户已经能够随时随地通过应用程序进行视频拍摄或发布，为使视频的显示效果更加丰富、更加与众不同，用户可以通过对视频增加特效。然而，现有的特效增加的过程繁琐，需要用户多次操作才能够添加成功。虽然存在一些自动添加动作特效的技术，但是这些技术通常是以起始动作为参考标准。例如，人体当前动作与预设动作相同时触发特效的添加。但是仅以起始动作为参考标准无法更准确的为视频增加特效，即有些视频虽然起始动作相同，但是后续的动作却不相同，若仅以起始动作为基准，则无法更准确的实现特效的添加。
32.针对上述问题，发明人提出了本技术实施例提供的视频处理方法、装置电子设备以及存储介质，通过获取与参考视频帧匹配的目标视频帧，在一定程度上可以提高视频处理的准确性，具体的，获取待处理视频，其中，待处理视频可以包括多个待处理视频帧，基于此，获取特效视频对应的多个参考视频帧，并从多个待处理视频帧中确定与每个参考视频帧匹配的目标视频帧，最后由多个目标视频帧确定目标时间段，并基于特效视频为目标时间段内的视频添加特效。本技术在获取到特效视频对应的多个参考视频帧之后，其通过将待处理视频帧与每个参考视频帧进行匹配，并基于匹配的目标视频帧确定出一个准确的目标时间段，如此可以使特效的添加更加准确。其中，具体的视频处理方法在后续的实施例中进行详细的说明。
33.请参阅图1，图1示出了本技术一个实施例提供的视频处理方法的流程示意图。在具体的实施例中，所述视频处理方法应用于如图16所示的视频处理装置400以及应用于如图17示的电子设备500。下面将针对图1所示的流程进行详细的阐述，所述视频处理方法具体可以该方法可包括步骤s110至步骤s130。
34.步骤s110：获取待处理视频，所述待处理视频包括多个待处理视频帧。
35.本技术实施例提供的视频处理方法可以应用于电子设备，本技术实施例中，该电子设备可以是蜂窝电话、智能电话、智能音箱、智能手表、便携式电脑、手持通信设备、手持计算设备、卫星无线电装置、全球定位系统、掌上电脑(personal digital assistant，pda)和/或用于在无线通信系统上通信的任意其它适合设备等，但并不局限于此。
36.在一些实施方式中，待处理视频可以是电子设备从服务器获取的，即该待处理视频可以是电子设备从服务器下载，或者可以是电子设备从服务器在线获取的。例如，待处理视频可以是电子设备通过安装的视频播放软件下载好视频。其中，该服务器可以为云服务器。
37.在另一些实施方式中，待处理视频可以是从电子设备的本地获取的，该待处理视频可以是电子设备预先下载并存储在本地存储器中的视频数据，待处理视频或者也可以是电子设备利用其自身配置的图像采集装置采集的视频数据。另外，所述待处理视频也可以是由电子设备从其他电子设备获取时，该待处理视频可以由其他电子设备通过无线通信协议传输至所述电子设备，例如，通过wlan协议、蓝牙协议、zigbee协议或者wifi协议等，也可以由其他电子设备通过数据网络传输至所述电子设备，例如，2g网络、3g网络、4g网络或者5g网络等，在此不做限定。
38.本技术实施例中，待处理视频可以包括多个待处理视频帧，每个所述待处理视频帧包含的物体可以不同，且这些物体的姿势以及其对应的像素值等也可能不相同。其中，待处理视频帧包含的物体或者对象可以是人体，也可以是动物，或者也可以是其他事物等。并且，同一个待处理视频帧中可以包括多个物体或者对象，这些物体或者对象的种类可以相同，也可以不相同。例如，同一个待处理视频帧中可以包含有多个人体，这些人体姿态、表情、性别以及在待处理视频帧中的位置等均可以不同。如图2所示，图2中的100可以是多个待处理视频帧中的某一帧图像的示图，图2所示的待处理视频帧包括三个人体，这三个人体分别是101、102和103，通过图2可以看出这三个人体在100中的位置、三个人体的姿态以及身高等均不相同。
39.另外，同一人体在不同待处理视频帧中其对应的动作以及姿态也是不相同的，为了更清楚的理解，同一人体在不同待处理视频帧中的动作，现给出如图3所示的示图。图3中的104、105和106为同一待处理视频下的不同待处理视频帧，这些待处理视频帧中包含的人体为同一人体，但是这个人体在不同待处理视频帧中的动作是不相同的。例如，在待处理视频帧104中人体的手臂以及脚等在第一位置处，而在待处理视频帧105中人体的手臂以及脚等在第二位置处，到了待处理视频帧105中人体的手臂以及脚等所在的位置则变成第三位置，这些待处理视频帧共同组成了待处理视频。
40.步骤s120：获取特效视频对应的多个参考视频帧，从多个所述待处理视频帧中确定与每个所述参考视频帧匹配的目标视频帧。
41.作为一种方式，获取到待处理视频之后，本技术实施例可以获取一个标准视频，该标准视频为包含特效的视频，即包括特效视频，其中，特效视频由原始视频和特效动作组成。为了更清楚的理解特效视频中各特效视频帧，本技术实施例给出了如图4所示的示例图，图4中的11、12和13为同一特效视频下的不同特效视频帧，这些特效视频帧中包含的人体为同一人体，但是这个人体在不同特效视频帧中的动作是不相同的。例如，在特效视频帧11中人体的手臂以及脚等在第一位置处，而在特效视频帧12中人体的手臂以及脚等在第二位置处，到了特效视频帧13中人体的手臂以及脚等所在的位置则变成第三位置，这些特效视频帧共同组成了特效视频。并且，通过图4可以看出，人体动作不同则对应的特效视频帧中的特效动作也不相同，如特效视频帧12中的特效14比特效视频帧11中的特效14大。
42.另外，电子设备可以存储有多个标准视频，这些标准视频包含的原始视频和特效动作均不相同。例如，标准视频1中在人体跳起时增加特效动作1，而标准视频2中人在旋转时增加特效动作2。因此，标准视频也可以称作是含有动作特效的视频，在获取的标准视频之后，本技术实施例可以通过用户输入的特效类型以及特效起止时间等，从标准视频中确定出特效视频。
43.本技术实施例中，特效视频可以对应有多个参考视频帧，故在获取到待处理视频之后，本技术实施例可以先获取特效视频对应的多个参考视频帧，其中，参考视频帧也可以称作是标准特效视频帧，其也可以是电子设备通过分析特效视频中的多个特效视频帧获取的。具体的，参考视频帧可以是电子设备通过分析每个特效视频中目标对象的关节点信息、动作变化信息等，综合选出的具有代表性的多个参考视频帧。另外，通过参考视频帧可以获取到第一参考姿态信息以及第二参考姿态信息等，其中，第一参考姿态信息也可以称作是最低对比参数，第二参考姿态信息可以称作是触发对比参数，通过结合这些参考姿态信息，本技术实施例可以从多个待处理视频帧中确定出目标视频帧。具体的，最低对比参数和触发对比参数均可以包括多个人体关节点对应的角度信息和距离信息。
44.在一些实施方式中，电子设备在获取到特效视频对应的多个参考视频帧之后，其可以从多个待处理视频帧中确定出与每个参考视频帧匹配的目标视频帧。具体的，电子设备可以将待处理视频中的待处理视频帧分别与参考视频帧进行匹配。例如，将待处理视频帧中的第一帧视频作为当前待处理视频帧，将当前待处理视频帧与多个参考视频帧的起始参考视频帧进行匹配，如果二者的匹配度小于预设匹配度，则将待处理视频的第二帧视频作为当前待处理视频帧；如果当前待处理视频帧与多个参考视频帧的起始参考视频帧的匹配度大于预设匹配度，则从待处理视频中获取下一个待处理视频帧，并将下一个待处理视频帧与多个参考视频帧中的相较起始参考视频帧的下一个参考视频帧进行匹配，以此类推，直至找到所有与所述参考视频帧匹配的待处理视频帧，并将这些待处理视频帧作为目标视频帧。
45.本技术实施例中，将待处理视频帧与参考视频帧进行匹配可以是确定待处理视频帧中人体的姿态信息与参考视频帧中人体的姿态信息是否匹配，也可以是确定待处理视频帧中人体的关节点信息与参考视频帧中人体的关节点信息是否匹配，或者也可以是待处理视频帧中的像素值与参考视频帧中的像素值是否匹配等，具体匹配的是哪些信息后面实施例将会进行详细介绍，这里就不进行赘述了。
46.在另一些实施方式中，参考视频帧的数量可以是通过分析特效视频中的人体动作获取的。例如，特效视频中的人体的动作是旋转动作，则参考视频帧的数量可以是4个。在一个具体的实施方式中，参考视频帧的数量可以是根据人体中心点的位置变化来确定，其中，人体中心点可以是人体左右肩膀的中心位置，即人体中心点可以是两肩中心。例如，当人体在做选择动作时，人体中心点的位置变化如图5所示，从图5可以看出，人体在旋转时，其中心点的位置变化可以分成四部分，这四部分分别可以是0、1、2和3，故此时的参考视频帧的数量可以是4个。又如，当人体起跳时，人体中心点的位置变化信息可以如图6所示，从图6可以看出人体在起跳时，其也可以分成四部分，这四部分可以分别是1、2、3和4，故此时的参考视频帧的数量可以是4个。
47.在一些实施方式中，电子设备在获取到多个参考视频帧之后，即可以将待处理视频帧分别与每个参考视频帧进行匹配，并从待处理视频的多个待处理视频帧中确定与每个参考视频帧匹配的目标视频帧，而后电子设备可以由多个目标视频帧确定目标时间段，并基于特效视频为目标时间段内的视频添加特效，即进入步骤s130。
48.步骤s130：由多个所述目标视频帧确定目标时间段，并基于所述特效视频为所述目标时间段内的视频添加特效。
49.作为一种方式，电子设备从多个待处理视频帧中确定出与每个参考视频帧匹配的目标视频帧之后，其可以由多个目标视频帧确定出目标时间段，并基于特效视频为目标时间段内的视频添加特效。
50.在一些实施方式中，获取到多个目标视频帧后，电子设备可以从多个目标视频帧中确定出起始视频帧和终点视频帧。具体的，获取每个目标视频帧在待处理视频中的位置，并将位置最靠前的第一个目标视频帧作为起始视频帧，且将位置最靠后的目标视频帧作为终点视频帧，而后确定起始视频帧对应的起点时间点，以及确定终点视频帧对应的终止时间点。最后由所述起点时间点和所述终止时间点构成所述目标时间段，即起点时间点和终止时间点之间的时间段组成目标时间段。其中，目标时间段包括多个待处理视频帧，所述多个待处理视频帧中存在与特效视频帧匹配的视频帧，但是也存在少数与特效视频帧不匹配的视频帧，不过不匹配的视频帧不会影响特效的添加，其中，匹配指的是待处理视频帧中第一目标对象和特效视频帧中第二目标对象的动作匹配。
51.在另一些实施方式中，获取到多个目标视频帧后，电子设备也可以从多个目标视频帧中确定出起始视频帧。具体的，获取每个目标视频帧在待处理视频中的位置，并将位置最靠前的第一个目标视频帧作为起始视频帧，接着确定起始视频帧对应的起点时间。在此基础上，本技术实施例可以确定特效视频的时长，因为特效视频是已知的，故其对应的时长也是固定的，在获取到特效视频对应的时长后，电子设备可以结合该时长和起点时间确定出所述目标时间段。
52.在另一些实施方式中，获取到目标时间段之后，电子设备可以利用特效视频对目标时间段内的视频添加特效。具体的，可以将特效视频中的特效动作对应加入至目标时间段内的待处理视频帧中。例如，可以将第一个特效动作加入至目标时间段内的起点时间，以及将第二个特效动作加入至目标时间段内的中间时间点等。例如，获取到的目标视频帧分别包括如图3所示的104、105和106，即104、105和106这三个视频帧位于目标时间段，其中，视频帧104对应的时间点可以是起点时间，视频帧106对应的时间点可以是终止时间点。利用特效视频对目标时间段的这些视频帧添加特效，得到的最终的目标视频可以如图7所示，最终的目标视频也可以称作是添加特效后的视频。通过对比图4和图7可以知道，添加特效后的视频所包含的特效动作与特效视频包含的特效动作相同，不过二者包含的人体、物体以及景物均可以是不同的，并且，人体的身份、表情以及衣着等也可以不同。
53.从图7可以看出，添加特效后的目标视频帧相较未添加特效前的目标视频帧，其增加了特效107，不同的特效视频包含的特效107也是不相同的。并且，通过图7可以看出，随着动作的不断变化，特效107的大小也会随着变化，即视频帧105中添加的特效107相较视频帧104中添加的特效107面积更大。因此，不同目标视频帧增加了同一特效，但是因为动作的不同，同一特效的大小、形状以及面积等也会随之发生变化。
54.本技术实施例提出的一种视频处理方法，通过获取与参考视频帧匹配的目标视频帧，在一定程度上可以提高视频处理的准确性，具体的，获取待处理视频，其中，待处理视频可以包括多个待处理视频帧，基于此，获取特效视频对应的多个参考视频帧，并从多个待处理视频帧中确定与每个参考视频帧匹配的目标视频帧，最后由多个目标视频帧确定目标时间段，并基于特效视频为目标时间段内的视频添加特效。本技术在获取到特效视频对应的多个参考视频帧之后，其通过将待处理视频帧与每个参考视频帧进行匹配，并基于匹配的
目标视频帧确定出一个准确的目标时间段，如此可以使特效的添加更加准确。
55.本技术另一实施例提供了一种视频处理方法，请参阅图8，该视频处理方法可以包括步骤s210至步骤s240。
56.步骤s210：获取待处理视频，所述待处理视频包括多个待处理视频帧。
57.步骤s220：获取特效视频对应的多个参考视频帧，从多个所述待处理视频帧中确定与每个所述参考视频帧匹配的目标视频帧。
58.本技术实施例中，多个参考视频帧可以包括起点参考视频帧，多个目标视频帧包括与起点参考视频帧匹配的起始视频帧。通过上述介绍可以知道，多个参考视频帧可以包括第一参考姿态信息以及第二参考姿态信息，本技术实施例可以结合所述第一参考姿态信息和第二参考姿态信息综合获取到与每个所述参考视频帧匹配的目标视频帧，详细请参阅图9和图10。通过图9知道获取特效视频对应的多个参考视频帧，从多个所述待处理视频帧中确定与每个所述参考视频帧匹配的目标视频帧可以包括步骤s221至步骤s223。
59.步骤s221：获取特效视频对应的多个参考视频帧。
60.上述实施例已对获取特效视频对应的多个参考视频帧进行了详细介绍，这里就不在赘述。
61.步骤s222：对每个所述待处理视频帧进行姿态检测，得到多个候选姿态信息。
62.作为一种方式，电子设备在获取到待处理视频的多个待处理视频帧之后，其可以先对待处理视频帧进行姿态检测，以得到多个候选姿态信息，所述姿态信息可以是人体姿态信息。人体姿态可以是各种各样的姿态，其可以是站立、弯腰、坐、躺、半躺等。另外，人体姿态可以包括头部姿态、躯干姿态以及足的姿态等，通过结合这些姿态便可以分析出人体的姿态。
63.本技术实施例中，电子设备可以利用人工智能算法对待处理视频中的待处理视频帧进行姿态检测，进而获取到每个待处理视频帧对应的候选姿态信息。具体的，本技术实施例可以利用轻量级姿态估计网络(ssn)，或者利用姿态检测网络(posecnn)等神经网络对待处理视频中的每个待处理视频帧进行姿态检测，以得到多个候选姿态信息。
64.步骤s223：将每个所述候选姿态信息分别与所述多个参考视频帧的第一参考姿态信息进行匹配，并将匹配度大于预设匹配度的候选姿态信息对应的待处理视频帧作为目标视频帧。
65.本技术实施例中，起点参考视频帧的第一参考姿态信息的匹配度大于预设匹配度的候选姿态信息对应的待处理视频帧为起始视频帧。在获取到每个待处理视频帧的候选姿态信息之后，本技术实施例可以将每个候选姿态信息分别与多个参考视频帧的第一参考姿态信息进行匹配，并将匹配度大于预设匹配度的候选姿态信息对应的待处理视频帧作为目标视频帧。
66.本技术实施例中，第一参考姿态信息也可以称作是最低对比参数，所述第一参考姿态信息主要用于确定待处理视频中的人体是否做了要添加特效的固定动作，即所述第一参考姿态信息可以为自动添加特效流程提供自动化参数。另外，第一参考姿态信息主要是为了确定待处理视频中动作不够标准，或者是待处理视频中的动作与标准动作之间存在差别的情况下，也能够更好地添加动作效果，如此可以为用户提供更好的使用体验。
67.换句话说，通过利用第一参考姿态信息，本技术实施例不仅可以自动为待处理视
频添加特效，并且只要待处理视频中的人体的动作与标准动作大概相似，便可以实现特效的添加，如此可以提高特效添加的效率。例如，当用户的手臂水平放置时，为用户添加特效，而本技术实施例中即时手臂未完全水平放置，只要手臂与水平方向的夹角在预设角度范围内，便可以为用户自动添加特效，其中，预设角度范围为30度，当手臂与水平方向的夹角在30度范围内时，便可以添加特效。
68.在另一些实施方式中，候选姿态信息与第一参考姿态信息的格式可以是相同的。例如，候选姿态信息包括的是人体各关节点的弯曲角度，则第一参考姿态信息包括的也是人体各关节点的弯曲角度等。
69.在另一些实施方式中，为了能够更准确的实现特效的添加，即避免特效的误添加，本技术实施例在利用多个第一参考姿态信息获取到目标视频帧之后，其也可以通过第二参考姿态信息对多个目标视频帧中的起始视频帧添加特效，详细请参阅图10，通过图10知道步骤s220还可以包括步骤s224至步骤s226。
70.步骤s224：基于所述起始视频帧确定预设数量的候选视频帧，并获取每个所述候选视频帧对应的姿态信息。
71.通过上述介绍可以知道，多个参考视频帧包括起点参考视频帧，且多个目标视频帧包括与该起点参考视频帧匹配的起始视频帧。电子设备在将待处理视频中的每个候选姿态信息分别与多个参考视频的第一参考姿态信息进行匹配，得到多个目标视频帧之后，其可以对目标视频帧的起始视频帧添加特效。具体的，电子设备可以基于所述起始视频帧确定预设数量的候选视频帧，并获取每个候选视频帧对应的姿态信息，所述预设数量可以为第一预设数量。
72.在一些实施方式中，第一预设数量的候选视频帧可以是基于起始视频帧的前后均匀获取的多个候选视频帧，并且，第一预设数量的候选视频帧包括所述起始视频帧。另外，所述第一预设数量可以是奇数，如可以将起始视频帧的前1帧、后1帧以及起始视频帧均作为候选视频帧，此时的第一预设数量为3帧；又如，可以将起始视频帧的前2帧、后2帧以及起始视频帧均作为候选视频帧，此时的预设数量为5帧，预设数量也可以是其他，这里就不进行一一赘述了。
73.在另一些实施方式中，第一预设数量的候选视频帧也可以是基于视频帧的前后不均匀获取的多个候选视频帧，并且，第一预设数量的候选视频帧包括所述起始视频帧。例如，可以将起始视频帧的前2帧、后1帧以及起始视频帧均作为候选视频帧，此时的预设数量为4帧；又如，可以将起始视频帧的前3帧、后1帧以及起始视频帧均作为候选视频帧，此时的第一预设数量为6帧。
74.需要说明书的是，基于所述起始视频帧确定预设数量的候选视频帧，并获取每个所述候选视频帧对应的姿态信息时，本技术实施例也可以基于终点视频帧确定预设数量的候选视频帧，并获取每个候选视频帧对应的姿态信息。多个参考视频帧包括终止参考视频帧，且多个目标视频帧包括与该终止参考视频帧匹配的终点视频帧，该终点视频帧为多个待处理视频帧中的一个视频帧。电子设备在将待处理视频中的每个候选姿态信息分别与多个参考视频的第一参考姿态信息进行匹配，得到多个目标视频帧之后，其不仅可以为目标视频帧的起始视频帧添加特效，同时也可以为目标视频帧的终点视频帧添加特效。具体的，电子设备可以基于所述终点视频帧确定第二预设数量的候选视频帧，并获取每个候选视频
帧对应的姿态信息。
75.在一些实施方式中，第二预设数量的候选视频帧可以是基于终点视频帧的前后均匀获取的多个候选视频帧，并且，第二预设数量的候选视频帧包括所述终点视频帧。另外，所述第二预设数量可以是奇数，如可以将终点视频帧的前1帧、后1帧以及终点视频帧均作为候选视频帧，此时的第二预设数量为3帧；又如，可以将终点视频帧的前2帧、后2帧以及终点视频帧均作为候选视频帧，此时的预设数量为5帧，预设数量也可以是其他，这里就不进行一一赘述了。
76.在另一些实施方式中，第二预设数量的候选视频帧也可以是基于视频帧的前后不均匀获取的多个候选视频帧，并且，第二预设数量的候选视频帧包括所述终点视频帧。例如，可以将终点视频帧的前2帧、后1帧以及终点视频帧均作为候选视频帧，此时的预设数量为4帧；又如，可以将终点视频帧的前3帧、后1帧以及终点视频帧均作为候选视频帧，此时的第二预设数量为6帧。第一预设数量和第二预设数量可以相同也可以不相同，第一预设数量的候选视频帧和第二预设数量的候选视频帧具体如何确定以及确定为多少这里不进行明确限制，可以根据实际情况进行选择。
77.步骤s225：分别将每个所述候选视频帧对应的姿态信息与第二参考姿态信息进行比较，并将相似度大于预设相似度的姿态信息作为目标姿态信息。
78.本技术实施例中，第二参考姿态信息对应的参考视频帧与所述第一参考姿态信息对应的参考视频帧相邻。第二参考姿态信息也可以称作是触发对比参数，第二参考姿态信息主要用于将待处理视频中的人体动作与标准动作做对比，最终确定出人体动作是否完成每个状态，从而判断是否可以自动添加特效。换句话说，通过第二参考姿态信息本技术实施例可以获取到更加准确的起止时间，进而提高特效添加的准确性。
79.另外，本技术实施例中的第二参考姿态信息可以是起点参考视频帧对应的参考姿态信息，即电子设备可以分别将候选视频帧对应的姿态信息与起点参考视频帧对应的第二参考姿态信息进行比较，并将相似度大于预设相似度的姿态信息作为目标姿态信息，所述候选视频帧和目标姿态信息均与起始视频帧对应。
80.另外，本技术实施例中的第二参考姿态信息可以是终点参考视频帧对应的参考姿态信息，即电子设备可以分别将候选视频帧对应的姿态信息与终点参考视频帧对应的第二参考姿态信息进行比较，并将相似度大于预设相似度的姿态信息作为目标姿态信息，所述候选视频帧和目标姿态信息均与终点视频帧对应。
81.在一些实施方式中，将每个候选视频帧对应的姿态信息与第二参考姿态信息进行比较可以是获取候选视频帧对应的姿态信息与第二参考姿态信息之间的差值，并确定该差值是否小于预设差值，如果小于预设差值，则确定候选视频帧与第二参考姿态信息之间的相似度大于预设相似度，此时的姿态信息便可以作为目标姿态信息。
82.作为一种方式，在将每个候选视频帧对应的姿态信息与第二参考姿态信息进行比较之前，本技术实施例可以先获取多个第二参考姿态信息，具体的，将所述特效视频分解成多个状态视频，并获取每个所述状态视频对应的第二参考姿态信息。本技术实施例中，状态视频的数量可以与参考视频帧的数量对应，即一个状态视频可以对应一个参考视频帧。因此，将特效视频分解成多个状态视频可以包括：获取人体中心点的位置变化，基于所述人体中心点的位置变化将所述特效视频分解成多个状态视频。
83.在一个具体的实施方式中，状态视频的数量可以是根据人体中心点的位置变化来确定，其中，人体中心点可以是人体左右肩膀的中心位置，即人体中心点可以是两肩中心。例如，当人体在做选择动作时，人体中心点的位置变化如图5所示，从图5可以看出，人体在旋转时，其中心点的位置变化可以分成四部分，这四部分分别可以是0、1、2和3，故此时的状态视频的数量可以是4个。又如，当人体起跳时，人体中心点的位置变化信息可以如图6所示，从图6可以看出人体在起跳时，其也可以分成四部分，这四部分可以分别是1、2、3和4，故此时的状态视频的数量可以是4个。
84.综上所述，将特效视频分解成多个状态视频主要是将特效视频分成预设数量个子视频，而预设数量可以是由人体中心点的位置变化确定。另外，在确定将特效视频分解成多个状态视频之后，本技术实施例可以按照所述预设数量的状态视频对待处理视频进行等分。例如，确定将特效视频分解成4个状态视频，那么每个状态视频包含的视频帧的数量可以是相同的。通过将特效视频分解成多个状态视频，本技术实施例可以有效的剔除与起止状态相似或相同的动作，在一定程度上可以降低信息干扰。
85.本技术实施例中，在将特效视频分解成多个状态视频之后，本技术实施例可以获取每个状态视频对应的第二参考姿态信息。作为一个示例，获取到特效视频之后，将所述特效视频分解成4个(或6个)状态视频，而后在状态视频切换点上，选取前后各一帧视频，然后分别获取这三个视频帧的姿态信息，将这三个视频帧的姿态信息求平均，得到的值便是状态视频对应的第二参考姿态信息。需要说明的是，本技术实施例可以将特效视频分解成4个状态视频，也可以分解成6个状态视频，或者也可以分解成8个状态视频，具体分解成多少个状态这里不进行明确限制，可以根据实际情况进行选择。
86.作为另一种方式，将特效视频分解成多个状态视频之前，本技术实施例可以先确定所述特效视频的数据，然后确定该特效视频的数据格式是否为指定格式，若所述特效视频的数据格式不是指定格式，则将所述特效视频的数据格式转换为指定格式，所述指定格式包括所述特效视频的类型、所述特效视频的起点时间、终止时间以及过滤控制帧数中的至少一个，所述过滤控制帧数用于去抖动。
87.通过上述介绍可以知道，特效视频包含在标准视频中，而标准视频为添加特效的视频，上述特效的起点时间、终止时间可以是特效在标准视频帧的起止时间。特效视频的起点时间、终止时间以及滤控制帧数可以是通过人工标注的方法获取的，即通过人工标注可以将每个动作特效标注信息编辑成固定格式。其中，特效视频的类型用于区分不同的动作特效；起止时间表示特效动作的开始时间和结束时间；帧数过滤控制可以称作是稳定性控制，其主要用于避免异常对视频处理的影响。例如，帧数过滤控制为3时，电子设备可以随机获取3个视频帧，这3个视频帧中如果目标对象的变化很大，就可能存在异常，为了避免异常带来的负面影响，本技术实施例可以对特效视频中的多个视频帧的信息求平均。
88.通过上述介绍可以知道，在将特效视频分解成多个状态视频之前，本技术实施例也可以确定特效视频的数据格式是否为指定格式，指定格式可以包括特效视频的类型、所述特效视频的起点时间、终止时间以及过滤控制帧数中的至少一个。换句话说，在确定特效视频的数据时，本技术实施例可以仅确定起止时间，也可以既确定起止时间，又确定特效视频的类型，或者可以同时确定起止时间、特效视频的类型以及过滤控制帧数。具体确定哪些数据这里不进行明确限制，可以根据实际情况进行选择。
89.作为另一种方式，在将每个所述候选姿态信息分别与所述多个参考视频帧的第一参考姿态信息进行匹配之前，本技术实施例也可以通过多个第二参考姿态信息获取对应的多个第一参考姿态信息。具体的，分别对相邻两个所述状态视频对应的第二参考姿态信息执行比较操作，以获取每个所述状态视频对应的所述第一参考姿态信息。
90.具体的，若后一个状态视频的第二参考姿态信息与前一个状态视频的第二参考姿态信息之间的差值大于第一差值，则将所述前一个状态视频的第二参考姿态信息与第一指定数值的乘积作为所述前一个状态视频对应的第一参考姿态信息，所述第一指定数值小于1。另外，若后一个状态视频的第二参考姿态信息与前一个状态视频的第二参考姿态信息的差值小于第二差值，则将所述前一个状态视频的第二参考姿态信息与第二指定数值的乘积作为所述前一个状态视频对应的第一参考姿态信息，所述第二指定数值大于1。
91.作为一个示例，获取到四个状态视频，这四个状态视频分别是state1，state2，state3以及state4，state1的第二参考姿态信息为a1，state2的第二参考姿态信息为a2，state3的第二参考姿态信息为a3，state4的第二参考姿态信息为a4。分别计算每个状态切换过程中的参数变化，如state1中的参数a1相对state2中的参数a2变化，所述变化可以包括递增和递减。电子设备可以基于该参数变化，确定出状态变化前的参数值，该参数值即为第一参考姿态信息(最低对比参数)。例如，在state1到state2情况下，第二参考姿态信息a2相对第二参考姿态信息a1增大了，此时第二参考姿态信息a1对应的第一参考姿态信息b1等于第二参考姿态信息a1*0.8，其中，0.8可以为超参数，该超参数可以通过实验进行调试得到。又如，在state2到state3情况下，第二参考姿态信息a3相对第二参考姿态信息a2减小了，此时第二参考姿态信息a2对应的第一参考姿态信息b2等于第二参考姿态信息a2*1.3，其中，1.3也为超参数。
92.可见，后一状态视频相较前一状态视频的第二参考姿态信息增加，则对应的第一参考姿态信息减小；若后一状态视频相较前一状态视频的第二参考姿态信息减小，则对应的第一参考姿态信息增大，二者成反比关系。
93.综上所述，第一参考姿态信息主要是为了确保视频中动作不够标准，或者其与标准动作之间有差别，也能够更好地添加动作效果，给用户提供更好的使用体验，而第二参考姿态信息则主要是对待处理视频的动作和标准动作做对比，最终确定人体动作是否完成每个动作状态，从而判断是否可以自动添加特效，如此可以提高特效添加的准确性。
94.步骤s226：确定所述目标姿态信息对应的待处理视频帧，并利用所述待处理视频帧对所述目标视频帧的起始视频帧进行更新。
95.在一些实施方式中，电子设备在获取到目标姿态信息之后，其可以确定出与目标姿态信息对应的待处理视频帧，然后利用该待处理视频帧对目标视频帧的起始视频帧进行更新，进而可以实现对起点时间的更新。
96.步骤s230：将所述起始视频帧对应的时间作为起点时间。
97.步骤s240：根据所述起点时间获取所述目标时间段，并基于所述特效视频为所述目标时间段内的视频添加特效。
98.本技术实施例中，在获取到起点时间时，电子设备可以结合起点时间与特效视频的时长确定出目标时间段，通过上述介绍可以知道，特效视频的时长时已知的，故在确定了起始视频帧的起点时间之后，本技术实施例可以结合所述起点时间和特效视频的时长综合
确定出目标时间段。
99.在另一些实施方式中，电子设备也可以在获取起始视频帧时，也可以获取终点视频帧，然后将终点视频帧对应的时间作为终止时间，终点视频帧的获取过程与起始视频帧的获取过程类似，这里就不再进行赘述了。另外，在获取到起点时间和终止时间之后，本技术实施例可以获取到目标时间段。
100.本技术实施例提出的一种视频处理方法，通过获取与参考视频帧匹配的目标视频帧，在一定程度上可以提高视频处理的准确性，具体的，获取待处理视频，其中，待处理视频可以包括多个待处理视频帧，基于此，获取特效视频对应的多个参考视频帧，并从多个待处理视频帧中确定与每个参考视频帧匹配的目标视频帧，最后由多个目标视频帧确定目标时间段，并基于特效视频为目标时间段内的视频添加特效。本技术在获取到特效视频对应的多个参考视频帧之后，其通过将待处理视频帧与每个参考视频帧进行匹配，并基于匹配的目标视频帧确定出一个准确的目标时间段，如此可以使特效的添加更加准确。另外，本技术实施例可以有效的剔除与起止状态相似或相同的动作，在一定程度上可以降低信息干扰，并且通过引入第一参考姿态信息和第二参考姿态信息可以更加灵活的实现特效的添加。
101.本技术又一实施例提供了一种视频处理方法，请参阅图11，该视频处理方法可以包括步骤s310至步骤350。
102.步骤s310：获取待处理视频，所述待处理视频包括多个待处理视频帧。
103.步骤s320：获取特效视频对应的多个参考视频帧。
104.步骤s330：对每个所述待处理视频帧进行姿态检测，得到多个候选姿态信息。
105.请参阅图12，步骤s330可以包括s331至步骤s333。
106.步骤s331：对每个所述待处理视频帧进行人体检测，得到人体检测结果。
107.本技术实施例中，人体检测可以采用检测算法ssd(single shot multibox detector，基于全卷积的网络的检测器)，具体的检测过程可以包括：边框选择操作、边框归一化处理操作、cnn(convolutional neural networks，卷积神经网络)训练特征提取操作、边框回归操作、分类器分类操作以及数据后处理操作等，最后便可以得到目标检测框，该目标检测框对应的信息即为人体检测结果。
108.在一些实施方式中，当待处理视频帧中包含多个人体时，对待处理视频帧进行人体检测可以获取到多个人体检测框，如对图2所示的待处理视频帧进行人体检测，通常会得到如图13所示的示图，从图13可以知道，当待处理视频帧中包含多个人体时，对待处理视频帧执行人体检测会获取到多个人体检测框，这些人体检测框分别可以是301、302以及303。然而，当待处理视频帧中包含有多个人体时，会影响特效的正常添加。因此，本技术实施例通过边框选择操作，可以从多个人体检测框中选出目标检测框，如此可以剔除较小的人体检测框，可以提高人体检测的准确性。
109.作为一种方式，目标检测框的选择过程可以包括：检测待处理视频帧中是否包括多个人体，如果检测到待处理视频帧包括多个人体，则获取每个人体对应的候选框，并确定每个候选框的第一中心点坐标，以及确定待处理视频帧的第二中心点坐标。在此基础上，本技术可以获取每个第一中心点坐标与第二中心点坐标之间的距离，以得到第一距离，最后根据所述第一距离从多个人体中确定出目标人体，并将目标人体对应的候选框作为目标检测框。
110.作为另一种方式，目标检测框的选择过程还可以包括：确定所述待处理视频帧对角线的距离，得到第二距离；根据所述第一距离和第二距离得到目标距离，并获取所述每个人体候选框对应的面积；基于所述目标距离和所述候选框的面积从多个人体中确定出目标人体，并将所述目标人体的候选框作为目标检测框。
111.为了更清楚的理解，目标检测框的获取过程，现给出如图14所示的示图，图14中的d1、d2和d3可以是第一中心点坐标，而o则是待处理视频帧的第二中心点坐标，l1为d1到o的距离，l2为d2到o的距离，l3为d3到o的距离，l1、l2和l3可以统称为第一距离。待处理视频帧对角线的距离为l，本技术可以根据第一距离和第二距离得到目标距离，目标距离可以等于二分之一倍的第二距离减去第一距离。最后可以基于目标距离和候选框的面积从多个人体检测框中确定出目标检测框。图14中301对应的面积为s1，302对应的面积为s2，303对应的面积为s3；301对应的第一距离为(l/2
‑
l1)，302对应的第一距离为(l/2
‑
l2)，303对应的第一距离为(l/2
‑
l3)。将(l/2
‑
l1)/s1的值、(l/2
‑
l2)/s2的值以及(l/2
‑
l3)/s3的值进行比较排序，并将最小值对应的人体检测框作为目标检测框。
112.在一些实施方式中，获取到待处理视频中每个待处理视频帧对应的目标检测框之后，本技术实施例也可以对这些目标检测框进行坐标平滑处理，所述坐标平滑处理主要针对多帧连续的情况下，由于不同待处理视频帧的目标检测框会存在误差，如此会出现框体抖动变化的情况。为了解决该问题，本技术实施例可以对每个目标检测框的坐标先进行滤波处理，然后对滤波后的目标检测框进行平滑处理。
113.在另一些实施方式中，由于平滑处理的限制，导致在对人体检测时，如果出现识别错误的情况，则会导致很大的误差。为了避免该问题，在对滤波后的目标检测框进行平滑处理时，本技术实施例可以先对目标检测框进行错误判断处理。因此，在对多个目标检测框进行滤波之后，本技术实施例可以检测各目标检测框是否存在异常，如果目标检测框存在异常，则将上一个待处理视频帧的目标检测框作为当前待处理视频帧的目标检测框。
114.具体的，检测目标人体的候选框是否存在异常可以包括：获取当前视频对应的目标检测框与前一帧待处理视频帧对应的目标检测框的差值，若所述差值大于预设阈值，则确定所述目标人体的候选框存在异常。
115.作为另一种方式，获取当前待处理视频帧对应的目标检测框与前一个待处理视频帧对应的目标检测框的差值之前，本技术实施例可以获取指定数量的待处理视频帧，并获取所述指定数量的待处理视频帧对应的目标检测框；确定每相邻两个待处理视频帧对应的目标检测框的差值，并对所述差值进行排序，并将最大差值作为所述预设阈值。
116.步骤s332：根据所述人体检测结果对所述待处理视频帧进行关键点检测，得到关键点检测结果。
117.在一些实施方式中，关键点检测可以用于对人体的关节点进行检测，关键点检测可以包括：对人体检测获取到的目标检测框进行cnn训练、特征提取、关键点回归、关键点分类以及数据后处理等。其中，cnn训练和特征提取可以采用msra提出的simple baseline方法，在该算法的基础上采集了相关场景样本，标注并训练获取到关键点检测模型。另外，由于关键点检测模型的预测通常会存在抖动的情况，并且有时也会出现某个或者某些关键点检测错误的现象。为了解决该问题，本技术实施例可以对关键点进行平滑处理，同时可以对关键点的相关异常添加处理。其中，异常添加处理可以包括获取与异常关键点相似的关键
点，并利用该关键点代替异常关键点。例如，检测出膝盖的关键点位于身体的位置，而脚的关键点则在身体的下面，此时说明书膝盖点的检测出现错误，同时这个关键点的置信度也很低，此时，本技术实施例则可以获取另一个腿的对称点。
118.本技术实施例中，关键点的数量可以是17个，即本技术可以对人体的17个关节点进行检测。为了更清楚的理解关节点在人体中的位置，本技术实施例给出了如图15所示的示图，通过图15可以看出人体包括17个关节点。这些关节点可以包括头、颈、手以及脚等，详细如表1所示。
119.表1
[0120][0121]
表1中的各关节点为人体常见关节点，通过这些关节点，电子设备可以更好的对人体的姿态进行检测。
[0122]
步骤s333：对所述关键点检测结果进行数据转换，得到多个所述候选姿态信息，所述候选姿态信息包括多个人体关节点对应的角度信息和距离信息。
[0123]
在一些实施方式中，电子设备在获取到关键点检测结果之后，其可以对关键点检测结果进行数据转换，以得到多个候选姿态信息。其中，候选姿态信息可以包括多个人体关节点对应的角度信息和距离信息，其中，角度信息可以是目标关节点与相邻两个关节点之间的角度，距离信息则可以是目标关节点与相邻两个关节点之间的距离信息。如图15中，关节点8对应的角度1关节点9和关节点14之间的夹角，而关节点8对应的距离信息则可以是线段89和线段814，其中，每个线段可以包括两个距离，这两个距离可以是水平距离和垂直距离。为了更清楚的理解各关节点的坐标角度信息和距离信息，现给出如表2所示的候选姿态信息表。
[0124]
表2
[0125][0126]
上述表2为不同视频帧对应的候选姿态信息，从表2可以知道每个待处理视频帧可以包括9个角度信息，且每个角度信息可以对应两个距离信息，这些信息可以统称为候选姿态信息。另外，表2仅作为示例，具体以实际情况为准。
[0127]
本技术实施例中，电子设备在进行关键点检测时可以获取到每个关节点在待处理视频帧中的坐标，而后结合这些坐标信息便可以获取到每个关节点对应的角度信息和距离信息。
[0128]
步骤s340：将每个所述候选姿态信息分别与所述多个参考视频帧的第一参考姿态信息进行匹配，并将匹配度大于预设匹配度的候选姿态信息对应的待处理视频帧作为目标视频帧。
[0129]
本技术实施例中，候选姿态信息可以包括角度信息和距离信息，第一参考姿态信息也可以包括第一角度信息和第一距离信息，在将每个候选姿态信息与多个参考视频帧的第一参考姿态信息进行匹配时，本技术实施例主要是将候选姿态信息中的角度信息与对应的第一参考姿态信息中的角度信息进行匹配；以及将候选姿态信息中的距离信息与对应的第一参考姿态信息中的距离信息进行匹配。例如，将候选姿态信息中的角度2与第一参考姿态信息中的角度2进行匹配。
[0130]
步骤s350：由多个所述目标视频帧确定目标时间段，并基于所述特效视频为所述目标时间段内的视频添加特效。
[0131]
本技术实施例中，电子设备将每个所述候选姿态信息分别与所述多个参考视频帧的第一参考姿态信息进行匹配，并将匹配度大于预设匹配度的候选姿态信息对应的待处理视频帧作为目标视频帧之后，可以通过引入第二参考姿态信息来对目标视频帧中的起始视频帧进行更新。
[0132]
具体的，基于所述起始视频帧确定预设数量的候选视频帧，并获取每个所述候选视频帧对应的姿态信息；分别将每个所述候选视频帧对应的姿态信息与第二参考姿态信息进行比较，并将相似度大于预设相似度的姿态信息作为目标姿态信息，所述第二参考姿态信息对应的参考视频帧与所述第一参考姿态信息对应的参考视频帧相邻；确定所述目标姿态信息对应的待处理视频帧，并利用该待处理视频帧对所述目标视频帧的起始视频帧进行更新。其中，相似度可以是姿态信息之间的差值，即候选视频帧对应的姿态信息与第二参考姿态信息之间的差值可以是角度信息与线段信息的差值，当该差值小于预设差值时，可以将对于的姿态信息作为目标姿态信息。另外，候选视频帧对应的姿态信息与第二参考姿态信息之间的相似度也可以是所有关节点位置的均方差。作为也示例，相似度可以等于差值*
0.7 均方差*0.3。
[0133]
本技术实施例中，电子设备在获取到多个参考视频帧之后可以对这些参考视频帧对应的姿态信息进行存储和分析，其在一定程度上可以减少添加特效时对位置信息的人工标注，进而可以提高添加特效时的效率。并且，本技术实施例可以针对不同的人体动作，自动实现特效的添加，降低了用户操作的复杂性，提高了用户使用体验。
[0134]
本技术实施例提出的一种视频处理方法，通过获取与参考视频帧匹配的目标视频帧，在一定程度上可以提高视频处理的准确性，具体的，获取待处理视频，其中，待处理视频可以包括多个待处理视频帧，基于此，获取特效视频对应的多个参考视频帧，并从多个待处理视频帧中确定与每个参考视频帧匹配的目标视频帧，最后由多个目标视频帧确定目标时间段，并基于特效视频为目标时间段内的视频添加特效。本技术在获取到特效视频对应的多个参考视频帧之后，其通过将待处理视频帧与每个参考视频帧进行匹配，并基于匹配的目标视频帧确定出一个准确的目标时间段，如此可以使特效的添加更加准确。另外，本技术实施例通过将关键点检测结果转换为候选姿态信息，在一定程度上可以使加入特效视频的时间点更加准确，并且，本技术实施例通过利用第一参考姿态信息和第二参考姿态信息可以在需要添加特效的待处理视频上自动准确的添加对应的特效。
[0135]
请参阅图16，本技术实施例提出了一种视频处理装置400。在具体的实施例中，该视频处理装置400包括：第一获取模块410、第二获取模块420和特效添加模块430。
[0136]
第一获取模块410，用于获取待处理视频，所述待处理视频包括多个待处理视频帧。
[0137]
第二获取模块420，用于获取特效视频对应的多个参考视频帧，从多个所述待处理视频帧中确定与每个所述参考视频帧匹配的目标视频帧。
[0138]
进一步地，第二获取模块420还用于对每个所述待处理视频帧进行姿态检测，得到多个候选姿态信息；将每个所述候选姿态信息分别与所述多个参考视频帧的第一参考姿态信息进行匹配，并将匹配度大于预设匹配度的候选姿态信息对应的待处理视频帧作为目标视频帧，其中，与起点参考视频帧的第一参考姿态信息的匹配度大于预设匹配度的候选姿态信息对应的待处理视频帧为起始视频帧。
[0139]
进一步地，第二获取模块420还用于基于所述起始视频帧确定预设数量的候选视频帧，并获取每个所述候选视频帧对应的姿态信息；分别将每个所述候选视频帧对应的姿态信息与第二参考姿态信息进行比较，并将相似度大于预设相似度的姿态信息作为目标姿态信息，所述第二参考姿态信息对应的参考视频帧与所述第一参考姿态信息对应的参考视频帧相邻；确定所述目标姿态信息对应的所述待处理视频帧，并利用所述待处理视频帧对所述目标视频帧的起始视频帧进行更新。
[0140]
进一步地，第二获取模块420还用于对每个所述待处理视频帧进行人体检测，得到人体检测结果；根据所述人体检测结果对所述待处理视频帧进行关键点检测，得到关键点检测结果；对所述关键点检测结果进行数据转换，得到多个所述候选姿态信息，所述候选姿态信息包括多个人体关节点对应的角度信息和距离信息。
[0141]
特效添加模块430，用于由多个所述目标视频帧确定目标时间段，并基于所述特效视频为所述目标时间段内的视频添加特效。
[0142]
进一步地，所述多个参考视频帧包括起点参考视频帧，多个所述目标视频帧包括
与起点参考视频帧匹配的起始视频帧。特效添加模块430还用于将所述起始视频帧对应的时间作为起点时间，根据所述起点时间获取所述目标时间段。
[0143]
进一步地，视频处理装置400还用于将所述特效视频分解成多个状态视频，并获取每个所述状态视频对应的第二参考姿态信息。其中，将所述特效视频分解成多个状态视频可以包括：确定所述特效视频的格式数据，所述格式数据包括所述特效视频的类型、所述特效视频的起点时间、终止时间以及过滤控制帧数，所述过滤控制帧数用于去抖动；基于所述特效视频的格式数据将所述特效视频分解成多个所述状态视频。
[0144]
进一步地，视频处理装置400还用于分别对相邻两个所述状态视频对应的第二参考姿态信息进行比较，若后一个状态视频的第二参考姿态信息与前一个状态视频的第二参考姿态信息之间的差值大于第一差值，则将所述前一个状态视频的第二参考姿态信息与第一指定数值的乘积作为所述前一个状态视频对应的第一参考姿态信息，所述第一指定数值小于1。另外，若后一个状态视频的第二参考姿态信息与前一个状态视频的第二参考姿态信息的差值小于第二差值，则将所述前一个状态视频的第二参考姿态信息与第二指定数值的乘积作为所述前一个状态视频对应的第一参考姿态信息，所述第二指定数值大于1。
[0145]
所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。
[0146]
另外，在本技术各个实施例中的各功能模块可以集成在一个处理模块中，也可以是各个模块单独物理存在，也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。
[0147]
本技术实施例提出的一种视频处理装置，本技术通过获取与参考视频帧匹配的目标视频帧，在一定程度上可以提高视频处理的准确性，具体的，获取待处理视频，其中，待处理视频可以包括多个待处理视频帧，基于此，获取特效视频对应的多个参考视频帧，并从多个待处理视频帧中确定与每个参考视频帧匹配的目标视频帧，最后由多个目标视频帧确定目标时间段，并基于特效视频为目标时间段内的视频添加特效。本技术在获取到特效视频对应的多个参考视频帧之后，其通过将待处理视频帧与每个参考视频帧进行匹配，并基于匹配的目标视频帧确定出一个准确的目标时间段，如此可以使特效的添加更加准确。
[0148]
请参阅图17，其示出了本技术实施例提供的一种电子设备500的结构框图。该电子设备500可以是智能手机、平板电脑、电子书等能够运行应用程序的电子设备。本技术中的电子设备500可以包括一个或多个如下部件：处理器510、存储器520、以及一个或多个应用程序，其中一个或多个应用程序可以被存储在存储器520中并被配置为由一个或多个处理器510执行，一个或多个程序配置用于执行如前述方法实施例所描述的方法。
[0149]
处理器510可以包括一个或者多个处理核。处理器510利用各种接口和线路连接整个电子设备500内的各个部分，通过运行或执行存储在存储器520内的指令、程序、代码集或指令集，以及调用存储在存储器520内的数据，执行电子设备500的各种功能和处理数据。可选地，处理器510可以采用数字信号处理(digital signal processing，dsp)、现场可编程门阵列(field－programmable gate array，fpga)、可编程逻辑阵列(programmable logic array，pla)中的至少一种硬件形式来实现。处理器510可集成中央处理器(central processing unit，cpu)、声纹识别器(graphics processing unit，gpu)和调制解调器等中的一种或几种的组合。其中，cpu主要处理操作系统、用户界面和应用程序等；gpu用于负责
显示内容的渲染和绘制；调制解调器用于处理无线通信。可以理解的是，上述调制解调器也可以不集成到处理器510中，单独通过一块通信芯片进行实现。
[0150]
存储器520可以包括随机存储器(random accessmemory，ram)，也可以包括只读存储器(read
‑
only memory)。存储器520可用于存储指令、程序、代码、代码集或指令集。存储器520可包括存储程序区和存储数据区，其中，存储程序区可存储用于实现操作系统的指令、用于实现至少一个功能的指令(比如触控功能、声音播放功能、图像播放功能等)、用于实现下述各个方法实施例的指令等。存储数据区还可以存储电子设备500在使用中所创建的数据(比如电话本、音视频数据、聊天记录数据)等。
[0151]
请参阅图18，其示出了本技术实施例提供的一种计算机可读存储介质600的结构框图。该计算机可读存储介质600中存储有程序代码，所述程序代码可被处理器调用执行上述方法实施例中所描述的方法。
[0152]
计算机可读存储介质600可以是诸如闪存、eeprom(电可擦除可编程只读存储器)、eprom、硬盘或者rom之类的电子存储器。可选地，计算机可读存储介质600包括非易失性计算机可读介质(non
‑
transitory computer
‑
readable storage medium)。计算机可读存储介质600具有执行上述方法实施例中的任何方法步骤的程序代码610的存储空间。这些程序代码可以从一个或者多个计算机程序产品中读出或者写入到这一个或者多个计算机程序产品中。程序代码610可以例如以适当形式进行压缩。最后应说明的是：以上实施例仅用以说明本技术的技术方案，而非对其限制；尽管参照前述实施例对本技术进行了详细的说明，本领域的普通技术人员当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不驱使相应技术方案的本质脱离本技术各实施例技术方案的精神和范围。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：一种便于携带的大数据移动终端的制作方法

视频处理方法、装置、电子设备和可读存储介质与流程

相关文献

最热文献