一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种高光视频提取方法、装置和电子设备与流程

2022-04-27 09:02:34 来源:中国专利 TAG:


1.本发明涉及视频处理领域,具体涉及一种高光视频提取方法、装置和设电子备。


背景技术:

2.在舞台拍摄、电影拍摄、纪录片拍摄人物或动物等活体时,会获取较长的视频,通常为了宣传等目的,需要从较长的视频中剪辑出活体具有代表性动作、代表性表情的高光视频。现有技术的针对此类视频往往采用人工观看视频,再手动剪辑视频中活体的高光时刻得到高光视频,但是这种方法剪辑效率低下,耗费大量人力。因此,如何在长视频中进行活体的高光视频自动提取是亟待解决的问题。


技术实现要素:

3.有鉴于此,本发明实施方式提供了一种高光视频提取方法、装置和设电子备,从而实现了在长视频中进行活体的高光视频自动提取。
4.根据第一方面,本发明提供了一种高光视频提取方法,所述方法包括:提取样本视频的各帧画面中与预设高光头像状态和预设高光动作所匹配的目标头像和目标身体图像,所述预设高光头像状态用于表征符合高光标准的表情、头朝向和头俯仰状态;将所述各帧画面中提取出的目标头像和目标身体图像以是否属于同一活体为标准进行匹配,并获取各帧画面中匹配成功的目标活体图像;基于所述目标活体图像在所述样本视频的各帧画面中追踪所述目标活体,并提取存在所述目标活体的画面组成高光视频。
5.可选地,所述提取样本视频的各帧画面中与预设高光表情和预设高光动作所匹配的头像和身体图像,包括:基于减少卷积运算的yolov5模型识别所述各帧画面中的头像和身体图像;基于预设神经网络模型分别识别所述头像和所述身体图像的头像状态和动作,所述预设神经网络模型由resnext、cspnet和senet组成的网络结构通过头像样本和身体图像样本训练生成;将识别的头像状态和动作分别与预设高光头像状态和预设高光动作进行相似度比对;从所述头像和所述身体图像中提取目标头像和目标身体图像,所述目标头像的头像状态与预设高光头像状态的相似度高于第一预设阈值,目标身体图像的动作与预设高光动作的相似度高于第二预设阈值。
6.可选地,生成所述减少卷积运算的yolov5模型的步骤,包括:获取初始yolov5模型的骨干网络中瓶颈层的卷积操作个数n;将n个所述卷积操作替换为m个卷积操作和s个线性变换的叠加操作,以生成所述减少卷积运算的yolov5模型,其中n=m
×
s。
7.可选地,生成所述减少卷积运算的yolov5模型的步骤,还包括:分别将yolov5模型中neck结构的特征金字塔网络和像素聚合网络中的上采样卷积操作和下采样卷积操作替换为双线性插值操作,以生成所述减少卷积运算的yolov5模型。
8.可选地,所述方法还包括:基于所述高光视频中目标活体的高光属性度、像素变化度、头像完整度、位移程度以及所述高光视频的画面质量为所述高光视频进行打分,所述高光属性度用于表征目标活体头像和身体图像分别与预设高光头像状态和预设高光动作的
匹配程度;当所述高光视频的分值大于预设阈值时,保留所述高光视频,否则删除所述高光视频。
9.可选地,所述基于所述高光视频中目标活体的高光属性度、像素变化度、头像完整度、位移程度以及所述高光视频的画面质量为所述高光视频进行打分,包括:获取所述目标活体在所述高光视频中的全部头像状态与全部动作,并将第一相似度和第二相似度的均值作为所述高光属性度,所述第一相似度是所述全部头像状态分别与所述预设高光头像状态进行相似度计算的均值,所述第二相似度是所述全部动作分别与所述预设高光动作进行相似度计算的均值;将所述高光视频中各帧画面像素与全部画面平均像素之间的变化量均值作为所述像素变化度;对所述目标活体在所述高光视频中各帧画面的头像进行身份识别,并将身份识别成功率作为所述头像完整度,所述身份识别成功率是能够识别身份的头像数量与总头像数量的比值;将所述目标活体在所述高光视频各帧画面的头像中心点变化值的均值作为所述位移程度,所述头像中心点变化值为目标活体在各帧画面中的头像中心点与全部画面的平均头像中心点之间的变化量;基于所述高光视频的画面剪辑量、长宽比、亮度和清晰度的加权计算结果表征所述画面质量;将所述高光属性度、像素变化度、头像完整度、位移程度以及所述画面质量进行加权计算,得到所述高光视频的分值。
10.可选地,在所述当所述高光视频的分值大于预设阈值时,保留所述高光视频,否则删除所述高光视频之前,所述方法还包括:基于所述目标活体在所述高光视频中的出框率对所述高光视频的分值进行减分调整,所述出框率是所述目标活体在所述高光视频中平均出画面尺寸与画面尺寸的比值。
11.根据第二方面,本发明提供了一种高光视频提取装置,所述装置包括:结构化检测模块,用于提取样本视频的各帧画面中与预设高光头像状态和预设高光动作所匹配的目标头像和目标身体图像,所述预设高光头像状态用于限定符合高光标准的表情、头朝向和头俯仰状态;目标匹配模块,用于将所述各帧画面中提取出的目标头像和目标身体图像以是否属于同一活体为标准进行匹配,并获取各帧画面中匹配成功的目标活体图像;视频生成模块,用于基于所述目标活体图像在所述样本视频的各帧画面中追踪所述目标活体,并提取存在所述目标活体的画面组成高光视频。
12.根据第三方面,本发明实施例提供了一种电子设备,包括:存储器和处理器,所述存储器和所述处理器之间互相通信连接,所述存储器中存储有计算机指令,所述处理器通过执行所述计算机指令,从而执行第一方面,或者第一方面任意一种可选实施方式中所述的方法。
13.根据第四方面,本发明实施例提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机指令,所述计算机指令用于使所述计算机从而执行第一方面,或者第一方面任意一种可选实施方式中所述的方法。
14.本技术提供的技术方案,具有如下优点:
15.本技术提供的技术方案,首先对样本视频的各帧画面进行单独分析,对各帧画面中的活体头像和活体身体图像进行目标识别,再判断各帧画面中识别到的头像和身体图像是否与预设的高光状态相匹配,将符合高光状态的目标头像和目标身体图像留下。之后对画面中提取到的目标头像以及目标身体图像进行匹配,组成完整的活体目标,从而确定需要追踪的活体身份信息,最后针对目标活体在各帧画面中对其进行追踪,包含目标活体的
画面留下,不包括目标活体的画面丢弃,最终将留下的画面组成视频,即可得到针对目标活体的完整视频,且该视频中包含了目标活体的高光状态,是目标活体的高光视频。
16.此外,本发明还采用了轻量级的yolov5模型识别各帧画面中的头像和身体图像,大大提高了目标识别速度。并且,还基于目标活体的高光属性度、像素变化度、头像完整度、位移程度以及所述高光视频的画面质量为高光视频进行打分,进一步保证了高光视频的质量。
附图说明
17.通过参考附图会更加清楚的理解本发明的特征和优点,附图是示意性的而不应理解为对本发明进行任何限制,在附图中:
18.图1示出了本发明一个实施方式中一种高光视频提取方法的步骤示意图;
19.图2示出了本发明一个实施方式中一种高光视频提取方法的头像以及身体图像的量化示意图;
20.图3示出了本发明一个实施方式中一种生成轻量化yolov5模型的操作方式示意图;
21.图4示出了现有技术中fpn pan的结构示意图;
22.图5示出了本发明一个实施方式中一种高光视频提取装置的结构示意图;
23.图6示出了本发明一个实施方式中一种电子设备的结构示意图。
具体实施方式
24.为使本发明实施方式的目的、技术方案和优点更加清楚,下面将结合本发明实施方式中的附图,对本发明实施方式中的技术方案进行清楚、完整地描述,显然,所描述的实施方式是本发明一部分实施方式,而不是全部的实施方式。基于本发明中的实施方式,本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施方式,都属于本发明保护的范围。
25.请参阅图1,在一个实施方式中,一种高光视频提取方法,具体包括以下步骤:
26.步骤s101:提取样本视频的各帧画面中与预设高光头像状态和预设高光动作所匹配的目标头像和目标身体图像,预设高光头像状态用于表征符合高光标准的表情、头朝向和头俯仰状态。
27.步骤s102:将各帧画面中提取出的目标头像和目标身体图像以是否属于同一活体为标准进行匹配,并获取各帧画面中匹配成功的目标活体图像。
28.步骤s103:基于目标活体图像在样本视频的各帧画面中追踪目标活体,并提取存在目标活体的画面组成高光视频。
29.具体地,为了从较长的视频中剪辑出活体具有代表性动作、代表性表情的高光视频,首先对一段视频的单帧画面进行处理,将一段视频的各帧画面分开,然后基于目标识别算法将画面中活体的头像和身体图像识别出来,可采用包括但不限于yolov1、yolov2、yolov3等算法进行识别。之后将识别出的头像以及身体图像与预设的高光头像状态和预设高光动作进行相似度的计算,相似度计算的方法包括但不限于内积、欧式距离,若相似度在预设阈值之上,则认为当前进行匹配的头像或身体图像具有代表性的表情或者动作,在本
发明实施例中,为了提高活体高光状态识别的准确度,分别从头像的表情、头朝向和头俯仰状态,以及多种动作纬度对头像和身体图像进行相似度的匹配。由于高光视频的追踪是针对完整目标的追踪,并且在各帧画面中识别出具有代表性表情和代表性动作的目标头像以及目标身体图像通常并不唯一,还需要对多个目标头像以及目标身体图像进行匹配,将属于同一个活体的目标头像以及目标身体图像匹配在一起,然后才能在活体身份信息库中搜索完整目标图像,进而确认需要追踪的目标身份。在本实施例中,通过计算人脸的中心坐标是否处于人体坐标之内,以及计算人脸和人体的最大iou值来判定人脸和人体是否匹配。最后针对该活体在各帧画面中对其进行追踪,包含该活体的画面留下,不包括目标活体的画面丢弃,最终将留下的画面组成视频,即可得到针对目标活体的完整视频,且该视频中包含了目标活体的高光状态,是目标活体的高光视频。
30.在本实施例中,用于追踪各个画面中的多个目标的追踪算法采用sort多目标追踪算法进行实现,例如:获取到第一帧画面中所有潜在高光活体目标的分类和位置,并为各个目标标注一个独有id。对每个目标初始化卡尔曼滤波跟踪器,预测每个目标在下一帧的位置;对第二帧使用目标检测模型进行目标检测,得到第二帧中所有目标的分类和位置,求第一帧m个目标和第二帧n个目标两两目标之间的iou,建立代价矩阵,使用匈牙利匹配算法得到iou最大的唯一匹配,再去掉匹配值小于iou阈值的匹配对。用第二帧中匹配到的目标的位置去更新卡尔曼跟踪器,计算第二帧时的卡尔曼增益、状态估计值、估计误差协方差,并输出状态估计值,用来计算下一帧中的预测位置。对于没有匹配到的目标重新初始化卡尔曼滤波跟踪器;后面每一帧图像都按第一帧和第二帧的做法进行类似处理,从而实现对目标在各帧画面中的追踪。仅以此举例,采用的追踪算法并不以此为限。
31.具体地,在一实施例中,上述步骤s101,具体包括如下步骤:
32.步骤一:基于减少卷积运算的yolov5模型识别各帧画面中的头像和身体图像。具体地,在本发明实施例中,基于现有技术中目标识别表现优秀的目标识别算法yolov5进行头像和身体图像的识别,加快识别效率。并且,通过减少yolov5模型中的卷基运算,进一步降低算法复杂程度,提高计算速度,对于较长的视频仍然有较快的速度。
33.步骤二:基于预设神经网络模型分别识别头像和身体图像的头像状态和动作,预设神经网络模型由resnext、cspnet和senet组成的网络结构通过头像样本和身体图像样本训练生成。
34.具体地,在识别到各帧画面的头像以及人体图像之后,为了提高高光状态的相似度计算准确率,首先需要对各个画面中的头像以及身体图像的具体状态进行识别,在本实施例中,具体包括头像的表情、头朝向和头俯仰状态、以及身体站立大小动作、站立手持物、坐着大小动作、坐着手持物,其中表情包括高兴、冷静、悲伤、无表情,头像朝向包括前、后、左、右,在本实施例中,上述量化后的头像状态和身体图像状态基于resnext、cspnet和senet组成的网络结构实现头像和身体图像的机器识别,resnext、cspnet和senet网络是近年来出现的卷积神经网络,其对图像的分析和分类相比cnn等传统网络准确度更高。在对上述网络结构进行训练之前,对样本集中的图像的多个属性进行分析,生成标签二值化的一维向量,从而完成对头像以及人体图像的量化,如图2所示,其中各个属性对应不同标签。之后,将带标签的图像样本集输入到神经网络中,生成每个属性的一维标签概率向量;根据标签二值化的一维向量、一维标签概率向量,计算标签的损失值,根据损失值对网络参数的偏
导更新神经网络的参数权重,当更新次数大于第一预设次数时,得到训练好的儿童高光属性识别模型。最后,利用儿童高光属性识别模型,对头像以及身体图像进行分析,生成多标签的概率值,将人头和人体的一维标签概率向量组合,生成多属性对应多标签的概率值矩阵,依据概率矩阵中的数值判断出各个头像或身体图像所处的具体状态。通过上述步骤,识别出头像和身体图像在多个维度属性的具体状态,从而为头像和身体图像是否具有高光属性的后续判别,提供了可靠的样本,进一步提高判别准确率。在本实施例中,上述计算标签的损失值的公式如下:
[0035][0036][0037]
其中,∈为常量,实施过程中取0.1,n表示多标签融合后所有类别的数量,i为正确分类,j为错误分类,ce表示原始的交叉熵计算公式,k为种类数量,yk表示k类别的真实标签,pk为网络的预测概率。
[0038]
步骤三:将识别的头像状态和动作分别与预设高光头像状态和预设高光动作进行相似度比对。
[0039]
步骤四:从头像和身体图像中提取目标头像和目标身体图像,目标头像的头像状态与预设高光头像状态的相似度高于第一预设阈值,目标身体图像的动作与预设高光动作的相似度高于第二预设阈值。
[0040]
具体地,通过上述步骤一和步骤二得到了各个头像以及身体图像的具体状态之后,与预设的高光头像状态和预设高光动作进行相似度比对,例如预设高光头像状态包括:微笑、大笑、面朝前、仰视,预设高光动作包括手张开、站立等,计算各个头像状态以及身体图像状态与上述状态的相似度,假设当前头像状态以及身体图像状态比对的相似度结果分别大于各自的预设阈值,说明当前的头像状态以及身体图像状态具有高光属性,从而被作为目标头像和目标身体图像用于后续分析。
[0041]
具体地,在一实施例中,上述步骤一中生成减少卷积运算的yolov5模型的具体步骤包括:
[0042]
步骤五:获取初始yolov5模型的骨干网络中瓶颈层的卷积操作个数n。
[0043]
步骤六:将n个卷积操作替换为m个卷积操作和s个线性变换的叠加操作,以生成减少卷积运算的yolov5模型,其中n=m
×
s。
[0044]
具体地,yolov5是一种在yolov4基础上进行改进的用于目标识别模型,其目标识别的速度非常快,其网络结构包括骨干网络、neck、预测网络三部分。其骨干网络是由cbl结构和多级resnet结构组成的复合网络,而cbl结构又是由卷积层(conv)、瓶颈层(bottleneck,bn)以及激活函数leakyrelu组成的,在瓶颈层中,同样存在大量的卷积操作,对图像处理时,骨干网络在中间的特征提取部分会存在大量的冗余特征对,例如一些相似的特征图,其往往需要付出昂贵的卷积操作得到,这部分操作主要集中在瓶颈层。因此在本实施例中,对于这些相似的特征图,考虑通过一些简单的操作来代替复杂的卷积操作,既可以减少用于生成中间特征图的卷积核,减少计算量,以达到优化参数量的目的,又不影响特
征提取的效果。原则上减少计算量的改进是不能影响特征图个数的,以准确对接后续的网络处理,传统方式通过n个卷积操作可以得到n个特征图。因此,在本实施例中,首先获取瓶颈层的卷积操作个数n,如图3所示,将n个卷积操作替换为先进行m个卷积操作后进行s个线性变换操作(例如加减、平移运算)的叠加操作,使得m
×
s=n,从而可以实现输出数量不变的情况下,大幅度减少计算量的效果。例如:输入图片经过一次卷积操作之后,得到m个原始特征图其中h

和w

分别为输入图片的长和宽,用于生成n个特征图的任意卷积层的运算可表示为:
[0045]y′
=x*f

b

[0046]
其中*是卷积运算,b是偏差项,是使用的卷积核,c是卷积核f

的内核大小,k是通道数、m是每个通道的卷积核数量。对y

中的每个原始特征应用一系列轻量的线性运算,以生成s个相似特征图:
[0047][0048]
其中y
′i是y

中第i个原始特征图,φ
ij
是第j个线性运算,用于生成第j个相似特征图y
ij
,即y
′i可以具有一个或多个相似特征图通过使用轻量卷积操作,我们可以获得n=m
×
s个特征图y=[y
11
,y
12
,

,y
ms
]作为轻量卷积模块的输出数据。
[0049]
具体地,在一实施例中,上述步骤一中,生成减少卷积运算的yolov5模型的具体步骤,还包括:
[0050]
步骤七:分别将yolov5模型中neck结构的特征金字塔网络和像素聚合网络中的上采样卷积操作和下采样卷积操作替换为双线性插值操作,以生成减少卷积运算的yolov5模型。
[0051]
具体地,在yolov5的neck结构部分,具有特征金字塔网络(feature pyramid network,fpn)和像素聚合网络(pixel aggregation network,pan)两部分,其主要目的是为了使yolov5识别三种大小不同的目标时,针对三种不同大小规格深化图像特征,在卷积神经网络过程中,网络层数越深,目标的特征信息就越强,模型对目标的预测就更好,但同时也会使得目标的位置信息越来越弱,并且在不断的卷积过程中,对小目标的信息容易造成损失,如图4所示,fpn pan的结构即在pan一路对图像多次卷积得到更好的目标的特征信息,在fpn层一路对最底层的卷积进行多次上采样,扩大图片像素,得到更好的位置信息,然后再将fpn一路和pan一路具有相同大小规格的图像横向相加,从而得到各个大小规格位置信息和特征信息均比较强的特征图,以便于更准确的对不同大小的目标进行识别。在此过程中,pan一路的下采样卷积操作和fpn一路的上采样卷积操作的计算量较大,影响目标识别效率,因此,在本实施例中,通过将上采样卷积操作和下采样卷积操作替换为双线性插值操作来减少fpn pan的结构的计算量,从而使得yolov5模型进一步轻量化。基于双线性插值进行图像的缩放,缩放后的图像质量高,因为考虑了待采样点周围四个直接邻点对该采样点的相关性影响,基本克服了最近邻插值不连续的缺点,虽然相比卷积操作准确度稍有下降,但是yolov5模型在骨干网络已经进行了大量卷积处理,整体效果影响不大,但是却大幅度提高了yolov5模型的计算速度。双线性插值的具体操作流程为现有技术,在此不再赘述。
[0052]
具体地,在一实施例中,一种高光视频提取方法,还包括如下步骤:
[0053]
步骤八:基于高光视频中目标活体的高光属性度、像素变化度、头像完整度、位移
程度以及高光视频的画面质量为高光视频进行打分。
[0054]
步骤九:当高光视频的分值大于预设阈值时,保留高光视频,否则删除高光视频。
[0055]
具体地,在本实施例中,通过高光视频中目标活体的高光属性度、像素变化度、头像完整度、位移程度以及高光视频的画面质量多个维度为高光视频进行打分,只有高光视频的分值高于预设阈值时,才认为当前高光视频是符合要求的高光视频,并进行保留。从了进一步提高了高光视频的准确性和可靠性。在本实施例中,上述打分的具体操作包括如下步骤:
[0056]
1.获取目标活体在高光视频中的全部头像状态与全部动作,并将第一相似度和第二相似度的均值作为高光属性度,第一相似度是全部头像状态分别与预设高光头像状态进行相似度计算的均值,第二相似度是全部动作分别与预设高光动作进行相似度计算的均值。其中,相似度计算的具体操作,可采用包括但不限于欧氏距离、内积等现有技术,在此不再赘述。头像状态与身体动作度的计算即上述步骤四种描述的微笑、大笑、面朝前、仰视、手张开、站立等预设高光头像状态和预设高光动作。当高光属性度越大时,表明视频中的目标活体表现出的代表性表情或动作越多,从而视频效果越好。
[0057]
2.将高光视频中各帧画面像素与全部画面平均像素之间的变化量均值作为像素变化度。具体地,首先计算高光视频的全部帧画面的平均像素以及像素方差,然后对各帧画面进行如下操作:
[0058]
单张像素变化=(单张像素-平均像素)/像素方差
[0059]
之后将各帧画面的单张像素变化求和再求均值,即为像素变化度。当像素变化度越大时,表示活体在视频中的动作变化越频繁,从而视频效果越好。
[0060]
3.对目标活体在高光视频中各帧画面的头像进行身份识别,并将身份识别成功率作为头像完整度,身份识别成功率是能够识别身份的头像数量与总头像数量的比值。具体地,在本实施例中,基于各帧画面中的目标活体图片的身份完整度作为头像完整度,将目标活体图像在预设的活体图像数据库中进行以图搜图,以目标活体图像是人为例,当人脸为正脸或者没有被遮挡到时,从数据库中匹配到具有身份标签的注册照片的概率较大,当占比越大时,说明人脸在画面中为正脸且没有遮挡的比例就越大,从而该视频的可视效果越好。
[0061]
4.将目标活体在高光视频各帧画面的头像中心点变化值的均值作为位移程度,头像中心点变化值为目标活体在各帧画面中的头像中心点与全部画面的平均头像中心点之间的变化量。具体地,首先获取目标活体在各帧画面中的头像中心点,然后求上述多个头像中心点的均值得到平均中心点,再计算多个头像中心点的中心点方差,然后对各帧画面进行如下操作:
[0062]
单张中心点变化值=(单张头像中心点-平均中心点)/中心点方差
[0063]
之后将各帧画面的单张中心点变化值求和再求均值,即为位移程度。当位移程度越大时,表示活体在视频中的动作变化越频繁,从而视频效果越好。
[0064]
5.基于高光视频的画面剪辑量、长宽比、亮度和清晰度的加权计算结果表征画面质量。具体地,在本实施例中,通过下式计算画面质量,画面质量=f1*(裁剪长度/原始长度 裁剪宽度/原始宽度) f2*(长宽比) f3*亮度 f4*清晰度,其中f1、f2、f3和f4为经验权重,通过本步骤,当视频的裁剪量越小、长宽比较大、亮度和清晰度较高时,对应的画面给人的
视觉感受越好,同时画面质量越高。
[0065]
6.将高光属性度、像素变化度、头像完整度、位移程度以及画面质量进行加权计算,得到高光视频的分值。具体地,将上述全部分值通过加权计算得到最终的高光视频分值,从而实现多维度评价高光视频,进一步提高高光视频的可靠性和准确性。例如:高光视频分值=n1*高光属性度 n2*像素变化度 n3*头像完整度 n4*位移程度 n5*画面质量,其中高光属性度、像素变化度、头像完整度、位移程度以及画面质量对应的权重n1~n5的具体大小通常依据专家经验制定,在此不再赘述。
[0066]
具体地,在一实施例中,一种高光视频提取方法,还包括如下步骤:
[0067]
步骤十:基于目标活体在高光视频中的出框率对高光视频的分值进行减分调整,出框率是目标活体在高光视频中平均出画面尺寸与画面尺寸的比值。
[0068]
具体地,目标活体在各帧画面中有可能存在出框的现象,例如目标活体在画面中只有半个身子,而出框会严重影响高光视频的光看效果,因此在本实施例中,基于目标活体的出框率对步骤八至步骤九得到的高光视频的分值进行减分调整,从而进一步保证高光视频生成的可靠性和准确率。在本实施例中,出框率=出框尺寸/实际尺寸,当出框率大于50%时,在综合得分的基础上减40分;当出框率大于0小于50%时,按以下公式计算:
[0069]
减分分值=10
2x
×
4,
[0070]
其中,x为出框率。当x=10%时,大约减掉6.3分,当x=20%时,大约减掉10.0分,当x=30%时,大约减掉15.9分,当x=40%时,大约减掉25.2分,当出框率等于0时,不做减分操作。
[0071]
通过上述步骤,本技术提供的技术方案,首先对样本视频的各帧画面进行单独分析,对各帧画面中的活体头像和活体身体部分进行目标识别,再判断各帧画面中识别到的头像和身体图像是否与预设的高光状态相匹配,将符合高光状态的头像和身体图像留下。之后对画面中提取到的目标头像以及目标身体图像进行匹配,组成完整的活体目标,从而确定需要追踪的活体身份信息,最后针对目标活体在各帧画面中对其进行追踪,包含目标活体的画面留下,不包括目标活体的画面丢弃,最终将留下的画面组成视频,即可得到针对目标活体的完整视频,且该视频中包含了目标活体的高光状态,是目标活体的高光视频。
[0072]
此外,本发明还采用了轻量级的yolov5模型识别各帧画面中的头像和身体图像,大大提高了目标识别速度。并且基于目标活体的高光属性度、像素变化度、头像完整度、位移程度以及高光视频的画面质量为高光视频进行打分,进一步保证了高光视频的质量。
[0073]
如图5所示,本实施例还提供了一种高光视频提取装置,该装置包括:
[0074]
结构化检测模块101,用于提取样本视频的各帧画面中与预设高光头像状态和预设高光动作所匹配的目标头像和目标身体图像,预设高光头像状态用于限定符合高光标准的表情、头朝向和头俯仰状态。详细内容参见上述方法实施例中步骤s101的相关描述,在此不再进行赘述。
[0075]
目标匹配模块102,用于将各帧画面中提取出的目标头像和目标身体图像以是否属于同一活体为标准进行匹配,并获取各帧画面中匹配成功的目标活体图像。详细内容参见上述方法实施例中步骤s102的相关描述,在此不再进行赘述。
[0076]
视频生成模块103,用于基于目标活体图像在样本视频的各帧画面中追踪目标活体,并提取存在目标活体的画面组成高光视频。详细内容参见上述方法实施例中步骤s103
的相关描述,在此不再进行赘述。
[0077]
本发明实施例提供的一种高光视频提取装置,用于执行上述实施例提供的一种高光视频提取方法,其实现方式与原理相同,详细内容参见上述方法实施例的相关描述,不再赘述。
[0078]
通过上述各个组成部分的协同合作,本技术提供的技术方案,首先对样本视频的各帧画面进行单独分析,对各帧画面中的活体头像和活体身体部分进行目标识别,再判断各帧画面中识别到的头像和身体图像是否与预设的高光状态相匹配,将符合高光状态的头像和身体图像留下。之后对画面中提取到的目标头像以及目标身体图像进行匹配,组成完整的活体目标,从而确定需要追踪的活体身份信息,最后针对目标活体在各帧画面中对其进行追踪,包含目标活体的画面留下,不包括目标活体的画面丢弃,最终将留下的画面组成视频,即可得到针对目标活体的完整视频,且该视频中包含了目标活体的高光状态,是目标活体的高光视频。
[0079]
此外,本发明还采用了轻量级的yolov5模型识别各帧画面中的头像和身体图像,大大提高了目标识别速度。并且,还基于目标活体的高光属性度、像素变化度、头像完整度、位移程度以及高光视频的画面质量为高光视频进行打分,进一步保证了高光视频的质量。
[0080]
图6示出了本发明实施例的一种电子设备,该设备包括处理器901和存储器902,可以通过总线或者其他方式连接,图6中以通过总线连接为例。
[0081]
处理器901可以为中央处理器(central processing unit,cpu)。处理器901还可以为其他通用处理器、数字信号处理器(digital signal processor,dsp)、专用集成电路(application specific integrated circuit,asic)、现场可编程门阵列(field-programmable gate array,fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等芯片,或者上述各类芯片的组合。
[0082]
存储器902作为一种非暂态计算机可读存储介质,可用于存储非暂态软件程序、非暂态计算机可执行程序以及模块,如上述方法实施例中的方法所对应的程序指令/模块。处理器901通过运行存储在存储器902中的非暂态软件程序、指令以及模块,从而执行处理器的各种功能应用以及数据处理,即实现上述方法实施例中的方法。
[0083]
存储器902可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储处理器901所创建的数据等。此外,存储器902可以包括高速随机存取存储器,还可以包括非暂态存储器,例如至少一个磁盘存储器件、闪存器件、或其他非暂态固态存储器件。在一些实施例中,存储器902可选包括相对于处理器901远程设置的存储器,这些远程存储器可以通过网络连接至处理器901。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
[0084]
一个或者多个模块存储在存储器902中,当被处理器901执行时,执行上述方法实施例中的方法。
[0085]
上述电子设备具体细节可以对应参阅上述方法实施例中对应的相关描述和效果进行理解,此处不再赘述。
[0086]
本领域技术人员可以理解,实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,实现的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,存储介质可为磁碟、光
盘、只读存储记忆体(read-only memory,rom)、随机存储记忆体(random access memory,ram)、快闪存储器(flash memory)、硬盘(hard disk drive,缩写:hdd)或固态硬盘(solid-state drive,ssd)等;存储介质还可以包括上述种类的存储器的组合。
[0087]
虽然结合附图描述了本发明的实施例,但是本领域技术人员可以在不脱离本发明的精神和范围的情况下作出各种修改和变型,这样的修改和变型均落入由所附权利要求所限定的范围之内。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献