一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

视频类型确定方法及装置与流程

2022-05-18 11:58:45 来源:中国专利 TAG:


1.本技术涉及计算机技术领域,特别涉及一种视频类型确定方法。本技术同时涉及一种视频类型确定装置,一种计算设备,以及一种计算机可读存储介质。


背景技术:

2.随着计算机技术、网络技术和多媒体技术的快速发展,人们工作和生活中许多方面都会涉及到视频,相比于文字与图片,视频携带了更丰富、更具表现力的信息,从而越来越受到用户的关注和喜爱,各种视频层出不穷,视频化程度越来越高。
3.现有技术中,往往是通过深度学习的方法对视频类型进行识别确定,具体的,首先需要获取大量的人工标注数据,再构建深度神经网络或者载入预训练的图像分类神经网络,并在大量标注数据上进行监督学习,学习得到的深度神经网络直接对图像进行卷积变换等操作,得到待检测图像属于某种类别的概率,从而确定出待检测视频的视频类型。
4.然而,基于深度学习的方法需要大量的人工标注数据,对数据标签定义的准确度、标注精确度、数据覆盖范围等指标的要求都很高,因此前期数据收集工作的成本和时间消耗很大,标签的准确度难以保证,而且在训练和应用时,深度神经网络需要消耗巨大的算力和内存资源,耗费较长的训练时间,训练成本和部署成本都很高,视频类型的识别准确度和效率难以保证,不适合用于转码系统的预分析阶段。


技术实现要素:

5.有鉴于此,本技术实施例提供了一种视频类型确定方法。本技术同时涉及一种视频类型确定装置,一种计算设备,以及一种计算机可读存储介质,以解决现有技术中存在的需要进行高度复杂的训练,视频类型的识别准确度和效率较低的技术问题。
6.根据本技术实施例的第一方面,提供了一种视频类型确定方法,包括:
7.获取待检测视频中的至少一个待检测视频帧;
8.根据目标视频帧在频率域的频率分布,确定目标视频帧对应的视频类型,其中,目标视频帧为至少一个待检测视频帧中的任一个;
9.根据至少一个待检测视频帧对应的视频类型,确定待检测视频的视频类型。
10.根据本技术实施例的第二方面,提供了一种视频类型确定装置,包括:
11.获取模块,被配置为获取待检测视频中的至少一个待检测视频帧;
12.第一确定模块,被配置为根据目标视频帧在频率域的频率分布,确定目标视频帧对应的视频类型,其中,目标视频帧为至少一个待检测视频帧中的任一个;
13.第二确定模块,被配置为根据至少一个待检测视频帧对应的视频类型,确定待检测视频的视频类型。
14.根据本技术实施例的第三方面,提供了一种计算设备,包括:
15.存储器和处理器;
16.存储器用于存储计算机可执行指令,处理器用于执行计算机可执行指令,以实现
下述方法:
17.获取待检测视频中的至少一个待检测视频帧;
18.根据目标视频帧在频率域的频率分布,确定目标视频帧对应的视频类型,其中,目标视频帧为至少一个待检测视频帧中的任一个;
19.根据至少一个待检测视频帧对应的视频类型,确定待检测视频的视频类型。
20.根据本技术实施例的第四方面,提供了一种计算机可读存储介质,其存储有计算机可执行指令,该计算机可执行指令被处理器执行时实现任意视频类型确定方法的步骤。
21.本技术提供的视频类型确定方法,可以获取待检测视频中的至少一个待检测视频帧,然后根据目标视频帧在频率域的频率分布,确定目标视频帧对应的视频类型,其中,目标视频帧为至少一个待检测视频帧中的任一个;之后,根据至少一个待检测视频帧对应的视频类型,确定待检测视频的视频类型。这种情况下,可以从待检测视频中获取待检测视频帧,对待检测视频帧进行频域变换,将待检测视频帧从空间域信号转换到频率域,根据待检测视频帧在频率域上频率的分布,区分判断待检测视频帧对应的视频类型,从而确定待检测视频的视频类型,无需提供大量人工标注数据,也无需进行高度复杂的训练,不需要消耗巨大的算力资源即可高效准确地确定待检测视频的视频类型,大大提高了视频类型的识别准确度和效率。
附图说明
22.图1a是本技术实施例提供的一种演示文稿类视频帧的示意图;
23.图1b是本技术实施例提供的一种非演示文稿类视频帧的示意图;
24.图2是本技术实施例提供的一种视频类型确定方法的流程图;
25.图3a是本技术实施例提供的一种演示文稿类视频的低频交流分量系数取值分布直方图;
26.图3b是本技术实施例提供的一种演示文稿类视频的高频交流分量系数取值分布直方图;
27.图3c是本技术实施例提供的一种非演示文稿类视频的低频交流分量系数取值分布直方图;
28.图3d是本技术实施例提供的一种非演示文稿类视频的高频交流分量系数取值分布直方图
29.图4是本技术实施例提供的一种视频类型确定过程的示意图;
30.图5是本技术一实施例提供的一种视频类型确定装置的结构示意图;
31.图6是本技术一实施例提供的一种计算设备的结构框图。
具体实施方式
32.在下面的描述中阐述了很多具体细节以便于充分理解本技术。但是本技术能够以很多不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本技术内涵的情况下做类似推广,因此本技术不受下面公开的具体实施的限制。
33.在本技术一个或多个实施例中使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本技术一个或多个实施例。在本技术一个或多个实施例和所附权利要求书中所
使用的单数形式的“一种”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本技术一个或多个实施例中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
34.应当理解,尽管在本技术一个或多个实施例中可能采用术语第一、第二等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本技术一个或多个实施例范围的情况下,第一也可以被称为第二,类似地,第二也可以被称为第一。取决于语境,如在此所使用的词语“如果”可以被解释成为“在
……
时”或“当
……
时”或“响应于确定”。
35.首先,对本技术一个或多个实施例涉及的名词术语进行解释。
36.dct:discrete cosine transform,离散余弦变换,是与傅里叶变换相关的一种变换,它类似于离散傅里叶变换,但是只使用实数。离散余弦变换相当于一个长度大概是它两倍的离散傅里叶变换。
37.需要说明的是,目前存在大量对演示文稿类内容进行录屏得到的视频内容,这类视频多见于知识类分区,演示文稿类视频在转码系统中进行图像预处理和编码时的表现与自然视频有显著的差异。实践发现,对演示文稿类视频进行编码时,为了达到相同的主观视觉效果,需要采用与自然视频不一样的编码参数。因此,需要一种检测演示文稿类视频的方法,用于在编码前对演示文稿类视频进行分析检测,以决定采用合适的编码参数。
38.现有技术中,往往是通过深度学习的方法对视频类型进行识别确定,具体的,首先需要获取大量的人工标注数据,再构建深度神经网络或者载入预训练的图像分类神经网络,并在大量标注数据上进行监督学习,学习得到的深度神经网络直接对图像进行卷积变换等操作,得到待检测图像属于某种类别的概率,从而确定出待检测视频的视频类型。
39.然而,基于深度学习的方法需要大量的人工标注数据,对数据标签定义的准确度、标注精确度、数据覆盖范围等指标的要求都很高,因此前期数据收集工作的成本很大,而且在训练和应用时,深度神经网络需要消耗巨大的算力和内存资源,训练成本和部署成本都很高,视频类型的识别准确度和效率难以保证,不适合用于转码系统的预分析阶段。
40.因而,本技术实施例对演示文稿类视频和非演示文稿类视频进行分析,图1a是本技术实施例提供的一种演示文稿类视频帧的示意图,图1b是本技术实施例提供的一种非演示文稿类视频帧的示意图,如图1a和1b所示,非演示文稿类视频包括电影、电视剧、用户拍摄、游戏直播等视频,可以发现,演示文稿类视频相比于非演示文稿类视频有两个典型的特征:包含大量纯色块区域,以及包含大量文字等符号类内容。
41.对于演示文稿类视频的这两个典型特征,人眼可以很轻松地分辨出来,因而本技术实施例中提供了一种视频类型的确定方法,使用传统信号处理方法,对待检测视频中的视频帧特征进行识别和检测。具体而言,可以使用二维dct变换,将视频帧从空间域信号转换到频率域,再统计视频帧在频率域上频率的分布,最后设置阈值区分判断待检测视频是否属于演示文稿类视频。
42.本技术提供的视频类型确定方法,可以获取待检测视频中的至少一个待检测视频帧,然后根据目标视频帧在频率域的频率分布,确定目标视频帧对应的视频类型,其中,目标视频帧为至少一个待检测视频帧中的任一个;之后,根据至少一个待检测视频帧对应的视频类型,确定待检测视频的视频类型。这种情况下,可以从待检测视频中获取待检测视频
帧,对待检测视频帧进行频域变换,将待检测视频帧从空间域信号转换到频率域,根据待检测视频帧在频率域上频率的分布,区分判断待检测视频帧对应的视频类型,从而确定待检测视频的视频类型,无需提供大量人工标注数据,也无需进行高度复杂的训练,不需要消耗巨大的算力资源即可高效准确地确定待检测视频的视频类型,大大提高了视频类型的识别准确度和效率。
43.在本技术中,提供了一种视频类型确定方法,本技术同时涉及一种视频类型确定装置,一种计算设备,以及一种计算机可读存储介质,在下面的实施例中逐一进行详细说明。
44.图2示出了根据本技术一实施例提供的一种视频类型确定方法的流程图,具体包括以下步骤:
45.步骤202:获取待检测视频中的至少一个待检测视频帧。
46.具体的,待检测视频可以是指需要分析确定视频类型的视频,待检测视频帧是从待检测视频抽取的视频帧,后续可以根据抽取的待检测视频帧对应的视频类型,确定待检测视频的视频类型。
47.需要说明的是,演示文稿类视频在转码系统中进行图像预处理和编码时的表现与自然视频有显著的差异。实践发现,对演示文稿类视频进行编码时,为了达到相同的主观视觉效果,需要采用与自然视频不一样的编码参数。因此,在编码前可以确定需要进行编码的视频的视频类型,以决定采用合适的编码参数,此时要进行编码的视频即为待检测视频。
48.本实施例一个可选的实施方式中,获取待检测视频中的至少一个待检测视频帧,具体实现过程可以如下:
49.对待检测视频进行场景检测,并根据场景检测结果,对待检测视频进行分割,获得至少一个待检测视频片段;
50.从至少一个待检测视频片段中确定目标视频片段;
51.按照设定抽取规则,从目标视频片段中抽取至少一个待检测视频帧。
52.需要说明的是,一段视频中可能包括有多个视频片段,不同的视频片段可能有不同的视频类型,因而可以先对待检测视频进行场景检测和分割,获得至少一个待检测视频片段,然后从至少一个待检测视频片段中选取出待分析的目标视频片段,按照设定抽取规则,从目标视频片段中抽取至少一个待检测视频帧。
53.其中,目标视频片段可以是获得的至少一个待检测视频片段中的任一个,至少一个待检测视频片段中的每个视频片段均可以作为目标视频片段,以抽取待检测视频帧,进而确定出目标视频片段的视频类型。
54.另外,设定抽取规则可以为预先设置的、从目标视频片段中抽取待检测视频帧的规则,如设定抽取规则可以为在时间轴上均匀采样,抽取所需的至少一个待检测视频帧。
55.示例的,对目标视频片段在时间轴上进行均匀采样,得到5帧待检测视频帧。
56.本技术实施例中,可以从待检测视频中抽取至少一个待检测视频帧,后续基于抽取的各个待检测视频帧对应的视频类型,确定待检测视频的视频类型,无需提供大量人工标注数据,也无需进行高度复杂的训练,不需要消耗巨大的算力资源即可高效准确地确定待检测视频的视频类型,大大提高了视频类型的识别准确度和效率。
57.步骤204:根据目标视频帧在频率域的频率分布,确定目标视频帧对应的视频类
型,其中,目标视频帧为至少一个待检测视频帧中的任一个。
58.需要说明的是,不同类型的视频在频率域的频率分布是不同的,因而可以分析目标视频帧在频率域的频率分布,以确定目标视频帧对应的视频类型。
59.图3a是本技术实施例提供的一种演示文稿类视频的低频交流分量系数取值分布直方图,图3b是本技术实施例提供的一种演示文稿类视频的高频交流分量系数取值分布直方图,图3c是本技术实施例提供的一种非演示文稿类视频的低频交流分量系数取值分布直方图,图3d是本技术实施例提供的一种非演示文稿类视频的高频交流分量系数取值分布直方图。
60.如图3a和3b所示,是演示文稿类视频分成32x32的图像块,分别进行dct变换后,统计所有dct频率系数矩阵低频(图3a)以及高频(图3b)交流分量部分的取值分布的直方图;如图3c和3d所示,是非演示文稿类视频相应的系数取值分布的直方图。
61.直方图中第一个分布区间的概率表示的是取值为0到0.5系数的概率,该值越大,表示该频率分量处有值的概率越小,频率也就越少。如图3a-3d所示,可以明显地发现,对于演示文稿类视频的低频交流分量,有大量的零系数,这表示存在大量纯色区域;而对于高频交流分量,存在大量非零系数,这表示图像中包含大量锐利的纹理信息,也就是文字等符号内容。对比可以发现,非演示文稿类视频低频交流分量零系数不多,高频交流分量非零系数很少,也就是大片纯色区域不多,文字等符号不多,这与演示文稿类视频有显著区别。
62.因而,本技术实施例中可以使用二维dct变换,将视频帧从空间域信号转换到频率域,再统计视频帧在频率域上频率的分布,最后设置阈值区分判断待检测视频是否属于演示文稿类视频。也即,可以根据目标视频帧在频率域的频率分布,确定目标视频帧对应的视频类型,无需提供大量人工标注数据,也无需进行高度复杂的训练,不需要消耗巨大的算力资源即可高效准确地确定待检测视频的视频类型,大大提高了视频类型的识别准确度和效率。
63.本实施例一个可选的实施方式中,根据目标视频帧在频率域的频率分布,确定目标视频帧对应的视频类型,具体实现过程可以如下:
64.根据目标视频帧在频率域的频率分布,确定目标视频帧属于纯色区域的第一概率以及目标视频帧包含文字符号的第二概率;
65.根据第一概率以及第二概率,确定目标视频帧对应的视频类型是否为演示文稿类型。
66.需要说明的是,不同类型的视频帧在频率域的频率分布是不同的,对于演示文稿类的视频帧来说,低频交流分量有大量的零系数,这表示视频帧中存在大量纯色区域,而对于高频交流分量,存在大量非零系数,这表示视频帧中包含大量锐利的纹理信息,也就是文字等符号内容。因而,本技术实施例中可以根据目标视频帧在频率域的频率分布情况,确定目标视频帧属于纯色区域的第一概率以及目标视频帧包含文字符号的第二概率,然后根据第一概率以及第二概率,确定目标视频帧对应的视频类型是否为演示文稿类型。
67.本实施例一个可选的实施方式中,根据目标视频帧在频率域的频率分布,确定目标视频帧属于纯色区域的第一概率以及目标视频帧包含文字符号的第二概率,具体实现过程可以如下:
68.将目标视频帧划分为设定数值个子区域;
69.确定各个子区域属于纯色区域的第三概率以及各个子区域包含文字符号的第四概率;
70.根据第三概率以及第四概率,确定目标视频帧属于纯色区域的第一概率以及目标视频帧包含文字符号的第二概率。
71.具体的,设定数值可以是预先设置的数值,用于标识分割目标视频帧获得的子区域的个数,如设定数值可以为4、8、16等。
72.需要说明的是,以设定数值为4进行举例说明,将目标视频帧划分为设定数值个子区域时,可以将目标视频帧均匀十字划分成左上、右上、左下、右下等四个子区域,后续依次对每个子区域进行分析处理。
73.本实施例一个可选的实施方式中,在对目标视频帧进行分割前,还可以先对目标视频帧进行预处理,也即将目标视频帧划分为设定数值个子区域之前,还可以包括:
74.将目标视频帧缩放至第三设定尺寸;
75.去除缩放后的目标视频帧的图像边缘区域。
76.具体的,第三设定尺寸可以是指预先设置的尺寸,如最大边为1280。需要说明的是,可以预先将不同大小的目标视频帧归一化为同一尺寸,便于后续对目标视频帧进行分割、分析计算等处理。
77.实际应用中,由于很多视频,包含上下黑边,这些黑色边缘没有任何信息量,会影响检测结果,比如电影视频等,因此将目标视频帧缩放至第三设定尺寸后,还可以去除缩放后的目标视频帧的图像边缘区域,即裁剪缩放后的目标视频帧的图像边缘区域,裁剪大小可以进行设定,后续可以对裁剪后剩余部分进行分析检测,确定出对应的视频类型。
78.示例的,可以将目标视频帧等比例缩放到最大边为1280像素的图像帧,然后去除缩放后的目标视频帧中上边20%以及下边20%的图像内容,然后可以再将缩放去边后的目标视频帧均匀十字划分成左上、右上、左下、右下四个子区域,后续依次对每个子区域进行分析处理。
79.本实施例一个可选的实施方式中,确定各个子区域属于纯色区域的第三概率以及各个子区域包含文字符号的第四概率,具体实现过程可以如下:
80.读取设定数值个子区域中的第i个子区域,将第i个子区域划分为第一设定尺寸的至少一个图像块;
81.根据至少一个图像块,确定第i个子区域的频次分布概率表;
82.根据频次分布概率表,计算第i个子区域属于纯色区域的第三概率,并计算第i个子区域包含文字符号的第四概率;
83.令i自增1,返回执行读取设定数值个子区域中的第i个子区域的操作步骤,直至i等于设定数值,获得各个子区域属于纯色区域的第三概率以及各个子区域包含文字符号的第四概率。
84.具体的,读取设定数值个子区域中的第i个子区域,初始时,i等于1。第一设定尺寸可以是指预先设置的尺寸,用于将第i个子区域再进一步分割为多个固定尺寸的图像块,该第一设定尺寸的设置可以结合子区域的尺寸,以及所需切割的图像块的个数预先进行设定,如第一设定尺寸可以为32*32。
85.需要说明的是,将第i个子区域划分为设定尺寸的至少一个图像块后,可以对各个
图像块进行频域变换,获取各个图像块在频率域的频率分布,从而获得第i个子区域的频次分布概率表,后续可以根据频次分布概率表,计算第i个子区域属于纯色区域的第三概率,并计算第i个子区域包含文字符号的第四概率,然后继续读取下一个子区域,循环执行上述操作步骤,直至最后一个子区域识别完毕,可以获得各个子区域属于纯色区域的第三概率以及各个子区域包含文字符号的第四概率。
86.实际应用中,还可以预先初始化第二设定尺寸的初始频次分布表:实际应用中,还可以预先初始化第二设定尺寸的初始频次分布表:其中,i表示第几个子区域,c表示频率系数分布区间的下标,设置了17个分布区间,分别为[0,0.5),[0.5,1.5),[1.5,2.5),

,[15.5,16.5),[16.5, ∞),当系数取值范围落在哪个区间内,相应区间的频次计数加1;m和n为整数,表示第二设定尺寸的频率分量的下标,m和n较小的分量表示低频分量,反之是高频分量。其中,第二设定尺寸是预先设置的、初始频次分布表的尺寸,如8*8。
[0087]
本实施例一个可选的实施方式中,根据至少一个图像块,确定第i个子区域的频次分布概率表,具体实现过程可以如下:
[0088]
对至少一个图像块进行频域变换,获得至少一个图像块对应的目标频次分布表;
[0089]
根据至少一个图像块对应的目标频次分布表,确定第i个子区域的频次分布概率表。
[0090]
需要说明的是,可以对各个图像块进行频域变换,获取各个图像块在频率域的频率分布,即目标频次分布表,从而获得第i个子区域的频次分布概率表。
[0091]
本实施例一个可选的实施方式中,对至少一个图像块进行频域变换,获得至少一个图像块对应的目标频次分布表,具体实现过程可以如下:
[0092]
读取至少一个图像块中的第j个图像块,获取第j个图像块的亮度分布矩阵;
[0093]
对亮度分布矩阵进行离散余弦变换,获得第一设定尺寸的频率系数矩阵;
[0094]
将第一设定尺寸的频率系数矩阵缩小为第二设定尺寸的频率系数矩阵,根据第二设定尺寸的频率系数矩阵,更新初始系数分布频次表;
[0095]
令j自增1,并返回执行读取至少一个图像块中的第j个图像块的操作步骤,直至j等于至少一个图像块的个数,获得至少一个图像块对应的目标频次分布表。
[0096]
具体的,读取至少一个图像块中的第j个图像块,初始时,j为1。
[0097]
实际应用中,将第一设定尺寸的频率系数矩阵缩小为第二设定尺寸的频率系数矩阵时,缩小方法可以采用area算法(即面积算法),即缩放后的系数等于缩放前对应位置4*4领域内系数的均值。
[0098]
另外,得到当前第j个图像块缩小后的频率系数矩阵后,可以更新对应区域的初始系数分布频次表。具体的,可以遍历缩小后的频率系数矩阵,判断m,n处的系数取值落在了17个分布区间中的哪一个,就将频次表对应位置的频次加1。
[0099]
需要说明的是,读取至少一个图像块中的第j个图像块后,可以获取第j个图像块的亮度分布矩阵,对亮度分布矩阵进行离散余弦变换,获得第一设定尺寸的频率系数矩阵,然后将第一设定尺寸的频率系数矩阵缩小为第二设定尺寸的频率系数矩阵,根据第二设定尺寸的频率系数矩阵,更新初始系数分布频次表,然后继续读取下一个图像块,循环执行上述操作步骤,直至最后一个图像块识别完毕,可以获得至少一个图像块对应的目标频次分
布表。
[0100]
其中,对亮度分布矩阵进行离散余弦变换,获得第一设定尺寸的频率系数矩阵,具体实现过程可以如下:
[0101]
将离散余弦变换结果中的直流分量置为0、交流分量取绝对值,获得第一设定尺寸的频率系数矩阵。
[0102]
需要说明的是,离散余弦变换结果中(0,0)处的系数为直流分量,除了(0,0)处的系数,其他均为交流分量。因而可以先将离散余弦变换结果中(0,0)处的直流分量系数置为0,再将其余每个系数取绝对值后除以16,以将系数范围缩小到0-20左右,便于后续构造以1为间隔的目标频次分布表。
[0103]
本实施例一个可选的实施方式中,根据至少一个图像块对应的目标频次分布表,确定第i个子区域的频次分布概率表,具体实现过程可以如下:
[0104]
将目标频次分布表中的每个频次除以至少一个图像块的个数,获得第i个子区域的频次分布概率表。
[0105]
需要说明的是,依次处理完第i个子区域内所有的图像块后,可以将目标频次分布表中的每个频次除以图像块个数,得到第i个子区域的频次分布概率表其中i表示第几个子区域,c表示频率系数17个分布区间的下标;m和n为整数,表示第二设定尺寸(以8*8为例)频率分量的下标;表示的是当前第i个子区域所有图像块的8x8dct矩阵中m,n处系数的取值范围落在第c个区间的概率,因此满足
[0106]
本实施例一个可选的实施方式中,根据第三概率以及第四概率,确定目标视频帧属于纯色区域的第一概率以及目标视频帧包含文字符号的第二概率,具体实现过程可以如下:
[0107]
融合设定数值个子区域的第三概率,获得目标视频帧属于纯色区域的第一概率;
[0108]
融合设定数值个子区域的第四概率,获得目标视频帧包含文字符号的第二概率。
[0109]
需要说明的是,在得到第i个子区域的频次分布概率表之后,可以计算该第i个子区域属于纯色区域的概率:其中,表示低频分量系数为零的概率,该值越大,表示当前区域纯色区域面积占比越大,越可能属于纯色区域。同时计算该第i个子区域包含文字符号的概率:其中,表示高频分量系数取值为非零的概率,该值越大,表示该区域包含文字等符号的可能性越大,可以将其截断到0.5,再除以0.5表示包含文字符合的概率。
[0110]
实际应用中,计算得到各个子区域属于纯色区域的第三概率后,可以融合各个子区域属于纯色区域的第三概率,获得目标视频帧属于纯色区域的第一概率,计算得到各个子区域包含文字符号的第四概率后,可以融合各个子区域包含文字符号的第四概率,获得目标视频帧包含文字符号的第二概率。
[0111]
也就是说,当分析识别完各个子区域后,可以将各个子区域属于纯色区域的概率
和包含文字符号的概率融合得到整帧目标视频帧的概率信息。具体的,计算得到的整帧目标视频帧属于纯色区域的概率:计算得到的整帧目标视频帧包含文字符号的概率:频帧包含文字符号的概率:
[0112]
本实施例一个可选的实施方式中,根据第一概率以及第二概率,确定目标视频帧对应的视频类型是否为演示文稿类型,具体实现过程可以如下:
[0113]
在第一概率大于第一纯色概率阈值的情况下,确定目标视频帧对应的视频类型为演示文稿类型;
[0114]
在第一概率小于或等于第一纯色概率阈值的情况下,根据第二概率与第一字符概率阈值之间的关系,确定目标视频帧对应的视频类型是否为演示文稿类型。
[0115]
需要说明的是,第一纯色概率阈值和第一字符概率阈值均可以是预先设置的数值,第一纯色概率阈值用于判断目标视频帧属于纯色区域的概率是否足够大,第一字符概率阈值用于判断目标视频帧包含文字符号的概率是否足够大,如第一纯色概率阈值可以为0.55,第一字符概率阈值可以为0.75。
[0116]
实际应用中,在目标视频帧属于纯色区域的第一概率大于第一纯色概率阈值的情况下,说明目标视频帧属于纯色区域的概率足够大,无需再确定目标视频帧包含文字符号的第二概率与第一字符概率阈值之间的关系,而是可以直接确定目标视频帧对应的视频类型为演示文稿类型。在目标视频帧属于纯色区域的第一概率小于或等于第一纯色概率阈值的情况下,说明目标视频帧属于纯色区域的概率不够大,因而可以继续根据目标视频帧包含文字符号的第二概率与第一字符概率阈值之间的关系,确定目标视频帧对应的视频类型。
[0117]
本实施例一个可选的实施方式中,根据第二概率与第一字符概率阈值之间的关系,确定目标视频帧对应的视频类型是否为演示文稿类型,具体实现过程可以如下:
[0118]
在第二概率大于第一字符概率阈值的情况下,确定目标视频帧对应的视频类型为演示文稿类型;
[0119]
在第二概率小于或等于第一字符概率阈值的情况下,确定第一概率是否大于第二纯色概率阈值、且第二概率是否大于第二字符概率阈值,若是,则确定目标视频帧对应的视频类型为演示文稿类型,若否,则确定目标视频帧对应的视频类型为非演示文稿类型。
[0120]
实际应用中,第二纯色概率阈值和第二字符概率阈值均可以是预先设置的数值,第二纯色概率阈值用于判断目标视频帧属于纯色区域的概率是否较大,因而第二纯色概率阈值可以小于第一纯色概率阈值;第二字符概率阈值用于判断目标视频帧包含文字符号的概率是否较大,因而第二字符概率阈值可以小于第一字符概率阈值,如第二纯色概率阈值可以为0.2,第二字符概率阈值可以为0.5。
[0121]
需要说明的是,在目标视频帧包含文字符号的第二概率大于第一字符概率阈值的情况下,说明目标视频帧包含文字符号的概率足够大,可以直接确定目标视频帧对应的视频类型为演示文稿类型。在目标视频帧包含文字符号的第二概率小于或等于第一字符概率阈值的情况下,可以进一步确定目标视频帧属于纯色区域的第一概率是否大于第二纯色概率阈值、且目标视频帧包含文字符号的第二概率是否大于第二字符概率阈值,若是,则说明目标视频帧属于纯色区域的概率以及目标视频帧包含文字符号的概率均较大,此时也可以
确定目标视频帧对应的视频类型为演示文稿类型;若否,则说明目标视频帧属于纯色区域的概率以及目标视频帧包含文字符号的概率均较小,因而此时可以确定目标视频帧对应的视频类型为非演示文稿类型。
[0122]
步骤206:根据至少一个待检测视频帧对应的视频类型,确定待检测视频的视频类型。
[0123]
需要说明的是,确定出至少一个待检测视频帧对应的视频类型后,可以统计各个待检测视频帧对应的视频类型,确定出待检测视频的视频类型。
[0124]
本实施例一个可选的实施方式中,根据至少一个待检测视频帧对应的视频类型,确定待检测视频的视频类型,具体实现过程可以如下:
[0125]
确定至少一个待检测视频帧中视频类型为演示文稿类型的演示文稿视频帧;
[0126]
根据演示文稿视频帧的帧数和至少一个待检测视频帧的总帧数,确定演示文稿视频帧在至少一个待检测视频帧中所占的比例;
[0127]
在比例大于比例阈值的情况下,确定目标视频的视频类型为演示文稿类型;
[0128]
在比例小于或等于比例阈值的情况下,确定目标视频的视频类型为非演示文稿类型。
[0129]
具体的,比例阈值可以是指预先设置的数值、用于判断至少一个待检测视频帧中视频类型为演示文稿类型的待检测视频帧的帧数在总帧数中的占比,从而判断至少一个待检测视频帧中是否演示文稿视频帧占比较大,如该比例阈值可以为50%、60%等。
[0130]
需要说明的是,在比例大于比例阈值的情况下,说明至少一个待检测视频帧中演示文稿视频帧占比较大,此时可以确定目标视频的视频类型为演示文稿类型;在比例小于或等于比例阈值的情况下,说明至少一个待检测视频帧中演示文稿视频帧占比较小,此时可以确定目标视频的视频类型为非演示文稿类型。
[0131]
示例的,图4是本技术实施例提供的一种视频类型确定过程的示意图,如图4所示,读取目标视频帧,目标视频帧缩放到设定尺寸,去除目标视频帧上下边缘,均匀划分成四个子区域,判断子区域是否分析完成,若子区域未分析完成,则读取下一子区域并划分成32*32图像块,初始化8*8dct各频率分量系数分布频次表,判断图像块是否处理完成,若图像块未处理完成,则可以读取下一个32*32图像块,对图像块进行二维dct变换,dct直流分量系数置零,交流系数分量取绝对值,dct系数矩阵缩小为8*8矩阵,更新dct各频率分量系数分布频次表,返回执行判断图像块是否处理完成的操作步骤。
[0132]
若图像块处理完成,则计算dct各频率分量系数分布概率表t,计子算区域属于纯色区域的第三概率,计算子区域包含文字符号的第四概率,之后返回执行判断子区域是否分析完成的操作步骤。若子区域分析完成,则计算目标视频帧属于纯色区域的第一概率,计算目标视频帧包含文字符号的第二概率。
[0133]
然后,判断第一概率是否大于0.5,若是,则确定目标视频帧为演示文稿类视频帧;若否,则进一步判断第二概率是否大于0.75,若是,确定目标视频帧为演示文稿类视频帧,若否,则进一步判断第一概率是否大于0.2、且第二概率是否大于0.5,若是,则确定目标视频帧为演示文稿类视频帧,若不是,则确定目标视频帧不为演示文稿类视频帧。
[0134]
本实施例一个可选的实施方式中,根据至少一个待检测视频帧对应的视频类型,确定待检测视频的视频类型之后,还包括:
[0135]
在视频类型为演示文稿类视频的情况下,获取演示文稿类视频对应的目标编码参数;
[0136]
根据目标编码参数,对待检测视频进行编码。
[0137]
需要说明的是,演示文稿类视频包含大量的纯色区域以及文字符号,因而对演示文稿类视频进行编码时,为了达到相同的主观视觉效果,需要采用与非演示文稿类视频不一样的编码参数。因而,在确定出待检测视频的视频类型为演示文稿类视频的情况下,可以获取演示文稿类视频对应的目标编码参数,根据目标编码参数,对待检测视频进行编码。
[0138]
实际应用中,编码系统中可以预先存储有演示文稿类视频对应的编码参数,本技术实施例中可以在编码之前,对待检测视频在频率域的频率分布情况进行分析,确定待检测视频的视频类型,在确定出待检测视频的视频类型为演示文稿类视频的情况下,可以直接获取预先存储的演示文稿类视频对应的目标编码参数,根据目标编码参数,对待检测视频进行编码,从而基于演示文稿类视频的视频特点,采取针对性的编码参数对演示文稿类视频进行编码,提高编码效果。
[0139]
本技术提供的视频类型确定方法,可以获取待检测视频中的至少一个待检测视频帧,然后根据目标视频帧在频率域的频率分布,确定目标视频帧对应的视频类型,其中,目标视频帧为至少一个待检测视频帧中的任一个;之后,根据至少一个待检测视频帧对应的视频类型,确定待检测视频的视频类型。这种情况下,可以从待检测视频中获取待检测视频帧,对待检测视频帧进行频域变换,将待检测视频帧从空间域信号转换到频率域,根据待检测视频帧在频率域上频率的分布,区分判断待检测视频帧对应的视频类型,从而确定待检测视频的视频类型,无需提供大量人工标注数据,也无需进行高度复杂的训练,不需要消耗巨大的算力资源即可高效准确地确定待检测视频的视频类型,大大提高了视频类型的识别准确度和效率。
[0140]
与上述方法实施例相对应,本技术还提供了视频类型确定装置实施例,图5示出了本技术一实施例提供的一种视频类型确定装置的结构示意图。如图5所示,该装置包括:
[0141]
获取模块502,被配置为获取待检测视频中的至少一个待检测视频帧;
[0142]
第一确定模块504,被配置为根据目标视频帧在频率域的频率分布,确定目标视频帧对应的视频类型,其中,目标视频帧为至少一个待检测视频帧中的任一个;
[0143]
第二确定模块506,被配置为根据至少一个待检测视频帧对应的视频类型,确定待检测视频的视频类型。
[0144]
可选地,第一确定模块504进一步被配置为:
[0145]
根据目标视频帧在频率域的频率分布,确定目标视频帧属于纯色区域的第一概率以及目标视频帧包含文字符号的第二概率;
[0146]
根据第一概率以及第二概率,确定目标视频帧对应的视频类型是否为演示文稿类型。
[0147]
可选地,获取模块502进一步被配置为:
[0148]
对待检测视频进行场景检测,并根据场景检测结果,对待检测视频进行分割,获得至少一个待检测视频片段;
[0149]
从至少一个待检测视频片段中确定目标视频片段;
[0150]
按照设定抽取规则,从目标视频片段中抽取至少一个待检测视频帧。
[0151]
可选地,第一确定模块504进一步被配置为:
[0152]
将目标视频帧划分为设定数值个子区域;
[0153]
确定各个子区域属于纯色区域的第三概率以及各个子区域包含文字符号的第四概率;
[0154]
根据第三概率以及第四概率,确定目标视频帧属于纯色区域的第一概率以及目标视频帧包含文字符号的第二概率。
[0155]
可选地,第一确定模块504进一步被配置为:
[0156]
读取设定数值个子区域中的第i个子区域,将第i个子区域划分为第一设定尺寸的至少一个图像块;
[0157]
根据至少一个图像块,确定第i个子区域的频次分布概率表;
[0158]
根据频次分布概率表,计算第i个子区域属于纯色区域的第三概率,并计算第i个子区域包含文字符号的第四概率;
[0159]
令i自增1,返回执行读取设定数值个子区域中的第i个子区域的操作步骤,直至i等于设定数值,获得各个子区域属于纯色区域的第三概率以及各个子区域包含文字符号的第四概率。
[0160]
可选地,第一确定模块504进一步被配置为:
[0161]
对至少一个图像块进行频域变换,获得至少一个图像块对应的目标频次分布表;
[0162]
根据至少一个图像块对应的目标频次分布表,确定第i个子区域的频次分布概率表。
[0163]
可选地,第一确定模块504进一步被配置为:
[0164]
读取至少一个图像块中的第j个图像块,获取第j个图像块的亮度分布矩阵;
[0165]
对亮度分布矩阵进行离散余弦变换,获得第一设定尺寸的频率系数矩阵;
[0166]
将第一设定尺寸的频率系数矩阵缩小为第二设定尺寸的频率系数矩阵,根据第二设定尺寸的频率系数矩阵,更新初始系数分布频次表;
[0167]
令j自增1,并返回执行读取至少一个图像块中的第j个图像块的操作步骤,直至j等于至少一个图像块的个数,获得至少一个图像块对应的目标频次分布表。
[0168]
可选地,第一确定模块504进一步被配置为:
[0169]
将目标频次分布表中的每个频次除以至少一个图像块的个数,获得第i个子区域的频次分布概率表。
[0170]
可选地,第一确定模块504进一步被配置为:
[0171]
融合设定数值个子区域的第三概率,获得目标视频帧属于纯色区域的第一概率;
[0172]
融合设定数值个子区域的第四概率,获得目标视频帧包含文字符号的第二概率。
[0173]
可选地,第一确定模块504进一步被配置为:
[0174]
在第一概率大于第一纯色概率阈值的情况下,确定目标视频帧对应的视频类型为演示文稿类型;
[0175]
在第一概率小于或等于第一纯色概率阈值的情况下,根据第二概率与第一字符概率阈值之间的关系,确定目标视频帧对应的视频类型是否为演示文稿类型。
[0176]
可选地,第一确定模块504进一步被配置为:
[0177]
在第二概率大于第一字符概率阈值的情况下,确定目标视频帧对应的视频类型为
telephone network)、局域网(lan,local area network)、广域网(wan,wide area network)、个域网(pan,personal area network)或诸如因特网的通信网络的组合。接入设备640可以包括有线或无线的任何类型的网络接口(例如,网络接口卡(nic,network interface controller))中的一个或多个,诸如ieee802.11无线局域网(wlan,wireless local area networks)无线接口、全球微波互联接入(wi-max,worldwide interoperability for microwave access)接口、以太网接口、通用串行总线(usb,universal serial bus)接口、蜂窝网络接口、蓝牙接口、近场通信(nfc,near field communication)接口,等等。
[0196]
在本技术的一个实施例中,计算设备600的上述部件以及图6中未示出的其他部件也可以彼此相连接,例如通过总线。应当理解,图6所示的计算设备结构框图仅仅是出于示例的目的,而不是对本技术范围的限制。本领域技术人员可以根据需要,增添或替换其他部件。
[0197]
计算设备600可以是任何类型的静止或移动计算设备,包括移动计算机或移动计算设备(例如,平板计算机、个人数字助理、膝上型计算机、笔记本计算机、上网本等)、移动电话(例如,智能手机)、可佩戴的计算设备(例如,智能手表、智能眼镜等)或其他类型的移动设备,或者诸如台式计算机或pc的静止计算设备。计算设备600还可以是移动式或静止式的服务器。
[0198]
其中,处理器620用于执行如下计算机可执行指令,以实现下述方法:
[0199]
获取待检测视频中的至少一个待检测视频帧;
[0200]
根据目标视频帧在频率域的频率分布,确定目标视频帧对应的视频类型,其中,目标视频帧为至少一个待检测视频帧中的任一个;
[0201]
根据至少一个待检测视频帧对应的视频类型,确定待检测视频的视频类型。
[0202]
上述为本实施例的一种计算设备的示意性方案。需要说明的是,该计算设备的技术方案与上述的视频类型确定方法的技术方案属于同一构思,计算设备的技术方案未详细描述的细节内容,均可以参见上述视频类型确定方法的技术方案的描述。
[0203]
本技术一实施例还提供一种计算机可读存储介质,其存储有计算机可执行指令,该计算机可执行指令被处理器执行时以用于实现任意视频类型确定方法的步骤。
[0204]
上述为本实施例的一种计算机可读存储介质的示意性方案。需要说明的是,该存储介质的技术方案与上述的视频类型确定方法的技术方案属于同一构思,存储介质的技术方案未详细描述的细节内容,均可以参见上述视频类型确定方法的技术方案的描述。
[0205]
上述对本技术特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
[0206]
计算机指令包括计算机程序代码,计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。计算机可读介质可以包括:能够携带计算机程序代码的任何实体或装置、记录介质、u盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(rom,read-only memory)、随机存取存储器(ram,random access memory)、电载波信号、电信信
号以及软件分发介质等。
[0207]
需要说明的是,对于前述的各方法实施例,为了简便描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本技术并不受所描述的动作顺序的限制,因为依据本技术,某些步骤可以采用其它顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定都是本技术所必须的。
[0208]
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其它实施例的相关描述。
[0209]
以上公开的本技术优选实施例只是用于帮助阐述本技术。可选实施例并没有详尽叙述所有的细节,也不限制该发明仅为所述的具体实施方式。显然,根据本技术的内容,可作很多的修改和变化。本技术选取并具体描述这些实施例,是为了更好地解释本技术的原理和实际应用,从而使所属技术领域技术人员能很好地理解和利用本技术。本技术仅受权利要求书及其全部范围和等效物的限制。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献