视频帧检测方法、装置、电子设备及存储介质与流程

2022-06-05 09:08:24 来源：中国专利 TAG：

1.本技术属于视频处理技术领域，具体涉及一种视频帧检测方法、装置、电子设备及存储介质。

背景技术：

2.目前，电子设备在进行视频进行审核时，可以对待审核的视频进行截帧处理，并每隔预定时长抽取关键帧，然后对关键帧进行审核，相关技术中，电子设备可以对所有的视频帧进行聚类，离聚类中心最近的视频帧确定为关键帧；或者，选取变化较为明显的视频帧作为关键帧。
3.然而，上述方法中，若违规内容在待审核的视频中没有持续存在(例如一闪而过)，则电子设备可能漏掉该违规内容所在的视频帧，如此，电子设备视频审核的准确性较差。

技术实现要素：

4.本技术实施例的目的是提供一种视频帧检测方法、装置、电子设备及存储介质，能够解决电子设备视频审核的准确性较差的问题。
5.第一方面，本技术实施例提供了一种视频帧检测方法，该视频帧检测方法包括：获取n个视频帧的特征信息，并根据n个视频帧的特征信息与预设违规信息，得到n个交叉熵损失值，n个视频帧为目标视频中的视频帧，每个交叉熵损失值用于指示n个视频帧中的一个视频帧与预设违规信息之间的匹配程度，n为大于1的整数；根据n个交叉熵损失值，从n个视频帧中确定与预设违规信息匹配的m个视频帧，m为小于或等于n的正整数；根据m个视频帧确定目标视频的分类。
6.第二方面，本技术实施例提供了一种视频帧检测装置，该视频帧检测装置包括：获取模块和确定模块。获取模块，用于获取n个视频帧的特征信息，并根据n个视频帧的特征信息与预设违规信息，得到n个交叉熵损失值，该n个视频帧为目标视频中的视频帧，每个交叉熵损失值用于指示n个视频帧中的一个视频帧与预设违规信息之间的匹配程度，n为大于1的整数。确定模块，用于根据n个交叉熵损失值，从n个视频帧中确定与预设违规信息匹配的m个视频帧，m为小于或等于n的正整数；并根据m个视频帧确定目标视频的分类。
7.第三方面，本技术实施例提供了一种电子设备，该电子设备包括处理器和存储器，所述存储器存储可在所述处理器上运行的程序或指令，所述程序或指令被所述处理器执行时实现如第一方面所述的方法的步骤。
8.第四方面，本技术实施例提供了一种可读存储介质，所述可读存储介质上存储程序或指令，所述程序或指令被处理器执行时实现如第一方面所述的方法的步骤。
9.第五方面，本技术实施例提供了一种芯片，所述芯片包括处理器和通信接口，所述通信接口和所述处理器耦合，所述处理器用于运行程序或指令，实现如第一方面所述的方法。
10.第六方面，本技术实施例提供一种计算机程序产品，该程序产品被存储在存储介
质中，该程序产品被至少一个处理器执行以实现如第一方面所述的方法。
11.在本技术实施例中，电子设备可以通过获取第一视频的n个视频帧的特征信息，并将n个视频帧的特征信息与预设违规信息之间做交叉熵损失运算，得到n个交叉熵损失值，从而电子设备可以根据n个交叉熵损失值从n个视频帧中确定包含违规信息的m个视频帧，以基于m个视频帧确定目标视频的分类。本方案中，由于电子设备是对n个视频帧中的每一个视频帧的特征信息均与预设违规信息之间做交叉熵损失运算，从而得到每一个视频帧中包含的特征信息与预设违规信息之间的差异值，然后电子设备可以根据该差异值从n个视频帧中筛选出包含违规信息的m个视频帧，以根据该m个视频帧确定目标视频的分类，即电子设备可以基于交叉熵损失值，确定目标视频的分类(例如违规视频)，从而实现通过交叉熵损失值对目标视频类型的审核，避免了电子设备会漏掉对目标视频中某些帧的审核，导致某些存在违规内容的视频帧未被检测出的问题，因此本技术的方案提升了电子设备审核视频的准确性。
附图说明
12.图1是本技术实施例提供的一种视频帧检测方法的流程图；
13.图2是本技术实施例提供的一种视频帧检测装置的结构示意图；
14.图3是本技术实施例提供的一种电子设备的硬件结构示意图之一；
15.图4是本技术实施例提供的一种电子设备的硬件结构示意图之二。
具体实施方式
16.下面将结合本技术实施例中的附图，对本技术实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本技术一部分实施例，而不是全部的实施例。基于本技术中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本技术保护的范围。
17.本技术的说明书和权利要求书中的术语“第一”、“第二”等是用于区别类似的对象，而不用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便本技术的实施例能够以除了在这里图示或描述的那些以外的顺序实施，且“第一”、“第二”等所区分的对象通常为一类，并不限定对象的个数，例如第一对象可以是一个，也可以是多个。此外，说明书以及权利要求中“和/或”表示所连接对象的至少其中之一，字符“/”，一般表示前后关联对象是一种“或”的关系。
18.下面结合附图，通过具体的实施例及其应用场景对本技术实施例提供的视频帧检测方法进行详细地说明。
19.随着互联网技术的发展，越来越多的用户在公共平台上发布个人动态信息(例如视频信息)，由于视频信息具有多样性、动态性和实时性的特点，当用户在公共平台上发布一些具有着装暴露或者低俗动作的视频时，极大的影响了互联网的风气以及其他用户(例如青少年)的身心健康，为了解决上述问题，在用户将视频进行上传时，电子设备可以先对视频进行审核，在审核通过后，允许该视频上传至公共平台，相关技术中，电子设备可以通过将截取的帧图像排序为一个序列，增加时间维度信息，由电子设备结合每一帧图像的内容和时间信息对视频总体进行划分，即通过预设时间长度截取待审核视频中的关键帧，从
而电子设备可以对关键帧进行审核，若关键帧中包含低俗信息，则电子设备不允许该待审核视频上传至公共平台，然而，在采用关键帧进行视频审核时，若待审核视频中的低俗点出现的时间较短，则电子设备可能没有截取到包含低俗信息的帧图像，从而，电子设备判定该待审核视频中不存在低俗信息，如此，电子设备视频审核的准确性较差。
20.电子设备可以通过获取第一视频的n个视频帧的特征信息，从而根据该特征信息通过交叉熵损失运算从n个视频帧中确定包含有违规信息的m个视频帧，以基于该m个视频帧确定目标视频的分类。本方案中，由于电子设备对目标视频的审核是对目标视频划分后的所有视频帧进行判断的，即电子设备对目标视频划分得到n个视频帧后，基于该n个视频帧的特征信息与预设违规信息之间做交叉熵损失运算，从而得到每一个视频帧中包含的特征信息与预设违规信息之间的差异值，然后根据该差异值从n个视频帧中确定包含违规信息的m个视频帧，也即电子设备将目标视频划分后的所有视频帧中的每个视频帧中包含的特征信息分别与预设违规信息进行比对，以从该所有视频帧中筛选出包含有违规信息的m个视频帧，并根据该m个视频帧，确定目标视频的分类(例如违规视频)，从而实现对目标视频类型的审核，避免了电子设备会漏掉对目标视频中某些帧的审核，导致某些存在违规内容的视频帧未被检测出的问题，因此本技术的方案提升了电子设备审核视频的准确性。
21.本技术实施例提供一种视频帧检测方法，图1示出了本技术实施例提供的一种视频帧检测方法的流程图。如图1所示，本技术实施例提供的视频帧检测方法可以包括下述的步骤201至步骤203。
22.步骤201、电子设备获取n个视频帧的特征信息，并根据n个视频帧的特征信息与预设违规信息，得到n个交叉熵损失值。
23.本技术实施例中，上述n个视频帧为目标视频中的视频帧，上述n个交叉熵损失值中的每个交叉熵损失值用于指示n个视频帧中的一个视频帧与预设违规信息之间的匹配程度，n为大于1的整数。
24.可以理解，上述n个视频帧中的每个视频帧对应一个交叉熵损失值，即n个视频帧有n个交叉熵损失值。
25.本技术实施例中，电子设备可以根据n个视频帧的特征信息与预设违规信息，对目标视频进行审核，以确定目标视频中是否存在违规信息的视频帧。
26.可以理解，上述n个视频帧中的一个视频帧与预设违规信息之间的匹配程度为n个视频帧中的一个视频帧的特征信息与预设违规信息之间的差异程度。
27.可选地，本技术实施例中，上述特征信息包括以下至少一项：图像内容、文字信息和图像的显示参数(例如图像的清晰度、亮度、灰度等)。
28.可选地，本技术实施例中，上述预设违规信息可以为用户预先设置的或者为电子设备从图像存储集群中获取的。
29.可选地，本技术实施例中，上述图像存储集群可以为以下至少一项：云端服务器、安全数码(secure digital memory，sd)卡、其他电子设备、硬盘或光盘等具有存储功能的电子设备。
30.可选地，本技术实施例中，上述预设违规信息可以包括以下至少一项：不健康信息(例如裸体)、不雅观信息(例如脏话)或敏感词汇信息。
31.本技术实施例中，在电子设备获取n个视频帧的特征信息之前，电子设备可以对目
标视频进行划分，以得到该目标视频的n个视频帧(例如目标视频的所有帧)，从而，电子设备可以根据该n个视频帧，对目标视频进行审核，以确定目标视频中是否存在违规信息的视频帧。
32.可选地，本技术实施例中，上述目标视频可以为电子设备中存储的视频、用户拍摄得到的视频(即录制的视频)、电子设备中的任意应用程序(例如视频类应用程序、浏览器应用程序)中的视频。
33.可选地，本技术实施例中，电子设备每隔第一预设时间间隔，从目标视频中截取一帧图像，得到n个视频帧。
34.本可选地，本技术实施例中，上述第一预设时间间隔可以为电子设备系统默认的、用户预先设置的、电子设备根据第一系统的时长确定的、电子设备根据预设帧数确定的。
35.示例性地，假设第一视频的时长为120秒，电子设备可以每隔1秒对第一视频截取一帧图像，以得到120个视频帧。
36.又示例性地，假设第一视频的时长为120秒，电子设备预设视频帧数为60帧，则电子设备可以确定第一预设时间间隔为2秒。
37.本技术实施例中，电子设备可以对目标视频进行密集截帧，避免了违规内容在目标视频中显示的时间较短，电子设备可能漏掉违规内容所在的视频帧的问题，从而提升了电子设备审核目标视频的准确性。
38.可选地，本技术实施例中，在目标视频的时长小于预设时长的情况下，电子设备在目标视频中添加至少一个空白帧，得到第一视频，并每隔第二预设时间间隔，从第一视频中截取一帧图像，得到n个视频帧。
39.本技术实施例中，上述第一视频的时长大于或等于预设时长。
40.需要说明的是，上述预设时长可以理解为电子设备需求的视频帧数对应的视频时长，即若目标视频的时长小于预设时长，则认为目标视频的视频帧数小于预设时长对应的视频帧数，因此电子设备可以先在目标视频中添加至少一个空白帧，以使得目标视频的视频帧数大于或等于预设时长对应的视频帧数，然后再进行视频帧的截取，得到n个视频帧。
41.示例性地，假设目标视频的时长为120秒，电子设备可以每隔1秒对目标视频截取一帧图像，从而得到120个视频帧，若电子设备需求150个视频帧，则可以在目标视频中加入30帧空白帧，以得到150个视频帧。
42.需要说明的是，针对第二预设时间间隔的说明，可以参考上述第一时间间隔的描述，此处不予赘述。
43.本技术实施例中，当目标视频的时长小于预设时长时，即目标视频的视频帧数小于电子设备需求的视频帧数，那么电子设备在按照一个预设时间间隔对目标视频进行视频帧截取时，可能会存在剩余的部分视频帧无法进行截取，则会导致这部分视频帧被电子设备丢弃，本方案中电子设备可以通过在目标视频中添加空白帧的方式，以使得目标视频的视频帧数满足电子设备需求的视频帧数，从而使得电子设备在按照一个预设时间间隔对目标视频进行视频帧截取时，能够对目标视频中的所有帧进行截取，从而实现对目标视频中的各个视频帧的审核，避免了因剩余的部分视频帧无法截取，而导致这部分视频帧被电子设备丢弃的情况，从而避免了电子设备会漏掉对目标视频中某些帧的审核，导致某些存在违规内容的视频帧未被检测出，因此本技术的方案提升了电子设备审核视频的完整性和准
确性。
44.可选地，本技术实施例中，上述步骤201具体可以通过下述的步骤201a实现。
45.步骤201a、电子设备通过至少一层算法结构，获取n个视频帧的特征信息，并将n个视频帧的特征信息和预设违规信息进行交叉熵运算，确定n个交叉熵损失值。
46.本技术实施例中，上述至少一层算法结构可以为目标算法结构中的至少一层算法结构。
47.可选地，本技术实施例中，上述目标算法结构可以为transformer算法结构或者为lstm算法结构。
48.可选地，本技术实施例中，电子设备可以按照n个视频帧的截取顺序(例如正序截取或者倒序截取)，将n个视频帧依次输入至至少一个算法结构中，例如电子设备可以将第一个视频帧输入到至少一层算法结构，第二个视频帧输入到至少一层算法结构中，以此类推，直至将第n个视频帧输入到至少一个算法结构中；或者，电子设备可以按照n个视频帧的时间顺序，依次将n个视频帧输入至至少一层算法结构中，从而电子设备可以根据n个视频帧对第一视频进行审核。
49.本技术实施例中，本技术实施例中，上述至少一层算法结构可以将n个视频帧中的每帧图像划分为至少一个方块网格，每个方块网格中包括每帧图像的部分图像，将至少一个方块网格中的图像进行向量形式的转换，以得到每帧图像特征信息的矢量值，并通过线性变化层将该矢量值生成一个特征信息集合，以得到n个视频帧的特征信息。
50.示例性地，transformer算法结构中可以将n个视频帧划分为至少一个方块网格，然后通过embedding算法将至少一个方块网格中的图像转换为向量形式，以得到每帧图像的特征信息的矢量值，然后通过transformer算法结构中的dense(即上述的线性变化层)将每帧图像的特征信息的矢量值映射为一个特征信息集合，从而得到n个视频帧的特征信息。
51.可选地，本技术实施例中，电子设备可以通过人工智能(artificial intelligence，ai)图像识别，对n个视频帧中的每帧图像进行图像识别处理，以得到n个视频帧的特征信息。
52.本技术实施例中，电子设备可以通过交叉熵算法，获取n个视频帧的特征信息，具体算法为：
53.feature-outputi＝transformeri(frame
i-feature)
ꢀꢀꢀꢀꢀꢀꢀ
(公式一)
54.其中，transformeri为至少一层算法结构中的第i层，frame
i-feature为n个视频帧中的第i个视频帧,feature-outputi为在第i层中n个视频帧的特征信息的值。
55.本技术实施例中，电子设备通过交叉熵算法，对n个特征信息和预设违规信息进行交叉熵运算，确定n个视频帧与设违规信息之间的交叉熵损失值。
56.本技术实施例中，电子设备可以通过至少一层算法结构，将预设违规信息和n个视频帧的特征信息均转换为向量形式(即预设违规信息的向量和n个视频帧的特征信息的向量(以下简称为n个特征向量值))，以对预设违规信息的向量和n个特征向量值进行交叉熵运算，从而得到n个视频帧中每个视频帧的特征信息与预设违规信息之间的交叉熵损失值，具体算法为：
57.58.其中，yi为第i个预设违规信息的向量值，pi为第i个帧的特征信息的向量值，i为预设违规信息的类别个数，j为n个视频帧中的第j个视频帧，li为第i个视频帧对应的交叉熵，lj为在当前层算法结构中每个视频帧的交叉熵损失值。
59.可选地，本技术实施例中，电子设备可以通过onehot向量的形式，将预设违规信息转换为电子设备可以识别的数值(即将文字转化为电子设备可以识别的语言)。
60.示例性地，假设n个视频帧的特征信息为“性别”特征，性别有“男性”、“女性”，，如果对这个特征进行one-hot转换，则“男性”的特征向量值为“10”，“女性”的特征向量值为“01”。
61.需要说明的是，onehot向量用于将类别变量转换为机器学习算法易于利用的一种形式的过程，这个向量表示为一项属性的特征向量，也就是同一时间只有一个激活点(不为0)，这个向量只有一个特征是不为0的，其他都是0。
62.步骤202、电子设备根据n个交叉熵损失值，从n个视频帧中确定与预设违规信息匹配的m个视频帧，m为小于或等于n的正整数。
63.本技术实施例中，电子设备可以从n个交叉熵损失值中，确定与预设违规信息匹配的m个视频帧中包含违规信息，从而电子设备可以根据该m个视频帧对目标视频进行审核。
64.可选地，本技术实施例中，上述至少一层算法结构为l层算法结构，l为大于1的整数。上述步骤202具体可以通过下述的步骤202a和步骤202b实现。
65.步骤202a、电子设备通过l层算法结构中的第一层算法结构，从n个视频帧中确定与预设违规信息匹配的k个视频帧，k为小于n的正整数。
66.本技术实施例中，若电子设备在通过l层算法结构中的第一层算法结构从n个视频帧获取与预设违规信息匹配的k个视频帧，则该k个视频帧不再进行下一层算法结构的运算，直接输出至融合层算法结构中。
67.步骤202b、电子设备通过至少两层算法结构中的第i层算法结构，从剩余视频帧中确定与预设违规信息匹配的视频帧。
68.本技术实施例中，上述剩余视频帧为第i-1层中获取特征信息的视频帧中与预设违规信息不匹配的视频帧，i为大于1、且小于或等于l的整数。
69.本技术实施例中，在第一层算法结构中的n个交叉熵损失值中的每个交叉熵损失值大于预设阈值时，则判定当前层算法结构不能够识别出交叉熵损失值对应的一个帧图像中包含违规信息，则电子设备可以将n-k个视频帧进行下一层算法结构的运算，以从剩余的视频帧中确定与预设违规信息匹配的h个视频帧；在第二层算法结构中的n-k个交叉熵损失值中的每个交叉熵损失值大于预设阈值时，则判定当前层算法结构不能够识别出交叉熵损失值对应的一个帧图像中包含违规信息，则电子设备可以将n-k-h个视频帧进行下一层算法结构的运算，以从剩余的视频帧中确定与预设违规信息匹配的视频帧；以此类推，直至运算至最后一层算法结构。
70.可以理解，通过逐层的语义信息的提取，最终得到n个视频帧中的每个视频帧的特征信息。从而浅层的目标算法结构学到的是易区分的图片表征信息，深层的目标算法结构结构学习到的是抽象的、难以区分的语义信息。
71.本技术实施例中，电子设备可以通过多层算法结构对第一视频的n帧图像进行审核，以使得至少一层算法结构中的浅层可以识别比较容易区分的特征信息，对于比较难识
别的特征信息，则需要将剩余视频帧进行逐层分析，以确定是否存在违规信息，从而提升电子设备视频审核的准确性。
72.可选地，本技术实施例中，上述步骤202具体可以通过下述的步骤202c实现。
73.步骤202c、电子设备从n个交叉熵损失值中确定小于或等于预设阈值的m个交叉熵损失值，并将m个交叉熵损失值对应的视频帧确定为m个视频帧。
74.本技术实施例中，在通过当前层(例如第k层，k＝1,2,
…
,n)判断n个交叉熵损失值中的至少一个交叉熵损失值小于或等于预设阈值时，则判定第k层算法结构可以识别出该至少一个交叉熵损失值对应的帧图像中包含违规信息，则这些帧图像不再进行下一层级的运算，直接输出至融合层算法结构中；然后通过第k 1层判断剩余交叉熵损失值(即第k层中获取特征信息的视频帧中与预设违规信息不匹配的视频帧对应的交叉熵损失值)中的至少一个交叉熵损失值小于或等于预设阈值时，则判定第k 1层算法结构可以识别出该至少一个交叉熵损失值对应的帧图像中包含违规信息，则这些帧图像不再进行下一层级的运算，直接输出至融合层算法结构中；以此类推，直至得到n个视频帧中包含有违规信息的m个视频帧(即n个视频帧中所有包含违规信息的视频帧)。
75.本技术实施例中，在交叉熵损失值小于或等于预设阈值的情况下，电子设备可以确定当前层算法结构可以识别出交叉熵损失值对应的帧图像中包含违规信息，则不在进行下一层级的运算，即对于比较容易区分的特征信息，直接进行输出，也即电子设备简化了每一层算法结构的计算量，如此，在提升了电子设备视频审核的效率的同时保证了电子设备视频审核的准确性。
76.步骤203、电子设备根据m个视频帧确定目标视频的分类。
77.可选地，本技术实施例中，上述目标视频的分类可以包括以下至少一项：不健康信息类、不雅观信息类和敏感词汇类。
78.可选地，本技术实施例中，电子设备可以基于m个视频帧，生成并输出第二视频。
79.本技术实施例中，电子设备可以直接基于m个视频帧进行融合处理，生成第二视频；或者，电子设备可以调整m个视频帧的顺序，并基于调整后的m个视频帧进行融合处理，生成第二视频；或者，电子设备可以对m个视频帧进行图像参数调整(例如添加马赛克、标记等，或者调整视频帧的亮度、颜色值等)。
80.可选地，本技术实施例中，电子设备可以根据m个视频帧，生成第二视频；或者，电子设备可以根据m个视频帧生成的第二视频，对第二视频进行标记(例如在第二视频的第一个视频帧上显示目标标识)，以向用户提示该第二视频中的所有视频帧均为包含违规信息的视频帧；或者，电子设备可以根据n个视频帧，生成第二视频，并对第二视频中的m个视频帧中的每个视频帧进行标记，即在m个视频帧中的每个视频帧上分别显示一个目标标识，以标记该m个视频帧，以向用户提示该m个视频帧中的每个视频帧为包含违规信息的视频帧。
81.可选地，本技术实施例中，上述目标标识可以包括以下任一项：文字标识、图片标识、表情标识或涂鸦标识等。具体可以根据实际使用需求确定，本技术实施例不作限制。
82.可选地，本技术实施例中，电子设备可以将m个视频帧以动图画面的方式生成并输出第二视频，即电子设备在播放第二视频时，以界面滚动(例如上下滚动或者左右滚动)形式将第二视频完整地展示出来。
83.可选地，本技术实施例中，电子设备在生成第二视频后，可以向用户返回提示信
息，该提示信息中可以包括以下至少一项：文字提示信息，视频提示信息(例如第二视频)，表情提示信息，图片提示信息(例如m个包含违规信息的视频帧)。
84.可选地，本技术实施例中，电子设备可以根据m个视频帧的特征信息，获取目标差异信息，从而电子设备可以根据目标差异信息，对m个视频帧进行排序。
85.本技术实施例中，上述目标差异信息用于指示m个视频帧中每两个视频帧的特征信息之间的差异程度。
86.本技术实施例中，电子设备可以根据第一预设算法，确定m个视频帧中每两个视频帧的特征信息之间的差异程度。
87.可选地，本技术实施例中，上述第一预设算法可以为以下任一项：交叉熵算法、差值算法或方差算法。
88.本技术实施例中，电子设备可以根据m个视频帧中每两个视频帧的特征信息之间的差异程度的大小(即每两个视频帧的特征信息的向量差值，例如q个向量差值，q为大于或等于m的整数)，按照从大到小或从小到大的顺序对q个向量差值进行排序，并根据该顺序对q个向量差值对应的m个视频帧进行排序。
89.可选地，本技术实施例中，针对m个视频帧中的每个视频帧，电子设备可以计算一个视频帧的特征信息与其他视频帧中每个视频帧的特征信息之间的向量差值，并将这些向量差值中最小的向量差值对应的视频帧确定为与该一个视频帧相邻的视频帧，以对m个视频帧进行排序。
90.可选地，本技术实施例中，在电子设备对m个视频帧进行排序之后，电子设备可以通过融合层算法结构，对排序后的m个视频帧进行融合处理，生成并输出第二视频。
91.本技术实施例中，电子设备可以根据m个视频帧中的每两个视频帧之间差异程度，对m个视频帧进行排序，生成并输出第二视频，避免了大量的视频帧信息在浅层的算法结构中就已经被区分，在深层的算法结构中没有学习到对应的时序序列信息，从而丢失了视频帧之间的时序信息，导致m个视频帧的顺序错乱，通过在融合层算法结构对m个视频帧的时序信息进行捕获，另不同层间的视频帧在融合层算法结构可以得到交互，如此，简化了电子设备视频审核的复杂度。
92.可选地，本技术实施例中，上述步骤203具体可以通过下述的步骤203a实现。
93.步骤203a、电子设备根据m个视频帧中包含的预设违规信息，确定目标视频的分类。
94.可选地，本技术实施例中，电子设备可以根据m个视频帧中包含的预设违规信息，将目标视频保存至与预设违规信息对应的类别中；或者，电子设备可以通过提示信息的方式将该目标视频中包含的违规信息的类别反馈至用户。
95.本技术实施例提供一种视频帧检测方法，电子设备可以通过获取第一视频的n个视频帧的特征信息，从而根据该特征信息通过交叉熵损失运算从n个视频帧中确定包含有违规信息的m个视频帧，以基于该m个视频帧确定目标视频的分类。本方案中，由于电子设备对目标视频的审核是对目标视频划分后的所有视频帧进行判断的，即电子设备对目标视频划分得到n个视频帧后，基于该n个视频帧的特征信息与预设违规信息之间做交叉熵损失运算，从而得到每一个视频帧中包含的特征信息与预设违规信息之间的差异值，然后根据该差异值从n个视频帧中确定包含违规信息的m个视频帧，也即电子设备将目标视频划分后的
所有视频帧中的每个视频帧中包含的特征信息分别与预设违规信息进行比对，以从该所有视频帧中筛选出包含有违规信息的m个视频帧，并根据该m个视频帧，确定目标视频的分类(例如违规视频)，从而实现通过交叉熵损失值对目标视频类型的审核，避免了电子设备会漏掉对目标视频中某些帧的审核，导致某些存在违规内容的视频帧未被检测出的问题，因此本技术的方案提升了电子设备审核视频的准确性。
96.可选地，本技术实施例中，在上述步骤203之后，本技术实施例提供的视频帧检测方法还包括下述的步骤301至步骤303。
97.步骤301、电子设备对n个视频帧的交叉熵损失值进行求和运算，得到第一交叉熵损失值。
98.本技术实施例中，电子设备可以将每一层算法结构中的n个视频帧的交叉熵损失进行求和算法，以得到第一交叉熵损失值，具体算法为：
[0099][0100]
其中，entropy1为第一交叉熵损失值，frame-entropy为每一层每一帧的交叉熵损失值。
[0101]
步骤302、电子设备对m个视频帧的特征信息进行融合处理，得到目标特征信息，并根据目标特征信息和预设违规信息，确定第二交叉熵损失值。
[0102]
本技术实施例中，上述第二交叉熵损失值为融合后的m个视频帧的交叉熵损失值。
[0103]
本技术实施例中，电子设备可以在融合层算法结构中获取m个视频帧的特征信息，并将该特征信息与预设违规信息进行交叉熵算法，以得到第二交叉熵损失值，具体算法为：
[0104]
cross-entropy(label-output,video-label-onehot)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(公式四)
[0105]
其中，cross-entropy为第二交叉熵损失值，label-output为在融合层算法结构中m个视频帧的特征信息，video-label-onehot为预设违规信息。
[0106]
步骤303、电子设备根据第一交叉熵损失值和第二交叉熵损失值，确定最终交叉熵损失值，并采用最终交叉熵损失值，对至少一层算法结构进行优化处理。
[0107]
本技术实施例中，电子设备可以对第一交叉熵损失值和第二交叉熵损失值进行求和算法，以得到最终交叉熵损失值，具体算法为：
[0108][0109]
其中，loss为最终交叉熵损失值，frame-entropy为每一层每一帧的交叉熵损失值，cross-entropy为第二交叉熵损失值。
[0110]
需要说明的是，由于在训练初期，至少一层算法结构的参数为随机初始化或直接通过预训练方式初始化的参数，该部分参数不包含分类任务相关的特征，仅包含基础的图片特征信息。因此将每帧图像的交叉熵损失加入到至少一层算法结构的训练过程中的最终交叉熵损失中，增加特征学习标签的能力。
[0111]
而在模型初期，模型学习帧特征的能力不强，为了防止学到的交叉熵损失为错误信息，错误信息过多导致后期模型不易收敛，引入退火因子；在训练初期，相邻2次训练得到的交叉熵变化较大，δe较小，δe占entropyi(即每帧的交叉熵损失)的比重较大，取λ＝exp
(-δe/entropyi)则λ的值较大，令此时交叉熵损失值主要由最后一层算法结构产生，控制每帧图像产生的交叉熵损失在总体损失的比重，降低每帧图像交叉熵损失的置信度；当模型变化比较小时，δe占entropyi的比重较小，η
→
1，每层帧图像的交叉熵损失和最后一层算法结构产生的损失同等重要；通过第二预设算法，使得至少一层算法结构在学习总体分类结果的同时，同时控制每一层学习每一帧图像特征信息的能力，加强了各层与标签信息的交互，并控制每一层交叉熵损失的可信度，具体算法为：
[0112]
δe＝entropy
t-entropy
t-1
；δe＜0
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(公式六)
[0113][0114]
frame-entropy＝∑jη*frame-entropyjꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(公式八)
[0115]
其中，entropy为交叉熵损失值，δe为交叉熵变化，η为退火因子frame-entropy为每一层每一帧的交叉熵损失值。
[0116]
本技术实施例中，通过至少一层算法结构中的每一层算法结构中的每一个视频帧产生的交叉熵损失最小，即中间每一层的特征信息可以被区分，从而使得至少一层算法结构整体产生的交叉熵损失最小，如此，增加了每一层算法结构之间的交互，加强了至少一层算法结构的学习能力。
[0117]
需要说明的是，本技术实施例提供的视频帧检测方法，执行主体可以为视频帧检测装置。本技术实施例中以视频帧检测装置执行视频帧检测方法为例，说明本技术实施例提供的视频帧检测装置。
[0118]
图2示出了本技术实施例中涉及的视频帧检测装置的一种可能的结构示意图。如图2所示，该视频帧检测装置70可以包括：获取模块71、确定模块72。
[0119]
其中，获取模块71，用于获取n个视频帧的特征信息，并根据n个视频帧的特征信息与预设违规信息，得到n个交叉熵损失值，该n个视频帧为目标视频中的视频帧，每个交叉熵损失值用于指示n个视频帧中的一个视频帧与预设违规信息之间的匹配程度，n为大于1的整数。确定模块72，用于根据n个交叉熵损失值，从n个视频帧中确定与预设违规信息匹配的m个视频帧，m为小于或等于n的正整数；并根据m个视频帧确定目标视频的分类。
[0120]
在一种可能的实现方式中，上述获取模块71，具体用于通过至少一层算法结构，获取n个视频帧的特征信息，并将n个视频帧的特征信息和预设违规信息进行交叉熵运算，确定n个交叉熵损失值。
[0121]
在一种可能的实现方式中，上述至少一层算法结构为l层算法结构，l为大于1的整数。上述确定模块72，具体用于通过l层算法结构中的第一层算法结构，从n个视频帧中确定与预设违规信息匹配的k个视频帧，k为小于n的正整数；并通过至少两层算法结构中的第i层算法结构，从剩余视频帧中确定与预设违规信息匹配的视频帧，该剩余视频帧为第i-1层中获取特征信息的视频帧中与预设违规信息不匹配的视频帧，i为大于1、且小于或等于l的整数。
[0122]
在一种可能的实现方式中，上述确定模块72，具体用于从n个交叉熵损失值中确定小于或等于预设阈值的m个交叉熵损失值，并将m个交叉熵损失值对应的视频帧确定为m个
视频帧。
[0123]
在一种可能的实现方式中，上述确定模块72，具体用于根据m个视频帧中包含的预设违规信息，确定目标视频的分类。
[0124]
在一种可能的实现方式中，本技术实施例提供的视频帧检测装置还包括运算模块和处理模块。运算模块，用于在确定模块72根据m个视频帧确定目标视频的分类之后，对n个视频帧的交叉熵损失值进行求和运算，得到第一交叉熵损失值。处理模块，用于对m个视频帧的特征信息进行融合处理，得到目标特征信息，并根据目标特征信息和预设违规信息，确定第二交叉熵损失值，该第二交叉熵损失值为融合后的m个视频帧的交叉熵损失值。上述确定模块72，还用于根据第一交叉熵损失值和第二交叉熵损失值，确定最终交叉熵损失值，并采用最终交叉熵损失值，对至少一层算法结构进行优化处理。
[0125]
本技术实施例提供一种视频帧检测装置，由于视频帧检测装置对目标视频的审核是对目标视频划分后的所有视频帧进行判断的，即视频帧检测装置对目标视频划分得到n个视频帧后，基于该n个视频帧的特征信息与预设违规信息之间做交叉熵损失运算，从而得到每一个视频帧中包含的特征信息与预设违规信息之间的差异值，然后根据该差异值从n个视频帧中确定包含违规信息的m个视频帧，也即视频帧检测装置将目标视频划分后的所有视频帧中的每个视频帧中包含的特征信息分别与预设违规信息进行比对，以从该所有视频帧中筛选出包含有违规信息的m个视频帧，并根据该m个视频帧，确定目标视频的分类(例如违规视频)，从而实现通过交叉熵损失值对目标视频类型的审核，，避免了视频帧检测装置会漏掉对目标视频中某些帧的审核，导致某些存在违规内容的视频帧未被检测出的问题，因此本技术的方案提升了视频帧检测装置审核视频的准确性。
[0126]
本技术实施例中的视频帧检测装置可以是装置，也可以是电子设备中的部件、集成电路、或芯片。该装置可以是移动电子设备，也可以为非移动电子设备。示例性的，移动电子设备可以为手机、平板电脑、笔记本电脑、掌上电脑、车载电子设备、移动上网装置(mobile internet device，mid)、增强现实(augmented reality，ar)/虚拟现实(virtual reality，vr)设备、机器人、可穿戴设备、超级移动个人计算机(ultra-mobile personal computer，umpc)、上网本或者个人数字助理(personal digital assistant，pda)等，还可以为服务器、网络附属存储器(network attached storage，nas)、个人计算机(personal computer，pc)、电视机(television，tv)、柜员机或者自助机等，本技术实施例不作具体限定。
[0127]
本技术实施例中的视频帧检测装置可以为具有操作系统的装置。该操作系统可以为安卓(android)操作系统，可以为ios操作系统，还可以为其他可能的操作系统，本技术实施例不作具体限定。
[0128]
本技术实施例提供的视频帧检测装置能够实现图1至图2的方法实施例实现的各个过程，为避免重复，这里不再赘述。
[0129]
可选地，如图3所示，本技术实施例还提供一种电子设备90，包括处理器91和存储器92，存储器92上存储有可在所述处理器91上运行的程序或指令，该程序或指令被处理器91执行时实现上述视频帧检测方法实施例的各个步骤，且能达到相同的技术效果，为避免重复，这里不再赘述。
[0130]
需要说明的是，本技术实施例中的电子设备包括上述所述的移动电子设备和非移
动电子设备。
[0131]
图4为实现本技术实施例的一种电子设备的硬件结构示意图。
[0132]
该电子设备100包括但不限于：射频单元101、网络模块102、音频输出单元103、输入单元104、传感器105、显示单元106、用户输入单元107、接口单元108、存储器109、以及处理器110等部件。
[0133]
本领域技术人员可以理解，电子设备100还可以包括给各个部件供电的电源(比如电池)，电源可以通过电源管理系统与处理器110逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。图4中示出的电子设备结构并不构成对电子设备的限定，电子设备可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置，在此不再赘述。
[0134]
其中，处理器110，用于获取n个视频帧的特征信息，并根据n个视频帧的特征信息与预设违规信息，得到n个交叉熵损失值，该n个视频帧为目标视频中的视频帧，每个交叉熵损失值用于指示n个视频帧中的一个视频帧与预设违规信息之间的匹配程度，n为大于1的整数；根据n个交叉熵损失值，从n个视频帧中确定与预设违规信息匹配的m个视频帧，m为小于或等于n的正整数；以及根据m个视频帧确定目标视频的分类。
[0135]
本技术实施例提供一种电子设备，由于电子设备对目标视频的审核是对目标视频划分后的所有视频帧进行判断的，即电子设备对目标视频划分得到n个视频帧后，基于该n个视频帧的特征信息与预设违规信息之间做交叉熵损失运算，从而得到每一个视频帧中包含的特征信息与预设违规信息之间的差异值，然后根据该差异值从n个视频帧中确定包含违规信息的m个视频帧，也即电子设备将目标视频划分后的所有视频帧中的每个视频帧中包含的特征信息分别与预设违规信息进行比对，以从该所有视频帧中筛选出包含有违规信息的m个视频帧，并根据该m个视频帧，确定目标视频的分类(例如违规视频)，从而实现通过交叉熵损失值对目标视频类型的审核，避免了电子设备会漏掉对目标视频中某些帧的审核，导致某些存在违规内容的视频帧未被检测出的问题，因此本技术的方案提升了电子设备审核视频的准确性。
[0136]
可选地，本技术实施例中，上述处理器110，具体用于通过至少一层算法结构，获取n个视频帧的特征信息，并将n个视频帧的特征信息和预设违规信息进行交叉熵运算，确定n个交叉熵损失值。
[0137]
可选地，本技术实施例中，上述至少一层算法结构为l层算法结构，l为大于1的整数。上述处理器110，具体用于通过l层算法结构中的第一层算法结构，从n个视频帧中确定与预设违规信息匹配的k个视频帧，k为小于n的正整数；并通过至少两层算法结构中的第i层算法结构，从剩余视频帧中确定与预设违规信息匹配的视频帧，该剩余视频帧为第i-1层中获取特征信息的视频帧中与预设违规信息不匹配的视频帧，i为大于1、且小于或等于l的整数。
[0138]
可选地，本技术实施例中，上述处理器110，具体用于从n个交叉熵损失值中确定小于或等于预设阈值的m个交叉熵损失值，并将m个交叉熵损失值对应的视频帧确定为m个视频帧。
[0139]
可选地，本技术实施例中，上述处理器110，具体用于根据m个视频帧中包含的预设违规信息，确定目标视频的分类。
[0140]
可选地，本技术实施例中，上述处理器110，还用于对n个视频帧的交叉熵损失值进行求和运算，得到第一交叉熵损失值；并对m个视频帧的特征信息进行融合处理，得到目标特征信息，并根据目标特征信息和预设违规信息，确定第二交叉熵损失值，该第二交叉熵损失值为融合后的m个视频帧的交叉熵损失值；以及根据第一交叉熵损失值和第二交叉熵损失值，确定最终交叉熵损失值，并采用最终交叉熵损失值，对至少一层算法结构进行优化处理。
[0141]
本技术实施例提供的电子设备能够实现上述方法实施例实现的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。
[0142]
本实施例中各种实现方式具有的有益效果具体可以参见上述方法实施例中相应实现方式所具有的有益效果，为避免重复，此处不再赘述。
[0143]
应理解的是，本技术实施例中，输入单元104可以包括图形处理器(graphics processing unit，gpu)1041和麦克风1042，图形处理器1041对在视频捕获模式或图像捕获模式中由图像捕获装置(如摄像头)获得的静态图片或视频的图像数据进行处理。显示单元106可包括显示面板1061，可以采用液晶显示器、有机发光二极管等形式来配置显示面板1061。用户输入单元107包括触控面板1071以及其他输入设备1072中的至少一种。触控面板1071，也称为触摸屏。触控面板1071可包括触摸检测装置和触摸控制器两个部分。其他输入设备1072可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆，在此不再赘述。
[0144]
存储器109可用于存储软件程序以及各种数据。存储器109可主要包括存储程序或指令的第一存储区和存储数据的第二存储区，其中，第一存储区可存储操作系统、至少一个功能所需的应用程序或指令(比如声音播放功能、图像播放功能等)等。此外，存储器109可以包括易失性存储器或非易失性存储器，或者，存储器109可以包括易失性和非易失性存储器两者。其中，非易失性存储器可以是只读存储器(read-only memory，rom)、可编程只读存储器(programmable rom，prom)、可擦除可编程只读存储器(erasable prom，eprom)、电可擦除可编程只读存储器(electrically eprom，eeprom)或闪存。易失性存储器可以是随机存取存储器(random access memory，ram)，静态随机存取存储器(static ram，sram)、动态随机存取存储器(dynamic ram，dram)、同步动态随机存取存储器(synchronous dram，sdram)、双倍数据速率同步动态随机存取存储器(double data rate sdram，ddrsdram)、增强型同步动态随机存取存储器(enhanced sdram，esdram)、同步连接动态随机存取存储器(synch link dram，sldram)和直接内存总线随机存取存储器(direct rambus ram，drram)。本技术实施例中的存储器109包括但不限于这些和任意其它适合类型的存储器。
[0145]
处理器110可包括一个或多个处理单元；可选的，处理器110集成应用处理器和调制解调处理器，其中，应用处理器主要处理涉及操作系统、用户界面和应用程序等的操作，调制解调处理器主要处理无线通信信号，如基带处理器。可以理解的是，上述调制解调处理器也可以不集成到处理器110中。
[0146]
本技术实施例还提供一种可读存储介质，所述可读存储介质上存储有程序或指令，该程序或指令被处理器执行时实现上述方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。
[0147]
其中，所述处理器为上述实施例中所述的电子设备中的处理器。所述可读存储介
质，包括计算机可读存储介质，如计算机只读存储器rom、随机存取存储器ram、磁碟或者光盘等。
[0148]
本技术实施例另提供了一种芯片，所述芯片包括处理器和通信接口，所述通信接口和所述处理器耦合，所述处理器用于运行程序或指令，实现上述方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。
[0149]
应理解，本技术实施例提到的芯片还可以称为系统级芯片、系统芯片、芯片系统或片上系统芯片等。
[0150]
本技术实施例提供一种计算机程序产品，该程序产品被存储在存储介质中，该程序产品被至少一个处理器执行以实现如上述视频帧检测方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。
[0151]
需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个
……”
限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。此外，需要指出的是，本技术实施方式中的方法和装置的范围不限按示出或讨论的顺序来执行功能，还可包括根据所涉及的功能按基本同时的方式或按相反的顺序来执行功能，例如，可以按不同于所描述的次序来执行所描述的方法，并且还可以添加、省去、或组合各种步骤。另外，参照某些示例所描述的特征可在其他示例中被组合。
[0152]
通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本技术的技术方案本质上或者说对现有技术做出贡献的部分可以以计算机软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如rom/ram、磁碟、光盘)中，包括若干指令用以使得一台终端(可以是手机，计算机，服务器，或者网络设备等)执行本技术各个实施例所述的方法。
[0153]
上面结合附图对本技术的实施例进行了描述，但是本技术并不局限于上述的具体实施方式，上述的具体实施方式仅仅是示意性的，而不是限制性的，本领域的普通技术人员在本技术的启示下，在不脱离本技术宗旨和权利要求所保护的范围情况下，还可做出很多形式，均属于本技术的保护之内。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：一种基于风机保护策略的额定风速以上功率预测方法

视频帧检测方法、装置、电子设备及存储介质与流程

相关文献

最热文献