视频检测方法、装置、设备及计算机可读存储介质与流程

2022-09-03 18:54:12 来源：中国专利 TAG：

1.本发明涉及数据处理技术领域，尤其涉及一种视频检测方法、装置、设备及计算机可读存储介质。

背景技术：

2.计算机技术和互联网技术的快速发展，促进了人与人之间的信息交流。其中网络视频是一种重要且广泛存在的信息交流方式。网络视频主要包括新闻视频、影视作品、直播视频和自媒体视频等。由于种类和数量的多样性，以及内容的隐蔽性，网络视频经常会成为传播色情信息的载体，这对于公众尤其是青少年的身心健康造成了不良的影响。所以检测视频中的涉黄信息并防止其在网络上传播，对净化网络环境、维护社会稳定具有重要意义。当前主流的视频检测方法是对视频抽帧获得图片，检测图片中是否存在涉黄信息从而判断视频是否合规。这种方法的弊端是，一段长视频包含数量极大的视频帧，即便是对视频抽帧仍然需要处理非常多的图片，这样处理的效率是很低的。而且图片仅能提供视觉上的信息，在视觉上往往认为裸露部位较大为涉黄，而对于衣着较少、暴露皮肤过多的图像经常造成误检，从而拦截了正常的视频。综上，如何高效并且精准的检测涉黄视频是亟待解决的。

技术实现要素：

3.本发明的主要目的在于提供一种视频检测方法、装置、设备及计算机可读存储介质，旨在解决如何高效并且精准的检测涉黄视频的技术问题。
4.为实现上述目的，本发明提供一种视频检测方法，包括以下步骤：
5.获取待测视频的音频信号，确定所述音频信号的音频深度特征，检测所述音频信号是否为涉黄音频信号；
6.若是，则确定所述待测视频中与所述音频信号对应的目标视频，并确定所述目标视频的视觉深度特征；
7.根据所述音频深度特征和所述视觉深度特征构建融合特征矩阵；
8.若根据所述融合特征矩阵确定所述待测视频为存在涉黄的视频，则确定所述待测视频中的目标涉黄视频内容。
9.可选地，若根据所述融合特征矩阵确定所述待测视频为存在涉黄的视频，则确定所述待测视频中的目标涉黄视频片段的步骤，包括：
10.根据所述融合特征矩阵确定所述目标视频中是否存在涉黄特征；
11.若所述目标视频中存在涉黄特征，则确定所述待测视频为存在涉黄的视频，并将所述目标视频划分为多个时长等同的待测视频片段，并根据各所述待测视频片段确定所述待测视频中的目标涉黄视频内容。
12.可选地，根据各所述待测视频片段确定所述待测视频中的目标涉黄视频内容的步骤，包括：
13.遍历各所述待测视频片段，基于所述融合特征矩阵确定遍历的所述待测视频片段
中是否存在所述涉黄特征；
14.若遍历的所述待测视频片段中存在所述涉黄特征，则确定遍历的所述待测视频片段对应的时间段，并将所述待测视频中和所述时间段匹配的视频内容作为目标涉黄视频内容。
15.可选地，将所述待测视频中和所述时间段匹配的视频内容作为目标涉黄视频内容的步骤之后，还包括：
16.确定所述待测视频中与所述目标视频相邻的相邻视频，确定所述相邻视频中是否存在具有所述涉黄特征的视频片段；
17.若所述相邻视频中存在具有所述涉黄特征的视频片段，则将所述待测视频中和所述具有所述涉黄特征的视频片段对应的视频内容作为目标涉黄视频内容。
18.可选地，根据所述音频深度特征和所述视觉深度特征构建融合特征矩阵的步骤，包括：
19.对所述音频深度特征进行长短期记忆网络训练，得到音频训练特征；
20.对所述视觉深度特征进行所述长短期记忆网络训练，得到视觉训练特征；
21.对所述音频训练特征和所述视觉训练特征进行特征提取融合，得到初步融合特征；
22.根据所述初步融合特征和所述音频训练特征构建音频融合特征，并根据所述初步融合特征和所述视觉训练特征构建视觉融合特征；
23.根据所述音频融合特征和所述视觉训练特征构建融合特征矩阵。
24.可选地，确定所述目标视频的视觉深度特征的步骤，包括：
25.根据所述音频深度特征计算所述目标视频的视觉注意力权重，并提取所述目标视频的初始视觉深度特征；
26.根据所述视觉注意力权重和所述初始视觉深度特征计算视觉深度特征。
27.可选地，确定所述音频信号的音频深度特征的步骤，包括：
28.将所述音频信号转换为音频谱图，并确定所述音频谱图的深度信息，根据所述深度信息提取所述音频谱图中的音频深度特征。
29.此外，为实现上述目的，本发明还提供一种视频检测装置，包括：
30.获取单元，用于获取待测视频的音频信号，确定所述音频信号的音频深度特征，检测所述音频信号是否为涉黄音频信号；
31.确定单元，用于若是，则确定所述待测视频中与所述音频信号对应的目标视频，并确定所述目标视频的视觉深度特征；
32.构建单元，用于根据所述音频深度特征和所述视觉深度特征构建融合特征矩阵；
33.检测单元，用于若根据所述融合特征矩阵确定所述待测视频为存在涉黄的视频，则确定所述待测视频中的目标涉黄视频内容。
34.此外，为实现上述目的，本发明还提供一种视频检测设备，视频检测设备包括存储器、处理器及存储在存储器上并可在处理器上运行的视频检测程序，视频检测程序被处理器执行时实现如上述的视频检测方法的步骤。
35.此外，为实现上述目的，本发明还提供一种计算机可读存储介质，计算机可读存储介质上存储有视频检测程序，视频检测程序被处理器执行时实现如上述的视频检测方法的
步骤。
36.本发明通过在待测视频的音频信号为涉黄音频信号时，才确定待测视频中与音频信号对应的目标视频中的视觉深度特征，从而避免了直接进行视频抽帧造成的计算资源浪费，提高了检测涉黄视频的效率。并且根据音频信号的音频深度特征和视觉深度特征构建融合特征矩阵，并根据融合特征矩阵确定待测视频为存在涉黄的视频时，确定具体的目标涉黄视频内容，从而可以结合视觉和音频对视频涉黄进行检测定性，避免了将视觉上裸露面积过大，或婴儿啼哭这种声音上相似的情况误判的现象发生，提高了检测涉黄视频的精准度，也提高了检测涉黄视频的效率。
附图说明
37.图1是本发明实施例方案涉及的硬件运行环境的终端\装置结构示意图；
38.图2为本发明视频检测方法第一实施例的流程示意图；
39.图3为本发明视频检测装置的装置单元示意图；
40.图4为本发明视频检测方法中融合特征矩阵的构建流程示意图；
41.图5为本发明视频检测方法中的涉黄视频检测流程示意图；
42.图6为本发明视频检测方法中特征融合的流程示意图。
43.本发明目的实现、功能特点及优点将结合实施例，参照附图做进一步说明。
具体实施方式
44.应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。
45.如图1所示，图1是本发明实施例方案涉及的硬件运行环境的终端结构示意图。
46.本发明实施例终端为视频检测设备。
47.如图1所示，该终端可以包括：处理器1001，例如cpu，网络接口1004，用户接口1003，存储器1005，通信总线1002。其中，通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(display)、输入单元比如键盘(keyboard)，可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如wi-fi接口)。存储器1005可以是高速ram存储器，也可以是稳定的存储器(non-volatile memory)，例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。
48.可选地，终端还可以包括摄像头、rf(radio frequency，射频)电路，传感器、音频电路、wifi模块等等。其中，传感器比如光传感器、运动传感器以及其他传感器。具体地，光传感器可包括环境光传感器及接近传感器，其中，环境光传感器可根据环境光线的明暗来调节显示屏的亮度，接近传感器可在终端设备移动到耳边时，关闭显示屏和/或背光。当然，终端设备还可配置陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器，在此不再赘述。
49.本领域技术人员可以理解，图1中示出的终端结构并不构成对终端的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。
50.如图1所示，作为一种计算机存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及视频检测程序。
51.在图1所示的终端中，网络接口1004主要用于连接后台服务器，与后台服务器进行数据通信；用户接口1003主要用于连接客户端(用户端)，与客户端进行数据通信；而处理器1001可以用于调用存储器1005中存储的视频检测程序，并执行以下操作：
52.参照图2，本发明提供一种视频检测方法，在视频检测方法的第一实施例中，视频检测方法包括以下步骤：
53.步骤s10，获取待测视频的音频信号，确定所述音频信号的音频深度特征，检测所述音频信号是否为涉黄音频信号；
54.随着互联网技术的发展，各类视频网站和直播平台随之兴起，随之产生了海量的视频文件。这其中包含内容不健康的视频内容，比如色情视频，污染了网络环境，对观众的身心健康产生影响。所以对检测网络中的不良视频内容并对其进行屏蔽拦截具有重要意义。现存方法往往存在如下问题：第一，单模态的检测方法能力范围有限，不论是基于声音还是视觉的检测，均有无法应对的相似场景，容易导致误判；第二，在视频抽帧上，如果抽帧频率高，那么检测一段视频需要检测更多的帧图像，检测效率低，如果抽帧频率低，则抽帧时间间隔较长，必然遗漏两帧图像中间的视频内容，容易导致色情片段漏判；第三，当检测到涉黄视频后，没有有效地针对色情内容删除方法，而是直接将整个视频拦截，这样容易导致一段长视频往往因为其中的一小段涉黄片段而被整个拦截，造成正常内容误拦，影响用户体验。
55.因此，在本实施例中，是通过利用截取音频片段分类，代替视频抽帧，减小计算量，并且由于音频特征维度小于视频特征维度，所以通过音频定位涉黄片段的速度大于抽帧速度，从而降低了对整个视频的涉黄检测时间。还通过利用视觉和音频双模态信息判断视频是否涉黄，通过不同模态间的信息互补丰富了视频特征，降低了由单模态信息的局限性造成的误判，减少错误拦截。还通过利用多任务学习，在视频分类任务的基础上增加了时间一致性任务，对视频片段进行时间轴上更细粒度的定性，获得涉黄视频片段起始时间信息，对涉黄片段过滤删除。
56.因此，在本实施例中，在对待测视频进行涉黄检测时，可以先获取待测视频的音频信号，并将音频信号转化为对应的mfcc(mel-frequency cepstral coefficients，梅尔频率倒谱系数)谱图，即将一维信号转化为二维图像，并且可以将转化的mfcc谱图作为音频谱图，其中音频谱图的维度可以为[128,96]。再时延vggish网络直接对音频谱图深度信息进行提取，得到音频深度特征，及其向量fa。其中，获取待测视频的音频信号的方式可以使用音频提取工具进行提取，具体方式在此不做限制。并且可以根据预设的时间间隔提取所述待测视频中预设时长的音频信号。依次对每个音频信号进行检测。
[0057]
而且在进行音频分类时，需要先提前训练好音频涉黄分类网络，再根据训练好的音频涉黄分类网络检测音频信号是否为涉黄音频信号。其中，音频信号的类型可以包括涉黄音频信号和正常音频信号。涉黄音频信号可以为呻吟、娇喘等具有敏感信息的音频信号。正常音频信号可以为自然场景下与涉黄音频信号不相似的音频信号，如汽车喇叭发出的音频信号等。其中，在对音频涉黄分类网络进行训练时，网络主干可选择(不局限)resnet(残差网络)等主干网络，网络的输入为音频信号的mfcc图谱。音频信号截取1s为单位，将1s的音频信号转化为mfcc图谱，作为网络的输入。将不同类别的音频信号输入网络，训练softmax分类器。
[0058]
并且在得到音频深度特征后，可以直接采用已经训练好的音频涉黄分类网络对音频信号进行分类检测，检测音频信号是否为涉黄音频信号，并根据不同的检测结果执行不同的操作。
[0059]
具体地，获取待测视频的音频信号的步骤，包括：
[0060]
根据预设的时间间隔提取所述待测视频中预设时长的音频信号；
[0061]
检测所述音频信号是否为涉黄音频信号的步骤之后，包括：
[0062]
若所述音频信号为正常音频信号，则继续执行所述根据预设的时间间隔提取所述待测视频中预设时长的音频信号的步骤。
[0063]
步骤s20，若是，则确定所述待测视频中与所述音频信号对应的目标视频，并确定所述目标视频的视觉深度特征；
[0064]
当经过判断发现音频信号是涉黄音频信号，则可以在待测视频中根据音频信号定位到相同时间轴对应的视频片段，并将其作为目标视频。具体地，目标视频在待测视频中的时间序列与音频信号在待测视频中的时间序列相同。时间序列为音频信号或目标视频所对应的片段处于待测视频的播放时间轴的时间段。例如，音频信号所对应在待测视频的播放时间轴的时间段为从第100秒到第200秒，则其时间序列为第100秒至第200秒，而对应的相同时间序列的目标视频所对应的时间序列也同样为待测视频中的第100秒至200秒。
[0065]
在确定目标视频，并获取到目标视频后，可以对目标视频以nfps进行抽帧，得到图片序列。经过视觉深度网络得到初次获取的视觉深度特征。其中，获取目标视频的方式可以使用视频编辑工具进行获取，具体获取方式在此不做限制。并且为了更进一步地保障获取的视觉深度特征的准确性，可以通过音频深度特征来计算视觉attention(注意力机制)的权重向量，再将权重向量和初次获取的视觉深度特征的向量进行相乘，得到基于音频注意力机制的视觉深度信息，即目标视频的视觉深度特征。
[0066]
步骤s30，根据所述音频深度特征和所述视觉深度特征构建融合特征矩阵；
[0067]
步骤s40，若根据所述融合特征矩阵确定所述待测视频为存在涉黄的视频，则确定所述待测视频中的目标涉黄视频内容。
[0068]
当确定音频深度特征和视觉深度特征后，就可以将音频深度特征和基于注意力机制的视觉深度特征进行融合，以构建融合特征矩阵。如图4所示，和分别是音频深度特征fa和视觉深度特征afv经过lstm(长短期记忆网络)的输出结果。也就是和分别是音频深度特征fa和视觉深度特征afv经过长短期记忆网络的声音特征和视觉特征。特征融合网络类似残差结构，视觉特征和声音特征分别分为两路，一路经过分别经过线性linear层双曲正切tanh层线性linear层提取特征，随后与另一模态相加形成初步模态融合互补双模态特征，另一路保留自身模态的特征，与初步融合特征相加再经过激活层tanh，这样融合后和的特征既包含模态间的互补特征，又保留了自身模态特有的特征。最后将特征和拼接或者相加，得到最终的双模态融合特征矩阵h。并将双模态融合特征矩阵h作为融合特征矩阵。
[0069]
然后再采用多任务学习的方式，即融合特征矩阵分别经过视频分类任务和时间一致性任务，得到分类和时间一致性结果。其中，待测视频是否涉黄以分类结果为准，若待测视频不涉黄，则不考虑时间一致性的结果。若待测视频涉黄，则查看时间一致性结果，得到
待测视频的细粒度涉黄时间范围，并将该涉黄时间范围内的视频内容作为目标涉黄视频内容，并进行删除。
[0070]
而且在确定待测视频为涉黄时，可以根据视频剧情的连续性，分别对待测视频前后相邻的视频进行相同的检测，以确定前后相邻的视频是否存在涉黄，若存在涉黄，则同样将前后相邻的视频中的涉黄内容进行删除。
[0071]
此外，为辅助理解本实施例中基于视觉和声音双模态的涉黄视频检测和拦截方式的理解，下面进行举例说明。
[0072]
例如，如图5所示，若存在视频需要进行涉黄检测，则可以将视频作为待测视频，并获取视频的音频信息，如音频信号，根据音频信息确定音频信号所在的音频片段，根据音频网络提取音频片段中的音频深度特征，并根据音频深度特征进行音频分类，若音频信号不涉黄，则继续获取新的音频片段，新的音频信号，并继续执行音频分类判断的步骤。若音频信号涉黄，则根据音频深度特征和视觉深度特征构建多模态融合网络，即融合特征矩阵。其中，在视频中根据音频信号定位到相同时间轴对应的视频片段，并进行抽帧，得到图片序列。经过视觉深度网络得到初次获取的视觉深度特征，再根据音频深度特征来计算视觉attention(注意力机制)的权重向量，再将权重向量和初次获取的视觉深度特征的向量进行相乘，得到基于音频注意力机制的视觉深度信息，即最终的视觉深度特征。然后再根据最终的视觉深度特征和音频深度特征构建多模态融合网络，并进行时间一致性和视频分类任务的进行，以确定视频是否涉黄，若涉黄，则确定视频中具体时间段的涉黄内容，并进行删除。具体地，如图6所示，通过音频深度特征fa进行attention计算，得到权重，将权重和初次获取的视觉深度特征fv(即初始视觉深度特征)进行向量相乘计算，得到视觉深度特征afv，对音频深度特征fa和视觉深度特征afv同时进行lstm模型训练，以完成特征融合，根据特征融合的结果来确定待测视频是否为涉黄视频。
[0073]
在本实施例中，通过在待测视频的音频信号为涉黄音频信号时，才确定待测视频中与音频信号对应的目标视频中的视觉深度特征，从而避免了直接进行视频抽帧造成的计算资源浪费，提高了检测涉黄视频的效率。并且根据音频信号的音频深度特征和视觉深度特征构建融合特征矩阵，并根据融合特征矩阵确定待测视频为存在涉黄的视频时，确定具体的目标涉黄视频内容，从而可以结合视觉和音频对视频涉黄进行检测定性，避免了将视觉上裸露面积过大，或婴儿啼哭这种声音上相似的情况误判的现象发生，提高了检测涉黄视频的精准度，也提高了检测涉黄视频的效率。
[0074]
进一步地，基于上述本发明的第一实施例，提出本发明视频检测方法的第二实施例，在本实施例中，上述实施例步骤s20，若根据所述融合特征矩阵确定所述待测视频为存在涉黄的视频，则确定所述待测视频中的目标涉黄视频片段的步骤的细化，包括：
[0075]
步骤a，根据所述融合特征矩阵确定所述目标视频中是否存在涉黄特征；
[0076]
在本实施例中，当确定融合特征矩阵后，可以并行进行时间一致性任务和视频分类任务，也可以先进行视频分类任务，再进行时间一致性任务。而且在进行视频分类任务时，确定融合特征矩阵中最终融合后的特征，将最终融合后的特征输入至视频分类模块，其中，视频分类模块对一段视频进行整体分类。由于获取的音频信号可以是待测视频中的一部分音频信号，因此可以直接根据视频分类模块确定目标视频是否涉黄。即通过视频分类模块对目标视频进行分类，并进行标注，若标注为0，则确定目标视频不涉黄，不存在涉黄特
征。若标注为1，则确定目标视频涉黄，存在涉黄特征(如带有敏感信息的图片、文字和声音等)。其中，视频分类模块可以通过分类损失函数loss_c来对目标视频进行分类判断。其中，loss_c＝-(yclog(xc) (1-yc)log(1-xc))。
[0077]
并且在视频分类模块中，对于一个batch(批次)的输入，分类标签yc∈[batch,2]。而融合特征矩阵对应的特征矩阵xc∈[batch，2]。
[0078]
步骤b，若所述目标视频中存在涉黄特征，则确定所述待测视频为存在涉黄的视频，并将所述目标视频划分为多个时长等同的待测视频片段，并根据各所述待测视频片段确定所述待测视频中的目标涉黄视频内容。
[0079]
当确定目标视频中存在涉黄特征时，可以确定目标视频整体存在涉黄，即确定待测视频为存在涉黄的视频，但无法确定目标视频中局部时间区间是否涉黄，因此，可以进行时间一致性任务，即可以先确定目标视频的总时长t，根据总时长将目标视频划分为多个时长等同的视频片段序列，并将每个视频片段序列对应的视频片段作为待测视频片段。例如将目标视频划分为n个等时长为t的视频片段序列v＝[v0,v1,...vn]。然后再确定各个待测视频片段中存在涉黄的视频片段，并将存在涉黄的视频片段中的内容作为目标涉黄视频内容。
[0080]
在本实施例中，通过根据融合特征矩阵确定目标视频中存在涉黄特征时，确定待测视频为存在涉黄的视频，从而实现音频和视觉的双重确定，提高了检测待测视频为存在涉黄的视频的准确性，并且会将目标视频划分为多个时长等同的待测视频片段，再从中确定目标涉黄视频内容，从而保障了确定目标涉黄视频内容的精确度。
[0081]
具体地，根据各所述待测视频片段确定所述待测视频中的目标涉黄视频内容的步骤，包括：
[0082]
步骤c，遍历各所述待测视频片段，基于所述融合特征矩阵确定遍历的所述待测视频片段中是否存在所述涉黄特征；
[0083]
步骤d，若遍历的所述待测视频片段中存在所述涉黄特征，则确定遍历的所述待测视频片段对应的时间段，并将所述待测视频中和所述时间段匹配的视频内容作为目标涉黄视频内容。
[0084]
在本实施例中，可以遍历每个待测视频片段，再根据融合特征矩阵依次判断遍历的每个待测视频片段中是否存在涉黄特征。若在遍历的待测视频片段中存在涉黄特征，则确定此时遍历的待测视频片段为存在涉黄的视频片段。其中，在视觉和声音均为涉黄时，将其标注为涉黄。也就是遍历的待测视频片段对应的音频和视觉均涉黄，此时就可以将其作为涉黄的视频片段，并确定该涉黄的视频片段对应的时间段，直接将待测视频中和时间段匹配的视频内容作为目标涉黄视频。其中，在对遍历的待测视频片段进行检测是否存在涉黄时，可以通过时间一致性损失函数loss_t进行计算确定。其中，loss_t＝-(y
t
log(x
t
) (1-y
t
)log(1-x
t
))。
[0085]
其中，对于一个batch的输入，其时间一致性标签为y
t
∈[batch,n,2]。相比于整体分类，时间一致性分支包含视频更多地局部信息，其输出特征矩阵x
t
∈[batch,n,2]。n为第几个待测视频片段。
[0086]
在本实施例中，通过遍历各个待测视频片段，并在确定遍历的待测视频片段中存在涉黄特征时，将待测视频中与遍历的待测视频片段的时间段匹配的视频内容作为目标涉
黄视频内容，从而保障了确定目标涉黄视频内容的准确性。
[0087]
进一步地，将所述待测视频中和所述时间段匹配的视频内容作为目标涉黄视频内容的步骤之后，还包括：
[0088]
步骤e，确定所述待测视频中与所述目标视频相邻的相邻视频，确定所述相邻视频中是否存在具有所述涉黄特征的视频片段；
[0089]
在本实施例中，由于待测视频可能并不仅仅包含目标视频。因此还需要对待测视频中除目标视频之外的其它视频进行检测，因此可以确定待测视频中与目标视频相邻的相邻视频。其中，相邻视频的时长可以根据待测视频的总时长和目标视频的时长来确定。相邻视频的数量也可以根据目标视频在待测视频中的时间节点位置来确定。
[0090]
并且需要采用同样的方式检测相邻视频中是否存在具有涉黄特征的视频片段。即同样需要音频和视觉的涉黄检测，以确定相邻视频中是否存在具有涉黄特征视频的视频片段。
[0091]
步骤f，若所述相邻视频中存在具有所述涉黄特征的视频片段，则将所述待测视频中和所述具有所述涉黄特征的视频片段对应的视频内容作为目标涉黄视频内容。
[0092]
当经过判断发现相邻视频中不存在具有涉黄特征的视频片段，且待测视频已全部检测完成，则可以直接将目标视频中检测出的涉黄视频内容作为待测视频的目标涉黄视频内容。但是若相邻视频中存在具有涉黄特征的视频片段，则可以将相邻视频中和目标视频中所有存在具有涉黄特征的视频片段作为最终涉黄视频片段，并将待测视频中和最终涉黄视频片段对应的视频内容(即和最终涉黄视频片段处于同一时间序列的视频内容)作为目标涉黄视频内容。
[0093]
在本实施例中，通过对与目标视频相邻的相邻视频进行检测，并在确定相邻视频中存在具有涉黄特征的视频片段时，将其对应的视频内容作为目标涉黄视频内容，从而保障了确定目标涉黄视频内容的准确性。
[0094]
进一步地，根据所述音频深度特征和所述视觉深度特征构建融合特征矩阵的步骤，包括：
[0095]
步骤g，对所述音频深度特征进行长短期记忆网络训练，得到音频训练特征；
[0096]
步骤h，对所述视觉深度特征进行所述长短期记忆网络训练，得到视觉训练特征；
[0097]
步骤i，对所述音频训练特征和所述视觉训练特征进行特征提取融合，得到初步融合特征；
[0098]
步骤j，根据所述初步融合特征和所述音频训练特征构建音频融合特征，并根据所述初步融合特征和所述视觉训练特征构建视觉融合特征；
[0099]
步骤k，根据所述音频融合特征和所述视觉训练特征构建融合特征矩阵。
[0100]
在本实施例中，在构建融合特征矩阵时，需要先将音频深度特征和视觉深度特征进行转换，即通过长短期记忆网络训练，以得到音频深度特征对应的声音特征，即音频训练特征视觉深度特征对应的视觉特征，即视觉训练特征
[0101]
然后将音频训练特征经过线性层、双曲正切层和线性层进行特征提取，同时将视觉训练特征经过线性层、双曲正切层和线性层进行特征提取，并将两次进行特征提取的特征进行融合，得到初步融合特征。然后将初步融合特征和音频训练特征进行融合相加，并经
过激活层tanh，得到音频融合特征同时将初步融合特征和视觉训练特征进行融合相加，并经过激活层tanh，得到视觉融合特征将音频融合特征和视觉融合特征进行拼接或相加，得到融合特征矩阵。
[0102]
在本实施例中，通过将音频深度特征对应的音频训练特征和视觉深度特征对应的视觉训练特征进行特征提取融合，得到初步融合特征，再基于初步融合特征构建音频融合特征和视觉融合特征，并基于此构建融合特征矩阵，从而保障了融合特征矩阵的准确有效性。
[0103]
进一步地，确定所述目标视频的视觉深度特征的步骤，包括：
[0104]
步骤x，根据所述音频深度特征计算所述目标视频的视觉注意力权重，并提取所述目标视频的初始视觉深度特征；
[0105]
步骤y，根据所述视觉注意力权重和所述初始视觉深度特征计算视觉深度特征。
[0106]
在本实施例中，通过对目标视频进行抽帧，得到图片序列，并经过视觉深度网络得到初次获取的视觉深度特征，并将其作为初始视觉深度特征。此外为了保障最终的视觉深度特征的准确性，可以根据音频深度特征技术目标视频的视觉注意力权重，根据视觉注意力权重和初始视觉深度特征来计算基于注意力机制的视觉深度特征。而且注意力机制本质上是一组权重。对于t时刻的视觉特征v
t
(即初始视觉深度特征)和音频特征a
t
(即音频深度特征)，首先分别经过非线性函数(一般使用relu函数)uv和ua(v代表visual(视觉)，a代表audio(音频))，得到的结果随后分别乘以映射矩阵wv和wa，其中l
t
是全1向量保证相乘后的维度相同，σ是双曲正切函数，
[0107][0108][0109][0110]
其中，afv为基于注意力机制的视觉深度特征。
[0111]
在本实施例中，通过根据音频深度特征计算视觉注意力权重，根据视觉注意力权重和初始视觉深度特征计算视觉深度特征，从而保障了确定视觉深度特征的准确有效性。
[0112]
进一步地，确定所述音频信号的音频深度特征的步骤，包括：
[0113]
步骤z，将所述音频信号转换为音频谱图，并确定所述音频谱图的深度信息，根据所述深度信息提取所述音频谱图中的音频深度特征。
[0114]
在本实施例中，可以将获取的音频信号转换为对应的mfcc(mel-frequency cepstral coefficients，梅尔频率倒谱系数)谱图，即音频谱图。具体方式可以是将音频信号进行预加重后分帧加窗，对加窗后的信号进行傅里叶变换得到对数谱，将对数谱通过梅尔滤波得到梅尔频谱，将滤波器组的输出取绝对值或平方对数得到其能量，并进行离散余弦变换得到mfcc谱图。
[0115]
使用vggish网络直接根据音频谱图深度信息在音频谱图中提取128维深度的音频特征向量，并将其作为音频深度特征。
[0116]
在本实施例中，通过将音频信号转换为音频谱图，并根据音频谱图的深度信息提取音频谱图中的音频深度特征，从而保障了获取到的音频深度特征的准确有效性。
[0117]
此外，参照图3，本发明实施例还提供一种视频检测装置，包括：
[0118]
获取单元a10，用于获取待测视频的音频信号，确定所述音频信号的音频深度特征，检测所述音频信号是否为涉黄音频信号；
[0119]
确定单元a20，用于若是，则确定所述待测视频中与所述音频信号对应的目标视频，并确定所述目标视频的视觉深度特征；
[0120]
构建单元a30，用于根据所述音频深度特征和所述视觉深度特征构建融合特征矩阵；
[0121]
检测单元a40，用于若根据所述融合特征矩阵确定所述待测视频为存在涉黄的视频，则确定所述待测视频中的目标涉黄视频内容。
[0122]
可选地，检测单元a40，用于：
[0123]
根据所述融合特征矩阵确定所述目标视频中是否存在涉黄特征；
[0124]
若所述目标视频中存在涉黄特征，则确定所述待测视频为存在涉黄的视频，并将所述目标视频划分为多个时长等同的待测视频片段，并根据各所述待测视频片段确定所述待测视频中的目标涉黄视频内容。
[0125]
可选地，检测单元a40，用于：
[0126]
遍历各所述待测视频片段，基于所述融合特征矩阵确定遍历的所述待测视频片段中是否存在所述涉黄特征；
[0127]
若遍历的所述待测视频片段中存在所述涉黄特征，则确定遍历的所述待测视频片段对应的时间段，并将所述待测视频中和所述时间段匹配的视频内容作为目标涉黄视频内容。
[0128]
可选地，检测单元a40，用于：
[0129]
确定所述待测视频中与所述目标视频相邻的相邻视频，确定所述相邻视频中是否存在具有所述涉黄特征的视频片段；
[0130]
若所述相邻视频中存在具有所述涉黄特征的视频片段，则将所述待测视频中和所述具有所述涉黄特征的视频片段对应的视频内容作为目标涉黄视频内容。
[0131]
可选地，构建单元a30，用于：
[0132]
对所述音频深度特征进行长短期记忆网络训练，得到音频训练特征；
[0133]
对所述视觉深度特征进行所述长短期记忆网络训练，得到视觉训练特征；
[0134]
对所述音频训练特征和所述视觉训练特征进行特征提取融合，得到初步融合特征；
[0135]
根据所述初步融合特征和所述音频训练特征构建音频融合特征，并根据所述初步融合特征和所述视觉训练特征构建视觉融合特征；
[0136]
根据所述音频融合特征和所述视觉训练特征构建融合特征矩阵。
[0137]
可选，确定单元a20，用于：
[0138]
根据所述音频深度特征计算所述目标视频的视觉注意力权重，并提取所述目标视
频的初始视觉深度特征；
[0139]
根据所述视觉注意力权重和所述初始视觉深度特征计算视觉深度特征。
[0140]
可选地，获取单元a10，用于：
[0141]
将所述音频信号转换为音频谱图，并确定所述音频谱图的深度信息，根据所述深度信息提取所述音频谱图中的音频深度特征。
[0142]
其中，视频检测装置的各个功能单元实现的步骤可参照本发明视频检测方法的各个实施例，此处不再赘述。
[0143]
此外，本发明还提供一种视频检测设备，所述视频检测设备包括：存储器、处理器及存储在所述存储器上的视频检测程序；所述处理器用于执行所述视频检测程序，以实现上述视频检测方法各实施例的步骤。
[0144]
本发明还提供了一种计算机可读存储介质，所述计算机可读存储介质存储有一个或者一个以上程序，所述一个或者一个以上程序还可被一个或者一个以上的处理器执行以用于实现上述视频检测方法各实施例的步骤。
[0145]
本发明计算机可读存储介质具体实施方式与上述视频检测方法各实施例基本相同，在此不再赘述。
[0146]
需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下，由语句“包括一个
……”
限定的要素，并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。
[0147]
上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。
[0148]
通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在如上所述的一个存储介质(如rom/ram、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本发明各个实施例所述的方法。
[0149]
以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：一种人脸识别的混合扰动差分隐私保护方法

视频检测方法、装置、设备及计算机可读存储介质与流程

相关文献

最热文献