一种基于文本与视频融合的违规视频检测方法

2023-03-28 19:36:30 来源：中国专利 TAG：

1.本发明涉及图像和文本检测，尤其涉及一种基于文本与视频融合的违规视频检测方法。

背景技术：

2.近些年，观看网络直播成为互联网用户的娱乐休闲方式之一。在网络直播平台中，主播们为了吸引观众便有不同类型的直播出现，渐渐出现了违反法律法规、道德风尚等敏感画面和弹幕文字的直播。该类直播的核心手段是通过直播平台的实时视频流承载该类违规内容。根据过往及现状网络直播平台的具体情况来看，在直播过程中出现该类违规内容时，直播间人气和热度会上升，直播弹幕数量增多，并夹杂着违规内容的弹幕评论。因此在对网络直播视频内容进行审核时，可以融合直播视频内容和相对应的直播主题文本数据进行多模态违规检测。
3.目前，对于互联网直播违规行为的检测一般采用人工的方式进行筛选，或者采用简单的图像识别方法在整体上进行图像的识别，这种方法在实际应用中存在以下问题：
4.1、人工审查工作量巨大，难以保证对每个视频进行有效审查；
5.2、通过人工审查，主观性强，对质量难以保证；
6.3、现有的图像识别和分类方法只考虑视频帧中图像肤色占比等相关参数，忽略了视频的高层语义特征，而且没有利用到直播中出现敏感画面时对应主题文本的信息。

技术实现要素：

7.本发明的目的在于针对现有技术存在的成本高、时效性和准确性差等缺点，提供一种文本与视频融合的违规视频检测算法，将抽取到的视频和文本深层语义关系送入融合层进行信息融合，从而将文本信息和视频信息结合起来，通过模态互补可以更好进行违规视频识别。对基于文本与视频融合的方法对于互联网直播违规行为进行研究，具有重要的研究价值和研究意义，具有节约人力成本，稳定性高，操作简单、实时性好的优点。
8.为实现上述目的，本发明设计了一种文本与视频融合的违规视频检测算法，能够准确地对网络违规直播视频中的该类内容的模拟性动作、行为以及包含该类动作的舞蹈表演进行识别。
9.本发明为实现上述目的所采用的技术方案是：一种基于文本与视频融合的违规视频检测方法，包括以下步骤：
10.数据采集和预处理步骤：爬取网络直播中的视频流数据，去噪预处理获取单帧画面以及画面上出现的文本数据；所述视频流数据包含图像画面数据和文本数据；
11.建立数据集步骤：将单帧画面和文本数据分类标记为违规行为动作或文本以及非违规行为动作或文本，制作带有标签的单帧画面和文本数据的图文对样本集；
12.建立违规行为检测的网络模型步骤：建立包括浅层特征提取模块、深层特征提取模块、特征融合模块、全连接模块及分类器模块依次连接的网络模型结构；分批次地用图文
对样本集数据反复训练该网络，对模型进行迭代调优及设置违规行为判别概率阈值，直到获取优化后网络模型；所述该模型用于判别连续多帧动态图文画面是否包含违规行为动作或文本信息；
13.实时视频检测步骤：实时采集视频流并预处理后，输入优化后网络模型，获取违规判别结果。
14.所述图像样本数据集、文本样本数据集分为：训练集、验证集和测试集；
15.所述去噪预处理为抽帧处理和文本清洗包括：
16.对所述文本数据去除噪声；
17.对所述视频数据连续帧切帧操作，每隔10s作为连续帧进行提取并存储。
18.所述浅层特征提取模块包括：用于提取当前句子语义浅层文本特征的bert模型和用于提取浅层视频帧画面语义特征的restnet模型；
19.所述深层特征提取模块包括：用于对浅层视频特征和浅层文本特征继续学习的textcnn模型和lstm模型，获取连续视频帧及文本内容各自的前后文关联信息的深层文本语义特征和深层视频帧语义特征；
20.所述特征融合模块为：将获取的深层视频帧特征和文本特征进行融合的self-attention自注意力模块；
21.所述全连接模块，用于拼接输出特征；
22.所述分类器模块采用sigmoid分类器函数，对当前该批次输入的多帧图文对数据进行判别概率打分，输出是否违规的分类结果。
23.所述提取浅层视频帧画面特征的restnet模型包括：使用嵌入se模块后的resnet152网络进行浅层视频帧特征抽取；所述嵌入的se模块用于将特征重调，利用提取全局信息对抽取到的特征重要性进行衡量，计算得到各个通道的相关性。
24.所述提取浅层文本特征的bert模型包括：
25.bert由多层transformer的encoder层堆叠而成，用于对bert的输入进行处理；每一层的encoder由一层multi-head attention和一层前馈神经网络组成，模型共12层，每层12个attention；
26.所述bert的输入为从输入的文本信息提取词编码、位置编码和片段编码，再求和。
27.所述lstm模型用于将浅层视频特征采用双向lstm进行抽取，抽取到连续视频帧的前后文关联信息，得到更深层次语义特征。
28.所述textcnn分为编码层、卷积层、最大池化层和全连接层，用于学习文本前后文关系，得到更深层次提取文本特征。
29.对深层视频特征和深层文本特征进行学习，得出深层融合特征，具体包括：
30.前期融合中采用基于self-attention对输入的特征图进行自主学习，分配权重，获取特征图中的重要信息点位，用于减小对外部信息的依赖，实现深层视频特征和深层文本特征的对齐和融合；
31.通过全连接层，后接sigmoid进行分类，判定当前给定的包含文本信息的视频画面是否为违规。
32.一种基于文本和视频融合的多模态违规视频检测系统，所述系统包括：
33.数据采集和预处理程序模块：爬取网络直播中的视频流数据，去噪预处理获取单
帧画面以及画面上出现的文本数据；所述视频流数据包含图像画面数据和文本数据；
34.建立数据集程序模块：将单帧画面和文本数据分类标记为违规行为动作或文本以及非违规行为动作或文本，制作带有标签的单帧画面和文本数据的图文对样本集；
35.建立违规行为检测的网络模型程序模块：建立包括浅层特征提取模块、深层特征提取模块、特征融合模块、全连接模块及分类器模块依次连接的网络模型结构；分批次地用图文对样本集数据反复训练该网络，对模型进行迭代调优及设置违规行为判别概率阈值，直到获取优化后网络模型；所述该模型用于判别连续多帧动态图文画面是否包含违规行为动作或文本信息；
36.实时视频检测程序模块：实时采集视频流并预处理后，输入优化后网络模型，获取违规判别结果。
37.一种基于文本和视频融合的多模态违规视频检测设备，包括：在服务器端的处理器和计算机可读存储介质；所述处理器用于实现各指令，所述计算机可读存储介质用于存储多条指令，所述指令适于由处理器加载并执行如上所述的基于文本和视频融合的多模态违规视频检测方法。
38.本发明具有以下有益效果及优点：
39.1.本发明采用基于文本与视频融合的违规视频检测算法，并通过爬虫进行直播视频数据以及直播中的直播主题等文本数据采集，在此基础上进行训练，有效地提高了对直播中违规检测的准确率。
40.2.本发明采用bert textcnn的方式提取文本特征。经过bert模型抽取当前直播的相关信息，但直播中可能有更隐晦的含义未被抽取到，这里，在后面接textcnn模型进行更深层含义特征的抽取，使得抽取内容更加靠近互联网直播主题所表达的含义内容。
41.3.本发明使用的resnet网络为嵌入se模块后的resnet152网络，通过嵌入se模块，可以将特征重调，利用提取全局信息对抽取到的特征重要性进行衡量，使其计算得到各个通道的相关性，从而帮助特征的提取与视频帧前后文内容的理解。
42.4.本发明使用lstm模型进行视频特征的深层语义特征提取，因为se-resnet提取图像特征后，视频帧中可能包含有连续的语义信息未被学习到，所以，这里在后面接lstm模型进行视频特征的深层语义特征提取。
43.5.本算法识别准确率较高，在当今直播盛行的年代，适合大面积推广应用。
附图说明
44.图1为本发明中一种文本与视频融合的违规视频检测算法的模型结构图；
45.图2为本发明中所提供的的一种文本与视频融合的违规视频检测算法的流程示意图。
具体实施方式
46.为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图对本发明的具体实施方法做详细的说明。在下面的描述中阐述了很多具体细节以便于充分理解本发明。但本发明能够以很多不同于在此描述的其他方式来实施，本领域技术人员可以在不违背发明内涵的情况下做类似改进，因此本发明不受下面公开的具体实施的限制。
47.除非另有定义，本文所使用的所有技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中在发明的说明书中所使用的术语只是为了描述具体的实施例的目的，不是旨在于限制本发明。
48.本发明所述的违规视频为：含有违反法律法规、道德风尚等敏感画面和弹幕文字，或为该类内容的模拟性动作、行为以及包含该类动作的舞蹈表演。针对直播违规内容，结合直播主题和视频语义进行违规检测。
49.所述的违规视频检测系统内安装有：数据采集与存储模块，进行直播视频和对应主题文本的样本准备。所述的违规视频检测系统内安装有：数据预处理模块，对视频进行抽帧处理以及文本的清洗。所述的违规视频检测系统内安装有：文本特征和视频帧特征抽取模块，对直播视频内容和对应的直播主题文本语义进行抽取。所述的违规视频检测系统内安装有：深层特征抽取模块，对视频和文本语义信息进行深层关联抽取。所述的违规视频检测系统内安装有：特征融合模块，用来融合视频和文本语义信息。所述的违规视频检测系统内安装的检测模型是融合文本与视频多模态信息的违规视频检测模型。
50.所述基于文本视频多模态违规视频检测模型采用textcnn，双向lstm和大规模图像以及文本数据集预训练模型。
51.所述的违规视频检测系统内安装的模型权重参数是利用互联网直播平台正规和异常视频流数据对检测模型进行训练获得的。
52.所述违规视频检测系统内使用的视频采集程序是对互联网平台公开分享的视频流数据进行搜集。所述违规视频检测系统内使用的视频解析程序，能够对视频流逐帧处理成图像数据，并且利用稀疏采样方式压缩解析量。所述违规视频检测系统内使用的视频异常行为检测程序，将视频解析程序处理得到的关键视频帧图像和对应的直播文本主题作为输入，使用深度学习神经网络模型进行识别检测，最终的输出是输入视频是否异常。
53.一种文本与视频融合的违规视频检测算法附图说明。
54.下面结合图1，对本发明所述文本与视频融合的违规视频的检测模型进行详细描述。
55.本发明采用bert textcnn的方式提取文本特征，采用resnet152 双向lstm提取视频帧特征，通过前期融合的方式对深层特征语义进行融合，前期融合中采用self-attenetion的方式对视频帧特征和文本特征进行融合，因为self-attention对输入的特征图进行自主学习，分配权重，从而能够获取特征图中的重要信息点位，减小了对外部信息的依赖，能够通过此方式实现特征的对齐和融合，使网络更注重于捕捉信息内部的相关性，最终模型融合后，经过全连接层进行分类，对违规文本、视频进行有效分类。
56.在输入的文字和视频经过预处理后，文字中对于一些杂乱的符号、生僻字等去除后，可视为较纯净文本进入文本特征抽取器进行文本特征抽取。在输入的视频特征进行数据预处理后，在视频中每隔10s抽取连续帧作为本视频内容的表达，处理后的数据存储到对应的文件中供视频特征抽取器读取。在文本特征提取方面，采用bert进行直播主题等信息的特征抽取，因为主题中包含有直播主要内容，认为其余直播视频内容相关性较高，所以选择了直播主题作为文本信息的输入。输入后，经过bert模型抽取当前直播的相关信息，但直播中可能有更隐晦的含义未被抽取到，这里，在后面接textcnn模型进行更深层含义特征的抽取，使得抽取内容更加靠近互联网直播主题所表达的含义内容。bert是由多层
transformer的encoder层堆叠而成的，每一层的encoder则是由一层multi-head attention和一层前馈神经网络组成，模型共12层，每层12个attention。bert的输入分别是由三个不同的embedding求和而成的，分别是词编码、位置编码和片段编码。textcnn共四层，分别是编码层、卷积层、最大池化层和全连接层，可以更好的学习文本前后文关系，从更深层次提取文本特征。在视频特征提取方面，这里得到视频特征预处理后的视频帧，使用rennet152网络作为视频帧的特征提取网络。本发明使用的resnet网络为嵌入se模块后的resnet152网络，通过嵌入se模块，可以将特征重调，利用提取全局信息对抽取到的特征重要性进行衡量，使其计算得到各个通道的相关性，从而帮助特征的提取与视频帧前后文内容的理解，经过se-resnet提取图像特征后，因为视频帧中可能包含有连续的语义信息未被学习到，所以，这里在后面接lstm模型进行视频特征的深层语义特征提取。文本深层语义特征和图像深层语义特征抽取完成后，这里将两者特征采用前期融合的策略进行融合，前期融合中采用self-attenetion的方式对视频帧特征和文本特征进行融合。融合后，通过全连接层，后接sigmoid进行分类，判定给定的文本信息和相应的视频是否为违规视频。
57.下面结合图2，对本发明所述文本与视频融合的违规视频的检测流程进行详细描述。
58.1.数据采集与存储模块：通过爬虫方式爬取网络直播中的违规视频和非违规视频，分别进行数据的标注用作训练集、验证集和测试集，对数据进行存储。标注完成后进行人工审核检查标注是否合理有效。
59.2.数据预处理模块：对于输入的视频和文本数据，因为都包含有大量的噪声，以及视频中是连续片段，这里需要对文本数据去除噪声，对视频数据进行连续帧切帧操作，最终获得模型需要的数据样例。
60.3.文本特征和视频帧特征抽取模块：这里文本采用bert进行特征抽取，视频帧采用re-resnet进行特征抽取，抽取到文本的当前句子语义特征和视频帧当前帧的语义特征。
61.4.深层特征抽取模块：这里文本采用textcnn，视频帧采用双向lstm进行抽取，抽取到连续视频帧及文本内容各自的前后文关联信息，从而获取更深层次语义特征。
62.5.特征融合模块：对于抽取的文本和图像深层特征，通过特征融合模块进行特征融合，采用前期融合的方式，前期融合中采用self-attenetion的方式对视频帧特征和文本特征进行融合。
63.6.分类模块：融合后的特征最终输入全连接层，经过sigmoid进行分类，判断所给视频和文本是否违规。
64.本发明的一种基于文本和视频融合的多模态违规视频检测设备，包括：在服务器端的处理器和计算机可读存储介质；所述处理器用于实现各指令，所述计算机可读存储介质用于存储多条指令，所述指令适于由处理器加载并执行所述的基于文本和视频融合的多模态违规视频检测方法。
65.本发明中所述的计算机可读存储介质中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本
发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：u盘、移动硬盘、只读存储器(rom，readonly memory)、随机存取存储器(ram，random access memory)、磁碟或者光盘等各种可以存储程序代码的介质。
66.以上说明所描述的实施例将有助于本领域的技术人员进一步理解本发明，但不以任何形式限制本发明。应当指出的是，对本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变换和改进。这些都属于本发明的保护范围。

再多了解一些

1/2 1 2 下一页尾页

本文用于创业者技术爱好者查询，仅供学习研究，如用于商业用途，请联系技术所有人。

上一篇：返回列表
下一篇：一种基于键值对缓存技术的电力监控系统数据调阅方法与流程

一种基于文本与视频融合的违规视频检测方法

相关文献

最热文献