一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种用于堡垒机录屏审计的视频分类方法和系统与流程

2022-07-10 03:46:33 来源:中国专利 TAG:


1.本发明工控安全领域,更具体地,涉及一种用于堡垒机录屏审计的视频分类方法和系统。


背景技术:

2.堡垒机,也叫运维安全审计系统,是在一个特定的网络环境下,为了保障网络和数据不受来自外部和内部用户的入侵和破坏,而运用各种技术手段监控和记录运维人员对网络内的服务器、网络设备、安全设备、数据库等设备的操作行为,以便集中报警、及时处理及审计定责的系统。堡垒机综合了核心系统运维和安全审计管控两大主干功能,通过切断终端计算机对网络和服务器资源的直接访问,而采用协议代理的方式,接管了终端计算机对网络和服务器的访问。通过这些措施,运维安全审计系统能够拦截非法访问和恶意攻击,对不合法命令进行命令阻断,过滤掉所有对目标设备的非法访问行为,并对内部人员误操作和非法操作进行审计监控,以便事后责任追踪。
3.当前成熟的堡垒机在字符型会话审计中,已能达到快速为管理员提供有效信息的程度,但在图形审计上,只能借助视频回放进行信息溯源;现有的视频回放审计方法主要依靠管理人员依据录屏时间对录屏进行检索,并对检索到的视频逐一观看,确定事故发生时的录像。
4.然而,上述视频回放审计方法存在一定的缺陷:它会产生大量的人力物力消耗,并且对返回的审计信息也无法有效识别和审计,无法满足轻量级、自动化与实时性需求。


技术实现要素:

5.针对现有技术的以上缺陷或改进需求,本发明提供了一种用于堡垒机录屏审计的视频分类方法和系统,其目的在于,解决现有审计方法产生大量的人力物力消耗,对返回的审计信息也无法有效识别和审计,因此无法满足轻量级、自动化与实时性需求的技术问题。
6.为实现上述目的,按照本发明的一个方面,提供了一种用于堡垒机录屏审计的视频分类方法,包括以下步骤:
7.(1)客户端使用屏幕抓取工具对其屏幕进行实时录制,对录制的视频进行处理,将处理得到的视频进行编码压缩以得到视频流,并将该视频流发送到服务端。
8.(2)服务端依次将来自客户端的视频流解码得到视频,并将解码后的视频输入训练好的时间片段网络tsn中,以得到该视频对应的特征向量;
9.(3)服务端依次将步骤(2)得到的视频流中所有视频对应的所有特征向量输入训练好的长短时记忆网络lstm中,以得到视频分类结果;
10.优选地,步骤(1)中对录制的视频进行处理,包括对该视频进行打水印和/或加时间戳处理;
11.对视频进行编码压缩采用的是h264编码方式。
12.本步骤中将视频流发送到服务端是采用实时消息协议rtmp。
13.优选地,tsn网络是通过以下步骤训练得到的:
14.(2-1)获取用于运维安全审计系统的录屏数据集,将该录屏数据集按照8:2的比例划分为训练集和测试集,并为训练集中的每个样本添加对应的真实分类标签;
15.(2-2)对tsn网络的参数进行初始化,权重参数的初始值是使用标准差为0.1的截断式正态分布输出的随机值,偏置参数的初始值设为0,初始学习率lr=0.01,采用阶梯性的学习策略,权重gamma=0.1,采样的帧数是300帧,特征维度是2048个;采用的聚合函数是top-k池化(pooling),其中k的取值是5;
16.(2-3)将步骤(2-1)获取的训练集输入到步骤(2-2)初始化后的tsn网络中,以通过稀疏采样获取训练集中每个样本对应的rgb视频序列和光流场图像特征,将每个样本对应的rgb视频序列和光流场图像特征进行合并,以得到该样本对应的特征向量,并获取tsn网络的评估精度;
17.(2-4)重复迭代执行上述步骤(2-3),直到评估精度达到最佳为止,从而得到初步训练好的tsn网络。
18.(2-5)利用步骤(2-1)得到的测试集对步骤(2-4)初步训练好的tsn网络进行测试,以得到最终训练好的tsn网络。
19.优选地,样本的分类标签共有七种,包括用户管理、资产管理、工单管理、运维管理、协议管理、端口管理、指令管理。
20.优选地,步骤(2-3)中评估精度的表达式为:
[0021][0022]
其中xi表示训练集中的第i个样本,其中i∈[1,n],n表示训练集中的样本总数,yi表示步骤(1)中为第i个样本添加的实际分类标签,f为预测类别函数,这里使用的是softmax函数;
[0023]
优选地,lstm网络是通过以下步骤训练得到的:
[0024]
(3-1)获取用于运维安全审计系统的录屏数据集,将该录屏数据集按照8:2的比例划分为训练集和测试集,并为训练集中的每个样本添加对应的真实分类标签;
[0025]
(3-2)对lstm网络的参数进行初始化,权重参数的初始值是使用标准差为0.1的截断式正态分布输出的随机值,批大小(即batch_size)设置为1024;
[0026]
(3-3)将步骤(3-1)得到的训练集输入训练好的tsn网络中,以得到训练集中每一个样本对应的特征向量;
[0027]
(3-4)针对步骤(3-3)得到的每个样本对应的特征向量而言,建立该样本的特征向量到步骤(3-1)中为该样本添加的真实分类标签所包括的多个属性标签之间的映射关系;
[0028]
(3-5)将步骤(3-4)得到的每个样本对应的特征向量输入lstm网络中的编码层进行编码识别,以得到该特征向量的中间隐藏状态,所有样本对应的中间隐藏状态构成中间隐藏状态集合h:
[0029]
h={h1,h2,h3...hm};
[0030]
其中,m表示训练集中的样本总数;
[0031]
(3-6)将步骤(3-5)得到的隐藏层状态hi输入lstm网络的隐藏层中,通过该隐藏层的注意力机制得到步骤(3-4)得到的每个样本对应的中间隐藏状态对应的注意力概率分布
值αi,根据每个样本对应的中间隐藏状态对应的注意力概率分布值计算每个样本的特征向量vi(其包含视频信息);
[0032]
(3-7)将步骤(3-6)得到的第i个样本的特征向量vi输入lstm网络的softmax层,经过softmax函数计算得到第i个样本的预测类别yi;
[0033]
(3-8)重复迭代上述步骤(3-5)、步骤(3-6)及步骤(3-7),直至lstm的损失值收敛为止,从而得到训练好的lstm网络。
[0034]
优选地,步骤(3-6)中计算特征向量的计算公式如下:
[0035][0036]
其中,αi为第i个样本对应的中间隐藏状态对应的注意力概率分布值,且i∈[1,m]。
[0037]
优选地,步骤(3-7)中的计算公式如下:
[0038][0039]
其中,为特征向量vi对应的权值矩阵,为特征向量vi的偏置量。
[0040]
优选地,步骤(3-8)中计算损失值是采用如下的交叉熵损失函数:
[0041][0042]
其中,yj表示第j个样本的预测类别,表示第j个样本的真实分类,n为第j个样本的特征向量vj的维度。
[0043]
按照本发明的另一方面,提供了一种用于堡垒机录屏审计的视频分类系统,包括:
[0044]
第一模块,其设置于客户端,用于使用屏幕抓取工具对其屏幕进行实时录制,对录制的视频进行处理,将处理得到的视频进行编码压缩以得到视频流,并将该视频流发送到服务端;
[0045]
第二模块,其设置于服务端,用于依次将来自客户端的视频流解码得到视频,并将解码后的视频输入训练好的时间片段网络tsn中,以得到该视频对应的特征向量;
[0046]
第三模块,其设置于服务端,用于依次将第二模块得到的视频流中所有视频对应的所有特征向量输入训练好的长短时记忆网络lstm中,以得到视频分类结果。
[0047]
总体而言,通过本发明所构思的以上技术方案与现有技术相比,能够取得下列有益效果:
[0048]
1、本发明由于采用了步骤(2)和步骤(3),其对堡垒机的录屏进行了行为分类,可直接根据此分类对录屏进行检索溯源,因此能够解决现有审计方法由于产生大量的人力物力消耗,对返回的审计信息也无法有效识别和审计,导致无法满足轻量级、自动化与实时性需求的技术问题;
[0049]
2、本发明的tsn特征提取网络采取稀疏采用法提取数据帧,能够在样本数量不够大的时候扩充数据集,防止过拟合,因此提高了分类精度;
[0050]
3、本发明的lstm网络由于引入了注意力机制,对样本的每个特征进行关注度划分,使模型能够集中于数据的关键特征进行分类,从而提高了分类精度。
附图说明
[0051]
图1是本发明用于堡垒机录屏审计的视频分类方法的流程示意图;
[0052]
图2是本发明使用的tsn和lstm网络模型的结构示意图。
具体实施方式
[0053]
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。此外,下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。
[0054]
针对堡垒机录屏审计时效率不高、资源浪费的问题,本发明提出了一种基于神经网络的录屏行为分类方法,其通过使用神经网络对视频进行特征提取,特征聚合,进而识别出录屏行为并进行分类,提高审计效率,节约人力资源,进而提高堡垒机的质量。
[0055]
如图1和图2所示,本发明提供了一种用于堡垒机录屏审计的视频分类方法,包括以下步骤:
[0056]
(1)客户端使用屏幕抓取工具对其屏幕进行实时录制,对录制的视频进行处理,将处理得到的视频进行编码压缩以得到视频流,并将该视频流发送到服务端。
[0057]
具体而言,本步骤中对录制的视频进行处理,包括对该视频进行打水印和/或加时间戳处理。
[0058]
本步骤中对视频进行编码压缩采用的是h264编码方式。
[0059]
本步骤中将视频流发送到服务端是采用实时消息协议(real time messaging protocol,简称rtmp),它是一种主要用来在flash/air平台、以及支持rtmp协议的流媒体/交互服务器之间进行音视频和数据通信的协议。
[0060]
(2)服务端依次将来自客户端的视频流解码得到视频,并将解码后的视频输入训练好的时间片段网络(temporal segmentnetworks,简称tsn)中,以得到该视频对应的特征向量;
[0061]
本步骤的优点在于,对于输入特征提取网络的视频,使用稀疏采样法从视频片段中随机提取数据帧,解决了在数据量不足的的时候模型容易过拟合的问题;
[0062]
(3)服务端依次将步骤(2)得到的视频流中所有视频对应的所有特征向量输入训练好的长短时记忆网络(long-short time memory,简称lstm)中,以得到视频分类结果;
[0063]
本步骤的优点在于,在lstm网络中增加了注意力机制,对每个输入lstm网络的特征向量,均计算其对应的注意力值,通过为不同特征向量赋予不同的注意力值,可让模型集中于视频的某些特征,从而得到更准确的分类。
[0064]
本发明中的tsn网络是通过以下步骤训练得到的:
[0065]
(2-1)获取用于运维安全审计系统的录屏数据集,将该录屏数据集按照8:2的比例划分为训练集和测试集,并为训练集中的每个样本添加对应的真实分类标签;
[0066]
具体而言,样本的分类标签共有七种,包括用户管理、资产管理、工单管理、运维管理、协议管理、端口管理、指令管理;
[0067]
(2-2)对tsn网络的参数进行初始化,权重参数的初始值是使用标准差为0.1的截断式正态分布输出的随机值,偏置参数的初始值设为0,初始学习率lr=0.01,采用阶梯性
的学习策略,权重gamma=0.1,即每10轮(epoch)将学习率乘以0.1,采样的帧数是300帧,特征维度是2048个;采用的聚合函数是top-k池化(pooling),其中k的取值是5;
[0068]
(2-3)将步骤(2-1)获取的训练集输入到步骤(2-2)初始化后的tsn网络中,以通过稀疏采样获取训练集中每个样本对应的rgb视频序列和光流场图像特征,将每个样本对应的rgb视频序列和光流场图像特征进行合并,以得到该样本对应的特征向量,并获取tsn网络的评估精度;
[0069]
本步骤中,评估精度的表达式为:
[0070][0071]
其中xi表示训练集中的第i个样本,其中i∈[1,n],n表示训练集中的样本总数,yi表示步骤(1)中为第i个样本添加的实际分类标签,f为预测类别函数,这里使用的是softmax函数;
[0072]
(2-4)重复迭代执行上述步骤(2-3),直到评估精度达到最佳为止,从而得到初步训练好的tsn网络。
[0073]
(2-5)利用步骤(2-1)得到的测试集对步骤(2-4)初步训练好的tsn网络进行测试,以得到最终训练好的tsn网络。
[0074]
本发明的lstm网络是一种记忆网络,由循环神经网络(recurrent neural network,简称rnn)网络发展而来,可缓解循环神经网络(rnn)中随着时间步长变长而存在的梯度消失的问题,架构图见图2,其具体结构见论文《beyond short snippets:deep networks forvideo classification》第4页figure 3,作者是joe yue-hei ng等。
[0075]
本发明中的lstm网络是通过以下步骤训练得到的:
[0076]
(3-1)获取用于运维安全审计系统的录屏数据集,将该录屏数据集按照8:2的比例划分为训练集和测试集,并为训练集中的每个样本添加对应的真实分类标签;
[0077]
具体而言,样本的分类标签共有七种,包括用户管理、资产管理、工单管理、运维管理、协议管理、端口管理、指令管理;
[0078]
(3-2)对lstm网络的参数进行初始化,权重参数的初始值是使用标准差为0.1的截断式正态分布输出的随机值,批大小(batch_size)设置为1024;
[0079]
(3-3)将步骤(3-1)得到的训练集输入训练好的tsn网络中,以得到训练集中每一个样本对应的特征向量;
[0080]
(3-4)针对步骤(3-3)得到的每个样本对应的特征向量而言,建立该样本的特征向量到步骤(3-1)中为该样本添加的真实分类标签所包括的多个属性标签之间的映射关系;
[0081]
每个分类标签对应有不同数量的属性标签,例如,“工单管理”具有“工单添加”、“工单编辑”等属性标签。
[0082]
(3-5)将步骤(3-4)得到的每个样本对应的特征向量输入lstm网络中的编码层进行编码识别,以得到该特征向量的中间隐藏状态,所有样本对应的中间隐藏状态构成中间隐藏状态集合h:
[0083]
h={h1,h2,h3...hm};
[0084]
其中,m表示训练集中的样本总数;
[0085]
(3-6)将步骤(3-5)得到的隐藏层状态hi输入lstm网络的隐藏层中,通过该隐藏层
的注意力机制得到步骤(3-4)得到的每个样本对应的中间隐藏状态对应的注意力概率分布值αi,根据每个样本对应的中间隐藏状态对应的注意力概率分布值计算每个样本的特征向量vi(其包含视频信息);
[0086]
具体而言,本步骤中计算特征向量的计算公式如下:
[0087][0088]
其中,αi为第i个样本对应的中间隐藏状态对应的注意力概率分布值,且i∈[1,m];
[0089]
(3-7)将步骤(3-6)得到的第i个样本的特征向量vi输入lstm网络的softmax层,经过softmax函数计算得到第i个样本的预测类别yi;
[0090]
具体而言,本步骤中的计算公式如下:
[0091][0092]
其中,为特征向量vi对应的权值矩阵,为特征向量vi的偏置量;
[0093]
(3-8)重复迭代上述步骤(3-5)、步骤(3-6)及步骤(3-7),直至lstm的损失值收敛为止,从而得到训练好的lstm网络。
[0094]
具体而言,本步骤是采用梯度下降法训练模型,通过计算损失函数的梯度逐步更新lstm网络的参数,最终达到收敛。lstm网络使用的交叉熵损失函数为:
[0095][0096]
其中,yj表示第j个样本的预测类别,表示第j个样本的真实分类,n为第j个样本的特征向量vj的维度。
[0097]
实验结果
[0098]
本节通过在自收集数据集上的测试结果来说明本方法的实际效果。本方法在测试过程中涉及到的评测指标包括:(1)top-1 accuracy(简称top-1acc)值:排名第一的类别与实际结果相符的准确率;(2)top-5accuracy(简称top-5acc)值:排名前五的类别包含实际结果的准确率,值越大则正确率越高;(3)meanabsolute error(简称mae)值:平均绝对值误差,它表示预测值和观测值之间绝对误差的平均值;(4)root mean square error(简称rmse)值:预测值和观测值之间差异(称为残差)的样本标准差。均方根误差为了说明样本的离散程度,做非线性拟合时,值越小越好;(5)meanabsolute percentage error(简称mape)值:平均百分比误差,值越小误差越小,正确率也越高。
[0099]
下表1示出在本数据集上本发明的各精度指标值:
[0100]
表1
[0101]
[0102][0103]
从以上结果可以看出,使用此模型能达到的精度是可以投入实际生产使用的,随着数据集中数据量的增大,此模型的准确率也会更高。通过使用此方法,可以简化对录屏视频的检索,减少不必要的人力开支,强化审计效率。
[0104]
本领域的技术人员容易理解,以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献