一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

基于特征迁移的设备异常检测、训练方法、系统和装置与流程

2022-07-02 06:02:29 来源:中国专利 TAG:


1.本发明涉及网络安全技术领域,特别是涉及基于特征迁移的设备异常检测、训练方法、系统和装置。


背景技术:

2.随着互联网技术的发展,网络中接入的设备数量及种类越来越多,例如:手机、pc(personal computer,个人计算机)机、平板电脑、笔记本电脑等等。这些设备的接入给人们的生活带来了极大的便利,使得工作效率更加高效,但也存在一些用户因操作不当给网络的安全造成一定的威胁。
3.针对设备异常的检测场景,可以通过预先训练的深度学习模型对设备的流量数据进行分析,从而判断设备是否异常。然而深度学习模型的训练需要大量标注有标签的流量数据,现有技术中,通过人工标注的方式对流量数据进行标注,并利用海量的人工标注的流量数据对深度学习模型进行训练,从而得到训练好的深度学习模型。
4.然而采用上述方法,需要耗费大量的人力成本对流量数据进行标注,会造成异常检测模型的训练成本较高,进一步导致设备异常检测成本高的问题。


技术实现要素:

5.本发明实施例的目的在于提供一种基于特征迁移的设备异常检测、训练方法、系统和装置,以解决上述问题中的至少一项。具体技术方案如下:第一方面,本发明实施例提供了一种基于特征迁移的设备异常检测模型训练方法,所述方法包括:获取第一样本流量集合及第二样本流量集合,其中,所述第一样本流量集合中的各样本数据流均标记有设备异常标签,所述第二样本流量集合中的各样本数据流没有标记设备异常标签,针对任一样本数据流,该样本数据流的设备异常标签表示该样本数据流对应的设备的异常情况;利用所述第一样本流量集合中的样本数据流及设备异常标签,分别对统计特征检测模型、字符特征检测模型及图像特征检测模型进行训练;分别利用当前的统计特征检测模型、当前的字符特征检测模型及当前的图像特征检测模型,对第二样本流量集合中的样本数据流标记设备异常标签;利用由当前的统计特征检测模型标记设备异常标签的样本数据流,分别对当前的字符特征检测模型及当前的图像特征检测模型进行训练;利用由当前的字符特征检测模型标记设备异常标签的样本数据流,分别对当前的统计特征检测模型及当前的图像特征检测模型进行训练;利用由当前的图像特征检测模型标记设备异常标签的样本数据流,分别对当前的字符特征检测模型及当前的统计特征检测模型进行训练;得到训练后的统计特征检测模型、训练后的字符特征检测模型以及训练后的图像特征检测模型。
6.可选地,所述利用所述第一样本流量集合中的样本数据流及设备异常标签,分别
对统计特征检测模型、字符特征检测模型及图像特征检测模型进行训练,包括:在所述第一样本流量集合中选取一个未选取过的样本数据流;提取当前选取的样本数据流的统计特征、字符特征以及图像特征,其中,所述统计特征表示相应样本数据流的数据统计特征,所述字符特征表示相应样本数据流的应用层字符特征,所述图像特征表示相应样本数据流的数据空间特征;将当前选取的样本数据流的统计特征输入到统计特征检测模型中得到第一预测结果,根据当前的第一预测结果及当前选取的样本数据流的设备异常标签,调整统计特征检测模型的参数;将当前选取的样本数据流的字符特征输入到字符特征检测模型中得到第二预测结果,根据当前的第二预测结果及当前选取的样本数据流的设备异常标签,调整字符特征检测模型的参数;将当前选取的样本数据流的图像特征输入到图像特征检测模型中得到第三预测结果,根据当前的第三预测结果及当前选取的样本数据流的设备异常标签,调整图像特征检测模型的参数;返回执行步骤:在所述第一样本流量集合中选取一个未选取过的样本数据流,直至所述第一样本流量集合中不存在未选取过的样本数据流。
7.可选地,所述提取当前选取的样本数据流的统计特征、字符特征以及图像特征,包括:提取当前选取的样本数据流指定统计项目,得到当前选取的样本数据流的统计特征,其中,所述指定统计项目包括以下项目中的至少一项:样本数据流的数据包数量、数据包大小的均值、数据包大小的中位数、数据包大小的最大值、数据包大小的最小值、空载荷数据包数量、数据包大小小于预设字节数的数据包数量、数据包大小小于预设字节数的数据包数量占比、持续时长、第一个数据包大小、平均数据包大小、平均数据包传输速率、数据包平均到达时间;提取当前选取的样本数据流中各数据包的应用层字符段,并将各应用层字符段进行拼接,得到当前选取的样本数据流的字符特征;截取当前选取的样本数据流的字符特征中预设数量个字符,并将所截取的字符排列成t
×
t的二维矩阵,得到该当前选取的样本数据流的图像特征。
8.可选地,所述方法还包括:获取测试流量集合,其中,所述测试流量集合中的各样本数据流均标记有设备异常标签;在所述利用所述第一样本流量集合中的样本数据流及设备异常标签,分别对统计特征检测模型、字符特征检测模型及图像特征检测模型进行训练的步骤之后,包括:利用所述测试流量集合中的样本数据流,分别对当前的统计特征检测模型、当前的字符特征检测模型及当前的图像特征检测模型进行测试,得到当前的统计特征检测模型的准确率、当前的字符特征检测模型的准确率及当前的图像特征检测模型的准确率;所述分别利用当前的统计特征检测模型、当前的字符特征检测模型及当前的图像特征检测模型,对第二样本流量集合中的样本数据流标记设备异常标签;利用由当前的统计特征检测模型标记设备异常标签的样本数据流,分别对当前的字符特征检测模型及当前
的图像特征检测模型进行训练;利用由当前的字符特征检测模型标记设备异常标签的样本数据流,分别对当前的统计特征检测模型及当前的图像特征检测模型进行训练;利用由当前的图像特征检测模型标记设备异常标签的样本数据流,分别对当前的字符特征检测模型及当前的统计特征检测模型进行训练;得到训练后的统计特征检测模型、训练后的字符特征检测模型以及训练后的图像特征检测模型,包括:在所述第二样本流量集合中选取指定数量的样本数据流,得到多个第一样本数据流;分别利用当前的统计特征检测模型、当前的字符特征检测模型及当前的图像特征检测模型,对各第一样本数据流标记设备异常标签,得到至少一部分第一样本数据流作为第二样本数据流;利用由当前的统计特征检测模型标记设备异常标签的第二样本数据流,分别对当前的字符特征检测模型及当前的图像特征检测模型进行训练;利用由当前的字符特征检测模型标记设备异常标签的第二样本数据流,分别对当前的统计特征检测模型及当前的图像特征检测模型进行训练;利用由当前的图像特征检测模型标记设备异常标签的第二样本数据流,分别对当前的字符特征检测模型及当前的统计特征检测模型进行训练;利用所述测试流量集合中的样本数据流,分别对当前的统计特征检测模型、当前的字符特征检测模型及当前的图像特征检测模型进行测试,得到当前的统计特征检测模型的准确率、当前的字符特征检测模型的准确率及当前的图像特征检测模型的准确率;在当前的统计特征检测模型的准确率不低于上一阶段统计特征检测模型的准确率、且当前的字符特征检测模型的准确率不低于上一阶段的字符特征检测模型的准确率、且当前的图像特征检测模型的准确率不低于上一阶段的图像特征检测模型的准确率的情况下,将当前的各第二样本数据流从所述第二样本流量集合中移除,否则将当前的各第二样本数据流放回所述第二样本流量集合中;返回执行步骤:在所述第二样本流量集合中选取指定数量的样本数据流,得到多个第一样本数据流,直至所述第二样本流量集合为空集,得到训练后的统计特征检测模型、训练后的字符特征检测模型以及训练后的图像特征检测模型。
9.可选地,所述分别利用当前的统计特征检测模型、当前的字符特征检测模型及当前的图像特征检测模型,对各第一样本数据流标记设备异常标签,得到至少一部分第一样本数据流作为第二样本数据流,包括:针对每一个第一样本数据流,利用当前的统计特征检测模型预测得到该第一样本数据流的设备异常标签及对应的置信度,利用当前的字符特征检测模型预测得到该第一样本数据流的设备异常标签及对应的置信度,利用当前的图像特征检测模型预测得到该第一样本数据流的设备异常标签及对应的置信度;针对当前的统计特征检测模型,选取置信度最高的前n个设备异常标签对应的第一样本数据流,得到n个第二样本数据流;针对当前的字符特征检测模型,选取置信度最高的前n个设备异常标签对应的第一样本数据流,得到n个第二样本数据流;针对当前的图像特征检测模型,选取置信度最高的前n个设备异常标签对应的第一样本数据流,得到n个第二样本数据流。
10.可选地,所述方法还包括:当同一第二样本数据流具有不同的设备异常标签时,选取置信度最高的设备异常标签作为该第二样本数据流的设备异常标签。
11.可选地,所述利用由当前的统计特征检测模型标记设备异常标签的第二样本数据流,分别对当前的字符特征检测模型及当前的图像特征检测模型进行训练;利用由当前的字符特征检测模型标记设备异常标签的第二样本数据流,分别对当前的统计特征检测模型及当前的图像特征检测模型进行训练;利用由当前的图像特征检测模型标记设备异常标签的第二样本数据流,分别对当前的字符特征检测模型及当前的统计特征检测模型进行训练,包括:利用通过当前的统计特征检测模型得到的n个第二样本数据流,分别对当前的字符特征检测模型及当前的图像特征检测模型进行训练;利用通过当前的字符特征检测模型得到的n个第二样本数据流,分别对当前的统计特征检测模型及当前的图像特征检测模型进行训练;利用通过当前的图像特征检测模型得到的n个第二样本数据流,分别对当前的字符特征检测模型及当前的统计特征检测模型进行训练。
12.第二方面,本发明实施例提供了一种基于特征迁移的设备异常检测方法,所述方法包括:获取待检测设备的数据流;提取所述数据流的统计特征、字符特征以及图像特征,其中,所述数据流的统计特征表示所述数据流的数据统计特征,所述数据流的字符特征表示所述数据流的应用层字符特征,所述数据流的图像特征表示所述数据流的数据空间特征;将所述统计特征输入到预先训练的统计特征检测模型中得到第一检测结果,将所述字符特征输入到预先训练的字符特征检测模型中得到第二检测结果,将所述图像特征输入到预先训练的图像特征检测模型中得到第三检测结果;其中,所述统计特征检测模型、所述字符特征检测模型以及所述图像特征检测模型通过上述第一方面所述的基于特征迁移的设备异常检测模型训练方法训练得到;基于所述第一检测结果,所述第二检测结果以及所述第三检测结果,确定所述待检测设备的异常检测结果。
13.可选地,所述获取待检测设备的数据流,包括:获取由监测设备采集的待检测设备的流量数据;在所述流量数据的数据包中,确定具有相同源设备ip地址、源设备端口号、目的设备ip地址以及目的设备端口号的目标数据包;针对各所述目标数据包,根据源设备与目的设备之间建立连接标志位与关闭连接标志位,确定所述待检测设备的数据流;或者,针对各所述目标数据包,根据相邻目标数据包之间的时间差与预设阈值之间的大小关系,确定所述待检测设备的数据流。
14.第三方面,本发明实施例提供了一种基于特征迁移的设备异常检测模型训练装置,所述装置包括:第一数据获取模块,用于获取第一样本流量集合及第二样本流量集合,其中,所述
第一样本流量集合中的各样本数据流均标记有设备异常标签,所述第二样本流量集合中的各样本数据流没有标记设备异常标签,针对任一样本数据流,该样本数据流的设备异常标签表示该样本数据流对应的设备的异常情况;第一模型训练模块,用于利用所述第一样本流量集合中的样本数据流及设备异常标签,分别对统计特征检测模型、字符特征检测模型及图像特征检测模型进行训练;第二模型训练模块,用于分别利用当前的统计特征检测模型、当前的字符特征检测模型及当前的图像特征检测模型,对第二样本流量集合中的样本数据流标记设备异常标签;利用由当前的统计特征检测模型标记设备异常标签的样本数据流,分别对当前的字符特征检测模型及当前的图像特征检测模型进行训练;利用由当前的字符特征检测模型标记设备异常标签的样本数据流,分别对当前的统计特征检测模型及当前的图像特征检测模型进行训练;利用由当前的图像特征检测模型标记设备异常标签的样本数据流,分别对当前的字符特征检测模型及当前的统计特征检测模型进行训练;得到训练后的统计特征检测模型、训练后的字符特征检测模型以及训练后的图像特征检测模型。
15.第四方面,本发明实施例提供了一种基于特征迁移的设备异常检测装置,所述装置包括:第二数据获取模块,用于获取待检测设备的数据流;特征提取模块,用于提取所述数据流的统计特征、字符特征以及图像特征,其中,所述数据流的统计特征表示所述数据流的数据统计特征,所述数据流的字符特征表示所述数据流的应用层字符特征,所述数据流的图像特征表示所述数据流的数据空间特征;异常检测模块,用于将所述统计特征输入到预先训练的统计特征检测模型中得到第一检测结果,将所述字符特征输入到预先训练的字符特征检测模型中得到第二检测结果,将所述图像特征输入到预先训练的图像特征检测模型中得到第三检测结果;其中,所述统计特征检测模型、所述字符特征检测模型以及所述图像特征检测模型通过上述第一方面所述的基于特征迁移的设备异常检测模型训练方法训练得到;异常确定模块,用于基于所述第一检测结果,所述第二检测结果以及所述第三检测结果,确定所述待检测设备的异常检测结果。
16.第五方面,本发明实施例提供了一种电子设备,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;存储器,用于存放计算机程序;处理器,用于执行存储器上所存放的程序时,实现上述任一所述的方法步骤。
17.第六方面,本发明实施例提供了一种计算机可读存储介质,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现上述任一所述的方法步骤。
18.第七方面,本发明实施例提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述任一所述的方法步骤。
19.第八方面,本发明实施例提供了一种基于特征迁移的设备异常检测系统,其特征在于,所述系统包括:平台设备和多个待检测设备;所述平台设备,用于在运行时实现本技术中任一所述的基于特征迁移的设备异常检测方法。
20.本发明实施例有益效果:本发明实施例提供的一种基于特征迁移的设备异常检测、训练方法、系统和装置,可以利用第一样本流量集合中的样本数据流及设备异常标签,分别对统计特征检测模型、字符特征检测模型及图像特征检测模型进行训练,再分别利用训练的当前的统计特征检测模型、当前的字符特征检测模型及当前的图像特征检测模型,对第二样本流量集合中的样本数据流标记设备异常标签,进而无需对所有样本数据流进行标签的维护,减少了人工标注样本标签造成较高的异常检测模型训练成本,以及设备异常检测成本高的问题。同时综合考虑了每一样本数据流的统计特征、字符特征以及图像特征,使得利用由当前的统计特征检测模型标记设备异常标签的样本数据流,分别对当前的字符特征检测模型及当前的图像特征检测模型进行训练;利用由当前的字符特征检测模型标记设备异常标签的样本数据流,分别对当前的统计特征检测模型及当前的图像特征检测模型进行训练;利用由当前的图像特征检测模型标记设备异常标签的样本数据流,分别对当前的字符特征检测模型及当前的统计特征检测模型进行训练,得到训练后的统计特征检测模型、训练后的字符特征检测模型以及训练后的图像特征检测模型更准确,进而在使用训练后的统计特征检测模型、训练后的字符特征检测模型以及训练后的图像特征检测模型对设备异常检测的过程中,能够在降低设备异常检测成本的同时提高设备异常检测的准确率。
21.当然,实施本发明的任一产品或方法并不一定需要同时达到以上所述的所有优点。
附图说明
22.为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,还可以根据这些附图获得其他的实施例。
23.图1为本发明实施例的一种基于特征迁移的设备异常检测模型训练方法的流程示意图;图2为本发明实施例的一种特征检测模型训练方法的流程示意图;图3为本发明实施例的一种特征检测模型融合训练方法的流程示意图;图4为本发明实施例的一种标记设备异常标签的实施方式流程示意图;图5为本发明实施例的一种特征检测模型融合训练的实施方式流程示意图;图6为本发明实施例的一种基于特征迁移的设备异常检测方法的流程示意图;图7为本发明实施例的一种基于特征迁移的设备异常检测方法的过程示意图;图8为本发明实施例的一种基于特征迁移的设备异常检测模型训练装置的结构示意图;图9为本发明实施例的一种基于特征迁移的设备异常检测装置的结构示意图;图10为本发明实施例的一种电子设备的结构示意图。
具体实施方式
24.下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完
整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员基于本技术所获得的所有其他实施例,都属于本发明保护的范围。
25.首先,对本技术中的术语进行解释:特征迁移:是指在一个问题提取到的特征或训练完成的模型可以在另一个问题上应用。
26.协同训练:一种半监督学习方法,利用有限的有标签数据提取数据不同角度的特征,进而完成全部数据的训练。
27.半监督学习:一种机器学习方法,指训练数据中仅有一部分数据有标签,其他数据无标签。
28.相关技术中,利用有监督学习方法进行设备异常的检测,比如通过预先训练的深度学习模型对设备的流量数据进行分析,从而判断设备是否异常。而有监督的深度学习模型的训练需要大量标注有标签的流量数据,在实际场景中,完整的数据标签很难得到,现有技术中通过人工标注的方式对流量数据进行标注,需要耗费大量的人力成本对流量数据进行标注,会造成异常检测模型的训练成本较高,进一步导致设备异常检测成本高的问题。
29.为了提高设备异常检测的准确率,本发明实施例提供了一种基于特征迁移的设备异常检测模型训练方法,包括:获取第一样本流量集合及第二样本流量集合,其中,第一样本流量集合中的各样本数据流均标记有设备异常标签,第二样本流量集合中的各样本数据流没有标记设备异常标签,针对任一样本数据流,该样本数据流的设备异常标签表示该样本数据流对应的设备的异常情况;利用第一样本流量集合中的样本数据流及设备异常标签,分别对统计特征检测模型、字符特征检测模型及图像特征检测模型进行训练;分别利用当前的统计特征检测模型、当前的字符特征检测模型及当前的图像特征检测模型,对第二样本流量集合中的样本数据流标记设备异常标签;利用由当前的统计特征检测模型标记设备异常标签的样本数据流,分别对当前的字符特征检测模型及当前的图像特征检测模型进行训练;利用由当前的字符特征检测模型标记设备异常标签的样本数据流,分别对当前的统计特征检测模型及当前的图像特征检测模型进行训练;利用由当前的图像特征检测模型标记设备异常标签的样本数据流,分别对当前的字符特征检测模型及当前的统计特征检测模型进行训练;得到训练后的统计特征检测模型、训练后的字符特征检测模型以及训练后的图像特征检测模型。
30.本发明实施例提供的一种基于特征迁移的设备异常检测模型训练方法,可以利用第一样本流量集合中的样本数据流及设备异常标签,分别对统计特征检测模型、字符特征检测模型及图像特征检测模型进行训练,再分别利用训练的当前的统计特征检测模型、当前的字符特征检测模型及当前的图像特征检测模型,对第二样本流量集合中的样本数据流标记设备异常标签,进而无需对所有样本数据流进行标签的维护,避免了人工标注样本标签造成较高的异常检测模型训练成本,以及设备异常检测成本高的问题。同时综合考虑了每一样本数据流的统计特征、字符特征以及图像特征,使得利用由当前的统计特征检测模型标记设备异常标签的样本数据流,分别对当前的字符特征检测模型及当前的图像特征检
测模型进行训练;利用由当前的字符特征检测模型标记设备异常标签的样本数据流,分别对当前的统计特征检测模型及当前的图像特征检测模型进行训练;利用由当前的图像特征检测模型标记设备异常标签的样本数据流,分别对当前的字符特征检测模型及当前的统计特征检测模型进行训练,得到训练后的统计特征检测模型、训练后的字符特征检测模型以及训练后的图像特征检测模型更准确,进而在使用训练后的统计特征检测模型、训练后的字符特征检测模型以及训练后的图像特征检测模型对设备异常检测的过程中,能够在降低设备异常检测成本的同时提高设备异常检测的准确率。
31.下面通过具体实施例对本技术提供的基于特征迁移的设备异常检测模型训练方法进行详细说明。
32.本发明实施例提供的基于特征迁移的设备异常检测模型训练方法可以应用于电子设备,如终端、服务器设备等。
33.参见图1,本发明实施例提供的一种基于特征迁移的设备异常检测模型训练方法,包括:s101,获取第一样本流量集合及第二样本流量集合。
34.针对样本设备,可以采用旁路监听的方式通过旁路监测设备采集该样本设备的流量数据,进而从所采集的流量数据中获取第一样本流量集合及第二样本流量集合,其中,第一样本流量集合中的各样本数据流均标记有设备异常标签,第二样本流量集合中的各样本数据流没有标记设备异常标签,针对任一样本数据流,该样本数据流的设备异常标签表示该样本数据流对应的设备的异常情况。样本设备可以是待检测设备,也可以是指定设备或任一处于物联网中的设备。采用旁路监听的方式采集设备的流量数据,不会对设备的流量造成干扰。
35.在一些实施例中,可以针对所采集的流量数据,对该流量数据进行划分和重组,得到该流量数据对应的样本数据流,进一步利用预设的规则对样本数据流进行设备异常标签的初始标记,得到一部分标记有设备异常标签的样本数据流,一部分没有标记设备异常标签的样本数据流,形成第一样本流量集合及第二样本流量集合。
36.一个例子中,可以针对所采集的流量数据,在该流量数据的数据包中,确定具有相同源设备ip(internet protocol,互联网协议)地址、源设备端口号、目的设备ip地址以及目的设备端口号的目标数据包,进而根据数据包的传输协议,确定属于同一数据流的目标数据包,得到流量数据对应的样本数据流。具体的,针对tcp (transmission control protocol,传输控制协议) 协议下的目标数据包,可以根据源设备与目的设备之间建立连接标志位syn(synchronize sequence numbers,同步序列编号)与关闭连接标志位fin(finish,tcp首部中的结束标志)的动作,确定各目标数据包是否属于同一数据流,将属于同一数据流的目标数据包,确定为一个样本数据流;针对udp(user datagram protocol,用户数据报协议)协议下的目标数据包,可以计算相邻目标数据包之间的时间差是否大于预设阈值,如果是,则该相邻目标数据包不属于同一个数据流,如果不是,则该目标相邻数据包属于同一个数据流,将属于同一数据流的目标数据包,确定为一个样本数据流。其中,预设阈值的大小可以根据实际情况设定。
37.在一些实施例中,在得到设备流量数据对应的样本数据流之后,可以对该样本数据流进行存储,具体的,可以存储各样本数据流中所有的数据包,示例性的,一个样本数据
流的存储格式可以为:[样本数据流标识,源设备ip地址,源设备端口号,目的设备ip地址,目的设备端口号,{package1,package2,package3,
……
,packagek}],其中,package1表示数据包1,packagek表示数据包k。
[0038]
在一些实施例中,得到设备流量数据对应的样本数据流之后,可以选择目标时间段内的样本数据流作为参与模型训练的样本数据流,将参与模型训练的样本数据流确定为样本数据集,目标时间段可以根据实际需求进行设置,比如最近一天、最近一周或最近一月等等。利用预设的规则对样本数据集中的样本数据流进行设备异常标签的初始标记,得到标记数据集,该预设的规则例如可以是对包含异常ip地址、异常端口、异常数据内容等的样本数据流进行设备异常标签的初始标记,设备异常标签可以是表示设备异常或正常的二分类标签,还可以是多个表示设备异常类型的多分类标签等。
[0039]
因预设的规则对样本数据流的标记能力有限,使得部分样本数据流能够准确的标记设备异常标签,而部分样本数据流无法完成设备异常标签的标记,进一步的,可以对标记数据集进行划分,得到包含标记有设备异常标签的样本数据流的数据集,和没有标记设备异常标签的样本数据流的数据集。一些实施例中,可以将包含标记有设备异常标签的样本数据流的数据集中的一部分样本数据流作为第一样本流量集合,将没有标记设备异常标签的样本数据流的数据集作为及第二样本流量集合。示例性的,可以将包含标记有设备异常标签的样本数据流的数据集中的预设数目个样本数据流,组成第一样本流量集合,该预设数目例如可以是包含标记有设备异常标签的样本数据流的数据集中样本数据流总个数的70%,80%或90%等,具体的,本领域技术人员可根据实际需求进行设置,第一样本流量集合可以表示为,第二样本流量集合可以表示为。
[0040]
s102,利用第一样本流量集合中的样本数据流及设备异常标签,分别对统计特征检测模型、字符特征检测模型及图像特征检测模型进行训练。
[0041]
示例性的,可以分别构建统计特征检测模型、字符特征检测模型及图像特征检测模型,进而利用第一样本流量集合中的样本数据流及设备异常标签,对统计特征检测模型进行训练,得到当前的统计特征检测模型,表示当前第一阶段训练得到的统计特征检测模型,s表示统计特征;利用第一样本流量集合中的样本数据流及设备异常标签,对字符特征检测模型进行训练,得到当前的字符特征检测模型,表示当前第一阶段训练得到的字符特征检测模型,c表示字符特征;利用第一样本流量集合中的样本数据流及设备异常标签,对图像特征检测模型进行训练,得到当前的图像特征检测模型,表示当前第一阶段训练得到的图像特征检测模型,p表示图像特征。
[0042]
一个例子中,所构建的统计特征检测模型可以是dnn(deep neural networks,深度神经网络)模型,字符特征检测模型可以是rnn(recurrent neural network,循环神经网络)模型,图像特征检测模型可以是cnn(convolutional neural network,卷积神经网络)模型等,当然,所构建的统计特征检测模型、字符特征检测模型及图像特征检测模型也可以是其他模型,并不仅限于此。所训练的统计特征检测模型、字符特征检测模型及图像特征检
测模型的输出,可以是属于不同设备异常标签的概率或置信度等,示例性的,当统计特征检测模型、字符特征检测模型及图像特征检测模型为二分类模型时,可以设置0.5作为设备异常标签的置信度阈值,也可以是其他值,当统计特征检测模型、字符特征检测模型及图像特征检测模型为多分类模型时,可以根据需求分别设定多分类设备异常标签对应的置信度阈值等。
[0043]
s103,分别利用当前的统计特征检测模型、当前的字符特征检测模型及当前的图像特征检测模型,对第二样本流量集合中的样本数据流标记设备异常标签。
[0044]
第二样本流量集合中的各样本数据流没有标记设备异常标签,在利用第一样本流量集合中的样本数据流及设备异常标签,分别对统计特征检测模型、字符特征检测模型及图像特征检测模型进行训练之后,可以分别利用当前的统计特征检测模型、当前的字符特征检测模型及当前的图像特征检测模型,对第二样本流量集合中的样本数据流进行设备异常标签的标记。一个例子中,可以利用当前的统计特征检测模型,对第二样本流量集合中的各样本数据流进行异常预测,根据预测结果对第二样本流量集合中的各样本数据流进行设备异常标签的标记;利用当前的字符特征检测模型,对第二样本流量集合中的各样本数据流进行异常预测,根据预测结果对第二样本流量集合中的各样本数据流进行设备异常标签的标记;以及利用当前的图像特征检测模型,对第二样本流量集合中的各样本数据流进行异常预测,根据预测结果对第二样本流量集合中的各样本数据流进行设备异常标签的标记。
[0045]
s104,利用由当前的统计特征检测模型标记设备异常标签的样本数据流,分别对当前的字符特征检测模型及当前的图像特征检测模型进行训练;利用由当前的字符特征检测模型标记设备异常标签的样本数据流,分别对当前的统计特征检测模型及当前的图像特征检测模型进行训练;利用由当前的图像特征检测模型标记设备异常标签的样本数据流,分别对当前的字符特征检测模型及当前的统计特征检测模型进行训练;得到训练后的统计特征检测模型、训练后的字符特征检测模型以及训练后的图像特征检测模型。
[0046]
对第二样本流量集合中的样本数据流标记设备异常标签后,可以进一步对当前的统计特征检测模型、当前的字符特征检测模型及当前的图像特征检测模型进行融合训练,具体的,可以利用由当前的统计特征检测模型标记设备异常标签的样本数据流,分别对当前的字符特征检测模型及当前的图像特征检测模型进行训练,利用由当前的字符特征检测模型标记设备异常标签的样本数据流,分别对当前的统计特征检测模型及当前的图像特征检测模型进行训练,利用由当前的图像特征检测模型标记设备异常标签的样本数据流,分别对当前的字符特征检测模型及当前的统计特征检测模型进行训练,得到训练后的统计特征检测模型、训练后的字符特征检测模型以及训练后的图像特征检测模型。
[0047]
本发明实施例提供的一种基于特征迁移的设备异常检测模型训练方法,可以利用第一样本流量集合中的样本数据流及设备异常标签,分别对统计特征检测模型、字符特征检测模型及图像特征检测模型进行训练,再分别利用训练的当前的统计特征检测模型、当前的字符特征检测模型及当前的图像特征检测模型,对第二样本流量集合中的样本数据流标记设备异常标签,进而无需对所有样本数据流进行标签的维护,避免了人工标注样本标签造成较高的异常检测模型训练成本,以及设备异常检测成本高的问题。同时综合考虑了每一样本数据流的统计特征、字符特征以及图像特征,使得利用由当前的统计特征检测模
型标记设备异常标签的样本数据流,分别对当前的字符特征检测模型及当前的图像特征检测模型进行训练;利用由当前的字符特征检测模型标记设备异常标签的样本数据流,分别对当前的统计特征检测模型及当前的图像特征检测模型进行训练;利用由当前的图像特征检测模型标记设备异常标签的样本数据流,分别对当前的字符特征检测模型及当前的统计特征检测模型进行训练,得到训练后的统计特征检测模型、训练后的字符特征检测模型以及训练后的图像特征检测模型更准确,进而在使用训练后的统计特征检测模型、训练后的字符特征检测模型以及训练后的图像特征检测模型对设备异常检测的过程中,能够避免了人工标注样本标签造成较高的异常检测模型训练成本,以及设备异常检测成本高的问题。提高设备异常检测的准确率。
[0048]
在一些实施例中,如图2所示,上述步骤s102利用第一样本流量集合中的样本数据流及设备异常标签,分别对统计特征检测模型、字符特征检测模型及图像特征检测模型进行训练的实施方式,可以包括:s201,在第一样本流量集合中选取一个未选取过的样本数据流。
[0049]
第一样本流量集合中的各样本数据流均标记有设备异常标签,可以利用第一样本流量集合中的每一样本数据流及其对应的设备异常标签,分别对统计特征检测模型、字符特征检测模型及图像特征检测模型进行训练。
[0050]
s202,提取当前选取的样本数据流的统计特征、字符特征以及图像特征。
[0051]
其中,统计特征表示相应样本数据流的数据统计特征,字符特征表示相应样本数据流的应用层字符特征,图像特征表示相应样本数据流的数据空间特征。
[0052]
在一些实施例中,提取当前选取的样本数据流的统计特征、字符特征以及图像特征的实施方式,可以包括:提取当前选取的样本数据流指定统计项目,得到当前选取的样本数据流的统计特征,其中,指定统计项目包括以下项目中的至少一项:样本数据流的数据包数量、数据包大小的均值、数据包大小的中位数、数据包大小的最大值、数据包大小的最小值、空载荷数据包数量、数据包大小小于预设字节数的数据包数量、数据包大小小于预设字节数的数据包数量占比、持续时长、第一个数据包大小、平均数据包大小、平均数据包传输速率、数据包平均到达时间。
[0053]
其中,上述预设字节数可以根据实际需求进行设置,比如30、40或50等等,持续时长可以是传输对应样本数据流所花费的时长等。示例性的,针对当前选取的样本数据流,提取得到当前选取的样本数据流的指定统计项目可以包括:当前选取的样本数据流的数据包数量f1、数据包大小的均值f2、数据包大小的中位数f3、数据包大小的最大值f4、数据包大小的最小值f5、空载荷数据包数量f6、数据包大小小于预设字节数的数据包数量f7、数据包大小小于预设字节数的数据包数量占比f8、持续时长f9、第一个数据包大小f10、平均数据包大小f11、平均数据包传输速率f12、数据包平均到达时间f13,则提取到的当前选取的样本数据流的统计特征可以表示为 = [f1, f2, f3, f4, f5, f6, f7, f8, f9, f10, f11, f12, f13],表示当前选取的样本数据流的统计特征,s表示统计特征,n表示数据流的标识。
[0054]
提取当前选取的样本数据流中各数据包的应用层字符段,并将各应用层字符段进行拼接,得到当前选取的样本数据流的字符特征。
[0055]
一个例子中,针对当前选取的样本数据流,可以提取当前选取的样本数据流中各数据包的应用层有效载荷payload字符段,将各应用层payload字符段进行拼接表示,得到当前选取的样本数据流的字符特征。示例性的,可以提取当前选取的样本数据流中各数据包的应用层payload字符段,将各应用层payload字符段进行拼接,按照16进制进行表示,得到的当前选取的样本数据流的字符特征可以表示为 = [c1, c2, c3, c4,

cx],其中,表示当前选取的样本数据流的字符特征,c表示字符特征,n表示数据流的标识,x表示向量的长度,cx表示第x个payload字符段对应的16进制向量表示,每一应用层payload字符段的16进制向量长度可能不同。
[0056]
截取当前选取的样本数据流的字符特征中预设数量个字符,并将所截取的字符排列成t
×
t的二维矩阵,得到该当前选取的样本数据流的图像特征。
[0057]
针对当前选取的样本数据流,可以截取当前选取的样本数据流的字符特征中前预设数量个字符,该预设数量可以根据实际需要进行设置,将所截取的字符排列成t
×
t的二维矩阵,t为大于1的正整数,t
×
t的结果为预设数量,该二维矩阵可以理解为该当前选取的样本数据流的图像特征。
[0058]
在一些实施例中,当前选取的样本数据流的字符特征的长度不大于预设数量的情况下,可以利用特殊字符比如0等对截取的当前选取的样本数据流的字符进行补齐,当前选取的样本数据流的字符特征的长度大于预设数量的情况下,截取当前选取的样本数据流的字符特征中前预设数量个字符。
[0059]
示例性的,预设数量可以为784,即截取当前选取的样本数据流的字符特征中前786个16进制字符,排列成28
×
28的二维矩阵,得到该当前选取的样本数据流的图像特征。得到的当前选取的样本数据流的图像特征可以表示为 = [[p1, p2, p3,

p28], [p29,p30,p31,
ꢀ…
,p56],
ꢀ…
[p756,p757,p758,
ꢀ…
,p784]],表示当前选取的样本数据流的图像特征,p表示图像特征,n表示数据流的标识,p1表示当前选取的样本数据流图像特征中的第一个特征元素,p2表示当前选取的样本数据流图像特征中的第二个特征元素,以此类推。
[0060]
参见图2,s203,将当前选取的样本数据流的统计特征输入到统计特征检测模型中得到第一预测结果,根据当前的第一预测结果及当前选取的样本数据流的设备异常标签,调整统计特征检测模型的参数。
[0061]
将当前选取的样本数据流的统计特征输入到统计特征检测模型中进行设备异常标签的预测,得到第一预测结果,计算第一预测结果与当前选取的样本数据流的设备异常标签之间的损失,根据该损失调整统计特征检测模型的参数,对统计特征检测模型进行训练。
[0062]
s204,将当前选取的样本数据流的字符特征输入到字符特征检测模型中得到第二预测结果,根据当前的第二预测结果及当前选取的样本数据流的设备异常标签,调整字符特征检测模型的参数。
[0063]
将当前选取的样本数据流的字符特征输入到字符特征检测模型中进行设备异常标签的预测,得到第二预测结果,计算第二预测结果与当前选取的样本数据流的设备异常标签之间的损失,根据该损失调整字符特征检测模型的参数,对字符特征检测模型进行训
练。
[0064]
s205,将当前选取的样本数据流的图像特征输入到图像特征检测模型中得到第三预测结果,根据当前的第三预测结果及当前选取的样本数据流的设备异常标签,调整图像特征检测模型的参数,返回执行步骤s201直至第一样本流量集合中不存在未选取过的样本数据流。
[0065]
将当前选取的样本数据流的图像特征输入到图像特征检测模型中进行设备异常标签的预测,得到第三预测结果,计算第三预测结果与当前选取的样本数据流的设备异常标签之间的损失,根据该损失调整图像特征检测模型的参数,对图像特征检测模型进行训练。
[0066]
其中,上述步骤s203,步骤s204和步骤s205可以同步进行,也可以不同步进行,本发明实施例对此不作限定。在完成对统计特征检测模型、字符特征检测模型及图像特征检测模型当前阶段的训练后,可以返回执行步骤s201:在第一样本流量集合中选取一个未选取过的样本数据流,直至第一样本流量集合中不存在未选取过的样本数据流,完成对统计特征检测模型、字符特征检测模型及图像特征检测模型当前阶段的训练。
[0067]
本发明实施例中,利用第一样本流量集合中的样本数据流及设备异常标签,分别对统计特征检测模型、字符特征检测模型及图像特征检测模型进行训练,以便于能够利用训练的统计特征检测模型、字符特征检测模型及图像特征检测模型,对第二样本流量集合中的样本数据流标记设备异常标签。
[0068]
在一些实施例中,还可以获取测试流量集合,其中,该测试流量集合中的各样本数据流均标记有设备异常标签。
[0069]
一个例子中,上述获取到包含标记有设备异常标签的样本数据流的数据集后,可以将包含标记有设备异常标签的样本数据流的数据集中的一部分样本数据流作为第一样本流量集合,另一部分样本数据流作为测试流量集合。
[0070]
示例性的,包含标记有设备异常标签的样本数据流的数据集可以表示为,第一样本流量集合可以表示为,测试流量集合可以表示为,中样本数据流的数量可以占的80%,中样本数据流的数量可以占的20%等等。
[0071]
相应的,上述在利用第一样本流量集合中的样本数据流及设备异常标签,分别对统计特征检测模型、字符特征检测模型及图像特征检测模型进行训练的步骤之后,还可以包括:利用测试流量集合中的样本数据流,分别对当前的统计特征检测模型、当前的字符特征检测模型及当前的图像特征检测模型进行测试,得到当前的统计特征检测模型的准确率、当前的字符特征检测模型的准确率及当前的图像特征检测模型的准确率。
[0072]
一个例子中,可以将测试流量集合中的样本数据流的统计特征,输入到当前的统计特征检测模型中进行设备异常标签的预测,得到第四预测结果,计算该第四预测结果与该样本数据流对应的设备异常标签之间的误差,得到当前的统计特征检测模型的准确率,该当前的统计特征检测模型的准确率,可以是测试流量集合中每一样本数据流对应的第四预测结果与其对应的设备异常标签之间误差的最大值、最小值、平均值或加权平均值等。示例性的,该当前的统计特征检测模型的准确率可以表示为。
[0073]
一个例子中,可以将测试流量集合中的样本数据流的字符特征,输入到当前的字符特征检测模型中进行设备异常标签的预测,得到第五预测结果,计算该第五预测结果与该样本数据流对应的设备异常标签之间的误差,得到当前的字符特征检测模型的准确率,该当前的字符特征检测模型的准确率,可以是测试流量集合中每一样本数据流对应的第五预测结果与其对应的设备异常标签之间误差的最大值、最小值、平均值或加权平均值等。示例性的,该当前的字符特征检测模型的准确率可以表示为。
[0074]
一个例子中,可以将测试流量集合中的样本数据流的图像特征,输入到当前的图像特征检测模型中进行设备异常标签的预测,得到第六预测结果,计算该第六预测结果与该样本数据流对应的设备异常标签之间的误差,得到当前的图像特征检测模型的准确率,该当前的图像特征检测模型的准确率,可以是测试流量集合中每一样本数据流对应的第六预测结果与其对应的设备异常标签之间误差的最大值、最小值、平均值或加权平均值等。示例性的,该当前的图像特征检测模型的准确率可以表示为。
[0075]
其中,测试流量集合中的样本数据流的统计特征、字符特征以及图像特征的提取方式可参见上文描述,本发明实施例在此不再赘述。
[0076]
在一些实施例中,如图3所示,上述分别利用当前的统计特征检测模型、当前的字符特征检测模型及当前的图像特征检测模型,对第二样本流量集合中的样本数据流标记设备异常标签;利用由当前的统计特征检测模型标记设备异常标签的样本数据流,分别对当前的字符特征检测模型及当前的图像特征检测模型进行训练;利用由当前的字符特征检测模型标记设备异常标签的样本数据流,分别对当前的统计特征检测模型及当前的图像特征检测模型进行训练;利用由当前的图像特征检测模型标记设备异常标签的样本数据流,分别对当前的字符特征检测模型及当前的统计特征检测模型进行训练;得到训练后的统计特征检测模型、训练后的字符特征检测模型以及训练后的图像特征检测模型的实施方式,可以包括:s301,在第二样本流量集合中选取指定数量的样本数据流,得到多个第一样本数据流。
[0077]
第二样本流量集合中的各样本数据流没有标记设备异常标签,在对第二样本流量集合中的各样本数据流的设备异常标签进行标记的过程中,可以每次选取指定数量的样本数据流进行标记,将该指定数量的样本数据流作为第一样本数据流,该指定数量可以根据需求进行设置。示例性的,第一样本流量集合中的各样本数据流均标记有设备异常标签,其数量可能是有限的,可以选取该指定数量为第一样本流量集合中样本数据流数量数量的三分之一、四分之一或五分之一等等。
[0078]
s302,分别利用当前的统计特征检测模型、当前的字符特征检测模型及当前的图像特征检测模型,对各第一样本数据流标记设备异常标签,得到至少一部分第一样本数据流作为第二样本数据流。
[0079]
一个例子中,可以针对每一个第一样本数据流,将该第一样本数据流的统计特征,输入到当前的统计特征检测模型中进行设备异常标签的预测,得到该第一样本数据流的设备异常标签;将该第一样本数据流的字符特征,输入到当前的字符特征检测模型中进行设备异常标签的预测,得到该第一样本数据流的设备异常标签;将该第一样本数据流的图像特征,输入到当前的图像特征检测模型中进行设备异常标签的预测,得到该第一样本数据
流的设备异常标签,利用预测到的第一样本数据流的设备异常标签对第一样本数据流进行设备异常标签的标记。当同一第一样本数据流具有不同的设备异常标签时,选取置信度最高的设备异常标签作为该第一样本数据流的设备异常标签。
[0080]
进一步可以在各第一样本数据流中随机选取部分第一样本数据流,作为第二样本数据流,或者选取部分预测设备异常标签的置信度高的第一样本数据流,作为第二样本数据流,该部分可以是第一样本数据流数量的十分之一、五分之一等,可以根据实际需求设置。
[0081]
其中,第二样本流量集合中的样本数据流的统计特征、字符特征以及图像特征的提取方式可参见上文描述,本发明实施例在此不再赘述。
[0082]
s303,利用由当前的统计特征检测模型标记设备异常标签的第二样本数据流,分别对当前的字符特征检测模型及当前的图像特征检测模型进行训练;利用由当前的字符特征检测模型标记设备异常标签的第二样本数据流,分别对当前的统计特征检测模型及当前的图像特征检测模型进行训练;利用由当前的图像特征检测模型标记设备异常标签的第二样本数据流,分别对当前的字符特征检测模型及当前的统计特征检测模型进行训练。
[0083]
s304,利用测试流量集合中的样本数据流,分别对当前的统计特征检测模型、当前的字符特征检测模型及当前的图像特征检测模型进行测试,得到当前的统计特征检测模型的准确率、当前的字符特征检测模型的准确率及当前的图像特征检测模型的准确率。
[0084]
利用由当前的统计特征检测模型标记设备异常标签的第二样本数据流,由当前的字符特征检测模型标记设备异常标签的第二样本数据流,以及由当前的图像特征检测模型标记设备异常标签的第二样本数据流,对当前的统计特征检测模型、当前的字符特征检测模型及当前的图像特征检测模型进行融合训练。进一步利用测试流量集合中的样本数据流,分别对融合训练得到的当前的统计特征检测模型、当前的字符特征检测模型及当前的图像特征检测模型进行测试,得到当前的统计特征检测模型的准确率、当前的字符特征检测模型的准确率及当前的图像特征检测模型的准确率。具体的,利用测试流量集合中的样本数据流,分别对当前的统计特征检测模型、当前的字符特征检测模型及当前的图像特征检测模型进行测试,得到当前的统计特征检测模型的准确率、当前的字符特征检测模型的准确率及当前的图像特征检测模型的准确率的实施方式可参见上文描述,本发明实施例在此不再赘述。
[0085]
s305,在当前的统计特征检测模型的准确率不低于上一阶段统计特征检测模型的准确率、且当前的字符特征检测模型的准确率不低于上一阶段的字符特征检测模型的准确率、且当前的图像特征检测模型的准确率不低于上一阶段的图像特征检测模型的准确率的情况下,将当前的各第二样本数据流从第二样本流量集合中移除,否则将当前的各第二样本数据流放回第二样本流量集合中;返回执行步骤s301直至第二样本流量集合为空集,得到训练后的统计特征检测模型、训练后的字符特征检测模型以及训练后的图像特征检测模型。
[0086]
示例性的,当前的统计特征检测模型的准确率可以表示为,上一阶段统计特征检测模型的准确率可以表示为,当前的字符特征检测模型的准确率可以表示为,上一阶段的字符特征检测模型的准确率可以表示为,当前的图像特征检测
模型的准确率可以表示为,上一阶段的图像特征检测模型的准确率可以表示为。在,且,且的情况下,表示当前的各第二样本数据流的设备异常标签有效,将当前的各第二样本数据流从第二样本流量集合中移除,否则,表示当前的各第二样本数据流的设备异常标签不准确,将当前的各第二样本数据流放回第二样本流量集合中。返回执行步骤s301:在第二样本流量集合中选取指定数量的样本数据流,得到多个第一样本数据流,直至第二样本流量集合为空集,得到训练后的统计特征检测模型、训练后的字符特征检测模型以及训练后的图像特征检测模型。
[0087]
第二样本流量集合为空集,表示完成了对第二样本流量集合中各样本数据流设备异常标签的标记,此时也完成了对当前的统计特征检测模型、当前的字符特征检测模型及当前的图像特征检测模型的融合训练。
[0088]
本发明实施例中,综合考虑了每一样本数据流的统计特征、字符特征以及图像特征,在分别利用当前的统计特征检测模型、当前的字符特征检测模型及当前的图像特征检测模型,对第二样本流量集合中的样本数据流标记设备异常标签的过程中,利用由当前的统计特征检测模型标记设备异常标签的第二样本数据流,由当前的字符特征检测模型标记设备异常标签的第二样本数据流,以及由当前的图像特征检测模型标记设备异常标签的第二样本数据流,对当前的统计特征检测模型、当前的字符特征检测模型及当前的图像特征检测模型进行融合训练,使得训练后的统计特征检测模型、训练后的字符特征检测模型以及训练后的图像特征检测模型更准确,进而在使用训练后的统计特征检测模型、训练后的字符特征检测模型以及训练后的图像特征检测模型对设备异常检测的过程中,能够提高设备异常检测的准确率。
[0089]
在一些实施例中,如图4所示,上述步骤s302分别利用当前的统计特征检测模型、当前的字符特征检测模型及当前的图像特征检测模型,对各第一样本数据流标记设备异常标签,得到至少一部分第一样本数据流作为第二样本数据流的实施方式,可以包括:s401,针对每一个第一样本数据流,利用当前的统计特征检测模型预测得到该第一样本数据流的设备异常标签及对应的置信度,利用当前的字符特征检测模型预测得到该第一样本数据流的设备异常标签及对应的置信度,利用当前的图像特征检测模型预测得到该第一样本数据流的设备异常标签及对应的置信度。
[0090]
针对每一个第一样本数据流,将该第一样本数据流的统计特征,输入到当前的统计特征检测模型中进行设备异常标签的预测,得到该第一样本数据流的设备异常标签及对应的置信度;针对每一个第一样本数据流,将该第一样本数据流的字符特征,输入到当前的字符特征检测模型中进行设备异常标签的预测,得到该第一样本数据流的设备异常标签及对应的置信度;针对每一个第一样本数据流,将该第一样本数据流的图像特征,输入到当前的图像特征检测模型中进行设备异常标签的预测,得到该第一样本数据流的设备异常标签及对应的置信度。
[0091]
s402,针对当前的统计特征检测模型,选取置信度最高的前n个设备异常标签对应的第一样本数据流,得到n个第二样本数据流。
[0092]
n的取值可以根据需求进行设置,一个例子中,n可以是第一样本数据流个数的十分之一、九分之一或二十分之一等等。示例性的,第一样本流量集合中样本数据流的
个数为100个,在第二样本流量集合中选取四分之一个中样本数据流个数的第一样本数据流(即25个),针对每一个第一样本数据流,利用当前的统计特征检测模型预测得到该第一样本数据流的设备异常标签及对应的置信度,选取置信度最高的前2(即n为25
×
1/10向下取整)个设备异常标签对应的第一样本数据流,得到2个第二样本数据流。
[0093]
s403,针对当前的字符特征检测模型,选取置信度最高的前n个设备异常标签对应的第一样本数据流,得到n个第二样本数据流。
[0094]
s404,针对当前的图像特征检测模型,选取置信度最高的前n个设备异常标签对应的第一样本数据流,得到n个第二样本数据流。
[0095]
其中,上述步骤s402,步骤s403和步骤s404可以同步进行,也可以不同步进行,本发明实施例对此不作限定。步骤s402,步骤s403和步骤s404的实现过程可以互相参考。
[0096]
在一些实施例中,当同一第二样本数据流具有不同的设备异常标签时,选取置信度最高的设备异常标签作为该第二样本数据流的设备异常标签。
[0097]
本发明实施例中,选取置信度最高的前n个设备异常标签对应的第一样本数据流作为第二样本数据流,利用该第二样本数据流对当前的统计特征检测模型、当前的字符特征检测模型及当前的图像特征检测模型进行融合训练,能够加快对第二样本流量集合中各样本数据流的设备异常标签进行标记的速度。且,当同一第二样本数据流具有不同的设备异常标签时,选取置信度最高的设备异常标签作为该第二样本数据流的设备异常标签,保证同一个样本数据流有且仅有一个标签。
[0098]
在一些实施例中,如图5所示,上述步骤s303利用由当前的统计特征检测模型标记设备异常标签的第二样本数据流,分别对当前的字符特征检测模型及当前的图像特征检测模型进行训练;利用由当前的字符特征检测模型标记设备异常标签的第二样本数据流,分别对当前的统计特征检测模型及当前的图像特征检测模型进行训练;利用由当前的图像特征检测模型标记设备异常标签的第二样本数据流,分别对当前的字符特征检测模型及当前的统计特征检测模型进行训练的实施方式,可以包括:s501,利用通过当前的统计特征检测模型得到的n个第二样本数据流,分别对当前的字符特征检测模型及当前的图像特征检测模型进行训练。
[0099]
s502,利用通过当前的字符特征检测模型得到的n个第二样本数据流,分别对当前的统计特征检测模型及当前的图像特征检测模型进行训练。
[0100]
s503,利用通过当前的图像特征检测模型得到的n个第二样本数据流,分别对当前的字符特征检测模型及当前的统计特征检测模型进行训练。
[0101]
一个例子中,通过当前的统计特征检测模型得到的n个第二样本数据流可以表示为,通过当前的字符特征检测模型得到的n个第二样本数据流可以表示为,通过当前的图像特征检测模型得到的n个第二样本数据流可以表示为,进而,可以利用分别对当前的字符特征检测模型及当前的图像特征检测模型进行训练,利用分别对当前的统计特征检测模型及当前的图像特征检测模型进行训练,以及利用分别对当前的字符特征检测模型及当前的统计特征检测模型进行训练。换言之,也可以利用和对当前的统计特征检测模型进行训练,利用和对当前的字符特征检测模型进行训练,以及利用和对当前的统计特征检测模型进行训练。
[0102]
本发明实施例中,综合考虑了每一样本数据流的统计特征、字符特征以及图像特征,利用由当前的统计特征检测模型标记设备异常标签的第二样本数据流,由当前的字符特征检测模型标记设备异常标签的第二样本数据流,以及由当前的图像特征检测模型标记设备异常标签的第二样本数据流,对当前的统计特征检测模型、当前的字符特征检测模型及当前的图像特征检测模型进行融合训练,使得训练后的统计特征检测模型、训练后的字符特征检测模型以及训练后的图像特征检测模型更准确,进而在使用训练后的统计特征检测模型、训练后的字符特征检测模型以及训练后的图像特征检测模型对设备异常检测的过程中,能够提高设备异常检测的准确率。
[0103]
本发明实施例还提供了一种基于特征迁移的设备异常检测方法,参见图6,该方法可以包括:s601,获取待检测设备的数据流。
[0104]
在一些实施例中,可以通过以下方式获取待检测设备的数据流:获取由监测设备采集的待检测设备的流量数据;在流量数据的数据包中,确定具有相同源设备ip地址、源设备端口号、目的设备ip地址以及目的设备端口号的目标数据包;针对各目标数据包,根据源设备与目的设备之间建立连接标志位与关闭连接标志位,确定待检测设备的数据流;或者,针对各目标数据包,根据相邻目标数据包之间的时间差与预设阈值之间的大小关系,确定待检测设备的数据流。
[0105]
针对待检测设备,可以采用旁路监听的方式通过监测设备采集待检测设备的流量数据,进一步可以对所采集的流量数据进行划分和重组,在流量数据的数据包中,确定具有相同源设备ip地址、源设备端口号、目的设备ip地址以及目的设备端口号的目标数据包。针对tcp协议下的目标数据包,可以根据源设备与目的设备之间建立连接标志位syn与关闭连接标志位fin的动作,确定各目标数据包是否属于同一数据流,将属于同一数据流的目标数据包,确定为一个数据流,得到待检测设备的数据流;针对udp协议下的目标数据包,可以计算相邻目标数据包之间的时间差是否大于预设阈值,如果是,则该相邻目标数据包不属于同一个数据流,如果不是,则该目标相邻数据包属于同一个数据流,将属于同一数据流的目标数据包,确定为一个数据流,得到待检测设备的数据流。其中,预设阈值的大小可以根据实际情况设定。
[0106]
s602,提取数据流的统计特征、字符特征以及图像特征。
[0107]
其中,数据流的统计特征表示数据流的数据统计特征,数据流的字符特征表示数据流的应用层字符特征,数据流的图像特征表示数据流的数据空间特征。
[0108]
具体的,提取数据流的统计特征、字符特征以及图像特征的实施方式可参见上文描述,本发明实施例在此不再赘述。
[0109]
s603,将统计特征输入到预先训练的统计特征检测模型中得到第一检测结果,将字符特征输入到预先训练的字符特征检测模型中得到第二检测结果,将图像特征输入到预先训练的图像特征检测模型中得到第三检测结果。
[0110]
其中,统计特征检测模型、字符特征检测模型以及图像特征检测模型是通过上述基于特征迁移的设备异常检测模型训练方法训练得到的。
[0111]
s604,基于第一检测结果,第二检测结果以及第三检测结果,确定待检测设备的异常检测结果。
[0112]
一个例子中,在统计特征检测模型、字符特征检测模型以及图像特征检测模型为二分类模型的情况下,可以对第一检测结果对应的置信度,第二检测结果对应的置信度以及第三检测结果对应的置信度求加权和,比较该加权和值是否大于设定阈值,如果大于则认为待检测设备异常,如果不大于则认为待检测设备正常,设定阈值可以根据需求进行设置,比如可以设置为0.5、0.8或0.9等等。当然,也可以对第一检测结果对应的置信度,第二检测结果对应的置信度以及第三检测结果对应的置信度求平均,或取最大值、最小值等等。
[0113]
一个例子中,在统计特征检测模型、字符特征检测模型以及图像特征检测模型为多分类模型的情况下,可以分别针对每一类别,对第一检测结果对应的置信度,第二检测结果对应的置信度以及第三检测结果对应的置信度求加权和,比较该加权和值是否大于设定阈值,如果大于则认为待检测设备异常,如果不大于则认为待检测设备正常,设定阈值可以根据需求进行设置,比如可以设置为0.5、0.8或0.9等等。当然,也可以对第一检测结果对应的置信度,第二检测结果对应的置信度以及第三检测结果对应的置信度求平均,或取最大值、最小值等等。
[0114]
本发明实施例提供的一种基于特征迁移的设备异常检测方法,可以利用综合考虑了数据流的统计特征、字符特征以及图像特征,融合训练得到的统计特征检测模型、字符特征检测模型以及图像特征检测模型对待检测设备进行异常检测,因融合训练得到的统计特征检测模型、字符特征检测模型以及图像特征检测模型准确率高,进而能够提高设备异常检测的准确率。
[0115]
示例性的,如图7所示,图7为本发明实施例的一种基于特征迁移的设备异常检测方法的过程示意图。
[0116]
本发明实施例的一种基于特征迁移的设备异常检测方法可以划分为两个部分,一部分为模型训练,一部分为异常检测。其中,在需要对设备进行异常检测时,可以通过设备流量数据监听模块,采用旁路监听的方式通过旁路监测设备采集该设备的流量数据,并对所采集的流量数据进行划分和重组,得到该流量数据对应的数据流,将得到的数据流存储至数据库中。
[0117]
通过流量数据提取模块提取数据库中存储的流量数据对应的数据流,再利用特征提取与初始标签模块,对各数据流的统计特征、字符特征以及图像特征进行提取,以及利用预设的规则对各数据流进行设备异常标签的初始标记。因预设的规则对数据流的标记能力有限,使得部分数据流能够准确的标记设备异常标签,而部分数据流无法完成设备异常标签的标记,进而可以通过融合训练与二次标签模块,利用标记有设备异常标签的数据流,分别对统计特征检测模型、字符特征检测模型及图像特征检测模型进行训练,以及分别利用训练的当前的统计特征检测模型、当前的字符特征检测模型及当前的图像特征检测模型,对没有标记设备异常标签的数据流进行设备异常标签的标记。
[0118]
进一步,通过异常检测模型训练模块,利用完成设备异常标签标记的数据流及对应的设备异常标签,对当前的统计特征检测模型、当前的字符特征检测模型及当前的图像特征检测模型进行融合训练,得到训练后的统计特征检测模型、训练后的字符特征检测模型以及训练后的图像特征检测模型。
[0119]
训练后的统计特征检测模型、训练后的字符特征检测模型以及训练后的图像特征检测模型可以集成在实时异常检测模块中。进而可以在需要对设备进行异常检测时,通过实时异常检测模块,将通过设备流量数据监听模块监听到的数据流的统计特征,输入到训练后的统计特征检测模型中得到第一检测结果,将数据流的字符特征输入到训练后的字符特征检测模型中得到第二检测结果,将数据流的图像特征输入到训练后的图像特征检测模型中得到第三检测结果,再基于第一检测结果,第二检测结果以及第三检测结果,确定待检测设备的异常检测结果,实现设备的实时异常检测。
[0120]
本发明实施例还提供了一种基于特征迁移的设备异常检测模型训练装置,参见图8,该装置可以包括:第一数据获取模块801,用于获取第一样本流量集合及第二样本流量集合,其中,第一样本流量集合中的各样本数据流均标记有设备异常标签,第二样本流量集合中的各样本数据流没有标记设备异常标签,针对任一样本数据流,该样本数据流的设备异常标签表示该样本数据流对应的设备的异常情况;第一模型训练模块802,用于利用第一样本流量集合中的样本数据流及设备异常标签,分别对统计特征检测模型、字符特征检测模型及图像特征检测模型进行训练;第二模型训练模块803,用于分别利用当前的统计特征检测模型、当前的字符特征检测模型及当前的图像特征检测模型,对第二样本流量集合中的样本数据流标记设备异常标签;利用由当前的统计特征检测模型标记设备异常标签的样本数据流,分别对当前的字符特征检测模型及当前的图像特征检测模型进行训练;利用由当前的字符特征检测模型标记设备异常标签的样本数据流,分别对当前的统计特征检测模型及当前的图像特征检测模型进行训练;利用由当前的图像特征检测模型标记设备异常标签的样本数据流,分别对当前的字符特征检测模型及当前的统计特征检测模型进行训练;得到训练后的统计特征检测模型、训练后的字符特征检测模型以及训练后的图像特征检测模型。
[0121]
在一些实施例中,上述第一模型训练模块802,包括:样本选取子模块,用于在第一样本流量集合中选取一个未选取过的样本数据流;特征提取子模块,用于提取当前选取的样本数据流的统计特征、字符特征以及图像特征,其中,统计特征表示相应样本数据流的数据统计特征,字符特征表示相应样本数据流的应用层字符特征,图像特征表示相应样本数据流的数据空间特征;第一训练子模块,用于将当前选取的样本数据流的统计特征输入到统计特征检测模型中得到第一预测结果,根据当前的第一预测结果及当前选取的样本数据流的设备异常标签,调整统计特征检测模型的参数;第二训练子模块,用于将当前选取的样本数据流的字符特征输入到字符特征检测模型中得到第二预测结果,根据当前的第二预测结果及当前选取的样本数据流的设备异常标签,调整字符特征检测模型的参数;第三训练子模块,用于将当前选取的样本数据流的图像特征输入到图像特征检测模型中得到第三预测结果,根据当前的第三预测结果及当前选取的样本数据流的设备异常标签,调整图像特征检测模型的参数;第一触发子模块,用于触发样本选取子模块在第一样本流量集合中选取一个未选取过的样本数据流,直至第一样本流量集合中不存在未选取过的样本数据流。
[0122]
在一些实施例中,上述特征提取子模块,具体用于:提取当前选取的样本数据流指定统计项目,得到当前选取的样本数据流的统计特征,其中,指定统计项目包括以下项目中的至少一项:样本数据流的数据包数量、数据包大小的均值、数据包大小的中位数、数据包大小的最大值、数据包大小的最小值、空载荷数据包数量、数据包大小小于预设字节数的数据包数量、数据包大小小于预设字节数的数据包数量占比、持续时长、第一个数据包大小、平均数据包大小、平均数据包传输速率、数据包平均到达时间;提取当前选取的样本数据流中各数据包的应用层字符段,并将各应用层字符段进行拼接,得到当前选取的样本数据流的字符特征;截取当前选取的样本数据流的字符特征中预设数量个字符,并将所截取的字符排列成t
×
t的二维矩阵,得到该当前选取的样本数据流的图像特征。
[0123]
在一些实施例中,上述装置还包括:第三数据获取模块,用于获取测试流量集合,其中,测试流量集合中的各样本数据流均标记有设备异常标签;准确率测试模块,用于在利用第一样本流量集合中的样本数据流及设备异常标签,分别对统计特征检测模型、字符特征检测模型及图像特征检测模型进行训练的步骤之后,利用测试流量集合中的样本数据流,分别对当前的统计特征检测模型、当前的字符特征检测模型及当前的图像特征检测模型进行测试,得到当前的统计特征检测模型的准确率、当前的字符特征检测模型的准确率及当前的图像特征检测模型的准确率。
[0124]
上述第二模型训练模块803,包括:数据选取子模块,用于在第二样本流量集合中选取指定数量的样本数据流,得到多个第一样本数据流;样本确定子模块,用于分别利用当前的统计特征检测模型、当前的字符特征检测模型及当前的图像特征检测模型,对各第一样本数据流标记设备异常标签,得到至少一部分第一样本数据流作为第二样本数据流;融合训练子模块,用于利用由当前的统计特征检测模型标记设备异常标签的第二样本数据流,分别对当前的字符特征检测模型及当前的图像特征检测模型进行训练;利用由当前的字符特征检测模型标记设备异常标签的第二样本数据流,分别对当前的统计特征检测模型及当前的图像特征检测模型进行训练;利用由当前的图像特征检测模型标记设备异常标签的第二样本数据流,分别对当前的字符特征检测模型及当前的统计特征检测模型进行训练;准确率测试子模块,用于利用测试流量集合中的样本数据流,分别对当前的统计特征检测模型、当前的字符特征检测模型及当前的图像特征检测模型进行测试,得到当前的统计特征检测模型的准确率、当前的字符特征检测模型的准确率及当前的图像特征检测模型的准确率;第四训练子模块,用于在当前的统计特征检测模型的准确率不低于上一阶段统计特征检测模型的准确率、且当前的字符特征检测模型的准确率不低于上一阶段的字符特征检测模型的准确率、且当前的图像特征检测模型的准确率不低于上一阶段的图像特征检测模型的准确率的情况下,将当前的各第二样本数据流从第二样本流量集合中移除,否则将
当前的各第二样本数据流放回第二样本流量集合中;第二触发子模块,用于触发数据选取子模块在第二样本流量集合中选取指定数量的样本数据流,得到多个第一样本数据流,直至第二样本流量集合为空集,得到训练后的统计特征检测模型、训练后的字符特征检测模型以及训练后的图像特征检测模型。
[0125]
在一些实施例中,上述样本确定子模块,具体用于:针对每一个第一样本数据流,利用当前的统计特征检测模型预测得到该第一样本数据流的设备异常标签及对应的置信度,利用当前的字符特征检测模型预测得到该第一样本数据流的设备异常标签及对应的置信度,利用当前的图像特征检测模型预测得到该第一样本数据流的设备异常标签及对应的置信度;针对当前的统计特征检测模型,选取置信度最高的前n个设备异常标签对应的第一样本数据流,得到n个第二样本数据流;针对当前的字符特征检测模型,选取置信度最高的前n个设备异常标签对应的第一样本数据流,得到n个第二样本数据流;针对当前的图像特征检测模型,选取置信度最高的前n个设备异常标签对应的第一样本数据流,得到n个第二样本数据流。
[0126]
在一些实施例中,上述装置还包括:标签选取模块,用于当同一第二样本数据流具有不同的设备异常标签时,选取置信度最高的设备异常标签作为该第二样本数据流的设备异常标签。
[0127]
在一些实施例中,上述融合训练子模块,具体用于:利用通过当前的统计特征检测模型得到的n个第二样本数据流,分别对当前的字符特征检测模型及当前的图像特征检测模型进行训练;利用通过当前的字符特征检测模型得到的n个第二样本数据流,分别对当前的统计特征检测模型及当前的图像特征检测模型进行训练;利用通过当前的图像特征检测模型得到的n个第二样本数据流,分别对当前的字符特征检测模型及当前的统计特征检测模型进行训练。
[0128]
本发明实施例还提供了一种基于特征迁移的设备异常检测装置,参见图9,该装置可以包括:第二数据获取模块901,用于获取待检测设备的数据流;特征提取模块902,用于提取数据流的统计特征、字符特征以及图像特征,其中,数据流的统计特征表示数据流的数据统计特征,数据流的字符特征表示数据流的应用层字符特征,数据流的图像特征表示数据流的数据空间特征;异常检测模块903,用于将统计特征输入到预先训练的统计特征检测模型中得到第一检测结果,将字符特征输入到预先训练的字符特征检测模型中得到第二检测结果,将图像特征输入到预先训练的图像特征检测模型中得到第三检测结果;其中,统计特征检测模型、字符特征检测模型以及图像特征检测模型是通过上述基于特征迁移的设备异常检测模型训练方法训练得到的;异常确定模块904,用于基于第一检测结果,第二检测结果以及第三检测结果,确定待检测设备的异常检测结果。
[0129]
在一些实施例中,上述第二数据获取模块901,具体用于:
获取由监测设备采集的待检测设备的流量数据;在流量数据的数据包中,确定具有相同源设备ip地址、源设备端口号、目的设备ip地址以及目的设备端口号的目标数据包;针对各目标数据包,根据源设备与目的设备之间建立连接标志位与关闭连接标志位,确定待检测设备的数据流;或者,针对各目标数据包,根据相邻目标数据包之间的时间差与预设阈值之间的大小关系,确定待检测设备的数据流。
[0130]
本发明实施例提供了一种基于特征迁移的设备异常检测系统,其特征在于,所述系统包括:平台设备和多个待检测设备;所述平台设备,用于在运行时实现本技术中任一所述的基于特征迁移的设备异常检测方法。
[0131]
本发明实施例还提供了一种电子设备,如图10所示,包括处理器111、通信接口112、存储器113和通信总线114,其中,处理器111,通信接口112,存储器113通过通信总线114完成相互间的通信,存储器113,用于存放计算机程序;处理器111,用于执行存储器113上所存放的程序时,实现上述任一一种基于特征迁移的设备异常检测模型训练方法或基于特征迁移的设备异常检测方法的步骤,以达到相同的技术效果。
[0132]
上述电子设备提到的通信总线可以是外设部件互连标准(peripheral component interconnect,pci)总线或扩展工业标准结构(extended industry standard architecture,eisa)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示,图中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
[0133]
通信接口用于上述电子设备与其他设备之间的通信。
[0134]
存储器可以包括随机存取存储器(random access memory,ram),也可以包括非易失性存储器(non-volatile memory,nvm),例如至少一个磁盘存储器。可选的,存储器还可以是至少一个位于远离前述处理器的存储装置。
[0135]
上述的处理器可以是通用处理器,包括中央处理器(central processing unit,cpu)、网络处理器(network processor,np)等;还可以是数字信号处理器(digital signal processor,dsp)、专用集成电路(application specific integrated circuit,asic)、现场可编程门阵列(field-programmable gate array,fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
[0136]
在本发明提供的又一实施例中,还提供了一种计算机可读存储介质,该计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现上述任一一种基于特征迁移的设备异常检测模型训练方法或基于特征迁移的设备异常检测方法的步骤,以达到相同的技术效果。
[0137]
在本发明提供的又一实施例中,还提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述实施例中任一一种基于特征迁移的设备异常检测模型训练方法或基于特征迁移的设备异常检测方法的步骤,以达到相同的技术效果。
[0138]
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实
现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时,全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(dsl))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,dvd)、或者半导体介质(例如固态硬盘solid state disk (ssd))等。
[0139]
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个
……”
限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
[0140]
本说明书中的各个实施例均采用相关的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置/电子设备实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
[0141]
以上所述仅为本发明的较佳实施例,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等,均包含在本发明的保护范围内。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献