一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

基于卷积神经网络的日志分类方法、系统、设备和介质与流程

2022-02-22 02:54:16 来源:中国专利 TAG:


1.本发明属于存储集群日志管理技术领域,特别涉及基于卷积神经网络的日志分类方法、系统、设备和介质。


背景技术:

2.在大规模存储集群的日常运行中,随着数据访问量的增大和各种频繁的操作,大规模存储集群系统所产生的日志文件随时间逐渐开始暴增。运维和研发人员一般都是根据系统产生的日志进行系统的了解、优化以及一些问题的定位。
3.但是因为大多数原始的系统日志是非结构化的文本信息,不仅日志的体量大且存在大量冗余信息,这就给运维和研发人员带来了额外繁琐的工作量,出现效率底下和定位不准确的问题。


技术实现要素:

4.为了解决上述技术问题,本发明提出了基于卷积神经网络的日志分类方法、系统、设备和介质。将卷积神经网络模型应用在日志分类中,同时为了应对训练样本数据不能满足海量的级别,从结构和参数上对卷积神经网络进行了调整,以期提升检测速度和检测准确率。
5.为实现上述目的,本发明采用以下技术方案:
6.基于卷积神经网络的日志分类方法,包括以下步骤:
7.将获取的原始日志文件解析为结构化数据,以及对所述结构化数据进行特征提取得到特征集,并对所述特征集中的冷热样本进行一次标注;
8.将所述特征集按照预设的比例划分为训练集和测试集,采用所述训练集中的冷热样本对所述卷积神经网络进行训练,以及调整卷积神经网络的卷积核和训练参数;然后使用测试集对所述冷热样本进行二次标注,以及验证所述调整后的卷积神经网络;
9.将经过卷积神经网络训练后的日志分类管理。
10.进一步的,所述将获取的原始日志文件解析为结构化数据的方法包括:将获取的原始日志文件通过提取日志键值的方式解析为结构化数据;所述结构化数据包括常量部分和变量部分。
11.进一步的,所述对所述结构化数据进行特征提取得到特征集的方法包括:
12.对每条日志分别提取消息计数向量、流程状态向量、用户操作功能的频度和访问热度;
13.将提取的消息计数向量、流程状态向量、用户操作功能的频度和访问热度组合为特征向量。
14.进一步的,所述将所述特征集按照预设的比例划分为训练集和测试集的方法包括:
15.将所述特征集按照8:2的比例分为训练集和测试集。
16.进一步的,,所述采用所述训练集中的冷热样本对所述卷积神经网络进行训练,以及调整卷积神经网络的卷积核和训练参数的方法包括:
17.采用relu函数作为卷积神经网络的激活函数;
18.如果在训练过程中,因为数据集的数量小使训练效果不佳的情况,则删除掉卷积层;以及在全连接层加入迭代训练策略。
19.进一步的,所述迭代的过程包括:采用反向传播,基于最小化误差的准则逐步调节各层的权值和偏置。
20.进一步的,所述将经过卷积神经网络训练后的日志分类管理包括:
21.热日志设置延长日志压缩和保留时间的策略;
22.冷日志缩短压缩周期和保留时间。
23.本发明还提出了基于卷积神经网络的日志分类系统,包括预处理模块、训练模块和管理模块;
24.所述预处理模块用于将获取的原始日志文件解析为结构化数据,以及对所述结构化数据进行特征提取得到特征集,并对所述特征集中的冷热样本进行一次标注;
25.所述训练模块用于将所述特征集按照预设的比例划分为训练集和测试集,采用所述训练集中的冷热样本对所述卷积神经网络进行训练,以及调整卷积神经网络的卷积核和训练参数;然后使用测试集对所述冷热样本进行二次标注,以及验证所述调整后的卷积神经网络;
26.所述管理模块用于将经过卷积神经网络训练后的日志分类管理。
27.本发明还提出了一种设备,其包括:
28.存储器,用于存储计算机程序;
29.处理器,用于执行所述计算机程序时实现所述的方法步骤。
30.本发明还提出了让一种可读存储介质,所述可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现所述的方法步骤。
31.发明内容中提供的效果仅仅是实施例的效果,而不是发明所有的全部效果,上述技术方案中的一个技术方案具有如下优点或有益效果:
32.本发明提出了基于卷积神经网络的日志分类方法、系统、设备和介质,该方法包括将获取的原始日志文件解析为结构化数据,以及对结构化数据进行特征提取得到特征集,并对特征集中的冷热样本进行一次标注;将特征集按照预设的比例划分为训练集和测试集,采用训练集中的冷热样本对卷积神经网络进行训练,以及调整卷积神经网络的卷积核和训练参数;然后使用测试集对所述冷热样本进行二次标注,以及验证调整后的卷积神经网络;将经过卷积神经网络训练后的日志分类管理。基于卷积神经网络的日志分类方法,还提出了卷积神经网络的日志分类系统,设备和介质。本发明将卷积神经网络模型引入到日志的分类中,通过对大量的训练集进行特征提取和处理,将模型训练成一个类似于和人类一样有同样学习和思考能力的模型,能够快速准确的实现对系统产生爆炸性数量的日志进行分类。然后对热冷日志进行不同的管理,通过这样一种自动对日志进行分类和不同策略的管理,实现了提升日志的查询和访问速度、存储空间的优化的目标。
33.将卷积神经网络模型应用在日志分类中,同时为了应对训练样本数据不能满足海量的级别,从结构和参数上对卷积神经网络进行了调整,以期提升检测速度和检测准确率。
提高开发人员或操作者定位系统异常的效率,能够更好的维护集群系统的稳定性和安全性。
34.对分类产生的热日志设置更长的压缩周期和保留时间,对冷日志设置更短的压缩周期和保留时间,以此实现热日志的快速访问和存储空间优化。
附图说明
35.如图1为本发明实施例1提出的基于卷积神经网络的日志分类方法流程图;
36.如图2为本发明实施例1提出的原始系统日志预处理的流程图;
37.如图3为本发明实施例1提出的卷积神经网络训练的流程图;
38.如图4为本发明实施例1提出的不同日志的管理策略流程图;
39.如图5为本发明实施例2提出的基于卷积神经网络的日志分类系统示意图。
具体实施方式
40.为能清楚说明本方案的技术特点,下面通过具体实施方式,并结合其附图,对本发明进行详细阐述。下文的公开提供了许多不同的实施例或例子用来实现本发明的不同结构。为了简化本发明的公开,下文中对特定例子的部件和设置进行描述。此外,本发明可以在不同例子中重复参考数字和/或字母。这种重复是为了简化和清楚的目的,其本身不指示所讨论各种实施例和/或设置之间的关系。应当注意,在附图中所图示的部件不一定按比例绘制。本发明省略了对公知组件和处理技术及工艺的描述以避免不必要地限制本发明。
41.实施例1
42.本发明实施例1提出了基于卷积神经网络的日志分类方法,将卷积神经网络模型应用在日志分类中,同时为了应对训练样本数据不能满足海量的级别,从结构和参数上对卷积神经网络进行了调整,以期提升检测速度和检测准确率。提高开发人员或操作者定位系统异常的效率,能够更好的维护集群系统的稳定性和安全性。
43.日志:网络设备、系统及服务程序等,在运作时都会产生一个叫日志的事件记录;每一行日志都记载着日期、时间、使用者及动作等相关操作的描述。
44.卷积神经网络(cnn):cnn是仿造生物的视觉机制而构建,是一类包含卷积计算且具有深度结构的前馈神经网络,具有表征学习能力,也是深度学习的代表算法之一。
45.如图1为本发明实施例1提出的基于卷积神经网络的日志分类方法流程图;
46.在步骤s101中,将获取的原始日志文件解析为结构化数据,以及对结构化数据进行特征提取得到特征集,并对特征集中的冷热样本进行一次标注;
47.如图2为本发明实施例1提出的原始系统日志预处理的流程图;首先对原始系统日志进行解析,可以采用logkey的方法进行解析,因为每条日志是由常量和变量两部分组成,常量是由系统程序源码直接打印的消息,变量是一般是指时间戳或参数值。在特征提取中,对每条日志分别提取消息计数向量和流程状态向量。除此之外还提取了用户操作功能的频度和访问热度等指标,最后将这四种特征组合为特征向量。提取完特征向量之后,需要标注此特征向量所对应的日志的状态,也就是对特征集进行冷热样本的标注。
48.在步骤s102中,将特征集按照预设的比例划分为训练集和测试集,采用训练集中的冷热样本对卷积神经网络进行训练,以及调整卷积神经网络的卷积核和训练参数;然后
使用测试集对所述冷热样本进行二次标注,以及验证调整后的卷积神经网络。如图3为本发明实施例1提出的卷积神经网络训练的流程图;
49.如图3为本发明实施例1提出的卷积神经网络训练的流程图;将搜集的数据集一般按照8:2的比例分为训练集和测试集。首先使用训练集对卷积神经网络模型进行交叉优化训练,对cnn模型进行训练需要海量的样本,通常以万为单位,因此如果在样本数量不是十分充足的情况下直接用于模型的训练会出现过拟合、收敛速度慢以及最终分类效果不好的影响。为了应对上述影响,需要对cnn的结构进行调整优化。为了提高卷积神经网络的非线性映射能力,解决梯度弥散或梯度消失的问题,可以使用relu激活函数代替传统激活函数。传统的cnn模型除了输入层、隐含层、输出层,还有交替连接的卷积层和池化层,在日志的模型训过程中,存在数据集远远达不到海量级别,因此在传统的模型上,可以将传统的c5层(卷积层)去掉,这样不仅可以减少计算量和模型待训练参数,也能够解决在样本数量不足情况下出现模型过拟合的现象。除了上述的改进外,还可以在模型最后的全连接层加入dropout策略,在每次迭代训练过程中,模型的神经元会依照设定的概率处于休眠状态,但此时的训练参数仍符合神经网络权值共享的思想。在训练过程中,使用反向传播,然后基于最小化误差的准则逐步调节各层的权值和偏置,同时训练方式选择批量训练以避免反向搜索,网络的权值、偏置初始化、可以使用高斯函数进行随机初始化。在对该模型进行优化训练之后,需要使用测试集对模型效果进行测试,以此来验证模型的优劣。
50.在步骤s103中,将经过卷积神经网络训练后的日志分类管理。
51.如图4为本发明实施例1提出的不同日志的管理策略流程图;针对卷积神经网络进行过分类的日志,可以为冷热日志配置不同的管理策略,对于热日志,为了便于以后的还能快速查询访问,可以延长压缩日期,同时延长日志的保留时间,对于冷日志可以设置更短的压缩和删除时间。通过该方法,避免了在对所有的日志均设置相同时长进行压缩和删除而引起存储空间不足和系统性能下降的问题,同时这种热冷日志的管理方式也提高了日志的查询和访问速度,便于运维和研发人员对日志进行后续的操作。
52.本发明将卷积神经网络模型引入到日志的分类中,通过对大量的训练集进行特征提取和处理,将模型训练成一个类似于和人类一样有同样学习和思考能力的模型,能够快速准确的实现对系统产生爆炸性数量的日志进行分类。然后对热冷日志进行不同的管理,通过这样一种自动对日志进行分类和不同策略的管理,实现了提升日志的查询和访问速度、存储空间的优化的目标。
53.将卷积神经网络模型应用在日志分类中,同时为了应对训练样本数据不能满足海量的级别,从结构和参数上对卷积神经网络进行了调整,以期提升检测速度和检测准确率。提高开发人员或操作者定位系统异常的效率,能够更好的维护集群系统的稳定性和安全性。
54.对分类产生的热日志设置更长的压缩周期和保留时间,对冷日志设置更短的压缩周期和保留时间,以此实现热日志的快速访问和存储空间优化。
55.实施例2
56.基于本发明实施例1基于卷积神经网络的日志分类方法,还提出了基于卷积神经网络的日志分类系统。如图5为本发明实施例2提出的基于卷积神经网络的日志分类系统示意图,该系统包括预处理模块、训练模块和管理模块;
57.预处理模块用于将获取的原始日志文件解析为结构化数据,以及对所述结构化数据进行特征提取得到特征集,并对所述特征集中的冷热样本进行一次标注;
58.训练模块用于将特征集按照预设的比例划分为训练集和测试集,采用训练集中的冷热样本对所述卷积神经网络进行训练,以及调整卷积神经网络的卷积核和训练参数;然后使用测试集对所述冷热样本进行二次标注,以及验证调整后的卷积神经网络;
59.管理模块用于将经过卷积神经网络训练后的日志分类管理。
60.其中预处理模块实现的过程为:首先对原始系统日志进行解析,可以采用logkey的方法进行解析,因为每条日志是由常量和变量两部分组成,常量是由系统程序源码直接打印的消息,变量是一般是指时间戳或参数值。在特征提取中,对每条日志分别提取消息计数向量和流程状态向量。除此之外还提取了用户操作功能的频度和访问热度等指标,最后将这四种特征组合为特征向量。提取完特征向量之后,需要标注此特征向量所对应的日志的状态,也就是对特征集进行冷热样本的标注。
61.其中训练模块实现的过程为:将搜集的数据集一般按照8:2的比例分为训练集和测试集。首先使用训练集对卷积神经网络模型进行交叉优化训练,对cnn模型进行训练需要海量的样本,通常以万为单位,因此如果在样本数量不是十分充足的情况下直接用于模型的训练会出现过拟合、收敛速度慢以及最终分类效果不好的影响。为了应对上述影响,需要对cnn的结构进行调整优化。为了提高卷积神经网络的非线性映射能力,解决梯度弥散或梯度消失的问题,可以使用relu激活函数代替传统激活函数。传统的cnn模型除了输入层、隐含层、输出层,还有交替连接的卷积层和池化层,在日志的模型训过程中,存在数据集远远达不到海量级别,因此在传统的模型上,可以将传统的c5层(卷积层)去掉,这样不仅可以减少计算量和模型待训练参数,也能够解决在样本数量不足情况下出现模型过拟合的现象。除了上述的改进外,还可以在模型最后的全连接层加入dropout策略,在每次迭代训练过程中,模型的神经元会依照设定的概率处于休眠状态,但此时的训练参数仍符合神经网络权值共享的思想。在训练过程中,使用反向传播,然后基于最小化误差的准则逐步调节各层的权值和偏置,同时训练方式选择批量训练以避免反向搜索,网络的权值、偏置初始化、可以使用高斯函数进行随机初始化。在对该模型进行优化训练之后,需要使用测试集对模型效果进行测试,以此来验证模型的优劣。
62.其中管理模块实现的过程为:针对卷积神经网络进行过分类的日志,可以为冷热日志配置不同的管理策略,对于热日志,为了便于以后的还能快速查询访问,可以延长压缩日期,同时延长日志的保留时间,对于冷日志可以设置更短的压缩和删除时间。通过该方法,避免了在对所有的日志均设置相同时长进行压缩和删除而引起存储空间不足和系统性能下降的问题,同时这种热冷日志的管理方式也提高了日志的查询和访问速度,便于运维和研发人员对日志进行后续的操作。
63.实施例3
64.本发明还提出了一种设备,包括:
65.存储器,用于存储计算机程序;
66.处理器,用于执行所述计算机程序时实现方法步骤如下:
67.如图1为本发明实施例1提出的基于卷积神经网络的日志分类方法流程图;
68.在步骤s101中,将获取的原始日志文件解析为结构化数据,以及对结构化数据进
行特征提取得到特征集,并对特征集中的冷热样本进行一次标注;
69.如图2为本发明实施例1提出的原始系统日志预处理的流程图;首先对原始系统日志进行解析,可以采用logkey的方法进行解析,因为每条日志是由常量和变量两部分组成,常量是由系统程序源码直接打印的消息,变量是一般是指时间戳或参数值。在特征提取中,对每条日志分别提取消息计数向量和流程状态向量。除此之外还提取了用户操作功能的频度和访问热度等指标,最后将这四种特征组合为特征向量。提取完特征向量之后,需要标注此特征向量所对应的日志的状态,也就是对特征集进行冷热样本的标注。
70.在步骤s102中,将特征集按照预设的比例划分为训练集和测试集,采用训练集中的冷热样本对卷积神经网络进行训练,以及调整卷积神经网络的卷积核和训练参数;然后使用测试集对所述冷热样本进行二次标注,以及验证调整后的卷积神经网络。如图3为本发明实施例1提出的卷积神经网络训练的流程图;
71.如图3为本发明实施例1提出的卷积神经网络训练的流程图;将搜集的数据集一般按照8:2的比例分为训练集和测试集。首先使用训练集对卷积神经网络模型进行交叉优化训练,对cnn模型进行训练需要海量的样本,通常以万为单位,因此如果在样本数量不是十分充足的情况下直接用于模型的训练会出现过拟合、收敛速度慢以及最终分类效果不好的影响。为了应对上述影响,需要对cnn的结构进行调整优化。为了提高卷积神经网络的非线性映射能力,解决梯度弥散或梯度消失的问题,可以使用relu激活函数代替传统激活函数。传统的cnn模型除了输入层、隐含层、输出层,还有交替连接的卷积层和池化层,在日志的模型训过程中,存在数据集远远达不到海量级别,因此在传统的模型上,可以将传统的c5层(卷积层)去掉,这样不仅可以减少计算量和模型待训练参数,也能够解决在样本数量不足情况下出现模型过拟合的现象。除了上述的改进外,还可以在模型最后的全连接层加入dropout策略,在每次迭代训练过程中,模型的神经元会依照设定的概率处于休眠状态,但此时的训练参数仍符合神经网络权值共享的思想。在训练过程中,使用反向传播,然后基于最小化误差的准则逐步调节各层的权值和偏置,同时训练方式选择批量训练以避免反向搜索,网络的权值、偏置初始化、可以使用高斯函数进行随机初始化。在对该模型进行优化训练之后,需要使用测试集对模型效果进行测试,以此来验证模型的优劣。
72.在步骤s103中,将经过卷积神经网络训练后的日志分类管理。
73.如图4为本发明实施例1提出的不同日志的管理策略流程图;针对卷积神经网络进行过分类的日志,可以为冷热日志配置不同的管理策略,对于热日志,为了便于以后的还能快速查询访问,可以延长压缩日期,同时延长日志的保留时间,对于冷日志可以设置更短的压缩和删除时间。通过该方法,避免了在对所有的日志均设置相同时长进行压缩和删除而引起存储空间不足和系统性能下降的问题,同时这种热冷日志的管理方式也提高了日志的查询和访问速度,便于运维和研发人员对日志进行后续的操作。
74.本发明将卷积神经网络模型引入到日志的分类中,通过对大量的训练集进行特征提取和处理,将模型训练成一个类似于和人类一样有同样学习和思考能力的模型,能够快速准确的实现对系统产生爆炸性数量的日志进行分类。然后对热冷日志进行不同的管理,通过这样一种自动对日志进行分类和不同策略的管理,实现了提升日志的查询和访问速度、存储空间的优化的目标。
75.将卷积神经网络模型应用在日志分类中,同时为了应对训练样本数据不能满足海
量的级别,从结构和参数上对卷积神经网络进行了调整,以期提升检测速度和检测准确率。提高开发人员或操作者定位系统异常的效率,能够更好的维护集群系统的稳定性和安全性。
76.对分类产生的热日志设置更长的压缩周期和保留时间,对冷日志设置更短的压缩周期和保留时间,以此实现热日志的快速访问和存储空间优化。
77.需要说明:本发明技术方案还提供了一种电子设备,包括:通信接口,能够与其它设备比如网络设备等进行信息交互;处理器,与通信接口连接,以实现与其它设备进行信息交互,用于运行计算机程序时,执行上述一个或多个技术方案提供的基于卷积神经网络的日志分类方法,而所述计算机程序存储在存储器上。当然,实际应用时,电子设备中的各个组件通过总线系统耦合在一起。可理解,总线系统用于实现这些组件之间的连接通信。总线系统除包括数据总线之外,还包括电源总线、控制总线和状态信号总线。本技术实施例中的存储器用于存储各种类型的数据以支持电子设备的操作。这些数据的示例包括:用于在电子设备上操作的任何计算机程序。可以理解,存储器可以是易失性存储器或非易失性存储器,也可包括易失性和非易失性存储器两者。其中,非易失性存储器可以是只读存储器(rom,read only memory)、可编程只读存储器(prom,programmable read-only memory)、可擦除可编程只读存储器(eprom,erasable programmable read-only memory)、电可擦除可编程只读存储器(eeprom,electrically erasable programmable read-only memory)、磁性随机存取存储器(fram,ferromagnetic random access memory)、快闪存储器(flash memory)、磁表面存储器、光盘、或只读光盘(cd-rom,compact disc read-only memory);磁表面存储器可以是磁盘存储器或磁带存储器。易失性存储器可以是随机存取存储器(ram,random accessmemory),其用作外部高速缓存。通过示例性但不是限制性说明,许多形式的ram可用,例如静态随机存取存储器(sram,static random access memory)、同步静态随机存取存储器(ssram,synchronous static random access memory)、动态随机存取存储器(dram,dynamic random access memory)、同步动态随机存取存储器(sdram,synchronousdynamic random access memory)、双倍数据速率同步动态随机存取存储器(ddrsdram,double data rate synchronous dynamic random access memory)、增强型同步动态随机存取存储器(esdram,enhanced synchronous dynamic random access memory)、同步连接动态随机存取存储器(sldram,synclink dynamic random access memory)、直接内存总线随机存取存储器(drram,direct rambus random access memory)。本技术实施例描述的存储器旨在包括但不限于这些和任意其它适合类型的存储器。上述本技术实施例揭示的方法可以应用于处理器中,或者由处理器实现。处理器可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器可以是通用处理器、dsp(digital signal processing,即指能够实现数字信号处理技术的芯片),或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。处理器可以实现或者执行本技术实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者任何常规的处理器等。结合本技术实施例所公开的方法的步骤,可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于存储介质中,该存储介质位于存储器,处理器读取存储器中的程序,结合其硬件完成前述方法的步
骤。处理器执行所述程序时实现本技术实施例的各个方法中的相应流程,为了简洁,在此不再赘述。
78.实施例4
79.本发明还提出了一种可读存储介质,可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现方法步骤如下:
80.如图1为本发明实施例1提出的基于卷积神经网络的日志分类方法流程图;
81.在步骤s101中,将获取的原始日志文件解析为结构化数据,以及对结构化数据进行特征提取得到特征集,并对特征集中的冷热样本进行一次标注;
82.如图2为本发明实施例1提出的原始系统日志预处理的流程图;首先对原始系统日志进行解析,可以采用logkey的方法进行解析,因为每条日志是由常量和变量两部分组成,常量是由系统程序源码直接打印的消息,变量是一般是指时间戳或参数值。在特征提取中,对每条日志分别提取消息计数向量和流程状态向量。除此之外还提取了用户操作功能的频度和访问热度等指标,最后将这四种特征组合为特征向量。提取完特征向量之后,需要标注此特征向量所对应的日志的状态,也就是对特征集进行冷热样本的标注。
83.在步骤s102中,将特征集按照预设的比例划分为训练集和测试集,采用训练集中的冷热样本对卷积神经网络进行训练,以及调整卷积神经网络的卷积核和训练参数;然后使用测试集对所述冷热样本进行二次标注,以及验证调整后的卷积神经网络。如图3为本发明实施例1提出的卷积神经网络训练的流程图;
84.如图3为本发明实施例1提出的卷积神经网络训练的流程图;将搜集的数据集一般按照8:2的比例分为训练集和测试集。首先使用训练集对卷积神经网络模型进行交叉优化训练,对cnn模型进行训练需要海量的样本,通常以万为单位,因此如果在样本数量不是十分充足的情况下直接用于模型的训练会出现过拟合、收敛速度慢以及最终分类效果不好的影响。为了应对上述影响,需要对cnn的结构进行调整优化。为了提高卷积神经网络的非线性映射能力,解决梯度弥散或梯度消失的问题,可以使用relu激活函数代替传统激活函数。传统的cnn模型除了输入层、隐含层、输出层,还有交替连接的卷积层和池化层,在日志的模型训过程中,存在数据集远远达不到海量级别,因此在传统的模型上,可以将传统的c5层(卷积层)去掉,这样不仅可以减少计算量和模型待训练参数,也能够解决在样本数量不足情况下出现模型过拟合的现象。除了上述的改进外,还可以在模型最后的全连接层加入dropout策略,在每次迭代训练过程中,模型的神经元会依照设定的概率处于休眠状态,但此时的训练参数仍符合神经网络权值共享的思想。在训练过程中,使用反向传播,然后基于最小化误差的准则逐步调节各层的权值和偏置,同时训练方式选择批量训练以避免反向搜索,网络的权值、偏置初始化、可以使用高斯函数进行随机初始化。在对该模型进行优化训练之后,需要使用测试集对模型效果进行测试,以此来验证模型的优劣。
85.在步骤s103中,将经过卷积神经网络训练后的日志分类管理。
86.如图4为本发明实施例1提出的不同日志的管理策略流程图;针对卷积神经网络进行过分类的日志,可以为冷热日志配置不同的管理策略,对于热日志,为了便于以后的还能快速查询访问,可以延长压缩日期,同时延长日志的保留时间,对于冷日志可以设置更短的压缩和删除时间。通过该方法,避免了在对所有的日志均设置相同时长进行压缩和删除而引起存储空间不足和系统性能下降的问题,同时这种热冷日志的管理方式也提高了日志的
查询和访问速度,便于运维和研发人员对日志进行后续的操作。
87.本发明将卷积神经网络模型引入到日志的分类中,通过对大量的训练集进行特征提取和处理,将模型训练成一个类似于和人类一样有同样学习和思考能力的模型,能够快速准确的实现对系统产生爆炸性数量的日志进行分类。然后对热冷日志进行不同的管理,通过这样一种自动对日志进行分类和不同策略的管理,实现了提升日志的查询和访问速度、存储空间的优化的目标。
88.将卷积神经网络模型应用在日志分类中,同时为了应对训练样本数据不能满足海量的级别,从结构和参数上对卷积神经网络进行了调整,以期提升检测速度和检测准确率。提高开发人员或操作者定位系统异常的效率,能够更好的维护集群系统的稳定性和安全性。
89.对分类产生的热日志设置更长的压缩周期和保留时间,对冷日志设置更短的压缩周期和保留时间,以此实现热日志的快速访问和存储空间优化。
90.本技术实施例还提供了一种存储介质,即计算机存储介质,具体为计算机可读存储介质,例如包括存储计算机程序的存储器,上述计算机程序可由处理器执行,以完成前述方法所述步骤。计算机可读存储介质可以是fram、rom、prom、eprom、eeprom、flash memory、磁表面存储器、光盘、或cd-rom等存储器。
91.本领域普通技术人员可以理解:实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述的程序可以存储于一计算机可读取存储介质中,该程序在执行时,执行包括上述方法实施例的步骤;而前述的存储介质包括:移动存储设备、rom、ram、磁碟或者光盘等各种可以存储程序代码的介质。或者,本技术上述集成的单元如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。基于这样的理解,本技术实施例的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台电子设备(可以是个人计算机、服务器、或者网络设备等)执行本技术各个实施例所述方法的全部或部分。而前述的存储介质包括:移动存储设备、rom、ram、磁碟或者光盘等各种可以存储程序代码的介质。
92.本技术实施例提供的基于卷积神经网络的日志分类设备和存储介质中相关部分的说明可以参见本技术实施例1提供的基于卷积神经网络的日志分类方法中对应部分的详细说明,在此不再赘述。
93.需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个
……”
限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。另外,本技术实施例提供的上述技术方案中与现有技术中对应技术方案实现原理一致的部分并未详细说明,以免过多赘述。
94.上述虽然结合附图对本发明的具体实施方式进行了描述,但并非对本发明保护范围的限制。对于所属领域的技术人员来说,在上述说明的基础上还可以做出其它不同形式的修改或变形。这里无需也无法对所有的实施方式予以穷举。在本发明的技术方案的基础
上,本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本发明的保护范围以内。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献