一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

基于学习方式的日志类型识别方法及装置与流程

2022-02-25 23:43:05 来源:中国专利 TAG:

技术特征:
1.一种基于学习方式的日志类型识别方法,其特征在于,包括:基于预先获取的各类系统日志,根据系统日志的数据类型与其对应的分词处理方式,对所述系统日志的数据进行分词处理;将进行分词处理后的系统日志建立词嵌入向量,并对词嵌入向量进行归一化处理,确定系统日志词向量;获取每类系统日志词向量之间的向量距离,根据所述向量距离以及预先确定的距离阈值,确定所述系统日志的不变部分;根据所述系统日志的不变部分,确定所述不变部分的词向量对应的关键词,并根据所述关键词确定与所述关键词对应的设备规格化脚本。2.根据权利要求1所述的方法,其特征在于,所述系统日志的数据类型至少包括类自然语言类型、半自然语言类型以及键值对或类键值对类型中至少一种,根据系统日志的数据类型与其对应的分词处理方式,对所述系统日志的数据进行分词处理:当所述系统日志的数据类型包括类自然语言类型时,对其整体数据采用第一预设分隔符进行分词处理;当所述系统日志的数据类型包括半自然语言类型时,对其相邻片段采用第二预设分隔符进行分词处理;当所述系统日志的数据类型包括键值对或类键值对类型时,对其各个键值对采用与其对应的第三预设分隔符进行分词处理。3.根据权利要求1所述的方法,其特征在于,在获取每类系统日志词向量之间的向量距离的方法之前,所述方法还包括:按照如下公式所示的方法确定每个词向量与其在同一条系统日志中的向量维度关系:其中,表示词w
i
和词w
j
的词距离,表示日志的数量,表示位置参数,表示第k条日志;所述获取每类系统日志词向量之间的向量距离的方法包括:按照如下公式所示的方法获取每类系统日志词向量之间的向量距离:其中,表示每类系统日志词向量之间的向量距离,表示第个词向量,表示第个词向量,表示的模范数,表示的模范数。4.根据权利要求1所述的方法,其特征在于,在将进行分词处理后的系统日志建立词嵌入向量之前,所述方法还包括:
获取进行分词处理后的系统日志的数值部分,并将所述数值部分按照预设替换规则进行数值替换;和/或获取进行分词处理后的系统日志的时间数值中的月份数据,并将所述月份数据进行过滤。5.根据权利要求1所述的方法,其特征在于,所述确定所述不变部分的词向量对应的关键词,并根据所述关键词确定与所述关键词对应的设备规格化脚本的方法包括:其中,表示关键词比例,表示词的数量,表示命中的单词数。6.一种基于学习方式的日志类型识别装置,其特征在于,包括:第一单元,用于基于预先获取的各类系统日志,根据系统日志的数据类型与其对应的分词处理方式,对所述系统日志的数据进行分词处理;第二单元,用于将进行分词处理后的系统日志建立词嵌入向量,并对词嵌入向量进行归一化处理,确定系统日志词向量;第三单元,用于获取每类系统日志词向量之间的向量距离,根据所述向量距离以及预先确定的距离阈值,确定所述系统日志的不变部分;第四单元,用于根据所述系统日志的不变部分,确定所述不变部分的词向量对应的关键词,并根据所述关键词确定与所述关键词对应的设备规格化脚本。7.根据权利要求6所述的装置,其特征在于,所述系统日志的数据类型至少包括类自然语言类型、半自然语言类型以及键值对或类键值对类型中至少一种,所述第一单元还用于:根据系统日志的数据类型与其对应的分词处理方式,对所述系统日志的数据进行分词处理:当所述系统日志的数据类型包括类自然语言类型时,对其整体数据采用第一预设分隔符进行分词处理;当所述系统日志的数据类型包括半自然语言类型时,对其相邻片段采用第二预设分隔符进行分词处理;当所述系统日志的数据类型包括键值对或类键值对类型时,对其各个键值对采用与其对应的第三预设分隔符进行分词处理。8.根据权利要求6所述的装置,其特征在于,所述装置还包括第五单元,所述第五单元用于:按照如下公式所示的方法确定每个词向量与其在同一条系统日志中的向量维度关系:其中,表示词w
i
和词w
j
的词距离,表示日志的数量,表示位置参数,表示第k条日志;
所述第三单元还用于:按照如下公式所示的方法获取每类系统日志词向量之间的向量距离:其中,表示每类系统日志词向量之间的向量距离,表示第个词向量,表示第个词向量,表示的模范数,表示的模范数。9.根据权利要求6所述的装置,其特征在于,所述装置还包括第六单元,所述第六单元用于:获取进行分词处理后的系统日志的数值部分,并将所述数值部分按照预设替换规则进行数值替换;和/或获取进行分词处理后的系统日志的时间数值中的月份数据,并将所述月份数据进行过滤。10.根据权利要求6所述的装置,其特征在于,所述第四单元还用于:其中,表示关键词比例,表示词的数量,表示命中的单词数。

技术总结
本公开提供一种基于学习方式的日志类型识别方法及装置,所述方法包括基于预先获取的各类系统日志,根据系统日志的数据类型与其对应的分词处理方式,对所述系统日志的数据进行分词处理;将进行分词处理后的系统日志建立词嵌入向量,并对词嵌入向量进行归一化处理,确定系统日志词向量;获取每类系统日志词向量之间的向量距离,根据所述向量距离以及预先确定的距离阈值,确定所述系统日志的不变部分;根据所述系统日志的不变部分,确定所述不变部分的词向量对应的关键词,并根据所述关键词确定与所述关键词对应的设备规格化脚本。本公开的方法能够降低人工制作日志规格化脚本的工作量,提升工作效率。提升工作效率。提升工作效率。


技术研发人员:ꢀ(74)专利代理机构
受保护的技术使用者:南京聚铭网络科技有限公司
技术研发日:2022.01.20
技术公布日:2022/2/24
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献