日志处理方法、装置、计算机设备和存储介质与流程

2022-03-04 22:55:45 来源：中国专利 TAG：

1.本技术涉及人工智能技术领域，特别是涉及一种日志处理方法、装置、计算机设备、存储介质和计算机程序产品。

背景技术：

2.软件的运行与维护是软件生命周期最后同时也是持续时间最长的一个阶段，直接面向终端用户，因此，做好软件的运维保障工作具有十分深远的意义，而软件的运维过程中生产事故的发生经常是由应用自身引起，在非系统侧监控的日志中体现。因此，对日志的分析评判成为运维工作的一个重要部分。
3.但目前对于日志输出的评判多是以开发人员自己获取日志分析评判，需要耗费较多时间，从而影响应急时效。

技术实现要素：

4.基于此，有必要针对上述无法通过常规监控工具分析个性化日志，并及时响应的技术问题，提供一种日志处理方法、装置、计算机设备、计算机可读存储介质和计算机程序产品。
5.第一方面，本技术提供了一种日志处理方法。所述方法包括：
6.对待处理日志进行信息提取处理，得到所述待处理日志中的关键字信息；
7.根据所述待处理日志所对应的中间件类别，对所述关键字信息进行再次提取处理，得到与所述中间件类别匹配的目标关键字信息；所述中间件类别为用于部署所述待处理日志对应的应用程序的服务器的类别；
8.基于所述目标关键字信息，确定所述待处理日志对应的故障信息；
9.根据所述故障信息，查找预先构建的决策树，得到所述待处理日志对应的决策结果。
10.在其中一个实施例中，所述对待处理日志进行信息提取处理，得到所述待处理日志中的关键字信息，包括：
11.基于预先构建的关键字信息库中样本错误关键字的权重，从所述关键字信息库中提取出多个目标样本错误关键字；所述关键字信息库存储有多个样本错误关键字及所述多个样本错误关键字的权重；
12.按照各个所述目标样本错误关键字，对所述待处理日志进行信息提取处理，得到所述待处理日志中的关键字信息。
13.在其中一个实施例中，所述样本错误关键字的权重通过下述方式确定：
14.获取样本日志中的多个样本错误关键字；
15.分别统计各个所述样本错误关键字在所述样本日志中的出现次数，以及各个所述样本错误关键字的出现次数的累加和；
16.针对任一个所述样本错误关键字，获取该样本错误关键字的出现次数与所述出现
次数的累加和的比值，作为该样本错误关键字的权重。
17.在其中一个实施例中，所述基于所述目标关键字信息，确定所述待处理日志对应的故障信息，包括：
18.通过训练完成的分类模型，对所述目标关键字信息进行处理，得到所述待处理日志的故障信息；所述分类模型通过以目标关键字信息为输入，以故障信息为输出的样本数据训练得到。
19.第二方面，本技术还提供了一种日志处理装置。所述装置包括：
20.第一提取模块，用于对待处理日志进行信息提取处理，得到所述待处理日志中的关键字信息；
21.第二提取模块，用于确定根据所述待处理日志所对应的中间件类别，并根据所述中间件类别对所述关键字信息进行再次提取处理，得到与所述中间件类别匹配的目标关键字信息；所述中间件类别为用于部署所述待处理日志对应的应用程序的服务器的类别；
22.确定模块，用于基于所述目标关键字信息，确定所述待处理日志对应的故障信息；
23.查找模块，用于根据所述故障信息，查找预先构建的决策树，得到所述待处理日志对应的决策结果。
24.第三方面，本技术还提供了一种计算机设备。所述计算机设备包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现以下步骤：
25.对待处理日志进行信息提取处理，得到所述待处理日志中的关键字信息；
26.根据所述待处理日志所对应的中间件类别，对所述关键字信息进行再次提取处理，得到与所述中间件类别匹配的目标关键字信息；所述中间件类别为用于部署所述待处理日志对应的应用程序的服务器的类别；
27.基于所述目标关键字信息，确定所述待处理日志对应的故障信息；
28.根据所述故障信息，查找预先构建的决策树，得到所述待处理日志对应的决策结果。
29.第四方面，本技术还提供了一种计算机可读存储介质。所述计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现以下步骤：
30.对待处理日志进行信息提取处理，得到所述待处理日志中的关键字信息；
31.根据所述待处理日志所对应的中间件类别，对所述关键字信息进行再次提取处理，得到与所述中间件类别匹配的目标关键字信息；所述中间件类别为用于部署所述待处理日志对应的应用程序的服务器的类别；
32.基于所述目标关键字信息，确定所述待处理日志对应的故障信息；
33.根据所述故障信息，查找预先构建的决策树，得到所述待处理日志对应的决策结果。
34.第五方面，本技术还提供了一种计算机程序产品。所述计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现以下步骤：
35.对待处理日志进行信息提取处理，得到所述待处理日志中的关键字信息；
36.根据所述待处理日志所对应的中间件类别，对所述关键字信息进行再次提取处理，得到与所述中间件类别匹配的目标关键字信息；所述中间件类别为用于部署所述待处理日志对应的应用程序的服务器的类别；
37.基于所述目标关键字信息，确定所述待处理日志对应的故障信息；
38.根据所述故障信息，查找预先构建的决策树，得到所述待处理日志对应的决策结果。
39.上述日志处理方法、装置、计算机设备、存储介质和计算机程序产品，先通过对待处理日志进行信息提取处理，得到待处理日志中的关键字信息；然后根据待处理日志所对应的中间件类别，对关键字信息进行再次提取处理，得到与中间件类别匹配的目标关键字信息，并基于目标关键字信息，确定待处理日志对应的故障信息，最后根据故障信息，查找预先构建的决策树，得到待处理日志对应的决策结果。该方法在终端通过决策树建立模型，实现对待处理日志的人工智能调度，无需开发人员自己进行分析评判，从而可以缩短运维应急时长，提高运维效率。
附图说明
40.图1为一个实施例中日志处理方法的应用环境图；
41.图2为一个实施例中日志处理方法的流程示意图；
42.图3为一个实施例中基于中间件的知识图谱示意图；
43.图4为一个实施例中日志处理方法中决策树的示意图；
44.图5为另一个实施例中日志处理方法的流程示意图；
45.图6为一个应用实例中日志处理方法的流程示意图；
46.图7为一个实施例中日志处理装置的结构框图；
47.图8为一个实施例中计算机设备的内部结构图。
具体实施方式
48.为了使本技术的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本技术进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本技术，并不用于限定本技术。
49.运行与维护作为软件生命周期最后同时也是持续时间最长的一个阶段，直接面向终端用户。因此，其重要程度不言而喻，做好运维保障工作也就具备了十分深远的意义。对于系统运维，目前比较普遍的做法是事前通过技术手段部署监控程序，在生产运行过程中通过主动发送约定的报文给监控系统以确保服务的可用或利用网络探测方式检查系统是否可正常访问，从而在发现异常后隔离故障服务器。
50.而随着计算机技术的发展，软硬件配置逐步升级换新，企业也在不断推进架构转型。但基础平台发生改变后，应用侧与监控端就需要重新约定一套新规则以适应新平台。为了达到新平衡而做出相对不那么确定的适配改造与运维的初衷——稳定性存在出入。同时，系统与网络方面的监控只是应用运维的一部分，更多生产事故的发生经常是由应用自身引起，在非系统侧监控的日志中体现。但目前对于非标准化日志输出的评判多是以开发人员自己获取日志分析评判，缺乏自动化工具智能判断，从而影响应急时效，并最终传导到终端客户对企业的满意和信任度。
51.因此，为了解决上述无法通过常规监控工具分析个性化日志，并及时响应的问题，本技术提供了一种基于决策树算法自动评估、迅速反馈作出决策的智能运维方案：日志处
onfighelper.java:1273)，而中间件liberty对应的关键字信息为“com.ibm.ejs.j2c.mcwr apper.cleanup(mcwrapper.java:1680)”，因此，为了可以更准确地确定出待处理日志对应的故障信息，在通过自然语言处理方式从待处理日志中提取出关键字信息后，还可进一步确定部署待处理日志对应的应用程序的服务器的类别，作为中间件类别，利用知识图谱技术，根据中间件类别对关键字信息进行再次提取处理，得到与待处理日志对应的中间件类别相匹配的报错信息和故障隐患信息，作为目标关键字信息，并可利用贝叶斯算法将中间件类别、报错信息和故障隐患信息形成结构化关键字文本，实现将非结构化信息形成结构化的数据体系。
64.其中，知识图谱，是结构化的语义知识库，用以迅速描述物理世界中的概念及其相互关系，其通过对错综复杂的文档的数据进行有效的加工、处理、整合，转化为简单、清晰的“实体、关系、实体”三元组，最后聚合大量知识，从而实现知识的快速响应和推理，如图3所示为一个基于中间件日志的知识图谱。两个存在关系的节点之间，通过一条无向边连接在一起，节点被称为实体，之间的边称为关系。
65.步骤s230，基于目标关键字信息，确定待处理日志对应的故障信息。
66.其中，故障信息可包括多个故障指标的信息，例如，故障信息可包括故障等级和生产事故产生概率等的信息。
67.具体实现中，可以目标关键字信息中的报错信息和故障隐患信息为输入，以故障等级和生产事故产生概率为输出，预先训练得到分类模型，通过分类模型对目标关键字信息和故障的影响范围信息进行处理，得到待处理日志的故障等级和生产事故产生概率，作为待处理日志的故障信息。
68.步骤s240，根据故障信息，查找预先构建的决策树，得到待处理日志对应的决策结果。
69.其中，决策树表示一个类似于流程图的树形结构，树内部的每一个节点代表的是对一个特征的测试，树的分支代表该特征的每一个测试结果，而树的每一个叶子节点代表一个分类，树的最高层为根节点，如图4所示，为一个决策树的示意图，内部节点用矩形表示，叶子节点用椭圆表示。
70.其中，决策结果可包括应用程序需要重新启动和应用程序不需要重新启动。
71.具体实现中，可按一定比例分别获取不同决策结果的日志，组成训练样本，每个样本都包含多个故障指标的故障信息，例如，每个样本都包含故障等级和生产事故发生概率，基于训练样本和信息增益的决策树构件算法id3构建决策树，并确定故障信息中的各个故障指标的故障等级。在得到待处理日志的故障信息后，按照故障信息中各个故障指标的故障等级从高到低的顺序，逐层查找所构建的决策树，得到故障信息在决策树中对应的叶子节点，将该叶子节点对应的决策结果，作为待处理日志对应的决策结果。
72.例如，以图4所示的决策树为例，查找该决策树时，首先从根节点的故障等级指标进行比较，若待处理日志的故障等级大于a，则进入左侧分支的叶子节点，得到决策结果：需要重启。若待处理日志的故障等级不大于a，则进入右侧分支的节点影响范围节点，判断待处理日志的影响范围是否大于b，若是，则进入左侧分支的叶子节点，得到决策结果：需要重启。若否，则继续进入右侧分支的生产事故产生概率节点进行判定，若待处理日志的生产事故产生概率大于c，则进入左侧分支的叶子节点，得到决策结果：需要重启。否则，进入右侧
分支，继续判断待处理日志的生产事故产生概率是否小于d，若是，则得到决策结果：无需重启；若否，则得到决策结果：需要重启。
73.上述日志处理方法中，先通过对待处理日志进行信息提取处理，得到待处理日志中的关键字信息；然后根据待处理日志所对应的中间件类别，对关键字信息进行再次提取处理，得到与中间件类别匹配的目标关键字信息，并基于目标关键字信息，确定待处理日志对应的故障信息，最后根据故障信息，查找预先构建的决策树，得到待处理日志对应的决策结果。该方法在终端通过决策树建立模型，实现对待处理日志的人工智能调度，无需开发人员自己进行分析评判，从而可以缩短运维应急时长，提高运维效率。
74.在一示例性实施例中，上述步骤s210中对待处理日志进行信息提取处理，得到待处理日志中的关键字信息，包括：基于预先构建的关键字信息库中样本错误关键字的权重，从关键字信息库中提取出多个目标样本错误关键字；关键字信息库存储有多个样本错误关键字及多个样本错误关键字的权重；按照各个目标样本错误关键字，对待处理日志进行信息提取处理，得到待处理日志中的关键字信息。
75.其中，权重可表示错误关键字在故障日志中的出现频率。
76.具体实现中，可以预先提取样本日志中的样本错误关键字，计算各个样本错误关键字的出现频率，作为各个样本错误关键字的权重，并建立各个样本错误关键字和各个样本错误关键字对应的权重之间的关联关系，存储至关键字信息库中。在获取待处理日志后，可将各个样本错误关键字按照权重值从高到低的顺序进行排序，得到样本错误关键字序列，然后按照权重值从高到低的顺序从关键字信息库中提取出多个目标样本错误关键字，按照目标样本错误关键字在待处理日志中进行信息提取，得到待处理日志中的关键字信息。
77.进一步地，在一示例性实施例中，样本错误关键字的权重通过下述方式确定：获取样本日志中的多个样本错误关键字；分别统计各个样本错误关键字在样本日志中的出现次数，以及各个样本错误关键字的出现次数的累加和；针对任一个样本错误关键字，获取该样本错误关键字的出现次数与出现次数的累加和的比值，作为该样本错误关键字的权重。
78.具体实现中，可利用tf-idf算法(term frequency-inverse document frequency，词频-逆向文件频率算法)提取出样本日志报错关键字相关的特征词，进行样本错误关键字权重的计算。更具体地，首先对样本日志进行关键字提取，得到样本日志中的多个样本错误关键字，分别统计各个样本错误关键字在样本日志中的出现次数，以及各个样本错误关键字的出现次数的累加和，针对任一个样本错误关键字，计算该样本错误关键字的出现次数与出现次数的累加和的比值，作为该样本错误关键字的权重。
79.本实施例中，通过对样本日志中样本错误关键字的获取和权重的计算，预先构建关键字信息库，可以更好地对待处理日志中的关键字信息进行定位，提高关键字信息的获取效率。
80.在一示例性实施例中，上述步骤s230中基于目标关键字信息，确定待处理日志对应的故障信息，可以通过下述方式实现：通过训练完成的分类模型，对目标关键字信息进行处理，得到待处理日志的故障信息；分类模型通过以目标关键字信息为输入，以故障信息为输出的样本数据训练得到。
81.具体实现中，可以通过朴素贝叶斯方法实现对目标关键字信息的分类，首先获取
样本数据，将样本数据分为训练数据和测试数据，以目标关键字信息为输入，以故障信息为输出，通过训练数据对贝叶斯模型进行训练，通过测试数据对贝叶斯模型进行测试，得到精度符合预设条件的贝叶斯模型，作为训练完成的分类模型。在得到待处理日志的目标关键字信息后，通过贝叶斯模型对目标关键字信息进行分类，得到待处理日志的故障信息。
82.其中，朴素贝叶斯算法是基于贝叶斯定理与特征条件独立假设的分类方法，思想是在不能准确知悉一个事物的本质时，可以依靠与事物特定本质相关的事件出现的多少去判断其本质属性的概率。对于给定的训练集合，首先基于特征条件独立学习输入、输出的联合概率分布，然后在此模型上，对给定的输入x，利用贝叶斯定理求出后验概率最大的输出y。算法的基本方法如下：
83.设输入空间为n维向量的集合，输出空间为类标记集合y＝{c1,c2
…
,ck}。输入为特征向量，输出为类的标记，训练集合为：
84.t＝{(x1,y1),(x2,y2),
…
,(xn,yn)}
85.通过训练集合学习联合概率分布p(x,y)，一个实例的联合概率p(x,y)计算方式：
86.p(x,y)＝p(x|y)
·
p(y)＝p(y|x)
·
p(x)
87.根据上面等式得到贝叶斯理论的一般形式：
[0088][0089]
朴素贝叶斯也可以表示为：
[0090][0091]
将相同分母去除后，公式简化为：
[0092][0093]
本实施例中，通过构造具有学习能力的自动分类模型，建立起目标关键字信息与故障信息之间的关联关系，从而可提升对待处理日志故障的预测效率。
[0094]
在一示例性实施例中，上述步骤s230中基于目标关键字信息，确定待处理日志对应的故障信息，还包括：确定所述待处理日志的影响范围信息；基于所述影响范围信息和所述目标关键字信息，确定所述待处理日志对应的故障信息。
[0095]
具体实现中，在利用知识图谱技术对关键字信息进行再次提取时，还可同时识别故障的影响范围信息，根据影响范围信息和目标关键字信息，确定待处理日志对应的故障等级和生产事故产生概率。更具体地，可以目标关键字信息中的报错信息、故障隐患信息，以及故障的影响范围信息为输入，以故障等级和生产事故产生概率为输出，预先训练得到分类模型，通过分类模型对目标关键字信息和故障的影响范围信息进行处理，得到待处理日志的故障等级和生产事故产生概率，作为待处理日志的故障信息。
[0096]
本实施例中，通过待处理日志的影响范围信息与目标关键字信息相结合，确定待处理日志对应的故障信息，可以进一步提高所确定的故障信息的准确性。
[0097]
在一示例性实施例中，上述步骤s140中根据故障信息，查找预先构建的决策树，得
到待处理日志对应的决策结果，可以通过下述方式实现：将故障信息中的各个故障指标按照预定的故障等级进行排序；故障信息包括多个故障指标及多个故障指标的指标值；按照各个故障指标的故障等级由高到低的顺序，逐层查找决策树，得到故障信息在决策树中对应的叶子节点；确定叶子节点对应的决策结果，作为待处理日志对应的决策结果。
[0098]
具体实现中，故障信息中的各个故障指标的故障等级的排序结构与构建决策树时对各个故障指标的故障等级排序结果相同。在得到待处理日志的故障信息后，即可按照故障信息中各个故障指标的故障等级由高到低的顺序，逐层查找决策树，与各个决策节点的条件进行比对，一直比对到叶子节点，将叶子节点对应的决策结果，作为待处理日志对应的决策结果。
[0099]
其中，决策树的构建可基于信息增益的决策树构建算法id3，下面以was中间件的应用报错日志信息为例，对决策树的构建进行说明：
[0100]
假设获取的样本为如下表1所示的五个样本，每个样本均具有故障等级、影响范围、生产事故产生概率三个属性，最后需要判断是否需要自动重启，通过这些样本可以训练出多种决策树，如图5所示，为其中的一种决策树。
[0101]
表1was中间件的应用报错日志样本
[0102][0103]
通过学习表1的数据，可以设置如图5所示的a、b、c、d等故障指标：故障等级、影响范围和生产事故产生概率的决策阀值，且决策阀值应使得分类错误率最小。
[0104]
决策树的构建主要包括节点的分裂和阀值的确定两个步骤，其中节点的分裂表示当一个节点所代表的属性无法给出判断时，一般选择将这一节点分成两个子节点(如不是二叉树的情况会分成n个子节点)。阀值的确定需要选择适当的阀值以保证较高的分类准确率。生成决策树的算法是一种逼近离散函数值的分类方法，首先对数据进行处理，利用归纳算法生成可读的规则和决策树，然后使用决策对新数据进行分析。决策树算法构造决策树来发现数据中蕴含的分类规则。以基于信息增益的决策树构建算法id3为例，由增熵(entropy)原理来决定哪个做父节点，哪个节点需要分裂。对于一组数据，熵越小说明分类结果越好。
[0105]
对于熵的定义如下：
[0106]
其中，p(xi)为xi出现的概率。
[0107]
假如是二分类情况，当a类和b类各占50％时，
[0108]
entropy＝-(0.5*log2(0.5) 0.5*log2(0.5))＝1
[0109]
当只有a类或只有b类时，
[0110]
entropy＝-(1*log2(1) 0)＝0
[0111]
所以当entropy最大为1时，是分类效果最差的状态，当它最小为0时，是完全分类的状态。熵等于0是理想状态，一般实际情况下，熵介于0和1之间，熵的不断最小化即为提高分类正确率的过程。
[0112]
比如表1中的3个属性：单一地通过以下语句分类：
[0113]
1)故障等级低【无需重启】：分错1个；
[0114]
2)影响范围大【需要重启】：分错1个；
[0115]
3)生产事故产生概率大于50％【需要重启】：无分错；
[0116]
最后发现生产事故产生概率大于50％【需要重启】这条分错最少，即熵最小，所以应该选择这条为父节点进行树的生成。而当分裂父节点时道理相同，与分裂前的分类错误率比较，留下能提高准确率的选择。
[0117]
在构建出决策树后，每个叶子节点都有相对应的执行方案。针对应用服务器重启、目录清理等常见的系统运维工作，可达到无人工介入标准，通过直接调度已部署的自动化工具实施。叶子节点中需要人为干预分析的部分，短期内分配人工接入处理，而在中长期继续完善这些部分的运维工具和决策树模块，以达到更高水平的智能运维。
[0118]
本实施例中，通过决策树建立模型实现对自动化工具的人工智能调度，大大缩短运维应急时长，降低生产事故发生的风险。
[0119]
在一个实施例中，如图5所示，提供了一种日志处理方法，本实施例中，该方法包括以下步骤：
[0120]
步骤s510，基于预先构建的关键字信息库中样本错误关键字的权重，从关键字信息库中提取出多个目标样本错误关键字；关键字信息库存储有多个样本错误关键字及多个样本错误关键字的权重；
[0121]
步骤s520，按照各个目标样本错误关键字，对待处理日志进行信息提取处理，得到待处理日志中的关键字信息；
[0122]
步骤s530，确定待处理日志的影响范围信息和中间件类别；
[0123]
步骤s540，根据待处理日志所对应的中间件类别，对关键字信息进行再次提取处理，得到与中间件类别匹配的目标关键字信息；
[0124]
步骤s550，通过训练完成的分类模型，对目标关键字信息和影响范围信息进行处理，得到待处理日志的故障信息；分类模型通过以目标关键字信息为输入，以故障信息为输出的样本数据训练得到；
[0125]
步骤s560，将故障信息中的各个故障指标按照预定的故障等级进行排序；故障信息包括多个故障指标及多个故障指标的指标值；
[0126]
步骤s570，按照各个故障指标的故障等级由高到低的顺序，逐层查找决策树，得到故障信息在决策树中对应的叶子节点；
[0127]
步骤s580，确定叶子节点对应的决策结果，作为待处理日志对应的决策结果。
[0128]
可以理解的是，运维工作一般都会涵盖应用与系统这两部分，其中，系统侧由专业的系统、网络等技术部门负责维护支持，包括对cpu使用率、磁盘容量、表空间使用率、数据库会话数等的监控。而应用侧更多的是依靠应用自身设置的指标来支撑，通过与预先设置的阀值进行比对来判断系统是否存在风险。本技术基于应用层日志，利用数据挖掘手段分析匹配输出信息，进而根据决策树算法智能调度系统层应急措施，可以提升运维的效能与灵活度。
[0129]
在一个实施例中，为了便于本领域技术人员理解本技术实施例，以下将结合附图的具体示例进行说明。参考图6，示出了一种日志处理方法的流程示意图，包括以下步骤：
[0130]
(1)获取报错日志的文件内容，通过自然语言处理(nlp)对报错日志的文件内容进行信息提取，得到报错日志的关键字信息；
[0131]
其中，自然语言处理(nlp)是指利用计算机技术对语言文本(句子、篇章或话语等)进行处理和加工的研究。研究内容包括对词法、句法、语义和语用等信息的识别、分类、提取、转换和生成等各种处理方法和实现技术。在本发明中，运用自然语言处理的词法与句法分析，将应用日志中的文本拆分成独立的分词，并根据词频-逆向文件频率算法(tf-idf算法)提取出报错关键字相关的特征词。
[0132]
(2)利用知识图谱技术确定报错日志所属中间件类别和影响范围信息，以及基于中间件类别对关键字信息进行再次提取处理，得到目标关键字信息；
[0133]
(3)利用机器学习中的贝叶斯算法对中间件类别、影响范围信息和目标关键字信息进行整理归纳，形成结构化数据；
[0134]
(4)再次使用贝叶斯算法基于中间件类别、影响范围信息和目标关键字信息，计算报错日志的故障等级和生产事故产生概率，作为故障信息；
[0135]
(5)基于故障等级和生产事故产生概率查找图4所示的决策树，得到是否需要重启应用的决策结果。
[0136]
其中，tf-idf算法(term frequency-inverse document frequency，词频-逆向文件频率算法)是一种用于信息检索与文本挖掘的加权技术，用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加，但同时会随着它在语料库中出现的频率成反比下降。tf-idf的主要思想是：如果某个单词在一篇文章中出现的频率tf高，并且在其他文章中很少出现，则认为此词或短语具有很好的类别区分能力，适合用来分类。
[0137]
词频(tf)表示词条(关键字)在文本中出现的频率。
[0138]
公式：其中n
ij
是该词在文件j中出现的次数，分母则是文件j中所有词汇出现的次数总和，即：
[0139]
逆向文件频率(idf)是统计一个词在文档集的多少个文档中出现。如果包含词条t的文档越少，idf越大，说明词条具有很好的类别区分能力。
[0140]
其中|d|是语料库中的文件总数。|{j:ti∈dj}|表示包含词语ti的文件数目(即n
i,j
≠0的文件数目)。如果该词语不在语料库中，就会导致分母为0，因此一般情况下使用1 |{j:ti∈dj}|，即：其中，分母之所以加1，是为了避免分母为0。
[0141]
某一特定文件内的高词语频率以及该词语在整个文件集合中的低文件频率，可以产生出高权重的tf-idf。因此，tf-idf倾向于过滤掉常见的词语，保留重要的词语，得出最终公式：tf-idf＝tf*idf。
[0142]
由于本技术与应用日志相关，故需提前做好数据挖掘工作，将记载报错信息的文档整合成文档集，并对常用的特征词赋予权重，以更好定位出关键字句。
[0143]
此外，本技术支持传统与入云节点等在不同中间件上运行的程序。基于日志数据结构的差异，通过知识图谱从库中搜索出匹配的对应关系加以归类。
[0144]
本技术从运维智能化出发，能够将应用个性化日志、普适性报错及对应解决方案串联互通，具有以下优点：
[0145]
1、填补应用侧日志监控不足的空缺。用统一的智能运维方案解决运行在不同平台上的应用独自为战的痛点，为应用转型提供更可靠的支持保障。
[0146]
2、充分考虑目前运维工作中的短板，加强运维的专业化。通过自动化提取和分析日志，减少因分工职责不明确或人为误操作等原因导致的各类问题发生，推动生产管理朝着更精细化方向发展。
[0147]
3、结合devops(development和operations的组合词，是一组过程、方法与系统的统称，用于促进开发(应用程序/软件工程)、技术运营和质量保障(qa)部门之间的沟通、协作与整合)相关思想，通过决策树建立模型实现对自动化工具的人工智能调度，大大缩短运维应急时长，降低生产事故发生的风险。
[0148]
应该理解的是，虽然如上所述的各实施例所涉及的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，如上所述的各实施例所涉及的流程图中的至少一部分步骤可以包括多个步骤或者多个阶段，这些步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。
[0149]
基于同样的发明构思，本技术实施例还提供了一种用于实现上述所涉及的日志处理方法的日志处理装置。该装置所提供的解决问题的实现方案与上述方法中所记载的实现方案相似，故下面所提供的一个或多个日志处理装置实施例中的具体限定可以参见上文中对于日志处理方法的限定，在此不再赘述。
[0150]
在一个实施例中，如图7所示，提供了一种日志处理装置，包括：第一提取模块710、第二提取模块720、确定模块730和查找模块740，其中：
[0151]
第一提取模块710，用于对待处理日志进行信息提取处理，得到待处理日志中的关键字信息；
[0152]
第二提取模块720，用于确定根据待处理日志所对应的中间件类别，并根据中间件类别对关键字信息进行再次提取处理，得到与中间件类别匹配的目标关键字信息；中间件类别为用于部署待处理日志对应的应用程序的服务器的类别；
[0153]
确定模块730，用于基于目标关键字信息，确定待处理日志对应的故障信息；
[0154]
查找模块740，用于根据故障信息，查找预先构建的决策树，得到待处理日志对应的决策结果。
[0155]
在一个实施例中，上述第一提取模块710，具体用于基于预先构建的关键字信息库中样本错误关键字的权重，从关键字信息库中提取出多个目标样本错误关键字；关键字信息库存储有多个样本错误关键字及多个样本错误关键字的权重；按照各个目标样本错误关键字，对待处理日志进行信息提取处理，得到待处理日志中的关键字信息。
[0156]
在一个实施例中，上述装置还包括权重确定模块，用于获取样本日志中的多个样本错误关键字；分别统计各个样本错误关键字在样本日志中的出现次数，以及各个样本错误关键字的出现次数的累加和；针对任一个样本错误关键字，获取该样本错误关键字的出现次数与出现次数的累加和的比值，作为该样本错误关键字的权重。
[0157]
在一个实施例中，上述确定模块730，具体用于通过训练完成的分类模型，对目标关键字信息进行处理，得到待处理日志的故障信息；分类模型通过以目标关键字信息为输入，以故障信息为输出的样本数据训练得到。
[0158]
在一个实施例中，上述确定模块730，还用于确定待处理日志的影响范围信息；基于影响范围信息和目标关键字信息，确定待处理日志对应的故障信息。
[0159]
在一个实施例中，上述查找模块740，具体用于将故障信息中的各个故障指标按照预定的故障等级进行排序；故障信息包括多个故障指标及多个故障指标的指标值；按照各个故障指标的故障等级由高到低的顺序，逐层查找决策树，得到故障信息在决策树中对应的叶子节点；确定叶子节点对应的决策结果，作为待处理日志对应的决策结果。
[0160]
上述日志处理装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。
[0161]
在一个实施例中，提供了一种计算机设备，该计算机设备可以是终端，其内部结构图可以如图8所示。该计算机设备包括通过系统总线连接的处理器、存储器、通信接口、显示屏和输入装置。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算
机设备的通信接口用于与外部的终端进行有线或无线方式的通信，无线方式可通过wifi、移动蜂窝网络、nfc(近场通信)或其他技术实现。该计算机程序被处理器执行时以实现一种日志处理方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏，该计算机设备的输入装置可以是显示屏上覆盖的触摸层，也可以是计算机设备外壳上设置的按键、轨迹球或触控板，还可以是外接的键盘、触控板或鼠标等。
[0162]
本领域技术人员可以理解，图8中示出的结构，仅仅是与本技术方案相关的部分结构的框图，并不构成对本技术方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。
[0163]
在一个实施例中，还提供了一种计算机设备，包括存储器和处理器，存储器中存储有计算机程序，该处理器执行计算机程序时实现上述各方法实施例中的步骤。
[0164]
在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现上述各方法实施例中的步骤。
[0165]
在一个实施例中，提供了一种计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现上述各方法实施例中的步骤。
[0166]
需要说明的是，本技术所涉及的用户信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于分析的数据、存储的数据、展示的数据等)，均为经用户授权或者经过各方充分授权的信息和数据。
[0167]
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本技术所提供的各实施例中所使用的对存储器、数据库或其它介质的任何引用，均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(read-only memory，rom)、磁带、软盘、闪存、光存储器、高密度嵌入式非易失性存储器、阻变存储器(reram)、磁变存储器(magnetoresistive random access memory，mram)、铁电存储器(ferroelectric random access memory，fram)、相变存储器(phase change memory，pcm)、石墨烯存储器等。易失性存储器可包括随机存取存储器(random access memory，ram)或外部高速缓冲存储器等。作为说明而非局限，ram可以是多种形式，比如静态随机存取存储器(static random access memory，sram)或动态随机存取存储器(dynamic random access memory，dram)等。本技术所提供的各实施例中所涉及的数据库可包括关系型数据库和非关系型数据库中至少一种。非关系型数据库可包括基于区块链的分布式数据库等，不限于此。本技术所提供的各实施例中所涉及的处理器可为通用处理器、中央处理器、图形处理器、数字信号处理器、可编程逻辑器、基于量子计算的数据处理逻辑器等，不限于此。
[0168]
以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。
[0169]
以上所述实施例仅表达了本技术的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本技术专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本技术构思的前提下，还可以做出若干变形和改进，这些都属于本技术的保护范围。因此，本技术的保护范围应以所附权利要求为准。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：一种智能售货机的运营方法及系统与流程

日志处理方法、装置、计算机设备和存储介质与流程

相关文献

最热文献