日志采集方法、装置及设备与流程

2022-03-16 14:10:27 来源：中国专利 TAG：

1.本发明涉及日志采集技术领域，具体地涉及一种日志采集方法、一种日志采集装置、一种日志采集设备以及对应的存储介质。

背景技术：

2.现有技术中的日志采集，依赖人工规则进行匹配实现，采集场景覆盖性、采集性能受到限制，采集过程存在性能瓶颈，规则滞后等问题，会导致采集数据不全面等问题，无法满足应用快速更新带来的多源日志采集需求。
3.现有的日志采集技术具有的缺点如下：依赖人工规则进行匹配，需要投入大量人力对规则进行收集、清洗等维护工作，采集成本较高，同时由于规则滞后性的限制，在规则未更新情况下，无法对新数据源进行识别和执行日志采集，无法满足应用系统更替下日志的快速采集需求，因此存在采集场景受限，采集数据不全面、采集时效性低下的问题。现有的技术在变更日志采集需求时，需要远程登陆目标机器人工修改采集配置，人工重启采集agent，存在操作麻烦、配置失误风险，耗时耗力。现有的日志采集方案因采集配置分别存储在目标机器，需要修改、更新、查看均需要登陆目标机器才能进行，没有提供集中管控能力；现有技术在进行分布式日志采集方面，采用全量日志采集的方式，采集过程中存在大量文件传输请求，存在采集agent溢出、机器磁盘打满等问题，导致采集过程中断。
4.embedding：嵌入映射，是一个将离散变量转为连续向量表示的一个方式。
5.lwe(lexical information word embedding)：词向量。

技术实现要素：

6.本发明实施例的目的是提供一种日志采集方法、装置及设备。
7.为了实现上述目的，本发明第一方面提供一种日志采集方法，包括：获取日志的日志路径；分别提取所述日志路径的路径拓扑特征和文本向量特征；将所述路径拓扑特征和所述文本向量特征融合后得到所述日志的路径序列特征；根据所述路径序列特征对所述日志设置对应的采集规则。
8.优选的，所述方法还包括：在获取日志的日志路径之后，对所述日志路径进行预处理的步骤；所述预处理包括：对所述日志路径的文本噪声进行优化处理；对所述日志路径的数据噪声进行去除处理；和\或对所述日志路径的目录层级进行加权处理。
9.优选的，提取所述日志路径的路径拓扑特征，包括：根据所述日志路径得到路径实体；判断所述路径实体之间是否存在实体依赖关系；若不存在实体依赖关系，将所述路径实体构建为对应的图结构数据；将所述图结构数据输入至训练好的图神经网络模型中得到实体嵌入映射；从所述实体嵌入映射中生成每个节点的嵌入映射，得到所述日志路径的路径拓扑特征。
10.优选的，提取所述日志路径的文本向量特征，包括：构建并训练基于业务知识库的lwe模型；采用训练后的lwe模型从所述日志路径提取词向量；根据所述词向量得到所述文
本向量特征。
11.优选的，根据所述路径序列特征对所述日志设置采集规则，包括：将所述路径序列特征输入日志源分类识别模型；所述日志源分类识别模型包括初始化分类子模型和增量类别识别子模型；所述初始化分类子模型被配置为采用鲁棒连续聚类算法对全量日志进行类型识别；所述增量类别识别子模型被配置为采用单遍聚类算法对增量日志进行类型识别；根据所述入日志源分类识别模型的输出结果，得到所述路径序列特征所对应的日志的类别；根据所述日志的类别设置对应的采集规则。
12.优选的，所述方法还包括：将所述日志所在的数据源、所述日志路径和所述对应的采集规则发送至指定消息队列kafka的日志采集主题中。
13.在本发明的第二方面，还提供了一种日志采集装置，所述装置包括：路径获取模块，用于获取日志的日志路径；特征提取模块，用于分别提取所述日志路径的路径拓扑特征和文本向量特征；特征融合模块，用于将所述路径拓扑特征和所述文本向量特征融合后得到所述日志的路径序列特征；以及规则确定模块，用于根据所述路径序列特征对所述日志设置对应的采集规则。
14.优选的，所述装置还包括预处理模块，所述预处理模块用于在获取日志的日志路径之后，对所述日志路径进行预处理的步骤；所述预处理包括：对所述日志路径的文本噪声进行优化处理；对所述日志路径的数据噪声进行去除处理；和\或对所述日志路径的目录层级进行加权处理。
15.优选的，提取所述日志路径的路径拓扑特征，包括：根据所述日志路径得到路径实体；判断所述路径实体之间是否存在实体依赖关系；若不存在实体依赖关系，将所述路径实体构建为对应的图结构数据；将所述图结构数据输入至训练好的图神经网络模型中得到实体嵌入映射；从所述实体嵌入映射中生成每个节点的嵌入映射，得到所述日志路径的路径拓扑特征。
16.优选的，提取所述日志路径的文本向量特征，包括：构建并训练基于业务知识库的lwe模型；采用训练后的lwe模型从所述日志路径提取词向量；根据所述词向量得到所述文本向量特征。
17.优选的，根据所述路径序列特征对所述日志设置采集规则，包括：将所述路径序列特征输入日志源分类识别模型；所述日志源分类识别模型包括初始化分类子模型和增量类别识别子模型；所述初始化分类子模型被配置为采用鲁棒连续聚类算法对全量日志进行类型识别；所述增量类别识别子模型被配置为采用单遍聚类算法对增量日志进行类型识别；根据所述入日志源分类识别模型的输出结果，得到所述路径序列特征所对应的日志的类别；根据所述日志的类别设置对应的采集规则。
18.优选的，所述装置还包括发送模块，所述发送模块用于将所述日志所在的数据源、所述日志路径和所述对应的采集规则发送至指定消息队列kafka的日志采集主题中。
19.在本发明的第三方面提供了一种日志采集设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现前述的日志采集方法。
20.在本发明的第四方面提供了一种计算机可读存储介质，所述存储介质中存储有指令，当其在计算机上运行时，使得计算机执行前述的日志采集方法。
21.在本发明的第五方面提供了一种计算机程序产品，包括计算机程序，该计算机程序在被处理器执行时实现前述的日志采集方法。
22.上述技术方案具有以下有益效果：
23.(1)采用基于图嵌入的机器学习技术识别日志来源类别，不仅可以满足已有应用日志数据源发现需求，同时对应用系统更替产生的新日志进行类别定位，无需依赖人工规则进行采集数据源识别，有效兼顾了日志数据源发现的全面性和时效性。
24.(2)通过对日志来源进行事前分析，根据实际日志情况生成采集策略，解决了采集过程中agent性能瓶颈的问题导致采集中断的问题，兼顾了日志采集的性能需求和场景需求。
25.(3)采用全自动的日志采集装置，减少了人工成本，实现了日志采集自动配置、实时更新采集策略，提高了日志采集效率。
26.本发明实施例的其它特征和优点将在随后的具体实施方式部分予以详细说明。
附图说明
27.附图是用来提供对本发明实施例的进一步理解，并且构成说明书的一部分，与下面的具体实施方式一起用于解释本发明实施例，但并不构成对本发明实施例的限制。在附图中：
28.图1示意性示出了根据本技术实施例的日志采集方法的步骤示意图；
29.图2示意性示出了根据本技术实施例的日志源分类识别模型的识别过程示意图；
30.图3示意性示出了根据本技术实施例的采集规则的配置过程示意图；
31.图4示意性示出了根据本技术实施例的日志采集装置的结构示意图。
具体实施方式
32.以下结合附图对本发明实施例的具体实施方式进行详细说明。应当理解的是，此处所描述的具体实施方式仅用于说明和解释本发明实施例，并不用于限制本发明实施例。
33.本技术技术方案中对数据的获取、存储、使用、处理等均符合国家法律法规的相关规定。
34.图1示意性示出了根据本技术实施例的日志采集方法的步骤示意图。如图1所示，在本技术一实施例中，提供了一种日志采集方法，包括：
35.101、获取日志的日志路径；此处的日志路径包括在文件系统内的绝对路径，或许还包括文件系统的地址。获取的日志路径为了确定该日志所对应的数据源。
36.102、分别提取所述日志路径的路径拓扑特征和文本向量特征；
37.路径拓扑特征和文本向量特征分别体现了日志路径在不同维度的特征。其中，路径拓扑特征采用图神经网络模型(graphsage)技术得到的，文本向量特征采用基于业务知识库的lwe模型得到的。
38.103、将所述路径拓扑特征和所述文本向量特征融合后得到所述日志的路径序列特征；
39.此处采用的特征融合方法可以在现有技术中的融合方法中进行选择，其作用在于将前述步骤的多个特征融合成为一个特征，即路径序列特征。
40.104、根据所述路径序列特征对所述日志设置对应的采集规则。
41.根据路径序列特征可以得到日志对应的类别和参数，例如：日志量、活跃度和采集路径等；此处的采集规则包括但不限于删除不活跃日志、日志压缩和日志分类存储等操作。
42.通过以上实施方式，通过至少两种特征提取技术得到该日志的日志路径的多项特征，以识别该日志的来源类别。以此满足已有应用日志数据源发现需求，同时对应用系统更替产生的新日志进行类别定位，无需依赖人工规则进行采集数据源识别，有效兼顾了日志数据源发现的全面性和时效性。
43.在本发明提供的一些实施方式中，所述方法还包括：在获取日志的日志路径之后，对所述日志路径进行预处理的步骤；所述预处理包括：对所述日志路径的文本噪声进行优化处理，例如：对日志路径中的时间、随机数、序号等文本噪声进行统一识别或替换；对所述日志路径的数据噪声进行去除处理，例如对错误数据、异常数据等数据噪声进行删除；和\或对所述日志路径的目录层级进行加权处理；例如：根据日志路径中的目录层级设置对应的位置权重，位置权重的设置规则可以是随目录层级的增加而降低，例如按如下方式设置：wi＝e-αi
，i＝1,2,3,
…
n；其中，wi表示位置权重，i表示日志所在目录层级的序号，α为位置系数，用于调节位置对权重的影响程度，取值为α》0。
44.在本发明提供的一些实施方式中，提取所述日志路径的路径拓扑特征，包括：根据所述日志路径得到路径实体；判断所述路径实体之间是否存在实体依赖关系；若不存在实体依赖关系，将所述路径实体构建为对应的图结构数据；将所述图结构数据输入至训练好的图神经网络模型中得到实体嵌入映射；从所述实体嵌入映射中生成每个节点的嵌入映射，得到所述日志路径的路径拓扑特征。本实施方式采用图神经网络模型(graphsage)技术得到实体图嵌入特征，从而完成路径拓扑特征的提取。具体如下：将日志路径经过切分得到的路径实体，路径实体之间关系根据实体依赖关系进行表示，若路径实体之间存在上下依赖，则存在关系，否则不存在关系，根据路径实体的集合和关系构建日志路径的图结构数据；将日志路径的图结构数据输入至预训练的图模型中得到实体embedding(嵌入映射)。针对图模型中的每一个节点v，需要执行前向传播、聚合函数、无监督损失设定以及参数学习的步骤。其中前向传播包括：先对邻居随机采样，降低计算复杂度，生成目标节点emebedding：先聚合2跳邻居特征，生成一跳邻居embedding，再聚合一跳邻居embedding，生成目标节点embedding，从而获得二跳邻居信息。将embedding作为全连接层的输入，预测目标节点的标签。聚合函数采用lstm聚合，即：先对邻居随机排序，然后将随机的邻居序列embedding作为lstm输入。根据此处的应用情况，采用基于图的无监督损失设定来确定损失函数。具体如下：
[0045][0046]
其中，zu为节点u通过graphsage生成的embedding；节点v是节点u随机游走访达“邻居”；υn～pn(υ)表示负采样：节点vn是从节点u的负采样分布pn采样的，q为采样样本数。embedding之间相似度通过向量点积计算得到。参数学习包括：通过前向传播得到节点u的embeddingzu，然后梯度下降(实现使用adam优化器)进行反向传播优化参数和聚合函数内参数。
[0047]
在本发明提供的一些实施方式中，提取所述日志路径的文本向量特征，包括：构建并训练基于业务知识库的lwe模型；采用训练后的lwe模型从所述日志路径提取词向量；根
据所述词向量得到所述文本向量特征。具体的，采用基于业务知识库的lwe模型提取词向量，通过文本匹配得到业务同义词集合，以外部知识形式融合到词向量模型中进行训练，提高了日志表示的合理性，具体的lwe模型通过如下目标函数训练词向量：
[0048][0049]
其中左边为cbow词向量模型的目标函数，右边为同义词模型，该模型用以考虑同义词对词向量表示的作用，c表示全部训练语料，|c|表示语料大小，β表示调权参数，用以平衡cbow模型和同义词模型的贡献率，通过求解上述目标函数，可以求得词向量表示wi。
[0050]
在本发明提供的一些实施方式中，根据所述路径序列特征对所述日志设置采集规则，包括：将所述路径序列特征输入日志源分类识别模型；所述日志源分类识别模型包括初始化分类子模型和增量类别识别子模型；所述初始化分类子模型被配置为采用鲁棒连续聚类算法对全量日志进行类型识别；所述增量类别识别子模型被配置为采用单遍聚类算法对增量日志进行类型识别；根据所述入日志源分类识别模型的输出结果，得到所述路径序列特征所对应的日志的类别；根据所述日志的类别设置对应的采集规则。
[0051]
图2示意性示出了根据本技术实施例的日志源分类识别模型的识别过程示意图。如图2所示，将上述的日志的路径序列特征输入至日志源分类识别模型中，得到输出结果，即日志的类别或分类结果。上述日志源分类模型包括初始化分类和增量类别识别两类过程，分别如下：
[0052]
初始化分类应用于全量日志文件类别识别场景，采用基于鲁棒连续聚类(robust continuous clustering)算法进行对日志来源进行聚类，聚类公式如下：
[0053][0054]
x＝[x1,x2,...,xn]是输入的数据，u＝[u1,u2,...,un]是这些点集的表示，对u进行优化，得到聚类的结果。ε是一个图的边所组成的集合，这个图是由m-knn(k最邻近分类算法的一种)方法生成的。权重w
p,q
平衡每一个数据点成对的贡献；λ平衡不同项之间的权重；ρ是一个正则项，用于起惩罚作用。
[0055]
基于鲁棒连续聚类的聚类结果得到日志数据源c(u)，计算上述各数据源下日志与日志路径的最小的余弦相似度min_sim，类别i对应的余弦相似度为min_simi。作为判断新的日志所属类别的阈值，与cmdb(配置管理数据库)配置数据进行应用名称映射和汇总，得到初始化日志数据源。
[0056]
增量类别识别主要用于新增目录的日志类别识别，采用单遍聚类(single-pass)算法实现快速流式聚类，通过计算新增的目录下日志文件与各类日志源采集路径的最大相似度评分max_simscorei，其中，i＝1，2，
…
n。比较max_simscorei和min_simi，当满足max_simscorei大于min_simi时，确定新增目录下日志的所属类别，否则新增日志类别，此时的日志类别为n 1。
[0057]
在本发明提供的一些实施方式中，所述方法还包括：将所述日志所在的数据源、所述日志路径和所述对应的采集规则发送至指定消息队列kafka的日志采集主题中。图3示意性示出了根据本技术实施例的采集规则的配置过程示意图。如图3所示，守护agent将通过前述步骤执行后获取的采集规则，以及日志数据源结果、数据源采集路径发送至指定消息队列kafka的日志采集主题(topic)中。采集配置集中处理程序实时监听kafka中的采集topic，与企业资产管理平台交换，获取采集规则对应的真实应用系统相关信息，将获取的信息与采集配置进行集中统一整理，发往nacos配置中心对应机器的采集配置中。分布式集群环境中各机器的守护agent实时监听所在机器对应的nacos配置中心采集配置，获取最新的采集配置更新到本地，并重启日志采集agent，根据最新的采集配置策略执行采集。
[0058]
基于同一发明构思，本发明的实施方式还提供了一种日志采集装置，图4示意性示出了根据本技术实施例的日志采集装置的结构示意图。如图4所示，所述装置包括：
[0059]
路径获取模块，用于获取日志的日志路径；特征提取模块，用于分别提取所述日志路径的路径拓扑特征和文本向量特征；特征融合模块，用于将所述路径拓扑特征和所述文本向量特征融合后得到所述日志的路径序列特征；以及规则确定模块，用于根据所述路径序列特征对所述日志设置对应的采集规则。
[0060]
在本发明的一些可选实施方式中，所述装置还包括预处理模块，所述预处理模块用于在获取日志的日志路径之后，对所述日志路径进行预处理的步骤；所述预处理包括：对所述日志路径的文本噪声进行优化处理；对所述日志路径的数据噪声进行去除处理；和\或对所述日志路径的目录层级进行加权处理。
[0061]
在本发明的一些可选实施方式中，提取所述日志路径的路径拓扑特征，包括：根据所述日志路径得到路径实体；判断所述路径实体之间是否存在实体依赖关系；若不存在实体依赖关系，将所述路径实体构建为对应的图结构数据；将所述图结构数据输入至训练好的图神经网络模型中得到实体嵌入映射；从所述实体嵌入映射中生成每个节点的嵌入映射，得到所述日志路径的路径拓扑特征。
[0062]
在本发明的一些可选实施方式中，提取所述日志路径的文本向量特征，包括：构建并训练基于业务知识库的lwe模型；采用训练后的lwe模型从所述日志路径提取词向量；根据所述词向量得到所述文本向量特征。
[0063]
在本发明的一些可选实施方式中，根据所述路径序列特征对所述日志设置采集规则，包括：将所述路径序列特征输入日志源分类识别模型；所述日志源分类识别模型包括初始化分类子模型和增量类别识别子模型；所述初始化分类子模型被配置为采用鲁棒连续聚类算法对全量日志进行类型识别；所述增量类别识别子模型被配置为采用单遍聚类算法对增量日志进行类型识别；根据所述入日志源分类识别模型的输出结果，得到所述路径序列特征所对应的日志的类别；根据所述日志的类别设置对应的采集规则。
[0064]
在本发明的一些可选实施方式中，所述装置还包括发送模块，所述发送模块用于将所述日志所在的数据源、所述日志路径和所述对应的采集规则发送至指定消息队列kafka的日志采集主题中。
[0065]
上述的日志采集装置中的各个模块的具体限定可以参见上文中对于日志采集方法的限定，在此不再赘述。其有益效果也可以根据前述的日志采集方法进行适用性的推定。
[0066]
本技术实施例提供了一种设备，设备包括处理器、存储器及存储在存储器上并可
在处理器上运行的程序，处理器执行程序时实现日志采集方法的步骤。此处的设备可以是例如服务器或者终端等。
[0067]
本技术还提供了一种计算机程序产品，当在数据处理设备上执行时，适于执行初始化包括上述日志采集方法的步骤的程序。
[0068]
本领域内的技术人员应明白，本技术的实施例可提供为方法、系统、或计算机程序产品。因此，本技术可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本技术可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd-rom、光学存储器等)上实施的计算机程序产品的形式。
[0069]
本技术是参照根据本技术实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
[0070]
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
[0071]
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
[0072]
在一个典型的配置中，计算设备包括一个或多个处理器(cpu)、输入/输出接口、网络接口和内存。
[0073]
存储器可能包括计算机可读介质中的非永久性存储器，随机存取存储器(ram)和/或非易失性内存等形式，如只读存储器(rom)或闪存(flash ram)。存储器是计算机可读介质的示例。
[0074]
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体，可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(pram)、静态随机存取存储器(sram)、动态随机存取存储器(dram)、其他类型的随机存取存储器(ram)、只读存储器(rom)、电可擦除可编程只读存储器(eeprom)、快闪记忆体或其他内存技术、只读光盘只读存储器(cd-rom)、数字多功能光盘(dvd)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。
[0075]
还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包
括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个
……”
限定的要素，并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。
[0076]
以上仅为本技术的实施例而已，并不用于限制本技术。对于本领域技术人员来说，本技术可以有各种更改和变化。凡在本技术的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本技术的权利要求范围之内。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：多光纤光栅传感器转子机组故障特征数据库的建立方法与流程

日志采集方法、装置及设备与流程

相关文献

最热文献