一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

用于从日志条目生成三元组的方法与流程

2022-07-17 01:52:14 来源:中国专利 TAG:
用于从日志条目生成三元组的方法
1.1.技术领域本发明涉及一种用于从日志条目生成三元组的计算机实现的方法。另外,本发明涉及对应的计算机程序产品和技术系统。
2.2.现有技术数据量或数据体量直到现在仍在增加。数据可以包括人类和机器生成的数据。这种大的或成体量的数据在术语“大数据”或“大规模数据”下已知。尤其是,鉴于数字转型,数字数据在未来几年将大幅增长。
3.因此,自动化大规模数据分析或数据处理的重要性在重要性方面将会增加,这是因为手动分析对于专家来说变得不可行。这种分析或处理范式涵盖一系列不同的方法和系统来处理大数据。大数据挑战特别包括捕获数据、数据存储、数据分析、搜索、共享、传送、可视化、查询、更新、信息隐私和数据源。
4.考虑到复杂的工业设施,工业设施通常包括具有多种单独功能的不同的部分、模块或单元。示例性单元包括传感器和致动器。必须以交互的方式控制和调节这些单元和功能。它们通常由自动化系统(例如siemens ag的simatic s7系统)监视、控制和调节。这些单元要么可以直接与彼此交换数据,要么可以经由总线系统与彼此通信以及与主控制单元通信,如果设施具有这样的单元的话。这些单元经由并行接口或更常见的串行接口连接到总线系统。
5.在这样的工业设施的操作期间生成大量的日志文件。每个日志文件包括一个或多个日志条目,并且取决于生成它的计算单元、程序或进程而具有不同的结构或格式。日志挖掘任务与可以在异构计算机系统(诸如上面提及的工业设施)中找到的各种日志文件结构、格式和类型进行斗争。示例性任务包括日志条目中的异常标识、来自一个工业设施的日志文件随着时间的比较、日志文件的提取和/或从不同工业设施的日志文件提取相关信息。
6.根据现有技术,用户或专家必须手动分析大量的日志文件,并从它们的日志条目提取相关信息。然而,这样的手动方法依赖于专家知识,并且需要大量的手动努力。因此,他们容易出错、耗时且昂贵。
7.替代地,信息提取可以用例如从现有技术已知的正则表达式自动完成。然而,模式必须由专家基于专家知识来定义和测试。一个缺点是定义、测试和模式匹配容易出错且耗时。
8.另外,从现有技术已知incmap用于将来自数据源的元素(例如日志条目)映射到本体中的概念和关系。incmap利用用户反馈施行循环的自组织映射。然而,这种方法需要结构化或关系数据库作为数据源,并且本体作为映射的基础。因此,缺点是本体的定义必须事先以耗时且容易出错的方式建立。
9.因此,本发明的目的是提供一种计算机实现的方法,用于以高效且可靠的方式从日志条目生成三元组。
10.3.

技术实现要素:
根据本发明的一个方面,这个问题通过用于从日志条目生成三元组的计算机实现
的方法来解决,该方法包括以下步骤:a. 从相应日志文件提供多个日志条目;其中所述多个日志条目中的每个日志条目包括至少一个文本消息;b. 使用无监督聚类基于所述多个日志条目生成至少一个模板;其中所述至少一个模板包括至少一个可变部分和至少一个固定部分;c. 使用相似性度量,基于所生成的至少一个模板,将所述多个日志条目中的每个日志条目分配给一个相应的模板;d. 基于所述多个日志条目,使用相应分配的至少一个模板,提取多个文本消息的每个文本消息的对应至少一个可变部分和至少一个固定部分作为键/值对;以及e. 提供文本消息、键和值作为三元组。
11.因此,本发明针对一种用于从日志条目生成三元组的计算机实现的方法。
12.知识图从现有技术已知为图结构化数据库。三元组是知识图的基本单元。三元组可以定义为主语-谓语-宾语,通常标示为(头部,关系,尾部)、(s,p,o)或(h,r,t)。每个三元组定义了知识图中两个实体之间的一个连接。
13.在第一步骤中,提供日志文件的日志条目作为输入。在操作期间,计算单元或技术系统生成大量的日志文件,包括相应的日志条目及其文本消息。由此,每个日志条目包括至少一个文本消息。这些日志条目的文本消息用于另外的方法步骤。
14.此外,每个日志条目可以包括附加元素或信息,诸如时间戳,计算单元、技术系统、子系统或组件的指示符,例如它在何处生成。
15.在第二步骤中,在接收到输入数据集之后,在接收到的输入数据集的基础上,借助于无监督聚类从文本消息确定一个或多个模板。根据一实施例,无监督聚类用于主题建模的任务。更详细地说,可以使用基于jaccard距离和词袋模型的单程密度聚类算法来表示消息。优点是不需要监督或人类干预。另外,该算法可以处理由任意软件进程产生的日志条目。
16.换句话说,日志条目是日志条目模板或模板的实例。这意味着日志条目的文本消息部分由固定文本组成并且部分由动态生成值组成,因此由两部分组成。例如,日志条目模板可以表达为“无法打开文件%s”,而“无法打开文件”部分是固定部分,并且“%s”是可变部分。实际的实例在消息文本中具有特定的文件路径。
17.在第三步骤中,在生成模板之后,使用相似性度量将模板应用在日志消息上。换句话说,相似的文本消息被聚集并分配给相同或公共的模板。因此,它们被分类为相同的模板。根据一实施例,距离度量被用作相似性度量,诸如jaccard距离度量。
18.在另外的步骤中,使用对应生成的模板从文本消息提取键/值对。
19.在最后步骤中,文本消息、键和值作为三元组被提供。三元组包括实体之间的连接。
20.更详细地说,文本消息与该值相关或连接。文本消息和值是实体。实体之间的关系或连接是键。
21.更准确地说,主语是消息,谓语是键,以及宾语是值。
22.根据本发明的方法确保了从日志文件改进三元组的生成,因为三元组是从日志条目自动生成的。
23.与现有技术相比,所得到的输出数据更可靠并且更不容易出错。这种方式,输出数据、并且特别是三元组可以充当更高效的用例的改进基础,这些用例构建在可靠的输出数据上。特别地,三元组可以以高效的方式加载到知识图中,进一步参见下文。知识图充当对异构数据进一步分析的公共数据库。
24.可以减少或者甚至阻止专家的手动努力,诸如本体的构造、从日志条目到本体中的实体的映射规则的构思。
25.与现有技术形成对照,该方法适用于类似于已经存在的文本消息的未看到或未预料的文本消息。
26.在一个方面,三元组是用于日志挖掘或任何其它进一步分析的输入数据集。
27.因此,以三元组形式的方法输出或结果可以用于不同的任务。由此,知识图对于工业环境(例如工业设施)中的问题的诊断和修复是重要的。换句话说,该方法允许将来自计算单元或系统的不同日志文件的集或集合转换成知识图。因此,可以以高效且及时的方式检测和处理问题,例如工业设施的缺陷或故障。另外,由于改进的早期检测,该方法允许增加的系统正常运行时间以及降低的维护成本。
28.附加地或替代地,以三元组形式的方法或结果可以用于产品和/或服务,以通过分析客户或其它用户的工业设施、设备或其它技术单元来支持他们。这种支持导致例如相应产品和/或服务的销售数量的增加。
29.在另外的方面,该方法包括将输入数据集加载到知识图中的另外步骤。
30.本发明的另外方面是一种可直接加载到计算机的内部存储器中的计算机程序产品,包括当所述计算机程序产品正在计算机上运行时用于施行根据上面提及方法的步骤的软件代码部分。
31.本发明的另外方面是一种用于生成三元组的技术系统,包括:a. 接收单元,用于从相应日志文件提供多个日志条目;其中所述多个日志条目中的每个日志条目包括至少一个文本消息;b. 聚类单元,用于
‑ꢀ
使用无监督聚类基于所述多个日志条目生成至少一个模板;其中所述至少一个模板包括至少一个可变部分和至少一个固定部分,并且
‑ꢀ
使用相似性度量,基于所生成的至少一个模板,将所述多个日志条目中的每个日志条目分配给一个相应的模板;d. 三元组提取单元,用于基于所述多个日志条目,使用相应分配的至少一个模板,提取所述多个文本消息的每个文本消息的对应的至少一个可变部分和至少一个固定部分作为键/值对;以及e. 传输单元,用于提供文本消息、键和值作为三元组。
32.这些单元可以实现为用于计算、特别是用于执行软件、app或算法的任何设备或任何部件。例如,这些单元可以由中央处理单元(cpu)和/或操作性地连接到cpu的存储器组成或包括它们。这些单元还可以包括cpu阵列、图形处理单元(gpu)阵列、至少一个专用集成电路(asic)、至少一个现场可编程门阵列或前述的任何组合。这些单元可以包括至少一个模块,该模块继而可以包括软件和/或硬件。单元的一些或者甚至全部模块可以由云计算平台来实现。
‑“
软件acme detector检测到c:\temp\test2.vbs的删除”根据步骤s4的三元组提取在步骤s4中,根据模板的结构提取不同文本消息的变化和固定部分。对于每个变化部分,之前的固定部分被提取并作为键/值对列出。
43.在所述提取之后的示例性键/值对在下文中列出:
· 键:“软件”,值:“mcafee”· 键:“试图到达ip地址”,值:“139.136.55.1”· 键:“软件”,值:“symantec endpoint protection”· 键:“试图到达ip地址”,值:“138.136.55.10”· 键:“软件”,值:“mcafee solidifier”· 键:“检测到
……
的删除”,值:“c:\temp\test.vbs”· 键:“软件”,值:“acme detector”· 键:“检测到
……
的删除”,值:“c:\temp\test2.vbs”另外,固定和变化的文本消息部分的键/值对被连接到文本消息本身的实体,用于作为示例性用例的图形创建。
44.下文中列出了示例性连接:
· 创建从该消息到实体“mcafee”的连接“软件”· 创建从该消息到实体“139.136.55.1”的连接“试图到达ip地址”,该实体可能与设备相关
· 创建从该消息到实体“mcafee solidifier”的连接“软件”· 创建从该消息到实体“c:\temp\test.vbs”的连接“检测到
……
的删除”在生成三元组之后,在将它们加载到知识图中之前,可以添加后处理步骤,诸如实体协调,例如,几乎相似的路径名称应该被视为相同的实体。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献