故障检测方法及装置与流程

2022-02-25 23:56:18 来源：中国专利 TAG：

1.本技术涉及数据处理技术领域，具体涉及一种故障检测方法及装置。

背景技术：

2.运行日志是系统运行过程中产生的日志信息，通过分析运行日志，可以获得系统的运行情况。但是，针对新部署或者新开发的系统，由于运行时间较短，生成的运行日志较少，因此，无法全面准确地获知系统的运行情况，从而无法全面准确地检测系统故障。

技术实现要素：

3.为此，本技术提供一种故障检测方法及装置，以解决缺乏系统的运行日志时，无法全面准确检测系统故障的问题。
4.为了实现上述目的，本技术第一方面提供一种故障检测方法，该方法包括：
5.获取目标设备的第一日志数据和关联设备的第二日志数据，其中，所述关联设备是与所述目标设备的运行状态相关联的设备；
6.分别对所述第一日志数据和所述第二日志数据进行词向量转换处理，获得所述第一日志数据对应的第一日志向量和所述第二日志数据对应的第二日志向量；
7.根据所述第一日志向量和所述第二日志向量，对所述目标设备在预设故障预测时间的日志向量进行预测，获得第三日志向量；
8.根据所述第三日志向量，获得所述目标设备的故障预测信息。
9.进一步地，所述获取目标设备的第一日志数据和关联设备的第二日志数据，包括：
10.获取所述目标设备对应的设备拓扑信息；
11.根据所述设备拓扑信息，确定所述目标设备的关联设备；
12.确定所述目标设备在第一预设时间的日志数据，获得所述第一日志数据；
13.确定所述关联设备在第二预设时间的日志数据，获得所述第二日志数据。
14.进一步地，所述根据所述设备拓扑信息，确定所述目标设备的关联设备，包括：
15.根据所述设备拓扑信息，通过广度搜索算法确定所述目标设备的关联设备。
16.进一步地，所述分别对所述第一日志数据和所述第二日志数据进行词向量转换处理，获得所述第一日志数据对应的第一日志向量和所述第二日志数据对应的第二日志向量，包括：
17.对所述第一日志数据进行独热编码，获得第一独热编码的集合；
18.对所述第二日志数据进行独热编码，获得第二独热编码的集合；
19.将所述第一独热编码和所述第二独热编码输入预设的词向量模型，获得第一日志词向量的集合和第二日志词向量的集合；其中，所述词向量模型为通过训练获得的具有将独热编码转换为词向量功能的模型，所述第一日志词向量为所述第一独热编码对应的词向量，所述第二日志词向量为所述第二独热编码对应的词向量；
20.将所述第一日志词向量进行拼接，获得所述第一日志向量；
21.将所述第二日志词向量进行拼接，获得所述第二日志向量。
22.进一步地，所述预设故障预测时间与所述第一预设时间之间间隔预设时长。
23.进一步地，所述根据所述第三日志向量，获得所述目标设备的故障预测信息，包括：
24.根据所述第三日志向量，获得所述目标设备的预测设备状态向量；
25.根据所述预测设备状态向量，确定所述目标设备的故障预测信息。
26.进一步地，所述根据所述第三日志向量，获得所述目标设备的预测设备状态向量，包括：
27.将所述第三日志向量输入预设的设备状态预测模型，获得所述目标设备的预测设备状态向量；
28.其中，所述设备状态预测模型为通过训练获得的具有预测设备状态向量的模型。
29.进一步地，所述根据所述第三日志向量，获得所述目标设备的故障预测信息之后，还包括：
30.在所述故障预测信息为存在故障的情况下，发出故障预警提示信号。
31.为了实现上述目的，本技术第二方面提供一种故障检测装置，该装置包括：
32.日志数据获取模块，被配置为获取目标设备的第一日志数据和关联设备的第二日志数据，其中，所述关联设备是与所述目标设备的运行状态相关联的设备；
33.日志向量获取模块，被配置为分别对所述第一日志数据和所述第二日志数据进行词向量转换处理，获得所述第一日志数据对应的第一日志向量和所述第二日志数据对应的第二日志向量；
34.预测日志获取模块，被配置为根据所述第一日志向量和所述第二日志向量，对所述目标设备在预设故障预测时间的日志向量进行预测，获得第三日志向量；
35.故障预测模块，被配置为根据所述第三日志向量，获得所述目标设备的故障预测信息。
36.进一步地，所述日志向量获取模块，具体包括：
37.编码单元，被配置为对所述第一日志数据进行独热编码，获得第一独热编码的集合，以及对所述第二日志数据进行独热编码，获得第二独热编码的集合；
38.词向量转换单元，被配置为将所述第一独热编码和所述第二独热编码输入预设的词向量模型，获得第一日志词向量的集合和第二日志词向量的集合；其中，所述词向量模型为通过训练获得的具有将独热编码转换为词向量功能的模型；
39.拼接单元，被配置为将所述第一日志词向量进行拼接，获得所述第一日志向量，以及将所述第二日志词向量进行拼接，获得所述第二日志向量。
40.本技术具有如下优点：
41.本技术提供的故障检测方法及装置，获取目标设备的第一日志数据和关联设备的第二日志数据，其中，关联设备是与目标设备的运行状态相关联的设备；分别对第一日志数据和第二日志数据进行词向量转换处理，获得第一日志数据对应的第一日志向量和第二日志数据对应的第二日志向量；根据第一日志向量和第二日志向量，对目标设备在预设故障预测时间的日志向量进行预测，获得第三日志向量；根据第三日志向量，获得目标设备的故障预测信息。该方法根据目标设备自身的日志数据和关联设备的日志数据共同预测目标设
备的日志向量，可以提高预测的日志向量的准确性，从而根据预测的日志向量，获得较为准确的故障预测信息，以便及时获知系统的运行情况。
附图说明
42.附图是用来提供对本技术的进一步理解，并且构成说明书的一部分，与下面的具体实施方式一起用于解释本技术，但并不构成对本技术的限制。
43.图1为本技术一实施例提供的一种故障检测方法的流程图；
44.图2为本技术又一实施例提供的一种故障检测方法的流程图；
45.图3为本技术再一实施例提供的一种故障检测方法的流程图；
46.图4为本技术实施例提供的一种词向量模型的结构示意图；
47.图5为本技术另一实施例提供的一种故障检测方法的流程图；
48.图6为本技术一实施例提供的一种故障检测装置的组成方框图；
49.图7为本技术又一实施例提供的一种故障检测装置的组成方框图；
50.图8为本技术实施例提供的一种故障检测系统的组成示意图；
51.图9为本技术示例性实施例提供的一种故障检测方法的流程图图；
52.图10是用来实现本技术实施例的故障检测方法的电子设备的框图。
具体实施方式
53.以下结合附图对本技术的具体实施方式进行详细说明。应当理解的是，此处所描述的具体实施方式仅用于说明和解释本技术，并不用于限制本技术。
54.随着计算机技术和网络技术的发展，各类系统的架构与应用服务日益庞大，用户群体复杂多样，因此，保障系统可靠稳定的运行十分重要。通常情况下，在运行过程中，系统会生成日志，日志中记录系统的详细运行信息。通过对日志的查询与分析，可以及时获知系统的运行状态。
55.在相关技术中，对于新研发或者新部署的系统，由于运行时间较短，缺乏运行日志，因此，无法对这类系统进行全面准确地分析，从而导致无法了解系统的真实运行状况。而且，在对某台设备的运行状况进行分析时，通常仅分析该台设备的日志，而没有考虑设备之间的关联关系对设备运行状态的影响，从而导致日志分析结果不够全面准确。
56.有鉴于此，本技术实施例提供一种故障检测方法及装置，其根据目标设备自身的日志数据和关联设备的日志数据，通过预设的向量预设模型，可以较为全面准确地预测目标设备的日志向量，根据预测的日志向量可以获得较为准确的故障预测信息，从而及时获知系统的运行情况。
57.本技术第一方面提供一种故障检测方法。图1为本技术一实施例提供的一种故障检测方法的流程图。如图1所示，该故障检测方法包括如下步骤：
58.步骤s110，获取目标设备的第一日志数据和关联设备的第二日志数据。
59.其中，关联设备是与目标设备的运行状态相关联的设备。
60.在一些实施例中，将与目标设备存在通信连接关系的设备确定为关联设备。例如，目标设备为路由器，则与其级联的其他路由器属于该目标设备的关联设备。又如，目标设备为软件定义网络(software defined network，sdn)控制器，则处于该sdn控制器管理范围
的交换机属于该目标设备的关联设备。再如，目标设备为sdn网络中的交换机，则与该交换机连接的sdn控制器、以及与该交换机连接的其他交换机均属于该目标设备的关联设备。
61.日志数据为设备运行时产生的事件记录，其可以反映设备的运行状态。在一些实施例中，日志数据记载着设备对应的使用者、动作、日期、时间等信息。
62.在一些实施例中，获取目标设备的第一日志数据和关联设备的第二日志数据的步骤，包括：首先，获取目标设备对应的设备拓扑信息，并根据设备拓扑信息确定目标设备的关联设备；其次，通过运维系统获取目标设备在第一预设时间的日志数据，获得第一日志数据，并获得关联设备在第二预设时间的日志数据，获得第二日志数据。其中，第一预设时间与第二预设时间可以相同，也可以不同，运维系统是对目标设备所在系统进行运行维护的系统。
63.需要说明的是，以上对于获取日志数据的方式仅是举例说明，还可以通过其他方式获取设备的日志数据，本技术对此不作限定。
64.步骤s120，分别对第一日志数据和第二日志数据进行词向量转换处理，获得第一日志数据对应的第一日志向量和第二日志数据对应的第二日志向量。
65.对于计算机等电子设备而言，其无法识别文本数据，因此，在处理文本数据之前，需要先对文本数据进行数值化处理，从而转换为计算机等电子设备能识别的语言。词向量即为计算机能识别的语言之一。
66.在一些实施例中，将文本数据中的词映射到语义空间，获得的向量即为词向量。因此，语义空间是否合理，以及映射关系是否准确，均会影响词向量的准确性。通常情况下，为获得准确的词向量，需要使用大量的文本数据建立相应的语义空间及映射关系。而在本技术实施例中，在系统冷启动等场景中，日志数据较少，因此，无法直接根据当前的日志数据建立准确的语义空间及映射关系，因而无法获得准确的词向量。考虑到相同或相似类型的系统，其日志数据存在一定的相似性，因此，可以使用相同或相似系统的日志数据建立语义空间和映射关系，并将当前系统的日志数据通过该映射关系映射至语义空间，从而获得当前系统的日志数据的词向量。
67.在一些实施例中，基于模型的方式实现上述过程。具体地，对第一日志数据进行独热编码，获得第一独热编码的集合；对第二日志数据进行独热编码，获得第二独热编码的集合；将第一独热编码和第二独热编码输入预设的词向量模型，获得第一日志词向量的集合和第二日志词向量的集合；将第一日志词向量进行拼接，获得第一日志向量；将第二日志词向量进行拼接，获得第二日志向量。其中，词向量模型为通过训练获得的具有将独热编码转换为词向量功能的模型，第一日志词向量为第一独热编码对应的词向量，第二日志词向量为第二独热编码对应的词向量。
68.步骤s130，根据第一日志向量和第二日志向量，对目标设备在预设故障预测时间的日志向量进行预测，获得第三日志向量。
69.其中，预设故障预测时间为根据需求预先设置的、确定是否发生故障的时间。
70.在一些实施例中，预设故障预测时间与第一预设时间之间间隔预设时长，第一预设时间为第一日志数据对应的时间。
71.例如，第一预设时间为{t0,t1}，预设时长为
△
t，则预设故障预测时间为{(t1
△
t),t2}。其中，t0和t1分别为第一预设时间的起始时刻和结束时刻，t0＜t1，
△
t＞0，(t1
△
t)＜t2。
72.在一些具体实现中，基于预设的向量预测模型获得目标设备在预设故障预测时间的第三日志向量。其中，向量预测模型为经过训练获得的、具有预测设备的日志向量的模型。
73.步骤s140，根据第三日志向量，获得目标设备的故障预测信息。
74.在一些实施例中，根据第三日志向量，获得目标设备的预测设备状态向量；根据预测设备状态向量，确定目标设备的故障预测信息。其中，故障预测信息包括存在故障和不存在故障等情况。
75.在一些具体实现中，将第三日志向量输入预设的设备状态预测模型，获得目标设备的预测设备状态向量。其中，设备状态预测模型为通过训练获得的具有预测设备状态向量的模型。
76.在本实施例中，获取目标设备的第一日志数据和关联设备的第二日志数据；分别对第一日志数据和第二日志数据进行词向量转换处理，获得第一日志数据对应的第一日志向量和第二日志数据对应的第二日志向量；根据第一日志向量和第二日志向量，对目标设备在预设故障预测时间的日志向量进行预测，获得第三日志向量；根据第三日志向量，获得目标设备的故障预测信息。该方法根据目标设备自身的日志数据和关联设备的日志数据共同预测目标设备的日志向量，可以提高预测的日志向量的准确性，从而根据预测的日志向量，获得较为准确的故障预测信息，以便及时获知系统的运行情况。
77.图2为本技术又一实施例提供的一种故障检测方法的流程图。如图2所示，该故障检测方法包括如下步骤：
78.步骤s211，获取目标设备对应的设备拓扑信息。
79.其中，设备拓扑是指基于传输介质互连的各种设备的物理布局。通过设备拓扑，可以获知设备之间的连接关系。设备拓扑信息包括设备拓扑结构图，和/或，采用语言形式描述的设备拓扑结构的信息。
80.在一些实施例中，首先获取目标设备所在系统的系统拓扑信息，再从系统拓扑信息中确定目标设备对应的设备拓扑信息，以便根据目标设备对应的设备拓扑信息，确定目标设备与其他设备之间的连接关系，从而根据该连接关系确定目标设备的关联设备。其中，系统拓扑信息可以根据系统结构设计获取，也可以通过系统中信息的传输链路进行确定。
81.步骤s212，根据设备拓扑信息，确定目标设备的关联设备。
82.其中，关联设备是指与目标设备的运行状态相关联的设备。
83.在一些实施例中，根据设备拓扑信息，确定目标设备的关联设备的步骤，包括：根据设备拓扑信息，通过广度搜索算法确定目标设备的关联设备。其中，广度搜索算法是指从设备拓扑的根节点开始逐层进行遍历，在遍历完一层的所有节点之后，进入下一层进行遍历，以此来确定目标设备的关联设备。
84.需要说明的是，以上对于确定关联设备的方法仅是举例说明，还可以采用深度搜索等算法确定关联设备，本技术对此不作限定。
85.步骤s213，确定目标设备在第一预设时间的日志数据，获得第一日志数据。
86.通常情况下，距离故障发生时间越近的日志数据，越可以准确全面地反映故障的信息。因此，在预测是否发生故障时，适宜使用距离当前时刻较近的一段时间内的日志数
据。
87.在一些实施例中，将距离当前时刻较近的一段时间确定为第一预设时间，获取目标设备在第一预设时间内生成的日志数据作为第一日志数据。
88.例如，当前时刻为t0，确定日志采集时长为
△
t，第一预设时间为{t1,t2}，因此，采集目标设备在{t1,t2}生成的日志数据，获得第一日志数据。其中，t1和t2分别为第一预设时间的起始时刻和结束时刻，t2-t1＝
△
t，t2＜t0，且t2与t0之间的差值较小(表示t2距离当前时刻较近)。
89.步骤s214，确定关联设备在第二预设时间的日志数据，获得第二日志数据。
90.关联设备的日志数据可以在一定程度上反映目标设备的运行状态，因此，根据关联设备的日志数据可以推测目标设备的故障信息。而且，与第一日志数据的采集时间类似，在获取第二日志数据时，适宜使用关联设备距离当前时刻较近的一段时间内的日志数据作为第二日志数据。
91.需要说明的是，第二预设时间与第一预设时间可以相同，也可以不同，本技术对此不作限定。
92.步骤s220，分别对第一日志数据和第二日志数据进行词向量转换处理，获得第一日志数据对应的第一日志向量和第二日志数据对应的第二日志向量。
93.步骤s230，根据第一日志向量和第二日志向量，对目标设备在预设故障预测时间的日志向量进行预测，获得第三日志向量。
94.步骤s240，根据第三日志向量，获得目标设备的故障预测信息。
95.本实施例中的步骤s220～s240与本技术一实施例中步骤s120～s140的内容相同，在此不再赘述。
96.在本实施例中，获取目标设备和关联设备距离当前时刻较近的一段时间内的日志数据，并根据这些日志数据获取第三日志向量，由于这些日志数据可以较为准确地反映目标设备的运行情况，因此，基于这些数据获得的第三日志向量准确性较高，从而根据第三日志向量可以准确地进行故障预测。
97.图3为本技术再一实施例提供的一种故障检测方法的流程图。如图3所示，该故障检测方法包括如下步骤：
98.步骤s310，获取目标设备的第一日志数据和关联设备的第二日志数据。
99.本实施例中的步骤s310与本技术一实施例中步骤s110的内容相同，在此不再赘述。
100.步骤s321，对第一日志数据进行独热编码，获得第一独热编码的集合。
101.其中，独热编码又称一位有效(one-hot)编码，主要采用n位状态寄存器来对n个状态进行编码，每个状态都有独立的寄存器位，并且在任意时候只有一位有效，其中，n为大于1的整数。例如，针对设备类型[控制类设备，交换类设备]而言，其只有两种状态，设置两位编码即可，相应的独热编码可以表示为[1,0；0,1]，其中，“1,0”表示控制类设备，“0,1”表示交换类设备。
[0102]
通常情况下，日志数据中包括多条日志记录，每条日志记录中可能包括多个字或词。因此，在对日志数据进行独热编码之前，首先需要对日志数据进行分词处理，获得至少一个分词，然后针对每个分词进行独热编码。其中，分词处理是指将段落、句子等分解为字
词单位，以方便后续的处理。
[0103]
在一些实施例中，对第一日志数据进行独热编码，获得第一独热编码的集合的步骤，包括：首先，对第一日志数据进行分词处理，获得第一分词的集合；其次，针对各个第一分词进行独热编码，获得各个第一分词对应的第一独热编码，这些第一独热编码组成第一独热编码的集合。
[0104]
例如，第一日志数据包括“第一事件服务已启动，第二事件服务已关闭”，对其进行分词处理，获得“第一事件”、“第二事件”“服务”、“已”、“启动”和“关闭”共六个第一分词。因此，针对第一日志数据设置六位独热编码，其中，“第一事件”对应的第一独热编码为[1,0,0,0,0,0]，“第二事件”对应的第一独热编码为[0,1,0,0,0,0]，“服务”对应的第一独热编码为[0,0,1,0,0,0]，“已”对应的第一独热编码为[0,0,0,1,0,0]，“启动”对应的第一独热编码为[0,0,0,0,1,0]，“关闭”对应的第一独热编码为[0,0,0,0,0,1]。
[0105]
步骤s322，对第二日志数据进行独热编码，获得第二独热编码的集合。
[0106]
其中，对第二日志数据进行独热编码的方法与第一日志数据类似，在此不再赘述。
[0107]
步骤s323，将第一独热编码和第二独热编码输入预设的词向量模型，获得第一日志词向量的集合和第二日志词向量的集合。
[0108]
其中，词向量模型为通过训练获得的具有将独热编码转换为词向量功能的模型，第一日志词向量为第一独热编码对应的词向量，第二日志词向量为第二独热编码对应的词向量。
[0109]
需要说明的是，独热编码方式虽然简单便捷，但是，当日志数据较大，对应大量不同的分词时，会导致编码的位数较大，不便于计算机的处理。例如，当日志数据对应1000个不同的分词时，需要设置位数为1000的独热编码，相应地，每个分词对应的独热编码位数为1000，编码位数过大。而且，针对不同的分词进行不同的独热编码，无法深刻地反映分词的语义以及分词之间的关联关系。例如，“手机”对应的独热编码为[0,1,0,0,0,0]，“移动终端”对应的独热编码为[0,0,0,0,1,1]，在一些特定场景中，“手机”和“移动终端”可以表示相同或相近的意义，但是单纯地通过手机对应的独热编码[0,1,0,0,0,0]与移动终端对应的独热编码[0,0,0,0,1,1]，无法获知这两者之间潜在的关联关系。因此，引入词向量的概念，以便根据词向量确定不同分词之间的关联关系。具体地，将上述独热编码映射到词向量空间(即语义空间)内，每个独热编码对应一个向量，通过计算不同向量之间的距离，可以确定向量之间的相似程度，还可以通过向量运算，确定向量之间的关联关系。
[0110]
在一些实施例中，通过训练获得具有将独热编码转换为词向量功能的词向量模型，并将第一独热编码和第二独热编码输入该词向量模型中，即可获得第一日志词向量的集合和第二日志词向量的集合。
[0111]
步骤s324，将第一日志词向量进行拼接，获得第一日志向量。
[0112]
在一些实施例中，根据第一日志词向量在原有的第一日志数据中的位置，将第一日志词向量进行拼接，从而获得第一日志向量。
[0113]
在另外一些实施例中，根据第一日志词向量在原有的第一日志数据中的类型(例如，时间类型、日期类型、动作类型等)，将第一日志词向量进行拼接，获得第一日志向量。
[0114]
需要说明的是，以上对于词向量的拼接方法仅是举例说明，在实际应用中，可根据需求或预设配置拼接词向量，本技术对此不作限定。
[0115]
步骤s325，将第二日志词向量进行拼接，获得第二日志向量。
[0116]
对第二日志词向量进行拼接的方式与第一日志词向量类似，在此不再赘述。
[0117]
步骤s330，根据第一日志向量和第二日志向量，对目标设备在预设故障预测时间的日志向量进行预测，获得第三日志向量。
[0118]
步骤s340，根据第三日志向量，获得目标设备的故障预测信息。
[0119]
本实施例中的步骤s330～s340与本技术一实施例中步骤s130～s140的内容相同，在此不再赘述。
[0120]
需要说明的是，在一些实施例中，基于分布假说(distributional hypothesis)理论，并利用神经网络构建初始的词向量模型，并通过模型训练获得最终的词向量模型。其中，分布假说理论是指上下文相似的词，其语义也相似，或者认为词的语义由其上下文决定。
[0121]
图4为本技术实施例提供的一种词向量模型的结构示意图。如图4所示，词向量模型包括输入层(input layer)、隐藏层(hidden layer)和输出层(output layer)。
[0122]
在训练过程中，首先将训练数据输入到输入层中。其中，训练数据包括中心词的上下文分词的独热编码，具体包括{x
1k
、x
2k
、
…
、x
ck
}，x
ik
是维度为1*v的独热编码，i∈(1，c)，且c为大于1的整数。
[0123]
其次，输入层将每个x
ik
与第一矩阵w
v*n
相乘之后，获得各个x
ik
对应的第一中间向量，并将第一中间向量输入到隐藏层。其中，w
v*n
的是维度为v*n的矩阵，相应的，第一中间向量是维度为1*n的向量，n为根据需要设置的维数。
[0124]
再次，隐藏层对第一中间向量进行平均运算，获得第二中间向量，并将第二中间向量与第二矩阵w
′
n*v
相乘，获得第三中间向量，并将第三中间向量输入到输出层。其中，w
′
n*v
的是维度为n*v的矩阵，相应的，第三中间向量是维度为1*v的向量。
[0125]
最后，输出层对第三中间向量进行多项逻辑斯蒂回归(multi-nominal logistic regression，softmax)处理，并输出相应的输出向量。具体地，输出向量是一个维度为1*v的向量，该向量中的每个元素对应一个概率值，表示中心词与预测词的匹配概率(预测词为预设词库中的词)。通常情况下，将取值最大的概率值对应的预测词作为最终预测词，比较最终预测词与中心词，并根据比较结果调整第一矩阵和第二矩阵中各个元素的数值，直到满足预设的停止条件时，获得训练好的词向量模型。
[0126]
通过词向量模型进行词向量预测的过程与训练过程类似，在此不再赘述。
[0127]
图5为本技术另一实施例提供的一种故障检测方法的流程图。如图5所示，该故障检测方法包括如下步骤：
[0128]
步骤s510，获取目标设备的第一日志数据和关联设备的第二日志数据。
[0129]
步骤s520，分别对第一日志数据和第二日志数据进行词向量转换处理，获得第一日志数据对应的第一日志向量和第二日志数据对应的第二日志向量。
[0130]
步骤s530，根据第一日志向量和第二日志向量，对目标设备在预设故障预测时间的日志向量进行预测，获得第三日志向量。
[0131]
本实施例中的步骤s510～s530与本技术一实施例中步骤s110～s130的内容相同，在此不再赘述。
[0132]
步骤s541，根据第三日志向量，获得目标设备的预测设备状态向量。
[0133]
其中，设备状态向量为可以反映设备运行状态的向量。在一些实施例中，设备状态向量y＝{y1,y2,
…
,yn}，用于反映目标设备在t1至tn时间内的运行状态。其中，n为大于或等于1的整数，y1为设备对应t1时刻的运行状态，y2为设备对应t2时刻的运行状态，yn为设备对应tn时刻的运行状态。具体地，yi∈{0，1}，“0”代表设备运行无异常，“1”代表设备运行异常。
[0134]
第三日志向量可以在一定程度上反映目标设备在预设的故障预测时间的运行状态，因此，根据第三日志向量可以获得目标设备的预测设备状态向量。
[0135]
在一些实施例中，将第三日志向量输入预设的设备状态预测模型，获得目标设备的预测设备状态向量。其中，设备状态预测模型为通过训练获得的具有预测设备状态向量的模型。
[0136]
需要说明的是，设备状态预测模型可以采用长短期记忆人工神经网络(long short-term memory，lstm)模型或差分整合移动平均自回归模型(autoregressive integrated moving average model，arima)等时间序列模型，本技术对此不作限定。
[0137]
步骤s542，根据预测设备状态向量，确定目标设备的故障预测信息。
[0138]
在一些实施例中，假设t1至tn时间内，预测设备状态向量y＝{0,0,
…
,0}，则确定目标设备无故障。
[0139]
在另外一些实施例中，假设t1至tn时间内，预测设备状态向量y＝{0,0,
…
,1}，且取值为“1”对应时间为tn，则确定目标设备可能在tn时发生故障。
[0140]
在本实施例中，通过设备状态预测模型，可以便捷准确地获得目标设备的预测设备状态向量，从而根据预测设备状态向量，可以确定目标设备的故障预测信息，以便根据故障预测信息确定是否对目标设备的运行状态进行调整或者进行进一步地检测，以提高系统的运行稳定性。
[0141]
上面各种方法的步骤划分，只是为了描述清楚，实现时可以合并为一个步骤或者对某些步骤进行拆分，分解为多个步骤，只要包括相同的逻辑关系，都在本技术的保护范围内；对算法中或者流程中添加无关紧要的修改或者引入无关紧要的设计，但不改变其算法和流程的核心设计都在该申请的保护范围内。
[0142]
本技术第二方面提供一种故障检测装置。图6为本技术一实施例提供的一种故障检测装置的组成方框图。如图6所示，该故障检测装置600包括如下模块：
[0143]
日志数据获取模块610，被配置为获取目标设备的第一日志数据和关联设备的第二日志数据。
[0144]
其中，关联设备是与目标设备的运行状态相关联的设备。
[0145]
日志向量获取模块620，被配置为分别对第一日志数据和第二日志数据进行词向量转换处理，获得第一日志数据对应的第一日志向量和第二日志数据对应的第二日志向量。
[0146]
预测日志获取模块630，被配置为根据第一日志向量和第二日志向量，对目标设备在预设故障预测时间的日志向量进行预测，获得第三日志向量。
[0147]
故障预测模块640，被配置为根据第三日志向量，获得目标设备的故障预测信息。
[0148]
在本实施例中，日志数据获取模块获取目标设备的第一日志数据和关联设备的第二日志数据；日志向量获取模块分别对第一日志数据和第二日志数据进行词向量转换处
理，获得第一日志数据对应的第一日志向量和第二日志数据对应的第二日志向量；预测日志获取模块根据第一日志向量和第二日志向量，对目标设备在预设故障预测时间的日志向量进行预测，获得第三日志向量；故障预测模块根据第三日志向量，获得目标设备的故障预测信息。该装置根据目标设备自身的日志数据和关联设备的日志数据共同预测目标设备的日志向量，可以提高预测的日志向量的准确性，从而根据预测的日志向量，获得较为准确的故障预测信息，以便及时获知系统的运行情况。
[0149]
图7为本技术又一实施例提供的一种故障检测装置的组成方框图。如图7所示，该故障检测装置700包括如下模块：
[0150]
日志数据获取模块710，被配置为获取目标设备的第一日志数据和关联设备的第二日志数据。
[0151]
其中，关联设备是与目标设备的运行状态相关联的设备。
[0152]
日志向量获取模块720，被配置为分别对第一日志数据和第二日志数据进行词向量转换处理，获得第一日志数据对应的第一日志向量和第二日志数据对应的第二日志向量。
[0153]
在一些实施例中，日志向量获取模块720具体包括：
[0154]
编码单元721，被配置为对第一日志数据进行独热编码，获得第一独热编码的集合，以及对第二日志数据进行独热编码，获得第二独热编码的集合。
[0155]
词向量转换单元722，被配置为将第一独热编码和第二独热编码输入预设的词向量模型，获得第一日志词向量的集合和第二日志词向量的集合。其中，词向量模型为通过训练获得的具有将独热编码转换为词向量功能的模型。
[0156]
拼接单元723，被配置为将第一日志词向量进行拼接，获得第一日志向量，以及将第二日志词向量进行拼接，获得第二日志向量。
[0157]
预测日志获取模块730，被配置为根据第一日志向量和第二日志向量，对目标设备在预设故障预测时间的日志向量进行预测，获得第三日志向量。
[0158]
故障预测模块740，被配置为根据第三日志向量，获得目标设备的故障预测信息。
[0159]
在本实施例中，故障检测装置中的日志向量获取模块，通过编码单元对第一日志数据进行独热编码，获得第一独热编码的集合，以及对第二日志数据进行独热编码，获得第二独热编码的集合；通过词向量转换单元将第一独热编码和第二独热编码输入预设的词向量模型，获得第一日志词向量的集合和第二日志词向量的集合；通过拼接单元将第一日志词向量进行拼接，获得第一日志向量，以及将第二日志词向量进行拼接，获得第二日志向量，以便由预测日志获取模块根据第一日志向量和第二日志向量获得第三日志向量，并通过故障预测模块根据第三日志向量，获得目标设备的故障预测信息。
[0160]
图8为本技术实施例提供的一种故障检测系统的组成示意图。如图8所示，故障检测系统800包括故障检测装置810与待检测系统820，其中，故障检测装置810采用本技术任意一个实施例提供的故障检测装置，用于对待检测系统820中的目标设备821进行故障检测。待检测系统821是由多台设备组成的系统，具体包括目标设备821、第一关联设备831、第二关联设备832、
……
、第n关联设备83n。
[0161]
需要说明的是，除目标设备821和与之关联的关联设备之外，待检测系统820中还可以包括不与目标设备关联的其他设备(图8中未示出)。对其他设备进行故障检测的方法
与对目标设备的故障检测方法类似，在此不再赘述。
[0162]
图9为本技术示例性实施例提供的一种故障检测方法的流程图，其可应用于图8所示的故障检测系统。如图9所示，故障检测方法包括如下步骤：
[0163]
步骤s901，根据待检测系统的设备拓扑信息，确定目标设备821的关联设备。
[0164]
根据图8所示的故障检测系统，目标设备821的关联设备包括第一关联设备831、第二关联设备832、
……
、第n关联设备83n。
[0165]
步骤s902，确定目标设备821在第一预设时间的日志数据，获得第一日志数据。
[0166]
步骤s903，确定关联设备在第二预设时间的日志数据，获得第二日志数据。
[0167]
其中，针对各个关联设备，确定该关联设备在第二预设时间的日志数据，从而获得第二日志数据。
[0168]
步骤s904，对第一日志数据进行分词处理，获得第一分词的集合。
[0169]
步骤s905，针对每一个第一分词进行独热编码，获得第一独热编码的集合。
[0170]
步骤s906，对第二日志数据进行分词处理，获得第二分词的集合。
[0171]
步骤s907，针对每一个第二分词进行独热编码，获得第二独热编码的集合。
[0172]
步骤s908，将第一独热编码和第二独热编码输入预设的词向量模型，获得第一日志词向量的集合和第二日志词向量的集合。
[0173]
步骤s909，对第一日志词向量进行拼接处理，获得第一日志向量。
[0174]
步骤s910，对第二日志词向量进行拼接处理，获得第二日志向量。
[0175]
步骤s911，将第一日志向量和第二日志向量输入预设的向量预测模型，预测出目标设备821在预设故障预测时间的第三日志向量。
[0176]
步骤s912，将第三日志向量输入预设的设备状态预测模型，获得目标设备821的预测设备状态向量。
[0177]
步骤s913，根据预测设备状态向量，确定目标设备821的故障预测信息。
[0178]
步骤s914，确定故障预测信息是否为存在故障。
[0179]
步骤s915，在故障预测信息为存在故障的情况下，发出故障预警提示信号。
[0180]
需要说明的是，在故障预测信息为不存在故障的情况下，结束当前的故障检测流程。
[0181]
图10为本技术实施例提供的一种电子设备的组成方框图。
[0182]
图10示出了可以用来实施本技术的实施例的示例电子设备1000的示意性框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本技术的实现。
[0183]
如图10所示，设备1000包括计算单元1001，其可以根据存储在只读存储器(rom)1002中的计算机程序或者从存储单元1008加载到随机访问存储器(ram)1003中的计算机程序，来执行各种适当的动作和处理。在ram1003中，还可存储设备1000操作所需的各种程序和数据。计算单元1001、rom1002以及ram1003通过总线1004彼此相连。输入/输出(i/o)接口1005也连接至总线1004。
[0184]
设备1000中的多个部件连接至i/o接口1005，包括：输入单元1006，例如键盘、鼠标等；输出单元1007，例如各种类型的显示器、扬声器等；存储单元1008，例如磁盘、光盘等；以及通信单元1009，例如网卡、调制解调器、无线通信收发机等。通信单元1009允许设备1000通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
[0185]
计算单元1001可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元1001的一些示例包括但不限于中央处理单元(cpu)、图形处理单元(gpu)、各种专用的人工智能(ai)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(dsp)、以及任何适当的处理器、控制器、微控制器等。计算单元1001执行上文所描述的各个方法和处理，例如故障检测方法。例如，在一些实施例中，故障检测方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元1008。在一些实施例中，计算机程序的部分或者全部可以经由rom1002和/或通信单元1009而被载入和/或安装到设备1000上。当计算机程序加载到ram1003并由计算单元1001执行时，可以执行上文描述的故障检测方法的一个或多个步骤。备选地，在其他实施例中，计算单元1001可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行故障检测方法。
[0186]
本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(fpga)、专用集成电路(asic)、专用标准产品(assp)、芯片上系统的系统(soc)、负载可编程逻辑设备(cpld)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
[0187]
用于实施本技术的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
[0188]
在本技术的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(ram)、只读存储器(rom)、可擦除可编程只读存储器(eprom或快闪存储器)、光纤、便捷式紧凑盘只读存储器(cd-rom)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
[0189]
为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，crt(阴极射线管)或者lcd(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的
反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
[0190]
可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(lan)、广域网(wan)和互联网。
[0191]
计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。
[0192]
值得一提的是，本实施方式中所涉及到的各模块均为逻辑模块，在实际应用中，一个逻辑单元可以是一个物理单元，也可以是一个物理单元的一部分，还可以以多个物理单元的组合实现。此外，为了突出本技术的创新部分，本实施方式中并没有将与解决本技术所提出的技术问题关系不太密切的单元引入，但这并不表明本实施方式中不存在其它的单元。
[0193]
可以理解的是，以上实施方式仅仅是为了说明本技术的原理而采用的示例性实施方式，然而本技术并不局限于此。对于本领域内的普通技术人员而言，在不脱离本技术的精神和实质的情况下，可以做出各种变型和改进，这些变型和改进也视为本技术的保护范围。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：构建电网设备故障的调度处置策略规则库的方法与流程

故障检测方法及装置与流程

相关文献

最热文献