基于信息系统的告警信息识别方法、装置和设备与流程

2022-04-30 15:40:10 来源：中国专利 TAG：

1.本技术涉及计算机技术领域，尤其涉及一种基于信息系统的告警信息识别方法、装置和设备。

背景技术：

2.随着计算机和网络技术的发展，信息系统的使用越来越广泛，当信息系统中有节点发生故障时，可能影响整个系统的正常工作，因此需要对信息系统进行监控，当检测到系统发生故障时，发出告警信息，提醒相关工作人员进行相应的故障处理。
3.目前，通过监控系统来对信息系统中各个条线进行监控，可以自定义各种监控指标，开展灵活机动的监控。随着信息系统的功能越来越强大、架构越来越复杂，监控系统所需要监控的范围、时点、状态和指标也越来越多，所产生的告警信息也越来越多、内容越来越繁杂。
4.然而，目前监控系统所产生的告警信息中可能存在大量无效的告警信息，使得有效的告警信息被淹没，导致相关工作人员需要花费较多的时间从数量庞大、内容繁杂的告警信息中筛选出重要、紧急的告警信息，告警信息筛选效率低，继而影响信息系统的故障处理效率。

技术实现要素：

5.本技术提供一种基于信息系统的告警信息识别方法、装置和设备，用以解决告警信息筛选效率低的问题。
6.第一方面，本技术提供一种基于信息系统的告警信息识别方法，包括：
7.获取待识别告警信息；
8.将所述待识别告警信息与预设的告警特征集进行匹配，获得相应的匹配结果；所述告警特征集中包括多个告警特征，所述告警特征集为基于历史告警信息的关键词和结果类别所确定的；所述结果类别用于表示所述历史告警信息是否表征所述信息系统发生了故障；所述匹配结果表征所述待识别告警信息是否匹配到了所述告警特征集中的告警特征；
9.若确定所述匹配结果表征所述待识别告警信息匹配到了所述告警特征集中的告警特征，则确定所述待识别告警信息为有效告警信息。
10.第二方面，本技术提供一种基于信息系统的告警信息识别装置，包括：
11.获取模块，用于获取待识别告警信息；
12.匹配模块，用于将所述待识别告警信息与预设的告警特征集进行匹配，获得相应的匹配结果；所述告警特征集中包括多个告警特征，所述告警特征集为基于历史告警信息的关键词和结果类别所确定的；所述结果类别用于表示所述历史告警信息是否表征所述信息系统发生了故障；所述匹配结果表征所述待识别告警信息是否匹配到了所述告警特征集中的告警特征；
13.确定模块，用于若确定所述匹配结果表征所述待识别告警信息匹配到了所述告警
特征集中的告警特征，则确定所述待识别告警信息为有效告警信息。
14.第三方面，本技术提供一种计算机设备，包括：处理器以及与所述处理器通信连接的存储器；所述存储器存储计算机执行指令；所述处理器执行所述存储器存储的计算机执行指令，以实现如上述第一方面所述的方法。
15.第四方面，本技术提供一种计算机可读存储介质，所述计算机可读存储介质中存储有计算机执行指令，所述计算机执行指令被处理器执行时用于实现如上述第一方面所述的方法。
16.第五方面，本技术提供一种计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现如上述第一方面所述的方法。
17.本技术提供的基于信息系统的告警信息识别方法、装置和设备，获取待识别告警信息；将待识别告警信息与告警特征集进行匹配，获得相应的匹配结果；告警特征集中包括多个告警特征，告警特征集为基于历史告警信息的关键词和结果类别所确定的；结果类别用于表示历史告警信息是否表征信息系统发生了故障；匹配结果表征待识别告警信息是否匹配到了告警特征集中的告警特征；若确定匹配结果表征待识别告警信息匹配到了告警特征集中的告警特征，则确定待识别告警信息为有效告警信息。其中，告警特征集客观体现了可能存在高故障风险的特征，可以作为评估告警信息有效性和重要程度的依据，通过告警信息与告警特征集的匹配结果，能够较为快速和准确地识别出有效告警信息，从而提高告警信息筛选效率，有助于相关工作人员及时找到并处理相应的故障，提高信息系统的故障处理效率。
附图说明
18.此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本技术的实施例，并与说明书一起用于解释本技术的原理。
19.图1为一个实施例中一种基于信息系统的告警信息识别方法的流程示意图；
20.图2为一个实施例中第一告警特征集的获取方法的流程示意图；
21.图3为一个实施例中基于全部历史告警信息进行关键词提取，获得全部历史告警信息的第一关键词集步骤的流程示意图；
22.图4为一个实施例中根据各第一特征向量中各关键词及其权重，获得第一告警特征集步骤的流程示意图；
23.图5为一个实施例中第二告警特征集的获取方法的流程示意图；
24.图6为一个实施例中基于所有第一类历史告警信息进行关键词提取，获得所有第一类历史告警信息的第二关键词集步骤的流程示意图；
25.图7为一个实施例中一种基于信息系统的告警信息识别方法的流程示意图；
26.图8为一个实施例中一种基于信息系统的告警信息识别装置的结构示意图；
27.图9为一个实施例中一种基于信息系统的告警信息识别装置的结构示意图；
28.图10为一个实施例中计算机设备的结构示意图；
29.图11为一个实施例中计算机设备的框图。
30.通过上述附图，已示出本技术明确的实施例，后文中将有更详细的描述。这些附图和文字描述并不是为了通过任何方式限制本技术构思的范围，而是通过参考特定实施例为
本领域技术人员说明本技术的概念。
具体实施方式
31.这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本技术相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本技术的一些方面相一致的装置和方法的例子。
32.首先对本技术所涉及的名词进行解释：
33.告警信息：是指监控单元检测到信息系统发生故障后，以约定的信号发送出去的故障相关信息；
34.有效告警信息：是指收到监控单元发来的故障信号后，相关工作人员需要执行一定操作才能解决故障的告警信息；
35.权重：是指某一因素或指标相对于某一事物的重要程度，其体现的不仅仅是某一因素或指标所占的百分比，同时也强调某些因素或指标的相对重要程度，更偏向于贡献度或重要性。
36.本技术的具体应用场景为针对银行信息系统进行监控和告警的监控告警系统，监控告警系统对银行信息系统中各个条线(例如科技条线、业务条线等)进行监控，当检测到银行信息系统发生故障(包括硬件故障和软件故障)时，发出相应的告警信息，以提醒相关工作人员进行相应的故障处理。
37.随着银行信息系统的功能越来越强大、架构越来越复杂，监控告警系统所需要监控的范围、时点、状态和指标也越来越多，所产生的告警信息也越来越多、内容越来越繁杂。然而，监控告警系统所产生的告警信息中可能存在大量无效的告警信息，使得有效的告警信息被淹没，现有监控告警系统中缺乏对告警信息的有效性和重要程度进行识别的方法，导致相关工作人员需要花费较多的时间从数量庞大、内容繁杂的告警信息中筛选出重要、紧急的告警信息，告警信息筛选效率低，继而影响信息系统的故障处理效率。
38.本技术提供的基于信息系统的告警信息识别方法、装置和设备，旨在解决现有技术的如上技术问题。
39.下面以具体地实施例对本技术的技术方案以及本技术的技术方案如何解决上述技术问题进行详细说明。下面这几个具体的实施例可以相互结合，对于相同或相似的概念或过程可能在某些实施例中不再赘述。下面将结合附图，对本技术的实施例进行描述。
40.在一个实施例中，如图1所示，提供了一种基于信息系统的告警信息识别方法的流程示意图，该方法包括以下步骤s101至步骤s103。
41.s101，获取待识别告警信息。
42.本实施例的执行主体可以是服务器、或者终端、或者包含服务器和终端的系统，对此不做限制。本实施例以执行主体为监控告警系统所在的服务器进行介绍。
43.服务器从监控告警系统所产生的告警信息中获取待识别告警信息，这里的待识别告警信息可以理解为监控告警系统所产生的每一条告警信息。
44.在一个示例中，服务器定期对监控告警系统所产生的告警信息进行识别，从中筛选出有效告警信息反馈给相关工作人员进行处理。举例来说，服务器每天上午九点获取监
控告警系统在前一天所产生的所有告警信息，将其中每一条告警信息作为待识别告警信息，识别其是否为有效告警信息。
45.s102，将待识别告警信息与预设的告警特征集进行匹配，获得相应的匹配结果；告警特征集中包括多个告警特征，告警特征集为基于历史告警信息的关键词和结果类别所确定的；结果类别用于表示历史告警信息是否表征信息系统发生了故障；匹配结果表征待识别告警信息是否匹配到了告警特征集中的告警特征。
46.历史告警信息是指监控告警系统在过去所产生的告警信息，历史告警信息的结果类别是已知的。历史告警信息的结果类别包括两类，第一类表征信息系统发生了故障，第二类未表征信息系统发生了故障。
47.举例来说，第一类历史告警信息可以是包含硬件故障、或网页报错、或支付出错、或指标异常等信息的告警信息，该类告警信息意味着系统确实发生了故障，需要反馈给相关工作人员进行相应的处理。
48.举例来说，第二类历史告警信息可以包括但不限于用于测试的告警信息(待监控系统第一次接入监控告警系统时由监控告警系统产生的用于测试的告警信息)、缺乏关键内容(例如系统名称、模块名称、具体故障描述等)的告警信息，该类告警信息不是故障信息、或者不确定是否为故障信息、或者对于故障解决没有实际意义，可以不用反馈给相关工作人员。
49.在一示例中，可以通过故障标记来识别历史告警信息的结果类别。举例来说，若相关工作人员确定某一告警信息表征信息系统发生了故障、或者针对某一告警信息进行了相应故障处理，则为该告警信息添加故障标记，该故障标记用以表示该告警信息表征信息系统发生了故障。从而当识别到某一历史告警信息携带有故障标记时，确定该历史告警信息的结果类别为第一类。
50.历史告警信息的关键词可以理解为对结果类别的区分具有重要意义的词。举例来说，若一告警信息中包含某一个或多个更偏向于第一类结果的关键词，则该告警信息更可能是表征信息系统发生了故障的告警信息，即该告警信息可认为是需要反馈给相关工作人员进行相应处理的有效告警信息。
51.告警特征集基于历史告警信息的关键词和结果类别所确定，告警特征集中的每一个告警特征，可以是从历史告警信息的关键词中筛选出来的一个关键词，或者是由从历史告警信息的关键词中筛选出来的多个关键词组成的关键词组合，其客观体现了可能存在高故障风险的特征，可以作为评估告警信息有效性和重要程度的依据。
52.在一示例中，将待识别告警信息与告警特征集进行匹配，包括将待识别告警信息与告警特征集中的每一个告警特征进行匹配，通过待识别告警信息是否包含告警特征来判断该待识别告警信息是否匹配到了该告警特征。若待识别告警信息中包含某一告警特征，则认为该待识别告警信息匹配到了该告警特征；若待识别告警信息中没有包含某一告警特征，则认为该待识别告警信息没有匹配到该告警特征。
53.s103，若确定匹配结果表征待识别告警信息匹配到了告警特征集中的告警特征，则确定待识别告警信息为有效告警信息。
54.在一示例中，当待识别告警信息匹配到了告警特征集中的至少一个告警特征时，确定该待识别告警信息为有效告警信息。即只要待识别告警信息匹配到了一个告警特征，
就认为该待识别告警信息为有效告警信息，这样有利于更为全面地筛选出有效告警信息。
55.在一示例中，当待识别告警信息匹配到了告警特征集中至少预设比例的告警特征时，确定该待识别告警信息为有效告警信息。举例来说，假设告警特征集中的告警特征数量为10个，预设比例为50％，则当待识别告警信息匹配到了告警特征集中的至少5个告警特征时，确定该待识别告警信息为有效告警信息，这样有利于更为准确地筛选出有效告警信息。
56.本实施例中，获取待识别告警信息；将待识别告警信息与告警特征集进行匹配，获得相应的匹配结果；告警特征集中包括多个告警特征，告警特征集为基于历史告警信息的关键词和结果类别所确定的；结果类别用于表示历史告警信息是否表征信息系统发生了故障；匹配结果表征待识别告警信息是否匹配到了告警特征集中的告警特征；若确定匹配结果表征待识别告警信息匹配到了告警特征集中的告警特征，则确定待识别告警信息为有效告警信息。其中，告警特征集客观体现了可能存在高故障风险的特征，可以作为评估告警信息有效性和重要程度的依据，通过告警信息与告警特征集的匹配结果，能够较为快速和准确地识别出有效告警信息，从而提高告警信息筛选效率，有助于相关工作人员及时找到并处理相应的故障，提高信息系统的故障处理效率。
57.在一个实施例中，告警特征集包括第一告警特征集和/或第二告警特征集；其中，第一告警特征集中的告警特征包括基于预设历史时段内的全部历史告警信息获得的告警特征；第二告警特征集中的告警特征包括基于预设历史时段内的第一类历史告警信息获得的告警特征，第一类历史告警信息为表征信息系统发生了故障的历史告警信息。
58.预设历史时段可以根据实际需求进行设置，例如过去三个月、过去六个月、过去一年等，对此不做限制。
59.预设历史时段内的全部历史告警信息，是指监控告警系统在该预设历史时段内所产生的全部历史告警信息，既包括表征信息系统发生了故障的第一类历史告警信息，也包括未表征信息系统发生了故障的第二类历史告警信息。融合第一类历史告警信息和第二类历史告警信息，使得信息更为丰富和全面，第二类历史告警信息虽然未明确表征信息系统发生了故障，但其可能包含了具有潜在故障风险的故障信息，对于告警信息的有效性和重要程度的识别具有一定的辅助作用。
60.在一示例中，告警特征集可以只包括第一告警特征集。通过综合考虑第一类历史告警信息和第二类历史告警信息获得的第一告警特征集，可以较为全面地体现可能存在高故障风险的特征，从而通过告警信息与第一告警特征集的匹配结果，能够较为准确地识别出有效告警信息。
61.预设历史时段内的第一类历史告警信息，是指监控告警系统在该预设历史时段内所产生的全部历史告警信息中表征信息系统发生了故障的历史告警信息，不包括未表征信息系统发生了故障的历史告警信息。
62.在一示例中，告警特征集可以只包括第二告警特征集。通过只考虑第一类历史告警信息获得的第二告警特征集，可以更有针对性地体现可能存在高故障风险的特征，通过告警信息与第二告警特征集的匹配结果，能够较为准确地识别出明显的有效告警信息。
63.在一示例中，告警特征集还可以同时包括第一告警特征集和第二告警特征集。第一告警特征集和第二告警特征集中可能存在相同的元素，也可能存在不同的元素，告警特征集为第一告警特征集和第二告警特征集的并集，通过告警信息与该并集的匹配结果，能
够既全面又准确地识别出有效告警信息。
64.需要说明的是，本实施例的告警特征集为服务器预先确定的，服务器在对新产生的告警信息进行识别时，可以直接获取预先确定的告警特征集并将告警信息与预先确定的告警特征集进行匹配即可，而无需实时生成告警特征集。在一示例中，服务器定期对告警特征集进行更新，例如服务器每季度对告警特征集更新一次。
65.在一个实施例中，如图2所示，提供了第一告警特征集的获取方法的流程示意图，该方法包括以下步骤s201至步骤s206。
66.s201，获取预设历史时段内的全部历史告警信息，全部历史告警信息包括表征信息系统发生了故障的第一类历史告警信息和未表征信息系统发生故障的第二类历史告警信息。
67.对于该步骤的具体描述可以参见前文实施例，此处不再赘述。
68.s202，基于全部历史告警信息进行关键词提取，获得全部历史告警信息的第一关键词集。
69.可以采用已有的关键词提取算法(例如textrank算法)或者未来可能出现的关键词提取算法来提取全部历史告警信息中的关键词，基于提取出的关键词获得第一关键词集。
70.在一示例中，如图3所示，基于全部历史告警信息进行关键词提取，获得全部历史告警信息的第一关键词集的步骤，具体可以包括以下步骤s301至步骤s304。
71.s301，将全部历史告警信息分割成多个句子，对每个句子进行分词和词性标注处理，将指定词性的词确定为第一候选关键词。
72.将全部历史告警信息作为一个文本t，按对文本t按照完整的句子进行分割，得到多个句子，即：
73.t＝[s1,s2,s3...,sm]
[0074]
si表示分割后的句子，1≤i≤m，对句子si进行分词和词性标注处理，仅保留指定词性(如名词、动词、形容词)的词，作为候选关键词，即：
[0075]
si＝[t
i1
,t
i2
,t
i3
...t
in
]
[0076]
t
ij
表示句子si的候选关键词，1≤j≤n。据此可以获得每个句子的候选关键词，将所有句子的候选关键词作为第一候选关键词。
[0077]
s302，根据不同第一候选关键词在预设词汇长度窗口中的共现关系，计算各第一候选关键词的权重。
[0078]
不同第一候选关键词在预设词汇长度窗口中的共现关系，是指不同第一候选关键词在文本t的预设词汇长度窗口中是否同时出现。预设词汇长度是指词的个数，例如预设词汇长度设为k，即窗口大小为k，最多共现k个词。
[0079]
构建第一候选关键词图g＝(v,e)，其中，v表示节点，也即各第一候选关键词；e表示节点与节点之间的边，利用不同第一候选关键词在预设词汇长度窗口中的共现关系构造。当两个节点对应的词汇在预设词汇长度窗口中共现时，这两个节点之间存在边。根据以下公式：
[0080]
[0081]
迭代传播各节点的权重，直至收敛，获得各第一候选关键词的权重。其中，ws(vi)表示节点vi的权重；ws(vj)表示节点vj的权重；in(vi)表示指向节点vi的集合；out(vi)表示节点vi指向的点集合；ω
ji
表示节点vi和节点vj之间的边的权重，不同节点之间的边连接有不同的重要程度；d表示阻尼系数，取值范围为0～1。
[0082]
第一候选关键词的权重用于表征第一候选关键词在历史告警信息中的重要性，第一候选关键词的权重越大，说明第一候选关键词在历史告警信息中越重要，相应地对于有效告警信息的识别越重要。
[0083]
s303，将各第一候选关键词的权重从大到小进行排序，取预设数量的权重排序靠前的第一候选关键词作为第一关键词，若存在多个第一关键词在历史告警信息中形成相邻词组，则将多个第一关键词组合成第二关键词。
[0084]
将各第一候选关键词的权重从大到小进行排序，第一候选关键词的权重排序越靠前，说明该第一候选关键词越重要。取预设数量(用n表示)的权重排序靠前的第一候选关键词作为第一关键词，即保留最重要的n个第一候选关键词作为第一关键词，有助于提高有效告警信息的识别准确率。n的具体取值可以根据实际需求进行设置，此处不做限制。
[0085]
将n个第一关键词放入历史告警信息中进行标记，若存在多个第一关键词在历史告警信息中形成相邻词组，则将该多个第一关键词组合成第二关键词。举例来说，“支付”和“失败”为两个第一关键词，这两个第一关键词在历史告警信息中形成相邻词组“支付失败”，则将“支付”和“失败”这两个第一关键词组合成一个第二关键词“支付失败”，可以理解，这里的第二关键词是指关键词组合。
[0086]
s304，根据第一关键词和第二关键词，组成全部历史告警信息的第一关键词集。
[0087]
将第一关键词和第二关键词进行合并，得到全部历史告警信息的第一关键词集，即第一关键词集中的关键词包括第一关键词和第二关键词。
[0088]
s203，将各第一类历史告警信息转换为对应的第一特征向量，将各第二类历史告警信息转换为对应的第二特征向量；第一特征向量包括对应的第一类历史告警信息在第一关键词集中匹配到的关键词，第二特征向量包括对应的第二类历史告警信息在第一关键词集中匹配到的关键词。
[0089]
对于每一条第一类历史告警信息，将该第一类历史告警信息与第一关键词集中的每一个关键词进行匹配，基于匹配到的关键词形成该第一类历史告警信息对应的第一特征向量。对于每一条第二类历史告警信息，将该第二类历史告警信息与第一关键词集中的每一个关键词进行匹配，基于匹配到的关键词形成该第二类历史告警信息对应的第二特征向量。据此，某条历史告警信息ti可以被转换成由n个关键词组成的特征向量si，如下所示：
[0090]
ti‑‑
＞si＝[s
i1
,s
i2
,s
i3
...,s
in
]
[0091]
定义历史告警信息的结果类别为sr，sr为1时表示第一类历史告警信息，sr为-1时表示第二类历史告警信息，将sr加入到特征向量si中，得到包含关键词和结果的告警向量s
inew
：
[0092]sinew
＝[s
i1
,s
i2
,s
i3
...,s
in
,sr]
[0093]
s204，从第一特征向量和第二特征向量中任意选取一个特征向量，根据特征向量与同类特征向量的欧式距离确定同类近邻特征向量，根据特征向量与不同类特征向量的欧式距离确定不同类近邻特征向量。
[0094]
同类特征向量是指与选取的特征向量所对应的历史告警信息的类别相同的各历史告警信息的特征向量，同类特征向量是指与选取的特征向量所对应的历史告警信息的类别不同的各历史告警信息的特征向量。
[0095]
举例来说，若选取的特征向量为第一特征向量，其对应的是第一类历史告警信息，则同类特征向量包括其他所有第一类历史告警信息的第一特征向量，不同类特征向量包括所有第二类历史告警信息的第二特征向量。
[0096]
计算选取的特征向量与各同类特征向量的欧式距离，取k个欧氏距离最近的同类特征向量作为同类近邻特征向量。计算选取的特征向量与各不同类特征向量的欧式距离，取k个欧氏距离最近的不同类特征向量作为不同类近邻特征向量。k为正整数，具体取值可以根据实际需求进行设置，此处不做限制。
[0097]
s205，根据第一关键词集中各关键词在同类近邻特征向量中的分布差异以及在不同类近邻特征向量中的分布差异，得到第一关键词集中各关键词的权重。
[0098]
若关键词与分类有关，则该关键词在同类近邻特征向量中的分布应该相似，而在不同不同类近邻特征向量中的分布应该不相似。基于此，可以根据第一关键词集中各关键词在同类近邻特征向量中的分布差异以及在不同类近邻特征向量中的分布差异，来计算第一关键词集中各关键词的权重，这里的权重用于表征关键词的分类能力，关键词的权重越大，说明关键词对于分类贡献程度越高，即关键词的分类能力越强，从而对于有效告警信息的识别越重要。
[0099]
可以采用已有的特征选取算法(例如relieff算法)或者未来可能出现的特征选取算法来计算第一关键词集中各关键词的权重。
[0100]
在一示例中，第一关键词集中各关键词的权重(w
init
)通过以下公式计算：
[0101][0102]
其中，diff(a,r,hj)表示特征向量r和同类近邻特征向量hj在特征a上的差，若特征a同时存在于r和hj中，则diff(a,r,hj)＝0，若特征a不同时存在于r和hj中，则diff(a,r,hj)＝1；diff(a,r,mj(c))表示特征向量r和不同类近邻特征向量mj(c)在特征a上的差，若特征a同时存在于r和mj(c)中，则diff(a,r,mj(c))＝0，若特征a不同时存在于r和hj中，则diff(a,r,mj(c))＝1；m表示特征向量总数量；p(c)为与随机选取的特征向量类别不同的类别的比例，p(class(r))为随机选取的特征向量类别的比例。
[0103]
s206，根据各第一特征向量中各关键词及其权重，获得第一告警特征集。
[0104]
根据各第一特征向量中各关键词的权重，过滤掉各第一特征向量中权重较低的关键词，保留各第一特征向量中权重较高的关键词，基于保留的所有关键词获得第一告警特征集。
[0105]
在一示例中，如图4所示，根据各第一特征向量中各关键词及其权重，获得第一告警特征集的步骤，具体可以包括以下步骤s401至步骤s403。
[0106]
s401，分别计算各第一特征向量中所有关键词的权重的中位数和平均值，取中位数和平均值中的最大值，作为各第一特征向量对应的权重阈值。
[0107]
具体而言，对于第一特征向量si，其中的关键词为s
i1
,s
i2
,s
i3
,
…
,s
in
，各关键词对
应的权重为w
i1
,w
i2
,w
i3
,
…
,w
in
，n表示该第一特征向量中的关键词数量。该第一特征向量si中所有关键词的权重的中位数(w
mid
)的计算公式如下：
[0108][0109]
该第一特征向量si中所有关键词的权重的平均值(w
aver
)通过该第一特征向量si中所有关键词的权重之和除以该第一特征向量si中的关键词数量计算获得。取中位数(w
mid
)和平均值(w
aver
)的最大值作为该第一特征向量si对应的权重阈值(w
hold
)，即：
[0110]whold
＝max(w
mid
,w
aver
)
[0111]
s402，将各第一特征向量中权重低于对应的权重阈值的关键词进行过滤，获得各第一类历史告警信息的第一告警特征。
[0112]
具体而言，对于第一特征向量si，将其中各关键词的权重与权重阈值(w
hold
)进行比较，若关键词的权重低于该权重阈值(w
hold
)，则将该关键词从第一特征向量si中删除，最终第一特征向量si中保留下来的关键词组成该第一特征向量si对应的第一告警特征，也即该第一特征向量si所对应的第一类历史告警信息的第一告警特征。可以理解，第一告警特征中包括一个或多个关键词。
[0113]
s403，根据所有第一类历史告警信息的第一告警特征，得到第一告警特征集。
[0114]
获得每条第一类历史告警信息的第一告警特征之后，将所有第一类历史告警信息的第一告警特征进行合并，得到第一告警特征集。
[0115]
本实施例中，先通过关键词提取算法从全部历史告警信息中提取出关键词获得第一关键词集，再通过特征选取算法从第一类历史告警信息在第一关键词集中匹配到的关键词中筛选出权重高的关键词，形成可以较为全面地体现可能存在高故障风险的特征的第一告警特征集，从而通过待识别告警信息与第一告警特征集的匹配结果，能够较为准确地识别出有效告警信息。此外，在特征选取算法中利用关键词权重的中位数和平均值中的最大值作为对关键词进行过滤的权重阈值，可以防止关键词权重的极端分布情况对过滤效果产生的影响，据此过滤得到的关键词能够更加准确地体现可能存在高故障风险的特征，从而有助于进一步提高有效告警信息的识别准确率。
[0116]
在一个实施例中，如图5所示，提供了第二告警特征集的获取方法的流程示意图，该方法包括以下步骤s501至步骤s504。
[0117]
s501，获取预设历史时段内的第一类历史告警信息。
[0118]
对于该步骤的具体描述可以参见前文实施例，此处不再赘述。
[0119]
s502，基于所有第一类历史告警信息进行关键词提取，获得所有第一类历史告警信息的第二关键词集。
[0120]
可以采用已有的关键词提取算法(例如textrank算法)或者未来可能出现的关键词提取算法来提取所有第一类历史告警信息中的关键词，基于提取出的关键词获得第二关键词集。
[0121]
在一示例中，如图6所示，基于所有第一类历史告警信息进行关键词提取，获得所有第一类历史告警信息的第二关键词集的步骤，具体可以包括以下步骤s601至步骤s604。
[0122]
s601，将所有第一类历史告警信息分割成多个句子，对每个句子进行分词和词性标注处理，将指定词性的词确定为第二候选关键词。
[0123]
将所有第一类历史告警信息作为一个文本t，按对文本t按照完整的句子进行分割，得到多个句子，即：
[0124]
t＝[s1,s2,s3...,sm]
[0125]
si表示分割后的句子，1≤i≤m，对句子si进行分词和词性标注处理，仅保留指定词性(如名词、动词、形容词)的词，作为候选关键词，即：
[0126]
si＝[t
i1
,t
i2
,t
i3
...t
in
]
[0127]
t
ij
表示句子si的候选关键词，1≤j≤n。据此可以获得每个句子的候选关键词，将所有句子的候选关键词作为第二候选关键词。
[0128]
s602，根据不同第二候选关键词在预设词汇长度窗口中的共现关系，计算各第二候选关键词的权重。
[0129]
不同第二候选关键词在预设词汇长度窗口中的共现关系，是指不同第二候选关键词在文本t的预设词汇长度窗口中是否同时出现。预设词汇长度是指词的个数，例如预设词汇长度设为k，即窗口大小为k，最多共现k个词。
[0130]
构建第二候选关键词图g＝(v,e)，其中，v表示节点，也即各第二候选关键词；e表示节点与节点之间的边，利用不同第二候选关键词在预设词汇长度窗口中的共现关系构造。当两个节点对应的词汇在预设词汇长度窗口中共现时，这两个节点之间存在边。根据以下公式：
[0131][0132]
迭代传播各节点的权重，直至收敛，获得各第二候选关键词的权重。其中，ws(vi)表示节点vi的权重；ws(vj)表示节点vj的权重；in(vi)表示指向节点vi的集合；out(vi)表示节点vi指向的点集合；ω
ji
表示节点vi和节点vj之间的边的权重，不同节点之间的边连接有不同的重要程度；d表示阻尼系数，取值范围为0～1。
[0133]
第二候选关键词的权重用于表征第二候选关键词在第一类历史告警信息中的重要性，第二候选关键词的权重越大，说明第二候选关键词在第一类历史告警信息中越重要，相应地对于有效告警信息的识别越重要。
[0134]
s603，将各第二候选关键词的权重从大到小进行排序，取预设数量的权重排序靠前的第二候选关键词作为第三关键词，若存在多个第三关键词在第一类历史告警信息中形成相邻词组，则将多个第三关键词组合成第四关键词。
[0135]
将各第二候选关键词的权重从大到小进行排序，第二候选关键词的权重排序越靠前，说明该第二候选关键词越重要。取预设数量(用n表示)的权重排序靠前的第二候选关键词作为第三关键词，即保留最重要的n个第二候选关键词作为第三关键词，有助于提高有效告警信息的识别准确率。n的具体取值可以根据实际需求进行设置，此处不做限制。
[0136]
将n个第三关键词放入第一类历史告警信息中进行标记，若存在多个第三关键词在第一类历史告警信息中形成相邻词组，则将该多个第三关键词组合成第四关键词。举例来说，“支付”和“失败”为两个第三关键词，这两个第三关键词在第一类历史告警信息中形成相邻词组“支付失败”，则将“支付”和“失败”这两个第三关键词组合成一个第四关键词“支付失败”，可以理解，这里的第四关键词是指关键词组合。
[0137]
s604，根据第三关键词和第四关键词，组成所有第一类历史告警信息的第二关键词集。
[0138]
将第三关键词和第四关键词进行合并，得到所有第一类历史告警信息的第二关键词集，即第二关键词集中的关键词包括第三关键词和第四关键词。
[0139]
s503，将各第一类历史告警信息转换为对应的第三特征向量，作为各第一类历史告警信息对应的第二告警特征，第三特征向量包括对应的第一类历史告警信息在第二关键词集中匹配到的关键词。
[0140]
对于每一条第一类历史告警信息，将该第一类历史告警信息与第二关键词集中的每一个关键词进行匹配，基于匹配到的关键词形成该第一类历史告警信息对应的第三特征向量，将该第一类历史告警信息对应的第三特征向量作为该第一类历史告警信息的第二告警特征。可以理解，第二告警特征中包括一个或多个关键词。
[0141]
s504，根据所有第一类历史告警信息的第二告警特征，得到第二告警特征集。
[0142]
获得每条第一类历史告警信息的第二告警特征之后，将所有第一类历史告警信息的第二告警特征进行合并，得到第二告警特征集。
[0143]
本实施例中，通过关键词提取算法从所有第一类历史告警信息中提取出关键词获得第二关键词集，基于第一类历史告警信息在第二关键词集中匹配到的关键词，形成可以更有针对性地体现可能存在高故障风险的特征的第二告警特征集，从而通过待识别告警信息与第二告警特征集的匹配结果，能够较为准确地识别出明显的有效告警信息。
[0144]
在一个实施例中，如图7所示，提供了一种基于信息系统的告警信息识别方法的流程示意图，该方法包括以下步骤s701至步骤s706。
[0145]
s701，获取预设历史时段内的全部历史告警信息，基于预设历史时段内的全部历史告警信息获得第一告警特征集。
[0146]
s702，获取预设历史时段内的第一类历史告警信息，基于预设历史时段内的第一类历史告警信息获得第二告警特征集。
[0147]
s703，将第一告警特征集和第一告警特征集的并集，确定为告警特征集，告警特征集中包括多个告警特征。
[0148]
s704，获取待识别告警信息。
[0149]
s705，将待识别告警信息与告警特征集进行匹配，获得相应的匹配结果。
[0150]
s706，若确定匹配结果表征待识别告警信息匹配到了告警特征集中的告警特征，则确定待识别告警信息为有效告警信息。
[0151]
关于上述步骤s701～s706的具体描述可以参见前文实施例，此处不再赘述。本实施例中，将基于全部历史告警信息获得的第一告警特征集与基于第一类历史告警信息获得的第二告警特征集合并，形成告警特征集，该告警特征集客观且全面地体现了可能存在高故障风险的特征，可用于判断新产生的告警信息的隐藏故障风险，将该告警特征集作为评估告警信息有效性和重要程度的依据，能够快速、全面又准确地识别出有效告警信息，从而提高告警信息筛选效率，有助于相关工作人员及时找到并处理相应的故障，提高信息系统的故障处理效率。
[0152]
应该理解的是，虽然上述实施例涉及的各流程图中的各个步骤按照箭头的指示依
次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，上述实施例涉及的各流程图中的至少一部分步骤可以包括多个步骤或者多个阶段，这些步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。
[0153]
在一个实施例中，如图8所示，提供了一种基于信息系统的告警信息识别装置的结构示意图，该装置可以采用软件模块或硬件模块，或者是二者的结合成为计算机设备的一部分，该装置具体包括：获取模块810、匹配模块820和确定模块830，其中：
[0154]
获取模块810，用于获取待识别告警信息。
[0155]
匹配模块820，用于将待识别告警信息与预设的告警特征集进行匹配，获得相应的匹配结果；告警特征集中包括多个告警特征，告警特征集为基于历史告警信息的关键词和结果类别所确定的；结果类别用于表示历史告警信息是否表征信息系统发生了故障；匹配结果表征待识别告警信息是否匹配到了告警特征集中的告警特征。
[0156]
确定模块830，用于若确定匹配结果表征待识别告警信息匹配到了告警特征集中的告警特征，则确定待识别告警信息为有效告警信息。
[0157]
在一示例中，告警特征集包括第一告警特征集和/或第二告警特征集；其中，第一告警特征集中的告警特征包括基于预设历史时段内的全部历史告警信息获得的告警特征；第二告警特征集中的告警特征包括基于预设历史时段内的第一类历史告警信息获得的告警特征，第一类历史告警信息为表征信息系统发生了故障的历史告警信息。
[0158]
在一个实施例中，如图9所示，该装置还包括告警特征集获取模块840，用于获取告警特征集。
[0159]
在一示例中，告警特征集获取模块840包括第一告警特征集获取模块841，用于获取第一告警特征集合。第一告警特征集获取模块841包括：第一获取单元8411、第一关键词提取单元8412、第一转换单元8413、距离计算单元8414、权重计算单元8415和第一确定单元8416，其中：
[0160]
第一获取单元8411，用于获取预设历史时段内的全部历史告警信息，全部历史告警信息包括表征信息系统发生了故障的第一类历史告警信息和未表征信息系统发生故障的第二类历史告警信息。
[0161]
第一关键词提取单元8412，用于基于全部历史告警信息进行关键词提取，获得全部历史告警信息的第一关键词集。
[0162]
第一转换单元8413，用于将各第一类历史告警信息转换为对应的第一特征向量，将各第二类历史告警信息转换为对应的第二特征向量；第一特征向量包括对应的第一类历史告警信息在第一关键词集中匹配到的关键词，第二特征向量包括对应的第二类历史告警信息在第一关键词集中匹配到的关键词。
[0163]
距离计算单元8414，用于从第一特征向量和第二特征向量中任意选取一个特征向量，根据特征向量与同类特征向量的欧式距离确定同类近邻特征向量，根据特征向量与不同类特征向量的欧式距离确定不同类近邻特征向量。
[0164]
权重计算单元8415，用于根据第一关键词集中各关键词在同类近邻特征向量中的
分布差异以及在不同类近邻特征向量中的分布差异，得到第一关键词集中各关键词的权重。
[0165]
第一确定单元8416，用于根据各第一特征向量中各关键词及其权重，获得第一告警特征集。
[0166]
在一示例中，第一关键词提取单元8412，具体用于：将全部历史告警信息分割成多个句子，对每个句子进行分词和词性标注处理，将指定词性的词确定为第一候选关键词；根据不同第一候选关键词在预设词汇长度窗口中的共现关系，计算各第一候选关键词的权重；将各第一候选关键词的权重从大到小进行排序，取预设数量的权重排序靠前的第一候选关键词作为第一关键词，若存在多个第一关键词在历史告警信息中形成相邻词组，则将多个第一关键词组合成第二关键词；根据第一关键词和第二关键词，组成全部历史告警信息的第一关键词集。
[0167]
在一示例中，第一确定单元8416，具体用于：分别计算各第一特征向量中所有关键词的权重的中位数和平均值，取中位数和平均值中的最大值，作为各第一特征向量对应的权重阈值；将各第一特征向量中权重低于对应的权重阈值的关键词进行过滤，获得各第一类历史告警信息的第一告警特征；根据所有第一类历史告警信息的第一告警特征，得到第一告警特征集。
[0168]
在一个实施例中，如图9所示，告警特征集获取模块840包括第二告警特征集获取模块842，用于获取第二告警特征集合。第二告警特征集获取模块842包括：第二获取单元8421、第二关键词提取单元8422、第二转换单元8423和第二确定单元8424，其中：
[0169]
第二获取单元8421，用于获取预设历史时段内的第一类历史告警信息。
[0170]
第二关键词提取单元8422，用于基于所有第一类历史告警信息进行关键词提取，获得所有第一类历史告警信息的第二关键词集。
[0171]
第二转换单元8423，用于将各第一类历史告警信息转换为对应的第三特征向量，作为各第一类历史告警信息的第二告警特征，第三特征向量包括对应的第一类历史告警信息在第二关键词集中匹配到的关键词。
[0172]
第二确定单元8424，用于根据所有第一类历史告警信息的第二告警特征，得到第二告警特征集。
[0173]
在一示例中，第二关键词提取单元8422，具体用于：将所有第一类历史告警信息分割成多个句子，对每个句子进行分词和词性标注处理，将指定词性的词确定为第二候选关键词；根据不同第二候选关键词在预设词汇长度窗口中的共现关系，计算各第二候选关键词的权重；将各第二候选关键词的权重从大到小进行排序，取预设数量的权重排序靠前的第二候选关键词作为第三关键词，若存在多个第三关键词在第一类历史告警信息中形成相邻词组，则将多个第三关键词组合成第四关键词；根据第三关键词和第四关键词，组成所有第一类历史告警信息的第二关键词集。
[0174]
在一个实施例中，如图9所示，告警特征集获取模块840包括：第一告警特征集获取模块841、第二告警特征集获取模块842和合并模块843，其中：第一告警特征集获取模块841，用于获取第一告警特征集合；第二告警特征集获取模块842，用于获取第二告警特征集合；合并模块843，用于将第一告警特征集合与第二告警特征集合的并集，确定为告警特征集。
[0175]
关于基于信息系统的告警信息识别装置的具体限定可以参见上文中对于基于信息系统的告警信息识别方法的限定，在此不再赘述。上述基于信息系统的告警信息识别装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。
[0176]
在一个实施例中，如图10所示，提供了一种计算机设备的结构示意图，该计算机设备包括：处理器1001以及与处理器1001通信连接的存储器1002；存储器1002存储计算机执行指令；处理器1001执行存储器1002存储的计算机执行指令，以实现如上述实施例提供的方法。
[0177]
计算机设备还包括接收器1003和发送器1004。接收器1003用于接收外部设备发送的指令和数据，发送器1004用于向外部设备发送指令和数据。
[0178]
图11是根据一示例性实施例示出的一种计算机设备的框图，该设备可以是移动电话，计算机，数字广播终端，消息收发设备，游戏控制台，平板设备，医疗设备，健身设备，个人数字助理等。
[0179]
装置1100可以包括以下一个或多个组件：处理组件1102，存储器1104，电源组件1106，多媒体组件1108，音频组件1110，输入/输出(i/o)接口1112，传感器组件1114，以及通信组件816。
[0180]
处理组件1102通常控制装置1100的整体操作，诸如与显示，电话呼叫，数据通信，相机操作和记录操作相关联的操作。处理组件1102可以包括一个或多个处理器1120来执行指令，以完成上述的方法的全部或部分步骤。此外，处理组件1102可以包括一个或多个模块，便于处理组件1102和其他组件之间的交互。例如，处理组件1102可以包括多媒体模块，以方便多媒体组件1108和处理组件1102之间的交互。
[0181]
存储器1104被配置为存储各种类型的数据以支持在装置1100的操作。这些数据的示例包括用于在装置1100上操作的任何应用程序或方法的指令，联系人数据，电话簿数据，消息，图片，视频等。存储器1104可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(sram)，电可擦除可编程只读存储器(eeprom)，可擦除可编程只读存储器(eprom)，可编程只读存储器(prom)，只读存储器(rom)，磁存储器，快闪存储器，磁盘或光盘。
[0182]
电源组件1106为装置1100的各种组件提供电力。电源组件1106可以包括电源管理系统，一个或多个电源，及其他与为装置1100生成、管理和分配电力相关联的组件。
[0183]
多媒体组件1108包括在装置1100和用户之间的提供一个输出接口的屏幕。在一些实施例中，屏幕可以包括液晶显示器(lcd)和触摸面板(tp)。如果屏幕包括触摸面板，屏幕可以被实现为触摸屏，以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。触摸传感器可以不仅感测触摸或滑动动作的边界，而且还检测与触摸或滑动操作相关的持续时间和压力。在一些实施例中，多媒体组件1108包括一个前置摄像头和/或后置摄像头。当装置1100处于操作模式，如拍摄模式或视频模式时，前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。
[0184]
音频组件1110被配置为输出和/或输入音频信号。例如，音频组件1110包括一个麦
克风(mic)，当装置1100处于操作模式，如呼叫模式、记录模式和语音识别模式时，麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器1104或经由通信组件1116发送。在一些实施例中，音频组件1110还包括一个扬声器，用于输出音频信号。
[0185]
i/o接口1112为处理组件1102和外围接口模块之间提供接口，上述外围接口模块可以是键盘，点击轮，按钮等。这些按钮可包括但不限于：主页按钮、音量按钮、启动按钮和锁定按钮。
[0186]
传感器组件1114包括一个或多个传感器，用于为装置1100提供各个方面的状态评估。例如，传感器组件1114可以检测到装置1100的打开/关闭状态，组件的相对定位，例如组件为装置1100的显示器和小键盘，传感器组件1114还可以检测装置1100或装置1100一个组件的位置改变，用户与装置1100接触的存在或不存在，装置1100方位或加速/减速和装置1100的温度变化。传感器组件1114可以包括接近传感器，被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件1114还可以包括光传感器，如cmos或ccd图像传感器，用于在成像应用中使用。在一些实施例中，该传感器组件1114还可以包括加速度传感器，陀螺仪传感器，磁传感器，压力传感器或温度传感器。
[0187]
通信组件1116被配置为便于装置1100和其他设备之间有线或无线方式的通信。装置1100可以接入基于通信标准的无线网络，如wifi，2g或3g，或它们的组合。在一个示例性实施例中，通信组件1116经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中，通信组件1116还包括近场通信(nfc)模块，以促进短程通信。例如，在nfc模块可基于射频识别(rfid)技术，红外数据协会(irda)技术，超宽带(uwb)技术，蓝牙(bt)技术和其他技术来实现。
[0188]
在示例性实施例中，装置1100可以被一个或多个应用专用集成电路(asic)、数字信号处理器(dsp)、数字信号处理设备(dspd)、可编程逻辑器件(pld)、现场可编程门阵列(fpga)、控制器、微控制器、微处理器或其他电子元件实现，用于执行上述方法。
[0189]
在示例性实施例中，还提供了一种包括指令的非临时性计算机可读存储介质，例如包括指令的存储器1104，上述指令可由装置1100的处理器1120执行以完成上述方法。例如，非临时性计算机可读存储介质可以是rom、随机存取存储器(ram)、cd-rom、磁带、软盘和光数据存储设备等。
[0190]
本技术实施例还提供了一种非临时性计算机可读存储介质，当该存储介质中的指令由计算机设备的处理器执行时，使得计算机设备能够执行上述任一实施例提供的方法。
[0191]
本发明实施例还提供了一种计算机程序产品，计算机程序产品包括：计算机程序，计算机程序存储在可读存储介质中，计算机设备的至少一个处理器可以从可读存储介质读取计算机程序，至少一个处理器执行计算机程序使得计算机设备执行上述任一实施例提供的方法。
[0192]
需要理解的是，上述实施例中的术语“第一”、“第二”等仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。此外，在本技术的描述中，除非另有说明，“多个”的含义是指至少两个。
[0193]
本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本技术的其它实施方案。本技术旨在涵盖本技术的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本技术的一般性原理并包括本技术未公开的本技术领域中的公知常识
或惯用技术手段。说明书和实施例仅被视为示例性的，本技术的真正范围和精神由下面的权利要求书指出。
[0194]
应当理解的是，本技术并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本技术的范围仅由所附的权利要求书来限制。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：用于租赁设备的耗材管理方法、装置、设备及介质与流程

基于信息系统的告警信息识别方法、装置和设备与流程

相关文献

最热文献