一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

集群告警功能的测试方法、系统、设备和存储介质与流程

2022-08-11 03:34:01 来源:中国专利 TAG:


1.本发明涉及分布式集群技术领域,特别是涉及一种集群告警功能的测试方法、系统、设备和存储介质。


背景技术:

2.随着智能计算时代的到来,高性能计算正在与大数据融合发展,大数据存储和处理成为当前热点。服务器集群的稳定性,云存储和云计算非常重要。例如,对于服务器集群中的一些存储性能、资源等情况,同时,基于smart.x的超融合系统在数据中心的上一层针对不同虚拟机或虚拟卷的监控也尤为重要,it系统管理员以及对应的开发人员、监控人员都必须第一时间了解并作出调整,以减少对产线正常业务的影响。由此,在部署服务器集群之后,通常会内置告警系统,监测异常事件,并基于异常事件将告警消息以邮件或短信形式发给指定的人和/或群组。
3.告警系统覆盖所有监控数据项和报警项等需求,因此测试场景的复杂度较高,目前所使用的测试方法主要是以手工测试为主外加简单的自动化脚本来进行。手工测试需要投入很大的人力和时间成本,自动化脚本则是单一的检查监控项是否有数据,或者是修改阈值来验证告警是否能被触发,其中告警项数据的正确性和实时性没有得到很好的测试和验证,随着smart.x的不断完善扩展能够支持不用的平台架构或者特殊功能,使得监控告警项也在不断的完善增加,服务器所面临的问题多种多样,因此引发地告警数量和种类繁多,进而容易引起告警泛滥,甚至误告警。因此,告警功能的可靠性需要进一步的测试和验证。


技术实现要素:

4.根据现有技术中面临告警项数据的正确性和实时性没有得到很好的测试和验证等问题,本发明提供一种集群告警功能的测试方法、系统、设备和存储介质。
5.本技术的第一方面提供了一种集群告警功能的测试方法,具体包括:
6.获取根据预设约定生成的第一样本数据集和集群在预设时间段内的第一监控数据集;
7.在第一监控数据集对应的系统指标和第一样本数据集对应的模拟指标满足预设标准的情况下,获取超融合系统的告警配置;
8.根据告警配置的告警阈值指标,生成对应达到告警阈值指标的第二样本数据集;
9.基于接收第二样本数据集的预设指标模型的生成工具触发集群告警,获取告警项数据,根据告警项数据测试集群告警功能。
10.在上述第一方面的一种可能的实现中,于该种集群告警功能的测试方法中,第一样本数据集和第二样本数据集分别基于不同时间和/或场景下基于相同的目标对象生成;
11.其中,第一样本数据集和第二样本数据集均包括超融合系统中集群的模拟数据集,或者
12.第一样本数据集和第二样本数据集均包括根据预设周期归整处理后的环境数据
集。
13.在上述第一方面的一种可能的实现中,于该种集群告警功能的测试方法中,获取超融合系统中集群的模拟数据集包括:
14.通过预设数据模拟工具,生成超融合系统中集群的模拟数据集。
15.在上述第一方面的一种可能的实现中,于该种集群告警功能的测试方法中,根据预设周期归整处理后的环境数据集包括:在超融合系统的预设场景下,获取采集集群采集的环境数据集;将环境数据集按照预设周期进行归整处理。
16.在上述第一方面的一种可能的实现中,于该种集群告警功能的测试方法中,
17.第一监控数据集对应的系统指标和第一样本数据集对应的模拟指标满足预设标准包括:
18.第一样本数据集和第一监控数据集的生成时间戳一致;
19.模拟指标与系统指标的预设数据指标保持一致
20.其中,第一样本数据集对应的模拟指标基于预设指标模型生成。
21.在上述第一方面的一种可能的实现中,于该种集群告警功能的测试方法中,获取告警配置的告警阈值指标包括:
22.在接收到输入的告警配置包括修改项的情况下,根据修改项生成相应的告警阈值指标;
23.在未接收到输入的告警配置的情况下,根据预设告警配置生成相应的告警阈值指标;
24.其中,告警配置包括监控数据项配置。
25.在上述第一方面的一种可能的实现中,于该种集群告警功能的测试方法中,根据告警项数据测试集群告警功能包括:
26.在获取的告警项数据出现达到对应告警阈值指标的异常数据的情况下,确定对应的集群告警功能测试结果为通过。
27.本技术的第二方面提供了一种集群告警功能的测试系统,具体包括:
28.获取单元,用于获取根据预设约定生成的第一样本数据集和集群在预设时间段内的第一监控数据集;
29.验证单元,用于在第一监控数据集对应的系统指标和第一样本数据集对应的模拟指标满足预设标准的情况下,获取超融合系统的告警配置;
30.告警触发单元,用于根据告警配置的告警阈值指标,生成对应达到告警阈值指标的第二样本数据集;
31.测试单元,用于接收第二样本数据集的预设指标模型的生成工具触发集群告警,获取告警项数据,根据告警项数据测试集群告警功能。
32.本技术的第三方面提供了一种集群告警功能的测试设备,包括:存储器,用于存储指令,指令包括前述任意一项的集群告警功能的测试方法的步骤;
33.处理器,用于执行指令。
34.本技术的第四方面提供了一种存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现前述任意一项集群告警功能的测试方法的步骤。
35.与现有技术相比,本技术具有如下的有益效果:
36.通过本技术提出的技术方案,基于超融合系统中集群的模拟运行数据触发集群告警,或者在不易通过模拟运行数据实现告警功能测试的情况下,基于预设场景下采集采集集群的环境数据集,按照不同的预设周期来进行聚合整理,获取告警项数据,根据告警项数据测试集群告警功能,实现在告警数量和种类繁多的情况下,实时测试告警功能,防止告警泛滥,保证告警功能实时性和准确性。
附图说明
37.通过阅读参照以下附图对非限制性实施例所作的详细描述,本发明的其它特征、目的和优点将会变得更明显:
38.图1根据本技术的实施例,示出了一种smart.x的超融合集群监控告警系统图;
39.图2根据本技术的实施例,示出了一种集群告警功能的测试方法流程图;
40.图3根据本技术的实施例,示出了一种集群告警功能的系统框图;
41.图4根据本技术的实施例,示出了一种集群告警功能的测试系统各单元指令传输框图。
具体实施方式
42.下面结合具体实施例对本发明进行详细说明。以下实施例将有助于本领域的技术人员进一步理解本发明,但不以任何形式限制本发明。应当指出的是,对本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变化和改进。这些都属于本发明的保护范围。
43.在本文中使用的术语“包括”及其变形表示开放性包括,即“包括但不限于”。除非特别申明,术语“或”表示“和/或”。术语“基于”表示“至少部分地基于”。术语“一个示例实施例”和“一个实施例”表示“至少一个示例实施例”。术语“另一实施例”表示“至少一个另外的实施例”。术语“第一”、“第二”等等可以指代不同的或相同的对象。下文还可能包括其他明确的和隐含的定义。
44.为了解决现有技术中存在面临告警项数据的正确性和实时性没有得到很好的测试和验证等问题,本技术提出了集群告警功能的测试方法、系统、设备和存储介质。通过该种集群告警功能的测试方法,能够基于预先获取集群的模拟运行数据或预设场景下通过采集采集集群以生成环境数据集,实现在告警数量和种类繁多的情况下,实时测试告警功能,防止告警泛滥,保证告警功能实时性和准确性。
45.具体地,图1根据本技术的一些实施例,示出了一种smart.x的超融合集群监控告警系统图。于smart.x的超融合集群中,一个集群包括至少3个节点或者几十甚至上百个节点,要监控整个集群的存储性能、资源等情况,或者需要快速定位某个服务器节点、某个物理盘。此时需要按照预定时间间隔,周期性的采集性能、系统用量等监控数据;对原始数据按照一定的聚合规则进行聚合,形成一定粗粒度的数据,以实现满足需要较长时间存储的数据,对于获取到的监控数据提供查询接口,使得客户端可展示这些数据,同时根据系统的实际性能自定义告警配置,按照报警配置,对采集到的集群数据进行检测,满足触发条件的则触发告警功能,并将发往告警管理服务,通过用户的注册中心例如电子邮件、微信平台等实现告警信息项的发布,于该场景下满足覆盖所有监控数据项和告警数据项等需求,且需
要对告警项数据的正确性和实时性进行进一步的测试。
46.具体地,如图2所示,根据本技术的实施例,示出了一种集群告警功能的测试方法流程图,具体包括:
47.步骤100:获取根据预设约定生成的第一样本数据集和所述集群在预设时间段内的第一监控数据集。可以理解的是,超融合场景下,集群包括提供监控样本数据的程序,用于在集群运行状态过程中实现对于集群的运状态行监控需求,基于监控需求生成第一监控数据集,其第一监控数据集具体根据监控需求与系统、存储资源等一系列的指标对应,在集群正常运行的情况下其线上服务系统的请求数量、延迟处理情况,批处理作业的数量,日志写入、线程池的线程处理、缓存处理情况等于不同的应用场景、不同的时刻等实时发生变化,因此第一监控数据集对应的系统指标在系统运行过程中会出现不同幅度的波动,即较难维持在一个稳定的状态,当需要对第一监控数据集的系统指标进行告警提示时,需要基于监控需求对告警功能进行测试,因此需要较为稳定的指标数据能够代表实时的系统指标,因此可以通过根据预设约定生成的第一样本数据集对应的模拟指标相对应的处于一个较为稳定的状态。
48.于本技术的一些实施例中,通过预设的约定获取第一样本数据集,具体地,通过预设的命令行输入按照预设约定生成第一样本数据集,第一样本数据集的生成用于判断基于第一样本数据集生成的模拟指标是否可以代表实时系统指标。
49.于本技术的一些实施例中,监控样本数据的程序可以包括以下elf-exporter,tuna-exporter,time machine-exporter,meta-exporter,chunk-exporter等几个模块提供监控样本数据,生成对应的第一监控样本数据集。对应地,每一个模块负责多种不同的系统的指标数据。
50.进一步地,例如,tuna-exporter负责监控的服务器节点cpu使用率,正常运行的集群cpu使用率很难维持在一个稳定的值,如使用率持续为70的可能性较小,会在70%的左右一直波动,通过在系统指标预设接近波动范围的预设数据指标,保持预设数据指标处于稳定的状态值,基于预设数据生成模型中,预安装了压力工具,通过压力工具使得对服务器节点加压使cpu使用率达到70%,此时可以将70%的模拟指标作为判断标准以便与监控的系统指标进行进一步地比较,验证模拟指标的准确度。
51.步骤200:在所述第一监控数据集对应的系统指标和所述第一样本数据集对应的模拟指标满足预设标准的情况下,获取超融合系统的告警配置。可以理解的是,基于第一样本数据集获取的对应的模拟指标,此时通过调用smart.x超融合系统的数据接口,可以对监控系统的监控数据进行获取,同时判断该时段系统指标与模拟指标是否满足预设标准,基于集群的真实运行数据构建第二样本数据,即通过抓取拿到一个时间段的系统指标的数据集值判断与预模拟指标中的数据集的值是否相吻合。
52.具体地,可以以同样以cpu使用率的模拟指标为70%作为模拟数据判断的标准,基于预设指标模型将集群的主机节点cpu使用率模拟加压到70%,此时通过调用smart.x超融合系统的api,可以抓取到监控系统在某一个时间段内的cpu使用率,判断该时段内的cpu使用率的预设数据指标是否与模拟指标的70%是否一致。
53.于本技术的一些实施例中,当采用第一样本监控数据集的其他数据基于预设指标模型模拟指标的数值时,相应地通过监控样本数据的程序获取相应的数值获取对应的模拟
指标的数值,用户或者开发人员可以根据具体需求进行设置,在此不做限定。
54.于本技术的一些实施例中,在需要基于模拟指标进行告警功能测试的情况下,该方式需提前写好告警配置。
55.步骤300:根据所述告警配置的告警阈值指标,生成对应达到所述告警阈值指标的所述第二样本数据集。可以理解的是,模拟指标用于模拟系统指标超过告警阈值指标实现集群的告警功能,需要获取当前集群监控系统基于当前告警配置的告警阈值指标,根据当前的告警阈值指标,作为相应的预设约定的设置依据,生成第二样本数据集,此时第二样本数据集对应的模拟指标的数值达到告警阈值指标。
56.具体地,以前述的集群的主机节点cpu使用率的告警阈值指标为例,可以设置当cpu使用率达到90%的情况下,为达到告警系统的告警阈值指标,基于90%的模拟指标相应地生成第二样本数据集,基于此第二样本数据集可以调用告警系统的api获取集群的告警项数据。
57.步骤400:基于接收第二样本数据集的预设指标模型的生成工具触发集群告警,获取告警项数据,根据告警项数据测试集群告警功能。可以理解的是,第二样本数据集与集群运行数据集相对应,当第二运行数据集的模拟指标达到告警阈值指标的情况下,将第二样本数据集输入对应的预设指标模型的生成工具中,以实现该模拟指标达到对应该项告警配置下的告警阈值指标,以对集群告警系统进行触发,获取在此对应的告警配置的情况下,获取相应的告警项数据。
58.具体地,模拟数据集或者采集采集集群预设时段的环境数据集输入模拟指标生成模型生成的模拟指标能够相应地代表实时系统指标的数据,通过基于模拟监控数据集或环境数据集置入预设指标模型的生成工具,以便根据触发生成的告警项数据对告警系统进行测试。
59.于本技术的一些实施例中,预设指标模型的生成工具可以设置为压力工具例如,stress-ng、stress等,本领域技术人员可以根据现有压力工具进行选择,在此不做限定。
60.于上述步骤100中,第一样本数据集和第二样本数据集分别基于不同时间和/或场景下基于相同的目标对象生成;其中,第一样本数据集和第二样本数据集均包括超融合系统中集群的模拟数据集,或者第一样本数据集和第二样本数据集均包括根据预设周期归整处理后的环境数据集。
61.于本技术的一些实施例中第一样本数据集和第二样本数据集均可以为模拟监控数据集。
62.进一步地,获取超融合系统中集群的模拟数据集包括:通过预设数据模拟工具,生成超融合系统中集群的模拟数据集。
63.进一步地,根据预设周期归整处理后的环境数据集包括:在超融合系统的预设场景下,获取采集集群采集的环境数据集;将环境数据集按照预设周期进行归整处理。
64.可以理解的是,超融合系统的集群正常运行时,基于预设约定获取的第一样本数据集和基于模拟指标的数值对应生成的第二样本数据集,第一样本数据集和第二样本数据集处于不同的预设时段生成。在针对某些特定场景或者预设场景的情况下,需要针对不同的场景实现第一样本数据集和第二样本数据集,可以基于集群的模拟数据集模拟生成,但是针对较难模拟的场景或者某些特殊场景的情况下,在生成模拟指标之前需要捕获采集集
群的数据,将采集到的数据进行归整聚合,进而得到归整处理后的环境数据集。
65.于本技术的一些实施例中,当较难模拟的场景为以系统的授权过期的情况下,基于集群的模拟数据集需要申请一个短时间授权以及修改系统时间实现,但是由于超融合系统配置外部ntp服务器,时间会自动同步至当前系统的时间,导致无法获取系统授权阶段的模拟指标,同时申请授权涉及外部系统的调用,此时获取模拟数据集进行告警功能的测试实现较为困难,基于采集集群的采集装置能够在系统中长时间运行实现收集系统实时指标的监控并保存相关的数据,并对数据做聚合、整理,得到环境数据集,环境数据集置于相应的预设模拟指标模型生成模拟指标,基于模拟指标进一步地测试告警功能。
66.具体地,通过对数据的归整、聚合处理可以按照一定的预设周期获取告警功能测试所需的数据包括实时监控告警阈值指标的监控数据集等。进一步地,针对不同的数据需要按照不同的周期来进行聚合整理,使得采集到的数据颗粒度可以满足告警功能的测试的需求。
67.于本技术的一些是实施例中,超融合系统的预设场景可以根据系统的实时的监控需求进行设定,在此不做限定。
68.于上述步骤200中,第一监控数据集对应的系统指标和第一样本数据集对应的模拟指标满足预设标准的情况下包括:第一样本数据集和第一监控数据集的生成时间戳一致;模拟指标与系统指标的预设数据指标保持一致;其中,第一样本数据集对应的模拟指标基于预设指标模型生成。可以理解的是,为了保证第一样本数据集对应的模拟指标的准确性,需要对数据解析结果及对应第一监控数据集和第一样本数据集生成的时间戳保持一致,同归保证模拟指标对应的模拟数据与该时段系统指标的预设数据保持一致,进一步验证模拟指标的可靠性,此时认为模拟指标可以代表当前集群的系统指标,可以基于模拟指标实现集群的告警功能测试。
69.于本技术的一些实施例中,由于系统指标难以维持在一个固定的值,例如地,当系统指标为cpu的运行指标的情况下,往往会通过系统指标的预设数据指标,在存在波动区间的范围内选择一个趋近于系统指标或者可以代表当前系统指标的数值或数值集作为预设数据指标,本领域技术人员可以根据实际需求选择合适的预设数据指标,在此不做限定。
70.于上述步骤200中,获取告警配置的告警阈值指标包括:在接收到输入的告警配置包括修改项的情况下,根据修改项生成相应的告警阈值指标;在未接收到输入的告警配置的情况下,根据预设告警配置生成相应的告警阈值指标;其中,告警配置包括监控数据项配置。可以理解的是,告警配置包括告警阈值指标等参数,监控数据项的配置决定了第一样本数据和第二样本数据的模拟指标设置。
71.于上述步骤400中,根据告警项数据测试集群告警功能包括:在获取的告警项数据出现达到对应告警阈值指标的异常数据的情况下,确定对应的集群告警功能测试结果为通过。可以理解的是,根据对应的告警配置的告警阈值指标和监控数据项测试当前告警项数据存在对应告警阈值指标的异常数据,则认为与第二样本数据集相对应的告警阈值指标达到的情况下,实现在达到集群运行状态的监控数据集告警的告警阈值指标的情况下正常的告警功能。
72.进一步地,告警工程测试通过的情况还可以包括当第二样本数据集对应的模拟指标达到告警阈值指标之内的正常数据的情况下,告警解除等,可以根据具体的告警配置、告
警阈值指标的种类等进行进一步的判断,在此不做限定。
73.上文详述了集群告警功能的测试方法对应的各个实施例,在此基础上,本发明还公开了与上述方法对应的集群告警功能的测试系统。
74.图3根据本技术的实施例,示出了一种集群告警功能的测试系统框图,具体包括:
75.获取单元10,用于获取根据预设约定生成的第一样本数据集和集群在预设时间段内的第一监控数据集;
76.验证单元20,用于在第一监控数据集对应的系统指标和第一样本数据集对应的模拟指标满足预设标准的情况下,获取超融合系统的告警配置;
77.告警触发单元30,用于根据告警配置的告警阈值指标,生成对应达到告警阈值指标的第二样本数据集;
78.测试单元40,用于接收第二样本数据集的预设指标模型的生成工具触发集群告警,获取告警项数据,根据告警项数据测试集群告警功能。
79.由于系统部分的实施例与方法部分的实施例相互对应,因此装置部分的实施例请参见方法部分的实施例的描述,这里暂不赘述。
80.图4根据本技术的实施例,示出了一种集群告警功能的测试系统各单元指令传输框图。具体地,数据生成单元,数据采集单元、测试单元根据接收的指令及数据传输接口执行相应的指令,实现集群的系统在相应的场景下的告警功能的测试。告警系统的测试数据采集单元可以完全脱离数据生成单元单独工作,运行于长期运行系统环境检查系统的监控告警情况。使得系统的整个架构可以和现有的自动化框架兼容,在产品不同的迭代周期内,对系统产品进行自动化校验。
81.在本技术的一些实施例中,还提供了一种电子设备。该种电子设备中包含存储器和处理器,其中存储器用于对处理程序进行存储,处理器则根据指令对处理程序进行执行。当处理器对处理程序进行执行时,使得前述实施例中的集群告警功能的测试方法得以实现。
82.本实施例提供的存储介质,由于可以通过处理器调用存储介质存储的计算机程序,实现如上述任一实施例提供的集群告警功能的测试方法的步骤,所以本存储介质具有同上述存储集群告警功能的测试方法同样的实际效果。
83.通过本技术提出的技术方案,基于超融合系统中集群的模拟运行数据触发集群告警,或者在不易通过模拟运行数据实现告警功能测试的情况下,基于预设场景下采集采集集群的环境数据集,按照不同的预设周期来进行聚合整理,获取告警项数据,根据告警项数据测试集群告警功能,实现在告警数量和种类繁多的情况下,实时测试告警功能,防止告警泛滥,保证告警功能实时性和准确性。
84.在本技术所提供的几个实施例中,应该理解到,所揭露的方法、装置、设备及存储介质,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个模块或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或模块的间接耦合或通信连接,可以是电性,机械或其它的形式。作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理模块,即可以
位于一个地方,或者也可以分布到多个网络模块上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。另外,在本技术各个实施例中的各功能模块可以集成在一个处理模块中,也可以是各个模块单独物理存在,也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。
85.集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本技术的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,功能调用装置,或者网络设备等)执行本技术各个实施例方法的全部或部分步骤。而前述的存储介质可以包括:u盘、移动硬盘、只读存储器(read-only memory,rom)、随机存取存储器(random access memory,ram)、磁碟或者光盘等各种可以存储程序代码的介质。以上对本发明所提供的一种存储集群告警功能的测试方法、装置、设备及存储介质进行了详细介绍。说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以对本发明进行若干改进和修饰,这些改进和修饰也落入本发明权利要求的保护范围内。
86.还需要说明的是,在本说明书中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个
……”
限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献