分布式存储系统及其管理方法、装置和设备与流程

2022-06-01 02:59:09 来源：中国专利 TAG：

1.本文件涉及大数据技术领域，尤其涉及一种分布式存储系统及其管理方法、装置和设备。

背景技术：

2.随着大数据时代的到来，由apache基金会所开发的分布式系统基础架构hadoop被广泛应用。hadoop中的一个重要组件是hdfs(hadoop distributed file system，hadoop中的分布式文件存储系统)。hdfs由一个namenode和若干个datanode组成，其中，namenode是负责对名称空间、组成文件的块信息等元数据进行管理的服务，datanode是负责对组成文件的块信息进行存储，并通过心跳向namenode汇报自己的健康信息以及自己所存储的块信息的服务。namenode部署于实体设备1中，每个datanode部署于一个实体设备2中，实体设备1与实体设备2是不同的设备。
3.在实际应用中，部署有datanode的实体设备2中可能存在长时间消耗cpu资源，并且输出大量数据到磁盘的大任务，而这使得datanode在预设间隔内无法向namenode发送心跳消息，从而导致namenode判断该datanode已经失联并在namenode的日志中打印如下信息：“block*removedeaddatanode:lost heartbeat from xxx”。为了避免namenode失联，现有技术中通常是通过kibana组件收集namenode的日志，然后将日志发送到elasticsearch组件。用户通过关键字“block*removedeaddatanode”向elasticsearch组件进行查询，如果出现该关键字，则说明对应的datanode所在的分布式节点中存在大任务，用户可进行相应处理以避免datanode失联。然而，该方式中，需要引入kibana和elasticsearch组件，增加了整个技术栈的复杂程度以及运维开销。对于负载较高的namenode而言，其会输出大量的日志，而大量的日志可能导致kibana组件向elasticsearch发送日志时出现日志丢失，进而影响后续处理。并且该方式中需要人为主动查询，不仅效率低，而且很可能在用户查询到时，datanode已经失联，无法在datanode失联之前进行相关处理。

技术实现要素：

4.本技术提供一种分布式存储系统及其管理方法、装置和设备，以在不增加硬件成本的基础上，降低数据节点的失联风险，提升分布式存储系统的管理效率和稳定性。
5.第一方面，本技术实施例提供了一种分布式存储系统的管理方法，应用于代理节点，所述方法包括：
6.获取所在分布式存储设备中与所述代理节点对应部署的数据节点的心跳数据；
7.若根据所述心跳数据确定所述数据节点存在失联风险，则获取所述分布式存储设备的运行状态数据；
8.将所述运行状态数据发送给所述分布式存储系统中的管理设备，所述运行状态数据用于所述管理设备在根据所述运行状态数据确定所述数据节点存在失联风险时，根据所述运行状态数据进行预警处理。
9.可以看出，本技术实施例中，通过在分布式存储设备中与数据节点对应部署代理节点，使得代理节点可以自动获取数据节点的心跳数据，以及在根据心跳数据确定数据节点存在失联风险时，获取所在分布式存储设备的运行状态数据并发送给分布式存储系统中的管理设备；从而管理设备在根据该状态数据确定数据节点存在失联风险时，根据该运行状态数据进行预警处理。该过程中实现了数据节点是否存在失联风险的自动识别和自动预警，而无需人为参与，因此提升了识别效率，有利于降低数据节点的失联风险，进而提升了分布式存储系统的管理效率和运行的稳定性。并且由于该过程中不需要引入多个组件，因此降低了技术的复杂程度以及运维开销。
10.第二方面，本技术实施例提供了一种分布式存储系统的管理方法，应用于管理设备，所述方法包括：
11.接收代理节点发送的其所在的分布式存储设备的运行状态数据；所述运行状态数据为所述代理节点在确定所述分布式存储设备中与所述代理节点对应部署的数据节点存在失联风险时发送；
12.根据所述运行状态数据确定所述数据节点是否存在失联风险；
13.在所述数据节点存在失联风险的情况下，根据所述运行状态数据进行预警处理。
14.可以看出，本技术实施例中，通过在分布式存储设备中与数据节点对应部署代理节点，使得代理节点可以在确定数据节点存在失联风险时，将所在分布式存储设备的运行状态数据发送给分布式存储系统中的管理设备；管理设备在根据该状态数据确定数据节点存在失联风险时，根据该运行状态数据进行预警处理。该过程中实现了数据节点是否存在失联风险的自动识别和自动预警，不存在数据丢失的现象也无需人为参与，因此提升了识别效率，有利于降低数据节点的失联风险，进而提升分布式存储系统的管理效率和运行的稳定性。并且由于该过程中不需要引入多个组件，因此降低了技术的复杂程度以及运维开销。
15.第三方面，本技术实施例提供了一种分布式存储系统的管理装置，应用于代理节点，所述装置包括：
16.第一获取模块，用于获取所在分布式存储设备中与所述代理节点对应部署的数据节点的心跳数据；
17.第二获取模块，用于若根据所述心跳数据确定所述数据节点存在失联风险，则获取所述分布式存储设备的运行状态数据；
18.发送模块，用于将所述运行状态数据发送给所述分布式存储系统中的管理设备，所述运行状态数据用于所述管理设备在根据所述运行状态数据确定所述数据节点存在失联风险时，根据所述运行状态数据进行预警处理。
19.第四方面，本技术实施例提供了一种分布式存储系统的管理装置，应用于管理设备，所述装置包括：
20.接收模块，用于接收代理节点发送的其所在的分布式存储设备的运行状态数据；所述运行状态数据为所述代理节点在确定所述分布式存储设备中与所述代理节点对应部署的数据节点存在失联风险时发送；
21.确定模块，用于根据所述运行状态数据确定所述数据节点是否存在失联风险；
22.预警模块，用于在所述数据节点存在失联风险的情况下，根据所述运行状态数据
进行预警处理。
23.第五方面，本技术实施例提供了一种分布式存储系统，包括：管理设备和多个分布式存储设备；所述分布式存储设备中部署有数据节点和与所述数据节点对应的代理节点；
24.所述代理节点，用于获取对应部署的所述数据节点的心跳数据；若根据所述心跳数据确定所述数据节点存在失联风险，则获取所在分布式存储设备的运行状态数据；将所述运行状态数据发送给所述管理设备；
25.所述管理设备，用于根据接收到的所述运行状态数据确定所述数据节点是否存在失联风险；在所述数据节点存在失联风险的情况下，根据所述运行状态数据进行预警处理。
26.第六方面，本技术实施例提供了一种电子设备，包括：
27.处理器；以及，
28.被安排成存储计算机可执行指令的存储器，所述可执行指令被配置由所述处理器执行，所述可执行指令包括用于执行上述分布式存储系统的管理方法中的步骤。
29.第七方面，本技术实施例提供了一种存储介质，所述存储介质用于存储计算机可执行指令，所述可执行指令使得计算机执行上述分布式存储系统的管理方法。
附图说明
30.为了更清楚地说明本技术一个或多个实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本技术中记载的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。
31.图1为本技术实施例提供的一种分布式存储系统的管理方法的场景示意图；
32.图2为本技术实施例提供的一种分布式存储系统的管理方法的第一种流程示意图；
33.图3为本技术实施例提供的一种分布式存储系统的管理方法的第二种流程示意图；
34.图4为本技术实施例提供的一种分布式存储系统的管理方法的第三种流程示意图；
35.图5为本技术实施例提供的一种分布式存储系统的管理方法的第四种流程示意图；
36.图6为本技术实施例提供的一种分布式存储系统的管理方法的第五种流程示意图；
37.图7为本技术实施例提供的一种分布式存储系统的管理方法的第六种流程示意图；
38.图8为本技术实施例提供的一种分布式存储系统的管理装置的第一种模块组成示意图；
39.图9为本技术实施例提供的一种分布式存储系统的管理装置的第二种模块组成示意图；
40.图10为本技术实施例提供的一种分布式存储系统的组成示意图；
41.图11为本技术一个或多个实施例提供的一种电子设备的结构示意图。
具体实施方式
42.为了使本技术领域的人员更好地理解本技术一个或多个实施例中的技术方案，下面将结合本技术一个或多个实施例中的附图，对本技术一个或多个实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本技术的一部分实施例，而不是全部的实施例。基于本技术一个或多个实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都应当属于本文件的保护范围。
43.图1为本技术一个或多个实施例提供的一种分布式存储系统的应用场景示意图，如图1所示，该场景包括：一个管理设备和p个分布式存储设备，p为大于1的整数；其中，分布式存储设备中部署有数据节点(datanode)和与数据节点对应的代理节点(agent)。管理设备和分布式存储设备可以是终端设备，该终端设备可以是手机、平板电脑、台式计算机、便携笔记本式计算机等。管理设备和分布式存储设备还可以是服务端，如独立的服务器，或者由多个服务器组成的服务器集群等。
44.具体的，代理节点获取所在分布式存储设备中对应部署的数据节点的心跳数据，根据心跳数据确定数据节点是否存在失联风险；若确定数据节点存在失联风险，则获取所在分布式存储设备的运行状态数据并发送给管理设备。管理设备根据接收到的状态数据确定数据节点是否存在失联风险，并在数据节点存在失联风险的情况下，根据该运行状态数据进行预警处理。可以看出，该过程中实现了数据节点是否存在失联风险的自动识别和自动预警，而无需人为参与，因此提升了识别效率，有利于降低数据节点的失联风险，进而提升分布式存储系统的管理效率和运行的稳定性。并且由于该过程中不需要引入多个组件，因此降低了技术的复杂程度以及运维开销。
45.基于上述应用场景架构，本技术实施例提供了一种分布式存储系统的管理方法。图2为本技术一个或多个实施例提供的一种分布式存储系统的管理方法的流程示意图，图2中的方法能够由图1中的代理节点执行，如图2所示，该方法包括以下步骤：
46.步骤s102，获取所在分布式存储设备中与代理节点对应部署的数据节点的心跳数据；
47.本技术提供的分布式存储系统是对现有的hdfs进行改进后的系统，本技术提供的分布式存储系统中除包括图1所示的管理设备和分布式存储设备之外，还可以包括名字节点(namenode)，该名字节点可以部署于与管理设备和分布式存储设备均不同的设备上。本技术提供的分布式存储系统中的数据节点和名字节点与现有的hdfs中的数据节点和名字节点相同，均是软件服务且保留其在现有的hdfs中的功能，即数据节点会按照预设的第一时间间隔向名字节点发送心跳消息。代理节点在确定满足预设的心跳数据的获取条件时，获取所在分布式存储设备中与代理节点对应部署的数据节点发送该心跳消息所对应的心跳数据。需要指出的是，由于本技术提供的分布式存储系统的管理方法中并未涉及到名字节点的相关操作，故图1中并未示出名字节点。
48.步骤s104，若根据心跳数据确定数据节点存在失联风险，则获取所在分布式存储设备的运行状态数据；
49.具体的，代理节点若根据获取的心跳数据确定数据节点存在失联风险，则启动指定的分析工具，并获取分析工具输出的运行状态数据。该分析工具用于检测并输出所在分布式存储设备的运行状态数据。在一种实施方式中，分析工具可以为iotop工具，代理节点
可以通过启动命令iotop-botq
‑‑
iter＝3启动iotop工具；iotop工具启动后，检测所在的分布式存储设备的运行状态数据，并按照预设的输出路径输出检测到的运行状态数据。代理节点在启动iotop工具后，可以获知iotop工具检测的运行状态数据的输出路径，并根据该输出路径获取iotop工具输出的运行状态数据。需要指出的是，代理节点获取运行状态数据的方式不限为前述方式，可以在实际应用中根据需要自行设定。
50.其中，运行状态数据可以包括分布式存储设备的系统当前的读操作数据量(单位：m/s)和写操作数据量(单位：m/s)、分布式存储设备中当前启动的每个进程的读操作数据量和写操作数据量、分布式存储设备中当前启动的每个进程的磁盘使用率、分布式存储设备中当前运行的每个yarn应用的读操作数据量和写操作数据量、分布式存储设备中当前运行的每个yarn任务的读操作数据量和写操作数据量等。在hadoop中，yarn应用可以是资源调度引擎，每个yarn应用中可以运行至少一个yarn任务，每个yarn任务可以对应一个yarn容器。
51.步骤s106，将运行状态数据发送给分布式存储系统中的管理设备，运行状态数据用于管理设备在根据运行状态数据确定对应的数据节点存在失联风险时，根据运行状态数据进行预警处理。
52.为了使管理设备能够快速的根据该运行状态数据确定对应的数据节点是否存在失联风险，本技术一个或多个实施例中，代理节点将获取到的运行状态数据与所在分布式存储设备的设备信息共同发送给管理设备。具体的，步骤s106可以包括：基于http协议将运行状态数据和所在分布式存储设备的设备信息发送给分布式存储系统中的管理设备。其中，设备信息可以是分布式存储设备的设备标识；该设备标识可以是设备序列号，该设备标识还可以是预先按照设备标识的分配方式为分布式存储设备分配的设备标识。管理设备在接收到运行状态数据后的处理过程可参见后文的相关描述。
53.本技术一个或多个实施例中，通过在分布式存储设备中与数据节点对应部署代理节点，使得代理节点可以在确定数据节点存在失联风险时，将所在分布式存储设备的运行状态数据发送给分布式存储系统中的管理设备；管理设备在根据该状态数据确定数据节点存在失联风险时，根据该运行状态数据进行预警处理。该过程中实现了数据节点是否存在失联风险的自动识别和自动预警，不存在数据丢失的现象也无需人为参与，因此提升了识别效率，有利于降低数据节点的失联风险，进而提升分布式存储系统的管理效率和运行的稳定性。并且由于该过程中不需要引入多个组件，因此降低了技术的复杂程度以及运维开销。
54.为了能够及时的发现存在失联风险的数据节点，本技术一个或多个实施例中，各代理节点可以按照预设的第二时间间隔主动获取对应部署的数据节点的心跳数据。相应的，步骤s102可以包括以下步骤s102-2和步骤s102-4：
55.步骤s102-2，按照预设的第二时间间隔，基于jmx向所在分布式存储设备中与代理节点对应部署的数据节点发送心跳数据获取请求；
56.具体的，代理节点在确定到达预设的第二时间间隔所对应的心跳数据的获取时刻时，确定满足预设的心跳数据的获取条件，并基于jmx向所在分布式存储设备中与代理节点对应部署的数据节点发送心跳数据获取请求。其中，jmx(java management extensions，java管理扩展)是一个为应用程序、设备、系统等植入管理功能的框架。jmx可以跨越一系列
异构操作系统平台、系统体系结构和网络传输协议，灵活的开发无缝集成的系统、网络和服务管理应用。基于jmx的数据传输方式可参考现有技术，对此本技术中不再详述。
57.第二时间间隔的时长大于前述第一时间间隔的时长，例如，第一时间间隔的时长为10秒，第二时间间隔的时长为30秒或1分钟等，其可以在实际应用中根据需要自行设定。
58.步骤s102-4，接收数据节点基于jmx发送的心跳数据。
59.数据节点每发送一次心跳消息，便生成对应的发送日志。当数据节点接收到代理节点发送的心跳数据获取请求时，从心跳消息的发送日志中获取心跳数据并基于jmx发送给代理节点，代理节点接收数据节点发送的心跳数据。其中，心跳数据的具体内容可以随代理节点确定数据节点是否存在失联风险的方式的不同而不同，具体可参见下文的相关描述。
60.本技术的一个或多个实施例中，还可以由管理设备按照预设的第二时间间隔，基于http协议向各代理节点发送状态查询请求，以主动查询各数据节点的运行状态。相应的，步骤s102可以包括以下步骤s102-6和步骤s102-8：
61.步骤s102-6，若接收到管理设备发送的状态查询请求，则基于jmx向所在分布式存储设备中与代理节点对应部署的数据节点发送心跳数据获取请求；
62.具体的，代理节点在接收到管理设备发送的状态查询请求时，确定满足预设的心跳数据的获取条件，并基于jmx向所在分布式存储设备中与代理节点对应部署的数据节点发送心跳数据获取请求。
63.步骤s102-8，接收数据节点基于jmx发送的心跳数据。
64.与步骤s102-6和步骤s102-8对应的，方法还可以包括：代理节点若根据心跳数据确定对应的数据节点不存在失联风险，则基于http协议向管理设备发送表征数据节点不存在失联风险的响应数据。
65.无论是上述代理节点按照第二时间间隔主动获取数据节点的心跳数据，还是上述管理节点按照第二时间间隔主动查询数据节点的运行状态，均能够确保及时的发现数据节点的失联风险，从而进行相关处理，以保障分布式存储系统的运行稳定性。
66.考虑到数据节点所在的分布式存储设备中运行着大任务时，该大任务为消耗cpu资源的时长在20分钟以上，且输出数据的数量在50g以上的任务，此时数据节点通常存在失联风险，数据节点的心跳消息的发送次数会随之发生改变。基于此，本技术一个或多个实施例中，代理节点根据数据节点自启动后心跳消息的累计发送次数确定数据节点是否存在失联风险。具体的，如图3所示，步骤s102之后还可以包括以下步骤s103-2至步骤s103-6，与该骤s103-2至步骤s103-6对应的，步骤s104可以包括以下步骤s104-2：
67.步骤s103-2，根据心跳数据确定第一累计次数，第一累计次数为在第一时段内数据节点发送心跳消息的次数，第一时段的起始时刻为数据节点的启动时刻，第一时段的终止时刻为当前获取的心跳数据的获取时刻；
68.可选地，心跳数据中包括第一累计次数；相应的，步骤s103-2包括：从心跳数据中获取第一累计次数。或者，心跳数据中包括数据节点在第一时段内各心跳消息的发送记录；相应的，步骤s103-2包括：根据心跳数据包括的各心跳消息的发送记录，统计第一累计次数。
69.步骤s103-4，读取保存的第二累计次数，第二累计次数为在第二时段内数据节点
发送心跳消息的次数，第二时段的起始时刻为数据节点的启动时刻，第二时段的终止时刻为代理节点上一次获取心跳数据的时刻；
70.具体而言，代理节点在首次获取到第一累计次数时，保存获取到的第一累计次数；并在下一次获取到数据节点的心跳数据时，将当前保存的第一累计次数确定为第二累计次数，读取该第二累计次数。以及根据该下一次获取到的心跳数据确定第一累计次数，在确定第一累计次数与第二累计次数不同的情况下，将保存的第二累计次数更新为确定的第一累计次数，以此类推。例如，按照时间的先后顺序，t1、t2、t3、t4分别为代理节点获取心跳数据的获取时刻，当前获取的心跳数据的获取时刻为t4，则代理节点保存有数据节点自启动时刻至t3时刻发送的心跳消息的第二累计次数。
71.步骤s103-6，根据第一累计次数和第二累计次数，确定数据节点是否存在失联风险；
72.考虑到当数据节点在第二时间间隔内心跳消息的发送次数为零时，通常表征数据节点存在失联风险，基于此，本技术一个或多个实施例中，步骤s103-6可以包括：在第一累计次数与第二累计次数相同的情况下，确定数据节点存在失联风险。
73.具体的，代理节点确定第一累计次数与第二累计次数是否为相同，在第一累计次数与第二累计次数相同的情况下，确定数据节点存在失联风险；在第一累计次数大于第二累计次数的情况下，确定数据节点不存在失联风险。
74.进一步的，考虑到在实际应用中，当数据节点在第二时间间隔内心跳消息的发送次数较少时，也可能存在失联风险。基于此，本技术一个或多个实施例中，还可以由管理节点确定发送心跳消息的参考次数，代理节点从管理节点获取该参考次数，并根据第一累计次数、第二累计次数和该参考次数，确定数据节点是否存在失联风险。具体的，步骤s103-6之前还可以包括：向管理设备发送参考次数获取请求，接收管理设备发送的参考次数；该参考次数可以预先根据经验进行确定并预置于管理设备中，也可以由管理设备根据预设方式进行确定，该预设方式可以在实际应用中根据需要自行设定。相应的，步骤s103-6可以包括：计算第一累计次数与第二累计次数的次数差值；确定计算的次数差值是否小于获取的参考次数，在次数差值小于参考次数的情况下，确定数据节点存在失联风险；在次数差值不小于参考次数的情况下，确定数据节点不存在失联风险。例如，第一累计次数为30次，第二累计次数为26次，参考次数为5次，则计算的次数差值为30-26＝4次，其小于参考次数5次，确定数据节点存在失联风险。
75.进一步的，在步骤s103-6中，代理节点确定数据节点不存在失联风险的情况下，方法还包括：将保存的第二累计次数替换为第一累计次数，返回前述步骤s102-2或步骤s102-6。
76.步骤s104-2，在数据节点存在失联风险的情况下，获取所在分布式存储设备的运行状态数据。
77.由此，代理节点根据数据节点的心跳消息的累计发送次数，能够确定出数据节点是否存在失联风险，从而可在确定存在失联风险时，进行进一步的处理，以保障分布式存储系统的运行稳定性。
78.本技术一个或多个实施例中，代理节点还可以根据数据节点在第三时段内的心跳消息的发送次数确定数据节点是否存在失联风险。具体的，如图4所示，步骤s102之后还可
以包括以下步骤s103-8和步骤s103-10，与之对应的，步骤s104可以包括前述的步骤s104-2：
79.步骤s103-8，根据心跳数据确定数据节点在第三时段内心跳消息的发送次数；第三时段的起始时刻为代理节点上一次获取心跳数据的时刻，第三时段的终止时刻为当前获取的心跳数据的获取时刻；
80.可选地，心跳数据中包括数据节点在第三时段内(例如前述示例的t3至t4这一时段内)心跳消息的发送次数；相应的，代理节点从心跳数据中获取数据节点在在第三时段内心跳消息的发送次数。或者，心跳数据中包括数据节点在第三时段内心跳消息的发送记录；相应的，代理节点根据心跳数据包括的该发送记录，统计数据节点在第三时段内心跳消息的发送次数。
81.步骤s103-10，根据发送次数确定数据节点是否存在失联风险；
82.可选地，确定发送次数是否为零，在发送次数为零的情况下，确定数据节点存在失联风险。当根据心跳数据确定的心跳消息的发送次数为零时，表征数据节点在第三时段内没有发送心跳消息，可确定数据节点存在失联风险。
83.或者，在步骤s103-10之前还可以包括：向管理设备发送参考次数获取请求，接收管理设备发送的参考次数。相应的，步骤s103-10可以包括：确定发送次数是否小于获取的参考次数，在发送次数小于参考次数的情况下，确定数据节点存在失联风险；在发送次数不小于参考次数的情况下，确定数据节点不存在失联风险。
84.进一步的，当确定数据节点不存在失联风险时，返回前述步骤s102-2或返回前述步骤s102-6。
85.由此，代理节点根据数据节点在第三时段内心跳消息的发送次数，能够确定出数据节点是否存在失联风险，从而可在确定存在失联风险时，进行进一步的处理，以保障分布式存储系统的运行稳定性。
86.本技术一个或多个实施例中，可以由代理节点控制数据节点进行数据存储处理，具体的，方法还可以包括：
87.若获取到待存储数据，则基于jmx向对应的数据节点发送数据存储请求，该数据存储请求用于请求数据节点对待存储数据进行存储处理；以及接收数据节点基于jmx发送的存储结果。
88.其中，获取待存储数据，可以是接收客户端发送的待存储数据，或者接收其他设备发送的待存储数据；相应的，代理节点在接收到数据节点发送的存储结果时，还可以向该客户端或者该其他设备发送存储结果。数据节点对待存储数据进行存储处理的过程可参考现有的数据节点对待存储数据的存储过程，对此本技术中不再详述。
89.本技术一个或多个实施例中，通过在分布式存储设备中与数据节点对应部署代理节点，使得代理节点可以自动获取数据节点的心跳数据，以及在根据心跳数据确定数据节点存在失联风险时，获取所在分布式存储设备的运行状态数据并发送给分布式存储系统中的管理设备，以使管理设备在根据该状态数据确定数据节点存在失联风险时，根据该运行状态数据进行预警处理。该过程中实现了数据节点是否存在失联风险的自动识别和自动预警，而无需人为参与，因此提升了识别效率，有利于降低数据节点的失联风险，进而提升分布式存储系统的管理效率和运行的稳定性。并且由于该过程中不需要引入多个组件，因此
降低了技术的复杂程度以及运维开销。
90.对应上述描述的分布式存储系统的管理方法，基于相同的技术构思，本技术一个或多个实施例还提供了另一种分布式存储系统的管理方法，图5为本技术一个或多个实施例提供的另一种分布式存储系统的管理方法的流程示意图，图5中的方法能够由图1中的管理设备执行；如图5所示，该方法包括以下步骤：
91.步骤s202，接收代理节点发送的其所在的分布式存储设备的运行状态数据；运行状态数据为代理节点在确定所在分布式存储设备中与代理节点对应部署的数据节点存在失联风险时发送；
92.具体的，代理节点在确定满足预设的心跳数据的获取条件时，获取所在分布式存储节点中，与该代理节点对应部署的数据节点的心跳数据，并根据获取的心跳数据确定数据节点是否存在失联风险，若是，则获取所在分布式存储节点的运行状态数据，并基于http协议将获取的运行状态数据发送给管理设备；管理设备接收代理节点发送的运行状态数据。
93.步骤s204，根据运行状态数据确定对应的数据节点是否存在失联风险；
94.为了提升预警处理的有效性，管理设备在接收到代理节点发送的运行状态数据时，按照预设方式根据运行状态数据确定对应的数据节点是否存在失联风险；并在确定数据节点存在失联风险时，根据运行状态数据进行预警处理。
95.步骤s206，在数据节点存在失联风险的情况下，根据运行状态数据进行预警处理。
96.本技术一个或多个实施例中，通过在分布式存储设备中与数据节点对应部署代理节点，使得代理节点可以在确定数据节点存在失联风险时，将所在分布式存储设备的运行状态数据发送给分布式存储系统中的管理设备；管理设备在根据该状态数据确定数据节点存在失联风险时，根据该运行状态数据进行预警处理。该过程中实现了数据节点是否存在失联风险的自动识别和自动预警，不存在数据丢失的现象也无需人为参与，因此提升了识别效率，有利于降低数据节点的失联风险，进而提升分布式存储系统的管理效率和运行的稳定性。并且由于该过程中不需要引入多个组件，因此降低了技术的复杂程度以及运维开销。
97.为了使代理节点根据获取的心跳数据确定对应的数据节点是否存在失联风险，本技术一个或多个实施例中，步骤s202之前还可以包括：接收代理节点发送的参考次数获取请求；向代理节点发送确定的参考次数，该参考次数用于代理节点确定数据节点是否存在失联风险。
98.具体的，管理节点基于http协议接收代理节点发送的参考次数获取请求；管理节点获取预设的参考次数或者根据预设方式确定参考次数，并基于http协议将参考次数发送给代理节点；当代理节点根据该参考次数和获取的数据节点的心跳数据确定数据节点存在失联风险时，基于http协议将获取的所在分布式存储设备的运行状态数据发送给管理设备。
99.进一步的，为了便于管理设备快速的确定数据节点是否存在失联风险，本技术一个或多个实施例中，代理节点将所在分布式存储设备的设备信息和运行状态数据共同发送给管理设备；管理设备根据接收到设备信息和运行状态数据生成分布式存储设备的运行记录，并根据该运行记录确定对应的数据节点是否存在失联风险。具体的，如图6所示，步骤
s202可以包括以下步骤s202-2：
100.步骤s202-2，接收代理节点发送的其所在分布式存储设备的运行状态数据和设备信息。
101.具体的，接收代理节点基于http协议发送的其所在分布式存储设备的运行状态数据和设备信息。其中，设备信息可以为分布式存储设备的设备标识；该设备标识可以是设备序列号，还可以是预先按照设备标识的分配方式为分布式存储设备分配的设备标识等。
102.与步骤s202-2对应的，如图6所示，步骤s204可以包括以下步骤s204-2至步骤s204-10，步骤s206包括以下步骤s206-2和步骤s206-4：
103.步骤s204-2，确定运行状态数据和设备信息的接收时间；
104.具体的，当管理设备接收到代理节点发送的运行状态数据和设备信息时，获取管理设备的系统时间，并将获取到的系统时间确定为运行状态数据和设备信息的接收时间。
105.步骤s204-4，根据确定的接收时间、接收到的运行状态数据和设备信息生成分布式存储设备的运行记录并保存；
106.管理设备在保存生成的运行记录之后，确定保存的该分布式存储设备的运行记录是否满足预设条件，在保存的分布式存储设备的运行记录满足预设条件的情况下，确定对应的数据节点存在失联风险。其中，确定保存的该分布式存储设备的运行记录是否满足预设条件可以通过以下步骤s206-6至步骤s206-10实现，并在步骤s206-10中目标运行记录的数量大于预设数量的情况下，确定满足预设条件，即确定对应的数据节点存在失联风险。运行记录的具体格式可以在实际应用中根据需要自行设定。
107.步骤s204-6，将接收时间确定为预设时长的结束时间点，确定该预设时长的起始时间点；
108.其中，预设时长可以在实际应用中根据需要自行设定，例如为10分钟。
109.步骤s204-8，根据设备信息统计保存的对应的分布式存储设备的运行记录中，接收时间在起始时间点与结束时间点之间的目标运行记录的数量；
110.具体的，根据接收到的设备信息从保存的各运行记录中筛选关联的运行记录，并将筛选的运行记录确定为对应的分布式存储设备的运行记录。以及，针对分布式存储设备的每个运行记录，确定其中的接收时间是否位于确定的起始时间点(含)与结束时间点(含)之间，若是，则将对应的运行记录确定为目标运行记录；统计目标运行记录的数量。
111.步骤s204-10，在目标运行记录的数量大于预设数量的情况下，确定对应的数据节点存在失联风险；
112.其中，预设数量可以在实际应用中根据需要自行设定，例如预设数量为5分钟。
113.步骤s206-2，根据目标运行记录生成分布式存储设备的预警数据；
114.其中，预警数据包括以下中的一项或多项：分布式存储设备的总读写速度、分布式存储设备中磁盘使用率最高的n个进程、分布式存储设备中读写速度最大的n个进程、分布式存储设备中读写速度最高的n个yarn应用、分布式存储设备中读写速度最高的n个yarn任务，其中，n为整数。预警数据中还可以包括分布式存储设备的设备信息、预警数据的生成时间等信息。预警数据的具体内容和形式可以在实际应用中根据需要自行设定。
115.具体而言，根据目标运行记录确定对应的分布式存储设备的总读写速度，可以包括：从每个目标运行记录中获取分布式存储设备的读写速度，对获取的读写速度计算平均
值，将计算的平均值确定为分布式存储设备的总读写速度。
116.根据目标运行记录确定对应的分布式存储设备中磁盘使用率最高的n个进程，可以包括：从每个目标运行记录中获取分布式存储设备中运行的各进程的磁盘使用率，针对运行的每个进程根据获取的磁盘使用率计算平均磁盘使用率，对各进程的平均磁盘使用率进行排序处理，得到最高的n个平均磁盘使用率，将该最高的n个平均磁盘使用率对应的进程确定为磁盘使用率最高的n个进程。
117.根据目标运行记录确定对应的分布式存储设备中读写速度最大的n个进程，可以包括：从每个目标运行记录中获取分布式存储设备中运行的各进程的读写速度，针对运行的每个进程根据获取的读写速度计算平均读写速度，对各进程的平均读写速度进行排序处理，得到最高的n个平均读写速度，将该最高的n个平均读写速度对应的进程确定为读写速度最高的n个进程。
118.根据目标运行记录确定对应的分布式存储设备中读写速度最高的n个yarn应用，可以包括：从每个目标运行记录中获取分布式存储设备中运行的各yarn应用的读写速度，针对运行的每个yarn应用根据获取的读写速度计算平均读写速度，对各yarn应用的平均读写速度进行排序处理，得到最高的n个平均读写速度，将该最高的n个平均读写速度对应的yarn应用确定为读写速度最高的n个yarn应用。
119.根据目标运行记录确定对应的分布式存储设备中读写速度最高的n个yarn任务，可以包括：从每个目标运行记录中获取分布式存储设备中运行的各yarn任务的读写速度，针对运行的每个yarn任务根据获取的读写速度计算平均读写速度，对各yarn任务的平均读写速度进行排序处理，得到最高的n个平均读写速度，将该最高的n个平均读写速度对应的yarn任务确定为读写速度最高的n个yarn任务。其中，根据目标运行记录确定对应的分布式存储设备中读写速度最高的n个yarn任务，还可以是根据目标运行记录确定对应的分布式存储设备中读写速度最高的n个yarn容器。根据目标运行记录确定对应的分布式存储设备中读写速度最高的n个yarn容器的过程，与根据目标运行记录确定对应的分布式存储设备中读写速度最高的n个yarn任务的过程相同，重复之处这里不再赘述。
120.步骤s206-4，保存预警数据并将预警数据发送给指定的管理员，预警数据用于管理员确定分布式存储设备中运行的大任务，并对大任务进行任务结束处理。
121.具体的，将预警数据保存至指定的数据库中，以通过数据库对分布式存储系统中的各分布式存储设备的预警数据进行统一管理，以及基于数据库中的各预警数据进行其他相关处理。
122.进一步的，将预警数据发送给指定的管理员，可以是将预警数据以邮件的方式发送至指定的管理员的邮箱中，或者以短信的方式发送至指定的管理员的手机号码中，或者将预警数据发送至指定系统中，并以邮件的方式或者短信的方式向指定的管理员发送通知消息，该通知消息用于通知管理员查阅指定系统中的预警数据。当管理员查阅到预警数据时，可以根据运维经验基于预警数据确定对应的分布式存储设备中的大任务，例如，可以将读写速度最高的yarn应用确定为大任务，还可以基于预警数据中的其他数据进行复核处理以确定最终的大任务；对于大任务的确定方式，本技术中不做具体限定。
123.考虑到在实际应用中，分布式存储设备中运行的读写速度较高的yarn应用通常对数据节点的影响较大，容易导致数据节点失联。基于此，为了保障数据节点的有效运行，本
申请一个或多个实施例中，预警数据包括分布式存储设备中运行的读写速度最高的n个yarn应用，相应的，步骤s206-2之后还可以包括：
124.确定预警数据包括的n个yarn应用中读写速度最高的m个目标yarn应用的应用名称，m为整数且m小于n；在预设白名单中含有确定的应用名称的情况下，对含有的应用名称对应的目标yarn应用进行停止运行处理。
125.可选地，预警数据中包括读写速度最高的n个yarn应用中每个yarn应用的应用名称和应用标识；相应的，管理设备从预警数据中读取读写速度最高的m个目标yarn应用的应用名称和应用标识；管理设备确定预设白名单中是否含有读取的应用名称，在白名单中含有读取的应用名称的情况下，根据该应用名称对应的应用标识调用yarn应用的资源管理器，通过该yarn应用的资源管理器对该应用标识对应的目标yarn应用进行停止运行处理。或者，预警数据中包括读写速度最高的n个yarn应用中每个yarn应用的应用标识；相应的，管理设备从预警数据中读取读写速度最高的m个目标yarn应用的应用标识，根据读取的应用标识调用yarn应用的资源管理器查询该应用标识对应的应用名称；管理设备确定预设白名单中是否含有查询到的应用名称，在白名单中含有查询到的应用名称的情况下，根据该应用名称对应的应用标识再次调用yarn应用的资源管理器，通过该yarn应用的资源管理器对该应用标识对应的目标yarn应用进行停止运行处理。
126.本技术一个或多个实施例中，通过在分布式存储设备中与数据节点对应部署代理节点，使得代理节点可以在确定数据节点存在失联风险时，将所在分布式存储设备的运行状态数据发送给分布式存储系统中的管理设备；管理设备在根据该状态数据确定数据节点存在失联风险时，根据该运行状态数据进行预警处理。该过程中实现了数据节点是否存在失联风险的自动识别和自动预警，不存在数据丢失的现象也无需人为参与，因此提升了识别效率，有利于降低数据节点的失联风险，进而提升了分布式存储系统的管理效率和运行的稳定性。并且由于该过程中不需要引入多个组件，因此降低了技术的复杂程度以及运维开销。
127.在一个具体的实施例中，以代理节点根据心跳消息的累计发送次数和参考次数确定数据节点是否存在失联风险、以及代理节点在启动后即获取参考次数为例进行说明，如图7所示，方法可以包括：
128.步骤s302，代理节点启动，基于http协议向管理设备发送参考次数获取请求；
129.步骤s304，管理设备接收参考次数获取请求并确定参考次数，基于http协议向代理节点发送参考次数；
130.步骤s306，代理节点接收管理设备发送的参考次数，并按照预设的第二时间间隔，基于jmx向对应部署的数据节点发送心跳数据获取请求；
131.步骤s308，数据节点根据接收到的心跳数据获取请求，基于jmx向代理节点发送自身的心跳数据；
132.步骤s310，代理节点根据接收到的心跳数据确定第一累计次数；
133.其中，第一累计次数为在第一时段内数据节点发送心跳消息的次数，第一时段的起始时刻为数据节点的启动时刻，第一时段的终止时刻为当前获取的心跳数据的获取时刻。
134.步骤s312，代理节点读取保存的第二累计次数，并计算第一累计次数与第二累计
次数的次数差值；在次数差值小于参考次数的情况下，确定数据节点存在失联风险；
135.其中，第二累计次数为在第二时段内数据节点发送心跳消息的次数，第二时段的起始时刻为数据节点的启动时刻，第二时段的终止时刻为代理节点上一次获取心跳数据的时刻。
136.步骤s314，代理节点启动指定的分析工具，获取该分析工具检测并输出的所在分布式存储设备的运行状态数据；
137.步骤s316，代理节点基于http协议向管理设备发送获取的运行状态数据和所在分布式存储设备的设备信息；
138.步骤s318，管理设备确定运行状态数据和设备信息的接收时间，根据确定的接收时间、接收到的运行状态数据和设备信息生成分布式存储设备的运行记录并保存；
139.步骤s320，管理设备将接收时间确定为预设时长的结束时间点，确定该预设时长的起始时间点，并根据接收到的设备信息统计保存的对应的分布式存储设备的运行记录中，接收时间在确定的起始时间点与结束时间点之间的目标运行记录的数量；
140.步骤s322，管理设备确定目标运行记录的数量是否大于预设数量，若是，则确定对应的数据节点存在失联风险。
141.步骤s324，管理节点根据目标运行记录生成对应的分布式存储设备的预警数据并保存；
142.步骤s326，管理节点将预警数据发送给指定的管理员，并确定预警数据包括的n个yarn应用中读写速度最高的m个目标yarn应用的应用名称；在预设的白名单中含有确定的应用名称的情况下，对含有的应用名称对应的目标yarn应用进行停止运行处理。
143.其中，m和n为整数且m小于n。
144.上述步骤s302至步骤s326的具体实现方式可参见前文的相关描述，重复之处这里不再赘述。该过程中，实现了数据节点是否存在失联风险的自动识别和自动预警，不存在数据丢失的现象也无需人为参与，因此提升了识别效率，有利于降低数据节点的失联风险，进而提升了分布式存储系统的管理效率和运行的稳定性。并且由于该过程中不需要引入多个组件，因此降低了技术的复杂程度以及运维开销。可以理解的是，图7仅用于示意而不用于限定，一些操作还可以通过其他方式实现。
145.对应上述描述的分布式存储系统的管理方法，基于相同的技术构思，本技术一个或多个实施例还提供一种分布式存储系统的管理装置，应用于代理节点。图8为本技术一个或多个实施例提供的一种分布式存储系统的管理装置的模块组成示意图，如图8所示，该装置包括：
146.第一获取模块401，用于获取所在分布式存储设备中与所述代理节点对应部署的数据节点的心跳数据；
147.第二获取模块402，用于若根据所述心跳数据确定所述数据节点存在失联风险，则获取所述分布式存储设备的运行状态数据；
148.发送模块403，用于将所述运行状态数据发送给所述分布式存储系统中的管理设备，所述运行状态数据用于所述管理设备在根据所述运行状态数据确定所述数据节点存在失联风险时，根据所述运行状态数据进行预警处理。
149.可选地，所述装置还包括：第一确定模块、读取模块和第二确定模块；
150.所述第一确定模块，用于根据所述心跳数据确定第一累计次数，所述第一累计次数为在第一时段内所述数据节点发送心跳消息的次数，所述第一时段的起始时刻为所述数据节点的启动时刻，所述第一时段的终止时刻为所述心跳数据的获取时刻；
151.所述读取模块，用于读取保存的第二累计次数，所述第二累计次数为在第二时段内所述数据节点发送心跳消息的次数，所述第二时段的起始时刻为所述数据节点的启动时刻，所述第二时段的终止时刻为所述代理节点上一次获取心跳数据的时刻；
152.所述第二确定模块，用于根据所述第一累计次数和所述第二累计次数，确定所述数据节点是否存在失联风险。
153.可选地，所述第二确定模块具体用于：
154.在所述第一累计次数与所述第二累计次数相同的情况下，确定所述数据节点存在失联风险；
155.或者，
156.所述根据所述第一累计次数和所述第二累计次数，确定所述数据节点是否存在失联风险之前，所述方法还包括：向所述管理设备发送参考次数获取请求，接收所述管理设备发送的参考次数；
157.所述根据所述第一累计次数和所述第二累计次数，确定所述数据节点是否存在失联风险，包括：计算所述第一累计次数与所述第二累计次数的次数差值；在所述次数差值小于所述参考次数的情况下，确定所述数据节点存在失联风险。
158.可选地，所述装置包括第三确定模块和第四确定模块：
159.所述第三确定模块，用于根据所述心跳数据确定所述数据节点在第三时段内心跳消息的发送次数；所述第三时段的起始时刻为所述代理节点上一次获取心跳数据的时刻，所述第三时段的终止时刻为所述心跳数据的获取时刻；
160.所述第四确定模块，用于根据所述发送次数确定所述数据节点是否存在失联风险。
161.可选地，所述第四确定模块具体用于：
162.在所述发送次数为零的情况下，确定所述数据节点存在失联风险；
163.或者，
164.所述根据所述发送次数确定所述数据节点是否存在失联风险之前，所述方法还包括：向所述管理设备发送参考次数获取请求，接收所述管理设备发送的参考次数；
165.所述根据所述发送次数确定所述数据节点是否存在失联风险，包括：在所述发送次数小于所述参考次数的情况下，确定所述数据节点存在失联风险。
166.进一步的，对应上述描述的分布式存储系统的管理方法，基于相同的技术构思，本技术一个或多个实施例还提供了另一种分布式存储系统的管理装置，应用于管理设备。图9为本技术一个或多个实施例提供的另一种分布式存储系统的管理装置的模块组成示意图，如图9所示，该装置包括：
167.接收模块501，用于接收代理节点发送的其所在的分布式存储设备的运行状态数据；所述运行状态数据为所述代理节点在确定所述分布式存储设备中与所述代理节点对应部署的数据节点存在失联风险时发送；
168.第一确定模块502，用于根据所述运行状态数据确定所述数据节点是否存在失联
风险；
169.预警模块503，用于在所述数据节点存在失联风险的情况下，根据所述运行状态数据进行预警处理。
170.可选地，接收模块501具体用于：
171.接收所述代理节点发送的所述运行状态数据和所述分布式存储设备的设备信息；
172.相应的，所述装置还包括生成模块；
173.所述生成模块，用于确定所述运行状态数据和所述设备信息的接收时间；根据所述接收时间、所述运行状态数据和所述设备信息生成所述分布式存储设备的运行记录，保存所述运行记录；
174.相应的，所述第一确定模块502具体用于：
175.在保存的所述分布式存储设备的运行记录满足预设条件的情况下，确定所述数据节点存在失联风险。
176.可选地，所述第一确定模块502进一步具体用于：
177.将所述接收时间确定为预设时长的结束时间点，确定所述预设时长的起始时间点；
178.根据所述设备信息统计保存的所述分布式存储设备的运行记录中，接收时间在所述起始时间点与所述结束时间点之间的目标运行记录的数量；
179.在所述目标运行记录的数量大于预设数量的情况下，确定保存的所述分布式存储设备的运行记录满足预设条件。
180.可选地，所述预警模块503具体用于：
181.根据所述目标运行记录生成所述分布式存储设备的预警数据；
182.保存所述预警数据并将所述预警数据发送给指定的管理员，所述预警数据用于所述管理员确定所述分布式存储设备中运行的大任务，并对所述大任务进行任务结束处理。
183.可选地，所述预警数据包括所述分布式存储设备中运行的读写速度最高的n个yarn应用，n为整数；所述装置还包括：第二确定模块和处理模块；
184.所述第二确定模块，用于确定所述n个yarn应用中读写速度最高的m个目标yarn应用的应用名称，m为整数且m小于n；
185.所述处理模块，用于在预设的白名单中含有所述应用名称的情况下，对含有的所述应用名称对应的所述目标yarn应用进行停止运行处理。
186.可选地，所述装置还包括发送模块；
187.所述接收模块501，还用于接收代理节点发送的其所在的分布式存储设备的运行状态数据之前，接收所述代理节点发送的参考次数获取请求；
188.所述发送模块，用于所述向所述代理节点发送确定的参考次数，所述参考次数用于所述代理节点确定所述数据节点是否存在失联风险。
189.需要说明的是，本技术中关于分布式存储系统的管理装置的实施例与本技术中关于分布式存储系统的管理方法的实施例基于同一发明构思，因此该实施例的具体实施可以参见前述对应的分布式存储系统的管理方法的实施，重复之处不再赘述。
190.进一步的，对应上述描述的分布式存储系统的管理方法，基于相同的技术构思，本技术一个或多个实施例还提供一种分布式存储系统。图10为本技术一个或多个实施例提供
的一种分布式存储系统的组成示意图，如图10所示，该系统包括：一个管理设备601和多个分布式存储设备602(图10中仅示出一个)；每个所述分布式存储设备602中部署有数据节点6021和与所述数据节点6021对应的代理节点6022；
191.所述代理节点6022，用于获取对应部署的所述数据节点6021的心跳数据；若根据所述心跳数据确定所述数据节点6021存在失联风险，则获取所在分布式存储设备602的运行状态数据；将所述运行状态数据发送给所述管理设备601；
192.所述管理设备601，用于根据接收到的所述运行状态数据确定所述数据节点6021是否存在失联风险；在所述数据节点存在失联风险的情况下，根据所述运行状态数据进行预警处理。
193.需要说明的是，本技术中关于分布式存储系统的实施例与本技术中关于分布式存储系统的管理方法的实施例基于同一发明构思，因此该实施例的具体实施可以参见前述对应的分布式存储系统的管理方法的实施，重复之处不再赘述。
194.进一步地，对应上述描述的分布式存储系统的管理方法，基于相同的技术构思，本技术一个或多个实施例还提供一种电子设备，该设备用于执行上述的分布式存储系统的管理方法，图11为本技术一个或多个实施例提供的一种电子设备的结构示意图。
195.如图11所示，电子设备可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上的处理器701和存储器702，存储器702中可以存储有一个或一个以上存储应用程序或数据。其中，存储器702可以是短暂存储或持久存储。存储在存储器702的应用程序可以包括一个或一个以上模块(图示未示出)，每个模块可以包括电子设备中的一系列计算机可执行指令。更进一步地，处理器701可以设置为与存储器702通信，在电子设备上执行存储器702中的一系列计算机可执行指令。电子设备还可以包括一个或一个以上电源703，一个或一个以上有线或无线网络接口704，一个或一个以上输入输出接口705，一个或一个以上键盘706等。
196.在一个具体的实施例中，电子设备包括有存储器，以及一个或一个以上的程序，其中一个或者一个以上程序存储于存储器中，且一个或者一个以上程序可以包括一个或一个以上模块，且每个模块可以包括对电子设备中的一系列计算机可执行指令，且经配置以由一个或者一个以上处理器执行该一个或者一个以上程序包含用于进行以下计算机可执行指令：
197.获取所在分布式存储设备中与所述代理节点对应部署的数据节点的心跳数据；
198.若根据所述心跳数据确定所述数据节点存在失联风险，则获取所述分布式存储设备的运行状态数据；
199.将所述运行状态数据发送给所述分布式存储系统中的管理设备，所述运行状态数据用于所述管理设备在根据所述运行状态数据确定所述数据节点存在失联风险时，根据所述运行状态数据进行预警处理。
200.在另一个具体的实施例中，电子设备包括有存储器，以及一个或一个以上的程序，其中一个或者一个以上程序存储于存储器中，且一个或者一个以上程序可以包括一个或一个以上模块，且每个模块可以包括对电子设备中的一系列计算机可执行指令，且经配置以由一个或者一个以上处理器执行该一个或者一个以上程序包含用于进行以下计算机可执行指令：
201.接收代理节点发送的其所在的分布式存储设备的运行状态数据；所述运行状态数据为所述代理节点在确定所述分布式存储设备中与所述代理节点对应部署的数据节点存在失联风险时发送；
202.根据所述运行状态数据确定所述数据节点是否存在失联风险；
203.在所述数据节点存在失联风险的情况下，根据所述运行状态数据进行预警处理。
204.需要说明的是，本技术中关于电子设备的实施例与本技术中关于分布式存储系统的管理方法的实施例基于同一发明构思，因此该实施例的具体实施可以参见前述对应的分布式存储系统的管理方法的实施，重复之处不再赘述。
205.进一步地，对应上述描述的分布式存储系统的管理方法，基于相同的技术构思，本技术一个或多个实施例还提供了一种存储介质，用于存储计算机可执行指令，一个具体的实施例中，该存储介质可以为u盘、光盘、硬盘等，该存储介质存储的计算机可执行指令在被处理器执行时，能实现以下流程：
206.获取所在分布式存储设备中与所述代理节点对应部署的数据节点的心跳数据；
207.若根据所述心跳数据确定所述数据节点存在失联风险，则获取所述分布式存储设备的运行状态数据；
208.将所述运行状态数据发送给所述分布式存储系统中的管理设备，所述运行状态数据用于所述管理设备在根据所述运行状态数据确定所述数据节点存在失联风险时，根据所述运行状态数据进行预警处理。
209.在另一个具体的实施例中，该存储介质可以为u盘、光盘、硬盘等，该存储介质存储的计算机可执行指令在被处理器执行时，能实现以下流程：
210.接收代理节点发送的其所在的分布式存储设备的运行状态数据；所述运行状态数据为所述代理节点在确定所述分布式存储设备中与所述代理节点对应部署的数据节点存在失联风险时发送；
211.根据所述运行状态数据确定所述数据节点是否存在失联风险；
212.在所述数据节点存在失联风险的情况下，根据所述运行状态数据进行预警处理。
213.需要说明的是，本技术中关于存储介质的实施例与本技术中关于分布式存储系统的管理方法的实施例基于同一发明构思，因此该实施例的具体实施可以参见前述对应的分布式存储系统的管理方法的实施，重复之处不再赘述。
214.上述对本技术特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。
215.本技术中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于系统实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。
216.以上所述仅为本文件的实施例而已，并不用于限制本文件。对于本领域技术人员来说，本文件可以有各种更改和变化。凡在本文件的精神和原理之内所作的任何修改、等同
替换、改进等，均应包含在本文件的权利要求范围之内。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：自适应电压频率调整方法和装置与流程

分布式存储系统及其管理方法、装置和设备与流程

相关文献

最热文献