故障监测方法、装置、电子设备及计算机可读存储介质与流程

2021-12-04 00:20:00 来源：中国专利 TAG：

1.本技术属于通信领域，具体涉及一种故障监测方法、装置、电子设备及计算机可读存储介质。

背景技术：

2.为了保证通信正常，有对网络中的链路状态进行监测的需求。一般而言，监测链路的起点是网络拓扑中的终端，终点是网络拓扑中的服务器。
3.由于在网络拓扑中，存在大量的终端以及服务器，相应的，存在大量的监测链路，因此，若要实现全网链路监测，需要监测人员通过穷举的方式指定各条监测链路，存在较大的工作量，且难度较大。
4.此外，即使监测人员完成对全网链路的指定，由于存在大量的待测链路，会导致网络在同一时间产生大量的监测报文，极大增加了网络以及网络设备的负担。

技术实现要素：

5.有鉴于此，本技术的目的在于提供一种故障监测方法、装置、电子设备及计算机可读存储介质，可以在减轻网络以及网络设备的并发负担。
6.本技术的实施例是这样实现的：
7.第一方面，本技术实施例提供一种故障监测方法，所述方法包括：采集终端侧网络设备上的arp表信息，并根据所述arp表信息确定所有接入所述终端侧网络设备的终端接入信息；所述终端侧网络设备为待监测网络中用于终端接入的边缘网络设备；采集服务侧网络设备上的ipfix流量，并根据所述ipfix流量确定通过所述服务侧网络设备所进行的ip访问的访问关系信息；所述服务侧网络设备为所述待监测网络中用于服务器接入的边缘网络设备；根据所述终端接入信息以及所述访问关系信息，将所述待监测网络中的监测链路进行合并，得到待监测链路；针对所述待监测链路进行故障监测。
8.在上述过程中，在对全网链路进行故障监测时，通过将存在相同网络拓扑的监测链路进行合并，形成待监测链路。在后续的监测过程中，是以待监测链路为监测对象，因此，可以减少监测对象的数量，进而减少在同一时间内的监测任务的数量，极大地降低了网络以及网络设备的负担。
9.结合第一方面实施例，在一种可能的实施方式中，所述针对所述待监测链路进行故障监测，包括：获取所述待监测链路上的所有监测对；其中，所述监测对的起点是与所述待监测链路中的终端侧网络设备连接的终端的ip地址，所述监测对的终点是与所述待监测链路中的服务器侧网络设备连接的服务器的ip地址；按照一个监测周期监测一个监测对的原则，对所述待监测链路上的每个监测对所涉及到的ip访问进行相同次数的故障监测，并记录监测结果；根据所有的所述监测结果，确定所述待监测链路是否存在链路故障或单监测对故障。
10.结合第一方面实施例，在一种可能的实施方式中，所述根据所有的监测结果，确定
所述待监测链路是否存在链路故障或单监测对故障，包括：在所述待监测链路上，超过预设比例的监测对均存在监测故障时，确定所述待监测链路存在链路故障；在所述待监测链路上，未超过预设比例的监测对存在监测故障时，确定所述待监测链路上存在单监测对故障；其中，针对每个所述监测对而言，根据与该监测对对应的监测结果，确定与该监测对的延迟情况以及丢包情况，并在所述延迟情况以及所述丢包情况超过预设等级时，确定该监测对存在监测故障。
11.结合第一方面实施例，在一种可能的实施方式中，所述对所述待监测链路上的每个监测对所涉及到的ip访问进行相同次数的故障监测，包括：向所述待监测链路上所包括的终端侧网络设备以及服务侧网络设备下发链路监测指令，所述链路监测指令的监测起点为当前待监测的监测对的起点，所述链路监测指令的监测终点为所述当前待监测的监测对的终点。
12.结合第一方面实施例，在一种可能的实施方式中，在所述采集终端侧网络设备上的arp表信息，以及在所述采集服务侧网络设备上的ipfix流量之前，所述方法还包括：获取所述待监测网络的网络拓扑关系；根据所述网络拓扑关系，确定所述待监测网络中的终端、服务器、终端侧网络设备以及服务侧网络设备。
13.结合第一方面实施例，在一种可能的实施方式中，所述根据所述终端接入信息以及所述访问关系信息，将所述待监测网络中的监测链路进行合并，得到待监测链路，包括：根据所述终端接入信息以及所述访问关系信息，为每个所述终端建立终点为所述服务器，且理论可达的所述监测链路；将所述监测链路中，存在相同拓扑路径的监测链路进行合并，得到所述待监测链路；其中，所述待监测链路以及所述相同拓扑路径的起点为所述终端侧网络设备，所述待监测链路以及所述相同拓扑路径的终点为所述服务侧网络设备。
14.第二方面，本技术实施例提供一种故障监测装置，所述装置包括：第一采集模块、第二采集模块、合并模块以及监测模块。
15.第一采集模块，用于采集终端侧网络设备上的arp表信息，并根据所述arp表信息确定所有接入所述终端侧网络设备的终端接入信息；所述终端侧网络设备为待监测网络中用于终端接入的边缘网络设备；
16.第二采集模块，用于采集服务侧网络设备上的ipfix流量，并根据所述ipfix流量确定通过所述服务侧网络设备所进行的ip访问的访问关系信息；所述服务侧网络设备为所述待监测网络中用于服务器接入的边缘网络设备；
17.合并模块，用于根据所述终端接入信息以及所述访问关系信息，将所述待监测网络中的监测链路进行合并，得到待监测链路；
18.监测模块，用于针对所述待监测链路进行故障监测。
19.结合第二方面实施例，在一种可能的实施方式中，所述监测模块，用于获取所述待监测链路上的所有监测对；其中，所述监测对的起点是与所述待监测链路中的终端侧网络设备连接的终端的ip地址，所述监测对的终点是与所述待监测链路中的服务器侧网络设备连接的服务器的ip地址；按照一个监测周期监测一个监测对的原则，对所述待监测链路上的每个监测对所涉及到的ip访问进行相同次数的故障监测，并记录监测结果；根据所有的所述监测结果，确定所述待监测链路是否存在链路故障或单监测对故障。
20.结合第二方面实施例，在一种可能的实施方式中，所述监测模块，用于在所述待监
测链路上，超过预设比例的监测对均存在监测故障时，确定所述待监测链路存在链路故障；在所述待监测链路上，未超过预设比例的监测对存在监测故障时，确定所述待监测链路上存在单监测对故障；其中，针对每个所述监测对而言，根据与该监测对对应的监测结果，确定与该监测对的延迟情况以及丢包情况，并在所述延迟情况以及所述丢包情况超过预设等级时，确定该监测对存在监测故障。
21.结合第二方面实施例，在一种可能的实施方式中，所述监测模块，用于向所述待监测链路上所包括的终端侧网络设备以及服务侧网络设备下发链路监测指令，所述链路监测指令的监测起点为当前待监测的监测对的起点，所述链路监测指令的监测终点为所述当前待监测的监测对的终点。
22.结合第二方面实施例，在一种可能的实施方式中，所述装置还包括获取模块，用于：获取所述待监测网络的网络拓扑关系；根据所述网络拓扑关系，确定所述待监测网络中的终端、服务器、终端侧网络设备以及服务侧网络设备。
23.结合第二方面实施例，在一种可能的实施方式中，所述合并模块，用于根据所述终端接入信息以及所述访问关系信息，为每个所述终端建立终点为所述服务器，且理论可达的所述监测链路；将所述监测链路中，存在相同拓扑路径的监测链路进行合并，得到所述待监测链路；
24.其中，所述待监测链路以及所述相同拓扑路径的起点为所述终端侧网络设备，所述待监测链路以及所述相同拓扑路径的终点为所述服务侧网络设备。
25.第三方面，本技术实施例还提供一种电子设备，包括：存储器和处理器，所述存储器和所述处理器连接；所述存储器用于存储程序；所述处理器调用存储于所述存储器中的程序，以执行上述第一方面实施例和/或结合第一方面实施例的任一种可能的实施方式提供的方法。
26.第四方面，本技术实施例还提供一种非易失性计算机可读取存储介质(以下简称计算机可读存储介质)，其上存储有计算机程序，所述计算机程序被计算机运行时执行上述第一方面实施例和/或结合第一方面实施例的任一种可能的实施方式提供的方法。
27.本技术的其他特征和优点将在随后的说明书阐述，并且，部分地从说明书中变得显而易见，或者通过实施本技术实施例而了解。本技术的目的和其他优点可通过在所写的说明书以及附图中所特别指出的结构来实现和获得。
附图说明
28.为了更清楚地说明本技术实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本技术的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。通过附图所示，本技术的上述及其它目的、特征和优势将更加清晰。在全部附图中相同的附图标记指示相同的部分。并未刻意按实际尺寸等比例缩放绘制附图，重点在于示出本技术的主旨。
29.图1示出本技术实施例提供的一种网络拓扑图。
30.图2示出本技术实施例提供的一种故障监测方法的流程图。
31.图3示出本技术实施例提供的一种故障监测装置的结构框图。
32.图4示出本技术实施例提供的一种电子设备的结构示意图。
33.附图标记：100
‑
电子设备；110
‑
处理器；120
‑
存储器；400
‑
故障监测装置；410
‑
第一采集模块；420
‑
第二采集模块；430
‑
合并模块；440
‑
监测模块。
具体实施方式
34.下面将结合本技术实施例中的附图，对本技术实施例中的技术方案进行描述。
35.应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。同时，在本技术的描述中诸如“第一”、“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个
……”
限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
36.再者，本技术中术语“和/或”，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，a和/或b，可以表示：单独存在a，同时存在a和b，单独存在b这三种情况。
37.此外，针对现有技术中的全网链路监测方案所存在的缺陷(工作量较大，且增加了网络以及网络设备的负担)均是申请人在经过实践并仔细研究后得出的结果，因此，上述缺陷的发现过程以及在下文中本技术实施例针对上述缺陷所提出的解决方案，都应该被认定为是申请人对本技术做出的贡献。
38.为了解决上述问题，本技术实施例提供一种故障监测方法、装置、电子设备及计算机可读存储介质，可以在减轻网络以及网络设备的并发负担。
39.该技术可采用相应的软件、硬件以及软硬结合的方式实现。
40.下面将首先针对本技术所提供的故障监测方法进行介绍。
41.本技术实施例提供一种应用于电子设备的故障监测方法，通过对待监测网络中的网络信息进行采集，从而基于网络信息对待监测网络中的所涉及到的监测链路进行监测，以判断各条监测链路是否存在故障。
42.当然，值得指出的是，在采集待监测网络中的网络信息之前，需要先获取待监测网络所对应的网络拓扑关系。
43.可选的，执行本方法的电子设备通过lldp(link layer discovery protocol，链路层发现协议)协议去探测待监测网络，从而发现整个待监测网络的网络拓扑关系。
44.当然，在一些实施方式中，也可以由其他电子设备基于lldp去探测待监测网络，从而发现整个待监测网络的网络拓扑关系。后续，执行本方法的电子设备直接从其他电子设备上获取到待监测网络的网络拓扑关系。
45.在获取到待监测网络的网络拓扑关系，电子设备可以根据网络拓扑关系，确定待监测网络中的终端、服务器、终端侧网络设备以及服务侧网络设备。
46.其中，服务器指的是整个网络拓扑中，位于网络最边缘的服务器，终端指的是整个网络拓扑中，位于网络最边缘的非服务器终端，例如打印机、摄像头、笔记本电脑等。
47.至于终端侧网络设备以及服务侧网络设备，其本质是网络拓扑中，用于终端接入网络的边缘网络设备或者用于服务器接入网络的边缘网络设备，例如路由器、交换机、反射器等设备。在本技术实施例中，为了对接入终端以及接入服务器的边缘网络设备进行区分，将待监测网络中，用于终端接入的边缘网络设备称之为终端侧网络设备，以及将待监测网络中，用于服务器接入的边缘网络设备称之为服务侧网络设备。
48.其中，同一个终端侧网络设备可以同时将多个终端接入待监测网络中；相应的，同一个服务侧网络设备也可以同时将多个服务器接入待监测网络中。
49.当然，针对复杂的网络拓扑，与之对应的待监测网络中可能存在多个终端侧网络设备和/或多个服务侧网络设备。
50.示例性的，请参照图1，图1示出一种与待监测网络对应的网络拓扑示意图。在图1中，终端1、终端2以及终端3是终端，dev1是将终端1以及终端2接入待监测网络的终端侧网络设备，dev4是将终端3接入待监测网络的终端侧网络设备。服务器1、服务器2以及服务器3是服务器，dev2是将服务器1以及服务器2接入待监测网络的服务侧网络设备，dev5是将服务器3接入待监测网络的服务侧网络设备。dev3是中间网络设备。
51.在一些可选的实施方式中，电子设备可以通过现有的智能识别技术，从网络拓扑中，确定出待监测网络中的终端、服务器、终端侧网络设备以及服务侧网络设备。
52.在另一些实施方式中，也可以由人工根据网络拓扑，对待监测网络中所涉及到的网络设备的身份进行指定，从而确定出终端、服务器、终端侧网络设备以及服务侧网络设备，并反馈到电子设备处。
53.下面将结合图1以及图2，对本技术实施例所提供的故障监测方法进行介绍。该方法可以包括以下步骤。
54.步骤s110：采集终端侧网络设备上的arp表信息，并根据所述arp表信息确定所有接入所述终端侧网络设备的终端接入信息。
55.针对待监测网络中的终端侧网络设备，电子设备可以采集终端侧网络设备上的arp(address resolution protocol，地址解析协议)表信息。
56.具体的，电子设备可以通过snmp(simple network management protocol，简单网络管理协议)、netconf(network configuration protocol，网络配置协议)等技术，采集终端侧网络设备上的arp表信息，相当于采集终端侧网络设备上的每个端口上的arp访问，从而获取到所有接入该终端侧网络设备上的终端的终端接入信息。
57.可选的，终端接入信息可以包括ip地址、接入端口、接入设备，可以表示为{ip地址，接入端口，接入设备}。
58.其中，ip地址表示通过终端侧网络设备接入待监测网络的终端的ip地址；接入端口是终端侧网络设备上的端口，表示该边缘网络设备与终端侧网络设备连接时，占用的是终端侧网络设备上的该端口；接入设备表示与该终端连接的终端侧网络设备。
59.例如，在图1所示的网络拓扑图中，电子设备针对终端侧网络设备dev1进行arp表信息采集后，得到的终端接入信息如下：
60.{192.168.1.1，port1，dev1}；
61.{192.168.1.2，port2，dev1}。
62.上述每个终端接入信息均可以代表一个终端，相应的，可以将所有终端侧网络设
备上所采集到的所有终端接入信息形成一个终端集合a，终端集合a中的元素为各个终端接入信息。
63.步骤s120：采集服务侧网络设备上的ipfix(ip flow information export，ip数据流信息输出)流量，并根据所述ipfix流量确定通过所述服务侧网络设备所进行的ip访问的访问关系信息。
64.其中，针对一个网络设备采集ipfix流量，可以得到经过该网络设备的流量的源ip、源端口、目的ip、目的端口、流量所使用的传输协议等信息。
65.基于此，电子设备可以通过采集服务侧网络设备上的ipfix流量，从而获取到所有通过该服务侧网络设备所进行的ip访问的访问关系信息。
66.访问关系信息可以包括访问关系、接入端口、接入设备，可以表示为{访问关系：源ip地址
→
目的ip地址，接入端口，接入设备}。
67.其中，访问关系表示终端访问服务器；接入端口是服务侧网络设备上的端口，表示被访问的服务器与服务侧网络设备连接时，占用的是服务侧网络设备上的该端口；接入设备表示与该被访问的服务器连接的服务侧网络设备。
68.例如，在图1所示的网络拓扑图中，电子设备针对服务侧网络设备dev2进行ipfix流量采集后，得到的访问关系信息如下：
69.{192.168.1.1
→
172.1.1.1，port1，dev2}；
70.{192.168.1.1
→
172.1.1.2，port2，dev2}；
71.{192.168.1.2
→
172.1.1.2，port2，dev2}；
72.{192.168.1.2
→
172.1.1.1，port1，dev2}。
73.可选的，可以将所有服务侧网络设备上所采集到的所有终端接入信息形成一个访问集合b，访问集合b中的元素为各个终端接入信息。
74.当然，值得指出的是，步骤s110与步骤s120之间并不存在严格的先后顺序。例如，在本实施例中，步骤s110先于步骤s120执行；在一些实施方式中，步骤s120先于步骤s110执行；在另一些实施方式中，步骤s110也可以与步骤s120并行执行。
75.步骤s130：根据所述终端接入信息以及所述访问关系信息，将所述待监测网络中的监测链路进行合并，得到待监测链路。
76.在本技术实施例中，电子设备在获取到终端接入信息以及访问关系信息后，可以结合终端接入信息以及访问关系信息，将待监测网络中的可能存在的监测链路进行合并，以减少监测链路的数量。
77.其中，为了便于区分，合并后所形成的监测链路称之为待监测链路。
78.具体的，电子设备可以遍历终端集合a中的每个元素，然后通过查找访问集合b中与该元素关联的元素，为每个终端建立起点为该终端，终点为服务器的监测链路。其中，该监测链路为网络拓扑中理论可达的网络链路。
79.依旧以图1所示的网络拓扑为例，若忽略图1中的终端3到服务器3那条链路，那么针对终端集合a中的元素{192.168.1.1，port1，dev1}(即针对终端1)，通过查找访问集合b发现，在访问集合b中，与之关联的元素为：{192.168.1.1
→
172.1.1.1，port1，dev2}以及{192.168.1.1
→
172.1.1.2，port2，dev2}。
80.基于此，那么与终端1对应的理论可达的网络链路如下：
81.192.168.1.1
→
<port1>dev1<port3>
→
<inf1>dev3<inf2>
→
<port3>dev2<port1>
→
172.1.1.1；
82.192.168.1.1
→
<port1>dev1<port3>
→
<inf1>dev3<inf2>
→
<port3>dev2<port2>
→
172.1.1.2。
83.依旧以图1所示的网络拓扑为例，若忽略图1中的终端3到服务器3那条链路，那么针对终端集合a中的元素{192.168.1.2，port2，dev1}(即针对终端2)，通过查找访问集合b发现，在访问集合b中，与之关联的元素为：{192.168.1.2
→
172.1.1.2，port2，dev2}以及{192.168.1.2
→
172.1.1.1，port1，dev2}。
84.基于此，那么与终端2对应的理论可达的网络链路如下：
85.192.168.1.2
→
<port2>dev1<port3>
→
<inf1>dev3<inf2>
→
<port3>dev2<port1>
→
172.1.1.1；
86.192.168.1.2
→
<port2>dev1<port3>
→
<inf1>dev3<inf2>
→
<port3>dev2<port2>
→
172.1.1.2。
87.其中，上述每条网络链路均可以作为一条可能存在的监测链路。
88.在得到待监测网络中所有的可能存在的监测链路后，电子设备可以将所有可能存在的监测链路中，存在相同拓扑路径的监测链路进行合并，从而得到待监测链路，以减少监测链路的数量。
89.值得指出的是，在本技术实施例中，相同的网络拓扑是指待监测网络中，起点为同一个终端侧网络设备，且终点为同一个服务侧网络设备的路径。此外，在本技术实施例中，合并后的待监测链路的起点为同一个终端侧网络设备，合并后的待监测链路的终点为同一个服务侧网络设备。
90.以上述理论可达的监测链路为例，图1中理论可达的监测链路如下：
91.192.168.1.1
→
<port1>dev1<port3>
→
<inf1>dev3<inf2>
→
<port3>dev2<port1>
→
172.1.1.1；
92.192.168.1.1
→
<port1>dev1<port3>
→
<inf1>dev3<inf2>
→
<port3>dev2<port2>
→
172.1.1.2；
93.192.168.1.2
→
<port2>dev1<port3>
→
<inf1>dev3<inf2>
→
<port3>dev2<port1>
→
172.1.1.1；
94.192.168.1.2
→
<port2>dev1<port3>
→
<inf1>dev3<inf2>
→
<port3>dev2<port2>
→
172.1.1.2。
95.上述理论可达的监测链路经过合并后，得到的待监测链路为：dev1<port3>
→
<inf1>dev3<inf2>
→
<port3>dev2。
96.在该监测链路上，存在4个监测对(终端的ip
‑
>服务器的ip)，分别为：
97.192.168.1.1
→
172.1.1.1，对应于终端1访问服务器1；
98.192.168.1.1
→
172.1.1.2，对应于终端1访问服务器2；
99.192.168.1.2
→
172.1.1.1，对应于终端2访问服务器1；
100.192.168.1.2
→
172.1.1.2，对应于终端2访问服务器2。
101.值得指出的是，监测对的起点是与待监测链路中的终端侧网络设备连接的终端的ip地址，监测对的终点是与待监测链路中的服务器侧网络设备连接的服务器的ip地址。
102.步骤s140：针对所述待监测链路进行故障监测。
103.电子设备在确定出所有的待监测链路后，可以按照上述方式获取各个待监测链路上的所有监测对，然后针对这些监测对，对待监测链路进行故障监测。
104.其中，值得指出的是，在本技术实施例中，在针对待监测链路进行故障监测时，是以并行的方式，监测所有的待监测链路。
105.由上述内容可知，在本技术实施例中，是以合并后的待监测链路为监测对象，而不是以所有的监测链路为监测对象，因此，可以减少监测对象的数量，进而减少在同一时间内的监测任务，极大地降低了网络以及网络设备的负担。
106.下面将针对监测其中的一条待监测链路a的过程进行介绍。
107.可选的，在本技术实施例中，可以预先设置监测周期，然后针对待监测链路a，按照一个监测周期监测待监测链路a上的一个监测对的原则，以及通过不断改变被监测的监测对的方式，实现对待监测链路a上的每个监测对所涉及到的ip访问进行相同次数的故障监测，并记录监测结果。然后根据待监测链路a上所有监测对的所有监测结果，确定待监测链路a是否存在链路故障或单监测对故障。
108.具体的，针对待监测链路a，可以先从待监测链路a上的所有监测对中随机选择一个监测对a作为本次的监测对象。然后向待监测链路a上所包括的终端侧网络设备以及服务侧网络设备下发链路监测指令。
109.其中，链路监测指令的监测起点为当前待监测的监测对(监测对a)的起点，链路监测指令的监测终点为当前待监测的监测对(监测对a)的终点。
110.例如，假设待监测链路a是：dev1<port3>
→
<inf1>dev3<inf2>
→
<port3>dev2；监测对a是：192.168.1.1<dev1
‑
port1>
→
172.1.1.1<dev2
‑
port1>，对应于终端1访问服务器1。在这种情况下，电子设备向dev1的port1以及dev2的port1下发链路监测指令：192.168.1.1(dev1
‑
port1)
→
172.1.1.1(dev2
‑
port1)。
111.终端侧网络设备在启动监测后，可以根据监测周期以及监测对a的起点和终点，从经过本设备的所有流量中去抓取报文，并在抓取到的报文的tcp层封装监测标识，从而形成监测报文。其中，被抓取的报文的源ip地址为监测对a的起点的ip地址，被抓取的报文的目的ip地址为监测对a的终点的ip地址。
112.其中，值得指出的是，在监测标识中，携带有终端侧网络设备在本监测周期开始抓取报文的时间戳、预计抓取的监测报文的总个数。当然，在监测标识中还可以携带其他信息，例如待监测链路的标识、报文编码等信息。
113.服务侧网络设备在启动监测后，可以从经过本设备的所有流量中去抓取上述监测报文。被抓取的监测报文的源ip地址为监测对a的起点的ip地址，被抓取的监测报文的目的ip地址为监测对a的终点的ip地址。
114.后续服务侧网络设备根据抓取到的监测报文中的时间戳以及本地当前时间戳计算网络延时，以及根据本端所抓取到的监测报文的总个数以及监测标识中的监测报文的总个数计算丢包情况，并形成与监测对a对应的监测结果。
115.当针对监测对a的监测周期(例如5分钟)到期后，电子设备从待监测链路a所对应的所有监测对中切换另一个监测对b作为下一个监测周期的监测对象，并重复上述过程，直至待监测链路a上所有的监测对均完成监测，意味着针对待监测链路a的一轮故障监测完
成。
116.当所有的待监测链路均按照上述过程对所有的监测对进行监测后，即实现了针对待监测网络的全网链路监测。
117.后续，电子设备可以针对待监测链路a再次进行多轮故障监测，以保证针对待监测链路a的每个监测对，可以获取到足够多的对应的监测结果，以便后续根据监测结果，调整可能存在监测故障的监测对的监测周期以及监测优先级。
118.例如，可以待监测链路a上的所有监测对完成三轮故障监测后，分析各个监测对的监测结果。针对延迟情况较为严重和/或丢包情况较为严重的监测对，调大与之对应的监测周期以及监测优先级，并重新针对监测链路a上的所有监测对发起下一轮故障监测，并在后续的监测中根据实际监测结果不断更新监测周期和监测优先级。
119.其中，针对某个监测对，若根据该监测对的监测结果所分析出的延迟情况和丢包情况所确定出的监测周期以及监测优先级超过预设等级时，则可以确定该监测对存在监测故障。
120.在本技术实施例中，若某个待监测链路上，存在超过预设比例(例如60％)的监测对均存在监测故障时，则可以确定该待监测链路存在链路故障。
121.此外，在本技术实施例中，若某个待监测链路上，若有存在监测故障的监测对，但是存在监测故障的监测对的数量未超过预设比例时，确定该待监测链路上存在单监测对故障。
122.从上述过程可知，在本技术实施例中，假如要监测终端1到服务器1以及服务器2，以及监测终端2到服务器1以及服务器2，在同一时刻仅需一个链路的监测报文。而在现有技术中，则需要4个监测报文，因此，本技术实施例可以将原来的4个监测报文减少为1个监测报文，可以极大地降低监测链路的消耗。
123.本技术实施例所提供的一种故障监测方法，在对全网链路进行故障监测时，通过将存在相同网络拓扑的监测链路进行合并，形成待监测链路。在后续的监测过程中，是以待监测链路为监测对象，因此，可以减少监测对象的数量，进而减少在同一时间内的监测任务的数量，极大地降低了网络以及网络设备的负担。
124.如图3所示，本技术实施例还提供一种故障监测装置400，故障监测装置400可以包括：第一采集模块410、第二采集模块420、合并模块430以及监测模块440。
125.第一采集模块410，用于采集终端侧网络设备上的arp表信息，并根据所述arp表信息确定所有接入所述终端侧网络设备的终端接入信息；所述终端侧网络设备为待监测网络中用于终端接入的边缘网络设备；
126.第二采集模块420，用于采集服务侧网络设备上的ipfix流量，并根据所述ipfix流量确定通过所述服务侧网络设备所进行的ip访问的访问关系信息；所述服务侧网络设备为所述待监测网络中用于服务器接入的边缘网络设备；
127.合并模块430，用于根据所述终端接入信息以及所述访问关系信息，将所述待监测网络中的监测链路进行合并，得到待监测链路；
128.监测模块440，用于针对所述待监测链路进行故障监测。
129.在一种可能的实施方式中，所述监测模块440，用于获取所述待监测链路上的所有监测对；其中，所述监测对的起点是与所述待监测链路中的终端侧网络设备连接的终端的
ip地址，所述监测对的终点是与所述待监测链路中的服务器侧网络设备连接的服务器的ip地址；按照一个监测周期监测一个监测对的原则，对所述待监测链路上的每个监测对所涉及到的ip访问进行相同次数的故障监测，并记录监测结果；根据所有的所述监测结果，确定所述待监测链路是否存在链路故障或单监测对故障。
130.在一种可能的实施方式中，所述监测模块440，用于在所述待监测链路上，超过预设比例的监测对均存在监测故障时，确定所述待监测链路存在链路故障；在所述待监测链路上，未超过预设比例的监测对存在监测故障时，确定所述待监测链路上存在单监测对故障；其中，针对每个所述监测对而言，根据与该监测对对应的监测结果，确定与该监测对的延迟情况以及丢包情况，并在所述延迟情况以及所述丢包情况超过预设等级时，确定该监测对存在监测故障。
131.在一种可能的实施方式中，所述监测模块440，用于向所述待监测链路上所包括的终端侧网络设备以及服务侧网络设备下发链路监测指令，所述链路监测指令的监测起点为当前待监测的监测对的起点，所述链路监测指令的监测终点为所述当前待监测的监测对的终点。
132.在一种可能的实施方式中，所述装置还包括获取模块，用于：获取所述待监测网络的网络拓扑关系；根据所述网络拓扑关系，确定所述待监测网络中的终端、服务器、终端侧网络设备以及服务侧网络设备。
133.在一种可能的实施方式中，所述合并模块430，用于根据所述终端接入信息以及所述访问关系信息，为每个所述终端建立终点为所述服务器，且理论可达的所述监测链路；将所述监测链路中，存在相同拓扑路径的监测链路进行合并，得到所述待监测链路；
134.其中，所述待监测链路以及所述相同拓扑路径的起点为所述终端侧网络设备，所述待监测链路以及所述相同拓扑路径的终点为所述服务侧网络设备。
135.本技术实施例所提供的故障监测装置400，其实现原理及产生的技术效果和前述方法实施例相同，为简要描述，装置实施例部分未提及之处，可参考前述方法实施例中相应内容。
136.此外，本技术实施例还提供一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，该计算机程序被计算机运行时，执行如上述的故障监测方法所包含的步骤。
137.此外，请参照图4，本技术实施例还提供一种用于实现本技术实施例的故障监测方法、装置的电子设备100。
138.可选的，电子设备100，可以是，但不限于个人电脑(personal computer，pc)、移动上网设备(mobile internet device，mid)、个人数字助理、服务器等设备。其中，服务器可以是，但不限于网络服务器、数据库服务器、云端服务器等。
139.其中，电子设备100可以包括：处理器110、存储器120。
140.应当注意，图4所示的电子设备100的组件和结构只是示例性的，而非限制性的，根据需要，电子设备100也可以具有其他组件和结构。
141.处理器110、存储器120以及其他可能出现于电子设备100的组件相互之间直接或间接地电性连接，以实现数据的传输或交互。例如，处理器110、存储器120以及其他可能出现的组件相互之间可通过一条或多条通讯总线或信号线实现电性连接。
142.存储器120用于存储程序，例如存储有前文出现的故障监测方法对应的程序或者前文出现的故障监测装置。可选的，当存储器120内存储有故障监测装置时，故障监测装置包括至少一个可以以软件或固件(firmware)的形式存储于存储器120中的软件功能模块。
143.可选的，故障监测装置所包括软件功能模块也可以固化在电子设备100的操作系统(operating system，os)中。
144.处理器110用于执行存储器120中存储的可执行模块，例如故障监测装置包括的软件功能模块或计算机程序。当处理器110在接收到执行指令后，可以执行计算机程序，例如执行：采集终端侧网络设备上的arp表信息，并根据所述arp表信息确定所有接入所述终端侧网络设备的终端接入信息；所述终端侧网络设备为待监测网络中用于终端接入的边缘网络设备；采集服务侧网络设备上的ipfix流量，并根据所述ipfix流量确定通过所述服务侧网络设备所进行的ip访问的访问关系信息；所述服务侧网络设备为所述待监测网络中用于服务器接入的边缘网络设备；根据所述终端接入信息以及所述访问关系信息，将所述待监测网络中的监测链路进行合并，得到待监测链路；针对所述待监测链路进行故障监测。
145.当然，本技术任一实施例所揭示的方法都可以应用于处理器110中，或者由处理器110实现。
146.综上所述，本发明实施例提出的故障监测方法、装置、电子设备及计算机可读存储介质，在对全网链路进行故障监测时，通过将存在相同网络拓扑的监测链路进行合并，形成待监测链路。在后续的监测过程中，是以待监测链路为监测对象，因此，可以减少监测对象的数量，进而减少在同一时间内的监测任务的数量，极大地降低了网络以及网络设备的负担。
147.需要说明的是，本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。
148.在本技术所提供的几个实施例中，应该理解到，所揭露的装置和方法，也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，附图中的流程图和框图显示了根据本技术的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分，所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现方式中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。
149.另外，在本技术各个实施例中的各功能模块可以集成在一起形成一个独立的部分，也可以是各个模块单独存在，也可以两个或两个以上模块集成形成一个独立的部分。
150.所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读存储介质中。基于这样的理解，本技术的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，笔记本电脑,服务器，或者网络设备等)执行本技术各个实施例所述方法的全部或
部分步骤。而前述的存储介质包括：u盘、移动硬盘、只读存储器(rom，read
‑
only memory)、随机存取存储器(ram，random access memory)、磁碟或者光盘等各种可以存储程序代码的介质。
151.以上所述，仅为本技术的具体实施方式，但本技术的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本技术揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本技术的保护范围之内。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：一种移动环境下WSNs的QoS感知的多路径路由算法的制作方法

故障监测方法、装置、电子设备及计算机可读存储介质与流程

相关文献

最热文献