一种适用于超大规模互连网络的故障快速定位方法与流程

2022-03-26 02:41:03 来源：中国专利 TAG：

1.本发明涉及一种适用于超大规模互连网络的故障快速定位方法，属于超大规模网络故障定位技术领域。

背景技术：

2.在大规模的互连网络管理系统中，网络中的端口数量和节点个数可以达到十万数量级，要管理如此庞大的互连网络，故障定位的准确性和快速性显得尤为重要。
3.大规模互连网络的故障定位需要通过发送大量的网络节点信息查询或设置包，以便测试大规模互连网络中的网卡、计算网交换机、顶层网交换机的端口带宽和测试消息。手动逐个测试每个端口的带宽和测试消息只适用于小规模的互连网络故障定位，但如果是超大规模互连网络，则会出现效率低，处理时间太长等情况。
4.现有技术只提供单一cpu节点故障排查方法，针对网络规模较大的环境，这种网络故障定位的处理方式显然会出现导致网络系统效率低下（处理时间太长，令人无法容忍）。如果采用循环连续检查每个计算节点的处理方法，肯定会出现堵塞现象，同样会出现网络系统管理和网络维护罢工现象。

技术实现要素：

5.本发明的目的是提供一种适用于超大规模互连网络的故障快速定位方法，便于对超大规模互连网络进行网络故障定位，解决网络故障定位效率低和循环连续检查每个节点造成收发堵塞问题，极大提高网络故障的诊断效率。
6.为达到上述目的，本发明采用的技术方案是：提供一种适用于超大规模互连网络的故障快速定位方法，包括以下步骤：s1、以cpu为单位，每个cpu起2个进程，每个进程占用一个引擎，2个进程进行对发带宽测试，检查带宽是否正常，筛选出pcie链路及存控有问题的点；s2、以中板为单位，每个cpu上选2个进程，每个进程使用1个引擎，进程以异或算法进行a2a测试，检查每轮通信带宽是否低于阈值，筛选出有问题的计算网交换机；s3、以整个队列为单位，从每个中板中选出指定进程，缺的cpu用对等位置的cpu补齐，所有中板一起进行a2a测试，检查中板间通信带宽是否正常，筛选出有问题的顶层网交换机。
7.由于上述技术方案的运用，本发明与现有技术相比具有下列优点：本发明提出了一种适用于超大规模互连网络的故障快速定位方法，在大规模网络中，能够逐层检查网卡、计算网交换机、顶层网交换机的端口速率，从而快速定位故障节点，避免了逐个测试每个网卡消息类型与带宽和每个交换机端口的带宽，缩短了故障的检测时间，并通过异或算法控制进程通信的顺序，避免了各个进程在同时发送数据时会相互竞争通信路径的情况，极大的提高了大规模网络网络系统管理和网络维护的工作效率。
附图说明
8.附图1为以cpu为单位筛选出pcie链路及存控有问题的点的示意图；附图2为以中板为单位筛选出有问题的计算网交换机的示意图；附图3为以队列为单位筛选出有问题的顶层网交换机的示意图；附图4为本发明实施例中的示意图。
具体实施方式
9.实施例：本发明提供一种适用于超大规模互连网络的故障快速定位方法，具体包括以下步骤：s1、以cpu为单位，每个cpu起2个进程，每个进程占用一个引擎，2个进程进行对发带宽测试，检查带宽是否正常，筛选出pcie链路及存控有问题的点；s2、以中板为单位，每个cpu上选2个进程，每个进程使用1个引擎，进程以异或算法进行a2a测试，检查每轮通信带宽是否低于阈值，筛选出有问题的计算网交换机；s3、以整个队列为单位，从每个中板中选出指定进程，缺的cpu用对等位置的cpu补齐，所有中板一起进行a2a测试，检查中板间通信带宽是否正常，筛选出有问题的顶层网交换机。
10.对上述实施例的进一步解释如下：基于大规模互连网络的故障快速定位方法，主要分成三层：（1）以cpu为单位筛选出pcie链路及存控有问题的点由于每个cpu连接一块网卡，每块网卡都有两个引擎，两个引擎都可以发送和接收消息，遍历每块网卡的对发消息测试（两个引擎直接互相发送管理包）来筛选出pcie链路有问题的点。因此可以以cpu为单位，每个cpu起2个进程，每个进程占用一个引擎，2个进程进行对发带宽测试，检查带宽是否正常。
11.（2）以中板为单位筛选出有问题的计算网交换机中板内的交换机连接着的cpu互相通信需要经过计算网交换机，但不经过顶层交换机。因此可以以中板为单位筛选出有问题的计算网交换机，每个cpu上起2个进程，每个进程使用1个引擎，进程以异或算法进行a2a测试，检查每轮通信带宽是否低于阈值。
12.（3）以队列为单位筛选出有问题的顶层网交换机不同中板内交换机连接着的cpu通信需要经过顶层交换机。以整个队列为单位，从每个中板中选出指定进程（缺的cpu用对等位置的cpu补齐），所有中板一起进行a2a测试，从而测试中板间通信带宽是否正常。
13.通过上述三个步骤，可以逐层筛选出故障网卡、故障计算网交换机、故障顶层网交换机。
14.a2a介绍：a2a是一种典型的集合通信方式，将每个进程的大数据缓冲区切分为n个长度相等、编号分别为0，1，2，
…
，n-1的小数据缓冲区：对任意0《=i，j《=n-1，进程pi将其标号为j的缓冲区中的数据发给进程pj，存放在进程pj的标号为i的缓冲区中。
15.异或算法：dst =（myrank ^ stride） % p，stride ∈{1,2,
⋯
p
−
1}，（注：要求p是2的幂，^表示
异或符号）；p表示进程个数，dst表示进程通信的目的地，myrank表示进程号，stride表示步长，当遍历完所有的步长时，表示a2a操作结束。
16.遍历异或算法所有步长的过程：以下以8个进程采用异或算法进行a2a通信为例，a2a通信中的每个进程都必须与其他进程进行通信（如图4）。
17.发生故障时的现象可以归结为两种：一是路由不可达，二是性能下降。因此，对任意一对cpux和cpuy，通过测试cpux到cpux的单向带宽就可以判定cpux到cpux经过的各个网络端口是否正常，通过覆盖所有网络端口，就可以对整个网络进行快速故障检测与定位。
18.故障定位主要流程如下：输入：cpu列表{c
x
}、理想带宽；输出：各个端口的通信带宽；算法：1、设置默认参数（cpu频率，队列信息，路由，发送信息大小等）；2、获取测试的cpu信息（cpu列表，rank_id，guid等）；3、初始化同步资源；初始化发送、接收数据缓冲区和队列资源；4、用异或算法计算每个进程的发送缓冲区和接收缓冲区；启动投递发送请求和投递接收请求；5、等待消息同步（所有的投递接受请求完毕）；6、若步长stride《cpu个数，则跳转到（4）；7、判断消息是否超时，判断端口的通信带宽是否小于理想带宽；8、若路由不可达或带宽性能下降，则可定位出cpu节点的经过的通信端口有故障；9、结束。
19.当cpux和cpuy的路由不可达时或者cpux和cpuy的通信带宽下降时，可以判断出cpux到cpuy之间经过的网络端口有故障。
20.采用上述一种适用于超大规模互连网络的故障快速定位方法时，其在大规模网络中，能够逐层检查网卡、计算网交换机、顶层网交换机的端口速率，从而快速定位故障节点，避免了逐个测试每个网卡消息类型与带宽和每个交换机端口的带宽，缩短了故障的检测时间，并通过异或算法控制进程通信的顺序，避免了各个进程在同时发送数据时会相互竞争通信路径的情况，极大的提高了大规模网络网络系统管理和网络维护的工作效率。
21.为了便于更好的理解本发明，下面将对本文中使用的术语进行简要的解释：顶层网交换机：互连网络中用于管理中板间通信的交换机。
22.网络管理包：互连网络节点中用于查询或设置网络节点信息的包。
23.上述实施例只为说明本发明的技术构思及特点，其目的在于让熟悉此项技术的人士能够了解本发明的内容并据以实施，并不能以此限制本发明的保护范围。凡根据本发明精神实质所作的等效变化或修饰，都应涵盖在本发明的保护范围之内。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：用于PDCCH监测适配的方法和设备与流程

一种适用于超大规模互连网络的故障快速定位方法与流程

相关文献

最热文献