一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种交换机故障的定位方法、系统及装置与流程

2021-11-22 13:21:00 来源:中国专利 TAG:


1.本发明涉及通信技术领域,尤其是一种交换机故障的定位方法、系统及装置。


背景技术:

2.随着数据中心架构的发展和vxlan(virtual extensible local area network,虚拟扩展局域网)、rdma(remote direct memory access,远程直接数据存取)等新技术的应用,传统的snmp(simple neork management protocol,简单网络管理协议)等运维手段已经无法满足当前idc(internet data center,互联网数据中心)运维需求。更大规模、更复杂的云数据中心和高性能计算集群都对运维提出了更高的要求,如何找到更加精细化、智能化的运维手段,实现对网络更高效、及时地监控和运维,成为数据中心网络运维面临的一大挑战。sonic(software for open networking in the cloud,定义了路由交换设备的控制平面的容器化架构,定义中包含组件与接口)是微软发布的开源交换机操作系统,是一个成熟的sdn(software defined network,软件定义网络)软件平台,实现了数据控制面与转发面的分离,用户可以采购白牌交换机搭载sonic实现不同的网络功能,sonic使得用户能够更快的调试、修复并测试软件,通过改变软件策略和拓扑实现新的网络架构,让网络实践更为灵活。
3.telemetry是一项远程的从物理设备或虚拟设备上高速采集数据的技术。设备通过推模式(push mode)主动向采集器推送设备数据信息,提供更实时更高效的数据采集能力。telemetry技术采取推送方式,由设备主动向后台监控服务器推送自身信息,从而避免了查询模式下查询请求造成的在网络中的额外延时,以及大量查询请求给网络和设备带来的压力。与传统的snmp方式相比,telemetry可以实现亚秒级监控精度。通过telemetry技术理论上可以获取设备所有信息。目前数据中心主流通常采用spine/leaf的拓扑架构,此架构很容易对数据中心的设备作线性扩展,也相对带来附载平衡与冗余的好处,在这种架构下,封包数据的传输普遍存在着多条路径可供选择,一旦某条链路发生问题,很难快速的从整个拓谱中找到造成链路出错的故障交换机位置。
4.现有的网络拓谱检测技术,实现了二层、三层的网络探测路径。现有的网络探测路径只能分别别针对二层与三层的问题作回报,而且这些信息只有报文传送端或发生问题的设备可以收到,无法将此信息整理并集中呈现,也会因为有多条路径而无法有效且快速的锁定发生问题路径的交换机位置。另外,现今已经有部分交换机芯片厂商提出在硬件芯片上面实做int(in

band network telemetry,带内网络遥测)技术,是由barefoot、arista、dell、intel和vmware在telemetry的基础上共同提出的一种新的telemetry模型。int技术是通过在数据层面收集和报告网络的状态来实现对网络状态的监控,这个过程不需要控制层面的参与。但是int若是采用broadcom的芯片中自带的特定固件实现,但是broadcom对此特定硬件逻辑是额外收取高额费用的。barefoot使用硬件进行流水线编排,整体使用弹性不足。


技术实现要素:

5.本发明提供了一种交换机故障的定位方法、系统及装置,用于解决现有交换机故障定位采用硬件实现,使用弹性低的问题。
6.为实现上述目的,本发明采用下述技术方案:
7.本发明第一方面提供了一种交换机故障的定位方法,所述方法包括以下步骤:
8.交换机cpu接收探测报文,基于所述探测报文,生成当前交换机的元数据信息;
9.将所述元数据信息和报文五元组同时发送给控制器,控制器基于所述元数据信息分析丢包的交换机,进行故障定位。
10.进一步地,所述元数据信息包括交换机id、报文的入口端口号、报文的出口端口号,报文入端口的时间戳、报文出端口的时间戳和丢包信息。
11.进一步地,所述探测报文的生成具体为:
12.在服务器上配置用户接口,基于所述用户接口设置报文的五元组信息,构造探测报文。
13.进一步地,所述探测报文的生成具体为:
14.交换机cpu发出初始探测报文,并基于用户配置的报文五元组信息封装所述初始探测报文,形成探测报文。
15.进一步地,所述将所述元数据信息和报文五元组同时发送给控制器的路径具体为:
16.若所述控制器部署在管理网上,则交换机cpu通过grpc接口发送数据给控制器。
17.进一步地,所述将所述元数据信息和报文五元组同时发送给控制器的路径具体为:
18.若所述控制器部署在业务网上,则交换机cpu通过远程端口镜像的方式发送数据给控制器。
19.进一步地,所述将所述元数据信息和报文五元组同时发送给控制器的模式具体为:
20.将所述元数据信息封装在探测报文的尾部,每个交换机cpu均将封装有元数据信息的探测报文发送给控制器。
21.进一步地,所述将所述元数据信息和报文五元组同时发送给控制器的模式具体为:
22.将所述元数据信息封装在探测报文的尾部,当前交换机cpu将封装有本地元数据信息的探测报文发送给下一跳交换机;
23.重复上一步的操作至结尾点交换机cpu,结尾点的交换机cpu将包含传输路径中各交换机元数据信息的探测报文发送给控制器。
24.本发明第二方面提供了一种交换机故障的定位系统,所述系统包括:
25.数据处理单元,交换机cpu接收探测报文,基于所述探测报文,生成当前交换机的元数据信息;
26.故障定位单元,将所述元数据信息和报文五元组同时发送给控制器,控制器基于所述元数据信息分析丢包的交换机,进行故障定位。
27.本发明第三方面提供了一种交换机故障的定位装置,所述装置包括交换机cpu和
控制器;
28.所述交换机cpu接收探测报文,基于所述探测报文,生产当前交换机的元数据信息,并将所述元数据信息和报文五元组同时发送给控制器;
29.所述控制器基于所述元数据信息分析丢包的交换机,进行故障定位。
30.本发明第二方面的所述网络服务的控制装置能够实现第一方面及第一方面的各实现方式中的方法,并取得相同的效果。
31.发明内容中提供的效果仅仅是实施例的效果,而不是发明所有的全部效果,上述技术方案中的一个技术方案具有如下优点或有益效果:
32.本发明通过交换机cpu对探测报文进行分析处理,将当前交换机的元数据信息添加到探测报文中,与报文进行同时转发,并将添加有元数据信息的探测报文发送给控制器,控制器通过元数据信息确定故障交换机,进行故障定位,整个实现过程不需要硬件参与,使用弹性大,且基于元数据信息实现了故障交换机的准确定位,成本低,市场前景广阔。
附图说明
33.为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
34.图1是本发明所述方法的流程示意图;
35.图2是本发明探测模式的其一实现方式示意图;
36.图3是本发明探测模式的另一实现方式示意图;
37.图4是本发明所述系统的结构示意图;
38.图5是本发明所述装置的结构示意图。
具体实施方式
39.为能清楚说明本方案的技术特点,下面通过具体实施方式,并结合其附图,对本发明进行详细阐述。下文的公开提供了许多不同的实施例或例子用来实现本发明的不同结构。为了简化本发明的公开,下文中对特定例子的部件和设置进行描述。此外,本发明可以在不同例子中重复参考数字和/或字母。这种重复是为了简化和清楚的目的,其本身不指示所讨论各种实施例和/或设置之间的关系。应当注意,在附图中所图示的部件不一定按比例绘制。本发明省略了对公知组件和处理技术及工艺的描述以避免不必要地限制本发明。
40.如图1所示,本发明提供的一种交换机故障的定位方法,包括以下步骤:
41.s1,交换机cpu接收探测报文,基于所述探测报文,生成当前交换机的元数据信息;
42.s2,将所述元数据信息和报文五元组同时发送给控制器,控制器基于所述元数据信息分析丢包的交换机,进行故障定位。
43.步骤s1中探测报文的生成,其一实现方式为:
44.在服务器上配置用户接口,基于所述用户接口设置报文的五元组信息,构造探测报文。
45.步骤s1中探测报文的生成,另一实现方式为:
46.交换机cpu发出初始探测报文,并基于用户配置的报文五元组信息封装所述初始
探测报文,形成探测报文。该方式形成的探测报文无法探测到第一台交换机(即生成初始探测报文的交换机)的入口。
47.步骤s1中,元数据信息包括交换机id、报文的入口端口号、报文的出口端口号,报文入端口的时间戳、报文出端口的时间戳和丢包信息。
48.其中丢包信息通过操作系统进步程序进程获取。
49.步骤s1中,交换机芯片下发的流表匹配探测报文通过sdk(software development kit,指一些被软件工程师用于为特定的软件套件、软件框架、硬件平台及操作系统等建立应用软件的开发工具之集合。在本案中意旨switch芯片厂商搭配的软件开发工具)发送给交换机cpu。
50.步骤s2中,将所述元数据信息和报文五元组同时发送给控制器的路径,其一实现方式为:
51.若所述控制器部署在管理网上,则交换机cpu通过grpc接口发送数据给控制器。grpc,英文全称为remote procedure call,是google发起的一个开源远程过程调用系统。该系统基于http/2协议传输,使用protocol buffers作为接口描述语言。
52.步骤s2中,将所述元数据信息和报文五元组同时发送给控制器的路径,另一实现方式为:
53.若所述控制器部署在业务网上,则交换机cpu通过远程端口镜像的方式发送数据给控制器。其中远程端口镜像erspan(encapsulated remote switch port analyzer)是在span的基础上扩展了encapsulated remote的特性。span(switch port analyzer),也通常被称作端口镜像。它可以让我们以旁路的方式来监控网络流量,不会对现网的业务造成干扰,同时将监控流量的副本发送到本地或远端的设备上。
54.如图2所示,步骤s2中将所述元数据信息和报文五元组同时发送给控制器的模式,其一实现方式为postcard(明信片)模式。
55.将所述元数据信息封装在探测报文的尾部,每个交换机cpu均将封装有元数据信息的探测报文发送给控制器。如交换机sw1将封装有本地元数据信息md的探测报文(图中用sw1 md表示),发送给控制器。
56.如图3所示,步骤s2中所述将所述元数据信息和报文五元组同时发送给控制器的模式,另一实现方式为下沉(sink)模式,具体为:
57.将所述元数据信息封装在探测报文的尾部,当前交换机cpu将封装有本地元数据信息的探测报文发送给下一跳交换机;
58.重复上一步的操作至结尾点交换机cpu,结尾点的交换机cpu将包含传输路径中各交换机元数据信息的探测报文发送给控制器。如交换机1发送的探测报文中包含sw1 md,交换机2发送的探测报文中包含sw2 md、sw1 md,结尾点的交换机cpu发送的探测报文中,包含该探测报文所经过的所有交换机的元数据信息,一起发送给控制器。
59.如图4所示,本发明提供的一种交换机故障的定位系统,包括数据处理单元1和故障定位单元2。
60.数据处理单元1用于对交换机cpu接收的探测报文进行处理,生成当前交换机的元数据信息;故障定位单元2将所述元数据信息和报文五元组同时发送给控制器,控制器基于所述元数据信息分析丢包的交换机,进行故障定位。
61.数据处理单元1中处理的探测报文的生成,其一实现方式为:
62.在服务器上配置用户接口,基于所述用户接口设置报文的五元组信息,构造探测报文。
63.探测报文的生成,另一实现方式为:
64.交换机cpu发出初始探测报文,并基于用户配置的报文五元组信息封装所述初始探测报文,形成探测报文。该方式形成的探测报文无法探测到第一台交换机(即生成初始探测报文的交换机)的入口。
65.元数据信息包括交换机id、报文的入口端口号、报文的出口端口号,报文入端口的时间戳、报文出端口的时间戳和丢包信息。
66.其中丢包信息通过操作系统进步程序进程获取。
67.交换机芯片下发的流表匹配探测报文通过sdk(software development kit,指一些被软件工程师用于为特定的软件套件、软件框架、硬件平台及操作系统等建立应用软件的开发工具之集合。在本案中意旨switch芯片厂商搭配的软件开发工具)发送给交换机cpu。
68.故障定位单元2中,将所述元数据信息和报文五元组同时发送给控制器的路径,其一实现方式为:
69.若所述控制器部署在管理网上,则交换机cpu通过grpc接口发送数据给控制器。grpc,英文全称为remote procedure call,是google发起的一个开源远程过程调用系统。该系统基于http/2协议传输,使用protocol buffers作为接口描述语言。
70.故障定位单元2中,将所述元数据信息和报文五元组同时发送给控制器的路径,另一实现方式为:
71.若所述控制器部署在业务网上,则交换机cpu通过远程端口镜像的方式发送数据给控制器。其中远程端口镜像erspan(encapsulated remote switch port analyzer)是在span的基础上扩展了encapsulated remote的特性。span(switch port analyzer),也通常被称作端口镜像。它可以让我们以旁路的方式来监控网络流量,不会对现网的业务造成干扰,同时将监控流量的副本发送到本地或远端的设备上。
72.故障定位单元2中,将所述元数据信息和报文五元组同时发送给控制器的模式,其一实现方式为postcard(明信片)模式,具体为:
73.将所述元数据信息封装在探测报文的尾部,每个交换机cpu均将封装有元数据信息的探测报文发送给控制器。如交换机sw1将封装有本地元数据信息md的探测报文(图中用sw1 md表示),发送给控制器。
74.故障定位单元2中,所述将所述元数据信息和报文五元组同时发送给控制器的模式,另一实现方式为下沉(sink)模式,具体为:
75.将所述元数据信息封装在探测报文的尾部,当前交换机cpu将封装有本地元数据信息的探测报文发送给下一跳交换机;重复上一步的操作至结尾点交换机cpu,结尾点的交换机cpu将包含传输路径中各交换机元数据信息的探测报文发送给控制器。如交换机1发送的探测报文中包含sw1 md,交换机2发送的探测报文中包含sw2 md、sw1 md,结尾点的交换机cpu发送的探测报文中,包含该探测报文所经过的所有交换机的元数据信息,一起发送给控制器。
76.如图4所示,本发明还提供了一种交换机故障的定位装置,包括交换机cpu和控制器;
77.所述交换机cpu接收探测报文,基于所述探测报文,生产当前交换机的元数据信息,并将所述元数据信息和报文五元组同时发送给控制器;所述控制器基于所述元数据信息分析丢包的交换机,进行故障定位。
78.交换机cpu内包括流程追踪模块flow track,用于确定路径。网络中存在多层ecmp,两台设备之间存在多条转发路径,需要对这些转发路径分析,通过交换机cpu内的flow track模块确定一个数据流真实的转发路径,即获取到探测报文的元数据信息。
79.上述虽然结合附图对本发明的具体实施方式进行了描述,但并非对本发明保护范围的限制,所属领域技术人员应该明白,在本发明的技术方案的基础上,本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本发明的保护范围以内。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献