一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

促进采用端点拥塞检测和控制的数据驱动智能网络的系统和方法与流程

2021-12-01 00:59:00 来源:中国专利 TAG:

促进采用端点拥塞检测和控制的数据驱动智能网络的系统和方法
1.发明人:a
·
m
·
巴塔耶纳、t
·
j
·
约翰逊、t
·
l
·
科特、d
·
c
·
休森、j
·
p
·
比克罗夫特和j
·
g
·
柯普尼克


背景技术:
技术领域
2.本公开总体上涉及联网技术领域。更具体地,本公开涉及用于促进采用端点拥塞检测和控制的可扩展的、数据驱动的智能网络的系统和方法。
3.相关技术
4.随着支持网络的设备和应用变得越来越普遍,各种类型的业务流量(traffic)以及不断增加的网络负载继续要求底层网络架构提供更高的性能。例如,诸如高性能计算(hpc)、流媒体和物联网(iot)等应用可以生成具有鲜明特征的不同类型的业务流量。因此,除了诸如带宽和延迟等传统网络性能指标之外,网络架构师还继续面临可扩展性、多功能性和效率等挑战。


技术实现要素:

5.提供了一种采用端点拥塞检测和控制的数据驱动智能网络系统。所述系统可以通过快速、有效的拥塞控制来适应动态业务流量。所述系统可以维护各个包流的状态信息,这些信息可以基于已注入数据而动态建立或释放。在到达交换机时,可以为每个流提供特定于流的输入队列。相应流的包在到达网络的出口点后被确认,并且确认包沿相同的数据路径发送回流的入口点。因此,每个交换机都可以获得每个流的状态信息,并以逐流的方式执行端点拥塞检测和控制。
附图说明
6.图1示出了促进流通道的示例性网络。
7.图2a示出了促进流通道的示例性交换机。
8.图2b示出了数据路径上的交换机可以如何维护流状态信息的示例。
9.图3a示出了数据包的示例性结构报头。
10.图3b示出了示例性确认(ack)包格式。
11.图3c示出了用于得到和维护流的状态信息的不同变量之间的关系。
12.图4a示出了可以如何使用流通道表来传送流的示例。
13.图4b示出了边缘流通道表(efct)的示例。
14.图4c示出了输入流通道表(ifct)的示例。
15.图4d示出了输出流通道表(ofct)的示例。
16.图5示出了在网络中可能发生链路带宽的不公平份额的示例。
17.图6示出了端点拥塞的示例。
18.图7a示出了生成显式端点拥塞通知ack的示例性过程的流程图。
19.图7b示出了示例性端点拥塞管理逻辑块。
20.图8示出了响应于包从输出缓冲区出队而生成ack的示例性过程的流程图。
21.图9a示出了示例性细粒度流控制(fgfc)过程的流程图。
22.图9b示出了支持fgfc的网络接口控制器的示例。
23.图10示出了结构链路拥塞的示例。
24.图11示出了在拥塞结构链路上应用基于信用的流控制的示例过程的流程图。
25.图12示出了促进流通道的示例性边缘交换系统。
26.图13示出了促进流通道的示例性中间交换系统。
27.在这些附图中,相同的附图标记指代相同的附图元素。
具体实施方式
28.对所公开实施例的各种修改对于本领域技术人员来说将是显而易见的,并且在不脱离本公开的精神和范围的情况下,本文定义的一般原理可以应用于其他实施例和应用。因此,本发明不限于所示的实施例。
29.概述
30.本公开描述了通过维护各个包流的状态信息以快速、有效的端点拥塞检测和控制来适应动态数据业务流量的系统和方法。更具体地,注入交换机网络的包可以分类为流,这些流可以映射到其第2层、第3层或其他特定于协议的报头信息。每个流可以由交换机输入端口本地的独特标识符进行标记,并被提供特定于流的输入缓冲区,使得可以独立地对每个流进行流控制。另外,相应流的包可以在到达网络的出口点后被确认,并且确认包可以沿相同的数据路径反向发送回流的入口点。因此,每个交换机都可以获得它正在转发的活动包流的状态信息,并且可以执行高度响应性、特定于流的流控制。这种流控制可以让网络以更高的容量运行,同时提供多功能的业务流量工程能力。
31.在本公开中,包流(packet stream)也可以称为“包流(packet flow)”或简称为“流(flow)”。流所经过的数据路径及其由交换机维护的配置信息可以称为“流通道(flow channel)”。此外,术语“缓冲区”和“队列”在本公开中可互换使用。
32.图1示出了促进流通道的示例性网络。在该示例中,交换机的网络100(也可以称为“交换机结构”)可以包括交换机102、104、106、108和110。每个交换机可以在交换机结构100内具有唯一的地址或id。各种类型的设备和网络可以耦接到交换机结构。例如,存储阵列112可以经由交换机110耦接到交换机结构100;基于无限带宽(ib)的hpc网络114可以经由交换机108耦接到交换机结构100;多个终端主机(如主机116)可以经由交换机104耦接到交换机结构100;并且ip/以太网网络118可以经由交换机102耦接到交换机结构100。通常,交换机可以具有边缘端口和结构端口。边缘端口可以耦接到在结构外部的设备。结构端口可以经由结构链路耦接到结构内的另一个交换机。
33.通常,业务流量可以经由边缘交换机的入口端口注入交换机结构100,并且经由另一个(或相同)边缘交换机的出口端口离开交换机结构100。入口边缘交换机可以将已注入数据包分组为流,这些流可以通过流id进行标识。流的概念不限于特定的协议或层(如开放
系统接口(osi)参考模型中的第2层或第3层)。例如,流可以映射到具有特定源以太网地址的业务流量、源ip地址与目的地ip地址之间的业务流量、对应于tcp或udp端口/ip 5元组(源和目的地ip地址、源和目的地tcp或udp端口号、以及ip协议号)的业务流量、或由在终端主机上运行的进程或线程产生的业务流量。换句话说,流可以被配置为映射到任何物理或逻辑实体之间的数据。该映射的配置可以远程完成或在入口边缘交换机上本地完成。
34.在接收到已注入数据包之后,入口边缘交换机可以为该流指派流id。该流id可以被包括在特殊的报头中,入口边缘交换机可以使用该报头来封装已注入包。此外,入口边缘交换机还可以检查已注入包的原始报头字段以确定适当的出口边缘交换机地址,并将该地址作为目的地地址包括在封装报头中。应注意,流id可以是特定于链路的本地有效值,并且该值可以仅对于交换机上的特定输入端口是唯一的。当包转发到下一跳交换机时,包进入另一条链路,并且流id可以相应地更新。由于流的包要经过多条链路和交换机,因此与该流相对应的流id可以形成唯一的链。即,在每个交换机上,在包离开交换机之前,包的流id可以更新为传出链路所使用的流id。流id之间的这种从上游到下游的一对一映射可以在入口边缘交换机处开始并在出口边缘交换机处结束。因为流id只需要在传入链路内是唯一的,所以交换机可以容纳大量的流。例如,如果流id为11位长,则一个输入端口最多可以支持2048个流。此外,用于映射到流的匹配模式(包的一个或多个报头字段)可以包括更多个位。例如,32位长的匹配模式(其可以包括包报头中的多个字段)可以映射2^32个不同的报头字段模式。如果结构有n个入口边缘端口,总共可以支持n*2^32个可识别流。
35.交换机可以为每个流指派单独的专用输入队列。该配置允许交换机监测和管理各个流的拥塞程度,并防止在将共享缓冲区用于多个流时可能发生的队头阻塞。当包被传送到目的地出口交换机时,出口交换机可以生成确认(ack),并在上行方向沿着相同的数据路径将该确认发送回入口边缘交换机。由于该ack包经过相同的数据路径,因此该路径上的交换机可以通过监测未完成的、未确认的数据量来获得与对应流的传送相关联的状态信息。然后可以使用该状态信息来执行特定于流的业务流量管理,以确保整个网络的健康和对流的公平处理。如下文更详细解释的,这种逐流排队与特定于流的传送确认相结合可以使交换机结构实施有效、快速和准确的拥塞控制。进而,交换机结构可以以显著提高的网络利用率来传送业务流量,而不会出现拥塞。
36.可以基于需求动态或“即时(on the fly)”地建立和释放流。具体地,当数据包到达交换机并且先前没有向该包指派流id时,可以由入口边缘交换机建立流(例如,确立流id到包报头的映射)。当该包穿过网络时,可以沿着包所经过的每个交换机指派流id,并且可以确立从入口到出口的流id链。属于同一流的后续包可以沿数据路径使用相同的流id。当包被传送到目的地出口交换机并且数据路径上的交换机接收到ack包时,每个交换机可以更新其关于该流的未完成的、未确认的数据量的状态信息。对于该流,当交换机的输入队列为空并且没有更多未确认的数据时,交换机可以释放流id(即,释放该流通道)并将流id重新用于其他流。这种数据驱动的动态流建立和拆除机制可以消除集中流管理的需要,并允许网络快速响应业务流量模式变化。
37.应注意,本文描述的网络架构与通常使用openflow协议的软件定义网络(sdn)不同。在sdn中,由中央网络控制器来配置交换机,并且基于第2层(数据链路层,如以太网)、第3层(网络层,如ip)或第4层(传输层,如tcp或udp)报头中的一个或多个字段来转发包。在
sdn中,这种报头字段查找在网络中的每个交换机处执行,并且不存在如在本文所述的网络中所做的基于流id的快速转发。此外,由于openflow报头字段查找是使用三元内容可寻址存储器(tcam)完成的,因此这种查找的成本可能很高。而且,由于报头字段映射配置是由中央控制器完成的,每个映射关系的建立和拆除相对较慢,可能需要大量的控制业务流量。因此,sdn网络对各种网络情况(如拥塞)的响应可能很慢。相比之下,在本文描述的网络中,可以基于业务流量需求来动态地建立和拆除流,并且可以通过固定长度的流id来转发包。换句话说,流通道可以是数据驱动的,并以分布式方式进行管理(即,建立、监测和拆除),而无需中央控制器的干预。此外,基于流id的转发可以减少所使用的tcam空间量,并且因此可以容纳更多个流。
38.参考图1所示的示例,假设存储阵列112要使用tcp/ip向主机116发送数据。在操作期间,存储阵列112可以发送第一个包,所述第一个包具有主机116的ip地址作为目的地地址以及在tcp报头中指定的预定tcp端口。当该包到达交换机110时,交换机110的输入端口处的包处理器可以识别该包的tcp/ip 5元组。交换机110的包处理器还可以确定该5元组当前未映射到任何流id,并且可以向该5元组分配新的流id。此外,交换机110可以基于目的地(即,主机116的)ip地址来确定该包的出口交换机,即,交换机104(假设交换机110知道主机116耦接到交换机104)。随后,交换机110可以用指示新指派的流id和交换机104的结构地址的结构报头来封装所接收的包。交换机110然后可以基于结构转发表来调度要向交换机104转发的封装包,所述结构转发表可以由结构100中的所有交换机使用诸如链路状态或距离向量等路由算法来计算。
39.应注意,当接收到第一个包时,上述操作可以基本上以线路速度执行,几乎没有缓冲和延迟。在第一个包被处理并被调度进行传输之后,来自相同流的后续包可以被交换机110更快地处理,因为使用了相同的流id。另外,流通道的设计可以使得流通道的分配、匹配和解除分配可以具有基本相同的成本。例如,可以在几乎每个时钟周期中同时执行流通道的基于查找匹配的条件分配和另一个流通道的单独、独立的解除分配。这意味着生成和控制流通道几乎不会为包的常规转发增加附加开销。另一方面,拥塞控制机制可以将一些应用的性能提高三个数量级以上。
40.在数据路径上的每个交换机(包括交换机110、106和104)处,可以为该流提供专用输入缓冲区,并且可以跟踪已传输但未确认的数据量。当第一个包到达交换机104时,交换机104可以确定该包的结构报头中的目的地结构地址与其自己的地址相匹配。作为响应,交换机104可以根据结构报头对包进行解封装,并将解封装的包转发到主机116。此外,交换机104可以生成ack包并将该ack包发送回交换机110。当该ack包经过相同的数据路径时,交换机106和110可以各自针对该流的未确认的数据更新其自己的状态信息。
41.通常,网络内的拥塞会导致网络缓冲区被填充。当网络缓冲区已满时,理想情况下,试图通过缓冲区的业务流量应当减慢或停止。否则,缓冲区可能会溢出,并且包可能会被丢弃。在传统网络中,通常在边缘处端对端地进行拥塞控制。网络的核被认为仅用作“笨水管(dumb pipes)”,其主要目的是转发业务流量。这样的网络设计通常对拥塞的响应缓慢,因为通常无法快速将拥塞信息发送到边缘设备,并且所产生的边缘设备所采取的动作并不总是能够有效地消除拥塞。这种缓慢的响应进而限制了网络的利用率,因为为了保持网络畅通无阻,网络运营商通常需要限制注入网络中的业务流量总量。此外,端对端拥塞控
制通常只有在网络尚未拥塞的情况下才有效。一旦网络严重拥塞,端对端拥塞控制将不起作用,因为拥塞通知消息本身可能拥塞(除非使用与数据面网络不同的单独控制面网络来发送拥塞控制消息)。
42.相比之下,流通道可以防止这种拥塞在交换机结构内增长。当流正在经历一定程度的拥塞时,流通道机制可以识别这种情况,并且作为响应,可以减慢或停止同一流的新包进入结构。进而,这些新包可以缓冲在边缘端口上的流通道队列中,并且仅当同一流的包在目的地边缘端口处离开结构时才被允许进入结构。该过程可以将结构内该流的总缓冲要求限制为不会导致结构缓冲区变得太满的量。
43.通过流通道,交换机能够获得关于结构内未完成的在途中的数据量的相当准确的状态信息。可以针对入口边缘端口上的所有流汇总该状态信息。这意味着可以知道通过入口边缘端口注入的数据总量。因此,流通道机制可以对结构中的数据总量设置限制。当所有边缘端口都应用该限制动作时,可以很好地控制整个结构中的包数据总量,这进而可以防止整个结构饱和。流通道还可以减慢结构内的单个拥塞流的进度,而不会减慢其他流。该特征可以使包远离拥塞热点,同时防止缓冲区变满并确保为无关业务流量提供空闲缓冲区空间。
44.流通道的操作
45.通常,流通道可以为跨交换机结构的每个通信会话定义一条路径。属于每个流的路径和数据量可以在与交换机结构的每条链路相关联的一组动态连接流表中描述。在每个入口端口、边缘和结构上,可以定义一组流通道队列。每个流通道可以有一个队列。当包到达时,它们可以被指派到边缘端口上的流通道,或者已经被链路伙伴(link partner)的出口结构端口在结构入口端口上指派到流通道。流通道信息可以用于将包引导到适当的流通道队列中。
46.图2a示出了促进流通道的示例性交换机。在该示例中,交换机可以包括交叉开关(crossbar)交换机202。交叉开关交换机202可以具有多个输入端口(如输入端口204)以及多个输出端口(如输出208)。交叉开关交换机202可以将包从输入端口转发到输出端口。每个输入端口都可以与多个输入队列相关联,每个队列被指派给到达该输入端口的不同传入流。例如,到达交换机给定端口的数据可以首先基于它们的各个流进行分离,并存储在特定于流的输入队列(如输入队列206)中。存储在输入队列中的包可以基于被设计用于控制拥塞的调度算法(在后面的章节中更详细地描述)出队并发送到交叉开关交换机202。在输出侧,一旦包通过交叉开关交换机202,它就可以被临时存储在输出传输队列(如输出传输队列210)中,该输出传输队列可以被离开同一输出端口的所有流所共享。同时,在包从输出传输队列出队并在传出链路上传输之前,可以使用传出链路的流id来更新包的报头。应注意,当流中的第一个包穿过网络时,可以完成这种逐跳的流id映射。当包到达下一跳交换机时,包可以再次存储在特定于流的输入队列中,并且可以重复相同的过程。应注意,流id用于区分在同一结构链路上传播的流,并且通常可以由该链路的发射器端指派,该发射器端是正在传输到该链路上的交换机输出端口。
47.通过提供特定于流的输入队列,交换机可以允许每个流独立于所有其他流移动。交换机可以避免在共享输入缓冲区中很常见的队头阻塞问题。特定于流的输入队列还允许单个流中的包保持有序。当流通过交换机时,可以针对该流在每个输入端口上分配特定于
流的输入队列,并且这些输入队列变得链接起来,从而针对该流有效地形成跨整个结构的一个长队列,并且该流的包可以保持有序。
48.属于流的包的成功传送的进度可以通过出口交换机的边缘端口生成的一系列ack来报告。ack数据包可以沿着数据包所经过的数据路径反向传播,并且可以由交换机根据在流表中维护的转发信息进行转发。当ack包向上游传播时,这些包可以被每个交换机的输入队列管理器处理,该交换机可以基于ack包所携带的信息来更新对应流的状态信息。ack包可以具有类型字段来提供有关下游数据路径的高级信息,如拥塞。交换机的输入队列管理器可以使用该信息来做出有关当前缓冲在其输入队列中的未决数据包的决策,如限制传输速率或更改转发路径。另外,输入队列管理器可以基于已缓冲流的状态信息来更新ack包中携带的信息,使得上游交换机可以做出恰当的决策。例如,如果给定流的输入队列遇到拥塞(例如,队列中的数据量高于预定阈值),则输入队列管理器可以将被转发到下一个上游交换机的ack包更新为包括该拥塞信息。
49.如果ack对应于流的最后一个包,则交换机可以确定该流不存在任何未确认的数据。相应地,交换机可以通过删除流表中对应的条目来释放流通道。
50.如上所述,每个交换机上的输入队列管理器可以维护有关给定流的已传输但未确认的数据的信息。图2b示出了数据路径上的交换机可以如何维护流状态信息的示例。在该示例中,流所采用的数据路径可以包括交换机222、224和226。已传输但未确认的流数据的量可以由变量“flow_extent”指示,该变量可以用固定长度的数据单元的数量来衡量,如256字节。此外,flow_extent和其他流状态信息可以由交换机的输入队列管理器维护,该输入队列管理器可以持续监测所有特定于流的队列。
51.在图2b的示例中,交换机的输入队列管理器处的flow_extent的值为1,因为有一个数据单元已经从输入队列发送出去并通过交叉开关交换机转发。应注意,由于对要经由输出链路传输的所有数据包进行调度,由输入队列发送的数据包可能会临时缓冲在输出传输缓冲区中。当这样的包缓冲在输出端口的传输缓冲区中时,为了更新flow_extent值,输入队列仍可以将包视为已传输。
52.相应地,由于交换机226处给定流的输入队列具有六个排队的数据单元,并且两个附加数据单元正在交换机224与226之间的途中,因此交换机224处的flow_extent值为9。类似地,交换机222处的flow_extent值为13,因为有三个数据单元存储在交换机224处的输入队列中,并且一个数据单元在交换机222与224之间的途中。
53.通常,流通道可以保持分配给单个流,直到返回了流通道上发送的所有包的所有ack为止。这意味着流通道表条目可以在结构入口边缘端口附近比在出口边缘端口附近保持更长的活动时间。如果单个包被注入网络,可以为入口边缘端口分配流通道,然后可以为包所经过的下一个结构链路分配另一个流通道,依此类推,直到包到达最后一个结构链路时分配了最后一个流通道为止。每个分配可以生成表示为变量“flow_id”的流id,以标识结构链路的流表的条目。(在下面结合图4a的描述中提供了关于流通道表的更多细节。)该第一个包可能会导致在该包经过交换机结构的每个结构链路上分配不同的flow_id。
54.在每个交换机的输入队列处,流通道表条目可以指示每个流从该点向下游到流的出口目的地边缘端口的状态信息,包括flow_extent值。在本地输入端口上接收到的包可以将该flow_extent值增大传入数据量,而ack可以将flow_extent减小已确认的已传送数据
量。
55.当包到达最终目的地出口端口时,可以为该包生成ack包并将其返回。可以使用在数据路径上的每个交换机的流通道表的对应条目中存储的数据路径信息来路由该ack。可选地,ack包本身不需要携带路径信息,并且因此可以小而轻。如果流上未发送其他数据包,则ack可以以相反的顺序释放每个流通道。一旦释放,就可以将每个交换机上的流通道分配给不同的流。
56.如果另一个包在同一流上的第一个包之后,则需要在给定交换机释放流通道之前接收到对应于第二个包的ack。在一个实施例中,只有当同一流的所有已传输包的ack都已返回时,才能释放流通道。
57.通常,各种协议可能要求有序包传送。即使当结构使用自适应路由来实现多个数据路径上的负载均衡时,也可以使用流通道来保证这种传送顺序。如果入口边缘端口与出口边缘端口之间的包(可能位于结构远端的不同交换机中)以非常低的速率注入,则所注入的每个包都可以到达其目的地并在注入下一个包之前将ack返回到源。在这种情况下,每个包都可以是前导包,并且可以使用最佳的可用动态自适应路由选择来自由选择跨结构的任何路径。这是可能的,因为第一个包可以定义流通过结构的路径。
58.现在假设包注入速率稍微增加到相同流的下一个包在当前包的ack返回到源之前被注入的程度。第二个包可以在沿流的数据路径上的某个地方与第一个包的ack相会。在此相会点之后,ack将释放分配给第一个包的流通道,因为当ack被流通道的逻辑处理时,与第一个包相关联的flow_extent值将返回零。同时,第二个包现在可以定义新的流,因为它再次导致在每个后续结构链路上分配流通道。这第二个包虽然在此相会点之后导致流通道被分配,但仍可以基于动态自适应路由被转发到不同的路径。另一方面,在相会点之前,第二个包可以扩展由第一个包创建的未完成流以包括第二个包。这意味着第一个包的ack可能不会将flow_extent值减至零,并且在相会点之前流通道可以保持活动状态。这也意味着第二个包可以沿着第一个包所采用的确切路径到达相会点。应注意,当它跟随前一个包时,第二个包无法在第一个包之前到达出口边缘端口,因此可以保持正确的包顺序。
59.如果该流的注入速率进一步增加,第二个包将在更靠近目的地边缘端口的位置处与第一个包的ack相会。取决于该流的数据包注入速率和数据包

ack的往返延迟,也有可能第三个、第四个、第五个或附加包在第一个数据包的ack返回到源边缘端口之前进入结构。最大包速率取决于包的大小和链路的带宽。数据包和ack的往返延迟可以是结构实施方式的重要参数,并且可以与最大包速率一起用于计算每条链路所需的最大流通道数。理想情况下,无论业务流量模式如何,设计都可以提供合理数量的未分配流通道。当到达入口边缘端口的大量包具有不同的目的地并且这些包具有较小大小和高注入速率时,对流通道数量的需求可能很高。在最极端的情况下,可以为每个包分配不同的流通道。当包的ack返回时,这些流通道被释放。相应地,所需的流通道数可以计算为((包速率)*(平均包到ack往返时延))。
60.应注意,不要将单个流通道上的包速率与链路上的包速率混淆。如果业务流量模式使得许多小包被发送到不同的目的地,则发送到链路上的连续包可能有不同的目的地。这意味着每个包可能属于不同的流,并且可能是唯一使用对应流通道的包。在该示例中,链路可能会经历高包速率,但各个流的包速率可能较低。可选地,可以将多个ack(例如,48个
ack)聚合在一起形成单个ack帧,以用于在链路上传输并且由帧校验序列(例如,32位fcs)保护。例如,每个ack可以占用25位,并且帧可以有9字节的开销。即,全尺寸帧上每ack的开销约为9/(25/8*48)*100%=6%。该逻辑可以优化每帧的ack数量,因此当ack缓慢到达时,ack不需要等待太长时间便可聚合。例如,ack聚合逻辑块可以使用三个定时器基于传出链路的活动来管理ack传输。当新的ack到达ack聚合逻辑块时,可以启动这些定时器。如果传出链路空闲,则可以使用第一定时器(例如,其可以设置为30ns)来保持ack,同时等待附加的ack到达。当该定时器到期时,可以将在对应的时间窗口内接收到的所有ack聚合成一帧并传输到传出链路上。如果传出链路繁忙,则可以使用第二定时器(例如,其可以设置为60ns)来等待附加的ack。使用该第二定时器可以允许将更多的ack聚合到单个帧中,并且该帧仅在收集到预定数量的ack时才可以被传输。应注意,由于以太网成帧约束,单个帧中的一些数量的ack可以使用比其他数量的ack更少的每ack线路带宽。如果没有收集到有效数量的ack,并且传出链路仍然忙于发送正常数据包,则可以使用第三定时器,其例如可以设置为90ns。一旦第三定时器到期,就可以将所有收集到的ack聚合在一个帧中并传输到链路上。通过使用这三个定时器,系统可以显著减少在传出链路上发送ack的开销。
61.在一些示例中,交换机的入口边缘端口可以使用结构报头来封装接收到的数据包,这允许使用流通道转发数据包。图3a示出了数据包的示例性结构报头。结构报头可以包括flow_id字段(其可以标识流通道)以及“data_flow”字段(其可以指示整个流的进度)。
62.当数据包被传送到其目的地时,可以生成至少一个ack。图3b示出了示例性ack包格式。ack包可以包括“flow_id”字段、“ack_flow”字段、“ack类型”字段以及循环冗余校验(crc)字段。flow_id字段可以指示该ack包所属的流。ack_flow字段可以指示该ack包所确认的数据包。回想一下,每个交换机都可以维护flow_extent值,该值指示已传输但未确认的数据量。flow_extent的值可以被得到为flow_extent=data_flow

ack_flow,其中,data_flow值取自最后一个传输的数据包。
63.ack类型字段可以指示不同类型的ack。如上所述,在正常操作期间,当数据包被传送到目的地边缘端口时,可以生成常规ack包并将其发送回源。相应地,ack包中的ack类型字段可以指示正常的ack。当结构中发生拥塞时,ack类型字段可以用于指示拥塞的各种类型和严重程度,如新拥塞、持续拥塞、出口边缘端口上需要重新路由流的严重拥塞。另外,在存在诸如严重拥塞的结构链路、丢包或链路错误等特殊情况下,ack也可以由不是最终目的地的中间交换机生成,并且ack类型字段可以用于向上游交换机通知不同类型的网络状况。其他附加字段也可以包括在ack包中。
64.图3c示出了用于得到和维护流的状态信息的不同变量之间的关系。在该示例中,交换机可以使用变量“total_extent”来跟踪未确认的已传输数据和当前在交换机排队的数据的总量。total_extent的值可以等于flow_extent(已传输但未确认的数据量)和queue_extent(存储在对应流的输入队列中的数据量)之和。变量“ack_flow”可以指示与该流的最迟ack相对应的数据位置。变量“data_flow”可以指示下一个要传输的数据包的位置,该下一个要传输的数据包也对应于存储在输入队列头部的数据包。变量“next_data_flow”可以指示交换机可以预期从上游交换机接收的下一个数据包的位置。应注意,queue_extent=next_data_flow

data_flow,并且flow_extent=data_flow

ack_flow。
65.在一些示例中,流通道表可以用于促进整个结构的流通道。流通道表是存储交换
机端口上给定流的转发和状态信息的数据结构。图4a示出了可以如何使用流通道表来存储与多个流相关联的状态信息的示例。该状态信息可以特定于每个流并高效地存储在表中。假设源主机402正在经由结构向目的地主机404发送数据包。数据包所经过的数据路径可以包括入口边缘交换机406、中间交换机408和430、以及出口边缘交换机432。
66.当包到达交换机406的入口边缘链路403时,地址转换逻辑块410可以分析包的报头。地址转换逻辑块410可以基于包的以太网、ip或hpc报头信息来确定出口交换机(在这种情况下是交换机432)的目的地结构地址。应注意,地址转换逻辑块410也可以使用与其他协议或不同协议的组合相关联的报头信息。然后可以使用由地址转换逻辑块410确定的结构目的地地址来在边缘流通道表(efct)412中执行查找。efct 412可以使用包的结构目的地地址以及可选地从包的报头中提取的附加值(其可以称为匹配模式)来执行对包的查找操作。efct 412可以将包的匹配模式与所有现有分配的流的存储匹配模式进行比较。如果找到匹配,则该包是现有流的一部分,并且可以为该包返回先前分配的流id。如果未找到匹配,则可以为该包分配新的流id,并且可以将匹配模式添加到efct 412。换句话说,efct 412可以用于确定对于传入包是否已经存在流通道,或者是否需要分配新的流通道。除了目的地结构地址之外,其他包报头信息(如业务流量分类、tcp或udp端口号、以及进程或线程id)也可以用于映射或分配流id。
67.由efct 412获得的流id然后可以用作索引以映射到输入流通道表(ifct)414中的条目。ifct 414中的每个条目可以由流id索引并存储对应流的状态信息。ifct 414中的条目可以存储与流相关联的next_data_flow、data_flow和ack_flow(参见图3c)的值。另外,ifct条目可以存储用于流的拥塞控制和动态路由的其他参数。
68.流id还可以用于标识或分配特定于流的输入队列,在该输入队列中可以临时存储传入包。特定队列的状态信息以及用于监测和控制队列的参数(如用于检测拥塞的阈值)可以存储在ifct 414中的对应条目中。输入队列管理逻辑块可以基于存储在ifct 414的条目中的流控制参数来确定包何时可以从输入队列中出队并发送到数据交叉开关交换机413。
69.当包从输入队列中出队并通过交叉开关交换机413发送到输出端口时,该包将与其到达交换机406时的输入端口号一起发送。当包到达输出端口的传输缓冲区时,可以基于包的流id和输入端口号使用新的流id来更新包的报头,以供下一跳交换机(即,交换机408)用于同一流。这是因为每条链路在每个方向上都可以具有其自己的由它们各自的流id标识的一组流通道。可以通过查找输出流通道表(ofct)416来完成从传入流id到在下一条链路上使用的传出流id的映射。ofct 416可以使用匹配模式执行查找,该匹配模式是与链路403相对应的本地输入端口号和由efct 412产生的包的流id的组合。如果找到匹配,则流已经被定义,并且使用对应于匹配模式的值来更新包的流id(这个新的传出流id将由下游的下一跳交换机408使用)。如果未找到匹配,则可以为新的流通道分配新的传出流id,该新的传出流id可以映射到输入端口号和先前的传入流id。包括传出流id、输入端口号和传入流id的条目可以存储在ofct 416中。
70.在包是流中的第一个包的情况下,在ofct 416中的查找不会产生任何映射。进而,ofct 416可以为包分配流通道,该流通道具有将由交换机408上的输入端口和ifct 418使用的流id。由其流id标识的这个新的流通道可以被添加到包报头以传输到链路417上,并且可以被链路伙伴(交换机408)的ifct 418用来访问流通道的拥塞信息。如前所述,如果未找
到匹配,则ofct 424可以进一步使用其紧接上游输入端口号和与链路417相关联的流id的匹配模式来生成新的流通道。ofct 424然后可以分配由新的流id标识的新的流通道。应注意,ofct 416还可以用作该流在上行方向上的ack的转发表。在从交换机408向上游转发到交换机406之后,可以用与边缘链路403相关联的流id来更新ack包,并如ofct 416中的对应条目所指示的那样将其转发到交换机406上的适当输入端口。ack包可以由ack交叉开关交换机415在上行方向上转发到输入端口。
71.随后,当包到达交换机408时,其流id可以用于识别要使用的输入队列并确定ifct 418中的条目。如果交换机408先前未分配包的流id,则可以提供新的输入队列并且可以在ifct 418中创建新的条目。从此时开始,可以执行类似的过程来跨交换机408和430转发包,直到包到达出口交换机432。
72.当包到达交换机432时,在包被数据交叉开关交换机423转发之后,ack生成器逻辑块420可以基于包的流id和输入端口号生成ack包。该ack包然后可以由ack交叉开关交换机422在上行方向上转发。同时,基于ack包,ifct 421可以在对应表条目中更新流的状态信息。当ack包到达交换机430时,可以查找ofct 419以确定ack包要转发到的上游流id和上游输入端口。然后,ack包可以更新其流id,并在上行方向上转发到适当的输入端口。由于ack包以类似的方式向上游经过数据路径,因此每个交换机的ifct可以基于ack来更新其针对流的表条目。
73.应注意,flow_extent变量可能是重要的参数,因为它表示流的下行包的数据总量。当条目的flow_extent为零时,认为能够将流通道自由地重新分配给另一个流。通常,在接收到新包时,输入逻辑可以请求将数据发送到输出端口。所选输出端口可以是存储在ifct中的flow_extent的函数。如果flow_extent为零,则在流向目的地出口边缘端口的流的下游没有包。因此,交换机可以使用基于负载的自适应路由选择来选择通向目的地的任何有效路径。在多路径网络中,可以在不重新排序包的情况下完成动态自适应路由。如果flow_extent不为零,并且需要有序传送,则包可以使用先前包所采用的相同路由。ifct可以具有存储先前输出端口号的字段,在向输出端口发出包请求时,该字段被加载并且可以用于确保与先前使用的输出端口的连接。
74.如前所述,流通道可以使用匹配功能来识别属于现有流的包。当在入口边缘端口上接收到以太网帧或其他类型的包时,可以实时解析接收到的帧或包,并且包报头的一些字段可以用于在cam或三元内容可寻址存储器(tcam)中进行查找。如果存在匹配,则匹配地址可以成为用于选择流通道的流id。当未发生匹配时,交换机硬件可以将匹配失败的模式直接加载到cam的空闲线上,这可以在没有附加延迟的情况下完成。因此,任何随后包都可以与该新条目匹配,而无需大量缓冲。所选择的空闲条目成为新的流通道条目的新的流id。应注意,加载新条目不需要外部软件干预。该过程可以由交换机硬件自主完成。
75.当返回流的最后一个ack时,也可以由硬件自动执行流id和对应的cam匹配线的解除分配。解除分配可以在硬件中针对潜在匹配的新包进行,而无需外部软件干预。
76.在一些示例中,入口边缘交换机406可以包括细粒度流控制逻辑块434,该细粒度流控制逻辑块可以与主机402上的网络接口控制器(nic)401通信以便以逐流的方式应用流控制。下面结合拥塞管理的描述提供了关于细粒度流控制的更多细节。
77.图4b示出了efct的示例。在该示例中,efct可以包括data_flow字段454、ack_flow
字段456、以及可选的附加字段。efct可以与输入端口相关联,并且efct中的条目可以由flow_id值索引,如flow_id 452。在一个实施例中,匹配模式字段可以驻留在匹配功能逻辑块中,该匹配功能逻辑块可以包括cam或tcam。匹配功能逻辑块可以使用匹配模式来生成flow_id值,该值进而可以用作对应efct条目的索引。从该efct的角度来看,flow_extent(即data_flow

ack_flow)可以包括该表下游的所有未确认的数据,其中可以包括本地flow_queue加上对应ifct的flow_extent值。
78.图4c示出了ifct的示例。在该示例中,ifct可以与输入端口相关联,并且可以包括follow_port字段466、next_data_flow字段468、data_flow字段470、ack_flow字段472、ep_congestion字段474、上游计量(um)标志字段477、下游计量(dm)标志字段478、以及可选的附加字段。传入包的flow_id值(如flow_id 464)可以用作用于查找由follow_port字段466指示的输出端口号以及与对应流相关联的状态信息的索引。ifct中还可以存储与端点拥塞相关联的拥塞控制信息(如ep_congestion字段474)和将稍后在本文档中更详细地描述的基于逐跳信用的流控制(如um标志字段477和dm标志字段478)。ifct可以进一步存储有关与不同流相关联的动态路由的信息。
79.图4d示出了ofct的示例。在该示例中,ofct可以与输出端口相关联,并且可以包括input_port字段482、input_port_flow_id字段484(其对应于包到达输入端口时的现有flow_id)、data_flow字段486、ack_flow字段488、以及可选的附加字段。data_flow字段486和ack_flow字段488可以用于确定从该ofct开始的flow_extent的值。input_port字段482和input_port_flow_id字段484(其也可以称为“传入flow_id”)的组合可以用于确定或分配准备好传输到与该ofct相对应的传出链路上的包的传出flow_id。在一个实施例中,传出flow_id值(如flow_id 486)可以用作在ofct中查找条目的索引。
80.拥塞管理
81.如上所述,给定交换机上的每个流都可以有其自己专用的包队列。这种配置便于对每个流进行单独的流控制。因此,网络可以保持大部分无损,并且可以阻塞使用链路的一个流,而不会阻塞使用同一链路的任何其他流。与传统的包交换网络不同,网络某一部分的拥塞只能影响造成拥塞的流。例如,在传统网络中,拥塞链路之前的缓冲区会很快被导致拥塞的包填满。这进而可能强制交换机发出暂停命令或使用某种其他流控制方法来阻止相邻交换机向拥塞链路发送包。因此,可能停止或减慢导致拥塞的包,并且也可能停止或减慢可能不前往拥塞链路的所有其他包。因此,从拓扑角度来看,拥塞可能会横向扩散并增加饱和树的大小。
82.相比之下,流通道可以在导致拥塞的链路上减少与造成拥塞的流相对应的负载。这种负载减少可以允许共享这些链路的其他流使用更多的链路带宽并更快地传送其有效载荷,而只有造成拥塞链路的包被减慢。
83.通常,只要网络负载未达到或接近满容量,传统网络就可以正常运行。大多数情况下,中小型网络都是这种情况。然而,对于运行多个高带宽应用的大型或超大型网络,在任何时间点网络的一部分都可能因业务流量负载而饱和。在这些情况下,即使各个交换机在本地实施公平策略,也可能发生不公平的包传送。
84.图5示出了在网络中可能发生链路带宽的不公平份额的示例。在该示例中,源a到k中的每一个都试图将包流发送到目的地l,从而形成多个源向单个目的地发送包的incast
场景。源节点a、b和c耦接到交换机502;源节点d、e和f耦接到交换机504;源节点g、h和i耦接到交换机506;并且源节点以及j和k、以及目的地节点l耦接到交换机508。假设每个交换机都采用公平的仲裁策略,即,从其每个输入端口到任何特定输出端口选择均等数量的包。然而,如图5所示,与其业务流量需要通过更多交换级的源相比,更靠近目的地的源可以获得更高比例的最终链路带宽。交换机508具有来自节点j、k和交换机506的三个传入数据源,并且可以在每个源之间均等地划分到节点l的传出链路上的带宽。因此,节点j、k可以各自占用33.3%的通往目的地节点l的传出链路上的带宽。
85.下一个最近的交换机(即,交换机506)可以同样如此,依此类推。在该示例中,只有四级交换机,每级只有三个或四个输入,并且只有总共11个输入试图发送到目的地节点l,三个输入源(节点a、b和c)在通往目的地节点l的传出链路上所占用的带宽仅占两个其他输入源(节点j和k)的1/48。因此,即使采用本地公平的仲裁策略,远离目的地的节点也会受到非常不公平的处理。更实际的网络拓扑可能涉及更多的交换级、更多个交换输入以及更多试图发送到单个目的地的源。中等大小的incast可能导致不同源的传送带宽之间存在六个数量级的差异。
86.上文描述的不公平问题往往是由以下事实造成的:由交换机实施的仲裁策略是基于输入端口的。即,带宽限制是以逐端口粒度进行的。相比之下,通过促进流通道和实施特定于流的限制,网络可以显著减少不同流之间的不公平程度。例如,在图5所示的场景中,当交换机实施逐流的公平带宽分配策略时,所有八个源节点可以基本上均等地共享交换机508与目的地节点l之间的边缘链路的带宽。通过提供更公平的基于流的仲裁策略,还可以大大减少单个包的极端拖尾时延。对于大型系统设施,控制网络中的最大时延通常是架构师主要关注的问题。通常,这只能通过将进入网络的输入带宽限制为峰值带宽的一小部分来实现。例如,对于大型数据中心而言,峰值带宽的20%的输入带宽限制可能是典型的。相比之下,通过流通道和适当的控制机制,现在可以构建不施加这种限制的网络。
87.除了公平性,网络架构师所面临的另一个挑战是拥塞。通常,网络中可能发生两种类型的拥塞。第一种类型是端点拥塞,其中耦接到目的地设备的出口边缘链路拥塞。第二种类型是结构链路拥塞,即,中间结构链路拥塞。
88.图6示出了端点拥塞的示例。在该示例中,两个源主机602和604正在向目的地主机606发送数据。来自源主机602和604的业务流量在边缘交换机610处会聚,并且交换机610与主机606之间的出口边缘链路608可能变得拥塞。这种拥塞场景通常会在incast中发生,其中多个源向单个目的地发送业务流量。当出口边缘链路达到其全数据速率容量时,或者当目的地主机606不能以足够快的速率处理所有传入包时,可能发生拥塞。在任何情况下,当端点拥塞发生时,耦接到链路608的交换机610上的输出传输缓冲区都可能经历其存储数据量的增加。
89.交换机可以通过监测出口边缘链路上的输出缓冲区来检测端点拥塞,并通过向上游交换机和源节点发送带有拥塞信息的ack来缓解端点拥塞。更具体地,耦接到出口边缘链路的输出缓冲区可以监测缓冲区的状态并在满足某些标准时检测到拥塞。当包到达或离开输出缓冲区时,输出缓冲区可以计算三个拥塞检测参数,如:(1)存储在缓冲区中的数据量,(2)存储在缓冲区中的包数量,以及(3)缓冲区深度(存储在缓冲区中的数据量)的变化率。可以为这三个监测参数分别设置三个阈值,但可以设置更多或更少的阈值。当这些参数中
的至少一个超过对应阈值时,就认为存在拥塞。
90.当检测到拥塞时,交换机可以生成并传输与刚刚进入输出缓冲区的包相对应的端点拥塞通知ack。ack可以包括指示拥塞严重程度的值。应注意,该端点拥塞通知ack并非旨在向上游交换机通知包的成功传送,而是通知它们出口边缘链路上拥塞的存在和程度。(事实上,当发送该端点拥塞通知ack时,包可能仍然存储在输出缓冲区中,等待被传输到出口边缘链路上。)这种快速、显式的拥塞通知机制允许交换机快速对造成拥塞的特定流采取行动。
91.另外,当包出队并传输到出口边缘链路时,输出缓冲区可以更新拥塞检测参数。如果不存在拥塞,则生成并发送常规ack,这可以清除由对对应流进行操作的上游交换机接收到的任何先前拥塞通知。如果存在拥塞,则ack可以标记有标志,该标志允许ack向交换机通知出口边缘链路上的持续拥塞以及包的成功传送。
92.图7a示出了生成显式端点拥塞通知ack的示例性过程的流程图。在操作期间,系统可以持续监测出口边缘链路的输出缓冲区。系统然后可以在输出缓冲区处接收包(操作702)。在接收到包之后,系统可以计算输出缓冲区的这三个拥塞参数(数据总量、包总数(例如,如由报头总数表示的)和缓冲区深度变化率)(操作704)。系统可以进一步确定这些参数中的任何参数是否超过对应的阈值(操作706)。如果至少一个参数超过阈值,则认为存在拥塞。因此,系统可以生成与包的流相对应的显式端点拥塞通知ack包并将其发送到上游交换机(操作708)。如果未检测到拥塞,则系统可以恢复正常运行。
93.图7b示出了示例性端点拥塞管理逻辑块。在该示例中,端点拥塞管理逻辑块730可以包括输出缓冲区监测器732、拥塞参数计算逻辑块734和端点拥塞通知ack生成逻辑块736。在操作期间,输出缓冲区监测器732可以监测与出口边缘链路相关联的输出缓冲区的状态。基于被监测的输出缓冲区的状态,拥塞参数计算逻辑块734可以计算这三个拥塞参数(参见图7a中流程图中的操作704)。当这些参数之一超过对应的阈值时,端点拥塞通知ack生成逻辑块736可以生成端点拥塞通知ack并将该ack发送到上游交换机。
94.图8示出了响应于包从输出缓冲区出队而生成ack的示例性过程的流程图。在该示例中,系统首先将包从输出缓冲区中出队(操作802)。然后系统可以计算输出缓冲区的这三个拥塞参数(数据总量、包总数和缓冲区深度变化率)(操作804)。系统可以确定这些参数中的任何参数是否超过对应的阈值(操作806)。如果至少一个参数超过阈值,则认为存在拥塞。因此,系统可以生成具有指示持续拥塞的标记标志的ack包(操作808)。如果未检测到拥塞,则系统可以生成常规的ack包(操作809)。系统随后可以将ack包发送到上游交换机(操作810),并且将出队的数据包传输到出口边缘链路上(操作812)。
95.一种可用于检测端点拥塞的机制可以使用端点拥塞ack(eca)值,所述值由以下参数的最大值确定:
96.‑
端点输出队列深度(以字节为单位)的函数。该函数有两个控制分量:设置生成值的最小深度的平衡值,以及剩余值的缩放分量。
97.‑
差分分量,如果输出队列深度快速增加,则该分量产生高eca值。
98.‑
输出队列中的报头总数的函数(其可以检测由于小包流引起的incast)。
99.在一个实施例中,端点输出缓冲区可以跟踪用于经由作为eca的一部分的拥塞ack来反馈拥塞信息的指标。这种反馈可以以逐队列的方式完成(不同的缓冲区/业务流量分类
可以有多个队列),并且涉及跟踪多个因子。当请求到达端点输出缓冲区时,可以检查该队列的因子,包括该请求的影响,并且可以将其中的最大值转发到ofct以用于决定要提供什么拥塞反馈。当请求赢得仲裁、出队并转发到ofct时,可以再次检查这些因子。可以随请求转发标志以指示因子是否全部为零(指示拥塞是否持续)。该值不包括将请求出队的影响。以下部分描述了这些保持的因子以及它们是如何计算的。
100.线性字节因子:线性字节因子跟踪相关联队列的请求的当前深度(以字节为单位)。其可以将该深度减去平衡值,然后将其放入在动态范围内均匀分布的256个桶(buckets)中。计算细节如下:
101.lbf_thresh
ꢀꢀꢀꢀ‑
每个队列的线性字节因子阈值(以256b为单位)。
102.lbf_shift
ꢀꢀꢀꢀꢀ‑
每个队列的线性字节因子移位。
103.qu_depth
ꢀꢀꢀꢀꢀꢀ‑
当前在队列中的请求的字节数(以256b为单位)。
104.8位lbf_factor的计算结果为:
[0105][0106]
在一个实施例中,(qu_depth

lbf_thresh)项不允许为负。如果结果为负值,则它将被强制为零。任何超过255的lbf_factor值都将被强制为255。
[0107]
线性包因子:线性包因子跟踪相关联队列中的当前请求数。其可以将该深度减去平衡值,然后将其放入在动态范围内均匀分布的256个桶中。计算细节如下:
[0108]
lpf_thresh
ꢀꢀꢀꢀ‑
每个队列的线性包因子阈值。
[0109]
lpf_shift
ꢀꢀꢀꢀꢀ‑
每个队列的线性包因子移位。
[0110]
qu_pkt
ꢀꢀꢀꢀꢀꢀꢀꢀ‑
当前在队列中的请求数。
[0111]
8位lpf_factor的计算结果为:
[0112][0113]
在一个实施例中,(qu_pkt

lpf_thresh)项不允许为负。如果结果为负值,则它将被强制为零。任何超过255的lpf_factor值都将被强制为255。
[0114]
派生字节因子:派生字节因子跟踪当前队列深度是否在增长。对于每个时间段,它需要时间段的开始与结束之间的深度差。它可以获得该深度并将其除以时间因子。为了简化所需的硬件,可以将时间因子限制为2的幂的值(除法变为移位)。计算细节如下:
[0115]
dbf_clk_cnt
ꢀꢀꢀ‑
每个队列的派生字节因子时钟计数。
[0116]
dbf_shift
ꢀꢀꢀꢀꢀ‑
每个队列的派生字节因子移位。
[0117]
dbf_thresh
ꢀꢀꢀꢀ‑
每个队列的派生字节因子阈值。
[0118]
qu_depth
ꢀꢀꢀꢀꢀꢀ‑
时间段结束时队列中的请求的字节数。
[0119]
qu_depth_old
ꢀꢀ‑
时间段开始时队列中的请求的字节数。
[0120]
8位dbf_factor的计算结果为:
[0121][0122]
在一个实施例中,(qu_depth

qu_depth_old)项不允许为负。如果结果为负值,则dbf_factor将被强制为零。可以看出,如果当前qu_depth不大于qu_thresh,则dbf_factor
也被强制为零。任何超过255的dbf_factor值都将被强制为255。dbf_factor在每个dbf_clk_cnt时钟进行计算,其中传入请求使用最后计算的值。
[0123]
可以使用可以从端点结构出口端口返回的不同类型的拥塞ack来报告不同程度的端点拥塞。这些端点拥塞ack可以用于管理流入严重拥塞的端点出口端口的流的带宽。
[0124]
每次将报头入队到出口端口输出缓冲区队列时,可以将当前eca值、源端口id和源流id发送到出口ofct(efct)。如果eca值不为零(指示拥塞),则其可以向所有上游输入流通道表(ifct)返回在efct前端生成的ack_eca。ack_eca ack的目标是快速通知上游流通道它们是否对端点拥塞有贡献,使得它们能够快速做出反应。随着端点出口端口输出缓冲区队列大小的加深,这指示存在incast。如上计算的ack_eca ack值可以将incast的程度携带回流的包已经遍历的所有上游ifct。
[0125]
当包被处理并准备离开端点出口缓冲区队列并移动到与该出口端口连接的nic/节点时,可以执行另一个拥塞程度计算。基于这个新的拥塞计算,如果这个出口端口拥塞持续存在,则系统可以将流通道机制的运行所使用的正常ack_delta ack(正常流通道ack)转换为ack_delta_eca(例如,通过设置标志)。该ack_delta_eca ack可以用于清除或维持导致该拥塞的入口端口流通道的先前拥塞状态。
[0126]
可以存在在中间结构端口使用eca拥塞管理计算的其他ack,如ack_reroute。可以生成这些重新路由ack,以帮助流避免结构中间的拥塞。
[0127]
应注意,图7b所示的端点拥塞管理逻辑块也可以执行图8中所示的流程图所描述的操作。换句话说,端点拥塞管理逻辑块730可以在包到达输出缓冲区以及包从输出缓冲区离开时潜在地生成端点拥塞通知ack。
[0128]
当端点拥塞通知ack经过结构时,路径上的交换机的ifct可以对与ack相对应的流应用带宽限制。实际上,结构可以在数据路径上的每个交换机上以分布式方式减慢该流的传送速度。当端点拥塞通知ack通过ifct时,其值可以作为ep_congestion值存储在流的表条目中,该ep_congestion值可以用于为流选择期望的最大带宽。ep_congestion的每个值都可以有一组对应的高水位值、目标水位值和丢弃水位值。对于高水平的拥塞,此时ep_congestion具有较高值,水位值可以具有较低值,使得可以更积极地缓解拥塞。对于低水平的拥塞,此时ep_congestion具有较低值,可以使用一组不同的更大的高水位值、目标水位值和丢弃水位值,以获得更高的流带宽。例如,可以使用由ep_congestion值索引的表。对于每个ep_congestion值,该表可以指示一组对应的高水位值、目标水位值和丢弃水位值。该表的条目可以预先确定,使得当接收到端点拥塞通知ack时,交换机可以使用ep_congestion值在该表中执行查找,并将这三个对应的水位值应用于识别的流。
[0129]
在一些情况下,如果源以贪婪的方式注入数据,仅减慢网络内部的转发速度可能不足以完全消除拥塞。为了解决该问题,入口边缘交换机可以被配置为指示源设备(其通常驻留在结构之外)以细粒度、逐流的方式限制数据注入。这种交换机到主机的流控制机制可以称为细粒度流控制(fgfc)。
[0130]
特别地,尤其是在hpc环境中,终端主机或计算节点可能具有大量的运行大量线程、进程或虚拟机的核,其中每个核都可以通过公共物理网络接口控制器(nic)将其自己的数据流注入到网络中。当存在拥塞时,基于逐端口的流控制只能限制nic上单个端口的整体数据速率,其可以是40gb/s或更高。反推整个端口上的总数据速率可能会导致对未造成拥
塞的流不公平。fgfc可以将各个流或相关联流分组的概念扩展到它们的最终源,这可以是在其中一个核上执行的单个线程。
[0131]
为了减慢来自源的数据注入,入口边缘交换机上的fgfc逻辑块(例如,图4a中的边缘交换机406中的fgfc逻辑块434)可以使用暂停

信用混合方法来限制与特定流或流分组相关联的传入数据。基于暂停的方法通常涉及接收端向发射器端发出暂停命令,作为响应,发射器端可以停止传输,直到进一步的通知。对于基于信用的方法,接收端可以向发射端发出传输信用,这允许发射器发送更多数据,但最多只能发送由信用值指定的量。这种机制允许接收端更精确地控制其输入缓冲区深度以避免溢出,同时允许继续传输。fgfc可以使用混合方法,其中在检测到拥塞时,入口边缘交换机可以针对一个或多个流向终端主机nic(如图4a中终端主机402上的nic 401)发出具有设置的定时器值的fgfc帧。在接收到fgfc帧之后,入口边缘交换机可以开启基于信用的流控制模式。作为响应,nic可以基于接收到的信用来限制对应(多个)流的传输数据速率,同时允许其他流以正常数据速率传输。在预定的定时器到期之后,终端主机nic可以恢复(多个)被限制流的正常传输,除非接收到另一个暂停命令。应注意,被限制流可以通过从包得到的任何字段来标识。被限制流可以特定于在终端主机上执行的单个进程或线程。
[0132]
fgfc可以使用带有组织唯一标识符(oui)扩展ether_type字段的以太网帧来实施边缘交换机与终端主机nic之间的控制通信。这些帧可以指示以下一项或多项:(1)被控制的流所使用的协议;(2)用于指示生成需要被限制的包的源(例如,应用、进程或线程)的标识符;(3)流控制要持续的暂停时间值(其可以在后续fgfc帧因错误而丢失时防止加锁),以及(4)信用值,可以为零,指示在暂停期间可以发送的帧的数量或数据量。
[0133]
应注意,用于指示受制于流控制的源流的标识符可以基于与流相关联的协议而不同。对于第2层以太网虚拟局域网(vlan)业务流量,标识符可以包括vlan编号。对于ipv4业务流量,标识符可以包括源/目的地ip地址对、包含udp或tcp端口号的udp或tcp/ip 5元组、或可选的流标签。对于ipv6业务流量,标识符可以包括一个或多个ipv6地址或ipv6流标签。对于专有hpc协议业务流量,标识符可以包括进程或线程id。通常,该标识符也存储在边缘交换机的efct中,因为它用于将对应的业务流量映射到流id。
[0134]
为了触发fgfc,入口边缘交换机的ifct可以监测其特定于流的输入队列。对于每个队列,对应的ifct条目可以指示三个水位值:高、目标、丢弃,其可以用来衡量队列深度。在一些示例中,这些水位值可以作为附加字段包括在如图4c所示的ifct中,或者可以存储在单独的表中并由ifct中的字段链接。当队列深度小于目标值时,不需要fgfc。当队列深度达到目标水位值时,ifct可以与fgfc逻辑块通信以发起与终端主机的nic的fgfc。当队列深度降低到低于丢弃水位值时,可以停止fgfc并恢复流的正常传输。
[0135]
图9a示出了示例性fgfc过程的流程图。在操作期间,在入口边缘交换机处,系统可以监测特定于流的输入队列(操作902)。对于相应的流,系统可以进一步确定fgfc当前是否已开启(操作904)。如果当前针对该流开启了fgfc,则系统可以确定队列深度是否低于丢弃水位(操作906)。如果队列深度尚未降低到丢弃水位以下,则系统可以继续在fgfc模式下基于信用的传输(操作912)。如果队列深度已经降低到低于丢弃水位,则系统可以恢复到流的正常传输(操作914)。回到操作904,如果fgfc当前没有开启,则系统可以确定队列深度是否大于目标水位(操作908)。如果是,系统可以发起流的fgfc(操作910)。边缘交换机中的fgfc
逻辑块可以从与流相对应的efct条目中获得流标识信息(例如vlan标签、tcp/ip 5元组、线程id等),并将fgfc以太网帧发送到终端主机上的nic。随后,系统可以继续监测输入队列(操作902)。如果队列深度不大于目标水位,则系统可以继续常规数据传输(操作914)。
[0136]
为了促进fgfc,nic可以被配置为处理fgfc以太网帧,使得nic可以与终端主机上正在生成数据的应用或进程通信。fgfc以太网帧的解析和与应用或进程的通信可以在软件、硬件或两者的组合中完成。图9b示出了支持fgfc的nic的示例。在该示例中,nic 930可以包括处理器932、存储器934、发射器936、接收器938、fgfc逻辑块940和通信逻辑块942。在操作期间,发射器936和接收器938可以经由边缘链路执行与边缘交换机的通信。通信逻辑块942可以经由数据总线(如高速外围部件互连(pcie)总线)与nic 930所在的终端主机的中央处理单元进行通信。nic 930内部的处理器932和存储器934可以执行数据的本地处理。在操作期间,fgfc逻辑块940可以与边缘交换机一起工作以逐流的方式应用fgfc。另外,fgfc逻辑块940可以经由通信逻辑块942与终端主机的中央处理单元通信,以限制与受制于fgfc的特定流相对应的单个应用或进程的数据注入,从而控制注入到结构的数据量。
[0137]
如上所述,网络中可能发生两种类型的拥塞。第一种类型是端点拥塞,第二种类型是结构链路拥塞。图10示出了结构链路拥塞的示例。在该示例中,两个中间交换机1002和1006经由结构链路1004进行通信。多个源/目的地对可以经由结构链路1004发送业务流量。因此,结构链路1004可能会经历拥塞,但通向和远离结构链路1004的链路可能不会拥塞。当这种拥塞发生时,结构链路1004可能看起来是“热点”。
[0138]
为了缓解结构链路拥塞,交换机可以应用基于逐流信用的动态流控制。在交换机上,如果输入队列开始填满,并且该流的queue_extent值达到预定阈值,则交换机可以生成特殊的ack来向上游交换机的ifct通知拥塞。这种特殊的逐跳ack可以称为“headroomack(净空ack)”。在收到headroomack后,上游交换机的ifct可以对下游交换机启动基于信用的流控制。在下游ifct条目中,可以置位标志上游计量(um)以指示现在基于信用来计量来自上游交换机的数据传输。headroomack包还可以包括信用值。
[0139]
当上游交换机收到headroomack时,可以在ifct的对应条目中置位称为下游计量(dm)的标志。ifct还可以在ifct条目中存储有符号的净空字段,该净空字段具有headroomack所携带的信用值(即,净空值指示信用的数量)。该净空字段可以表示可以被转发到下游交换机的数据量。这为对应的流建立了基于信用的流控制。如果上游ifct在流条目中的dm标志已被置位的情况下接收到headroomack,则可以将headroomack所携带的信用值添加到现有的净空(headroom)值中。
[0140]
如果净空值不大于零(即,无可用信用),则由上游ifct接收到的新包可能被阻塞。这些包可以填充该流的输入队列,并可能进而导致ifct对其上游ifct发起基于逐流信用的流控制,依此类推。如果净空值大于零,则可以将存储在输入队列中的包出队并转发到下游交换机,并且可以将净空值递减所转发包的大小,这可能导致净空值变为零或负。
[0141]
由于流被限制向下游ifct发送新包,下游ifct的输入队列可以以某种速率开始消耗,具体取决于其下游拥塞。如上所述,每个流的输入队列可以具有三个队列深度水位值,即,高、目标和丢弃,这些水位值可以用于管理基于信用的流控制。目标水位可以近似为期望流带宽的理想队列深度。其表示有足够的缓冲可用于向下游传输数据。当出现拥塞时,基于信用的流控制机制可以试图将流的queue_extent值保持在该目标水位附近。
[0142]
如果queue_extent值介于高水位与丢弃水位之间,并且大于目标水位,则在转发包时,可以将略小于该包大小的信用与headroomack一起返回给上游交换机。如果queue_extent的值未超过目标水位,则在转发包时,可以将略大于该包大小的信用与headroomack一起返回给上游交换机。
[0143]
如果queue_extent深度大于高水位,则在转发包时不返回任何信用。这种机制可以更快地降低queue_extent值,并且通常在第一次检测到拥塞时使用。如果拥塞清除,则流的输入队列可以更快地变为空。当队列深度小于丢弃水位时,可以关闭基于信用的流控制。这可以通过清除ifct条目中的um标志并将具有最大信用值的headroomack返回到上游交换机来完成。当被上游ifct接收时,headroomack会清除条目的dm标志,并关闭针对净空值的流控制。
[0144]
应注意,在典型的网络拓扑中,可能有多个交换机,并且两个端点之间可能有多个数据路径。在多路径网络中,可以使用各种方法来控制结构链路拥塞。例如,本文档稍后描述的注入限制可以控制整个结构中的最大数据总量。这意味着如果特定结构链路过载,则流可以使用不通过拥塞链路的不同数据路径。可以检测过载链路并为一组流生成“重新路由”ack。重新路由ack可以临时阻塞上游交换机中的流,并且当该流的所有ack都返回时,流可以解除阻塞并可以自由使用结构上的不同路径。然后,基于负载的动态自适应路由机制可以引导前导包使用不同的非拥塞结构链路。进而,整个结构上的负载可以变得更加均衡。
[0145]
在一个实施例中,ifct可以具有24个可配置的流带宽和缓冲区设置。在ack_eca拥塞ack中返回的eca值可以用于选择24个设置之一。初始流通道带宽设置提供全带宽,并随着拥塞ack的返回而降低。这些带宽和缓冲区设置可以适应各个流的带宽在200gbps与10mbps之间变化。
[0146]
一旦eca值存储在ifct表中,就可以在每次新的报头被注入或转发到网络结构时使用与该值相对应的带宽和缓冲区设置。关闭流的最终ack是通常从端点出口端口返回的流移动ack。该ack可以是ack_delta或ack_delta_eac,具体取决于最终出口端口输出缓冲区队列的深度。如前所述,端点出口端口ofct可以在包入队时生成ack_eca ack,但队列可能已耗尽到认为不再拥塞的程度。如果流通道接收到ack_delta而不是ack_delta_eca,则这指示拥塞已经清除,并且流通道将恢复全速。然而,如果流通道接收到ack_delta_eac而不是ack_delta,则维持流通道的拥塞状态和降低的注入率。
[0147]
还值得一提的是,系统可以将新流初始化为“慢启动”,类似于tcp。通过设置稍低的最大流带宽,在第一个帧入队到拥塞端点出口端口队列时,将会有更少的有效载荷数据注入到结构中。如果流的慢启动不会导致拥塞,则ack_delta ack可以快速去除限制并允许流以全带宽进行。各种hpc应用从每个源生成许多短流。在单个流开始时具有轻微带宽限制通常不会对来自每个节点的总带宽造成不利后果。
[0148]
在典型的繁忙网络中,中等程度的拥塞经常会出现和消失。这可能是由于通向目的地的路由上的热点以及目的地的多个流的中等incast引起的。任何拥塞源都会导致输入缓冲区被填满。一旦缓冲区已满,链路上的带宽就可能会崩溃。流通道包括硬背压(流控制)机制,以限制无法以全带宽将帧传送到最终出口端口的每个单独流的帧转发。如果硬背压作用于一个流,则使用同一链路的其他流不必因拥塞流而减慢。
[0149]
当流缓慢进入incast拥塞端点时,背压可以减少所消耗的输入缓冲区空间的量。
incast越宽,每个流的单独进展就越慢。这种机制可以在单条链路上运行,并且只会受到单个链路的往返时延的影响。这意味着可以防止更多不需要的帧到达incast的输入缓冲区空间上出现最高压力的最终输入缓冲区。
[0150]
应用可能具有在一个问题上进行协作的数千个节点。理想情况下,设计良好的hpc应用可以生成不会导致拥塞的结构业务流量模式。然而,并非所有应用的设计都考虑到避免大型incast。例如,也许应用的每个主要步骤的最终动作是将每个节点的结果聚合到一个地方,而简单、大规模的incast是最简单的方法。然而,大型incast对其他应用的影响可能很严重。即使当incast的宽度变得非常大(例如,1000个节点)时,所描述的拥塞管理机制也可以控制这些事件。eca值对于控制incast事件可能很重要。端点出口端口队列可以直接指示incast的宽度。
[0151]
incast可能非常快速地形成,并且重要的是incast的反馈控制同样快。到达快速加深的端点出口端口队列的流的第一帧可以生成携带eca值的ack_eac ack。该ack所穿过的每个ifct都可以选择适当的带宽和缓冲区设置。上游流范围字段可以定义该带宽设置的最大流范围。这可以是对下行帧数据量的绝对限制。由于该机制在流的每个上游ifct上运行,因此当该第一个ack通过每个ifct时,可以停止将帧数据传送到宽的incast。
[0152]
上游流范围限制可能是有效的,但最多只能到一个点,因为在其限制方面,其只能将作为incast的一部分的每个流限制为单个帧。如果帧大小是mtu的大小,并且更糟糕的是当mtu已设置为巨型帧时,这不能提供足够的保护。例如,1000*9kb等于9mb。这种大小的包可能会淹没端点出口端口缓冲区。
[0153]
在一个实施例中,带宽和缓冲区设置可以包括称为limit

after

ack位的另一设置。该位可以在主机入口端口上配置。当设置该位时,可以对流进行附加限制,所述附加限制可以将带宽限制为远小于结构中的单个帧。如果设置了limit

after

ack位,则当流范围超过upstream

flow

extent时,fc

state可以设置为block

until

empty。这将防止任何帧离开,直到返回所有下游帧的所有ack。当返回所发送的最后一个包的ack时,fc

state可以更改为running,而唤醒时间也可以设置为(local

rolling

time (ack

size

delta*(byte_time<<byte_time_scale)))。下一帧可以等待新的唤醒时间,从而可以将该流对出口年龄队列的平均贡献减少到远小于单个帧。
[0154]
有序性由随后的包强制执行,其中,后续包流被迫遵循流的第一帧的路径。如果不强制帧执行遵循,而是仍以正常方式创建流,则流通道树的形成方式与多播树的形成方式大致相同。除了在没有帧重复的情况下,ack

flow可以以正常方式改变。
[0155]
无序流的持续带宽往往高于有序流的持续带宽,因为自适应路由可以更有效地平衡总负载。每个帧都可以使用最新的自适应负载值。然而,无序流可能会产生更严重的拥塞,因为自适应路由的传播效应提高了在incast发展时填充网络中的更多缓冲区的机会。
[0156]
可以使用eca值来控制这些流。ack_eca ack将使用无序流树的新流范围选择新的带宽和缓冲区设置。一旦任何小的incast发展,就可以通过将无序流快速更改为有序流来进一步控制拥塞流。该策略为性能良好的应用提供了无序传送的带宽优势,但在其他应用性能不佳并产生incast时也能保护它们。
[0157]
图11示出了在拥塞结构链路上应用基于信用的流控制的示例过程的流程图。在操作期间,交换机系统可以监测其特定于流的输入队列(操作1102)。系统可以确定其ifct中
的条目是否置位了um标志(操作1104)。如果置位了um标志,这意味着基于信用的流控制已开启,则系统可以进一步确定queue_extent值是否小于丢弃水位值(操作1106)。如果queue_extent值小于丢弃水位值,则系统可以清除um标志、关闭基于信用的流控制、并恢复正常的数据传输(操作1014)。如果queue_extent值大于丢弃水位值,则系统可以继续基于信用的流控制(操作1106)。回到操作1104,如果未置位um标志,这意味着系统处于常规传输模式,则系统可以确定queue_extent值是否大于目标水位值(操作1108)。如果是,系统可以发起基于信用的流控制并向上游交换机发送headroomack(操作1110)。如果queue_extent值不大于目标水位值,则系统可以继续常规数据传输(操作1112)。
[0158]
通常,流通道交换机可以使用几种拥塞检测和控制机制的组合。例如,可以使用可以从最终结构出口边缘端口返回的端点拥塞通知ack报告不同程度的端点拥塞。该ack类型可以用于管理流入严重拥塞的出口边缘端口的流的带宽。该系统还可以使用基于逐跳信用的流控制来管理结构链路拥塞。这种逐跳拥塞管理机制可以有效应对低到中等程度的拥塞,因为响应时间可以比网络级的往返延迟短得多。
[0159]
如果拥塞很严重,这可能是由大范围的incast引起的,则系统还可以应用逐流的注入限制。可以基于ep_congestion值确定流的注入限制。可以将注入限制与流所穿过的所有ifct中的flow_extent值进行比较。如果flow_extent大于该限制,则ifct可以阻塞该流的包从输入队列转发。这种机制可以将整个流上的包转发速率降低到少至单个包。
[0160]
该系统还可以保护无关业务流量免受因大量贡献者的incast造成的极端拥塞的影响。在这种情况下,可以将ep_congestion值设置为较高的值,并且可以将流的平均数据量减少到包的一小部分。这可以通过仅在自接收到前一个包的ack起经过可编程延迟之后才将单个流的下一个包从入口边缘端口的ifct释放到结构中来实现。
[0161]
除了逐流的注入限制之外,系统还可以逐个入口端口测量已注入结构中的数据量,并设置注入限制以对端口可以注入到结构中的数据总量施加上限。由于每个入口端口都可以应用该注入限制,因此系统可以控制结构内所允许的最大数据量。限制进入结构的数据总量可以确保在带宽稀缺的情况下不会发生缓冲区耗尽。因此,不使用带宽减少的路径的业务流量不会受到影响。
[0162]
为了促进逐端口的注入限制,ifct可以维持总业务流量计数。每次从边缘端口将包注入结构时,总计数都会递增。当返回流的ack时,总业务流量计数可以递减。一旦返回了入口端口的所有流的所有ack(即,当所有流的flow_extent值之和变为零时),总业务流量计数可以设置为零。
[0163]
图12示出了促进流通道(例如,其可以对应于图4a中的交换机406)的示例性边缘交换系统。在该示例中,交换机1202可以包括多个通信端口,如端口1220。每个端口可以包括发射器和接收器。交换机1202还可以包括处理器1204、存储设备1206和流通道交换逻辑块1208。流通道交换模块1208可以耦接到所有通信端口并且可以进一步包括交叉开关交换机1210、efct逻辑块1212、ifct逻辑块1214和ofct逻辑块1216。
[0164]
交叉开关交换机1210可以包括一个或多个交叉开关交换机芯片,该交叉开关交换机芯片可以被配置为在通信端口之间转发数据包和控制包(如ack包)。efct逻辑块1212可以处理从边缘链路接收的包并且基于包中的一个或多个报头字段将接收的包映射到对应的流。另外,efct逻辑块1212可以组装fgfc以太网帧,该以太网帧可以传送到终端主机以控
制由各个进程或线程注入的数据量。ifct逻辑块1214可以包括ifct,并且响应于控制包(如端点拥塞通知ack和基于结构链路信用的流控制ack)来执行各种流控制方法。ofct逻辑块1216可以包括存储ofct的存储器单元,并且与另一个交换机的ifct逻辑块通信以在包被转发到下一跳交换机时更新包的流id。
[0165]
图13示出了促进流通道(例如,其可以对应于图4a中的交换机408和430)的示例性中间交换机系统。在该示例中,交换机1302可以包括多个通信端口,如端口1320。每个端口可以包括发射器和接收器。交换机1302还可以包括处理器1304、存储设备1306和流通道交换逻辑块1308。流通道交换模块1308可以耦接到所有通信端口并且可以进一步包括交叉开关交换机1310、ifct逻辑块1314和ofct逻辑块1316。
[0166]
交叉开关交换机1310可以包括一个或多个交叉开关交换机芯片,该交叉开关交换机芯片可以被配置为在通信端口之间转发数据包和控制包(如ack包)。另外,efct逻辑块1312可以组装fgfc以太网帧,该以太网帧可以传送到终端主机以控制由各个进程或线程注入的数据量。ifct逻辑块1314可以包括ifct,并且响应于控制包(如端点拥塞通知ack和基于结构链路信用的流控制ack)来执行各种流控制方法。ofct逻辑块1316可以包括存储ofct的存储器单元,并且与另一个交换机的ifct逻辑块通信以在包被转发到下一跳交换机时更新包的流id。
[0167]
总之,本公开描述了一种数据驱动的智能联网系统,该系统可以通过快速、有效的端点拥塞检测和控制来适应动态业务流量。所述系统可以维护各个包流的状态信息,这些信息可以基于已注入数据而动态建立或释放。包流可以映射到其第2层、第3层或其他特定于协议的报头信息。在到达交换机时,可以为每个流提供特定于流的输入队列。相应流的包在到达网络的出口点后被确认,并且确认包沿相同的数据路径反向发送回流的入口点。因此,每个交换机都可以获得每个流的状态信息,并以逐流的方式执行流控制。这种流控制允许更好地利用网络,同时提供多功能的业务流量工程和拥塞控制能力。
[0168]
上述方法和过程可以由硬件逻辑块、模块或装置来执行。硬件逻辑块、模块或装置可以包括但不限于专用集成电路(asic)芯片、现场可编程门阵列(fpga)、在特定时间执行代码的专用或共享处理器、以及现在已知或以后开发的其他可编程逻辑设备。在激活硬件逻辑块、模块或装置时,这些硬件模块或装置执行其中所包括的方法和过程。
[0169]
本文描述的方法和过程还可以体现为代码或数据,该代码或数据可以存储在存储设备或计算机可读存储介质中。当处理器读取并执行存储的代码或数据时,处理器可以执行这些方法和过程。
[0170]
本发明实施例的先前描述仅出于说明和描述的目的而呈现。所述描述并非旨在是穷举的或将本发明限制为所公开的形式。相应地,对于本领域普通技术人员而言,许多的修改和变化将是显而易见的。另外,以上公开并非旨在限制本发明。本发明的范围由所附权利要求限定。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献