一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种面向AWGR光交换数据中心网络的资源调度方法及架构与流程

2023-01-04 18:21:54 来源:中国专利 TAG:

一种面向awgr光交换数据中心网络的资源调度方法及架构
技术领域
1.本发明涉及通信技术领域,具体为一种面向awgr光交换数据中心网络的资源调度方法及架构。


背景技术:

2.随着云计算,移动互联网,流媒体的快速发展,数据中心网络流量正在呈指数级增长,这对数据中心的性能提出了越来越高的要求。当前数据中心是由电交换机将数以万计乃至百万计的服务器连接在一起,这些服务器之间通过频繁的交互以及储存数据来满足用户实时动态的需求。由于封装技术的限制,电交换机i/o端口的带宽增速远低于快速增长的网络流量需求;同时,传统数据中心采用电交换机互联的网络架构,交换机之间通信过程需要频繁的光-电-光转换,这个过程带来了巨大的能耗。数据包在经过每一级交换机时需经历多级排队和处理的等待时延,这极大增加了数据传输时延。因此,传统电交换架构的数据中心网络在交换节点和网络结构方面面临快速增长流量带来的巨大挑战,为了克服以上缺点,新型光交换数据中心网络架构逐渐流行。
3.得益于对数据调制格式和传输速率的透明特性,光交换机具有极大地i/o端口交换带宽,相比传统电交换的多层体系架构,具有高度分布式控制的扁平化光交换架构在提供大容量和可扩展性的同时,缩短了控制器的处理时间,进而从吞吐量、延迟等方面优化了网络的整体性能。阵列波导光栅(awgr)是一种无源光学器件,从给定输入端口的波长循环路由通过输出端口,将这种无源光学器件与固定波长激光器配合使用可以组成数据中心光互连交换结构。因为光缓存的缺失,基于awgr的光交换数据中心网络在数据的传输过程中当一个目的端口同时有两个或更多的源端口(波长)同时发送数据时,目的端口就会出现光冲突与丢包的现象;在小规模数据中心光网络中可以采用全连接的形式,也就是每个收发端都设置一个独占的波长进行数据发送,但因为阵列波导光栅(awgr)的特性限制,阵列波导光栅(awgr)端口数量有限,全连接的网络结构无法互连大规模的数据中心网络。
4.为解决以上波长冲突的问题,需要使用调度方案对awgr中数据传输进行调度以避免数据包冲突问题,同时为满足数据中心规模增长的需要且避免波长资源有限的限制,会使用划分时隙的方式指导波长的有序发送。目前一些静态调度方案采用轮询的方式来安排转发的时间段和波长,即假设有n个波长可以发送数据,有m个端口需要发送数据(n《m),这时在这个时间段会选择m个端口中的第1到n个端口发送数据,接着在下一个时段选择第n 1到n n个端口发送数据,当最后一个发送端口被选择后,再从第一个发送端口开始循环。
5.全连接方式缺点:使用全连接的方式可解决awgr数据中心网络的波长冲突问题,即每个收发端之间都有一个独占的物理波长信道进行互连,但是这种互连方式会大量占用awgr的端口数。由于制造工艺的限制,阵列波导光栅(awgr)端口数不可能随着网络规模的上升无限制增长,这种互连方式只能应用在微小型数据中心网络。
6.静态调度方案缺点:在静态调度方案中使用轮询的方式安排转发时隙与波长,每个可能会发生冲突的端口会尽可能分配不同的时隙或波长,这种调度方式无法将光波长资
源及时的分配给占用比最高缓存中的最需要传输数据,无法满足数据中心网络突发流量对网络带宽(时隙、波长)资源的实时性需求。同时,此调度方案中的“请求-响应”过程,数据发送需要等待“响应”过程,会增加数据传输时的等待时延。
7.中国专利cn105959163a公开了一种基于软件定义的无源光互连网络结构及数据通信方法,其能降低功耗和时延以及可靠性,但其应用场景受限,也无法保证实时性的需求。


技术实现要素:

8.针对上述问题,本发明的目的在于提供一种面向awgr光交换数据中心网络的资源调度方法及架构,目的是解决基于awgr的光交换数据中心中波长冲突问题、静态调度方案中无法实时弹性按需分配光带宽的问题、以及调度方案中“请求-响应”过程造成的等待延迟。为实现上述目的,本发明提供如下技术方案:一种面向awgr光交换数据中心网络的资源调度方法及架构,包括一种面向awgr光交换数据中心网络的资源调度方法,包括以下步骤:s1,架顶交换机收集各组每个缓存的占用情况与缓存对应的源节点、目的节点,然后向调度器发送请求并等待接收回复的命令,调度器会接收各个架顶交换机传来的请求,解析出流信息;s2,调度器把统计的流信息通过一个优先队列进行存储,优先队列根据每个流的流量大小进行排序,将流量大排列在前面;s3,按顺序遍历优先队列的元素,并对流进行分析判断,确定当前流是否能发送,是则进行下一步骤,反之则重新执行s3;s4,将当前流加入结果数组中,如果结果数组长度达到了数量上限或优先队列为空的状态下,即停止计算,反之则重新执行s3;s5,调度器根据结果数组的信息对各个架顶交换机下发控制命令,架顶交换机在接收到调度器相应的命令后,控制发送模块中的相应缓存来采用错位时隙的方式发送数据。
9.优选的,所述架顶交换机内不同的缓存会被分组,缓存共享一个发送模块进行发送,使发往不同的目的端的流在不同时隙发送。
10.优选的,所述错位时隙具体为:在时隙n的t1时刻开始进行数据发送,t2时刻数据传输已经结束,此时架顶交换机的缓存模块收集缓存并向调度器发送请求,t3时刻调度器完成调度并将传输命令发送给各个架顶交换机,在t3时刻进行n 1时隙的数据传输,以此循环直至结束。
11.优选的,所述s3还包括,根据顺序遍历优先队列的元素,通过两个字典数组map
t
和mapr保存每个架顶交换机中发送模块和接收模块的状态,若map
t
与mapr内的元素值是0,表示该发送模块或接收模块目前未被占用,可以进行发送;若map
t
或mapr内的元素值为1,表示发送模块或接收模块已经被占用,则不能发送,所述发送模块和接收模块的数量相同。
12.优选的,所述s4具体为:若结果数组长度达到了m
×
n,即可发送的数据流到达了数量上限,或此时流的数组长度不够m
×
n,但优先队列为空,均会停止计算;其中架顶交换机的数量为n,架顶交换机内发送模块数量为m,能同时发送的流的个数最多为m
×
n。
13.一种面向awgr光交换数据中心网络的资源调度方法的架构,包括机架和与所述机
架连接的调度器和阵列波导光栅,所述机架内包括架顶交换机和多台服务器,所述服务器之间通过架顶交换机的数据交换拓扑来实现通信。
14.优选的,所述阵列波导光栅结构为4
×
4阵列,所述阵列波导光栅按照循环波长路由的方式将光信号路由到对应的输出端口,所述阵列波导光栅内部设置的4个输入端口输入不同波长的信号,每个架顶交换机的发送模块个数固定且同一架顶交换机内的每个发送模块只能发送与其他发送模块不同的唯一波长λ,采用所述阵列波导光栅作为光交换节点,使每个输入端口不同波长的信号能到固定的输出端口,所述发送模块负责将缓存模块内的数据包以不同波长的光信号形式进行发送;其中:中的λ表示此信号为具有特定波长的光信号,其上角标i为信号的输入端口序号,下角标w为信号的波长编号。
15.优选的,所述架顶交换机内部结构包括以太网交换模块,所述以太网交换模块与发送模块和接收模块之间设置缓存模块进行连接,所述以太网交换模块与服务器之间设置缓存模块并连接,所述服务器的数据从机架内服务器上传到以太网交换模块,所述以太网交换模块根据数据包的目的地进行分发,若目的地为机架内的服务器则直接转发至机架内目的服务器,若为机架外服务器则上传到与发送模块相对应的缓存模块上,等待控制指令进行数据发送。
16.优选的,所述发送模块数量=架顶交换机数量/时隙数量=波长数量;缓存模块数量=架顶交换机数量/波长数量=阵列波导光栅数量;波长数量=阵列波导光栅端口数量。
17.与现有技术相比,本发明的有益效果是:对于时隙与波长的分配,解决了光交换网络中光数据包冲突与光波长资源有限的问题;本发明通过独特的调度策略,解决了静态调度方案中无法解决的光波长资源及时分配、光数据包争用时带来的冲突包重传时延问题,采用“错位时隙”方法,规避了传统调度方案中“请求-响应”过程带来的等待时延。
附图说明
18.图1为本发明中心网络资源调度方法流程图。
19.图2为本发明机架内部结构图。
20.图3为本发明面向awgr光交换数据中心网络的架构图。
21.图4为本发明的4x4阵列波导光栅的光信号流通示意图。
22.图5为本发明的以太网交换模块内部结构图。
23.图6为本发明的错位时隙和传统调度时隙对比图。
具体实施方式
24.下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
25.在本发明的描述中,需要说明的是,术语“中心”、“上”、“下”、“左”、“右”、“竖直”、“水平”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。此外,术语“第一”、“第二”、“第三”仅用于描述目的,而不能理解为指示或暗示相对重要性。在本发明的描述中,需要说明的是,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”、“设置”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本发明中的具体含义。下面根据本发明的整体结构,对其实施例进行说明。
26.本发明针对基于awgr光交换数据中心网络的波长冲突问题,根据发送端口缓存的占用比情况进行非轮询调度,通过这种调度方案可以解决光网络数据中心的数据包争用问题与弹性分配光带宽问题,最后使用特有的“错位时隙”方法,以此来规避调度策略中由于“请求-响应”过程带来的等待时延。
27.基于awgr的数据中心网络架构主要包括调度器,架顶交换机(topofrack,tor),阵列波导光栅awgr和服务器。如图2所示,每个机架内部由k台服务器与一个架顶交换机(tor)组成,k台服务器通过架顶交换机(tor)实现与机架内其他服务器或机架外服务器之间的通信。如图3所示,此为机架间数据交换拓扑结构,即本发明的核心部分,由n个机架,一个调度器与一定数量的阵列波导光栅(awgr)构成。图4为阵列波导光栅(awgr),是一种无源被动光器件,其具有循环波长路由的特点,可以实现光互联网络。阵列波导光栅(awgr)通常搭配可调谐激光器或固定波长激光器使用,本发明中采用固定波长激光器组合实现全光交换技术。阵列波导光栅和固定波长激光器的结合具有高容量、低处理延迟和低插入损耗的优点。图4为4x4阵列波导光栅(awgr)的结构示意图,4个输入端口输入不同波长信号,其中中的λ表示此信号为具有特定波长的光信号,其上角标i为信号的输入端口序号,下角标w为信号的波长编号。阵列波导光栅(awgr)按照循环波长路由的方式将光信号路由到对应的输出端口。
28.架顶交换机(tor)使用fpga实现,其内部模块如图5所示,其中机架内需要转发给其他服务器的数据会先从机架内服务器上传到以太网交换模块,以太网交换模块会根据数据包的目的地进行分发,若目的地为机架内其他服务器则直接转发,若为机架外其他服务器则上传到发送模块(tx)的相应缓存。架顶交换机(tor)内存储不同的目的端数据的缓存会被分组,它们共享一个发送模块(tx)进行发送,但是不能同时发送。通过错位时隙,使发往不同的目的端的流在不同时隙发送。发送模块(tx)的作用是负责将缓存内的数据包通过波长的形式以光信号进行发送,每个架顶交换机(tor)内的发送模块(tx)个数固定且每个发送模块(tx)只能发送一种不同的波长λ,因为采用阵列波导光栅(awgr)作为光交换节点,所以每个输入端口的波长能到达哪个输出端口是固定的,也就是说每个以光波长形式发送的流的路由是固定的。在架顶交换机(tor)处转发数据的时候是根据提前配置好的路由表来转发的。调度器在调度开始时会先收集各个架顶交换机(tor)中缓存模块存储的流量信息,调度器会将所有流量信息进行排序并按顺序对流进行分析判断,若能发送则将流加入结果数组,若不能则进行下一个流的分析判断,当结果数组满时结束对流的分析判断,最后
根据结果数组的信息对各个架顶交换机(tor)下发控制命令。架顶交换机(tor)在接收到调度器相应的命令后根据命令控制发送模块(tx)中相应的缓存发送数据。当然,架顶交换机(tor)也会有与发送模块(tx)数量相等的接收模块(rx)。
29.其中波长数量=发送模块(tx)数量=架顶交换机(tor)数量/时隙数量;缓存数量=架顶交换机(tor)数量/波长数量;阵列波导光栅(awgr)数量=缓存数量;阵列波导光栅(awgr端口数)=波长数量;本发明算法部分的流程图如图1所示,调度机制主要由fpga实现的调度器完成,具体实施的调度算法流程如下:架顶交换机(tor)会先收集各组每个缓存的占用情况与缓存对应的源节点、目的节点。接着架顶交换机(tor)会向调度器发送请求并等待接收命令进行数据发送。调度器会接收各个架顶交换机(tor)传来的请求,从中解析出流量信息进行后续操作。
30.设架顶交换机(tor)个数为n,每个架顶交换机(tor)有m个发送模块(tx)(同样有m个接收模块),所以能同时发送的流个数最多为m
×
n。调度器把这些流的统计信息通过一个优先队列存储,优先队列根据每个流的流量大小进行排序,流量大的在前面。
31.这样我们按顺序遍历优先队列的元素,并通过两个字典数组map
t
和mapr保存每个架顶交换机(tor)中收发器的状态,例如map
t
[1]表示架顶交换机(tor)1中m个发送模块(tx)的状态,如果map
t
[1][tx]的值是0,表示该发送模块(tx)目前未被占用,如果值为1,表示已经被占用,优先队列中靠后的需要用该发送模块(tx)发送的流此时隙不能发送,需要等待其他时隙发送。mapr[1]架顶交换机(tor)1中m个接收模块(rx)的状态,如果mapr[1][rx]的值是0,表示该接收模块(rx)未被占用,如果值为1,表示已经被占用,优先队列中靠后的需要用该接收模块(rx)接收的流此时隙不能发送,需要等待其他时隙发送。
[0032]
因此,决定每个流是否能发送的因素就是发送模块(tx)和接收模块(rx)的状态,某个流能发送的充分必要条件就是它需要用的发送模块(tx)和接收模块(rx)同时空闲。
[0033]
能发送的流会被放到一个结果数组中,如果数组的长度达到了m
×
n此时能发送的数据流到达了数量上限即可停止计算,或者此时的流发送数量不够m
×
n优先队列为空计算结束。
[0034]
最后,调度器根据计算结果下发控制指令到架顶交换机(tor),架顶交换机(tor)根据指令判断哪个缓存中的流可以发送,然后打开相应的缓存发送数据。
[0035]
每个时隙开始的下发规则是上个时隙末计算好的。如图6所示,在时隙n的t1时刻开始进行数据发送,t2时刻数据传输已经结束,这时架顶交换机(tor)的缓存模块收集缓存的数据并向调度器发送请求,t3时刻调度器完成调度并将传输命令发送给各个架顶交换机(tor),在t3时刻进行n 1时隙的数据传输。也就是说每个时隙快结束的时候开始收集网络流量信息进行调度,因为调度时间相比时隙长度很短,调度时间内产生的流量信息变化可以忽略不计,假设每个机架内部有40个服务器,每个服务器的带宽为10gbps,因为调度花费的时间是ns级,假设调度时间为5ns的话,最多产生的数据量为40x109x5
×
10-9
=200bit,即使在极端情况下这些数据全发往集群内同一个架顶交换机(tor),存在一个buffer里这个数据量相比于一个缓存长度也是可以忽略不计,提前收集信息进行计算然后在下个时隙开始之间将新的控制指令下发到架顶交换机(tor),这种时隙错位的调度方法也可以保证调度的实时性。
[0036]
对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明,因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内,不应将权利要求中的任何附图标记视为限制所涉及的权利要求。
再多了解一些

本文用于创业者技术爱好者查询,仅供学习研究,如用于商业用途,请联系技术所有人。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献