一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种基于SMBUS总线的服务器多卡控制系统的制作方法

2022-06-02 16:26:13 来源:中国专利 TAG:

一种基于smbus总线的服务器多卡控制系统
技术领域
1.本发明属于服务器控制领域,具体涉及一种基于smbus总线的服务器多卡控制系统。


背景技术:

2.服务器和gpu(graphics processing unit)是近来的热门话题,相关的服务器厂商在服务器中集成了多种gpu板卡来提高运行速度。gpu温度过高或者电压过低经常导致其不能正常工作甚至重新启动,程序异常也经常会导致gpu中的协处理器不能正常工作。现有的解决办法主要有如下两种:一种是通过发送中断通知host读取自身信息,另外一种是通过ipmi协议进行板卡协处理器的复位工作。然而,通过发送中断通知host读取自身信息需要更多的数据线和协议,方式也只能通过一对一的形式;ipmi协议复杂,在硬件和软件实现方面都需要更多的人力资源,实现起来比较复杂。


技术实现要素:

3.本发明针对现有技术中的不足,提供一种基于smbus总线的服务器多卡控制系统,采用的技术方案如下:
4.一种基于smbus总线的服务器多卡控制系统,包括一块服务器主板和若干gpu板卡,所述服务器主板通过smbus总线与各gpu板卡连接,服务器主板通过smbus总线协议中的arp功能为每个gpu板卡分配不同的设备地址,所述smbus总线包括scl、sda和alertn三根信号线,每根信号线均通过上拉电阻与vcc端连接;
5.所述服务器多卡控制系统的控制流程为:
6.s1、gpu板卡的协处理器出现异常时,gpu板卡中的watchdog由于不能得到刷新而拉低alertn信号线的电位;
7.s2、服务器主板侦测到alertn信号线处于低电位后,向各gpu板卡发出符合smbus协议的alert response address命令,各gpu板卡收到该命令后返回自身的设备地址,同时将alertn信号线恢复为高电位;
8.s3、服务器主板根据得到的设备地址读取各gpu板卡的状态,若某gpu板卡的协处理器处于异常状态,则向该gpu板卡发送复位信号,该gpu板卡在接到复位信号后进行协处理器的复位,并在复位完成后产生相应的中断信号;
9.s4、协处理器经过复位重新运行后,根据中断信号得知本身发生异常,将alertn信号线重新拉低为低电位;
10.s5、服务器主板侦测到alertn信号线处于低电位后,向各gpu板卡重新发出符合smbus协议的alert response address命令,各gpu板卡收到该命令后返回自身的设备地址,同时将alertn信号线恢复为高电位;
11.s6、服务器主板根据得到的设备地址再次读取各gpu板卡的状态,若无异常则gpu板卡复位完成,否则由s3继续执行。
12.进一步地,s3中,若某gpu板卡的协处理器处于异常状态,则由服务器主板向各gpu板卡发送包含该异常gpu板卡位址数据的复位命令,各gpu板卡接到复位命令后校验位址数据,若位址数据与自身位址不一致则回复nack,否则回复ack并通过写寄存器进行复位过程,当寄存器写完毕后产生相应的中断信号。
13.进一步地,s3中,若某gpu板卡的协处理器处于异常状态,则向该gpu板卡发送sideband reset命令,该gpu板卡得到命令后进行协处理器的复位,并在复位完成后产生相应的中断信号。
14.与现有技术相比,本发明具有以下技术效果:
15.硬件结构简单,只需要smbus总线即可实现一个服务器主板对多个gpu板卡的管理;
16.基于smbus协议,命令支持自定义,开发简单,同时通过smbus总线可以读取相关板卡的温度、功耗、电压等相关参数;
17.本发明通过gpu板卡内置的watchdog监测板卡中的协处理器是否发生异常,在发生异常时通过拉低alertn电位来通知服务器主板,这样将不再需要服务器发送轮询命令查询gpu板卡是否发生异常,从而减轻服务器主板的工作量。
附图说明
18.图1为本发明控制系统的硬件架构图;
19.图2为本发明控制系统的控制流程图。
具体实施方式
20.现在结合附图对本发明作进一步详细的说明。
21.如图1所示,服务器主板作为master,通过smbus总线的scl、sda、alertn和多个gpu板卡进行通信。由于scl、sda、alertn总线具有开漏(open drain)特性,所以通过上拉电阻连接到vcc,这样可以确保smbus总线在idle状态上拉为高电位。当服务器正常工作后,服务器主板通过smbus协议中的arp功能为每个gpu板卡分配不同的设备地址,这样支持了服务器访问gpu主板时不会发生地址冲突。
22.如图2所示,当gpu板卡由于高温、低压、功耗过大、程序异常等因素,导致gpu板卡的协处理器不能正常工作时,板卡芯片中的watchdog由于不能得到刷新从而发生溢出,导致alertn电位被拉低。
23.服务器主板侦测到alertn为低电位后,发出符合smbus协议的alert response address命令,gpu板卡接收到此命令后回复本身的设备地址,同时释放alertn为高。服务器主板重复进行此动作直到alertn为高。
24.服务器主板根据得到的设备地址读取相应状态,如果得到板卡协处理器异常状态则可以选择下列两种方式的一种:(1)发送复位命令。gpu板卡接收到此命令后校验数据部分,如果数据不一致则回复nack,否则回复ack并且通过写寄存器进行复位过程,当寄存器写完毕后产生相应的中断信号。(2)发送sideband reset命令,gpu板卡得到此命令后,复位gpu板卡的协处理器,并产生相应的中断信号。
25.gpu板卡中的协处理器经过复位重新运行后,根据中断信号得知本身发生异常后,
重新拉低alertn,并且设置相应的状态位。
26.服务器主板侦测到alertn为低后,重新发出符合smbus协议的alert response address命令,gpu板卡接收到此命令后回复本身的设备地址,同时释放alertn为高。
27.服务器主板根据得到的设备地址读取相应状态,如果得到板卡复位处于完成状态,则本次复位流程完成。
28.以上仅是本发明的优选实施方式,本发明的保护范围并不仅局限于上述实施例,凡属于本发明思路下的技术方案均属于本发明的保护范围。应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理前提下的若干改进和润饰,应视为本发明的保护范围。


技术特征:
1.一种基于smbus总线的服务器多卡控制系统,其特征在于,包括一块服务器主板和若干gpu板卡,所述服务器主板通过smbus总线与各gpu板卡连接,服务器主板通过smbus总线协议中的arp功能为每个gpu板卡分配不同的设备地址,所述smbus总线包括scl、sda和alertn三根信号线,每根信号线均通过上拉电阻与vcc端连接;所述服务器多卡控制系统的控制流程为:s1、gpu板卡的协处理器出现异常时,gpu板卡中的watchdog由于不能得到刷新而拉低alertn信号线的电位;s2、服务器主板侦测到alertn信号线处于低电位后,向各gpu板卡发出符合smbus协议的alert response address命令,各gpu板卡收到该命令后返回自身的设备地址,同时将alertn信号线恢复为高电位;s3、服务器主板根据得到的设备地址读取各gpu板卡的状态,若某gpu板卡的协处理器处于异常状态,则向该gpu板卡发送复位信号,该gpu板卡在接到复位信号后进行协处理器的复位,并在复位完成后产生相应的中断信号;s4、协处理器经过复位重新运行后,根据中断信号得知本身发生异常,将alertn信号线重新拉低为低电位;s5、服务器主板侦测到alertn信号线处于低电位后,向各gpu板卡重新发出符合smbus协议的alert response address命令,各gpu板卡收到该命令后返回自身的设备地址,同时将alertn信号线恢复为高电位;s6、服务器主板根据得到的设备地址再次读取各gpu板卡的状态,若无异常则gpu板卡复位完成,否则由s3继续执行。2.如权利要求1所述的一种基于smbus总线的服务器多卡控制系统,其特征在于,s3中,若某gpu板卡的协处理器处于异常状态,则由服务器主板向各gpu板卡发送包含该异常gpu板卡位址数据的复位命令,各gpu板卡接到复位命令后校验位址数据,若位址数据与自身位址不一致则回复nack,否则回复ack并通过写寄存器进行复位过程,当寄存器写完毕后产生相应的中断信号。3.如权利要求1所述的一种基于smbus总线的服务器多卡控制系统,其特征在于,s3中,若某gpu板卡的协处理器处于异常状态,则向该gpu板卡发送sideband reset命令,该gpu板卡得到命令后进行协处理器的复位,并在复位完成后产生相应的中断信号。

技术总结
本发明公开了一种基于SMBUS总线的服务器多卡控制系统,包括一块服务器主板和若干GPU板卡,服务器主板通过SMBUS总线与各GPU板卡连接,并通过SMBUS总线协议中的ARP功能为每个GPU板卡分配不同的设备地址,SMBUS总线包括SCL、SDA和ALERTN三根信号线,每根信号线均通过上拉电阻与VCC端连接。本发明通过GPU板卡内置的watchdog监测协处理器是否发生异常,在发生异常时通过拉低ALERTN电位来通知服务器主板,不再需要服务器发送轮询命令查询GPU板卡是否发生异常,从而减轻了服务器主板的工作量,且本发明硬件结构简单,只需要SMBUS总线即可实现一个服务器主板对多个GPU板卡的管理。可实现一个服务器主板对多个GPU板卡的管理。可实现一个服务器主板对多个GPU板卡的管理。


技术研发人员:顾正付 迟春红 肖义 贺鹏
受保护的技术使用者:上海天数智芯半导体有限公司
技术研发日:2022.02.18
技术公布日:2022/6/1
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献