一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

提供大规模机器学习推理应用的多裸片点积引擎的制作方法

2022-03-13 19:07:26 来源:中国专利 TAG:

技术特征:
1.一种多芯片接口系统,包括:多个点积引擎(dpe)芯片,其中所述多个dpe芯片中的每一个dpe芯片执行用于执行深度学习操作的推理计算;和硬件接口,所述硬件接口在主机计算机的存储器与所述多个dpe芯片之间,其中所述硬件接口在推理操作期间将所述多个dpe芯片通信地连接至所述主机计算机系统的所述存储器,使得所述深度学习操作横跨所述多个dpe芯片。2.根据权利要求2所述的多芯片接口系统,其中使所述深度学习操作横跨所述多个dpe芯片包括:使神经网络模型横跨所述多个dpe芯片。3.根据权利要求1所述的多芯片接口系统,其中所述多个dpe芯片中的每一个dpe芯片包括专用集成电路(asic)。4.根据权利要求1所述的多芯片接口系统,其中所述多个dpe芯片中的每一个dpe芯片包括:多个端口接口,其中所述多个端口接口中的每一个促进到所述多个dpe芯片中的另一个dpe芯片的片外通信链路,从而实现所述多个dpe芯片之间的芯片到芯片通信;和多个芯片上链路,所述多个芯片上链路连接所述dpe芯片的一个或多个芯片上部件。5.根据权利要求4所述的多芯片接口系统,其中所述多个dpe芯片中的每一个dpe芯片包括:多芯片支撑块,其中所述多芯片支撑块桥接所述dpe芯片的所述一个或多个芯片上部件到所述多个dpe芯片中的另一个dpe芯片,并促进所述多个芯片上链路与到所述多个dpe芯片中的另一个dpe芯片的所述片外通信链路之间的通信。6.根据权利要求5所述的多芯片接口系统,其中所述多芯片块缓冲芯片到芯片数据包。7.根据权利要求5所述的多芯片接口系统,其中所述多个dpe芯片中的每一个dpe芯片包括:交换机,所述交换机连接到所述多个端口接口,其中所述交换机促进在所述dpe芯片和来自所述多个dpe芯片的另一个dpe芯片之间通过所述片外通信链路的芯片到芯片通信。8.根据权利要求1所述的多芯片接口系统,其中所述多个dpe芯片中的每一个dpe芯片包括:互连块集,所述互联块集包括多个推理计算单元。9.根据权利要求1所述的多芯片接口系统,其中所述多个dpe芯片中的每一个dpe芯片包括:目标接口,所述目标接口连接到所述硬件接口,其中所述目标接口促进所述dpe芯片与主机计算机的存储器之间通过所述硬件接口的通信。10.根据权利要求1所述的多芯片接口系统,其中所述推理操作包括以下至少之一:图像识别应用,自然语言处理应用或深度学习应用。11.一种将数据流水线传输到多芯片接口的多个块的方法,包括:启动推理操作;启动与横跨所述多芯片接口的多个dpe芯片的所述推理操作相关联的流水线,其中,所述流水线包括多个连续的间隔;所述多个块中的每一个块在一间隔期间请求数据;以及
随着所述流水线的推进,第一芯片上的所述多个块中的第一块对请求的数据执行推理操作的计算,以及所述第一芯片上的所述多个块中的其他块,以及第二芯片上的所述多个块中的其他块和第三芯片上的所述多个块中的其他块在一后续的间隔期间等待。12.根据权利要求11所述的方法,其中所述多个块横跨所述多芯片接口的多个芯片,包括:所述多芯片接口的所述第一芯片上具有来自所述多个块的对应块;所述多芯片接口的所述第二芯片上具有来自所述多个块的对应块;和所述多芯片接口的所述第三芯片上具有来自所述多个块的对应块。13.根据权利要求12所述的方法,包括:随着所述流水线的进一步推进,所述第一芯片上的所述多个块中的所述第一块完成对请求的数据的推理操作的计算,所述第一芯片上的所述多个块中的第二块启动对所请求的数据的推理操作的另一计算,以及所述第二芯片上的所述多个块中的其他块和所述第三芯片上的所述多个块中的其他块在一后续的间隔期间等待。14.根据权利要求13所述的方法,其中所述第一块停止,以允许来自所述推理操作的输出被发送到所述多芯片接口的主机接口。15.根据权利要求14所述的方法,包括:随着所述流水线的进一步推进,所述第一芯片中的所述多个块中的所述第二块完成对所请求的数据的推理操作的计算,所述第二芯片上的所述多个块中的第一块在所述后续的间隔期间启动对所请求的数据的推理操作的计算,以及所述第二芯片上的所述多个块中的其他块和所述第三芯片上的所述多个块中的其他块在一后续的间隔期间等待。16.根据权利要求15所述的方法,包括:随着所述流水线的进一步推进,所述第一芯片上的所述多个块中的所述第一块完成对所请求的数据的推理操作的计算,所述第二芯片上的所述多个块中的第二块在所述后续的间隔期间启动对所请求的数据的推理操作的计算,并且所述第三芯片上的所述多个块中的其他块在一后续的间隔期间等待。17.根据权利要求16所述的方法,其中所述多芯片接口的输出块执行发送指令以将来自所述推理操作的输出发送到所述主机接口。18.根据权利要求17所述的方法,其中所述多芯片接口的所述输出块响应于所述发送指令进一步执行屏障指令,以在将来自所述推理操作的输出发送到所述主机接口的过程中停止所述输出块。19.根据权利要求18所述的方法,其中所述发送指令和所述屏障指令符合结构协议。20.根据权利要求11所述的方法,其中所述多芯片接口的所述第一芯片、所述第二芯片和所述第三芯片包括专用集成电路(asic)。

技术总结
提供了用于提供大规模机器学习推理应用的多裸片点积引擎(DPE)的系统和方法。所述多裸片DPE利用多芯片架构。例如,多芯片接口可以包括多个DPE芯片,其中每个DPE芯片执行用于执行深度学习操作的推理计算。在推理操作期间,主机计算机的存储器与所述多个DPE芯片之间的硬件接口将所述多个DPE芯片可通信地连接至所述主机计算机系统的存储器,使得所述深度学习操作横跨所述多个DPE芯片。由于所述多裸片架构,允许使用多个硅器件进行推理,从而实现大规模机器学习应用和复杂深度神经网络的高能效推理。所述多裸片DPE可用于构建多设备DNN推理系统,该系统可高精度执行特定的应用,例如对象识别。对象识别。对象识别。


技术研发人员:C
受保护的技术使用者:慧与发展有限责任合伙企业
技术研发日:2021.04.20
技术公布日:2022/3/10
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献