一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

使用带有反馈输入的脉动阵列的可缩放稀疏矩阵乘法加速的制作方法

2021-11-05 18:00:00 来源:中国专利 TAG:

技术特征:
1.一种并行处理器,包括:解码单元,用于将指令解码成经解码的指令,其中,所述经解码的指令是执行并行点积操作的指令;以及流水线化的脉动点积单元,用于经由脉动处理流水线的多个流水线级执行所述经解码的指令,其中,在执行所述经解码的指令期间,在第一流水线级处计算的点积被配置成经由输出硬件被可选择地写入从输出存储器和第二流水线级之一选择的位置,并且在第三流水线级处计算的点积被配置成经由输出硬件被可选择地写入从所述输出存储器和所述第一流水线级之一选择的位置。2.如权利要求1所述的并行处理器,其特征在于,所述经解码的指令与第一源操作数以及第二源操作数相关联,所述第一源操作数是对存储第一矩阵的多个数据元素的存储器的引用,并且所述第二操作数是对存储第二矩阵的多个数据元素的存储器的引用。3.如权利要求2所述的并行处理器,其特征在于,附加地包括硬件电路,用于:基于所述第一源操作数,将所述第一矩阵的所述多个数据元素读取到所述脉动点积单元的存储器中;以及基于所述第二源操作数,将所述第二矩阵的所述多个数据元素读取到所述脉动点积单元的存储器中。4.如权利要求3所述的并行处理器,其特征在于,附加地包括:硬件电路,所述硬件电路用于检测所述第二矩阵的所述多个数据元素内的非零值,并将所述第二矩阵的所述多个数据元素内的检测到的非零值分组到包括一个或多个数据的组中。5.如权利要求4所述的并行处理器,其特征在于,所述组包括与所述脉动处理流水线的流水线级的数量相对应的数据元素数量。6.如权利要求5所述的并行处理器,其特征在于,附加地包括硬件电路,用于:将所述组的第一数据元素提供给第一流水线级;以及将所述组的第二数据元素提供给第二流水线级。7.如权利要求6所述的并行处理器,其特征在于,第三流水线级是所述第二流水线级,并且所述脉动处理流水线包括两个流水线级。8.如权利要求6所述的并行处理器,其特征在于,附加地包括所述第二流水线级和第三流水线级之间的第四流水线级,并且其中,所述脉动处理流水线包括四个流水线级。9.如权利要求6所述的并行处理器,其特征在于,附加地包括硬件电路,用于:将所述第一矩阵的第一组多个数据元素提供给所述第一流水线级;以及将所述第二矩阵的第二组多个数据元素提供给所述第二流水线级。10.如权利要求1-9中任一项所述的并行处理器,其特征在于,所述脉动处理流水线是第一脉动处理流水线,并且所述流水线化的脉动点积单元包括第二脉动处理流水线。11.如权利要求10所述的并行处理器,其特征在于,所述第一脉动处理流水线和所述第二脉动处理流水线的每个流水线级包括一个或多个处理元件,每个处理元件包括多个并行的处理器通道,并且每个并行的处理器通道能配置成对具有多个数据元素的向量执行操作。12.一种加速器设备,包括:主机接口;
结构互连,与所述主机接口耦合;以及一个或多个硬件片,与所述结构互连耦合,所述一个或多个硬件片包括稀疏矩阵乘法加速硬件,所述稀疏矩阵乘法加速硬件包括带有反馈输入的模块化脉动处理阵列,所述模块化脉动处理阵列包括具有第一数量的流水线路径的一个或多个处理阵列模块,所述第一数量的流水线路径具有第二数量的流水线级,其中第一流水线级能配置成接收来自最终流水线级的反馈输出。13.如权利要求12所述的加速器设备,其特征在于,所述模块化脉动处理阵列包括多个阵列模块。14.如权利要求12所述的加速器设备,其特征在于,所述一个或多个处理阵列模块包括流水线路径,所述流水线路径配置有:用于读取与第一源输入相关联的数据元素的共享硬件电路,以及用于读取与第二源输入相关联的数据元素的单独的硬件电路。15.如权利要求12所述的加速器设备,其特征在于,所述一个或多个处理阵列模块包括流水线路径,所述流水线路径配置有:用于读取与第一源输入相关联的数据元素的单独的硬件电路,以及用于读取与第二源输入相关联的数据元素的单独的硬件电路。16.如权利要求15所述的加速器设备,其特征在于,所述一个或多个处理阵列模块包括硬件电路,所述硬件电路被配置成:检测所述第二源输入中的非零数据元素,并基于所述第二源输入的所述非零数据元素以及所述第一源输入的与所述第二输入的所述非零数据元素相对应的数据元素来选择性地执行点积操作。17.如权利要求16所述的加速器设备,其特征在于,所述一个或多个处理阵列模块包括流水线路径,所述流水线路径包括用于每个流水线级的单独的输出硬件。18.如权利要求17所述的加速器设备,其特征在于,所述一个或多个处理阵列模块包括:第一流水线路径,能配置成执行具有第一组输入的第一点积指令;以及第二流水线路径,能配置成执行具有第二组输入的第二点积指令。19.一种经由具有多级处理流水线的硬件矩阵乘法加速器对一组输入矩阵执行点积操作的方法,所述方法包括:经由第一源操作数,将第一矩阵的多个数据元素读取到所述硬件矩阵乘法加速器的存储器中;经由第二源操作数,将第二矩阵的多个数据元素读取到所述硬件矩阵乘法加速器的所述存储器中;检测所述第二矩阵的所述多个数据元素内的非零值;将所述第二矩阵的所述多个数据元素内的所述非零值分组到包括一个或多个数据元素的组中,其中,所述组的数据元素的数量与所述硬件矩阵乘法加速器的所述多级处理流水线中的级的数量相对应;将所述组的数据元素提供给所述处理流水线的对应级;将所提供的所述组的数据元素与所述第一矩阵的多个数据元素相乘以生成一组乘积;将所述一组乘积求和,并将所述一组乘积的和与累加器值累加;以及将累加器值写入所述处理流水线的下一级。20.如权利要求19所述的方法,其特征在于,将所述累加器值写入所述处理流水线的所述下一级包括:将流水线反馈值写入所述处理流水线的第一级。
21.如权利要求19所述的方法,其特征在于,将所述组的数据元素提供给所述处理流水线的对应级包括:将所述数据元素广播给所述对应级的处理元件的多个通道。22.如权利要求19所述的方法,其特征在于,检测所述第二矩阵的所述多个数据元素内的所述非零值包括:检测所述硬件矩阵乘法加速器的所述存储器内的所述非零值。23.一种系统,包括用于执行如权利要求19

22中的任一项所述的方法的装置。

技术总结
本文中描述了一种加速器设备,其包括:主机接口;与主机接口耦合的结构互连;以及与结构互连耦合的一个或多个硬件片,该一个或多个硬件片包括稀疏矩阵乘法加速硬件,该稀疏矩阵乘法加速硬件包括带有反馈的输入脉动阵列。乘法加速硬件包括带有反馈的输入脉动阵列。乘法加速硬件包括带有反馈的输入脉动阵列。


技术研发人员:S
受保护的技术使用者:英特尔公司
技术研发日:2020.12.25
技术公布日:2021/11/4
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献