一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种基于FIFO的可变长循环移位寄存器的PE计算单元结构的制作方法

2021-06-18 20:19:00 来源:中国专利 TAG:人工智能 集成电路 单元 变长 循环
一种基于FIFO的可变长循环移位寄存器的PE计算单元结构的制作方法

本发明属于人工智能及集成电路领域,具体涉及基于fifo的可变长循环移位寄存器的pe计算单元结构。



背景技术:

随着人工智能的蓬勃发展,几乎各个行业和领域都开始运用人工智能来解决实际问题,该技术被广泛地应用于图像识别,语音识别,医疗卫生以及自动驾驶等各个领域,相信该技术在未来将会覆盖到更多的实际应用场所当中。人工智能的快速发展得益于各种深度学习算法的研究突破,其中包含的深度卷积神经网络(cnn)是一种经典的深度学习算法,该算法通过对输入图像进行特征提取与计算等操作来完成目标物的识别,检测和分割等多种任务。

目前,许多cnn是在通用处理器上(centralprocessingunit,cpu)上通过软件方式实现,然而受限于cpu采用串行的计算方式,使得计算效率不高。有鉴于此,本发明提供一种基于fifo的可变长循环移位寄存器的pe计算单元结构,本案由此产生。



技术实现要素:

本发明的目的在于提供一种基于fifo的可变长循环移位寄存器的pe计算单元结构,围绕基于fifo的可变长循环移位寄存器、pe单元、pe阵列、最大池化等关键模块实现了cnn的fpga端加速。

为实现上述目的,本发明的具体技术方案为:一种基于fifo的可变长循环移位寄存器的pe计算单元结构,包括

fifo的可变长循环移位寄存器:所述移位寄存器分为三个状态,状态机状态不同时,fifo功能和循环移位寄存器功能;

pe单元:pe单元进行例化、连接,并与其他小模块进行集成,生成指定规模的计算阵列,生成pe阵列。

进一步,所述循环移位功能用于卷积运算中的卷积核的复用,fifo功能用于卷进运算中数据的按顺序输入。

进一步,所述小模块为relu。

进一步,所述fifo有先入先出的特性,并结合外部的控制信号。

进一步,所述pe单元实现通用性的一维卷积,并通过行固定流的方法进一步实现支持多feature、多卷积核和多通道的卷积运算。

进一步,pe单元工作之前,先把排好序的filter数据和feature数据写入到移位寄存器中。

本发明的有益效果:传统的移位寄存器结构,如果输入数据在进入移位寄存器时不连续,则寄存器链中间会插入无效数据,不利于计算的控制。因此,本文在fifo(firstinfirstout)结构的基础上设计可变长度的移位寄存器。

该移位寄存器分为三个状态,图中的实线表示当前状态的数据流。当状态机状态不同时,该模块包含fifo功能和循环移位寄存器功能。其中,循环移位功能用于卷积运算中的卷积核的复用,fifo功能用于卷进运算中数据的按顺序输入。

pe单元的实现采用基于fifo的循环移位寄存器配合乘法器实现复杂的乘法功能。其中循环移位寄存器中存放用于本轮计算的feature值和filter值。将feature值和filter值按照一定的顺序排列好放到循环移位寄存器中。

将上述pe单元进行例化、连接,并与其他小模块如relu进行集成,生成指定规模的计算阵列,即生成pe阵列。跟绝相应网络的结构和层数,配置相关的pe阵列系数,使该阵列用于卷积神经网络的计算中,即可实现基于fpga的卷积神经网络加速功能。

附图说明

图1是本发明中设计的基于fifo的可变长移位寄存器架构图;图2是本发明中设计的pe单元架构图;图3是本发明中设计的pe阵列架构图。

具体实施方式

基于fifo的可变长循环移位寄存器,是为实现卷积运算中卷积核的复用和数据流输入而设计的一种结构。传统的移位寄存器结构,如果输入数据在进入移位寄存器时不连续,则寄存器链中间会插入无效数据,不利于计算的控制。因此,本文在fifo(firstinfirstout)结构的基础上设计可变长度的移位寄存器。

fifo为先入先出队列,基本的控制信号有读/写时钟、读/写使能、空/满信号和输出数据有效信号。fifo内部有读指针和写指针,二者复位时都复位到0,写指针指向下一个要写入的地址,每次写操作后写指针自加1;读指针指向下一个要读出数据的地址,每次读操作后读指针自加1。当读指针与写指针完全相同时,fifo为空;当写指针比读指针多跑一圈(fifo的深度)时,fifo为满。

本模块利用了fifo先入先出的特性,结合外部的控制信号,实现了一个最大长度为fifo深度的可变长移位寄存器。如图1所示,该模块有两种工作状态,其实现的功能分别为:fifo的读出数据直接作为fifo的写入数据,作为一个循环移位寄存器时;以及读出的数据直接写入fifo中,fifo中的数据总量保持不变,为写指针和读指针的差值。

pe单元实现通用性的一维卷积,并通过行固定流的方法进一步实现支持多feature、多卷积核和多通道的卷积运算。pe单元的实现采用基于fifo的循环移位寄存器配合乘法器实现复杂的乘法功能。

由于本文设计中的一个pe单元只有一个乘法器,其结构如图2所示,为了实现多卷积核、多输入特征图、多通道的通用性卷积计算,采用基于fifo的循环移位寄存器配合乘法器实现发杂的乘法功能。其中循环移位寄存器中存放用于本轮计算feature值和filter值。

通过精心安排feature和filter数据的排列顺序,一次性将本轮一维卷积计算过程中多个feature及filter的数据排序后读入pe单元中,避免了多次从全局存储中读同一个filter或feature的数据,从而可以最大化卷积计算过程中的数据复用。

pe单元工作之前,先把排好序的filter数据和feature数据写入到移位寄存器中,其中,filter的数据个数flen×fnum×nchannel,feature的数据个数为ilen×nchannel。

pl端借鉴行固定流的思想设计pe阵列数据流,围绕基于fifo的可变长循环移位寄存器、pe单元、pe阵列、最大池化等关键模块展开叙述。最终,本文完成了可配置参数的卷积神经网络电路生成器的设计,且系统拥有多通道、多filter、多feature的通用性卷积功能。

基于本专利上述的pe单元,pearray模块直接复用该模块即可实现pe阵列,其结构如图3所示。在综合考虑到vcu118fpga开发板上的dsp资源、存储资源以及加速器性能的情况下,本文拟将pe阵列配置成3×14×64的尺寸大小,计算位宽设置为8bit。

filter的数据通过一个通道传入到pe阵列,一次传送512bit(8bit×64),即一个二维点上所有通道的数据。feature一次传入8192bit(8bit×64×16)数据,即一次卷积计pe算阵列中所需要的所有图像数据。

pe阵列的数据流基于行固定流的思想,filter数据进行水平方向的分发,feature数据进行对角方向的分发,每一列计算出输出特征图某一行的数据。当pe单元完成计算时,首先,分别在pe通道方向进行累加。再将同一列pe累加过后的结果进行累加。当完整的一个卷积计算完成时,累加得到的最终卷积结果传入到relu模块,relu进行相应操作得到结果。

本文设计的cnn加速器系统采用多级流水线结构以提高电路的运行频率,通过对输入数据的设计安排,本文实现了同时计算多特征图、多通道、多卷积核的通用性卷积计算加速.最终能够跑到的最高时钟频率为140mhz,综合器在综合乘法器时选用了lut资源,而很少使用dsp资源。

再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献

  • 日榜
  • 周榜
  • 月榜