一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

应用于Transformer神经网络的层归一化处理硬件加速器及方法与流程

2022-03-01 22:29:41 来源:中国专利 TAG:

技术特征:
1.一种应用于transformer神经网络的层归一化处理硬件加速器,其特征在于,所述层归一化处理硬件加速器包括:中间矩阵存储单元、第一均值计算单元、第二均值计算单元、第一平方计算单元、第二平方计算单元、平方根倒数计算单元及输出矩阵计算单元;所述中间矩阵存储单元的输出端接至所述输出矩阵计算单元;所述第一均值计算单元的输出端分别接至所述第一平方计算单元及所述输出矩阵计算单元;所述第一平方计算单元的输出端接至所述平方根倒数计算单元;所述第二平方计算单元的输出端接至所述第二均值计算单元;所述第二均值计算单元的输出端接至所述平方根倒数计算单元;所述平方根倒数计算单元的输出端接至所述输出矩阵计算单元。2.根据权利要求1所述的应用于transformer神经网络的层归一化处理硬件加速器,其特征在于,所述中间矩阵存储单元用于获取并存储所述中间矩阵,所述中间矩阵为多头注意力层处理过程中的第一中间矩阵或前馈层处理过程中的第二中间矩阵;所述第一均值计算单元用于计算所述中间矩阵中每行元素的均值,并将计算结果输入至所述第一平方计算单元;所述第一平方计算单元用于对所述第一均值计算单元输入的值执行平方运算,获取所述中间矩阵中每行元素均值的平方;所述第二平方计算单元用于针对所述中间矩阵中的每个元素执行平方运算,获取平方矩阵;所述第二均值计算单元用于计算所述平方矩阵每行元素的均值;所述平方根倒数计算单元用于根据所述中间矩阵每行元素均值的平方及所述平方矩阵每行元素的均值,获取所述中间矩阵每行元素方差的平方根倒数;所述输出矩阵计算单元用于对所述中间矩阵的每个元素、所述中间矩阵每行元素的均值及所述中间矩阵每行元素方差的平方根倒数进行层归一化处理,获得所述多头注意力层或所述前馈层最终的输出矩阵。3.根据权利要求2所述的应用于transformer神经网络的层归一化处理硬件加速器,其特征在于,所述平方根倒数计算单元在根据所述中间矩阵每行元素均值的平方及所述平方矩阵每行元素的均值,获取所述中间矩阵每行元素方差的平方根倒数的过程中,用于根据以下公式,获取所述中间矩阵每行元素的方差:var(g,i)=e(g,i)
2-f(i,k);其中,var(g,i)表示所述中间矩阵g第i行元素的方差,e(g,i)表示所述中间矩阵g第i行元素的均值,f(i,k)表示所述平方矩阵第i行元素的均值,g(i,k)表示所述中间矩阵第i行第k列的元素,d
model
表示所述中间矩阵的总列数。4.根据权利要求2或3所述的应用于transformer神经网络的层归一化处理硬件加速器,其特征在于,所述输出矩阵计算单元用于根据以下公式,对所述中间矩阵的每个元素、
所述中间矩阵每行元素的均值及所述中间矩阵每行元素方差的平方根倒数进行层归一化处理,获取所述多头注意力层或所述前馈层最终的输出矩阵:其中,output(i,j)表示所述输出矩阵中第i行第j列的元素,var(g,i)表示所述中间矩阵g第i行元素的方差,g(i,j)表示所述中间矩阵g第i行第j列的元素,e(g,i)表示所述中间矩阵第i行元素的均值,ε为第一参数,γ
j
表示第二参数,β
j
表示第三参数。5.根据权利要求1或2所述的应用于transformer神经网络的层归一化处理硬件加速器,其特征在于,所述第一均值计算单元包括多个第一均值计算子单元,所述第二均值计算单元包括多个第二均值计算子单元,所述第一平方计算单元包括多个第一平方计算子单元,所述第二平方计算单元包括多个第二平方计算子单元,所述平方根倒数计算单元包括多个平方根倒数计算子单元,所述输出矩阵计算单元包括多个输出矩阵计算子单元;所述第一均值计算子单元、所述第二均值计算子单元、所述第一平方计算子单元、所述第二平方计算子单元、所述平方根倒数计算子单元及所述输出矩阵计算子单元的数量均与所述多头注意力层中任一输入矩阵的行数一致。6.一种应用于transformer神经网络的层归一化处理方法,其特征在于,所述层归一化处理方法应用于权利要求1-5任一项所述的应用于transformer神经网络的层归一化处理硬件加速器,所述层归一化处理方法包括:将中间矩阵的所有元素按照列序依次输入至中间矩阵存储单元中,其中,若当前运算属于多头注意力层,则所述中间矩阵为第一中间矩阵,若当前运算为前馈层,则所述中间矩阵为第二中间矩阵;将中间矩阵的每行元素分别输入至多个第一均值计算子单元中,计算出所述中间矩阵中每行元素的均值;以及将中间矩阵的每行元素分别输入至多个第二平方计算子单元中,获取平方矩阵;将所述中间矩阵中每行元素的均值分别输入至多个第一平方计算子单元中,获取所述中间矩阵中每行元素均值的平方;将所述平方矩阵中每行元素分别输入至多个第二均值计算子单元中,计算出所述平方矩阵中每行元素的均值;将所述中间矩阵中每行元素均值的平方及所述平方矩阵中每行元素的均值分别输入至多个平方根倒数计算子单元中,获得所述中间矩阵每行元素方差的平方根倒数;分别将所述中间矩阵的每个元素、所述中间矩阵每行元素的均值及所述中间矩阵每行元素方差的平方根倒数分别输入至多个输出矩阵计算子单元中,获得所述多头注意力层或所述前馈层最终的输出矩阵。7.一种计算机设备,其特征在于,包括:存储器,用于存储计算机程序;处理器,用于执行所述计算机程序时实现如权利要求6所述的应用于transformer神经网络的层归一化处理方法的步骤。8.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机
程序,所述计算机程序被处理执行时实现如权利要求6所述的应用于transformer神经网络的层归一化处理方法的步骤。

技术总结
本申请公开了应用于Transformer神经网络的层归一化处理硬件加速器及方法,该硬件加速器包括中间矩阵存储单元、第一均值计算单元、第二均值计算单元、第一平方计算单元、第二平方计算单元、平方根倒数计算单元及输出矩阵计算单元。中间矩阵存储单元、第一均值计算单元及平方根倒数计算单元的输出端均接至输出矩阵计算单元,第一均值计算单元的输出端接至第一平方计算单元。第一平方计算单元的输出端接至平方根倒数计算单元。第二平方计算单元的输出端接至第二均值计算单元。第二均值计算单元的输出端接至平方根倒数计算单元。通过硬件加速器执行层归一化处理,能够减小延时,提高Transformer神经网络的运算速度和效率。Transformer神经网络的运算速度和效率。Transformer神经网络的运算速度和效率。


技术研发人员:王中风 路思远 王美琪 梁双 林军
受保护的技术使用者:南京大学
技术研发日:2020.08.31
技术公布日:2022/2/28
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献