处理装置、神经网络的处理方法及其装置与流程

2021-10-29 21:10:00 来源：中国专利 TAG：装置神经网络人工智能深度语音

技术特征：
1.一种处理装置，包括：通过总线连接的神经网络处理单元npu、伪静态随机存储器psram和数字信号处理器dsp；其中，所述dsp，用于在内部的存储器中存储待处理的输入数据；以及存储所述npu对所述输入数据的运算结果；所述psram，用于存储神经网络的网络参数；所述npu，用于通过所述总线访问所述dsp内部的存储器，以读取得到所述待处理的输入数据，以及通过所述总线访问所述psram得到至少部分网络参数；根据读取到的所述至少部分网络参数对所述输入数据执行矩阵向量操作和卷积操作中的至少一个，并同步继续读取所述psram中的其余所述网络参数。2.根据权利要求1所述的处理装置，其中，所述dsp存储的输入数据为浮点型，所述npu包括：量化单元，用于获取所述浮点型的输入数据，对所述浮点型的输入数据进行量化得到量化后的输入数据，并将所述量化后的输入数据提供至运算单元；以及，用于对所述运算单元输出的运算结果进行反量化，得到反量化结果；所述运算单元，用于对所述量化后的输入数据执行矩阵向量操作和/或卷积操作，以得到所述输入数据的运算结果。3.根据权利要求2所述的处理装置，其中，所述运算单元，用于执行矩阵向量操作，所述量化单元用于：根据所述dsp内部的存储器所存储的浮点型的输入数据，求得用于量化的第一参数和用于反量化的第二参数；对所述浮点型的输入数据中待量化的浮点值乘以所述第一参数，并求整后转化为数值型，以得到数值型的输入数据；将所述数值型的输入数据发送至所述运算单元；将所述运算单元得到的运算结果转化为浮点型；将浮点型的运算结果乘以所述第二参数后发送至所述dsp的存储器进行存储。4.根据权利要求3所述的处理装置，其中，所述npu还包括所述总线的主接口；所述主接口，用于通过所述总线向所述dsp发送内存拷贝函数，以访问所述dsp内部的存储器，得到所述dsp内部的存储器所存储的所述浮点型的输入数据。5.根据权利要求2所述的处理装置，其中，所述运算单元，用于执行卷积操作，所述量化单元用于：对所述浮点型的输入数据进行浮点转短型的转换操作，以对转换后的短型的输入数据执行卷积操作。6.根据权利要求5所述的处理装置，其中，所述处理装置还包括与所述npu通过高速访问接口连接的随机存储器ram；所述ram，用于将所述短型的输入数据转存至所述ram中。7.根据权利要求6所述的处理装置，其中，所述运算单元包括第一寄存器、第二寄存器和累加器；所述第一寄存器，用于在第一周期从所述ram中读取所述短型的输入数据；所述第二寄存器，用于在第一周期之后的多个后续周期，读取所述psram中至少部分网
络参数，将每个周期读取的所述至少部分网络参数与所述第一寄存器中对应的输入向量进行点积运算；所述累加器，用于获取点积运算的结果，根据所述点积运算的结果进行累加，以得到卷积操作的运算结果。8.根据权利要求1
‑
7任一项所述的处理装置，其中，所述npu包括：激活单元，用于根据所述dsp存储的卷积操作的运算结果采用激活函数进行激活，并将激活结果提供给所述dsp存储。9.一种神经网络的处理方法，应用于处理装置，其中，所述处理装置包括总线连接的神经网络处理单元npu、伪静态随机存储器psram和数字信号处理器dsp；所述处理方法包括：所述npu通过所述总线访问所述dsp内部的存储器，以读取得到待处理的输入数据；所述npu通过所述总线访问所述psram得到至少部分网络参数；所述npu根据读取到的所述至少部分网络参数对所述输入数据执行矩阵向量操作和卷积操作中的至少一个，并同步继续读取所述psram中的其余所述网络参数；所述dsp存储所述npu对所述输入数据的运算结果。10.根据权利要求9所述的方法，其中，所述dsp存储的输入数据为浮点型，所述npu包括量化单元和运算单元；所述量化单元获取所述浮点型的输入数据，对所述浮点型的输入数据进行量化得到量化后的输入数据，并将所述量化后的输入数据提供至运算单元；所述运算单元对所述量化后的输入数据执行矩阵向量操作和/或卷积操作，以得到所述输入数据的运算结果；所述量化单元对所述运算单元输出的运算结果进行反量化，得到反量化结果。11.根据权利要求10所述的方法，其中，所述量化单元根据所述dsp内部的存储器所存储的浮点型的输入数据，求得用于量化的第一参数和用于反量化的第二参数，对所述浮点型的输入数据中待量化的浮点值乘以第一参数，并求整后转化为数值型，以得到数值型的输入数据，以及将所述数值型的输入数据发送至所述运算单元；所述运算单元对所述数值型的输入数据执行矩阵向量操作，得到所述运算结果；所述量化单元将所述运算结果转化为浮点型，并将浮点型的运算结果乘以所述第二参数后发送至dsp的存储器进行存储。12.根据权利要求11所述的方法，其中，所述npu还包括所述总线的主接口；所述主接口，用于通过所述总线向所述dsp发送内存拷贝函数，以访问所述dsp内部的存储器，得到所述dsp内部的存储器所存储的所述浮点型的输入数据。13.根据权利要求10所述的方法，其中，所述量化单元对所述浮点型的输入数据进行浮点转短型的转换操作；所述运算单元对转换后的短型的输入数据执行卷积操作，得到所述运算结果。14.根据权利要求13所述的方法，其中，所述npu通过高速访问接口连接随机存储器ram；所述ram，用于将所述短型的输入数据转存至所述ram中。15.根据权利要求14所述的方法，其中，所述运算单元包括第一寄存器、第二寄存器和
累加器；所述第一寄存器在第一周期从所述ram中读取所述短型的输入数据；所述第二寄存器在第一周期之后的多个后续周期，读取所述psram中至少部分网络参数，将每个周期读取的所述至少部分网络参数与所述第一寄存器中对应的输入向量进行点积运算；所述累加器获取点积运算的结果，根据所述点积运算的结果进行累加，以得到卷积操作的运算结果。16.根据权利要求9
‑
15任一项所述的方法，其中，所述npu包括激活单元，所述方法还包括：激活单元根据所述dsp存储的卷积操作的运算结果采用激活函数进行激活，并将激活结果提供给所述dsp存储。17.一种电子设备，包括：至少一个处理器；以及与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求9
‑
16任一项所述的神经网络的处理方法。18.一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行根据权利要求9
‑
16任一项所述的神经网络的处理方法。19.一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现根据权利要求9
‑
16任一项所述的神经网络的处理方法。

技术总结
本申请公开了一种处理装置、神经网络的处理方法及其装置，涉及深度学习、语音技术等领域。具体实现方案为：处理装置包括通过总线连接的神经网络处理单元NPU、伪静态随机存储器PSRAM和数字信号处理器DSP，其中，DSP在内部的存储器中存储待处理的输入数据及存储NPU对输入数据的运算结果；PSRAM存储神经网络的网络参数；NPU通过总线访问DSP内部的存储器，以读取得到待处理的输入数据，及通过总线访问PSRAM得到至少部分网络参数，根据读取到的至少部分网络参数对输入数据执行矩阵向量操作和卷积操作中的至少一个，并同步继续读取PSRAM中的其余网络参数。由此，可以实现数据读取/加载和计算的并行，从而可以提升计算效率。从而可以提升计算效率。从而可以提升计算效率。

技术研发人员：田超贾磊严小平闻军会邓广来李强
受保护的技术使用者：北京百度网讯科技有限公司
技术研发日：2021.06.18
技术公布日：2021/10/28

再多了解一些

2/2 首页上一页 1 2

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：一种基于知识蒸馏的快速行人检测方法与流程

处理装置、神经网络的处理方法及其装置与流程

相关文献

最热文献