基于神经网络的数据处理的制作方法

2022-03-13 18:41:42 来源：中国专利 TAG：

基于神经网络的数据处理
1.相关申请的交叉引用
2.本技术要求于2020年9月10日向韩国知识产权局提交的申请号为10-2020-0115911的韩国专利申请的优先权，其通过引用整体并入本文。
技术领域
3.本专利文献中公开的技术总体涉及一种数据处理技术，并且更特别地，涉及一种使用神经网络运算的数据处理系统及其操作方法。

背景技术：

4.涉及模仿人类智力的方法的人工智能技术已经越来越多地应用于图像识别、自然语言处理、自动驾驶车辆、自动化系统、医疗护理、安全、金融等应用领域。
5.人工神经网络是实施人工智能的一种方式。人工神经网络的目标是提高机器的问题解决能力；即，通过训练提供基于学习的推理。然而，随着所输出的推理的准确度增加，计算量、存储器访问的次数以及所传送的数据量也随之增加。
6.所需资源的这种增加可能导致速度的降低、功耗的增加和其他问题，并且因此系统性能可能劣化。

技术实现要素：

7.除了其他特征和益处之外，所公开技术的实施例可以基于经由人工神经网络的处理以改进使用多个加速器实现的数据处理系统的性能的方式来实施。在示例中，该优点可以通过在多个加速器交换数据之前改变该数据的精度来实现。
8.在用于实施所公开技术的实施例中，一种数据处理系统可以包括：多个加速器，被配置为接收包括用于神经网络的训练数据的输入数据，其中多个加速器中的每一个被配置为执行多个历元段过程，在执行多个历元段过程中的至少一个之后与其他加速器共享与损失函数相关联的梯度数据，并且基于梯度数据来更新神经网络的权重。损失函数包括由神经网络输出的预测值和实际值之间的误差。多个加速器中的每一个包括：精度调整器，被配置为基于针对输入数据的梯度数据的方差和多个历元段过程的总数量中的至少一个来调整梯度数据的精度，并且将经精度调整的梯度数据传输到其他加速器；以及电路，被配置为基于输入数据、权重和梯度数据中的至少一个来更新神经网络。
9.在用于实施所公开技术的另一实施例中，一种数据处理系统的操作方法，该数据处理系统包括多个加速器，该多个加速器被配置为接收包括用于神经网络的训练数据的输入数据，其中多个加速器中的每一个被配置为执行多个历元段过程，在执行多个历元段过程中的至少一个之后与其他加速器共享与损失函数相关联的梯度数据，并且基于梯度数据更新神经网络的权重，其中损失函数包括由神经网络输出的预测值与实际值之间的误差，并且其中该方法包括：多个加速器中的每一个：基于针对输入数据的梯度数据的方差和多个历元段过程的总数量中的至少一个来调整梯度数据的精度，将经精度调整的梯度数据传
输到其他加速器，并且基于输入数据、权重和梯度数据中的至少一个来更新神经网络模型。
10.在用于实施所公开技术的实施例中，一种数据处理系统可以包括：多个电路，该多个电路被联接以形成用于数据处理的神经网络，多个电路包括多个加速器，该多个加速器被配置为接收包括用于神经网络的训练数据的输入数据。多个加速器中的每一个被配置为接收至少一个小批量数据(mini-batch)，小批量数据通过将训练数据以预定的批量大小划分而生成，针对每个历元段过程，与其他加速器共享经精度调整的梯度数据，执行基于所共享的梯度数据来更新神经网络的权重的多个历元段过程，并且其中梯度数据与包括由神经网络输出的预测值和实际值之间的误差的损失函数相关联。
11.在说明书、附图和权利要求书中更详细地描述了这些和其他特征、方面和实施例。
附图说明
12.通过下面结合附图的详细描述，将更清楚地理解本公开的主题的上述和其他方面、特征和优点。
13.图1a和图1b是示出根据所公开技术的实施例的示例人工神经网络的数据处理的示图。
14.图2是示出根据所公开技术的实施例的示例训练过程的示图
15.图3是示出根据所公开技术的实施例的神经网络模型的示例学习(或训练)循环的示图。
16.图4是示出根据所公开技术的实施例的分布式神经网络学习系统架构的示例的示图
17.图5是示出根据所公开技术的实施例的分布式神经网络学习系统架构的另一示例的示图。
18.图6是示出根据所公开技术的实施例的加速器的示例配置的示图。
19.图7a是示出根据所公开技术的实施例的精度调整器的示例配置的示图。
20.图7b示出根据所公开技术的实施例的由图7a所示的精度调整器执行的一组示例操作。
21.图8示出根据所公开技术的实施例的堆叠式半导体设备的示例。
22.图9示出根据所公开技术的实施例的堆叠式半导体设备的另一示例。
23.图10示出根据所公开技术的实施例的堆叠式半导体设备的又一示例。
24.图11示出根据所公开技术的实施例的包括数据存储装置的网络系统的示例。
具体实施方式
25.图1a和图1b是示出根据所公开技术的实施例的示例人工神经网络的数据处理的示图。
26.如图1a所示，人工神经网络10可以包括输入层101、至少一个隐藏层103和输出层105，并且层101、103和105中的每一个可以包括至少一个节点。
27.输入层101被配置为接收用于导出预测值(输出值)的数据(输入值)。当接收n个输入值时，输入层101可以包括n个节点。在人工神经网络的训练过程期间，输入值是(已知的)训练数据，而在人工神经网络的推理过程期间，输入值是待识别的数据(识别目标数据)。
28.输入层101和输出层105之间的隐藏层103被配置为从输入层101中的输入节点接收输入值，基于分配给神经网络中的节点的权重参数或系数来计算加权和，将加权和应用于传递函数，并且将传递函数传输到输出层105。
29.输出层105被配置为使用在隐藏层103中确定的特征来确定输出模式，并且输出预测值。
30.在一些实施例中，输入节点、隐藏节点和输出节点都通过具有权重的网络联接。在示例中，隐藏层103可以通过节点的权重参数和偏置参数(分别被称为权重和偏置)来学习或导出隐藏在输入值中的特征。
31.权重参数被配置为调整节点之间的连接强度。例如，权重可以调整每个节点的输入信号对输出信号的影响。
32.在一些实施例中，例如，权重参数的初始值可以被任意地分配，并且可以通过学习(训练)过程被调整为最佳地拟合预测值的值。
33.在一些实施例中，传输到输出层的传递函数是激活函数，当隐藏层103中的每个节点的输出信号等于或大于阈值时，该激活函数被激活以将输出信号传输到下一节点。
34.偏置参数被配置为调整每个节点处的激活程度。
35.人工神经网络实施方案包括训练过程，该训练过程通过确定包括权重参数和偏置参数的多个参数来生成学习或训练模型，使得输出数据类似于输入的训练数据。人工神经网络实施方案进一步包括使用在训练过程中生成的学习或训练模型来处理输入的识别目标数据的推理过程。
36.在一些实施例中，例如图1b所示的示例，训练过程可以包括形成训练数据集，获得关于诸如图1b所示的示例中的权重参数的参数的损失函数的梯度，其中权重和偏置被应用于训练数据以减小损失函数的值，向使损失函数最小化的梯度方向更新权重，并且执行获得梯度并更新权重的步骤预定次数。
37.在一些实施例中，损失函数是从输出层105输出的预测值与实际值之间的差值。例如，损失函数可以通过将参数指示为均方误差(mse)，交叉熵误差(cee)或其他形式的参数的一个或多个误差来在数学上表示。在示例中，mse损失函数可以利用关于权重参数的二次函数(凸函数)来表示，如图1b所示。
38.在图1b所示的示例损失函数中，存在梯度为零(0)的点(全局最小值)，并且损失函数可以收敛到全局最小值。因此，可以使用计算损失函数的切线的梯度的微分来确定全局最小值。下面描述确定全局最小值的方法的具体示例。
39.首先，可以选择初始权重，并且在所选择的初始权重处计算损失函数的梯度。
40.为了确定损失函数的下一点，通过将学习系数应用于初始权重来更新权重，这导致权重移动到下一点。在示例中，为了尽可能快地确定全局最小值，权重可以被配置为在与梯度的方向相反的方向(负方向)上移动。
41.重复上述操作导致梯度逐渐接近最小值，并且作为结果，权重收敛到全局最小值，如图1b所示。
42.通过重复执行一系列操作来寻找最佳权重以便逐渐最小化损失函数的过程被称为梯度下降(gd)方法。在示例中，该系列操作包括基于损失函数的梯度计算当前权重，并且通过将学习系数应用于梯度来更新权重。
43.图2是示出根据所公开技术的实施例的示例训练过程的示图。
44.如图2所示，在从输入层101指向输出层105的正向方向上操作或进行的正向传播(fp)过程中，从输入层101接收数据的隐藏层103的神经网络模型使用初始化的权重和偏置来输出预测值。
45.预测值和实际值之间的误差可以通过输出层105中的损失函数来计算。
46.在从输出层105指向输入层101的反向方向上操作或进行的反向传播(bp)过程中，使用损失函数的梯度值在使损失函数的误差最小化的方向上更新权重和偏置。
47.如上所述，损失函数可以是实际值和预测值之间的差值(或误差)被量化以确定权重的函数。在示例中，增大的误差导致损失函数的值的增大。寻找使损失函数的值最小化的权重和偏置的过程被称为训练过程。
48.作为用于寻找最优权重和偏置的优化方法的梯度下降(gd)方法的一种实施方案可包括重复执行获得针对一个或多个参数(例如，权重和/或偏置)的损失函数的梯度并且在降低梯度的方向上连续移动参数的操作，直到参数达到最小值。在一些实施方案中，可以对全体输入数据执行这样的gd方法，并且因此可能需要较长的处理时间。
49.随机梯度下降(sgd)方法是一种优化方法，其在调整一个或多个参数的值时仅针对随机选择的一条数据(而不是上述示例中的全体数据)计算梯度以提高计算速度。
50.与上述对全体数据执行计算的示例gd方法或对一条数据执行计算的sgd方法不同，通过针对一定量的数据计算梯度来调整一个或多个参数的值的优化方法被称为小批量随机梯度下降(msgd)方法。msgd方法比gd方法计算速度更快，并且比sgd方法更稳定。
51.图3是示出根据所公开技术的实施例的神经网络模型的示例学习(或训练)循环的示图。
52.在一些实施例中，神经网络模型使用单个fp过程和单个bp过程处理全体训练数据的循环被称为“1-历元(epoch)”。在示例中，权重(或偏置)可以在1-历元期间被更新一次。
53.当在1-历元中同时处理全体训练数据t时，即使较高性能的系统也可能受到不利影响；系统负载可能增加，并且处理速度可能降低。为了减轻这些影响，训练数据t被分成批量数据(batch)(或小批量数据(mini-batch))，并且在将1-历元分成多个历元段(epoch segment)i之后通过1-历元处理训练数据t，这样降低了计算要求。在这个框架中，批量数据或小批量数据指的是在一个历元段中处理的数据集，并且包括在一个批量数据中的数据量被称为批量大小b。在一些实施例中，历元段中的每一个可以被称为“迭代”。
54.在本文中，1-历元现在包括学习所有小批量数据(例如，t/b＝i)，其中训练数据t以批量大小b被划分，并且通过多个历元段i来处理。
55.例如，可以通过执行历元段过程预定次数来更新神经网络模型，该预定次数基于通过将全体训练数据t以设定的批量大小b进行划分而确定的多个小批量数据i。每个历元段过程的操作包括：针对每个小批量数据计算损失函数的梯度作为学习(或训练)阶段的一部分，并且整合在各个历元段计算的梯度。
56.在一些实施例中，基于系统的性能、所需的准确度和速度来确定批量大小b、历元重复次数(即，历元段的数量)和其他参数。
57.图4和图5是示出根据所公开技术的实施例的分布式神经网络学习或训练系统架构的示图。
58.在许多应用中，待训练或推理的数据量大，并且可能难以在一个神经网络处理设备(例如，计算机、服务器、加速器等)中训练这种数据量。因此，所公开技术的实施例包括用于分布式神经网络的数据处理系统，其可以在多个神经网络处理设备(神经网络处理设备中的每一个执行历元段过程)中并行地对通过划分全体训练数据而获得的多个数据集(小批量数据)进行训练，并且整合训练阶段的结果。
59.如图4所示，示例数据处理系统20-1包括至少一个主处理器201和多个从处理器203-1至203-n。
60.多个从处理器203-1至203-n可以接收小批量数据并且对小批量数据中包括的输入数据并行地执行训练(学习)过程。例如，如果全体训练数据被分成n个小批量数据，则用于构成1-历元的小批量数据的多个历元段可以在单独的处理器203-1至203-n中并行处理。
61.在每个历元段中，从处理器203-1至203-n中的每一个通过将权重和偏置应用于输入数据，并且在损失函数的梯度方向上更新权重和偏置使得预测值与实际值之间的误差最小化，来输出预测值。
62.在一些实施例中，在从处理器203-1至203-n中计算的历元段的权重和偏置可以在每个历元中被整合，并且从处理器203-1至203-n可以在每个历元完成之后具有彼此相同的权重和偏置。所得到的神经网络通过并行地执行多个历元段过程来更新权重和偏置。
63.在一些实施例中，在每个历元段中(在训练阶段期间)计算的从处理器203-1至203-n的损失函数的梯度可以在主处理器201中被共享和减小(例如，被平均)，并且随后被分配给从处理器203-1至203-n。
64.在一些实施例中，主处理器201也可以接收小批量数据，并且与从处理器203-1至203-n一起执行历元段过程。
65.如图5所示，数据处理系统20-2包括多个处理器205-1至205-n，而没有任何处理器被分类为主设备或从设备。
66.图5中所示的处理器205-1至205-n接收小批量数据，并且并行地对小批量数据中包括的输入数据执行历元段过程。作为处理器205-1至205-n的历元段过程的结果而导出的损失函数的梯度可以在处理器205-1至205-n之间共享。
67.当损失函数的梯度在处理器205-1至205-n之间共享时，处理器205-1至205-n可以减小梯度。因此，神经网络的处理器205-1至205-n可以通过利用相同的权重和偏置处理(用于随后的训练阶段的)下一历元来更新权重和偏置。
68.在一些实施例中，图4和图5所示的多个处理器可以通过总线彼此联接，或者可以通过诸如以太网、光纤通道或无限带宽(infiniband)的结构网络联接。在示例中，处理器可以利用针对神经网络运算而特别优化的硬件加速器来实施。
69.图6是示出根据所公开技术的实施例的加速器的示例配置的示图。
70.如图6所示，加速器100包括处理器111、接口电路113、只读存储器(rom)1151、随机存取存储器(ram)1153、集成缓冲器117、精度调整器119和运算电路120，运算电路120包括每个被标记为代表“处理元件”的“pe”的处理电路。
71.在一些实施方案中，处理器111控制运算电路120、集成缓冲器117和精度调整器119，以允许执行从主机(未示出)请求处理的神经网络应用的程序代码。
72.接口电路113提供加速器100可以与另一加速器、安装有加速器100的系统上的输
入/输出(i/o)电路和系统存储器等通信的环境。例如，接口电路113可以是诸如外围部件互连(pci)、高速pci(pci-e)或结构接口电路的系统总线接口电路，但是不限于此。
73.rom 1151存储加速器100的操作所需的程序代码，并且还可以存储程序代码所使用的代码数据等。
74.ram 1153存储加速器100的操作所需的数据或通过加速器100生成的数据。
75.集成缓冲器117存储神经网络的超参数，其包括i/o数据、参数的初始值、历元重复次数、从运算电路120输出的运算的中间结果等。
76.在一些实施例中，运算电路120被配置为执行近存储器处理(pnm)或存储器中处理(pim)，并且包括多个处理元件(pe)。
77.运算电路120可以基于数据和一个或多个参数来执行神经网络运算，例如矩阵乘法、累加、归一化、池化和/或其他运算。在一些实施例中，运算电路120的中间结果可以被存储在集成缓冲器117中，并且可以通过接口电路113输出最终运算结果。
78.在一些实施例中，运算电路120以预设精度执行运算。可以根据代表为更新神经网络模型而计算的运算结果的数据类型来确定运算的精度。
79.图7a是示出根据所公开技术的实施例的精度调整器的示例配置的示图。
80.图7a所示的示例使用一种如表1所示的以精度的降序被分为fp32、fp16、bf16、fp8的数据类型。
81.[表1]
[0082][0083]
fp32数据类型指示32位精度(单精度)的数据类型，其使用1个位用于符号(s)表示，8个位用于指数表示，以及23个位用于小数表示。
[0084]
fp16数据类型指示16位精度(半精度)的数据类型，其使用1个位用于符号(s)表示，5个位用于指数表示，以及10个位用于小数表示。
[0085]
bf16数据类型指示16位精度的数据类型，其使用1个位用于符号(s)表示，8个位用于指数表示，以及7个位用于小数表示。
[0086]
fp8数据类型指示8位精度的数据类型，其使用1个位用于符号(s)表示，4个位用于指数表示，以及3个位用于小数表示。
[0087]
对于这些数据类型，越高的精度导致越准确的运算表示。当多个加速器在彼此共享梯度的同时执行方差运算时，可以传输和接收具有高精度的数据。在这些情况下，神经网络的处理速度可能由于在加速器之间传送的大量数据而降低。
[0088]
在一些实施例中，在运算电路120中计算的梯度的精度可以被设置为默认值，例
如，fp32；加速器100包括精度调整器119，其被配置为基于训练过程状态在在加速器100之间交换损失函数的梯度之前调整损失函数的梯度的精度。
[0089]
在一些实施例中，精度调整器119计算在先前训练阶段的历元段过程期间处理的每个输入数据的损失函数的梯度的方差，并且基于方差值和至少一个设定的阈值来确定精度。表2示出基于方差确定精度的示例。
[0090]
在表2中，并且不失一般性地，假定阈值满足关系th0＞th1＞th2。
[0091]
[表2]
[0092][0093][0094]
在一些实施例中，在初始学习阶段中输入数据的梯度的方差可具有相对较大的值，并且输入数据的梯度的方差可随着历元被重复而减小。
[0095]
在这些情况下，在具有较高方差的初始学习阶段中，多个加速器可以以较低的精度共享梯度值，使得可以减少所交换的数据并且增加数据交换的速度。
[0096]
随着训练或学习阶段被重复，多个加速器以更高的精度共享梯度值，使得可以确定最优的权重值和偏置值。
[0097]
在一些实施例中，精度调整器119被配置为基于历元重复次数来调整精度。表3示出基于历元执行次数epo_cnt(所处理的历元的数量)和总历元重复次数t_epo之间的比较而选择精度的示例。
[0098]
[表3]
[0099]
精度历元执行次数(epo_cnt)fp8epo_cnt《[(1/4)*t_epo]bf16[(1/4)*t_epo]《epo_cnt《[(2/4)*t_epo]fp16[(2/4)*t_epo]《epo_cnt《[(3/4)*t_epo]fp32epo_cnt》[(3/4)*t_epo]
[0100]
在一些实施例中，在加速器中计算的损失函数的梯度之间存在较大的差异的初始学习或训练阶段中，可以以较低的精度交换数据以提高运算速度，并且在稍后的学习或训练阶段中，可以以更高的精度交换数据以提高运算的准确度。
[0101]
在一些实施例中，精度调整器119基于损失函数的梯度和历元执行次数来调整精度。
[0102]
在一些实施例中，在每个历元段过程中，当加速器接收到已被调整精度的梯度时，精度调整器119可以将所接收的数据类型转换成精度被设置为运算电路120的默认精度的数据类型，然后将所转换的数据类型提供给运算电路120。
[0103]
重新参照图7a，精度调整器119包括方差计算器1191、精度选择器1193、计数器1195和数据转换器1197。
[0104]
在一些实施例中，将小批量数据输入到历元段，并且计算小批量数据中包括的每个输入数据的损失函数的梯度grad。
[0105]
方差计算器1191通过每个输入数据的梯度grad计算方差var，并且将计算出的方差提供给精度选择器1193。
[0106]
每当历元段被重复设定的次数时(在训练阶段被执行多次的情况下)，计数器1195接收历元重复信号epo，增加历元执行次数epo_cnt，并且将所增加的值提供给精度选择器1193。
[0107]
精度选择器1193基于方差var和历元执行次数epo_cnt中的至少一个输出精度选择信号prec。
[0108]
数据转换器1197基于精度选择信号prec转换待与其他加速器交换的梯度grad的数据类型，并且输出经转换的梯度数据grad_prec。此外，数据转换器1197可以从其他加速器接收经精度调整的梯度grad_prec数据，并且将所接收的数据转换成具有被设置为运算电路120的默认精度值的数据类型的梯度grad数据。
[0109]
如上所述，可以基于训练过程状态来调整在分布式加速器或处理器之间交换的数据量。这有利地防止了由于数据传输开销而导致的速度降低和瓶颈。
[0110]
图7b示出由图7a所示的精度调整器执行的一组示例操作700。如其中所示，该组操作700包括在操作710处接收输入梯度值。
[0111]
该组操作700包括在操作720处使用方差计算器基于输入梯度值计算方差。
[0112]
该组操作700包括在操作730处接收历元重复信号(epo)并且增加历元执行次数(epo_cnt)。
[0113]
该组操作700包括在操作740处使用精度选择器基于方差和/或历元执行次数确定精度。在一些实施例中，基于将方差与阈值进行比较来确定精度(例如，如表2中所描述的)。在其他实施例中，基于历元执行次数来确定精度(例如，如表3中所描述的)。
[0114]
该组操作700包括在操作750处使用数据转换器将输入梯度值转换成具有由精度选择器确定的精度的输出梯度值。
[0115]
根据用于数据的神经网络处理的各种特征的以上示例，图8至图10示出用于实施所公开技术的硬件的堆叠式半导体设备的示例。
[0116]
图8到图10所示的堆叠式半导体示例包括使用硅通孔(tsv)堆叠并连接的多个管芯。所公开技术的实施例不限于此。
[0117]
图8示出包括堆叠有多个存储器管芯的堆叠结构410的堆叠式半导体设备40的示例。在示例中，堆叠结构410可以被配置成高带宽存储器(hbm)类型。在另一示例中，堆叠结构410可以被配置成多个管芯堆叠并且经由硅通孔(tsv)彼此电连接的混合存储器立方体(hmc)类型，使得输入/输出单元的数量增加，从而导致带宽增加。
[0118]
在一些实施例中，堆叠结构410包括基础管芯414和多个内核管芯412。
[0119]
如图8所示，多个内核管芯412堆叠在基础管芯414上并且经由硅通孔(tsv)彼此电连接。在每个内核管芯412中，设置用于存储数据的存储器单元和用于存储器单元的内核操作的电路。
[0120]
在一些实施例中，内核管芯412可以经由硅通孔(tsv)电连接到基础管芯414，并且经由硅通孔(tsv)从基础管芯414接收信号、电力和/或其他信息。
[0121]
在一些实施例中，基础管芯414例如包括图6所示的加速器100。基础管芯414可以在堆叠式半导体设备40中执行各种功能，例如，诸如电源管理的存储器管理功能、存储器单元的刷新功能或内核管芯412与基础管芯414之间的定时调整功能。
[0122]
在一些实施例中，如图8所示，基础管芯414中包括的物理接口区域phy是地址、命令、数据、控制信号或其他信号的输入/输出区域。物理接口区域phy可以设置有能够满足堆叠式半导体设备40所需的数据处理速度的预定数量的输入/输出电路。多个输入/输出端子和电源端子可以设置在基础管芯414的后表面上的物理接口区域phy中，以接收输入/输出操作所需的信号和电力。
[0123]
图9示出堆叠式半导体设备400可以包括多个内核管芯412及基础管芯414的堆叠结构410、存储器主机420及接口衬底430。存储器主机420可以是cpu、gpu、专用集成电路(asic)、现场可编程门阵列(fpga)或其他电路实施方案。
[0124]
在一些实施例中，基础管芯414设置有用于在内核管芯412与存储器主机420之间接口连接的电路。堆叠结构410可以具有类似于参照图8所描述的结构。
[0125]
在一些实施例中，堆叠结构410的物理接口区域phy和存储器主机420的物理接口区域phy可以通过接口衬底430彼此电连接。接口衬底430可以被称为中介层(interposer)。
[0126]
图10示出根据所公开技术的实施例的堆叠式半导体设备4000。
[0127]
如其中所示，通过将图9中所示的堆叠式半导体设备400设置在封装衬底440上来获得图10中的堆叠式半导体设备4000。
[0128]
在一些实施例中，封装衬底440和接口衬底430可以通过连接端子彼此电连接。
[0129]
在一些实施例中，可以通过在接口衬底430上堆叠图9所示的堆叠结构410和存储器主机420并且出于封装的目的将它们安装在封装衬底440上来实施系统级封装(sip)型半导体设备。
[0130]
图11是示出用于实施所公开技术的基于神经网络的数据处理的网络系统5000的示例的示图。如其中所示，网络系统5000包括具有用于基于神经网络的数据处理的数据存储装置的服务器系统5300和通过网络5500联接以与服务器系统5300交互的多个客户端系统5410、5420和5430。
[0131]
在一些实施方案中，服务器系统5300响应于来自多个客户端系统5410至5430的请求而服务数据。例如，服务器系统5300可以存储由多个客户端系统5410至5430提供的数据。又例如，服务器系统5300可以向多个客户端系统5410至5430提供数据。
[0132]
在一些实施例中，服务器系统5300包括主机装置5100和存储器系统5200。存储器系统5200可以包括图1a中所示的基于神经网络的数据处理系统10、图8中所示的堆叠式半导体设备40、图9中所示的堆叠式半导体设备400或图10中所示的堆叠式半导体设备4000中的一个或多个或其组合。
[0133]
虽然本专利文件包含许多细节，但是这些细节不应被解释为对任何发明的范围或可要求保护的范围的限制，而是可以被解释为对特定于特定发明的特定实施例的特征的描述。在本专利文件中在单独实施例的上下文中描述的某些特征也可以在单个实施例中组合实施。相反，在单个实施例的上下文中描述的各种特征也可以在多个实施例中单独地或以
任何合适的子组合来实施。此外，尽管特征可以在上面被描述为在某些组合中起作用并且甚至最初被这样声称，但是来自所声称的组合的一个或多个特征在一些情况下可以从该组合中被去除，并且所声称的组合可以针对子组合或子组合的变型。
[0134]
类似地，虽然在附图中以特定顺序描绘了操作，但是这不应当被理解为要求以所示的特定顺序或以连续的顺序执行这样的操作，或者要求执行所有示出的操作以实现期望的结果。此外，在本专利文献中描述的实施例中的各种系统组件的分离不应当被理解为在所有实施例中都需要这种分离。
[0135]
仅描述了一些实施方案和示例，并且可以基于本专利文件中所描述和示出的内容来得到其他实施方案、改进和变型。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：监查系统、监查方法以及计算机可读介质与流程

基于神经网络的数据处理的制作方法

相关文献

最热文献