用于训练神经网络模型的方法和设备与流程

2022-11-23 10:48:40 来源：中国专利 TAG：

用于训练神经网络模型的方法和设备
1.本技术要求于2021年5月18日在韩国知识产权局提交的第10-2021-0064266号韩国专利申请和于2021年7月13日在韩国知识产权局提交的第10-2021-0091360号韩国专利申请的权益，所述韩国专利申请的全部公开出于所有目的通过引用包含于此。
技术领域
2.下面的描述涉及一种用于训练神经网络模型的方法和设备，以在神经网络模型中执行池化时使用多个类中的每个类的概率来提高神经网络的性能。

背景技术：

3.最近，神经网络模型已经用于各种领域(包括例如自主驾驶(ad)、高级驾驶员辅助系统(adas)、虚拟现实(vr)和物联网(iot)领域)。例如，神经网络模型可用于识别图像中的对象。
4.通常用于图像识别的神经网络模型是卷积神经网络(cnn)。cnn可包括用于执行卷积运算的卷积层和用于执行池化的池化层。池化层可通过经由采样调整输入数据的尺寸来生成输出数据。
5.传统的池化方法可使用代表值或平均值，因此，在池化处理中可能发生输入数据的损失，这会降低神经网络模型的性能。需要一种用于防止池化处理中输入数据的损失的技术。

技术实现要素：

6.提供本发明内容以简化的形式介绍在下面的具体实施方式中进一步描述的构思的选择。本发明内容不意在确定要求保护的主题的关键特征或必要特征，也不意在用于帮助确定要求保护的主题的范围。
7.在一个总体方面，提供了一种处理器实现的训练神经网络模型的方法，所述方法包括：接收输入数据和目标数据，其中，输入数据包括包含多种对象的图像，并且所述多种对象分别与多个类对应，其中，目标数据包括第一目标数据和第二目标数据，第一目标数据包括地面真值标签，第二目标数据包括在输入数据中的图像中所述多个类的概率的分布；通过神经网络模型从输入数据中的图像提取特征图；通过神经网络模型基于特征图的每个类的概率对特征图进行池化，以获得池化出的特征图；通过将输入数据输入到神经网络模型来生成输出数据，其中，输出数据包括输入数据中的图像中的对象的识别结果；基于将输出数据与第一目标数据进行比较来确定第一损失，并且基于第二目标数据与池化出的特征图来确定池化的辅助损失；以及基于第一损失和辅助损失来训练神经网络模型。
8.辅助损失可包括基于第二目标数据与通过神经网络模型池化出的特征图之间的差异而确定的损失。
9.特征图可包括特征图中的元素所属的类的信息，并且特征图的每个类的概率可基于元素所属的类的信息来确定。
10.神经网络模型可被配置为：基于在由池化的比例因子确定的特征图的单元区域中的属于所述多个类中的每个类的元素的数量与包括在特征图的单元区域中的元素的总数量之比来确定特征图的每个类的概率。
11.对特征图进行池化的步骤可包括：针对所述多个类中的至少一个类，通过神经网络模型基于特征图的每个类的概率以单元区域为单位对特征图执行池化，其中，在针对所述至少一个类中的每个类而确定的相应特征图中，与每个单元区域对应的特征图的值是每个单元区域中的每个类的概率。
12.辅助损失可包括基于包括在第二目标数据中的输入数据的所述多个类的概率的分布与池化出的特征图的所述多个类的概率的分布之间的距离而计算的损失。
13.在另一总体方面，提供了一种用于训练神经网络模型的设备，所述设备包括：存储器，被配置为存储神经网络模型；以及处理器，被配置为：接收输入数据和目标数据，其中，输入数据包括包含多种对象的图像，并且所述多种对象分别与多个类对应，其中，目标数据包括第一目标数据和第二目标数据，第一目标数据包括地面真值标签，第二目标数据包括在输入数据中的图像中所述多个类的概率的分布；通过神经网络模型从输入数据中的图像提取特征图；通过神经网络模型基于特征图的每个类的概率对特征图进行池化，以获得池化出的特征图；通过将输入数据输入到神经网络模型来生成输出数据，其中，输出数据包括输入数据中的图像中的对象的识别结果；基于将输出数据与第一目标数据进行比较来确定第一损失，并且基于第二目标数据与池化出的特征图来确定池化的辅助损失，以及基于第一损失和辅助损失来训练神经网络模型。
14.辅助损失可包括基于第二目标数据与通过神经网络模型池化出的特征图之间的差异而确定的损失。
15.特征图可包括特征图中的元素所属的类的信息，并且特征图的每个类的概率可基于元素所属的类的信息来确定。
16.神经网络模型可被配置为：基于在由池化的比例因子确定的特征图的单元区域中的属于所述多个类中的每个类的元素的数量与包括在特征图的单元区域中的元素的总数量之比来确定特征图的每个类的概率。
17.神经网络模型可被配置为：针对所述多个类中的至少一个类，基于特征图的每个类的概率以单元区域为单位对特征图执行池化，其中，在针对所述至少一个类中的每个类而确定的相应特征图中，与每个单元区域对应的特征图的值是每个单元区域中的每个类的概率。
18.辅助损失可包括基于包括在第二目标数据中的输入数据的所述多个类的概率的分布与池化出的特征图的所述多个类的概率的分布之间的距离而计算的损失。
19.在另一总体方面，提供了一种处理器实现的训练神经网络模型的方法，所述方法包括：接收输入数据和目标数据，其中，输入数据包括包含多种对象的图像，并且所述多种对象分别与多个类对应，其中，目标数据包括第一目标数据和第二目标数据，第一目标数据包括地面真值标签，第二目标数据包括在输入数据的图像中所述多个类的概率的分布；从输入数据中的图像提取特征图；基于比例因子和特征图中的多个元素的多个类的概率对特征图执行池化，以获得池化出的特征图；通过将输入数据输入到神经网络模型来生成输出数据，其中，输出数据包括输入数据中的图像中的对象的识别结果；基于将输出数据与第一
目标数据进行比较来确定第一损失，并且基于第二目标数据与池化出的特征图来确定池化的辅助损失来；以及基于第一损失和辅助损失来训练神经网络模型。
20.确定特征图中的所述多个元素的所述多个类中的一个类的概率的步骤可包括：确定特征图的单元区域中的属于所述类的元素的数量与特征图的单元区域中的所有元素的数量之比。
21.辅助损失可基于特征图的所述多个类的概率的分布与第二目标数据中的输入数据的相应区域的多个类的概率的分布之间的距离。
22.基于将输出数据与第一目标数据进行比较来确定第一损失的步骤可包括：基于将输出数据与地面真值标签进行比较来确定第一损失。
23.所述方法还可包括：对第二目标数据执行池化以使池化出的第二目标数据的尺寸等于池化出的特征图的尺寸；并且辅助损失可基于池化出的特征图的所述多个类的概率的分布与池化出的目标数据的多个类的概率的分布之间的距离。
24.根据以下具体实施方式、附图和权利要求，其他特征和方面将是清楚的。
附图说明
25.图1示出训练设备的示例。
26.图2示出在神经网络模型中执行的池化运算的示例。
27.图3a至图3b示出池化运算方法的示例。
28.图4示出训练方法的示例。
29.图5示出通过执行池化而获得的结果的示例。
30.图6a至图6d示出神经网络模型的结构的示例。
31.在整个附图和具体实施方式中，除非另有描述或提供，否则相同的附图参考标号将被理解为表示相同的元件、特征和结构。附图可不按比例，并且为了清楚、说明和方便，附图中的元件的相对大小、比例和描绘可被夸大。
具体实施方式
32.提供以下具体实施方式以帮助读者获得对在此描述的方法、设备和/或系统的全面理解。然而，在理解本技术的公开之后，在此描述的方法、设备和/或系统的各种改变、修改和等同物将是清楚的。例如，在此描述的操作顺序仅是示例，并且不限于在此阐述的那些顺序，而是除了必须以特定顺序发生的操作之外，可如在理解本技术的公开之后将是清楚的那样被改变。
33.在此描述的特征可以以不同的形式实施，并且不应被解释为限于在此描述的示例。相反，已提供在此描述的示例，以仅示出在理解本技术的公开之后将是清楚的实现在此描述的方法、设备和/或系统的许多可行方式中的一些可行方式。
34.在此使用的术语仅用于描述各种示例，而将不用于限制公开。除非上下文另外清楚的指示，否则单数形式也意在包括复数形式。术语“包含”、“包括”和“具有”表明存在陈述的特征、数量、操作、构件、元件和/或它们的组合，但不排除存在或添加一个或多个其他特征、数量、操作、构件、元件和/或它们的组合。
35.在整个说明书中，当组件被描述为“连接到”或“结合到”另一组件时，该组件可直
接“连接到”或直接“结合到”所述另一组件，或者可存在介于它们之间的一个或多个其他组件。相反，当元件被描述为“直接连接到”或“直接结合到”另一元件时，可不存在介于它们之间的其他元件。
36.尽管在此可使用诸如“第一”、“第二”和“第三”、a、b、c、(a)、(b)、(c)等的术语来描述各种构件、组件、区域、层或部分，但是这些构件、组件、区域、层或部分不应受这些术语的限制。相反，这些术语仅用于将一个构件、组件、区域、层或部分与另一构件、组件、区域、层或部分区分开。因此，在不脱离示例的教导的情况下，在此描述的示例中所称的第一构件、第一组件、第一区域、第一层或第一部分也可被称为第二构件、第二组件、第二区域、第二层或第二部分。
37.在此关于示例或实施例的术语“可”的使用(例如，关于示例或实施例可包括或实现什么)表示存在包括或实现这样的特征的至少一个示例或实施例，而所有示例不限于此。
38.在下文中，将参照附图详细描述示例。当参照附图描述示例时，相同的参考标号表示相同的组件，并且将省略与相同的参考标号相关的重复描述。
39.图1示出训练设备的示例。
40.在一个示例中，当在训练中的神经网络模型103中进行池化时，可使用每个类的概率使由于池化而可能发生的损失最小化来提高神经网络模型103的性能。
41.参照图1，神经网络模型103的训练设备101可包括处理器102。处理器102可执行各种训练方法。训练设备101可包括从输入数据生成输出数据的神经网络模型103。由神经网络模型103处理的所有操作可由处理器102执行。
42.处理器102可从存储器(未示出)读取/向存储器(未示出)写入神经网络数据(例如，图像数据、特征图数据、核数据等)，并且使用读取/写入的数据来执行神经网络模型103。在一个示例中，存储器可存储神经网络模型103。当神经网络模型103被执行时，处理器102可重复地执行输入特征图与核之间的卷积运算，以生成关于输出特征图的数据。这里，可根据各种因素(诸如，以输入特征图的通道的数量、核的通道的数量、输入特征图的尺寸、核的尺寸和值的精度为例)来确定卷积运算的操作的数量。神经网络模型103可被实现为复杂的架构，其中，处理器102执行具有高达数亿到数百亿的操作计数的卷积运算，并且处理器102访问存储器以进行卷积运算的频率快速增加。
43.包括在训练设备101中的神经网络模型103可包括用于接收输入数据的输入层、用于对输入数据执行运算的隐藏层以及用于生成输出数据的输出层。在一个示例中，神经网络模型103可以是卷积神经网络(cnn)模型，但是神经网络模型103的类型或结构可不限于此。在此描述的各种训练方法可应用于执行池化的各种类型的神经网络模型。
44.输入数据和输出数据可基于神经网络模型103的使用目的而不同。在一个示例中，神经网络模型103可用于执行图像识别，输入数据可以是图像，并且输出数据可以是包括在图像中的对象，但是输入数据可不限于此，并且输出数据可基于神经网络模型103的使用目的被不同地确定。
45.参照图1，当通过有监督学习训练神经网络模型103时，目标数据可以是地面真值(ground truth)标签。在一个示例中，当输入数据是包括多个对象的图像数据时，目标数据可以是包括在图像数据中的多个对象的地面真值标签。神经网络模型103可被训练为从输入数据生成与目标数据相同的输出数据。在一个示例中，处理器102可通过比较目标数据与
输出数据来确定损失并更新神经网络模型103的参数以使损失最小化。
46.在这个示例中，神经网络模型103可包括用于从输入数据提取特征图并对特征图执行池化的多个操作块。这里，池化可表示通过采样来调整输入数据的尺寸。通过池化，数据损失可被最小化。根据在此描述的示例实施例而训练的神经网络模型103可用于各种领域的推断操作。推断操作可包括例如图像识别(例如，对象检测、对象识别、面部识别等)。
47.图2示出在神经网络模型中执行的池化运算的示例。
48.池化可表示减小数据尺寸的处理。例如，神经网络模型中的池化处理可以是减小特征图的尺寸的处理。参照图2，特征图201的尺寸可以是224
×
224
×
64。如图2中的箭头211所指示的，可对特征图201执行池化。池化出的特征图202的尺寸可以是112
×
112
×
64。
49.如图2中的箭头213所指示的，可对与特征图201对应的图像203进行下采样。参照图2，当与特征图201对应的图像203的尺寸是224
×
224并且池化的比例因子是2时，池化出的图像204的尺寸可以是112
×
112。
50.图3a至图3b示出池化运算方法的示例。
51.图3a中的子图(a)示出作为包括一个或多个对象的图像的输入数据。在一个示例中，输入数据可包括包含多个对象的图像，并且包括在图像中的像素可被分类为分别与多个对象中的每个对象对应的多个类。在一个示例中，对于城市景象数据集(cityscrapes dataset)可存在二十(20)个类。
52.图3a中的子图(b)示出从具有输入数据的区域生成的特征图。在一个示例中，可基于输入图像提取特征图，并且特征图可指示输入图像的初步识别结果。例如，特征图可指示包括在特征图中的元素所属的类的信息，并且特征图的每个类的概率可基于元素所属的类的信息来确定。特征图可包括多个单元区域。例如，如子图(b)中所示，特征图可包括16个单元区域。在一个示例中，单元区域可指示进行池化的单位区域。单元区域可由池化的比例因子确定。当池化的比例因子是2时，可通过池化将特征图采样为水平尺寸和竖直尺寸中的每个的1/2，(例如，特征图的水平尺寸为8，池化出的特征图的水平尺寸为4)。
53.参照图3a中的子图(b)，单元区域可包括多个元素。多个元素中的每个元素可被分类为多个类之中的一个类。如子图(b)中所示，单元区域301可包括属于类1和类13的元素。例如，元素可指示一个或多个像素，并且每个类可指示一个对象或一种对象。例如，在子图(a)中，类0 311可指示道路，类1 312可指示人行道，类13 313可指示车辆，类19(未示出)314可指示可被忽略的区域。可忽略的区域可以是在图像处理过程中可忽略的区域。
54.神经网络模型可在特征图的单元区域中执行池化(例如，下采样)。在一个示例中，神经网络模型可基于特征图的每个类的概率，对特征图执行池化。可基于下面的等式1来执行池化。
55.[等式1]
[0056]
其中，
[0057]
等式1可用于对k个类执行池化。在等式1中，y'
k(l,m)
表示针对类k而池化的特征图的元素的值，(l,m)表示单元区域的索引。y
(i,j)
表示池化之前的特征图的元素的类，(i,j)表示单元区域中的元素的索引。s表示比例因子。σμ表示包括在一个单元区域中的一个类的
元素的数量。
[0058]
在一个示例中，神经网络模型可基于包括在一个单元区域中的属于一个类的元素的数量与包括在一个单元区域中的元素的总数量之比来确定多个类中的每个类的概率。参照图子图(b)，单元区域301可包括四个元素。在四个元素中，三个元素可在类1 312中，并且一个元素可在类13 313中。属于类1 312的元素的比率可以是0.75，属于类13 313的元素的比率可以是0.25。
[0059]
图3a中的子图(c)示出针对每个类而池化的特征图。参照子图(c)，池化的比例因子可被设置为2。当存在总共20个类时，子图(b)中的特征图的通道可以是1，而子图(c)中的特征图的通道可以是20。
[0060]
参照3a中的子图(c)，由于单元区域301中不存在属于类0 311的元素，因此，针对类0 311而池化的特征图302中与单元区域301对应的值可以是0。由于单元区域301中属于类1 312的元素的比率是0.75，因此，针对类1 312而池化的特征图303中与单元区域301对应的值可以是0.75。由于单元区域301中属于类13 313的元素的比率是0.25，因此，针对类13 313而池化的特征图304中与单元区域301对应的值可以是0.25。由于单元区域301中不存在属于类19 314的元素，因此，针对类19 314而池化的特征图305中与单元区域301对应的值可以是0。
[0061]
神经网络模型可基于包括在由池化的比例因子确定的单元区域中的属于一个类的元素的数量与所有元素的数量之比来执行池化。池化出的特征图的通道的数量可与包括在输入数据中的类的数量对应。参照图3a，当比例因子为2时，池化出的单元区域的尺寸可被确定为池化之前的单元区域的尺寸的1/22。
[0062]
图3b中的子图(d)示出作为包括一个或多个对象的图像的输入数据。在一个示例中，输入数据可包括包含多个对象的图像，并且包括在图像中的像素可被分类为与多个对象对应的多个类。
[0063]
图3b中的子图(e)示出从具有输入数据的区域生成的特征图。特征图可包括多个单元区域。例如，如子图(e)中所示，特征图可包括四个单元区域。在这个示例中，比例因子可以是4。参照图3b，可通过池化将特征图的水平尺寸和竖直尺寸中的每个采样至1/4。
[0064]
参照3b中的子图(e)，单元区域可包括多个元素。子图(e)中的单元区域321可包括类12、类8和类3的元素。例如，类12可对应于人类，类8可对应于植被，类3可对应于墙壁，并且类17可对应于摩托车。
[0065]
神经网络模型可对特征图的单元区域执行池化(例如，下采样)。在一个示例中，神经网络模型可基于特征图的多个类中的每个类的概率来对特征图执行池化。在一个示例中，神经网络模型可基于包括在单元区域中的属于一个类的元素的数量与所有元素的数量之比来确定多个类中的每个类的概率。
[0066]
参照图3b中的子图(e)，单元区域321可包括16个元素。在16个元素中，九个元素可在类12中，五个元素可在类8中，并且两个元素可在类3中。类12的元素的比率可以是0.5625，并且类8的元素的比率可以是0.3125。
[0067]
图3b中的子图(f)可示出针对每个类而池化的特征图。参照3b中的子图(f)，可将池化的比例因子设置为4。当存在总共20个类时，子图(e)中的特征图的通道的数量可为1，而子图(f)中的特征图的通道的数量可为20。
[0068]
参照3b中的子图(f)，由于单元区域321中不存在类0 331的元素，因此，针对类0 331而池化的特征图322中与单元区域321对应的值可以是0。
[0069]
由于单元区域321中的类12 334的元素的比率是0.5625，因此，针对类12 334而池化的特征图325中与单元区域321对应的值可以是0.5625。
[0070]
由于单元区域321中的类8 333的元素的比率是0.3125，因此，针对类8 333而池化的特征图324中与单元区域321对应的值可以是0.3125。
[0071]
由于单元区域321中的类3 332的元素的比率是0.125，因此，针对类3 332而池化的特征图323中与单元区域321对应的值可以是0.125。由于单元区域321中不存在类19 335的元素，因此，针对类19 335而池化的特征图326中与单元区域321对应的值可以是0。池化出的特征图的通道的数量可与包括在输入数据中的类的数量对应。参照图3b，当比例因子为4时，池化出的单元区域的尺寸可以是池化之前的单元区域的尺寸的1/42。
[0072]
图4示出训练的方法的示例。图4中的操作可以以如示出的顺序和方式来执行，但是在不脱离所描述的说明性示例的精神和范围的情况下，可改变一些操作的顺序或者省略操作中的一些。图4中所示的操作中的许多操作可并行或同时执行。图4的一个或多个框以及框的组合可由执行指定功能的基于专用硬件的计算机(诸如，处理器)或专用硬件和计算机指令的组合来实现。除了下面的图4的描述之外，图1至图3的描述也适用于图4，并且通过引用包含于此。因此，这里可不再重复以上描述。
[0073]
在操作401中，训练设备可识别输入数据和目标数据。在一个示例中，训练设备可接收输入数据和目标数据。例如，输入数据可以是图像。输入数据可包括包含多种对象的图像，多种对象分别与多个类对应，并且包括在图像中的像素可被分类为与多种对象中的每种对象对应的多个类。在一个示例中，目标数据可包括第一目标数据和第二目标数据，其中，第一目标数据可包括地面真值标签，第二目标数据可包括在输入数据中的图像中多个类的概率的分布。多个类的概率的分布可存在于输入数据的每个单元区域中。换言之，针对输入数据的每个单元区域，多个类的概率的分布可指示单元区域中的元素、像素或对象属于多个类中的哪个类。
[0074]
在操作402中，训练设备可通过将输入数据输入到神经网络模型来生成输出数据。例如，神经网络模型可以是cnn模型。在这个示例中，神经网络模型可包括从输入数据提取特征图并对特征图执行池化的多个操作块。在一个示例中，输出数据可包括输入数据(例如，图像)中的对象的识别结果。
[0075]
在操作403中，训练设备可通过比较输出数据和第一目标数据来确定第一损失。
[0076]
除了输出数据与目标数据之间的差异之外，损失还可包括基于第二目标数据与由神经网络模型池化出的特征图之间的差异而确定的第二损失。基于池化出的特征图与第二目标数据之间的差异而确定的损失可被定义为池化的辅助损失。
[0077]
在一个示例中，训练设备可对第二目标数据执行池化。第二目标数据的尺寸可大于池化出的特征图的尺寸。为了确定辅助损失，训练设备可对第二目标数据执行池化，使得池化出的第二目标数据的尺寸与从每个层输出的特征图的尺寸相同。
[0078]
例如，训练设备可利用包括在第二目标数据中的输入数据的多个类的概率的分布来对第二目标数据执行池化。以与对特征图执行池化类似的方式，训练设备可基于每个类对第二目标数据执行池化，并确定每个类的概率。可基于池化出的特征图与池化出的第二
目标数据之间的差异来确定辅助损失。
[0079]
可基于包括在目标数据中的输入数据的多个类的概率的分布与特征图的多个类的概率的分布之间的距离来计算辅助损失。在一个示例中，可基于池化出的第二目标数据的多个类的概率的分布与池化出的特征图的多个类的概率的分布之间的距离来计算辅助损失。在一个示例中，kullback-leibler散度、均方误差(mse)等可用于计算输入数据的多个类的概率的分布与特征图的多个类的概率的分布之间的距离。然而，计算输入数据的多个类的概率的分布与特征图的多个类的概率的分布之间的距离的方法可不限于前述示例。
[0080]
例如，对于输入数据的区域，池化出的特征图的每个类的元素的值可由类概率分布指示。处理器可通过计算包括在第二目标数据中的相同区域处的多个类的概率分布并计算距离来确定辅助损失。
[0081]
在操作404中，训练设备可基于损失来训练神经网络模型。损失可包括基于输出数据与第一目标数据之间的差异确定的第一损失以及基于池化出的特征图与池化出的第二目标数据之间的差异确定的辅助损失。训练设备的处理器可更新神经网络模型的参数以使损失最小化。
[0082]
图5示出通过执行池化而获得的示例结果。
[0083]
图5中的子图(a)示出按照每个比例因子针对所有类基于最近邻池化(nearest neighbor pooling)技术而池化的图像。图5中的子图(b)示出按照每个比例因子针对与人类对应的类基于最近邻池化技术而池化的图像。图5中的子图(c)示出按照每个比例因子针对与人类对应的类基于在此描述的池化技术而池化的图像。
[0084]
参照图5中的子图(b)，随着比例因子增大，与人类和对象之间的边界相关联的信息的丢失可能增加。然而，参照图5中的子图(c)，根据在此描述的示例，即使当比例因子增大时，与对象和人类之间的边界相关联的信息也被保持。因此，上述池化防止了在对特征图进行下采样时在确定代表值的过程中的信息丢失。
[0085]
图6a至图6d示出神经网络模型的结构的示例。图6a至图6d中所示的示例神经网络模型可具有相同的结构，具有不同的池化执行次数和执行池化的不同位置。图6a至图6d中示出的每个神经网络模型可包括包含多个卷积层的组(例如，组1至组4)和指示输入层的主干(stem)。在图6a至图6d中，辅助头(auxiliary head)601至604可用于基于针对从一个或多个中间神经网络层输出的特征计算损失来确定辅助损失。在图6a至图6d中，h、w和c可分别表示特征图的高度、宽度和通道的数量。
[0086]
参照图6a，可通过辅助头601对已被执行组3的操作的特征图执行在此描述的池化，并且可确定辅助损失。在图6b中，可通过辅助头602对已被执行组1至组4的操作的多个特征图执行池化，并且可确定辅助损失。在图6c中，可通过辅助头603对已被执行语义头的操作的特征图执行池化，并且可确定辅助损失。在图6d中，可通过辅助头604对已被执行组1至组4的操作和语义头的操作的特征图执行池化，并且可确定辅助损失。
[0087]
在此关于图1至图6d描述的训练设备以及其他设备、装置、单元、模块和组件由硬件组件实现。可用于执行本技术中描述的操作的硬件组件的示例在适当的情况下包括：控制器、传感器、生成器、驱动器、存储器、比较器、算术逻辑单元、加法器、减法器、乘法器、除法器、积分器以及被配置为执行本技术中描述的操作的任何其他电子组件。在其他示例中，通过计算硬件(例如，通过一个或多个处理器或计算机)来实现执行本技术中描述的操作的
硬件组件中的一个或多个硬件组件。处理器或计算机可通过一个或多个处理元件(诸如，逻辑门阵列、控制器和算术逻辑单元、数字信号处理器、微计算机、可编程逻辑控制器、现场可编程门阵列、可编程逻辑阵列、微处理器或被配置为以限定的方式响应并执行指令以实现期望的结果的任何其他装置或装置的组合)来实现。在一个示例中，处理器或计算机包括或连接到存储由处理器或计算机执行的指令或软件的一个或多个存储器。由处理器或计算机实现的硬件组件可执行用于执行在本技术中描述的操作的指令或软件(诸如，操作系统(os)和在os上运行的一个或多个软件应用)。硬件组件还可响应于指令或软件的执行来访问、操控、处理、创建和存储数据。为了简明，单数术语“处理器”或“计算机”可用在本技术描述的示例的描述中，但是在其他示例中，多个处理器或计算机可被使用，或者处理器或计算机可包括多个处理元件，或多种类型的处理元件，或两者。例如，单个硬件组件、或两个或更多个硬件组件可由单个处理器、或两个或更多个处理器、或处理器和控制器来实现。一个或多个硬件组件可通过一个或多个处理器、或处理器和控制器来实现，并且一个或多个其它硬件组件可通过一个或多个其他处理器、或另外的处理器和另外的控制器来实现。一个或多个处理器、或处理器和控制器可实现单个硬件组件、或两个或更多个硬件组件。硬件组件可具有不同的处理配置中的任何一个或多个，不同的处理配置的示例包括：单个处理器、独立处理器、并行处理器、单指令单数据(sisd)多处理、单指令多数据(simd)多处理、多指令单数据(misd)多处理、多指令多数据(mimd)多处理、控制器和算术逻辑单元(alu)、dsp、微计算机、专用集成电路(asic)、现场可编程门阵列(fpga)、可编程逻辑单元(plu)、中央处理器(cpu)、图形处理器(gpu)、神经处理器(npu)或能够以限定的方式响应并执行指令的任何其他装置。
[0088]
图1至图6d中示出的执行本技术中描述的操作的方法由计算硬件(例如，一个或多个处理器或计算机)来执行，计算硬件被实现为如上所述执行指令或软件以执行在本技术中描述的由所述方法执行的操作。例如，单个操作、或两个或更多个操作可由单个处理器、或两个或更多个处理器、或处理器和控制器来执行。一个或多个操作可由一个或多个处理器、或处理器和控制器来执行，并且一个或多个其他操作可由一个或多个其他处理器、或另外的处理器和另外的控制器执行。一个或多个处理器、或者处理器和控制器可执行单个操作、或者两个或更多个操作。
[0089]
用于控制计算处理器或计算机实现硬件组件并执行如上所述的方法的指令或软件被编写为计算机程序、代码段、指令或它们的任何组合，以单独地或共同地指示或配置处理器或计算机作为机器或专用计算机进行操作，以执行由如上所述的硬件组件和方法执行的操作。在一个示例中，指令或软件包括由处理器或计算机直接执行的机器代码(诸如，由编译器产生的机器代码)。在另一示例中，指令或软件包括由处理器或计算机使用解释器执行的高级代码。在一个示例中，指令或软件包括小应用程序、动态链接库(dll)、中间件、固件、装置驱动器、存储训练神经网络模型的方法的应用程序中的至少一者。本领域普通技术的程序员可基于附图中示出的框图和流程图以及说明书中的相应描述容易地编写指令或软件，附图中示出的框图和流程图以及说明书中的相应描述公开了用于执行由如上所述的硬件组件和方法执行的操作的算法。
[0090]
用于控制处理器或计算机实现硬件组件并执行如上所述的方法的指令或软件以及任何相关联的数据、数据文件和数据结构被记录、存储或固定在一个或多个非暂时性计
算机可读存储介质中，或者被记录、存储或固定在一个或多个非暂时性计算机可读存储介质上。非暂态计算机可读存储介质的示例包括：只读存储器(rom)、随机存取可编程只读存储器(prom)、电可擦除可编程只读存储器(eeprom)、随机存取存储器(ram)、磁ram(mram)、自旋转移矩(stt)-mram、静态随机存取存储器(sram)、晶闸管ram(t-ram)、零电容器ram(z-ram)、双晶体管ram(ttram)、导电桥接ram(cbram)、铁电ram(feram)、相变ram(pram)、电阻式ram(rram)、纳米管rram、聚合物ram(poram)、纳米浮栅存储器(nfgm)、全息存储器、分子电子存储器器件、绝缘体电阻变化存储器、动态随机存取存储器(dram)、静态随机存取存储器(sram)、闪存、非易失性存储器、cd-rom、cd-r、cd r、cd-rw、cd rw、dvd-rom、dvd-r、dvd r、dvd-rw、dvd rw、dvd-ram、bd-rom、bd-r、bd-r lth、bd-re、蓝光或光盘存储装置、硬盘驱动器(hdd)、固态驱动器(ssd)、闪存、卡型存储器(诸如，多媒体卡或微型卡(例如，安全数字(sd)或极速数字(xd))、磁带、软盘、磁光数据存储装置、光学数据存储装置、硬盘、固态盘和任何其他装置，任何其他装置被配置为以非暂时性方式存储指令或软件以及任何相关联的数据、数据文件和数据结构并将所述指令或软件以及任何相关联的数据、数据文件和数据结构提供给处理器或计算机使得处理器或计算机能够执行指令。在一个示例中，指令或软件以及任何相关联的数据、数据文件和数据结构分布在联网的计算机系统中，使得指令和软件以及任何相关联的数据、数据文件和数据结构以分布式方式被一个或多个处理器或计算机存储、访问和执行。
[0091]
虽然本公开包括特定示例，但是在理解本技术的公开内容之后将清楚的是，在不脱离权利要求及其等同物的精神和范围的情况下，可在这些示例中进行形式和细节上的各种改变。在此描述的示例仅被认为是描述性的，而不是出于限制的目的。每个示例中的特征或方面的描述将被认为可适用于其他示例中的类似特征或方面。如果描述的技术以不同的顺序执行，和/或如果描述的系统、架构、装置或电路中的组件以不同的方式被组合，和/或由其他组件或其等同物替换或补充，则可实现合适的结果。
[0092]
因此，公开的范围不由具体实施方式限定，而是由权利要求及其等同物限定，并且在权利要求及其等同物的范围内的所有变化都应被解释为包括在公开中。

再多了解一些

1/2 1 2 下一页尾页

本文用于创业者技术爱好者查询，仅供学习研究，如用于商业用途，请联系技术所有人。

用于训练神经网络模型的方法和设备与流程

相关文献

最热文献