图像识别模型的训练方法及装置与流程

2021-12-04 00:18:00 来源：中国专利 TAG：

1.本技术实施例涉及计算机技术领域，具体涉及一种图像识别模型的训练方法及装置，应用于图像识别场景下。

背景技术：

2.神经网络在图像识别领域取得了广泛的成功，并极大地提升了在不同数据集上的最高准确度，训练高性能的神经网络成为了视频相关应用效果提升的关键。目前，针对于神经网络，主要是针对神经网络的结构进行优化设计，而忽视了优化神经网络的训练策略以提高其识别准确度。

技术实现要素：

3.本技术实施例提出了一种图像识别模型的训练方法及装置。
4.第一方面，本技术实施例提供了一种图像识别模型的训练方法，包括：获取用于指示初始图像识别模型在训练过程中改变训练状态的训练状态转移图，其中，训练状态转移图中自初始状态节点至最终状态节点之间包括多个状态转移路径，不同的状态节点对应的超参数的数值不同；按照训练状态转移图的指示，自初始状态节点开始，训练采用所选取的状态节点对应的超参数的初始图像识别模型，以根据初始图像识别模型的识别准确度从多个状态转移路径中确定出目标状态转移路径；将根据目标状态转移路径训练后的初始图像识别模型确定为图像识别模型。
5.在一些实施例中，超参数包括学习率、输入初始图像识别模型的图像序列的长度和图像序列的采样策略；以及上述获取用于指示初始图像识别模型在训练过程中改变训练状态的训练状态转移图，包括：将预先确定的多种学习率和多种图像序列的长度两两组合，得到多个状态节点；根据学习率从大到小、图像序列的长度由短到长的原则，确定初始图像识别模型在多个状态节点所表征的训练状态之间的转移顺序，生成初始训练状态转移图；将初始训练状态转移图分别结合表征连续采样的采样策略和表征均匀采样的采样策略，得到训练状态转移图。
6.在一些实施例中，对于训练状态转移图中的每个状态节点，训练状态转移图指示初始图像识别模型在该状态节点所表征的训练状态下，向学习率低于该状态节点，且学习率最接近该状态节点的状态节点所表征的训练状态转移，以及向图像序列的长度长于该状态节点，且图像序列长度最接近该状态节点的状态节点所表征的训练状态转移。
7.在一些实施例中，上述按照训练状态转移图的指示，自初始状态节点开始，训练采用所选取的状态节点对应的超参数的初始图像识别模型，以根据初始图像识别模型的识别准确度从多个状态转移路径中确定出目标状态转移路径，包括：自初始状态节点开始，执行如下训练状态转移操作，直至确定目标状态转移路径：对于当前状态节点的每个后序状态节点，以最大化识别准确度为目标，迭代训练采用该后序状态节点对应的超参数的、对应于当前状态节点的初始图像识别模型，得到对应于该后序状态节点的初始图像识别模型；将
与多个后续状态节点一一对应的多个初始图像识别模型中识别准确度最高的初始图像识别模型对应的状态节点，确定为执行下一次训练状态转移操作中的当前状态节点。
8.在一些实施例中，上述对于当前状态节点的每个后序状态节点，以最大化识别准确度为目标，迭代训练采用该后序状态节点对应的超参数的、对应于当前状态节点的初始图像识别模型，得到对应于该后序状态节点的初始图像识别模型，包括：对于当前状态节点的每个后序状态节点，执行如下操作：迭代训练采用该后序状态节点对应的超参数的、对应于当前状态节点的初始图像识别模型，并在迭代训练过程中通过单峰连续函数拟合初始图像识别模型的识别准确度，得到拟合曲线；将经过拟合曲线中的拐点对应的迭代训练次数的训练后的初始图像识别模型，确定为对应于该后序状态节点的初始图像识别模型。
9.在一些实施例中，上述将经过拟合曲线中的拐点对应的迭代训练次数的训练后的初始图像识别模型，确定为对应于该后序状态节点的初始图像识别模型，包括：响应于确定采用该后序状态节点对应的超参数的、对应于当前状态节点的初始图像识别模型的迭代训练次数，超过拐点对应的迭代训练次数预设数量次，确定是否根据拐点之后的预设数量次迭代训练更新拐点；响应于确定更新，根据预设数量次迭代训练更新拐点，并确定是否根据更新后的拐点之后的预设数量次迭代训练更新已更新的拐点，直至根据已更新的拐点之后的预设数量次迭代训练确定不更新已更新的拐点，将经过最终确定的拐点对应的迭代训练次数的训练后的初始图像识别模型，确定为对应于该后序状态节点的初始图像识别模型。
10.在一些实施例中，上述将经过拟合曲线中的拐点对应的迭代训练次数的训练后的初始图像识别模型，确定为对应于该后序状态节点的初始图像识别模型，还包括：响应于确定不更新，将经过拐点对应的迭代训练次数的训练后的初始图像识别模型，确定为对应于该后序状态节点的初始图像识别模型。
11.在一些实施例中，初始图像识别模型包括多个卷积单元和双端分类器，其中，双端分类器用于根据多个卷积单元最终得到的特征信息确定图像识别结果，包括着重于在时间域上进行图像识别的时间域分类器和着重于在空间域上进行图像识别的空间域分类器。
12.在一些实施例中，在多个卷积单元中的每个卷积单元中，通过结合空间二维卷积和时域一维卷积得到的伪三维卷积网络提取待识别图像的图像特征，并通过全局池化层学习图像特征的全局残差信息，以通过全局残差信息作用于图像特征，得到该卷积单元的输出特征。
13.第二方面，本技术实施例提供了一种图像识别方法，包括：获取待识别视频中的图像序列；通过图像识别模型识别图像序列，得到图像识别结果，其中，图像识别模型通过如第一方面任一实现方式描述的方法训练得到。
14.第三方面，本技术实施例提供了一种图像识别模型的训练装置，包括：第一获取单元，被配置成获取用于指示初始图像识别模型在训练过程中改变训练状态的训练状态转移图，其中，训练状态转移图中自初始状态节点至最终状态节点之间包括多个状态转移路径，不同的状态节点对应的超参数的数值不同；训练单元，被配置成按照训练状态转移图的指示，自初始状态节点开始，训练采用所选取的状态节点对应的超参数的初始图像识别模型，以根据初始图像识别模型的识别准确度从多个状态转移路径中确定出目标状态转移路径；确定单元，被配置成将根据目标状态转移路径训练后的初始图像识别模型确定为图像识别模型。
15.在一些实施例中，超参数包括学习率、输入初始图像识别模型的图像序列的长度和图像序列的采样策略；以及第一获取单元，进一步被配置成：将预先确定的多种学习率和多种图像序列的长度两两组合，得到多个状态节点；根据学习率从大到小、图像序列的长度由短到长的原则，确定初始图像识别模型在多个状态节点所表征的训练状态之间的转移顺序，生成初始训练状态转移图；将初始训练状态转移图分别结合表征连续采样的采样策略和表征均匀采样的采样策略，得到训练状态转移图。
16.在一些实施例中，对于训练状态转移图中的每个状态节点，训练状态转移图指示初始图像识别模型在该状态节点所表征的训练状态下，向学习率低于该状态节点，且学习率最接近该状态节点的状态节点所表征的训练状态转移，以及向图像序列的长度长于该状态节点，且图像序列长度最接近该状态节点的状态节点所表征的训练状态转移。
17.在一些实施例中，训练单元，进一步被配置成：自初始状态节点开始，执行如下训练状态转移操作，直至确定目标状态转移路径：对于当前状态节点的每个后序状态节点，以最大化识别准确度为目标，迭代训练采用该后序状态节点对应的超参数的、对应于当前状态节点的初始图像识别模型，得到对应于该后序状态节点的初始图像识别模型；将与多个后续状态节点一一对应的多个初始图像识别模型中识别准确度最高的初始图像识别模型对应的状态节点，确定为执行下一次训练状态转移操作中的当前状态节点。
18.在一些实施例中，训练单元，进一步被配置成：对于当前状态节点的每个后序状态节点，执行如下操作：迭代训练采用该后序状态节点对应的超参数的、对应于当前状态节点的初始图像识别模型，并在迭代训练过程中通过单峰连续函数拟合初始图像识别模型的识别准确度，得到拟合曲线；将经过拟合曲线中的拐点对应的迭代训练次数的训练后的初始图像识别模型，确定为对应于该后序状态节点的初始图像识别模型。
19.在一些实施例中，训练单元，进一步被配置成：响应于确定采用该后序状态节点对应的超参数的、对应于当前状态节点的初始图像识别模型的迭代训练次数，超过拐点对应的迭代训练次数预设数量次，确定是否根据拐点之后的预设数量次迭代训练更新拐点；响应于确定更新，根据预设数量次迭代训练更新拐点，并确定是否根据更新后的拐点之后的预设数量次迭代训练更新已更新的拐点，直至根据已更新的拐点之后的预设数量次迭代训练确定不更新已更新的拐点，将经过最终确定的拐点对应的迭代训练次数的训练后的初始图像识别模型，确定为对应于该后序状态节点的初始图像识别模型。
20.在一些实施例中，训练单元，进一步被配置成：响应于确定不更新，将经过拐点对应的迭代训练次数的训练后的初始图像识别模型，确定为对应于该后序状态节点的初始图像识别模型。
21.在一些实施例中，初始图像识别模型包括多个卷积单元和双端分类器，其中，双端分类器用于根据多个卷积单元最终得到的特征信息确定图像识别结果，包括着重于在时间域上进行图像识别的时间域分类器和着重于在空间域上进行图像识别的空间域分类器。
22.在一些实施例中，在多个卷积单元中的每个卷积单元中，通过结合空间二维卷积和时域一维卷积得到的伪三维卷积网络提取待识别图像的图像特征，并通过全局池化层学习图像特征的全局残差信息，以通过全局残差信息作用于图像特征，得到该卷积单元的输出特征。
23.第四方面，本技术实施例提供了一种图像识别装置，包括：第二获取单元，被配置
成获取待识别视频中的图像序列；识别单元，被配置成通过图像识别模型识别图像序列，得到图像识别结果，其中，图像识别模型通过如第一方面任一实现方式描述的方法训练得到。
24.第五方面，本技术实施例提供了一种计算机可读介质，其上存储有计算机程序，其中，程序被处理器执行时实现如第一方面、第二方面任一实现方式描述的方法。
25.第六方面，本技术实施例提供了一种电子设备，包括：一个或多个处理器；存储装置，其上存储有一个或多个程序，当一个或多个程序被一个或多个处理器执行，使得一个或多个处理器实现如第一方面、第二方面任一实现方式描述的方法。
26.本技术实施例提供的图像识别模型的训练方法及装置，通过获取用于指示初始图像识别模型在训练过程中改变训练状态的训练状态转移图，训练状态转移图中自初始状态节点至最终状态节点之间包括多个状态转移路径，不同的状态节点对应的超参数的数值不同；按照训练状态转移图的指示，自初始状态节点开始，训练采用所选取的状态节点对应的超参数的初始图像识别模型，以根据初始图像识别模型的识别准确度从多个状态转移路径中确定出目标状态转移路径；将根据目标状态转移路径训练后的初始图像识别模型确定为图像识别模型，从而提供了一种基于训练状态转移图确定最优状态转移路径的动态规划方法，把寻找状态转移图中最优路径的问题分解为规模更小的子问题，从而采用递推的方式逐一确定模型每一个状态节点的最优状态，提高了所得到的图像识别模型的识别准确度。
附图说明
27.通过阅读参照以下附图所作的对非限制性实施例所作的详细描述，本技术的其它特征、目的和优点将会变得更明显：
28.图1是本技术的一个实施例可以应用于其中的示例性系统架构图；
29.图2是根据本技术的图像识别模型的训练方法的一个实施例的流程图；
30.图3是根据本技术的训练状态转移图的示意图；
31.图4是根据本技术的图像识别模型的网络结构示意图；
32.图5是根据本实施例的图像识别模型的训练方法的应用场景的示意图；
33.图6是根据本技术的图像识别模型的训练方法的又一个实施例的流程图；
34.图7是根据本技术的图像识别方法的一个实施例的流程图；
35.图8是根据本技术的图像识别模型的训练装置的一个实施例的流程图；
36.图9是根据本技术的图像识别装置的一个实施例的结构图；
37.图10是适于用来实现本技术实施例的计算机系统的结构示意图。
具体实施方式
38.下面结合附图和实施例对本技术作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释相关发明，而非对该发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与有关发明相关的部分。
39.需要说明的是，在不冲突的情况下，本技术中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本技术。
40.图1示出了可以应用本技术的图像识别模型的训练方法及装置的示例性架构100。
41.如图1所示，系统架构100可以包括终端设备101、102、103，网络104和服务器105。
终端设备101、102、103之间通信连接构成拓扑网络，网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型，例如有线、无线通信链路或者光纤电缆等等。
42.终端设备101、102、103可以是支持网络连接从而进行数据交互和数据处理的硬件设备或软件。当终端设备101、102、103为硬件时，其可以是支持网络连接，信息获取、交互、显示、处理等功能的各种电子设备，包括但不限于智能手机、平板电脑、电子书阅读器、膝上型便携计算机和台式计算机等等。当终端设备101、102、103为软件时，可以安装在上述所列举的电子设备中。其可以实现成例如用来提供分布式服务的多个软件或软件模块，也可以实现成单个软件或软件模块。在此不做具体限定。
43.服务器105可以是提供各种服务的服务器，例如获取用户通过终端设备101、102、103发送的请求信息，基于训练状态转移图确定模型训练过程中的最优状态转移路径，把寻找状态转移图中最优路径的问题分解为规模更小的子问题，从而采用递推的方式逐一确定模型每一个状态节点的最优状态，以得到识别准确度更高的图像识别模型的后台处理服务器。可选的，服务器可以通过图像识别模型进行图像识别，并将所得到的图像识别结果反馈至终端设备。作为示例，服务器105可以是云端服务器。
44.需要说明的是，服务器可以是硬件，也可以是软件。当服务器为硬件时，可以实现成多个服务器组成的分布式服务器集群，也可以实现成单个服务器。当服务器为软件时，可以实现成多个软件或软件模块(例如用来提供分布式服务的软件或软件模块)，也可以实现成单个软件或软件模块。在此不做具体限定。
45.还需要说明的是，本技术的实施例所提供的图像识别模型的训练方法、图像识别方法可以由服务器执行，也可以由终端设备执行，还可以由服务器和终端设备彼此配合执行。相应地，图像识别模型的训练装置、图像识别装置包括的各个部分(例如各个单元)可以全部设置于服务器中，也可以全部设置于终端设备中，还可以分别设置于服务器和终端设备中。
46.应该理解，图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要，可以具有任意数目的终端设备、网络和服务器。当图像识别模型的训练方法、图像识别方法运行于其上的电子设备不需要与其他电子设备进行数据传输时，该系统架构可以仅包括图像识别模型的训练方法、图像识别方法运行于其上的电子设备(例如服务器或终端设备)。
47.继续参考图2，示出了图像识别模型的训练方法的一个实施例的流程200，包括以下步骤：
48.步骤201，获取用于指示初始图像识别模型在训练过程中改变训练状态的训练状态转移图。
49.本实施例中，图像识别模型的训练方法的执行主体(例如图1中的终端设备或服务器)可以通过有线连接方式或无线连接方式从远程，或从本地获取用于指示初始图像识别模型在训练过程中改变训练状态的训练状态转移图。其中，训练状态转移图中自初始状态节点至最终状态节点之间包括多个状态转移路径，不同的状态节点对应的超参数的数值不同。
50.其中，图像识别模型可以采用能够实现图像识别功能的各种深度学习模型，包括
但不限于是二维卷积网络、三维卷积网络、循环卷积网络、残差神经网络。图像识别模型可以用于各种图像识别任务。作为示例，在自动驾驶领域，图像识别任务包括障碍物检测、车道线检测等；在人脸识别领域，图像识别任务包括人脸鉴伪、活体检测、目标追踪等。
51.超参数为图像识别模型在开始学习过程之前设置具体值的参数，而不是通过训练得到的参数数据。通常情况下，需要对超参数进行优化，为初始图像识别选择一组最优超参数，以提高学习的性能和效果。
52.作为示例，图像识别模型为三维卷积网络，相比于二维卷积网络将视频视作视频帧或者光流图的序列，以对每一个视频帧或光流图进行单独识别的方式，三维卷积网络直接从视频中获取视频片段(图像序列)进行识别。由于三维卷积网络对于视频数据更有针对性，端到端的训练也通常会取得更好的性能。三维卷积网络的超参数包括学习率、输入初始图像识别模型的图像序列的长度和图像序列的采样策略。其中，采样策略包括连续采样和均匀采样。
53.训练状态转移图是一个有向无环图，自初始状态节点至最终状态节点包括多个状态节点，各状态节点对应的超参数中的一种或多种不同，多个状态节点以有序的排列方式构成自初始状态节点至最终状态节点之间的多个状态转移路径。处于初始状态节点与最终状态节点之间的中间状态节点可能存在相同的状态节点。
54.每个状态转移路径可以指示初始图像识别模型在该状态转移路径中的状态节点之间按顺序转移。对于每个状态转移路径中的每个状态节点，当初始图像识别模型转移至该状态节点所表征的训练状态时，表明使得初始图像识别模型采用该状态节点对应的超参数继续进行训练。
55.任意一条从初始状态节点到最终状态节点的路径代表一次模型训练的过程，而训练状态的转移代表着超参数的变化。通过这种训练状态转移图的构建，寻找最优的三维卷积网络训练策略被等价成为寻找一条从初始状态节点到最终状态节点的最优路径。
56.在本实施例的一些可选的实现方式中，上述执行主体可以通过如下方式执行上述步骤201：
57.首先，将预先确定的多种学习率和多种图像序列的长度两两组合，得到多个状态节点。
58.作为示例，学习率包括a、b、c三种，图像序列的长度包括x、y、z三种，则以(学习率，图像序列的长度)的数据对的方式进行组合，得到9(3
×
3)个状态节点。
59.其中，不同的学习率的具体数量和数值，以及不同的图像序列的长度的具体数量和数值可以根据实际情况具体设置(例如上述执行主体的算力、图像识别模型的结构)，在此不做限定。
60.然后，根据学习率从大到小、图像序列的长度由短到长的原则，确定初始图像识别模型在多个状态节点所表征的训练状态之间的转移顺序，生成初始训练状态转移图。
61.神经网络模型的训练过程中，学习率由大到下、图像序列的长度一般由长到短变化。本实现方式中，每一个状态节点可以指向学习率小于该状态节点的状态节点、图像序列的长度短于该状态节点的状态节点。
62.最后，将初始训练状态转移图分别结合表征连续采样的采样策略和表征均匀采样的采样策略，得到训练状态转移图。
63.作为示例，将初始训练状态转移图中的各状态节点的采样策略的超参数设置为连续采样，得到第一状态转移子图；将初始训练状态转移图中的各状态节点的采样策略的超参数设置为均匀采样，得到第二状态转移子图，组合第一状态转移子图和第二状态转移子图得到训练状态转移图。
64.本实现方式中，提供了一种根据超参数生成训练状态转移图的方式，提高了生成训练状态转移图的灵活性。
65.在本实施例的一些可选的实现方式中，对于训练状态转移图中的每个状态节点，训练状态转移图指示初始图像识别模型在该状态节点所表征的训练状态下，向学习率低于该状态节点，且学习率最接近该状态节点的状态节点所表征的训练状态转移，以及向图像序列的长度长于该状态节点，且图像序列长度最接近该状态节点的状态节点所表征的训练状态转移。
66.如图3所示，示出了训练状态转移图的具体示意图300，包括采用连续采样策略的第一状态转移子图301和采用均匀采样策略的第二状态转移子图302。第一状态转移子图301的状态节点s1‑
s9与第二状态转移子图302的状态节点s
10
‑
s
18
一一对应，s0为初始状态节点。
67.每个状态节点指向学习率低于该状态节点，且学习率最接近该状态节点的状态节点，以及指向图像序列的长度长于该状态节点，且图像序列长度最接近该状态节点的状态节点，进一步保证了模型训练过程中逐步递进，保证训练过程的有序性。
68.步骤202，按照训练状态转移图的指示，自初始状态节点开始，训练采用所选取的状态节点对应的超参数的初始图像识别模型，以根据初始图像识别模型的识别准确度从多个状态转移路径中确定出目标状态转移路径。
69.本实施例中，上述执行主体可以按照训练状态转移图的指示，自初始状态节点开始，训练采用所选取的状态节点对应的超参数的初始图像识别模型，以根据初始图像识别模型的识别准确度从多个状态转移路径中确定出目标状态转移路径。
70.作为示例，自初始状态节点开始，对于每条状态转移路径，上述执行主体将初始图像识别模型的超参数依次设置为该状态转移路径中的各状态节点对应的超参数，在每个状态节点对应的训练状态中，利用机器学习方法，以训练样本集中的训练样本中的样本图像为输出，以所输入的样本图像的标签为期望输出，迭代训练初始图像识别模型，以得到采用该状态节点对应的超参数的、识别准确度最大化后的初始图像识别模型。进而，得到每条状态转移路径对应的训练后的图像识别模型，将识别准确度最大的图像识别模型对应的状态转移路径确定为目标状态转移路径。
71.在本实施例的一些可选的实现方式中，上述执行主体可以通过如下方式执行上述步骤202：
72.自初始状态节点开始，执行如下训练状态转移操作，直至确定目标状态转移路径：
73.第一，对于当前状态节点的每个后序状态节点，以最大化识别准确度为目标，迭代训练采用该后序状态节点对应的超参数的、对应于当前状态节点的初始图像识别模型，得到对应于该后序状态节点的初始图像识别模型。
74.其中，对应于当前状态节点的初始图像识别模型表征在采用当前状态节点对应的超参数的基础上，经过迭代训练已达到识别准确度最大化后的初始图像识别模型。类似的，
对应于该后序状态节点的初始图像识别模型表征在采用该后序状态节点对应的超参数的基础上，经过迭代训练已达到识别准确度最大化后的初始图像识别模型。
75.第二，将与多个后续状态节点一一对应的多个初始图像识别模型中识别准确度最高的初始图像识别模型对应的状态节点，确定为执行下一次训练状态转移操作中的当前状态节点。
76.作为示例，在当前的训练状态转移操作中，当前状态节点为s2，对应于状态节点s2的模型m2，状态节点s2的后续节点包括s3、s4、s5，依次将模型m2的超参数设置为状态节点s3、s4、s5对应的超参数，得到模型m
′3、m
′4、m
′5，依次对模型m
′3、m
′4、m
′5进行训练，使其识别准确度最大化，得到模型m3、m4、m5；将模型m3、m4、m5中识别准确度最大的模型对应的状态节点，确定为执行下一次训练状态转移操作中的当前状态节点。
77.通过循环执行上述训练状态转移操作，可以确定出多个当前状态节点，多个当前状态节点在训练状态转移图中的指示顺序即表征目标状态转移路径。
78.在本实施例的一些可选的实现方式中，上述执行主体可以采用曲线拟合的方式，预测采用每个后序状态节点对应的超参数的初始图像识别模型在训练过程中的识别准确度。
79.具体的，上述执行主体可以通过如下方式执行上述第一步骤：
80.对于当前状态节点的每个后序状态节点，执行如下操作：
81.(1)迭代训练采用该后序状态节点对应的超参数的、对应于当前状态节点的初始图像识别模型，并在迭代训练过程中通过单峰连续函数拟合初始图像识别模型的识别准确度，得到拟合曲线。
82.作为示例，在训练完第t次迭代之后，在验证集上测试得到模型的准确度y
t
，首先使用连续函数f
α
(t)来拟合准确度
‑
迭代次数曲线：
83.y
t
＝f
α
(t) z
t
，z
t
～n(0，σ2)
84.其中，z
t
是在测试准确度过程中会产生的随机抖动，这里认为其符合标准差为σ的正态分布，而α是函数f
α
(t)的参数。这里选用的f
α
(t)为单峰连续函数，以保证函数只包含唯一拐点。对准确度
‑
迭代次数曲线的拟合等价于求解最优的参数α来使得拟合的曲线和观测得到的模型准确度之间的距离最小，即：
85.s.t.，f
α
(t)是单峰函数
86.对于上述优化目标的求解使用传统的置信区域反射(trust region reflective)算法，该算法可以有效对任意形式的曲线f
α
(t)进行拟合。
87.对于使用的曲线函数f
α
(t)，由于其单峰属性，可以被分解成为两个部分f
α
(t)＝g
α
(t) h
α
(t)，其中，g
α
(t)为单增有界函数，用于模拟模型准确度的拟合过程；h
α
(t)为单峰上凸函数，用于模拟模型的过拟合因素。
88.具体的，可以采用如下结构的公式最为目标曲线函数进行拟合：
[0089][0090]
其中，α＝{α1，α2，α3，α4，α5}为拟合过程中需要确定的曲线参数。
[0091]
(2)将经过拟合曲线中的拐点对应的迭代训练次数的训练后的初始图像识别模
型，确定为对应于该后序状态节点的初始图像识别模型。
[0092]
拐点为拟合曲线上改变曲线方向的点。在拐点时，模型的识别准确度最高。
[0093]
在本实施例的一些可选的实现方式中，上述执行主体可以通过如下方式执行上述步骤(2)：
[0094]
首先，响应于确定采用该后序状态节点对应的超参数的、对应于当前状态节点的初始图像识别模型的迭代训练次数，超过拐点对应的迭代训练次数预设数量次，确定是否根据拐点之后的预设数量次迭代训练更新拐点。
[0095]
然后，响应于确定更新，根据预设数量次迭代训练更新拐点，并确定是否根据更新后的拐点之后的预设数量次迭代训练更新已更新的拐点，直至根据已更新的拐点之后的预设数量次迭代训练确定不更新已更新的拐点，将经过最终确定的拐点对应的迭代训练次数的训练后的初始图像识别模型，确定为对应于该后序状态节点的初始图像识别模型。
[0096]
其中，预设数量可以根据实际情况具体设置。例如，预设数量为10。
[0097]
在进行曲线拟合之后，为了动态地停止迭代，在每一次迭代结束之后，先通过拟合确定曲线的拐点，也就是曲线中准确度最大的点t
*
，如果当前的迭代次数t比t
*
t还要大，也就是当前迭代已经超过拐点t次迭代的情况下，判断是否调整所预测的拐点。例如，当确定t
*
之后的t次迭代过程使得模型的准确度更高，则更新所预测的拐点至更高的准确度对应的点。这里的参数t为预设数量，作为延迟参数，也就是训练经过拐点之后会至少再进行t次迭代，并及时更新拐点的预测，以保证拐点估计的准确性。
[0098]
在本实施例的一些可选的实现方式中，上述执行主体还可以通过如下方式执行上述步骤(2)：响应于确定不更新，将经过拐点对应的迭代训练次数的训练后的初始图像识别模型，确定为对应于该后序状态节点的初始图像识别模型。
[0099]
本实现方式中，上述拐点预测方法可以准确地确定在每个状态节点所表征的训练状态下的模型的拐点，以保证每个训练状态下的初始图像识别模型的识别准确度朝向更高的趋势变化，并在不能再提升识别准确度的情况下终止迭代训练。
[0100]
步骤203，将根据目标状态转移路径训练后的初始图像识别模型确定为图像识别模型。
[0101]
本实施例中，上述执行主体可以将根据目标状态转移路径训练后的初始图像识别模型确定为图像识别模型。
[0102]
在采用如图3所示的训练状态转移图时，在采用连续采样策略的第一状态转移子图和采用均匀采样策略的第二状态转移子图中均会确定出一个最终状态节点，本实施例中，将两个最终状态节点对应的模型中识别准确度较大的模型确定为最终得到的图像识别模型。
[0103]
在本实施例的一些可选的实现方式中，初始图像识别模型包括多个卷积单元和双端分类器。其中，多个卷积单元依次相连，用于提取待识别图像的特征信息；双端分类器用于根据多个卷积单元最终得到的特征信息确定图像识别结果，包括着重于在时间域上进行图像识别的时间域分类器和着重于在空间域上进行图像识别的空间域分类器。
[0104]
具体的，在时间域分类器端通过池化操作降低了空间上的分辨率，并提升时间域上的分辨率，从而对时间复杂的视频内容更具描述能力；而空间域分类器端正好相反，使用空间域的高分辨率提升空间上的描述能力。最终，这两端的输出结果进行线性结合，从而让
模型同时包含时域和空域上的描述能力。
[0105]
在本实施例的一些可选的实现方式中，在多个卷积单元中的每个卷积单元中，通过结合空间二维卷积和时域一维卷积得到的伪三维卷积网络提取待识别图像的图像特征，并通过全局池化层学习图像特征的全局残差信息，以通过全局残差信息作用于图像特征，得到该卷积单元的输出特征。
[0106]
如图4所示，示出了图像识别模型的一种具体的网络结构400。图像识别模型包括卷积层401、残差模块402
‑
404和双端分类器405。双端分类器405中包括时间域分类器4051和空间域分类器4052。时间域分类器4051中包括用于降低空间域上的分辨率的池化层40511和提升时间域上的分辨率的残差模块40512；空间域分类器4052中包括用于降低时间域上的分辨率的池化层40521和提升空间域上的分辨率的残差模块40522。每个残差模块的结构相似，包括结合空间二维卷积和时域一维卷积得到的伪三维卷积网络4021和全局上下文模块4022。考虑到卷积操作通常只能得到待识别图像的一个局部窗口内的信息，而缺乏对输入数据的全局视野，在三维卷积网络中，通常会加入非局部操作来提升网络对全局上下文信息的获取。同样为了解决这一个问题，通过全局池化层学习全局残差，并将该全局残差加在所得到的特征信息中的每一个位置上，从而让局部特征提升全局上下文信息。
[0107]
继续参见图5，图5是根据本实施例的图像识别模型的训练方法的应用场景的一个示意图500。在图5的应用场景中，目标用户501通过终端设备502向服务器503发起了训练请求。在接收到搜索请求后，首先，服务器503获取用于指示初始图像识别模型在训练过程中改变训练状态的训练状态转移图504。其中，训练状态转移图中自初始状态节点至最终状态节点之间包括多个状态转移路径，不同的状态节点对应的超参数的数值不同。然后，按照训练状态转移图的指示，自初始状态节点开始，训练采用所选取的状态节点对应的超参数的初始图像识别模型，以根据初始图像识别模型的识别准确度从多个状态转移路径中确定出目标状态转移路径5041。将根据目标状态转移路径5041训练后的初始图像识别模型确定为图像识别模型。
[0108]
本技术的上述实施例提供的方法，通过获取用于指示初始图像识别模型在训练过程中改变训练状态的训练状态转移图，训练状态转移图中自初始状态节点至最终状态节点之间包括多个状态转移路径，不同的状态节点对应的超参数的数值不同；按照训练状态转移图的指示，自初始状态节点开始，训练采用所选取的状态节点对应的超参数的初始图像识别模型，以根据初始图像识别模型的识别准确度从多个状态转移路径中确定出目标状态转移路径；将根据目标状态转移路径训练后的初始图像识别模型确定为图像识别模型，从而提供了一种基于训练状态转移图确定最优状态转移路径的动态规划方法，把寻找状态转移图中最优路径的问题分解为规模更小的子问题，从而采用递推的方式逐一确定模型每一个状态节点的最优状态，提高了所得到的图像识别模型的识别准确度。
[0109]
继续参考图6，示出了根据本技术的图像识别模型的训练方法的一个实施例的示意性流程600，包括以下步骤：
[0110]
步骤601，将预先确定的多种学习率和多种图像序列的长度两两组合，得到多个状态节点。
[0111]
步骤602，根据学习率从大到小、图像序列的长度由短到长的原则，确定初始图像识别模型在多个状态节点所表征的训练状态之间的转移顺序，生成初始训练状态转移图。
[0112]
步骤603，将初始训练状态转移图分别结合表征连续采样的采样策略和表征均匀采样的采样策略，得到训练状态转移图。
[0113]
步骤604，自初始状态节点开始，执行如下训练状态转移操作，直至确定目标状态转移路径：
[0114]
步骤6041，对于当前状态节点的每个后序状态节点，执行如下操作：
[0115]
步骤60411，迭代训练采用该后序状态节点对应的超参数的、对应于当前状态节点的初始图像识别模型，并在迭代训练过程中通过单峰连续函数拟合初始图像识别模型的识别准确度，得到拟合曲线。
[0116]
步骤60412，响应于确定采用该后序状态节点对应的超参数的、对应于当前状态节点的初始图像识别模型的迭代训练次数，超过拐点对应的迭代训练次数预设数量次，确定是否根据拐点之后的预设数量次迭代训练更新拐点。
[0117]
步骤60413，响应于确定更新，根据预设数量次迭代训练更新拐点，并确定是否根据更新后的拐点之后的预设数量次迭代训练更新已更新的拐点，直至根据已更新的拐点之后的预设数量次迭代训练确定不更新已更新的拐点，将经过最终确定的拐点对应的迭代训练次数的训练后的初始图像识别模型，确定为对应于该后序状态节点的初始图像识别模型。
[0118]
步骤60414，响应于确定不更新，将经过拐点对应的迭代训练次数的训练后的初始图像识别模型，确定为对应于该后序状态节点的初始图像识别模型。
[0119]
步骤6042，将与多个后续状态节点一一对应的多个初始图像识别模型中识别准确度最高的初始图像识别模型对应的状态节点，确定为执行下一次训练状态转移操作中的当前状态节点。
[0120]
步骤605，将根据目标状态转移路径训练后的初始图像识别模型确定为图像识别模型。
[0121]
从本实施例中可以看出，与图2对应的实施例相比，本实施例中的图像识别模型的训练方法的流程600具体说明了训练状态转移图的生成过程，以及依据训练状态转移图的指示训练模型的过程，进一步提高了图像识别模型的识别准确度。
[0122]
继续参考图7，示出了根据本技术的图像识别方法的一个实施例的示意性流程700，包括以下步骤：
[0123]
步骤701，获取待识别视频中的图像序列。
[0124]
本实施例中，不确定性建模方法的执行主体(例如图1中的服务器)可以通过有线连接方式或无线连接方式从远程，或从本地获取待识别视频中的图像序列。
[0125]
其中，待识别视频中可以是包括任意内容的视频。作为示例，在自动驾驶场景中，待识别视频可以是自动驾驶车辆上的数据采集装置才记得到的表征交通环境的视频；在监控场景中，待识别视频可以是监控装置所摄取的、表征指定场所的环境的视频。
[0126]
步骤702，通过图像识别模型识别图像序列，得到图像识别结果。
[0127]
本实施例中，上述执行主体可以通过图像识别模型识别图像序列，得到图像识别结果。
[0128]
其中，图像识别模型通过上述实施例200、600训练得到。
[0129]
本实施例中，基于预训练的图像识别模型提高了图像识别结果的准确度。
[0130]
继续参考图8，作为对上述各图所示方法的实现，本技术提供了一种图像识别模型的训练装置的一个实施例，该装置实施例与图2所示的方法实施例相对应，该装置具体可以应用于各种电子设备中。
[0131]
如图8所示，图像识别模型的训练装置包括：第一获取单元801，被配置成获取用于指示初始图像识别模型在训练过程中改变训练状态的训练状态转移图，其中，训练状态转移图中自初始状态节点至最终状态节点之间包括多个状态转移路径，不同的状态节点对应的超参数的数值不同；训练单元802，被配置成按照训练状态转移图的指示，自初始状态节点开始，训练采用所选取的状态节点对应的超参数的初始图像识别模型，以根据初始图像识别模型的识别准确度从多个状态转移路径中确定出目标状态转移路径；确定单元803，被配置成将根据目标状态转移路径训练后的初始图像识别模型确定为图像识别模型。
[0132]
在本实施例的一些可选的实现方式中，超参数包括学习率、输入初始图像识别模型的图像序列的长度和图像序列的采样策略；以及第一获取单元801，进一步被配置成：将预先确定的多种学习率和多种图像序列的长度两两组合，得到多个状态节点；根据学习率从大到小、图像序列的长度由短到长的原则，确定初始图像识别模型在多个状态节点所表征的训练状态之间的转移顺序，生成初始训练状态转移图；将初始训练状态转移图分别结合表征连续采样的采样策略和表征均匀采样的采样策略，得到训练状态转移图。
[0133]
在本实施例的一些可选的实现方式中，对于训练状态转移图中的每个状态节点，训练状态转移图指示初始图像识别模型在该状态节点所表征的训练状态下，向学习率低于该状态节点，且学习率最接近该状态节点的状态节点所表征的训练状态转移，以及向图像序列的长度长于该状态节点，且图像序列长度最接近该状态节点的状态节点所表征的训练状态转移。
[0134]
在本实施例的一些可选的实现方式中，训练单元802，进一步被配置成：自初始状态节点开始，执行如下训练状态转移操作，直至确定目标状态转移路径：对于当前状态节点的每个后序状态节点，以最大化识别准确度为目标，迭代训练采用该后序状态节点对应的超参数的、对应于当前状态节点的初始图像识别模型，得到对应于该后序状态节点的初始图像识别模型；将与多个后续状态节点一一对应的多个初始图像识别模型中识别准确度最高的初始图像识别模型对应的状态节点，确定为执行下一次训练状态转移操作中的当前状态节点。
[0135]
在本实施例的一些可选的实现方式中，训练单元802，进一步被配置成：对于当前状态节点的每个后序状态节点，执行如下操作：迭代训练采用该后序状态节点对应的超参数的、对应于当前状态节点的初始图像识别模型，并在迭代训练过程中通过单峰连续函数拟合初始图像识别模型的识别准确度，得到拟合曲线；将经过拟合曲线中的拐点对应的迭代训练次数的训练后的初始图像识别模型，确定为对应于该后序状态节点的初始图像识别模型。
[0136]
在本实施例的一些可选的实现方式中，训练单元802，进一步被配置成：响应于确定采用该后序状态节点对应的超参数的、对应于当前状态节点的初始图像识别模型的迭代训练次数，超过拐点对应的迭代训练次数预设数量次，确定是否根据拐点之后的预设数量次迭代训练更新拐点；响应于确定更新，根据预设数量次迭代训练更新拐点，并确定是否根据更新后的拐点之后的预设数量次迭代训练更新已更新的拐点，直至根据已更新的拐点之
后的预设数量次迭代训练确定不更新已更新的拐点，将经过最终确定的拐点对应的迭代训练次数的训练后的初始图像识别模型，确定为对应于该后序状态节点的初始图像识别模型。
[0137]
在本实施例的一些可选的实现方式中，训练单元802，进一步被配置成：响应于确定不更新，将经过拐点对应的迭代训练次数的训练后的初始图像识别模型，确定为对应于该后序状态节点的初始图像识别模型。
[0138]
在本实施例的一些可选的实现方式中，初始图像识别模型包括多个卷积单元和双端分类器，其中，双端分类器用于根据多个卷积单元最终得到的特征信息确定图像识别结果，包括着重于在时间域上进行图像识别的时间域分类器和着重于在空间域上进行图像识别的空间域分类器。
[0139]
在本实施例的一些可选的实现方式中，在多个卷积单元中的每个卷积单元中，通过结合空间二维卷积和时域一维卷积得到的伪三维卷积网络提取待识别图像的图像特征，并通过全局池化层学习图像特征的全局残差信息，以通过全局残差信息作用于图像特征，得到该卷积单元的输出特征。
[0140]
本实施例中，图像识别模型的训练装置中的第一获取单元，被配置成获取用于指示初始图像识别模型在训练过程中改变训练状态的训练状态转移图，其中，训练状态转移图中自初始状态节点至最终状态节点之间包括多个状态转移路径，不同的状态节点对应的超参数的数值不同；训练单元，被配置成按照训练状态转移图的指示，自初始状态节点开始，训练采用所选取的状态节点对应的超参数的初始图像识别模型，以根据初始图像识别模型的识别准确度从多个状态转移路径中确定出目标状态转移路径；确定单元，被配置成将根据目标状态转移路径训练后的初始图像识别模型确定为图像识别模型，从而提供了一种基于训练状态转移图确定最优状态转移路径的动态规划装置，把寻找状态转移图中最优路径的问题分解为规模更小的子问题，从而采用递推的方式逐一确定模型每一个状态节点的最优状态，提高了所得到的图像识别模型的识别准确度。
[0141]
继续参考图9，作为对上述各图所示方法的实现，本技术提供了一种图像识别装置的一个实施例，该装置实施例与图7所示的方法实施例相对应，该装置具体可以应用于各种电子设备中。
[0142]
如图9所示，图像识别装置包括：第二获取单元901，被配置成获取待识别视频中的图像序列；识别单元902，被配置成通过图像识别模型识别图像序列，得到图像识别结果。其中，图像识别模型通过实施例200、600训练得到。
[0143]
本实施例中，基于预训练的图像识别模型提高了图像识别结果的准确度。
[0144]
下面参考图10，其示出了适于用来实现本技术实施例的设备(例如图1所示的设备101、102、103、105)的计算机系统1000的结构示意图。图10示出的设备仅仅是一个示例，不应对本技术实施例的功能和使用范围带来任何限制。
[0145]
如图10所示，计算机系统1000包括处理器(例如cpu，中央处理器)1001，其可以根据存储在只读存储器(rom)1002中的程序或者从存储部分1008加载到随机访问存储器(ram)1003中的程序而执行各种适当的动作和处理。在ram1003中，还存储有系统1000操作所需的各种程序和数据。处理器1001、rom1002以及ram1003通过总线1004彼此相连。输入/输出(i/o)接口1005也连接至总线1004。
[0146]
以下部件连接至i/o接口1005：包括键盘、鼠标等的输入部分1006；包括诸如阴极射线管(crt)、液晶显示器(lcd)等以及扬声器等的输出部分1007；包括硬盘等的存储部分1008；以及包括诸如lan卡、调制解调器等的网络接口卡的通信部分1009。通信部分1009经由诸如因特网的网络执行通信处理。驱动器1010也根据需要连接至i/o接口1005。可拆卸介质1011，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器1010上，以便于从其上读出的计算机程序根据需要被安装入存储部分1008。
[0147]
特别地，根据本技术的实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本技术的实施例包括一种计算机程序产品，其包括承载在计算机可读介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信部分1009从网络上被下载和安装，和/或从可拆卸介质1011被安装。在该计算机程序被处理器1001执行时，执行本技术的方法中限定的上述功能。
[0148]
需要说明的是，本技术的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(ram)、只读存储器(rom)、可擦式可编程只读存储器(eprom或闪存)、光纤、便携式紧凑磁盘只读存储器(cd
‑
rom)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本技术中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本技术中，计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：无线、电线、光缆、rf等等，或者上述的任意合适的组合。
[0149]
可以以一种或多种程序设计语言或其组合来编写用于执行本技术的操作的计算机程序代码，程序设计语言包括面向目标的程序设计语言—诸如java、smalltalk、c ，还包括常规的过程式程序设计语言—诸如”c”语言或类似的程序设计语言。程序代码可以完全地在客户计算机上执行、部分地在客户计算机上执行、作为一个独立的软件包执行、部分在客户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络——包括局域网(lan)或广域网(wan)—连接到客户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
[0150]
附图中的流程图和框图，图示了按照本技术各种实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上
可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。
[0151]
描述于本技术实施例中所涉及到的单元可以通过软件的方式实现，也可以通过硬件的方式来实现。所描述的单元也可以设置在处理器中，例如，可以描述为：一种处理器，包括第一获取单元、训练单元和确定单元；或者可以描述为：一种处理器，包括第二获取单元和识别单元。其中，这些单元的名称在某种情况下并不构成对该单元本身的限定，例如，训练单元还可以被描述为“按照训练状态转移图的指示，自初始状态节点开始，训练采用所选取的状态节点对应的超参数的初始图像识别模型，以根据初始图像识别模型的识别准确度从多个状态转移路径中确定出目标状态转移路径的单元”。
[0152]
作为另一方面，本技术还提供了一种计算机可读介质，该计算机可读介质可以是上述实施例中描述的设备中所包含的；也可以是单独存在，而未装配入该设备中。上述计算机可读介质承载有一个或者多个程序，当上述一个或者多个程序被该装置执行时，使得该计算机设备：获取用于指示初始图像识别模型在训练过程中改变训练状态的训练状态转移图，训练状态转移图中自初始状态节点至最终状态节点之间包括多个状态转移路径，不同的状态节点对应的超参数的数值不同；按照训练状态转移图的指示，自初始状态节点开始，训练采用所选取的状态节点对应的超参数的初始图像识别模型，以根据初始图像识别模型的识别准确度从多个状态转移路径中确定出目标状态转移路径；将根据目标状态转移路径训练后的初始图像识别模型确定为图像识别模型。以及使得该计算机设备：获取待识别视频中的图像序列；通过图像识别模型识别图像序列，得到图像识别结果。
[0153]
以上描述仅为本技术的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解，本技术中所涉及的发明范围，并不限于上述技术特征的特定组合而成的技术方案，同时也应涵盖在不脱离上述发明构思的情况下，由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本技术中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：一种分布式任务处理方法、装置和电子设备与流程

图像识别模型的训练方法及装置与流程

相关文献

最热文献