图像识别方法、装置、电子设备以及存储介质与流程

2022-04-16 15:34:06 来源：中国专利 TAG：

1.本公开涉及人工智能技术领域，具体为深度学习、计算机视觉技术领域，应用于图像识别场景，尤其涉及一种图像识别方法、装置、电子设备以及存储介质。

背景技术：

2.目前的文本识别算法大部分基于对于拼音类型文字的识别方式进行改进，但是，目前对于汉字识别的需求逐渐增长，多数场景需要进行准确的汉字识别，然而现有的模型识别效果较差。

技术实现要素：

3.本公开提供了一种图像识别方法，以至少解决相关技术中模型识别的准确率较低的技术问题。
4.根据本公开的一方面，提供了一种图像识别方法，包括：获取目标图像，其中，目标图像包括待识别对象；利用目标模型对目标图像进行对象识别，得到识别结果；其中，目标模型分别使用多组训练数据通过机器学习训练得到，多组训练数据至少包括：第一组训练数据、第二组训练数据、第三组训练数据，第一组训练数据、第二组训练数据、第三组训练数据的损失梯度不同。
5.可选地，该方法还包括：获取目标训练数据；利用目标训练数据对原始模型进行训练，得到第一训练结果；基于第一训练结果确定目标训练数据对应的第一损失梯度；基于第一损失梯度对目标训练数据进行分组，得到多组训练数据；利用多组训练数据对原始模型进行训练，得到目标模型。
6.可选地，基于第一损失梯度对目标训练数据进行分组，得到多组训练数据，包括：基于预设损失梯度和第一损失梯度对目标训练数据进行分组，得到第一组训练数据、第二组训练数据和第三组训练数据，其中，第一组训练数据的损失梯度大于第二组训练数据的损失梯度、二组训练数据的损失梯度大于第三组训练数据的损失梯度。
7.可选地，利用多组训练数据对原始模型进行训练，得到目标模型，包括：对第一组训练数据进行增强处理，得到第四组训练数据；利用第二组训练数据、第三组训练数据和第四组训练数据对原始模型进行训练，得到目标模型。
8.可选地，利用第二组训练数据、第三组训练数据和第四组训练数据对原始模型进行训练，得到目标模型，包括：利用第二组训练数据、第三组训练数据和第四组训练数据对原始模型进行训练，得到第二训练结果；对第三组训练数据中的每个数据进行标识处理，得到标识处理后的第三组训练数据，其中，标识处理后的第三组训练数据中每个数据包含至少一个目标标识；基于第四组训练数据和标识处理后的第三组训练数据对目标训练数据进行更新，得到更新后的目标训练数据；利用第二训练结果对更新后的目标训练数据进行分组，得到多组训练数据；利用多组训练数据对原始模型进行训练，得到目标模型。
9.可选地，在基于第四组训练数据和标识处理后的第三组训练数据对目标训练数据
进行更新，得到更新后的目标训练数据之后，该方法还包括：检测标识处理后的第三组训练数据中每个数据包含目标标识的目标数量；响应于处理后的第三组训练数据存在目标数据包含目标标识的目标数量大于或等于预设数量，从处理后的第三组训练数据中删除目标数据，得到删除处理后的第三组训练数据；基于第四组训练数据和删除处理后的第三组训练数据对目标训练数据进行更新，得到更新后的目标训练数据。
10.可选地，该方法还包括：响应于多组训练数据的数据总量小于预设数量，停止利用多组训练数据对原始模型进行训练。
11.根据本公开的又一方面，提供了一种图像识别装置，包括一种图像识别装置，包括：图像获取模块，用于获取目标图像，其中，目标图像包括待识别对象；对象识别模块，用于利用目标模型对目标图像进行对象识别，得到识别结果；其中，目标模型分别使用多组训练数据通过机器学习训练得到，多组训练数据至少包括：第一组训练数据、第二组训练数据、第三组训练数据，第一组训练数据、第二组训练数据、第三组训练数据的损失梯度不同。
12.可选地，该装置还包括：数据获取模块，用于获取目标训练数据；模型训练模块，用于利用目标训练数据对原始模型进行训练，得到第一训练结果；损失梯度确定模块，用于基于第一训练结果确定目标训练数据对应的第一损失梯度；分组模块，用于基于第一损失梯度对目标训练数据进行分组，得到多组训练数据；模型训练模块还用于利用多组训练数据对原始模型进行训练，得到目标模型。
13.可选地，分组模块还用于基于预设损失梯度和第一损失梯度对目标训练数据进行分组，得到第一组训练数据、第二组训练数据和第三组训练数据，其中，第一组训练数据的损失梯度大于第二组训练数据的损失梯度、二组训练数据的损失梯度大于第三组训练数据的损失梯度。
14.可选地，模型训练模块，包括：增强处理单元，用于对第一组训练数据进行增强处理，得到第四组训练数据；模型训练单元，用于利用第二组训练数据、第三组训练数据和第四组训练数据对原始模型进行训练，得到目标模型。
15.可选地，模型训练单元还用于：利用第二组训练数据、第三组训练数据和第四组训练数据对原始模型进行训练，得到第二训练结果；对第三组训练数据中的每个数据进行标识处理，得到标识处理后的第三组训练数据，其中，标识处理后的第三组训练数据中每个数据包含至少一个目标标识；基于第四组训练数据和标识处理后的第三组训练数据对目标训练数据进行更新，得到更新后的目标训练数据；利用第二训练结果对更新后的目标训练数据进行分组，得到多组训练数据；利用多组训练数据对原始模型进行训练，得到目标模型。
16.可选地，模型训练模块还包括：检测单元，用于检测标识处理后的第三组训练数据中每个数据包含目标标识的目标数量；删除单元，用于响应于处理后的第三组训练数据存在目标数据包含目标标识的目标数量大于或等于预设数量，从处理后的第三组训练数据中删除目标数据，得到删除处理后的第三组训练数据；更新单元，用于基于第四组训练数据和删除处理后的第三组训练数据对目标训练数据进行更新，得到更新后的目标训练数据。
17.可选地，装置还包括：停止模块，用于响应于多组训练数据的数据总量小于预设数量，停止利用多组训练数据对原始模型进行训练。
18.根据本公开的又一方面，提供了一种电子设备，包括：至少一个处理器；以及与至少一个处理器通信连接的存储器；其中，存储器存储有可被至少一个处理器执行的指令，指
令被至少一个处理器执行，以使至少一个处理器能够执行本公开提出的图像识别方法。
19.根据本公开的又一方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，其中，计算机指令用于使计算机执行本公开提出的图像识别方法。
20.根据本公开的又一方面，提供了一种计算机程序产品，包括计算机程序，计算机程序在被处理器执行本公开提出的图像识别方法。
21.在本公开中，首先获取目标图像，其中，目标图像包括待识别对象，然后利用目标模型对目标图像进行对象识别，得到识别结果，其中，目标模型分别使用多组训练数据通过机器学习训练得到，多组训练数据至少包括：第一组训练数据、第二组训练数据、第三组训练数据，第一组训练数据、第二组训练数据、第三组训练数据的损失梯度不同，达到了训练得到精确度更高的目标模型，实现了利用精确度更高的目标模型对目标图像进行识别，从而提高目标图像的识别精确度，从而解决了相关技术中模型识别的准确率较低的技术问题。
22.应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
23.附图用于更好地理解本方案，不构成对本公开的限定。其中：
24.图1是根据本公开实施例的一种用于实现图像识别方法的计算机终端(或移动设备)的硬件结构框图；
25.图2是根据本公开第一实施例的一种图像识别方法的流程图；
26.图3是根据本公开第二实施例的一种图像识别方法的流程图；
27.图4是根据本公开第三实施例的一种图像识别方法的流程图；
28.图5是本公开一种优选的实施例的示意图；
29.图6是根据本公开实施例的一种图像识别装置的结构图。
具体实施方式
30.以下结合附图对本公开的示范性实施例做出说明，其中包括本公开实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本公开的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。
31.需要说明的是，本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
32.根据本公开实施例，提供了一种图像识别方法，需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中
示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。
33.本公开实施例所提供的方法实施例可以在移动终端、计算机终端或者类似的电子设备中执行。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。图1示出了一种用于实现图像识别方法的计算机终端(或移动设备)的硬件结构框图。
34.如图1所示，计算机终端100包括计算单元101，其可以根据存储在只读存储器(rom)102中的计算机程序或者从存储单元108加载到随机访问存储器(ram)103中的计算机程序，来执行各种适当的动作和处理。在ram 103中，还可存储计算机终端100操作所需的各种程序和数据。计算单元101、rom 102以及ram 103通过总线104彼此相连。输入/输出(i/o)接口105也连接至总线104。
35.计算机终端100中的多个部件连接至i/o接口105，包括：输入单元106，例如键盘、鼠标等；输出单元107，例如各种类型的显示器、扬声器等；存储单元108，例如磁盘、光盘等；以及通信单元109，例如网卡、调制解调器、无线通信收发机等。通信单元109允许计算机终端100通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
36.计算单元101可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元101的一些示例包括但不限于中央处理单元(cpu)、图形处理单元(gpu)、各种专用的人工智能(ai)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(dsp)、以及任何适当的处理器、控制器、微控制器等。计算单元101执行本文所描述的图像识别方法。例如，在一些实施例中，图像识别方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元108。在一些实施例中，计算机程序的部分或者全部可以经由rom 102和/或通信单元109而被载入和/或安装到计算机终端100上。当计算机程序加载到ram 103并由计算单元101执行时，可以执行本文描述的图像识别方法的一个或多个步骤。备选地，在其他实施例中，计算单元101可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行图像识别方法。
37.本文中描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(fpga)、专用集成电路(asic)、专用标准产品(assp)、芯片上系统的系统(soc)、负载可编程逻辑设备(cpld)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
38.此处需要说明的是，在一些可选实施例中，上述图1所示的电子设备可以包括硬件元件(包括电路)、软件元件(包括存储在计算机可读介质上的计算机代码)、或硬件元件和软件元件两者的结合。应当指出的是，图1仅为特定具体实例的一个实例，并且旨在示出可存在于上述电子设备中的部件的类型。
39.在上述运行环境下，本公开提供了如图2所示的图像识别方法，该方法可以由图1所示的计算机终端或者类似的电子设备执行。图2是根据本公开实施例提供的一种图像识别方法流程图。如图2所示，该方法可以包括如下步骤：
40.步骤s201，获取目标图像。
41.其中，目标图像包括待识别对象。
42.上述的目标图像可以是待识别的文本图像，待识别对象可以为待识别的文本。上述的目标图像还可以是待识别的人脸图像，待识别对象可以为待识别人脸。上述的目标图像还可以是待识别的城市规划图像，待识别对象可以为建筑物。
43.步骤s202，利用目标模型对目标图像进行对象识别，得到识别结果。
44.其中，目标模型分别使用多组训练数据通过机器学习训练得到，多组训练数据至少包括：第一组训练数据、第二组训练数据、第三组训练数据，第一组训练数据、第二组训练数据、第三组训练数据的损失梯度不同。
45.上述的损失梯度用于表示模型对该训练数据的识别准确度。
46.在一种可选的实施例中，目标模型可以为文字识别模型，可以利用目标模型对文本图像进行文字识别，得到文本图像中所包含的文本。目标模型可以为人脸识别模型，可以利用目标模型对人脸图像进行识别，得到人脸图像中所包含的人脸信息。本技术后续以文本识别模型和文本图像为例进行说明，但不限于将上述的目标模型应用在其他场景中。
47.上述的多组训练数据中可以包括有文本图像和对应的文本。
48.在另一种可选的实施例中，第一组训练数据的损失梯度最大，说明目标模型对于第一组训练数据的学习能力较弱，需要对第一组训练数据增强，以便加强对模型的训练。第二组训练数据的损失梯度一般，可以直接利用第二组训练数据对模型进行训练。第三组训练数据的损失梯度最低，说明模型对该组训练数据的学习能力较强，此时，可以利用第三组训练数据中所包含的数据对模型进行训练，在训练一定次数之后，可以将第三组训练数据中的训练多次的数据进行丢弃，以减少训练资源的占用。
49.需要说明的是，多组训练数据中的组别是用于对数据的属性进行区分，可以通过多组训练数据中的数据对模型进行持续训练，在每组数据中的数据对模型训练完之后，可以根据训练结果中数据的损失梯度分至对应的组别中，以便对该数据进行处理，利用处理后的数据继续对模型进行训练。
50.相较于相关技术中基于英文数字的方法对汉字进行识别的准确率往往低于预期，特别是某些特定场景，如弯曲字，小号字，异体字，手写字等情况下，识别效果更是差强人意，本公开中的目标模型可以有效的提高目标图像中待识别对象的识别精度，从而可以有效的提高待识别对象的识别准确率。
51.通过上述步骤，首先获取目标图像，其中，目标图像包括待识别对象，然后利用目标模型对目标图像进行对象识别，得到识别结果，其中，目标模型分别使用多组训练数据通过机器学习训练得到，多组训练数据至少包括：第一组训练数据、第二组训练数据、第三组训练数据，第一组训练数据、第二组训练数据、第三组训练数据的损失梯度不同，达到了训练得到精确度更高的目标模型，实现了利用精确度更高的目标模型对目标图像进行识别，从而提高目标图像的识别精确度，从而解决了相关技术中模型识别的准确率较低的技术问题。
52.图3是根据本公开第二实施例的一种图像识别方法的流程图，如图3所示，该方法包括如下步骤：
53.步骤s301，获取目标训练数据。
54.步骤s302，利用目标训练数据对原始模型进行训练，得到第一训练结果。
55.上述的目标训练数据可以为文本图像和对应的文本。
56.上述的原始模型可以为待训练的模型。
57.在一种可选的实施例中，可以先利用目标训练数据对原始模型进行训练，得到第一训练结果，其中，第一训练结果可以用于表示原始模型对于目标训练数据中文本图像的识别精确度，可以根据第一训练结果确定目标训练数据中每个数据的第一损失梯度，以便确定模型对每个数据的识别能力，在得到第一损失梯度之后，可以根据第一损失梯度的模对目标训练数据进行分组，以便将目标训练数据分为多个组，对于每个组可以采用不同的训练方式对原始模型进行训练，最终训练得到目标模型。
58.需要说明的是，在每次通过多组训练数据对原始模型训练之后，可以根据多组训练数据中每个数据对应的损失梯度对多组训练数据重新进行分组。由于每组训练数据的训练方式不同，因此，可以在每次训练之前通过对训练数据进行分组的方式来将损失梯度相近的数据分到同一组中，对于高损失梯度的数据可以在进行数据增强之后再对原始模型进行训练，对于中损失梯度的数据可以直接对原始模型进行训练，对于低损失梯度的数据若是连续多次处于第三组训练数据中，则可以将该低损失梯度的数据进行剔除，以便减少训练资源的占用。在剔除一定数量的训练数据之后，说明目标模型的识别能力已经达到用户需求，此时，可以结束训练过程。
59.步骤s303，基于第一训练结果确定目标训练数据对应的第一损失梯度。
60.步骤s304，基于第一损失梯度对目标训练数据进行分组，得到多组训练数据。
61.可选地，基于第一损失梯度对目标训练数据进行分组，得到多组训练数据，包括：基于预设损失梯度和第一损失梯度对目标训练数据进行分组，得到第一组训练数据、第二组训练数据和第三组训练数据，其中，第一组训练数据的损失梯度大于第二组训练数据的损失梯度、二组训练数据的损失梯度大于第三组训练数据的损失梯度。
62.上述的预设损失梯度可以为第一预设损失梯度和第二预设损失梯度。第一预设损失梯度大于第二预设损失梯度。
63.其中，第一预设损失梯度用于区分出第一组训练数据，第二预设损失梯度用于区分出第二组训练数据。
64.在一种可选的实施例中，可以根据预设损失梯度对第一损失梯度对应的训练数据进行分组，得到高损失梯度的第一组训练数据，中损失梯度的第二组训练数据，低损失梯度的第三组训练数据。其中，第一组训练数据一般为模型较难识别的数据，例如，训练数据中文本图像的背景影响较大、文字的扭曲度较大，第二组训练数据为模型识别的一般数据，模型通过多多次识别能够很好学习的数据，第三组训练数据为模型识别的简单数据，模型已经学习到该组训练数据中所包含的特征，在下次训练时，可以检测第三组训练数据中多次标记为低损失梯度的数据，并将多次标记为低损失梯度的数据删除，以减少训练资源的占用。
65.步骤s305，利用多组训练数据对原始模型进行训练，得到目标模型。
66.可选地，利用多组训练数据对原始模型进行训练，得到目标模型，包括：对第一组训练数据进行增强处理，得到第四组训练数据；利用第二组训练数据、第三组训练数据和第四组训练数据对原始模型进行训练，得到目标模型。
67.上述的第四组训练数据可以包含第一组训练数据。
68.在一种可选的实施例中，由于第一组训练数据中的数据较难学习，因此，需要针对第一组训练数据进行训练，可以先对第一组训练数进行增强处理，例如，形变、色彩变化、尺寸变化、模糊度变化等，增强其文本部分的特征，得到增强处理之后的第四组训练数据。通过第四组训练数据对原始模型进行训练，可以提高目标模型对于较难的文本图像的识别精度，达到对目标模型进行针对性识别的目的。
69.可选地，利用第二组训练数据、第三组训练数据和第四组训练数据对原始模型进行训练，得到目标模型，包括：利用第二组训练数据、第三组训练数据和第四组训练数据对原始模型进行训练，得到第二训练结果；对第三组训练数据中的每个数据进行标识处理，得到标识处理后的第三组训练数据，其中，标识处理后的第三组训练数据中每个数据包含至少一个目标标识；基于第四组训练数据和标识处理后的第三组训练数据对目标训练数据进行更新，得到更新后的目标训练数据；利用第二训练结果对更新后的目标训练数据进行分组，得到多组训练数据；利用多组训练数据对原始模型进行训练，得到目标模型。
70.上述的目标标识用于对第三组训练数据中的低损失梯度的数据进行标识，以确定该数据在第三组训练数据的次数，若多次训练的过程中，该数据都被分至第三组训练数据中，则说明模型已经将该数据中的特征完全识别，此时不再需要对该数据进行训练，可以将该数据剔除以节省训练资源。
71.在一种可选的实施例中，可以先利用目标训练数据对原始模型进行第一次训练，并根据第一次训练得到的第一训练结果对原始模型进行训练，基于第一训练结果对目标训练数据进行分组，可以根据分组后的多组训练数据继续对原始模型进行第二次训练，在训练结束之后，可以先对第三组训练数据中的低损失梯度数据进行标识处理，得到标识处理后的第三组训练数据，由于第四组训练数据和标识处理之后的第三组训练数据的数据内容产生了变化，因此，可以先根据这两组数据对目标训练数据进行更新，以便根据第二训练结果中每个数据的损失梯度对更新后的目标训练数据重新进行分组，得到多组训练数据。
72.通过上述步骤，可以对在对原始模型进行训练的过程中，通过对目标训练数据进行更新并重新分组可以在每次训练原始模型时都能够进行针对性的训练，从而提高训练得到的目标模型的识别精度。
73.可选地，在基于第四组训练数据和标识处理后的第三组训练数据对目标训练数据进行更新，得到更新后的目标训练数据之后，该方法还包括：检测标识处理后的第三组训练数据中每个数据包含目标标识的目标数量；响应于处理后的第三组训练数据存在目标数据包含目标标识的目标数量大于或等于预设数量，从处理后的第三组训练数据中删除目标数据，得到删除处理后的第三组训练数据；基于第四组训练数据和删除处理后的第三组训练数据对目标训练数据进行更新，得到更新后的目标训练数据。
74.上述的预设数量可以自行设置，例如，可以设置为2，若数据两次被认证为低损失梯度数据，则说明模型已经完全学习该数据，此时可以模型不需要再对该数据进行学习，可以将该数据剔除，以节省训练资源。
75.在一种可选的实施例中，可以检测标识处理后的第三组训练数据中每个数据包含的目标标识的目标数量，其中，目标数量用于标识该数据被认证为低损失梯度数据的次数，若目标标识的目标数量大于或等于预设数量，则说明该数据已被多次认证为低损失梯度数据，此时，可以删除第三组训练数据中的目标数据，不再利用该目标数据对模型进行训练，并根据第四组训练数据和删除处理后的第三组训练数据对目标训练数据进行更新，并对更新后的目标训练数据重新进行分组，得到多组训练数据，利用多组训练数据继续对原始模型进行训练，直至训练得到目标模型。
76.步骤s306，获取目标图像。
77.其中，目标图像包括待识别对象。
78.步骤s307，利用目标模型对目标图像进行对象识别，得到识别结果。
79.上述步骤s306至步骤s307的实现方式与上述实施例中的步骤s201至步骤s202相同，在此不做赘述。
80.图4是根据本公开第三实施例的一种图像识别方法的流程图，如图4所示，该方法包括如下步骤：
81.步骤s401，获取目标训练数据。
82.步骤s402，利用目标训练数据对原始模型进行训练，得到第一训练结果。
83.步骤s403，基于第一训练结果确定目标训练数据对应的第一损失梯度。
84.步骤s404，基于第一损失梯度对目标训练数据进行分组，得到多组训练数据。
85.步骤s405，利用多组训练数据对原始模型进行训练，响应于多组训练数据的数据总量小于预设数量，停止利用多组训练数据对原始模型进行训练，得到目标模型。
86.上述的预设数量可以根据最开始训练模型时的目标训练数据的数据量得到，具体的，预设数量可以为目标训练数据对应数据量的30％。
87.在一种可选的实施例中，在每次对原始模型训练完毕之后，可以检测多组训练数据的数据总量，判断多组训练数据的数据总量是否小于预设数量，若多组训练数据的数据总量小于预设数量，则说明模型此时已经学会了大部分的训练数据，此时，可以停止利用多组训练数据对原始模型进行训练，以便得到精确度较高的目标模型，及时停止对模型的训练过程还可以减少对训练资源的占用。
88.步骤s406，获取目标图像。
89.其中，目标图像包括待识别对象。
90.步骤s407，利用目标模型对目标图像进行对象识别，得到识别结果。
91.图5是本公开一种优选的实施例的示意图，下面的结合图5对本公开一种优选的实施例进行详细说明，如图5所示，上述方法可以应用于各个基于神经网络算法的文字识别模型中，通过深度学习网络模型采用链式法则，对输入模型进行损失迭代，从而达到学习的目的。可以在模型完成一次输入计算后，并且回传损失梯度前，计算回传损失梯度的模，并基于预设数值，将不同数据的根据回传损失梯度的模分为高损失数据，中损失数据，和低损失数据。其中，高损失数据一般为损失梯度的模较大的数据，认为为较难数据，需要模型进一步针对性训练。这批数据会进一步进行数据增强，如形变、色彩变幻等方式，可以增强其文字部分特征，返回补充至目标训练数据中；中损失数据为一般数据，将其直接回传至目标训练数据中等待下一步训练。低损失数据认为为简单数据，第一次得到的低损失数据会被保
留至目标训练数据中，进行第二次评测，若两次评测中，该数据均被分为低损失数据，则认为模型已经完全学习到其有用特征，不需要继续训练，将其移出目标训练数据，以便节约模型训练算力与训练时间，若第二次评测不为低损失数据，则认为模型仅是在中间步骤中恰好得到了与其相似的特征提取能力，不能作为准确结论。继续将其补充至训练数据集合继续训练。
92.上述方法可以应用在在模型初步收敛后接入模型训练，也可以在开始阶段接入模型训练。对于损失梯度的分类的方法为阈值方式，其中阈值针对不同的模型和损失计算方式设置。一般在舍弃70％数据后可以停止模型训练。
93.本公开的技术方案中，所涉及的用户个人信息的收集、存储、使用、加工、传输、提供和公开等处理，均符合相关法律法规的规定，且不违背公序良俗。
94.通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本公开的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，或者网络设备等)执行本公开各个实施例的方法。
95.在本公开中还提供了一种图像识别装置，该装置用于实现上述实施例及优选实施方式，已经进行过说明的不再赘述。如以下所使用的，术语“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现，但是硬件，或者软件和硬件的组合的实现也是可能并被构想的。
96.图6是根据本公开其中一实施例的一种图像识别装置的结构框图，如图6所示，一种图像识别装置600包括:
97.图像获取模块602，用于获取目标图像，其中，目标图像包括待识别对象；
98.对象识别模块604，用于利用目标模型对目标图像进行对象识别，得到识别结果；
99.其中，目标模型分别使用多组训练数据通过机器学习训练得到，多组训练数据至少包括：第一组训练数据、第二组训练数据、第三组训练数据，第一组训练数据、第二组训练数据、第三组训练数据的损失梯度不同。
100.可选地，该装置还包括：数据获取模块，用于获取目标训练数据；模型训练模块，用于利用目标训练数据对原始模型进行训练，得到第一训练结果；损失梯度确定模块，用于基于第一训练结果确定目标训练数据对应的第一损失梯度；分组模块，用于基于第一损失梯度对目标训练数据进行分组，得到多组训练数据；模型训练模块还用于利用多组训练数据对原始模型进行训练，得到目标模型。
101.可选地，分组模块还用于基于预设损失梯度和第一损失梯度对目标训练数据进行分组，得到第一组训练数据、第二组训练数据和第三组训练数据，其中，第一组训练数据的损失梯度大于第二组训练数据的损失梯度、二组训练数据的损失梯度大于第三组训练数据的损失梯度。
102.可选地，模型训练模块，包括：增强处理单元，用于对第一组训练数据进行增强处理，得到第四组训练数据；模型训练单元，用于利用第二组训练数据、第三组训练数据和第四组训练数据对原始模型进行训练，得到目标模型。
103.可选地，模型训练单元还用于：利用第二组训练数据、第三组训练数据和第四组训练数据对原始模型进行训练，得到第二训练结果；对第三组训练数据中的每个数据进行标识处理，得到标识处理后的第三组训练数据，其中，标识处理后的第三组训练数据中每个数据包含至少一个目标标识；基于第四组训练数据和标识处理后的第三组训练数据对目标训练数据进行更新，得到更新后的目标训练数据；利用第二训练结果对更新后的目标训练数据进行分组，得到多组训练数据；利用多组训练数据对原始模型进行训练，得到目标模型。
104.可选地，模型训练模块还包括：检测单元，用于检测标识处理后的第三组训练数据中每个数据包含目标标识的目标数量；删除单元，用于响应于处理后的第三组训练数据存在目标数据包含目标标识的目标数量大于或等于预设数量，从处理后的第三组训练数据中删除目标数据，得到删除处理后的第三组训练数据；更新单元，用于基于第四组训练数据和删除处理后的第三组训练数据对目标训练数据进行更新，得到更新后的目标训练数据。
105.可选地，装置还包括：停止模块，用于响应于多组训练数据的数据总量小于预设数量，停止利用多组训练数据对原始模型进行训练。
106.需要说明的是，上述各个模块是可以通过软件或硬件来实现的，对于后者，可以通过以下方式实现，但不限于此：上述模块均位于同一处理器中；或者，上述各个模块以任意组合的形式分别位于不同的处理器中。
107.根据本公开的实施例，本公开还提供了一种电子设备，包括存储器和至少一个处理器，该存储器中存储有计算机指令，该处理器被设置为运行计算机指令以执行上述任一项方法实施例中的步骤。
108.可选地，上述电子设备还可以包括传输设备以及输入输出设备，其中，该传输设备和上述处理器连接，该输入输出设备和上述处理器连接。
109.可选地，在本公开中，上述处理器可以被设置为通过计算机程序执行以下步骤：
110.s1，获取目标图像，其中，目标图像包括待识别对象；
111.s2，利用目标模型对目标图像进行对象识别，得到识别结果；
112.其中，目标模型分别使用多组训练数据通过机器学习训练得到，多组训练数据至少包括：第一组训练数据、第二组训练数据、第三组训练数据，第一组训练数据、第二组训练数据、第三组训练数据的损失梯度不同。
113.可选地，本实施例中的具体示例可以参考上述实施例及可选实施方式中所描述的示例，本实施例在此不再赘述。
114.根据本公开的实施例，本公开还提供了一种存储有计算机指令的非瞬时计算机可读存储介质，该非瞬时计算机可读存储介质中存储有计算机指令，其中，该计算机指令被设置为运行时执行上述任一项方法实施例中的步骤。
115.可选地，在本实施例中，上述非易失性存储介质可以被设置为存储用于执行以下步骤的计算机程序：
116.s1，获取目标图像，其中，目标图像包括待识别对象；
117.s2，利用目标模型对目标图像进行对象识别，得到识别结果；
118.其中，目标模型分别使用多组训练数据通过机器学习训练得到，多组训练数据至少包括：第一组训练数据、第二组训练数据、第三组训练数据，第一组训练数据、第二组训练数据、第三组训练数据的损失梯度不同。
119.可选地，在本实施例中，上述非瞬时计算机可读存储介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(ram)、只读存储器(rom)、可擦除可编程只读存储器(eprom或快闪存储器)、光纤、便捷式紧凑盘只读存储器(cd-rom)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
120.根据本公开的实施例，本公开还提供了一种计算机程序产品。用于实施本公开的音频处理方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
121.在本公开的上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。
122.在本公开所提供的几个实施例中，应该理解到，所揭露的技术内容，可通过其它的方式实现。其中，以上所描述的装置实施例仅仅是示意性的，例如所述单元的划分，可以为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，单元或模块的间接耦合或通信连接，可以是电性或其它的形式。
123.所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
124.另外，在本公开各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。
125.所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本公开的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本公开各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：u盘、只读存储器(rom)、随机存取存储器(ram)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
126.以上所述仅是本公开的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本公开原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本公开的保护范围。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：一种基于采样点序列的手绘图形修正方法、系统及介质与流程

图像识别方法、装置、电子设备以及存储介质与流程

相关文献

最热文献