一种图像识别模型的训练方法及图像识别方法与流程

2022-03-14 04:30:13 来源：中国专利 TAG：

1.本技术涉及数据处理技术领域，具体涉及一种图像识别模型的训练方法、装置及设备。本技术还涉及一种图像识别方法、装置及设备。本技术还涉及一种图像识别系统。

背景技术：

2.目前，图像识别有着广泛应用，神经网络(neural networks)是一种常用的图像识别模型，一般通过获取图像数据作为训练样本对原始神经网络进行训练得到训练完成的神经网络，将包含待识别内容的图像作为训练好的神经网络的输入，识别出待识别内容的相关信息。训练样本的质量和数量对于模型训练非常重要。实际中可以使用文本标签到搜索引擎搜索图像数据，可满足训练样本的数量。但是搜索到的图像数据中带有较多噪声图像，会对模型训练产生干扰。现有技术中，针对搜索到的图像数据进行人工标注以减少训练样本中的噪声图像。但是人工标注处理效率较低并且成本较高。
3.因此，如何抑制训练样本中噪声图像对图像识别模型训练的干扰，是需要解决的问题。

技术实现要素：

4.本技术实施例提供的图像识别模型的训练方法及图像识别方法，解决了训练样本中噪声图像对图像识别模型训练的干扰，提高了图像识别模型的学习效率及准确率。
5.本技术实施例提供一种图像识别方法，包括：
6.获取训练完成的图像识别模型，所述训练完成的图像识别模型通过使用训练样本训练原始图像识别模型，在训练过程中基于所述训练样本对应的特定视觉原型数据确定训练产生的训练损失数据，并训练直至所述训练损失数据满足预设条件而得到；其中，所述特定视觉原型数据为根据图像数据以及所述图像数据的辅助信息生成的视觉原型数据；
7.获取待识别的目标图像；
8.根据所述训练完成的图像识别模型，对所述目标图像进行识别，得到识别结果。
9.可选的，还包括：基于所述图像数据与所述图像数据的辅助信息之间的匹配度生成所述视觉原型数据。
10.可选的，所述基于所述图像数据与所述图像数据的辅助信息之间的匹配度生成所述视觉原型数据，包括：
11.根据所述图像数据的辅助信息，生成特定类型的文本分类关系；
12.根据所述图像数据生成所述特定类型的视觉分类关系；
13.通过图匹配算法确定所述文本分类关系与所述视觉分类关系之间的匹配度，生成所述特定类型对应的视觉原型数据。
14.可选的，所述根据所述图像数据的辅助信息，生成特定类型的文本分类关系，包括：
15.从所述辅助信息中抽取所述特定类型的文本描述信息；
16.从所述文本描述信息中提取文本向量；
17.根据所述文本向量之间的相似关系生成所述特定类型的文本分类关系。
18.可选的，所述根据所述图像数据生成所述特定类型的视觉分类关系，包括：
19.通过神经网络分类模型将所述图像数据进行分类，得到分类结果；
20.确定分类结果中特定类型的置信度评分满足预设置信度阈值的图像数据，作为参与生成所述特定类型对应的视觉原型数据的图像数据；
21.根据所述参与生成所述特定类型对应的视觉原型数据的图像数据，生成所述特定类型对应的视觉分类关系。
22.可选的，所述通过图匹配算法确定所述视觉分类关系与所述文本分类关系之间的匹配度，生成所述特定类型对应的视觉原型数据，包括：
23.通过相对熵匹配算法确定所述特定类型的视觉分类关系与文本分类关系之间的相似度，作为所述匹配度；
24.根据所述匹配度确定图像特征的权重，根据所述权重以及所述图像特征生成所述视觉原型数据；其中，所述图像特征为参与生成所述视觉原型数据的图像数据的特征。
25.可选的，所述在训练过程中基于所述特定视觉原型数据确定训练产生的训练损失数据，包括：
26.确定所述训练样本与所述特定视觉原型数据之间的相似度；
27.将所述相似度作为所述训练样本的噪声权重，使用所述噪声权重与交叉熵损失函数构成加权交叉熵损失函数；
28.根据所述加权交叉熵损失函数计算每次训练产生的训练损失数据。
29.可选的，所述确定所述训练样本与所述特定视觉原型数据之间的相似度，包括：计算所述训练样本与所述特定视觉原型数据之间的距离值，将所述距离值作为所述相似度。
30.本技术实施例还提供一种图像识别模型的训练方法，包括：
31.获取图像数据以及所述图像数据的辅助信息，根据所述图像数据以及所述辅助信息生成视觉原型数据；
32.获取训练样本以及所述训练样本对应的特定视觉原型数据；
33.使用所述训练样本训练原始图像识别模型，在训练过程中基于所述特定视觉原型数据确定训练产生的训练损失数据，并训练直至所述训练损失数据满足预设条件，得到训练完成的图像识别模型。
34.可选的，所述根据所述图像数据以及所述辅助信息生成视觉原型数据，包括：基于所述图像数据与所述图像数据的辅助信息之间的匹配度生成所述视觉原型数据。
35.可选的，所述基于所述图像数据与所述图像数据的辅助信息之间的匹配度生成所述视觉原型数据，包括：
36.根据所述图像数据的辅助信息，生成特定类型的文本分类关系；
37.根据所述图像数据生成所述特定类型的视觉分类关系；
38.通过图匹配算法确定所述文本分类关系与所述视觉分类关系之间的匹配度，生成所述特定类型对应的视觉原型数据。
39.可选的，所述根据所述图像数据的辅助信息，生成特定类型的文本分类关系，包括：
40.从所述辅助信息中抽取所述特定类型的文本描述信息；
41.从所述文本描述信息中提取文本向量；
42.根据所述文本向量之间的相似关系生成所述特定类型的文本分类关系。
43.可选的，所述根据所述图像数据生成所述特定类型的视觉分类关系，包括：
44.通过神经网络分类模型将所述图像数据进行分类，得到分类结果；
45.确定分类结果中特定类型的置信度评分满足预设置信度阈值的图像数据，作为参与生成所述特定类型对应的视觉原型数据的图像数据；
46.根据所述参与生成所述特定类型对应的视觉原型数据的图像数据，生成所述特定类型对应的视觉分类关系。
47.可选的，所述通过图匹配算法确定所述视觉分类关系与所述文本分类关系之间的匹配度，生成所述特定类型对应的视觉原型数据，包括：
48.通过相对熵匹配算法确定所述特定类型的视觉分类关系与文本分类关系之间的相似度，作为所述匹配度；
49.根据所述匹配度确定图像特征的权重，根据所述权重以及所述图像特征生成所述视觉原型数据；其中，所述图像特征为参与生成所述视觉原型数据的图像数据的特征。
50.可选的，所述在训练过程中基于所述特定视觉原型数据确定训练产生的训练损失数据，包括：
51.确定所述训练样本与所述特定视觉原型数据之间的相似度；
52.将所述相似度作为所述训练样本的噪声权重，使用所述噪声权重与交叉熵损失函数构成加权交叉熵损失函数；
53.根据所述加权交叉熵损失函数计算每次训练产生的训练损失数据。
54.可选的，所述确定所述训练样本与所述特定视觉原型数据之间的相似度，包括：计算所述训练样本与所述特定视觉原型数据之间的距离值，将所述距离值作为所述相似度。
55.可选的，所述辅助信息，包括下述至少一种信息：图像对应的层次语义信息、图像的搜索排序信息、图像的搜索来源信息、图像的描述信息、图像的标签信息、图像的标题信息。
56.可选的，所述根据所述图像数据以及所述辅助信息生成视觉原型数据，包括：
57.对所述图像数据和/或所述辅助信息进行归类，得到：图像类型；以及，每个图像类型包括的图像数据及辅助信息；
58.根据所述每个图像类型包括的图像数据及辅助信息，生成每个图像类型对应的视觉原型数据；
59.所述获取所述训练样本对应的特定视觉原型数据，包括：
60.确定所述训练样本匹配上的图像类型，将所述图像类型对应的视觉原型数据作为所述训练样本对应的特定视觉原型数据。
61.本技术实施例还提供一种图像识别系统，包括：客户端，以及服务端；
62.所述客户端，用于获取待识别的目标图像，将所述目标图像发送给所述服务端；
接收所述服务端提供的针对所述目标图像的识别结果信息并进行显示；
63.所述服务端，用于接收所述客户端发送的待识别的目标图像；获取训练完成的图像识别模型，所述训练完成的图像识别模型通过使用训练样本训练原始图像识别模型，在训练过程中基于所述训练样本对应的特定视觉原型数据确定训练产生的训练损失数据，并训练直至所述训练损失数据满足预设条件而得到；其中，所述特定视觉原型数据为根据图像数据以及所述图像数据的辅助信息生成的视觉原型数据；根据所述训练完成的图像识别模型对所述目标图像进行识别，得到识别结果并发送给所述客户端。
64.可选的，所述服务端，根据所述客户端访问所述服务端的登录用户的用户级别，确定向所述客户端提供的图像识别服务级别，根据所述图像识别服务级别以及所述训练完成的图像识别模型对所述目标图像进行识别。
65.本技术实施例还提供一种图像识别装置，包括：
66.模型获取单元，用于获取训练完成的图像识别模型，所述训练完成的图像识别模型通过使用训练样本训练原始图像识别模型，在训练过程中基于所述训练样本对应的特定视觉原型数据确定训练产生的训练损失数据，并训练直至所述训练损失数据满足预设条件而得到；其中，所述特定视觉原型数据为根据图像数据以及所述图像数据的辅助信息生成的视觉原型数据；
67.输入单元，用于获取待识别的目标图像；
68.识别单元，用于根据所述训练完成的图像识别模型，对所述目标图像进行识别，得到识别结果。
69.本技术实施例还提供一种图像识别模型的训练装置，包括：
70.视觉原型生成单元，用于获取图像数据以及所述图像数据的辅助信息，根据所述图像数据以及所述辅助信息生成视觉原型数据；
71.训练数据获取单元，用于获取训练样本以及所述训练样本对应的特定视觉原型数据；
72.训练单元，用于使用所述训练样本训练原始图像识别模型，在训练过程中基于所述特定视觉原型数据确定训练产生的训练损失数据，并训练直至所述训练损失数据满足预设条件，得到训练完成的图像识别模型。
73.本技术实施例还提供一种电子设备，包括：存储器，以及处理器；所述存储器用于存储计算机程序，所述计算机程序被所述处理器运行后，执行本技术实施例提供的所述方法。
74.本技术实施例还提供一种存储设备，存储有计算机程序，所述计算机程序被处理器运行后，执行本技术实施例提供的所述方法。
75.本技术实施例还提供一种图像识别方法，包括：
76.获取图像识别模型，所述图像识别模型通过使用训练样本训练原始图像识别模型，在训练过程中基于所述训练样本对应的特定视觉原型数据确定训练产生的训练损失数据，并训练直至所述训练损失数据满足预设条件而得到；其中，所述特定视觉原型数据为根据图像数据以及所述图像数据的辅助信息生成的视觉原型数据；
77.获取待识别的目标图像；
78.根据所述图像识别模型，对所述目标图像进行识别，得到识别结果。
79.与现有技术相比，本技术具有以下优点：
80.本技术实施例提供的一种图像识别方法、装置及设备，通过根据训练完成的图像识别模型对目标图像进行识别，得到识别结果；所述训练完成的图像识别模型通过使用训练样本训练原始图像识别模型，在训练过程中基于所述训练样本对应的特定视觉原型数据确定训练产生的训练损失数据，并训练直至所述训练损失数据满足预设条件而得到；其中，所述特定视觉原型数据为根据图像数据以及所述图像数据的辅助信息生成的视觉原型数据。根据图像数据的辅助信息生成视觉原型数据，并用于计算每次训练的训练损失数据，可以对图像数据进行噪声过滤，不需要对训练样本预先进行人工标注，抑制了训练样本中的噪声图像对训练的干扰，提高了模型学习效率及模型识别的准确率。
81.本技术实施例提供的一种图像识别模型的训练方法、装置及设备，通过根据图像数据以及所述图像数据的辅助信息生成视觉原型数据；使用训练样本训练原始图像识别模型的过程中，基于所述特定视觉原型数据确定训练产生的训练损失数据，并训练直至所述训练损失数据满足预设条件，得到训练完成的图像识别模型。根据图像数据的辅助信息生成视觉原型数据，并用于计算每次训练的训练损失数据，可对图像数据进行噪声过滤。抑制了训练样本中的噪声图像对训练的干扰，提高了模型学习效率及模型识别的准确率。
82.本技术实施例提供的一种图像识别系统，包括：客户端，以及服务端；所述客户端将待识别的目标图像发送给所述服务端；接收所述服务端提供的针对所述目标图像的识别结果信息并进行显示；所述服务端接收所述待识别的目标图像；根据训练完成的图像识别模型对所述目标图像进行识别，得到识别结果并发送给所述客户端，所述训练完成的图像识别模型通过使用训练样本训练原始图像识别模型，在训练过程中基于所述训练样本对应的特定视觉原型数据确定训练产生的训练损失数据，并训练直至所述训练损失数据满足预设条件而得到；其中，所述特定视觉原型数据为根据图像数据以及所述图像数据的辅助信息生成的视觉原型数据。通过针对包含待识别内容的图像进行识别和/或搜索，获得图像中待识别内容的相关信息，为用户提供了一种便捷的信息获得方式。
附图说明
83.图1是本技术实施例提供的应用场景的图像识别处理流程图；
84.图2是本技术实施例提供的用于训练图像识别模型的系统示意图；
85.图3是本技术第一实施例提供的一种图像识别方法的处理流程图；
86.图4是本技术第二实施例提供的一种图像识别模型的训练方法的处理流程图；
87.图5是本技术实施例提供的方法包含的图像辅助信息示意图；
88.图6是本技术实施例包含的图像识别模型的训练流程图；
89.图7是本技术第三实施例提供的一种图像识别系统示意图；
90.图8是本技术第四实施例提供的一种图像识别装置示意图；
91.图9是本技术第五实施例提供的一种图像识别模型的训练装置示意图；
92.图10是本技术提供的电子设备示意图。
具体实施方式
93.在下面的描述中阐述了很多具体细节以便于充分理解本技术。但是本技术能够
以很多不同于在此描述的其它方式来实施，本领域技术人员可以在不违背本技术内涵的情况下做类似推广，因此本技术不受下面公开的具体实施的限制。
94.本技术实施例提供一种图像识别方法、装置、电子设备及存储设备。本申请实施例还提供一种图像识别模型的训练方法、装置、电子设备及存储设备。本技术实施例还提供一种图像识别系统。在下面的实施例中逐一进行详细说明。
95.为便于理解，首先给出本技术实施例提供的方法的应用场景。采用所述图像识别模型的训练方法使用带有辅助信息(side information)的图像作为训练样本，训练得到训练完成的图像识别模型。通过辅助信息参与训练降低训练样本中的噪声图像对模型训练的干扰。采用所述图像识别方法，将包含待识别内容的图像作为所述训练完成的图像识别模型的输入，较准确的识别出所述图像中的待识别内容。其中，所述图像识别模型为神经网络模型，优选为卷积神经网络(convolutional neural networks，cnn)。实际应用中，可用于但不限于拍照识物、图像搜索等场景。本实施例中，所谓拍照识物是指拍摄或扫描得到包含未知对象的图像，通过图像识别技术识别出未知对象的相关信息并输出。所谓图像搜索，是指通过拍摄设备拍摄或扫描感兴趣的目标对象，通过图像识别技术识别出图片或视频中的目标对象对应的关键词，根据关键词搜索得到目标对象的其他相关信息并输出。例如，通过智能手机的图像搜索功能客户端，用摄像头对感兴趣的衣服拍照，则搜索得到可购买该衣服的网站。请参考图1，图中给出了一种应用场景的图像识别处理流程，包括：s101，客户端拍摄或扫描包含待识别对象的图像。客户端可以为安装于终端的应用软件(app)或终端上的小程序。例如，安装于智能手机的支持图像搜索功能的浏览器为一个客户端例子。用户触发浏览器界面的对应拍照功能或扫描功能的页面元素，对待识别对象进行拍摄或扫描得到扫描待识别对象的图像。s102，客户端将包含待识别对象的图像发送给服务端进行识别和/或搜索。s103，服务端获取训练完成的图像识别模型。s104，服务端将所述图像作为图像识别模型的输入，输出识别结果信息。 s105，客户端获得识别结果信息，并显示。例如，图中例子的识别及搜索结果为澳大利亚丝毛梗的相关信息。s106，客户端显示识别结果信息。
96.再请参考图2，图中为用于训练得到所述训练完成的图像识别模型的系统，包括：图像抓取模块201，用于抓取带有辅助信息的图像数据，图像数据中中包含噪声图像。实际应用中，可以根据文本标签到搜索引擎抓取带有辅助信息的图像数据。视觉原型生成模块202，用于将抓取到的图像数据以及所述图像数据带有的辅助信息生成视觉原型数据。训练模块203，用于从图像数据中选取训练样本，根据训练样本的类型获取视觉原型数据，使用视觉原型数据与训练样本之间的相似度构造噪声权重，使用噪声权重与交叉熵损失函数构造加权交叉熵损失函数，训练图像识别模型直至加权交叉熵损失函数的训练损失数据满足预设条件，得到训练完成的图像识别模型。
97.实施例一以下结合图3对本技术第一实施例提供的图像识别取方法进行说明。图3所示的图像识别方法，包括：步骤s301至步骤s303。
98.步骤s301，获取训练完成的图像识别模型，所述训练完成的图像识别模型通过使用训练样本训练原始图像识别模型，在训练过程中基于所述训练样本对应的特定视觉原型数据确定训练产生的训练损失数据，并训练直至所述训练损失数据满足预设条件而得到；其中，所述特定视觉原型数据为根据图像数据以及所述图像数据的辅助信息生成的视
觉原型数据。
99.本实施例中，所述图像识别模型为神经网络模型，优选为卷积神经网络。训练所述图像识别模型的训练样本可以利用文本标签到搜索引擎抓取带有辅助信息的图像数据，抓取到的图像数据未经人工标注一般包含大量噪声图像。所谓噪声图像，是指图像实际内容与进行语义查询时输入的关键词不匹配、但是按照该语义查询输入的关键词却匹配上了图像的标签，因而被搜索到的图像。可参考图2中图像抓取模块101抓取到的图像结果：根据“瓣蹼鹬”(phalarope，一种鸟类)，查询到的多个图片中，有部分为正确标注的图片如“正确标签”所示的图片，还有部分为标注错误的噪声图像如“噪声标签”所示的图片。
100.所述辅助信息(side information)，是指图像数据之外的用于描述图像的信息，可以是文本信息或其他先验知识。包括下述至少一种信息：图像对应的层次语义信息(wordnet)、图像的搜索排序信息(rank)、图像的搜索来源信息 (source)、图像的描述信息(description)、图像的标签信息(tags)、图像的标题信息(title)。所述辅助信息可用于抑制噪声图像对图像识别模型的干扰。
101.本实施例中，使用抓取到的带有辅助信息的图像数据对原始图像识别模型进行训练。具体包括：基于所述图像数据与所述图像数据的辅助信息之间的匹配度生成所述视觉原型数据；在训练过程中基于所述训练样本对应的特定视觉原型数据确定训练产生的训练损失数据，训练原始图像识别模型直至所述训练损失数据满足预设条件，得到训练完成的图像识别模型。从原始图像识别模型到训练完成的图像识别模型可以分为两个阶段，一是视觉原型数据的生成阶段，二是模型训练阶段。
102.本实施例中，在视觉原型数据生成阶段，根据图像数据和图像的辅助信息分别构建visual based class realtion graph(视觉分类关系，或基于视觉的类关系图)和textual based class realtion graph(文本分类关系，或基于文本的类关系图)，再基于graph matching(图匹配)算法构建每个类型的visual prototype (视觉原型)。具体包括下述处理：根据所述图像数据的辅助信息，生成特定类型的文本分类关系；根据所述图像数据生成所述特定类型的视觉分类关系；通过图匹配算法确定所述文本分类关系与所述视觉分类关系之间的匹配度，生成所述特定类型对应的视觉原型数据。
103.其中，所述根据所述图像数据的辅助信息，生成特定类型的文本分类关系，包括：从所述辅助信息中抽取所述特定类型的文本描述信息；从所述文本描述信息中提取文本向量；根据所述文本向量之间的相似关系生成所述特定类型的文本分类关系。例如，从图像数据对应的层次语义信息(wordnet)中抽取每个类型的文本描述，利用bert(bidirectional encoder representation fromtransformers，双向transformer的编码器)提取文本向量，根据文本向量之间的相似关系构建文本分类关系。
104.其中，所述根据所述图像数据生成所述特定类型的视觉分类关系，包括：通过神经网络分类模型将所述图像数据进行分类，得到分类结果；确定分类结果中特定类型的置信度评分满足预设置信度阈值的图像数据，作为参与生成所述特定类型对应的视觉原型数据的图像数据；根据所述参与生成所述特定类型对应的视觉原型数据的图像数据，生成所述特定类型对应的视觉分类关系。例如，使用图像数据训练神经网络分类模型，从每个分类中抽取概率得分最高的k 张图像，用于构建视觉分类关系。
105.其中，所述通过图匹配算法确定所述视觉分类关系与所述文本分类关系之间的
匹配度，生成所述特定类型对应的视觉原型数据，包括：通过相对熵匹配算法确定所述特定类型的视觉分类关系与文本分类关系之间的相似度，作为所述匹配度；根据所述匹配度确定图像特征的权重，根据所述权重以及所述图像特征生成所述视觉原型数据；其中，所述图像特征为参与生成所述视觉原型数据的图像数据的特征。所谓相对熵匹配算法，即kl散度(kullback-leibler divergence) 匹配算法。所谓图匹配算法是确定图像数据和图像数据的辅助信息之间的匹配度，匹配度越高，则表明该图像数据越可信，在构建视觉原型数据时该图像数据的图像特征的权重越大，即该图像数据的特征对于视觉原型数据的贡献越高。因此，视觉原型数据用于构造损失函数进行训练能够抑制可信度低的噪声图像产生的干扰。
106.本实施例中，在模型训练阶段基于weighted cross entropy(加权交叉熵) 训练图像识别模型，使用所述视觉原型数据构造加权交叉熵的权重，从而减轻噪声图像对模型训练的干扰。所谓加权交叉熵是在交叉熵损失基础上引入权重，具体的，对每一个作为训练样本的图像数据乘以权重，再计算训练损失数据 (loss)。每次训练产生的训练损失数据的具体确定步骤包括：确定所述训练样本与所述特定视觉原型数据之间的相似度；将所述相似度作为所述训练样本的噪声权重(noise weight)，使用所述噪声权重与交叉熵损失函数构成加权交叉熵损失函数；根据所述加权交叉熵损失函数计算每次训练产生的训练损失数据。其中，所述确定所述训练样本与所述特定视觉原型数据之间的相似度，包括：计算所述训练样本与所述特定视觉原型数据之间的距离值，将所述距离值作为所述相似度。
107.步骤s302，获取待识别的目标图像。
108.本实施例中，所述目标图像可通过拍摄设备进行拍摄或扫描，也可以从存储有目标图像的设备上选择并获取所述目标图像。所述拍摄设备可以为摄像头；以及相机、手机、平板电脑、视觉机器人等带有摄像头的各种设备。可以针对需要识别或搜索的对象拍摄或扫描，例如需要识别的未知植物、动物、人物、商品、汽车等。再如，针对商品的商标，未知用途的商品等拍摄得到所述目标图像。实际实施时，可通过安装于拍摄设备的客户端驱动摄像头获取所述目标图像，如应用软件(app)或终端上的小程序。例如，安装于智能手机的支持图像搜索功能的浏览器为一个客户端例子。用户触发浏览器界面的对应拍照功能或扫描功能的页面元素，对待识别对象进行拍摄或扫描得到所述目标图像。
109.步骤s303，根据所述训练完成的图像识别模型，对所述目标图像进行识别，得到识别结果。
110.本实施例中，还包括：输出所述识别结果的信息，并展示给用户。再请参考图1，拍摄的图像为“狗”的图像，识别结果为“澳大利亚丝毛梗”，同时还可以输出“澳大利亚丝毛梗”的描述信息，在客户端展示给用户。
111.需要说明的是，本实施例和本技术的其他实施例中提供的方法不局限于拍照识物、图像搜索场景，也适用于其他图像识别场景。在不冲突的情况下，在本实施例和本技术的其他实施例中给出的特征可以相互组合，并且步骤s301和 s302或类似用语不限定步骤必须先后执行。
112.至此，对第一实施例提供的方法进行了说明，所述方法通过根据训练完成的图像识别模型对目标图像进行识别，得到识别结果；所述训练完成的图像识别模型通过使用训
练样本训练原始图像识别模型，在训练过程中基于所述训练样本对应的特定视觉原型数据确定训练产生的训练损失数据，并训练直至所述训练损失数据满足预设条件而得到；其中，所述特定视觉原型数据为根据图像数据以及所述图像数据的辅助信息生成的视觉原型数据。根据图像数据的辅助信息生成视觉原型数据，并用于计算每次训练的训练损失数据，可以对图像数据进行噪声过滤，不需要对训练样本预先进行人工标注，抑制训练样本中的噪声图像对训练的干扰，从而提高了模型学习效率及模型识别的准确率。
113.实施例二以上述实施例为基础，本技术第二实施例提供一种图像识别模型的训练方法，以下结合图4至图6对所述方法进行说明。图4所示的图像识别模型的训练方法包括：步骤s401至步骤s403。
114.步骤s401，获取图像数据以及所述图像数据的辅助信息，根据所述图像数据以及所述辅助信息生成视觉原型数据。
115.本实施例中，所述图像识别模型为神经网络模型，优选为卷积神经网络。训练所述图像识别模型的训练样本可以利用文本标签到搜索引擎抓取带有辅助信息的图像数据，抓取到的图像数据未经人工标注一般包含大量噪声图像。所谓噪声图像，是指图像实际内容与进行语义查询时输入的关键词不匹配、但是按照该语义查询输入的关键词却匹配上了图像的标签，因而被搜索到的图像。
116.所述辅助信息(side information)，是指图像数据之外的用于描述图像的信息，可以是文本信息或其他先验知识。包括下述至少一种信息：图像对应的层次语义信息(wordnet)、图像的搜索排序信息(rank)、图像的搜索来源信息 (source)、图像的描述信息(description)、图像的标签信息(tags)、图像的标题信息(title)。所述辅助信息可用于抑制噪声图像对图像识别模型的干扰。其中，所述wordnet为层次化的语义信息，例如动物-》哺乳类-》猫科动物-》虎-》东北虎。请参考图5，图中给出了一个辅助信息的例子，图中的图像对应的辅助信息包括：
117.来源(source)，即该图片的搜索来源为在线搜索引擎；
118.搜索排序(rank):1，即该图片的搜索排序为1；
119.描述信息(descripton)：今天带到工作室的四只澳大利亚丝毛梗幼崽；
120.标签(tags)：澳大利亚丝毛梗幼崽奥林巴斯e500(puppies australian olympus terrier e500)；
121.标题(title)：澳大利亚丝毛梗幼崽(australian terrier pups)。
122.该图片的层次化语义信息(wordnet)为实体(entity)-》客观实体(physicalentity)-》梗犬(terrie)-》澳大利亚丝毛梗(australian terrier)。
123.本实施例中，使用抓取到的带有辅助信息的图像数据对原始图像识别模型进行训练。具体包括：基于所述图像数据与所述图像数据的辅助信息之间的匹配度生成所述视觉原型数据；在训练过程中基于所述训练样本对应的特定视觉原型数据确定训练产生的训练损失数据，训练原始图像识别模型直至所述训练损失数据满足预设条件，得到训练完成的图像识别模型。从原始图像识别模型到训练完成的图像识别模型可以分为两个阶段，一是视觉原型数据的生成阶段，二是模型训练阶段。
124.本实施例中，在视觉原型数据生成阶段，基于所述图像数据与所述图像数据的辅助信息之间的匹配度生成所述视觉原型数据。具体包括下述处理：
得到的矩阵，每个图像数据的图像特征对应的权重由该图像数据的视觉分类关系与文本分类关系之间的匹配度确定。
133.本实施例中，具体通过下述处理生成视觉原型数据：对所述图像数据和/或所述辅助信息进行归类，得到：图像类型；以及，每个图像类型包括的图像数据及辅助信息；根据所述每个图像类型包括的图像数据及辅助信息，生成每个图像类型对应的视觉原型数据；进一步，所述获取所述训练样本对应的特定视觉原型数据，包括：确定所述训练样本匹配上的图像类型，将所述图像类型对应的视觉原型数据作为所述训练样本对应的特定视觉原型数据。
134.步骤s402，获取训练样本以及所述训练样本对应的特定视觉原型数据。
135.本实施例中，在模型训练阶段获取训练样本以及所述训练样本对应的特定视觉原型数据，针对原始图像识别模型进行训练。具体的，确定所述训练样本中图像数据匹配的图像类型，将所述图像类型对应的视觉原型数据作为所述训练样本对应的特定视觉原型数据。
136.步骤s403，使用所述训练样本训练原始图像识别模型，在训练过程中基于所述特定视觉原型数据确定训练产生的训练损失数据，并训练直至所述训练损失数据满足预设条件，得到训练完成的图像识别模型。
137.本实施例中，基于weighted cross entropy(加权交叉熵)训练图像识别模型，使用所述视觉原型数据构造加权交叉熵的权重，从而减轻噪声图像对模型训练的干扰。所谓加权交叉熵是在交叉熵损失基础上引入权重，具体的，对每一个作为训练样本的图像数据乘以权重，再计算训练损失数据(loss)。其中，所述在训练过程中基于所述特定视觉原型数据确定训练产生的训练损失数据，包括：
138.确定所述训练样本与所述特定视觉原型数据之间的相似度；
139.将所述相似度作为所述训练样本的噪声权重，使用所述噪声权重与交叉熵损失函数构成加权交叉熵损失函数；
140.根据所述加权交叉熵损失函数计算每次训练产生的训练损失数据。
141.具体的，所述确定所述训练样本与所述特定视觉原型数据之间的相似度，包括：计算所述训练样本与所述特定视觉原型数据之间的距离值，将所述距离值作为所述相似度。
142.再请参考图6，图中的训练阶段602的流程，包括：将作为训练样本的图像数据输入视觉编码器(visual encoder)处理；编码后的信息由查询嵌套层(query embed)处理；查询嵌套层处理后的信息一方面输入到全连接层(fc layer)，使用全连接层的输出信息构造交叉熵损失函数h(y＝c|x)。查询嵌套层处理后的信息另一方面用于计算训练样本的图像特征与视觉原型数据之间的相似度，具体采用l2距离(l2 distance)表示所述相似度：
143.d＝‖g(.)-vk(.)‖2)；
144.其中，vk(.)为构成视觉原型数据的向量；g(.)为训练样本图像的特征。所述l2距离用于构造噪声权重再由所述噪声权重与所述交叉熵损失函数得到加权交叉熵损失函数：loss＝w*h(c|x)。
145.至此，对本实施例提供的方法进行了说明，所述方法通过根据图像数据以及所述图像数据的辅助信息生成视觉原型数据；使用训练样本训练原始图像识别模型的过程中，
基于所述特定视觉原型数据确定训练产生的训练损失数据，并训练直至所述训练损失数据满足预设条件，得到训练完成的图像识别模型。根据图像数据的辅助信息生成视觉原型数据，并用于计算每次训练的训练损失数据，可对图像数据进行噪声过滤。抑制了训练样本中的噪声图像对训练的干扰，提高了模型学习效率及模型识别的准确率。
146.实施例三以上述实施例为基础，本技术第三实施例提供一种图像识别系统，以下结合图7对所述系统进行说明。图7所示的图像识别系统，包括：客户端 701，以及服务端702；
147.所述客户端，用于获取待识别的目标图像，将所述目标图像发送给所述服务端；接收所述服务端提供的针对所述目标图像的识别结果信息并进行显示；
148.所述服务端，用于接收所述客户端发送的待识别的目标图像；获取训练完成的图像识别模型，所述训练完成的图像识别模型通过使用训练样本训练原始图像识别模型，在训练过程中基于所述训练样本对应的特定视觉原型数据确定训练产生的训练损失数据，并训练直至所述训练损失数据满足预设条件而得到；其中，所述特定视觉原型数据为根据图像数据以及所述图像数据的辅助信息生成的视觉原型数据；根据所述训练完成的图像识别模型对所述目标图像进行识别，得到识别结果并发送给所述客户端。
149.本实施例中，所述服务端用于提供图像识别服务。所述客户端可访问所述服务端提供的图像识别服务。从客户端的拍摄入口触发拍摄或扫描待识别的对象得到所述目标图像，或者，触发从存储有所述目标图像的设备上选择所述目标图像。待识别的对象可以为动物、植物、商品、汽车等，也可以为商品的商标、未知用途的商品等。客户端将得到的目标图像发送给所述服务端，通过所述服务端基于所述图像识别模型提供的图像识别服务获得目标图像的识别结果信息。实际应用中，客户端可以为带摄像功能和/或扫描功能的设备，也可以为存储有图像信息的设备，例如手机、相机、摄像机、电脑、笔记本电脑、平板电脑、pad、便携终端、vr设备、一体机设备、传真机、智能家居设备等。所述服务端可以为云端提供图像识别服务的设备，也可以为非云端设备。所述服务端可以为独立部署图像识别服务的服务器，也可以为分布式部署所述图像识别服务的服务器。当为分布式部署时，需要至少两个使用所述图像识别模型提供图像识别的识别服务器及识别结果决策服务器，两个识别服务器将各自的识别结果发生给识别结果决策服务器，由识别结果决策服务器确定最终的识别结果，将识别结果的信息提供给所述客户端；或者，识别结果决策服务器进一步根据识别结果搜索到相关信息，将识别结果及相关信息提供给所述客户端。
150.本实施例中，所述服务端，根据所述客户端访问所述服务端的登录用户的用户级别，确定向所述客户端提供的图像识别服务级别，根据所述图像识别服务级别以及所述训练完成的图像识别模型对所述目标图像进行识别。一个实施方式中，根据所述用户级别确定识别精度，按照所述识别精度根据所述训练完成的图像识别模型对所述目标图像进行识别。一个实施方式中，确定所述用户级别可识别的对象种类，根据所述对象种类使用所述训练完成的图像识别模型对所述目标图像进行识别。例如，登录用户的用户级别为普通用户，开放植物种类的图像识别服务，则仅识别所述目标图像中包含的植物品种。再如登录用户的用户级别为高级用户，可开放植物种类、动物种类的图像识别服务，则识别所述目标图像中包含的植物品种和/或动物品种。一个实施方式中，确定所述用户级别对应的识别优先级，根据所述识别优先级使用所述训练完成的图像识别模型对所述目标图像进
行识别。从而，可以在识别高峰期优先为识别优先级高的用户提供图像识别服务。
151.本实施例中，所述客户端与所述服务端之间的交互处理包括：客户端将包含待识别对象的图像发送给服务端进行识别和/或搜索；服务端获取训练完成的图像识别模型；服务端将所述图像作为图像识别模型的输入，输出识别结果信息；客户端获得识别结果信息，并显示。
152.至此，对本实施例提供的系统进行了说明，所述系统通过针对包含待识别内容的图像进行识别和/或搜索，获得图像中待识别内容的相关信息，为用户提供了一种便捷的信息获得方式。
153.实施例四与第一实施例对应，本技术第四实施例提供一种图像识别装置，以下结合图8对所述装置进行说明。图8所示的图像识别装置，包括：
154.模型获取单元801，用于获取训练完成的图像识别模型，所述训练完成的图像识别模型通过使用训练样本训练原始图像识别模型，在训练过程中基于所述训练样本对应的特定视觉原型数据确定训练产生的训练损失数据，并训练直至所述训练损失数据满足预设条件而得到；其中，所述特定视觉原型数据为根据图像数据以及所述图像数据的辅助信息生成的视觉原型数据；
155.输入单元802，用于获取待识别的目标图像；
156.识别单元803，用于根据所述训练完成的图像识别模型，对所述目标图像进行识别，得到识别结果。
157.可选的，所述装置还包括训练单元，所述训练单元用于：基于所述图像数据与所述图像数据的辅助信息之间的匹配度生成所述视觉原型数据。
158.可选的，所述训练单元具体用于：根据所述图像数据的辅助信息，生成特定类型的文本分类关系；根据所述图像数据生成所述特定类型的视觉分类关系；通过图匹配算法确定所述文本分类关系与所述视觉分类关系之间的匹配度，生成所述特定类型对应的视觉原型数据。
159.可选的，所述训练单元具体用于：从所述辅助信息中抽取所述特定类型的文本描述信息；从所述文本描述信息中提取文本向量；根据所述文本向量之间的相似关系生成所述特定类型的文本分类关系。
160.可选的，所述训练单元具体用于：通过神经网络分类模型将所述图像数据进行分类，得到分类结果；确定分类结果中特定类型的置信度评分满足预设置信度阈值的图像数据，作为参与生成所述特定类型对应的视觉原型数据的图像数据；根据所述参与生成所述特定类型对应的视觉原型数据的图像数据，生成所述特定类型对应的视觉分类关系。
161.可选的，所述训练单元具体用于：通过相对熵匹配算法确定所述特定类型的视觉分类关系与文本分类关系之间的相似度，作为所述匹配度；根据所述匹配度确定图像特征的权重，根据所述权重以及所述图像特征生成所述视觉原型数据；其中，所述图像特征为参与生成所述视觉原型数据的图像数据的特征。
162.可选的，所述训练单元具体用于：确定所述训练样本与所述特定视觉原型数据之间的相似度；将所述相似度作为所述训练样本的噪声权重，使用所述噪声权重与交叉熵损失函数构成加权交叉熵损失函数；根据所述加权交叉熵损失函数计算每次训练产生的训练损失数据。
163.可选的，所述训练单元具体用于：计算所述训练样本与所述特定视觉原型数据之间的距离值，将所述距离值作为所述相似度。
164.所述装置实际部署时，上述单元可部署于同一实体，也可以分别部署于不同实体。例如，当分别部署时，输入单元可部署于客户端，模型获取单元及识别单元可部署于服务端。所述客户端将得到的目标图像发送给所述服务端，通过所述服务端基于所述图像识别模型提供的图像识别服务获得目标图像的识别结果信息。客户端可以为带摄像功能和/或扫描功能的设备，也可以为存储有图像信息的设备，例如手机、相机、摄像机、电脑、笔记本电脑、平板电脑、pad、便携终端、vr设备、一体机设备、传真机、智能家居设备等。所述服务端可以为云端提供图像识别服务的设备，也可以为非云端设备。所述服务端可以为独立部署图像识别服务的服务器，也可以为分布式部署所述图像识别服务的服务器。当为分布式部署时，需要至少两个使用所述图像识别模型提供图像识别的识别服务器及识别结果决策服务器，两个识别服务器将各自的识别结果发生给识别结果决策服务器，由识别结果决策服务器确定最终的识别结果，将识别结果的信息提供给所述客户端；或者，识别结果决策服务器进一步根据识别结果搜索到相关信息，将识别结果及相关信息提供给所述客户端。
165.实施例五与第二实施例对应，本技术第五实施例提供一种图像识别模型的训练装置，以下结合图9对所述装置进行说明。图9所示的图像识别模型的训练装置，包括：
166.视觉原型生成单元901，用于获取图像数据以及所述图像数据的辅助信息，根据所述图像数据以及所述辅助信息生成视觉原型数据；
167.训练数据获取单元902，用于获取训练样本以及所述训练样本对应的特定视觉原型数据；
168.训练单元903，用于使用所述训练样本训练原始图像识别模型，在训练过程中基于所述特定视觉原型数据确定训练产生的训练损失数据，并训练直至所述训练损失数据满足预设条件，得到训练完成的图像识别模型。
169.可选的，所述视觉原型生成单元901具体用于：基于所述图像数据与所述图像数据的辅助信息之间的匹配度生成所述视觉原型数据。
170.可选的，所述视觉原型生成单元901具体用于：根据所述图像数据的辅助信息，生成特定类型的文本分类关系；根据所述图像数据生成所述特定类型的视觉分类关系；通过图匹配算法确定所述文本分类关系与所述视觉分类关系之间的匹配度，生成所述特定类型对应的视觉原型数据。
171.可选的，所述视觉原型生成单元901具体用于：从所述辅助信息中抽取所述特定类型的文本描述信息；从所述文本描述信息中提取文本向量；根据所述文本向量之间的相似关系生成所述特定类型的文本分类关系。
172.可选的，所述视觉原型生成单元901具体用于：通过神经网络分类模型将所述图像数据进行分类，得到分类结果；确定分类结果中特定类型的置信度评分满足预设置信度阈值的图像数据，作为参与生成所述特定类型对应的视觉原型数据的图像数据；根据所述参与生成所述特定类型对应的视觉原型数据的图像数据，生成所述特定类型对应的视觉分类关系。
173.可选的，所述视觉原型生成单元901具体用于：通过相对熵匹配算法确定所述特
定类型的视觉分类关系与文本分类关系之间的相似度，作为所述匹配度；根据所述匹配度确定图像特征的权重，根据所述权重以及所述图像特征生成所述视觉原型数据；其中，所述图像特征为参与生成所述视觉原型数据的图像数据的特征。
174.可选的，所述训练单元903具体用于：确定所述训练样本与所述特定视觉原型数据之间的相似度；将所述相似度作为所述训练样本的噪声权重，使用所述噪声权重与交叉熵损失函数构成加权交叉熵损失函数；根据所述加权交叉熵损失函数计算每次训练产生的训练损失数据。
175.可选的，所述训练单元903具体用于：计算所述训练样本与所述特定视觉原型数据之间的距离值，将所述距离值作为所述相似度。
176.可选的，所述辅助信息，包括下述至少一种信息：图像对应的层次语义信息、图像的搜索排序信息、图像的搜索来源信息、图像的描述信息、图像的标签信息、图像的标题信息。
177.可选的，所述视觉原型生成单元901具体用于：对所述图像数据和/或所述辅助信息进行归类，得到：图像类型；以及，每个图像类型包括的图像数据及辅助信息；根据所述每个图像类型包括的图像数据及辅助信息，生成每个图像类型对应的视觉原型数据；所述训练数据获取单元902具体用于：确定所述训练样本匹配上的图像类型，将所述图像类型对应的视觉原型数据作为所述训练样本对应的特定视觉原型数据。
178.以上述实施例为基础，本技术第六实施例提供一种电子设备。图10为所述电子设备的示意图，所述电子设备，包括：存储器1001，以及处理器1002；所述存储器用于存储计算机程序，所述计算机程序被所述处理器运行后，执行本申请实施例提供的所述方法。
179.以上述实施例为基础，本技术第七实施例提供一种存储设备，相关的部分请参见上述实施例的对应说明即可。所述存储设备的示意图类似图10。所述存储设备存储有计算机程序，所述计算机程序被处理器运行后，执行本技术实施例提供的所述方法。
180.以上述实施例为基础，本技术第八实施例提供一种图像识别方法，包括：
181.获取图像识别模型，所述图像识别模型通过使用训练样本训练原始图像识别模型，在训练过程中基于所述训练样本对应的特定视觉原型数据确定训练产生的训练损失数据，并训练直至所述训练损失数据满足预设条件而得到；其中，所述特定视觉原型数据为根据图像数据以及所述图像数据的辅助信息生成的视觉原型数据；
182.获取待识别的目标图像；
183.根据所述图像识别模型，对所述目标图像进行识别，得到识别结果。
184.在一个典型的配置中，计算设备包括一个或多个处理器(cpu)、输入/输出接口、网络接口和内存。
185.内存可能包括计算机可读介质中的非永久性存储器，随机存取存储器 (ram)和/或非易失性内存等形式，如只读存储器(rom)或闪存(flash ram)。内存是计算机可读介质的示例。
186.1、计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存 (pram)、静态随机存取存储器(sram)、动态随机存取存储器(dram)、其他类型的随机存取存储器(ram)、只读存储器
(rom)、电可擦除可编程只读存储器(eeprom)、快闪记忆体或其他内存技术、只读光盘只读存储器(cd-rom)、数字多功能光盘(dvd)或其他光学存储、磁盒式磁带，磁带磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括非暂存电脑可读媒体(transitorymedia)，如调制的数据信号和载波。
187.2、本领域技术人员应明白，本技术的实施例可提供为方法、系统或计算机程序产品。因此，本技术可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且，本技术可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd-rom、光学存储器等)上实施的计算机程序产品的形式。
188.本技术虽然以较佳实施例公开如上，但其并不是用来限定本技术，任何本领域技术人员在不脱离本技术的精神和范围内，都可以做出可能的变动和修改，因此本技术的保护范围应当以本技术权利要求所界定的范围为准。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：图像边缘处理方法、装置、电子设备及存储介质与流程

一种图像识别模型的训练方法及图像识别方法与流程

相关文献

最热文献