一种循环利用式训练样本的海量图像识别方法及系统

2023-03-01 11:45:11 来源：中国专利 TAG：

1.本发明涉及图像识别的技术领域，具体而言，涉及一种循环利用式训练样本的海量图像识别方法及系统。

背景技术：

2.随着大数据时代和数字媒体时代的来临，海量的图像已经在计算机、教育、传媒、心理等多个领域发展了重要作用。随着海量图像的广泛及深度应用，如何对海量图像库中的图像进行精准识别成为了一项非常有价值和意义的问题。相比于深度学习的图像识别方法，svm模型可以利用较少训练样本实现较为精准的图像识别。
3.然而，svm模型对于每个图像类别都需要一定数量的训练样本，会显著地消耗较多的人力资源和计算资源。事实上，训练样本可以通过循环使用来降低资源的消耗，传统方法并没有充分考虑上述问题。因此，急需一种循环利用式训练样本的海量图像识别方法。

技术实现要素：

4.本发明的目的在于提供一种循环利用式训练样本的海量图像识别方法，其能够减少人力资源和计算资源的消耗。
5.本发明的实施例是这样实现的：
6.第一方面，本技术实施例提供一种循环利用式训练样本的海量图像识别方法，其包括从互联网上采集海量图像数据，并随机选取第一预设数量的包含不同类别的初始图像；利用hc显著性检测方法对初始图像进行检测，若初始图像的显著性区域面积不足整幅图像的预设比例，将初始图像进行删除；反之，则将初始图像作为潜在循环利用图像；对潜在循环利用图像进行相似度计算，筛选出相似度低于预设阈值的循环利用图像，作为循环利用式训练样本；挑选第二预设数量的循环利用式训练样本作为负样本；从目标图像类别中，挑选出第三预设数量的初始图像作为正样本；利用svm模型对正样本和负样本进行训练，得到图像识别决策模型；将待识别图像带入图像识别决策模型中进行识别；当基于svm模型的得分大于等于预设值时，判定为目标类别图像；反之，则判定为非目标类别图像；根据不同图像类别，分别建立对应的图像识别决策模型；当任一图像识别决策模型开始工作前，将除了图像识别决策模型自身的正样本图像以外的循环利用图像作为负样本带入svm模型进行训练，实现多个图像识别决策模型共用循环利用图像。
7.在本发明的一些实施例中，对潜在循环利用图像进行相似度计算，筛选出相似度低于预设阈值的循环利用图像，作为循环利用式训练样本的步骤包括：对潜在循环利用图像进行深度自编码；计算不同图像自编码后的欧式距离；当多个潜在循环利用图像的欧式距离达到预设范围内时，认定多个潜在循环利用图像高度相似，选取其中一个进行保留；经过多次欧式距离的计算，筛选出相似度低于预设阈值的循环利用图像，作为循环利用式训练样本。
8.在本发明的一些实施例中，利用hc显著性检测方法对初始图像进行检测，若初始
图像的显著性区域面积不足整幅图像的预设比例，将初始图像进行删除；反之，则将初始图像作为潜在循环利用图像的步骤包括：用基于直方图的图像分割方法将输入的图像分割成若干区域；为每个区域建立颜色直方图；对每个像素颜色进行平滑操作，对每个区域通过测量与图像其它区域的颜色对比度来计算其显著性值；为图像中每一个像素分配显著性值，生成显著图，计算显著性值大于预设显著性值阈值的像素在图像中的比例，若比例低于整幅图像的第一预设比例，将样本图像进行删除，反之继续下一步。
9.在本发明的一些实施例中，直方图采用稀疏直方图。
10.在本发明的一些实施例中，对每个区域通过测量与图像其它区域的颜色对比度来计算其显著性值前的步骤包括：对每个像素颜色进行平滑操作。
11.在本发明的一些实施例中，对每个像素颜色进行平滑操作的步骤包括：在rgb颜色空间进行量化；统一将每个像素颜色的通道划分为12个等级；在lab颜色空间来测量颜色的距离,统计像素数目覆盖图像不小于第二预设比例的高频颜色种类，以及其他的不高于第三预设比例的低频颜色种类；把低频颜色的像素替换成与其lab颜色空间中颜色距离相距最近的高频颜色内。
12.在本发明的一些实施例中，预设比例为三分之一。
13.第二方面，本技术实施例提供一种循环利用式训练样本的海量图像识别系统，其包括采集模块，用于从互联网上采集海量图像数据，并随机选取第一预设数量的包含不同类别的初始图像；显著性检测模块，用于利用hc显著性检测方法对初始图像进行检测，若初始图像的显著性区域面积不足整幅图像的预设比例，将初始图像进行删除；反之，则将初始图像作为潜在循环利用图像；相似度检测模块，用于对潜在循环利用图像进行相似度计算，筛选出相似度低于预设阈值的循环利用图像，作为循环利用式训练样本；挑选第二预设数量的循环利用式训练样本作为负样本；正样本选择模块，用于从目标图像类别中，挑选出第三预设数量的初始图像作为正样本；模型训练模块，用于利用svm模型对正样本和负样本进行训练，得到图像识别决策模型；模型判断模块，用于将待识别图像带入图像识别决策模型中进行识别；当基于svm模型的得分大于等于预设值时，判定为目标类别图像；反之，则判定为非目标类别图像；训练样本共用模块，用于根据不同图像类别，分别建立对应的图像识别决策模型；当任一图像识别决策模型开始工作前，将除了图像识别决策模型自身的正样本图像以外的循环利用图像作为负样本带入svm模型进行训练，实现多个图像识别决策模型共用循环利用图像。
14.第三方面，本技术实施例提供一种电子设备，包括至少一个处理器、至少一个存储器和数据总线；其中：处理器与存储器通过数据总线完成相互间的通信；存储器存储有可被处理器执行的程序指令，处理器调用程序指令以执行一种循环利用式训练样本的海量图像识别方法。
15.第四方面，本技术实施例提供一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现一种循环利用式训练样本的海量图像识别方法。
16.相对于现有技术，本发明的实施例至少具有如下优点或有益效果：
17.利用显著性检测、深度自编码等方法挑选出精良的循环利用式训练样本；循环利用式训练样本代替了负样本，减少了人力资源和计算资源的消耗。
附图说明
18.为了更清楚地说明本发明实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本发明的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。
19.图1为本发明中一种循环利用式训练样本的海量图像识别方法的流程图；
20.图2为本发明中相似度计算的流程视图；
21.图3为本发明中一种循环利用式训练样本的海量图像识别系统的结构示意图；
22.图4为本发明中一种电子设备的结构示意图。
23.图标：1、采集模块；2、显著性检测模块；3、相似度检测模块；4、正样本选择模块；5、模型训练模块；6、模型判断模块；7、训练样本共用模块；8、处理器；9、存储器；10、数据总线。
具体实施方式
24.为使本技术实施例的目的、技术方案和优点更加清楚，下面将结合本技术实施例中的附图，对本技术实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本技术一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本技术实施例的组件可以以各种不同的配置来布置和设计。
25.因此，以下对在附图中提供的本技术的实施例的详细描述并非旨在限制要求保护的本技术的范围，而是仅仅表示本技术的选定实施例。基于本技术中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本技术保护的范围。
26.应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。同时，在本技术的描述中，术语“第一”、“第二”等仅用于区分描述，而不能理解为指示或暗示相对重要性。
27.需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个
……”
限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
28.在本技术的描述中，需要说明的是，术语“上”、“下”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系，或者是该申请产品使用时惯常摆放的方位或位置关系，仅是为了便于描述本技术和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本技术的限制。
29.在本技术的描述中，还需要说明的是，除非另有明确的规定和限定，术语“设置”、“连接”应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通。对于本领域的普通技术人员而言，可以具体情况理解上述术语在本技术
中的具体含义。
30.下面结合附图，对本技术的一些实施方式作详细说明。在不冲突的情况下，下述的各个实施例及实施例中的各个特征可以相互组合。
31.实施例1
32.请参阅图1，为本技术实施例提供的一种循环利用式训练样本的海量图像识别方法，利用显著性检测、深度自编码等方法挑选出精良的循环利用式训练样本；循环利用式训练样本代替了负样本，减少了人力资源和计算资源的消耗。其具体实施方式如下：
33.s1：从互联网上采集海量图像数据，并随机选取第一预设数量的包含不同类别的初始图像；
34.对于初始图像进行采集时，通过互联网上的公开图库进行采集最为方便。而其具体数量可以根据需要进行设置。
35.s2：利用hc显著性检测方法对初始图像进行检测，若初始图像的显著性区域面积不足整幅图像的预设比例，将初始图像进行删除；反之，则将初始图像作为潜在循环利用图像；
36.对图片进行hc显著性检测，则是对图像上的对象进行显著化运算，从而使得后续识别更为精确。
37.s3：对潜在循环利用图像与目标图像进行相似度计算，筛选出相似度低于预设阈值的循环利用图像，作为循环利用式训练样本；挑选第二预设数量的循环利用式训练样本作为负样本；
38.而作为负样本的挑选，为了尽可能地区别于目标图像，进行相似度计算，从而提高样本准确度。并且挑选出部分循环利用式训练样本(通常为50个)，作为负样本使用；
39.s4：从目标图像类别中，挑选出第三预设数量的初始图像作为正样本；
40.而正样本则是利用人工确认的图像进行选取。
41.s5：利用svm模型对正样本和负样本进行训练，得到图像识别决策模型；
42.对于svm模型的选取，旨在相比于深度学习的图像识别方法，svm模型可以利用较少训练样本实现较为精准的图像识别。从而节约计算资源。
43.s6：将待识别图像带入图像识别决策模型中进行识别；当基于svm模型的得分大于等于预设值时，判定为目标类别图像；反之，则判定为非目标类别图像；
44.而对于svm模型得出结果，便是筛选出的目标图片，从而得到筛选结果。
45.s7：根据不同图像类别，分别建立对应的图像识别决策模型；当任一图像识别决策模型开始工作前，将除了图像识别决策模型自身的正样本图像以外的循环利用图像作为负样本带入svm模型进行训练，实现多个图像识别决策模型共用循环利用图像。
46.而基于上述的方法，建立多种类别的识别模型，例如长颈鹿识别决策模型、老虎识别决策模型、狮子识别决策模型等等，组合在一起即可识别出图像是否为长颈鹿、老虎、狮子中的任何一类，组合在一起的识别决策模型越多识别的类别也越多，同时对于负样本的共用，使得循环利用式训练样本代替了负样本，减少了人力资源和计算资源的消耗。
47.请参阅图2，在本发明的一些实施例中，对潜在循环利用图像进行相似度计算，筛选出相似度低于预设阈值的循环利用图像，作为循环利用式训练样本的步骤包括：
48.s301：对潜在循环利用图像进行深度自编码；
49.自编码是利用神经网络进行非监督形式的学习的一种，利用自编码自身的数据处理的轻量化优势，节约计算资源。
50.s302：计算不同图像自编码后的欧式距离；
51.利用欧氏距离计算相似度，本实施例旨在利用欧氏距离计算相似度较低的图像。
52.s303：当多个潜在循环利用图像的欧式距离达到预设范围内时，认定多个潜在循环利用图像高度相似，选取其中一个进行保留；
53.利用欧氏距离判断出相似度较高的(即在预设范围内的)样本图像进行保留。
54.s304：经过多次欧式距离的计算，筛选出相似度低于预设阈值的循环利用图像，作为循环利用式训练样本。
55.而作为循环利用式训练样本，其主要是用来作为负样本，由此筛选出相似度低于预设阈值的循环利用图像，从而达到让其他模型也可以使用，由此进行样本的循环使用。
56.在本发明的一些实施例中，利用hc显著性检测方法对初始图像进行检测，若初始图像的显著性区域面积不足整幅图像的预设比例，将初始图像进行删除；反之，则将初始图像作为潜在循环利用图像的步骤包括：
57.用基于直方图的图像分割方法将输入的图像分割成若干区域；为每个区域建立颜色直方图；对每个像素颜色进行平滑操作，对每个区域通过测量与图像其它区域的颜色对比度来计算其显著性值；为图像中每一个像素分配显著性值，生成显著图，计算显著性值大于预设显著性值阈值的像素在图像中的比例，若比例低于整幅图像的第一预设比例，将样本图像进行删除，反之继续下一步。
58.在本发明的一些实施例中，直方图采用稀疏直方图。
59.因为每个区域只包含图像的直方图中很少数目的颜色，所以为每个区域存储和计算常规矩阵形式的直方图是低效的。由此使用稀疏直方图，使得存储和计算过程更加高效。
60.在本发明的一些实施例中，对每个区域通过测量与图像其它区域的颜色对比度来计算其显著性值前的步骤包括：对每个像素颜色进行平滑操作。
61.在本发明的一些实施例中，对每个像素颜色进行平滑操作的步骤包括：在rgb颜色空间进行量化；统一将每个像素颜色的通道划分为12个等级；在lab颜色空间来测量颜色的距离，统计像素数目覆盖图像不小于第二预设比例的高频颜色种类，以及其他的不高于第三预设比例的低频颜色种类；把低频颜色的像素替换成与其lab颜色空间中颜色距离相距最近的高频颜色内。
62.虽然可以用颜色量化后的颜色直方图来高效计算颜色对比度，但量化本身可能会产生瑕疵。因为一些相似的颜色可能被量化为不同的值。为了减少这种随机性给显著性值计算带来的噪声，我们用平滑操作来改善每个颜色的显著性值。每个颜色的显著性值被替换为相似颜色(用lab距离测量)显著性值的加权平均。这个过程实质上是颜色空间的一种平滑过程。
63.在本发明的一些实施例中，预设比例为三分之一。
64.实施例2
65.请参阅图3，为本发明提供的一种循环利用式训练样本的海量图像识别系统，包括采集模块1，用于从互联网上采集海量图像数据，并随机选取第一预设数量的包含不同类别的初始图像；显著性检测模块2，用于利用hc显著性检测方法对初始图像进行检测，若初始
图像的显著性区域面积不足整幅图像的预设比例，将初始图像进行删除；反之，则将初始图像作为潜在循环利用图像；相似度检测模块3，用于对潜在循环利用图像进行相似度计算，筛选出相似度低于预设阈值的循环利用图像，作为循环利用式训练样本；挑选第二预设数量的循环利用式训练样本作为负样本；正样本选择模块4，用于从目标图像类别中，挑选出第三预设数量的初始图像作为正样本；模型训练模块5，用于利用svm模型对正样本和负样本进行训练，得到图像识别决策模型；模型判断模块6，用于将待识别图像带入图像识别决策模型中进行识别；当基于svm模型的得分大于等于预设值时，判定为目标类别图像；反之，则判定为非目标类别图像；训练样本共用模块7，用于根据不同图像类别，分别建立对应的图像识别决策模型；当任一图像识别决策模型开始工作前，将除了图像识别决策模型自身的正样本图像以外的循环利用图像作为负样本带入svm模型进行训练，实现多个图像识别决策模型共用循环利用图像。
66.实施例3
67.请参阅图4，为本发明提供的一种电子设备，包括至少一个处理器8、至少一个存储器9和数据总线10；其中：处理器8与存储器9通过数据总线10完成相互间的通信；存储器9存储有可被处理器8执行的程序指令，处理器8调用程序指令以执行一种循环利用式训练样本的海量图像识别方法。例如实现：
68.从互联网上采集海量图像数据，并随机选取第一预设数量的包含不同类别的初始图像；利用hc显著性检测方法对初始图像进行检测，若初始图像的显著性区域面积不足整幅图像的预设比例，将初始图像进行删除；反之，则将初始图像作为潜在循环利用图像；对潜在循环利用图像进行相似度计算，筛选出相似度低于预设阈值的循环利用图像，作为循环利用式训练样本；挑选第二预设数量的循环利用式训练样本作为负样本；从目标图像类别中，挑选出第三预设数量的初始图像作为正样本；利用svm模型对正样本和负样本进行训练，得到图像识别决策模型；将待识别图像带入图像识别决策模型中进行识别；当基于svm模型的得分大于等于预设值时，判定为目标类别图像；反之，则判定为非目标类别图像；根据不同图像类别，分别建立对应的图像识别决策模型；当任一图像识别决策模型开始工作前，将除了图像识别决策模型自身的正样本图像以外的循环利用图像作为负样本带入svm模型进行训练，实现多个图像识别决策模型共用循环利用图像。
69.实施例4
70.本发明提供一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器8执行时实现一种循环利用式训练样本的海量图像识别方法。例如实现：
71.从互联网上采集海量图像数据，并随机选取第一预设数量的包含不同类别的初始图像；利用hc显著性检测方法对初始图像进行检测，若初始图像的显著性区域面积不足整幅图像的预设比例，将初始图像进行删除；反之，则将初始图像作为潜在循环利用图像；对潜在循环利用图像进行相似度计算，筛选出相似度低于预设阈值的循环利用图像，作为循环利用式训练样本；挑选第二预设数量的循环利用式训练样本作为负样本；从目标图像类别中，挑选出第三预设数量的初始图像作为正样本；利用svm模型对正样本和负样本进行训练，得到图像识别决策模型；将待识别图像带入图像识别决策模型中进行识别；当基于svm模型的得分大于等于预设值时，判定为目标类别图像；反之，则判定为非目标类别图像；根据不同图像类别，分别建立对应的图像识别决策模型；当任一图像识别决策模型开始工作
前，将除了图像识别决策模型自身的正样本图像以外的循环利用图像作为负样本带入svm模型进行训练，实现多个图像识别决策模型共用循环利用图像。
72.其中，存储器9可以是但不限于，随机存取存储器(random access memory，ram)，只读存储器(read only memory，rom)，可编程只读存储器(programmable read-only memory，prom)，可擦除只读存储器(erasable programmable read-only memory，eprom)，电可擦除只读存储器(electric erasable programmable read-only memory，eeprom)等。
73.处理器8可以是一种集成电路芯片，具有信号处理能力。该处理器8可以是通用处理器，包括中央处理器(central processing unit，cpu)、网络处理器(network processor，np)等；还可以是数字信号处理器(digital signal processing，dsp)、专用集成电路(application specific integrated circuit，asic)、现场可编程门阵列(field－programmable gate array，fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
74.以上所述仅为本技术的优选实施例而已，并不用于限制本技术，对于本领域的技术人员来说，本技术可以有各种更改和变化。凡在本技术的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本技术的保护范围之内。
75.对于本领域技术人员而言，显然本技术不限于上述示范性实施例的细节，而且在不背离本技术的精神或基本特征的情况下，能够以其它的具体形式实现本技术。因此，无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本技术的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本技术内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。

再多了解一些

1/2 1 2 下一页尾页

本文用于创业者技术爱好者查询，仅供学习研究，如用于商业用途，请联系技术所有人。

上一篇：返回列表
下一篇：一种公路地质灾害危险性评估方法与流程

一种循环利用式训练样本的海量图像识别方法及系统

相关文献

最热文献