一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

图像识别方法、图像识别装置和记录介质与流程

2023-03-01 11:38:36 来源:中国专利 TAG:


1.本发明涉及图像识别方法、图像识别装置和存储有图像识别程序的计算机可读非临时性记录介质。


背景技术:

2.近年,利用机器学习得到的推断器(分类器等)已被实用化。
3.通常,在这种推断器中,为了得到足够精度的推断结果需要大量训练数据,而在训练数据相对较少的情况下,有时因训练数据的偏差得不到良好的推断结果。
4.为了抑制这种训练数据的偏差的影响,会使用集成学习。在集成学习中,使用彼此独立性较高的多个推断器,并通过多数投票法等从所述多个推断器的推断结果可以得到一个最终的推断结果。
5.另一方面,在图像识别领域中,某个图像处理装置针对成为图像识别的对象的输入图像,应用提取多个尺寸和多个方向的特定形状(线等)的空间滤波器,检测输入图像中包含的朝向某个方向的某个尺寸的特定形状。
6.此外,某个检查装置进行:(a)使用机器学习模型,导出输入图像中是否包含异常的判定结果,(b)计算包含异常的图像与输入图像的相关度以及不包含异常的图像与输入图像的相关度,根据所述相关度对上述的判定结果的可靠性进行评价。
7.考虑针对图像识别用的多个推断器(分类器等)的集成学习,根据表示以如上所述的方式检测出的特定形状的特征量进行各推断器的机器学习,但是作为用于图像识别用的多个推断器的训练数据,难以准备集成学习所需的用于输出独立性高且足够精度的推断结果的特征量。
8.此外,在检测出异常后由人进行异常的确认的情况等中,需要预先确定输入图像中的异常的位置。这种情况下,可以通过分割来确定输入图像中的异常的位置。可是,为了进行良好的分割,需要对异常的位置(区域)进行学习,所以充分地准备分割用的训练数据更为困难。


技术实现要素:

9.鉴于上述的问题,本发明的目的是得到图像识别方法、图像识别装置和存储有图像识别程序的计算机可读非临时性记录介质,能够不使用机器学习或者在使用机器学习的情况下也以相对较少的训练数据量进行分割。
10.本发明的图像识别方法,包括:特征量提取步骤,根据输入图像生成由多个基本特征图构成的基本特征图群,并对所述基本特征图群中的基本特征图实施多种统计量计算,生成多个统计量图;以及推断步骤,对基于所述多个统计量图的推断输入,用推断器导出分割的推断结果。而且所述多种统计量计算分别是以特定的窗口尺寸特定的计算式计算统计量的处理,所述窗口尺寸和所述计算式中的至少一方,在所述多种统计量计算之间彼此不同。
11.本发明的图像识别装置,包括:特征量提取部,根据输入图像生成由多个基本特征图构成的基本特征图群,并对所述基本特征图群中的基本特征图实施多种统计量计算,生成多个统计量图;以及推断器,对基于所述多个统计量图的推断输入,用推断器导出分割的推断结果。而且所述多种统计量计算分别是以特定的窗口尺寸特定的计算式计算统计量的处理,所述窗口尺寸和所述计算式中的至少一方,在所述多种统计量计算之间彼此不同。
12.本发明的计算机可读非临时性记录介质,存储有图像识别程序,计算机通过执行所述图像识别程序发挥下述功能:特征量提取部,根据输入图像生成由多个基本特征图构成的基本特征图群,并对所述基本特征图群中的基本特征图实施多种统计量计算,生成多个统计量图;以及推断器,对基于所述多个统计量图的推断输入,用推断器导出分割的推断结果。而且所述多种统计量计算分别是以特定的窗口尺寸特定的计算式计算统计量的处理,所述窗口尺寸和所述计算式中的至少一方,在所述多种统计量计算之间彼此不同。
13.按照本发明,可以得到图像识别方法、图像识别装置和存储有图像识别程序的计算机可读非临时性记录介质,能够不使用机器学习或者在使用机器学习的情况下也以相对较少的训练数据量进行分割。
14.本发明的上述或其他目的、特征和优点会根据以下的详细说明和附图变得更加明确。
附图说明
15.图1是表示本发明的实施方式1的图像识别装置的构成的框图。
16.图2是表示图1中的特征量提取部11的构成的框图。
17.图3是说明图2所示的特征量提取部11的动作的一例的图。
18.图4是说明图3中的统计量图导出部23的动作的图。
19.图5是说明图1中的推断输入生成部12的动作的一例的图。
20.图6是说明实施方式2的图像识别装置中的聚类的图。
具体实施方式
21.以下,根据附图对本发明的实施方式进行说明。
22.实施方式1.
23.图1是表示本发明的实施方式1的图像识别装置的构成的框图。图1所示的图像识别装置是数码复合机、扫描仪等电子设备、个人计算机等终端装置、网络上的服务器等,通过用内置的计算机执行图像识别程序,使所述计算机作为后述的处理部发挥功能。
24.图1所示的图像识别装置具备特征量提取部11、推断输入生成部12、多个推断器13-1~13-n(n>1)、综合器14、权重设定器15和机器学习处理部16。
25.特征量提取部11根据输入图像生成由多个基本特征图构成的基本特征图群,并对所述基本特征图群中的基本特征图实施多种统计量计算,生成多个统计量图。
26.输入图像是由未图示的扫描仪读取的图像、基于由未图示的通信装置接收的图像数据的图像、基于存储于未图示的存储装置的图像数据的图像等,是成为图像识别的对象的图像。
27.此外,从输入图像通过多个特定处理(这里,空间滤波处理)分别提取出上述的多
个基本特征图。例如,生成数十至数百个基本特征图,作为一个基本特征图群。
28.而且,统计量图表示各像素位置的统计量计算(平均,分散等)的计算结果的值。
29.图2是表示图1中的特征量提取部11的构成的框图。图3是说明图2所示的特征量提取部11的动作的一例的图。
30.如图2所示,特征量提取部11具备滤波部21、滤波输出综合部22、统计量图导出部23。滤波部21以规定特性的多个空间滤波器对输入图像执行滤波处理,滤波输出综合部22根据输入图像的各位置中的由滤波部21进行的多个滤波处理结果,生成基本特征图。
31.例如图3所示,为了检测特定形状(直线和曲线等线、点、圆、多边形等),分别对多个尺寸使用检测灵敏度根据方向而不同的多个空间滤波器,生成包含多个空间滤波器的滤波输出的逻辑和的形状的基本特征图。例如仅在某个空间滤波器的滤波输出中显示线形状、在其他全部空间滤波器的滤波输出中不显示形状的情况下,生成包含所述线形状的基本特征图。此外,例如在多个空间滤波器的滤波输出中显示线形状的情况下,生成包含所述线形状交差的位置的点(即,成为线形状的逻辑积的点形状)的基本特征图。
32.所述空间滤波器例如使用2维gabor滤波器。这种情况下,使用与检测对象的尺寸对应的空间频率所匹配的滤波特性的2维gabor滤波器。此外,可以将对形状的边缘进行检测的2次微分空间滤波器用作所述空间滤波器。
33.这里,基本特征图具有表示多个特定形状的位置、尺寸和方向的2维数据,例如,通过作为上述特定处理的空间滤波处理,在输入图像中检测出所述多个特定形状。此外,基本特征图可以是输入图像的特定色(各单色)的图像数据。这样,根据需要分别使用具有形状信息的基本特征图和具有颜色信息的基本特征图。
34.图4是说明图2中的统计量图导出部23的动作的图。例如图4所示,统计量图导出部23对基本特征图执行多种统计量计算,由此生成统计量图。
35.上述的多种统计量计算分别是以特定的窗口尺寸(以关注像素为中心的窗口的纵横的像素尺寸)特定的计算式(平均、分散等规定统计量的计算式)计算统计量的处理,在所述多种统计量计算之间,所述窗口尺寸和计算式中的至少一方彼此不同。
36.例如,在包含文字的输入图像中存在线状的异常目标的情况下,局部的线的个数、尺寸、密度等,在文字和异常目标中不同,所以通过利用各种空间统计量,能检测异常部(即,存在异常目标的情况)。
37.即,统计量图导出部23针对各种统计量计算,对基本特征图一个像素一个像素地执行以指定的窗口尺寸导出平均、分散等的统计量的滤波计算处理,生成与基本特征图同尺寸(纵横的像素数相同)的统计量图。另外,统计量图导出部23也可以以n像素间隔(n>1)进行上述的滤波计算处理(即,每n个像素中仅对一个像素进行)并生成统计量图。在这种情况下,由于统计量图的像素数减少,所以能削减后续的处理的计算量。
38.返回图1,推断输入生成部12根据所述统计量图群(上述的多个统计量图)生成推断输入。在本实施方式中,该多个推断输入是分别向推断器13-1~13-n输入的输入数据。
39.该多个推断输入分别具有上述的多个统计量图的一部分或全部的统计量图,多个推断输入中的各推断输入具有的统计量图与多个推断输入中的其他推断输入的统计量图一部分或全部不同。
40.此外,上述的多个基本特征图从输入图像通过多个特定处理分别提取出,各推断
输入具有对应多个特定处理从多个统计量图选择的一个或多个统计量图。
41.另外,上述的多个推断输入中的一个可以具有基本特征图群的全部基本特征图。
42.例如,上述的多个推断输入分别具有对应上述的多个特定处理而选择的一个或多个统计量图。即,在全部统计量图中,仅根据通过某个特定处理得到的基本特征图生成的统计量图,构成某个推断输入。
43.这里,基本特征图具有表示多个特定形状的位置、尺寸和方向的2维数据,多个推断输入是按该尺寸分类的一个或多个统计量图。
44.图5是说明图1中的推断输入生成部12的动作的一例的图。例如图5所示,上述的多个推断输入例如是按该尺寸分类的一个或多个统计量图。具体地,设定有多个尺寸范围,针对各尺寸范围将特定形状的尺寸属于该尺寸范围的一个或多个统计量图(以下,称统计量图组)作为一个推断输入。即,这里按尺寸分类,不按位置和方法分类。另外,各尺寸范围可以一部分或全部与其他尺寸范围重叠。
45.此外,各推断输入可以包含从统计量图群选择的一个或多个统计量图以外的数据(具有对推断结果给予影响的可能性的参数等元数据)。作为这种元数据,使用图像取得时的环境数据(温度、湿度、时刻、摄像对象的状态信息等。例如,在输入图像为相机拍摄的照片图像的情况下的该摄像时的环境数据)、见解信息(应关注的区域的位置和尺寸)等。
46.另外,上述的多个推断输入也可作为通过统计量计算中的窗口尺寸和计算式的一方或两方来分类的一个或多个统计量图。
47.返回图1,推断器13-i(i=1,
···
,n)对基于上述的多个统计量图的多个推断输入,导出分割的推断结果(在各像素位置有无异常的分类结果等)。
48.具体地,在实施方式1中,多个推断器13-i对基于上述的多个统计量图的多个推断输入,分别导出多个推断结果,综合器14以规定的方法将所述多个推断结果进行综合并导出最终推断结果。
49.在实施方式1中,推断器13-i是机器学习完毕的推断器。另外,在推断器13-i的机器学习中使用的训练数据中,使用对上述的特定形状的位置和方向能够得到无偏差地向全方向分散的基本特征图的输入图像。
50.在实施方式1中,推断器13-i是对基于上述的基本特征图群的推断输入导出推断结果的处理部,是深度学习等机器学习完毕的处理部。例如,各推断器13-i(i=1,
···
,n)为卷积神经网络(convolutional neural network:cnn)。例如,多个推断器13-1~13-n为3个以上的推断器。
51.综合器14是将由多个推断器13-1~13-n得到的多个推断结果以规定的方法(多数投票法,类别所属概率等)进行综合从而导出最终推断结果的处理部。例如,综合器14通过对多个推断结果的多数投票法来导出最终推断结果,或者,根据对多个推断结果的多个类别(例如异常的有无)的类别所属概率的平均值和合计值来导出最终推断结果。
52.在本实施方式中,综合器14考虑上述的多个推断结果的权重系数,将上述的多个推断结果以规定的方法进行综合,导出最终推断结果。另外,也可以在不考虑权重系数的情况下进行综合而导出最终推断结果。越是可靠度高的推断结果,权重系数越大。
53.另外,综合器14可以是机器学习完毕的综合器,将上述的多个推断结果进行综合而导出最终推断结果。此外,综合器14可以通过其他现有的方法将上述的多个推断结果进
行综合而导出最终推断结果。
54.权重设定器15是导出综合器14中的上述的权重系数并设定的处理部。权重系数的值可以根据手动输入的值设定,也可以以如下所述的方式自动设定。
55.例如,权重设定器15根据多个推断器13-1~13-n的各自的推断精度导出上述的权重系数并设定到综合器14。在这种情况下,例如后述的机器学习处理部16通过交叉校验(通过变更训练数据的划分方式来重复进行如下处理的验证方法,对训练数据进行划分,一部分用于机器学习从而导出推断结果,而其余的用于验证该推断结果)导出各推断器13-i的推断精度,权重设定器15根据由机器学习处理部16导出的多个推断器13-1~13-n的推断精度,导出多个推断器13-1~13-n的推断结果的上述的权重系数。
56.此外,在这种情况下,例如可以通过使用cnn等的图像识别算法,根据输入图像推定各推断器13-i的推断精度。此外,例如权重设定器15可以根据有关该输入图像的特定特征量(形状,颜色等)的分布以及有关多个推断器13-1~13-n的机器学习中使用的训练数据的输入图像的特定特征量的分布,导出上述的权重系数并设定到综合器14。
57.机器学习处理部16是执行机器学习步骤的处理部,根据与推断器13-1~13-n的计算模型(这里,cnn)对应的现有的学习方法进行多个推断器13-1~13-n的机器学习。在多个推断器13-1~13-n的机器学习中,各推断器13-i的机器学习独立执行。
58.具体地,在未图示的存储装置等中准备包含多对输入图像与最终推断结果的训练数据,机器学习处理部16取得该训练数据,将各对中的输入图像输入到特征量提取部11,并取得对应该输入图像分别从推断器13-1~13-n输出的推断结果,根据输出的推断结果与该训练数据的对中的最终推断结果的比较结果,将各推断器13-i的参数值(cnn的权重和偏离值)独立于其他推断器13-j进行调整。
59.机器学习处理部16在上述的机器学习中使用的训练数据的输入图像中将由该训练数据指定的特定局部区域以外的区域除外,进行机器学习。即,在这种情况下,在图像识别中应关注的区域(拍摄到机器等中的特定的零件的区域,通过图像识别应检测到可能产生异常的区域等)被指定为特定局部区域而其以外的区域被除外的情况下进行机器学习,所以机器学习高效执行。例如,限定通过图像识别应检测到可能产生特定异常的区域,提取与该异常对应的特定形状的基本特征图,由此以相对较少的训练数据量高效进行机器学习。
60.另外,在推断器13-1~13-n的机器学习结束的情况下,可以不设置机器学习处理部16。
61.接下来,说明实施方式1的图像识别装置的动作。
62.(a)推断器13-1~13-n的机器学习
63.作为训练数据,在未图示的存储装置等中准备多对输入图像与最终推断结果(即,正确的图像识别结果)。而且,机器学习处理部16使用该训练数据,进行推断器13-1~13-n的机器学习。
64.在机器学习中,若机器学习处理部16选择一个训练数据,将该训练数据的一个输入图像输入到特征量提取部11,则特征量提取部11根据该输入图像生成统计量图群,推断输入生成部12根据统计量图群生成各推断输入,并输入到各推断器13-i。而且,推断器13-1~13-n根据当前的状态(cnn的参数值等)分别导出针对推断输入的推断结果。而且,
机器学习处理部16将与训练数据的输入图像对应的推断结果与训练数据的最终推断结果进行比较,以规定的算法根据该比较结果对各推断器13-1~13-n的状态进行更新。
65.另外,在机器学习中,这一系列的处理根据epoch数等超参数的值按照规定的机器学习算法重复执行。
66.(b)图像识别对象的输入图像的图像识别(分割)
67.上述的机器学习后对图像识别对象的输入图像执行图像识别。此时,由未图示的控制器等取得的输入图像(输入图像数据)被输入到特征量提取部11。若将该输入图像输入到特征量提取部11,则特征量提取部11根据该输入图像生成统计量图群,推断输入生成部12根据该统计量图群生成各推断输入,并输入到各推断器13-i。而且,推断器13-1~13-n根据机器学习完毕的状态(cnn的参数值等),分别导出针对推断输入的推断结果。而且,综合器14根据这些推断结果导出最终推断结果并输出。最终推断结果成为表示各像素位置的异常程度的2维状的图。
68.如上所述,按照上述实施方式1,特征量提取部11根据输入图像生成由多个基本特征图构成的基本特征图群,对基本特征图群中的基本特征图实施多种统计量计算,生成多个统计量图。推断器13-i针对基于该多个统计量图的推断输入,导出分割的推断结果。而且,上述的多种统计量计算分别是以特定的窗口尺寸特定的计算式计算统计量的处理,所述窗口尺寸和计算式中的至少一方,在该多种统计量计算之间彼此不同。
69.这样,根据输入图像生成表示各种特征量的多个基本特征图,而且,将表示多个基本特征图的各种统计量的统计量图的组合作为推断输入,通过推断器13-i得到分割的推断结果,所以在使用机器学习的情况下也能以相对较少的训练数据量进行良好分割。
70.此外,由于能以相对较少的训练数据量得到良好的推断结果,所以在需要进行图像识别的个别的小规模的现场中在训练数据较少的情况下,也能得出适合该现场的良好的推断结果。此外,利用统计量图使各推断器13-i的输入可视化,各推断器13-i的输入输出关系的说明变得容易。
71.这样,对应人的视野的v1区域的处理,生成表示颜色、方向、空间频率(目标尺寸)等特征量的基本特征图,对应人的视野的此后的高阶处理,生成统计量图,所以能通过类似于人的图像识别的方法进行通用的图像识别(这里是异常检测)。
72.实施方式2.
73.在实施方式2中,取代推断器13-1~13-n、综合器14、权重设定器15和机器学习处理部16,使用不利用机器学习而通过聚类来生成推断结果的推断器。即,在实施方式2中,不需要进行机器学习。
74.图6是说明实施方式2的图像识别装置中的聚类的图。例如在实施方式2中,(a)由推断输入生成部12从全部统计量图中提取出与同一特定处理(上述的空间滤波处理)、同一窗口尺寸和同一统计量计算式对应的统计量图作为推断输入,(b)在由这些统计量图表示的特征量(例如,平均和分散)的特征量空间(图6中平均和分散的2维空间)上,按照像素位置和规定尺寸的局部区域的位置绘制该像素位置或局部区域的位置的特征量,(c)在这些绘制出的标记中,马哈拉诺比斯距离大于规定值的标记被判定为异常部,该标记的位置被确定为异常部的位置。这样,进行异常部的分割。另外,在图6中,特征量空间为两个特征量的2维空间,但是也可以是3个以上的特征量的3维以上的空间。
75.另外,由于实施方式2的图像识别装置的其他构成和动作与实施方式1相同,故省略其说明。
76.如上所述,按照上述实施方式2,在不使用机器学习的情况下,可进行良好分割。
77.另外,本领域技术人员可知,针对上述的实施方式可以进行各种变更和修改。这种变更和修改可以在不脱离本发明思想的范围且不削弱本发明的优点的前提下进行。即,这种变更和修改应包含在本发明的范围中。
78.例如,在上述实施方式1中,推断器13-1~13-n可以分别具备多层推断部,各推断器13-i根据集成学习的堆叠法,使用多层推断部导出推断结果。
79.此外,在上述实施方式1中,向推断器13-1~13-n输入上述的元数据时,可以对推断器13-1~13-n输入同一元数据,也可以对推断器13-1~13-n输入与各推断器13-i对应的(彼此不同的)元数据。
80.工业实用性
81.本发明例如可应用于图像识别。
再多了解一些

本文用于创业者技术爱好者查询,仅供学习研究,如用于商业用途,请联系技术所有人。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献