一种用于深度学习的物品识别数据集扩充方法及系统与流程

2021-10-30 02:48:00 来源：中国专利 TAG：扩充机器人深度识别用于

1.本发明涉及机器人视觉应用技术领域，尤其涉及一种用于深度学习的物品识别数据集扩充方法及系统。

背景技术：

2.本部分的陈述仅仅是提供了与本公开相关的背景技术信息，不必然构成在先技术。
3.随着深度学习技术的不断深入的背景下，深度学习技术在实际场景中的应用也日益广泛，但是，由于深度学习技术的实际应用需要数量巨大且质量较高的人工标注数据，人工标记过程保证了数据质量，但是也耗费大量人力以及资金，同时也增加了时间成本。因此，单纯的依赖人工标记限制了深度学习技术的进一步实际部署，尤其在机器人应用领域。
4.常用的且已经公开的开源数据集，如imagenet数据集，coco数据集，voc数据集等，这些数据集可以用于物品的识别，分割网络训练，但不能进行可供性分割网络训练，可供性指的是物品可以承受的机器人的动作，即机器人可以对物品的不同功能部分施加不同的动作，实现机器人对物品的认知操作。
5.故发明人认为，利用现有数据集对用于物品识别分割的深度学习网络进行训练时，首先无法获取大量的人工标注图像，从而使得对深度学习网络的训练效果有限，此次，现有的数据集对深度学习网络进行训练后可用于对物品进行识别分割，而不能进行物品的可供性分割。

技术实现要素：

6.本公开为了解决上述问题，提出了一种用于深度学习的物品识别数据集扩充方法及系统，实现了对物品识别数据集的扩充，利用该扩充后的数据集进行深度学习网络训练时，保证了深度学习网络训练的效果。
7.为实现上述目的，本公开采用如下技术方案：
8.第一方面，提出了一种用于深度学习的物品识别数据集扩充方法，包括：
9.获取背景图像和物品图像；
10.对物品图像进行标记，获取标注图像；
11.对标注图像进行旋转，获取旋转后标注图像，利用背景图像对旋转后标注图像的背景进行更换，获得背景更换后标注图像；
12.改变背景更换后的标注图像的大小，获取改变大小后的背景更换后标注图像，从改变大小后的背景更换后标注图像中选取两幅图像进行融合，获得复杂背景标注图像；
13.利用复杂背景标注图像对物品识别数据集进行扩充。
14.第二方面，提出了一种用于深度学习的物品识别数据集扩充系统，包括：
15.图像获取模块，用于获取背景图像和物品图像；
16.图像标记模块，用于对物品图像进行标记，获取标注图像；
17.背景更换后标注图像获取模块，用于对标注图像进行旋转，获取旋转后标注图像；利用背景图像对旋转后标注图像的背景进行更换，获得背景更换后标注图像；
18.复杂背景标注图像获取模块，用于改变背景更换后的标注图像的大小，获取改变大小后的背景更换后标注图像，从改变大小后的背景更换后标注图像中选取两幅图像进行融合，获得复杂背景标注图像；
19.数据集扩充模块，用于利用复杂背景标注图像对物品识别数据集进行扩充。
20.第三方面，提出了一种电子设备，包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令，所述计算机指令被处理器运行时，完成一种用于深度学习的物品识别数据集扩充方法所述的步骤。
21.第四方面，提出了一种计算机可读存储介质，用于存储计算机指令，所述计算机指令被处理器执行时，完成一种用于深度学习的物品识别数据集扩充方法所述的步骤。
22.与现有技术相比，本公开的有益效果为：
23.1、本公开通过对标注图像进行旋转后更换背景，进而对背景更换后标注图像更改大小，并对任意两幅改变大小后的背景更换后标注图像进行融合，获得了复杂背景标注图像，通过该复杂背景标注图像对物品识别数据集进行扩充，利用该扩充后的数据集进行深度学习网络训练时，保证了深度学习网络训练的效果。
24.2、本公开对物品图像进行了可供性标签标记，从而利用该数据集对深度学习网络进行训练后，能够用于物品的可供性识别与切割。
25.本发明附加方面的优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。
附图说明
26.构成本技术的一部分的说明书附图用来提供对本技术的进一步理解，本技术的示意性实施例及其说明用于解释本技术，并不构成对本技术的不当限定。
27.图1为本公开实施例1公开方法的流程图；
28.图2为本公开实施例1提及的8种可供性标签；
29.图3为本公开实施例1公开的在原始物品图像上利用labelme标记物品可供性和实例示意图；
30.图4为本公开实施例1公开的物品定位示意图；
31.图5为本公开实施例1公开的数据集扩充结果示意图。
具体实施方式：
32.下面结合附图与实施例对本公开作进一步说明。
33.应该指出，以下详细说明都是例示性的，旨在对本技术提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本技术所属技术领域的普通技术人员通常理解的相同含义。
34.需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本技术的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包
括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。
35.在本公开中，术语如“上”、“下”、“左”、“右”、“前”、“后”、“竖直”、“水平”、“侧”、“底”等指示的方位或位置关系为基于附图所示的方位或位置关系，只是为了便于叙述本公开各部件或元件结构关系而确定的关系词，并非特指本公开中任一部件或元件，不能理解为对本公开的限制。
36.本公开中，术语如“固接”、“相连”、“连接”等应做广义理解，表示可以是固定连接，也可以是一体地连接或可拆卸连接；可以是直接相连，也可以通过中间媒介间接相连。对于本领域的相关科研或技术人员，可以根据具体情况确定上述术语在本公开中的具体含义，不能理解为对本公开的限制。
37.实施例1
38.在该实施例中，公开了一种用于深度学习的物品识别数据集扩充方法，包括：
39.获取背景图像和物品图像；
40.对物品图像进行标记，获取标注图像；
41.对标注图像进行旋转，获取旋转后标注图像，利用背景图像对旋转后标注图像的背景进行更换，获得背景更换后标注图像；
42.改变背景更换后的标注图像的大小，获取改变大小后的背景更换后标注图像，从改变大小后的背景更换后标注图像中选取两幅图像进行融合，获得复杂背景标注图像；
43.利用复杂背景标注图像对物品识别数据集进行扩充。
44.进一步的，利用网络爬取技术获取背景图像。
45.进一步的，对物品图像进行可供性标签标记，获得标注图像。
46.进一步的，对物品图像进行可供性标签标记时，不同可供性标签采用不同颜色或箭头进行标记。
47.进一步的，对物品图像进行标记，获取标注图像时，还对物品图像中的物品进行矩形框标注和分割，获得矩形框位置。
48.进一步的，根据物品的类别和物品所处矩形框的位置，将复杂背景标注图像放入物品识别数据集。
49.进一步的，通过对背景更换后的标注图像进行扩大或放缩，改变背景更换后的标注图像的大小。
50.对本实施例公开的一种用于深度学习的物品识别数据集扩充方法进行详细说明。
51.由于现有的用于物品识别的深度学习网络进行训练时，需要大量的人工标注数据，耗费大量人力物力，且获取的人工标注数据有限，导致对深度学习网络的训练效果有限，且现在公开的可供性分割数据集umd等只提供可供性分割，不能用于实例分割以及物品识别，限制了其应用，同时，该数据集相对物品单一，背景简单，导致其难以部署在机器人上进行实际应用。因此，针对特定的应用场景和多输出深度学习网络的训练，需要快速生成含有多标签的物品数据集。
52.为解决上述技术问题，本实施例公开了一种用于深度学习的物品识别数据集扩充方法，如图1所示，包括：
53.s1：获取所需识别、分割物品的原始的物品图像。
54.在具体实施时，利用realsense相机采集背景简单且仅有一个物品的rgb图像，格
式为jpg,大小为640
×
480(单位：像素)，该图像即为所需的原始的物品图像。
55.s2：对物品图像进行标记，获取标注图像。
56.对物品图像进行可供性标签标记，获得标注图像，且对物品图像进行可供性标签标记时，不同可供性标签采用不同颜色或箭头进行标记。
57.在具体实施时，利用labelme软件对采集的物品图像进行标记，并定义如图2所示的8个可供性标签：contain,cut,grasp,wrap
‑
grasp,scoop,open,pound，support。利用可供性标签标记物品图像的功能部位，如图3所示，杯子的杯口可以倒入液体，具有contain可供性；杯身可以大面积接触抓取，具有wrap
‑
grasp可供性；杯把可以小面积接触抓取，可以进行grasp可供性。
58.在彩色图中用不同颜色表示不同的可供性标签，在本实施例中，利用箭头表示物品的各可供性标签。
59.此外，除对物品图像进行可供性标签标记外，还对物品图像中的物品通过矩形框进行分割，获得物品实例标签图像，用来进行不同图像中物品的区分。
60.对物品实例标签图像进行像素遍历，找出实例分割物品所在矩形范围的x轴上最大x
max
，最小值x
min
以及在y轴上的最大值y
max
,最小值y
min
，提取实例物品所在的矩形框(x
min
,y
min
,x
max
,y
max
)，实现了对矩形框的位置定位。
61.根据物品的类别命名图像的名字，将物品的类别标签和物品所在的矩形框位置存入xml文件中，如图4所示。
62.s3：获取背景图像。
63.在具体实施时，利用网络爬虫方法，从因特网上爬取复杂的背景图像，并修改图像尺寸为640*480，组成复杂的背景图像数据集。
64.s4：对标注图像进行旋转，获取旋转后标注图像，利用背景图像对旋转后标注图像的背景进行更换，获得背景更换后标注图像。
65.在具体实施时，获取旋转后标注图像后，同时对xml文件中的物品所在的矩形框的位置进行更改。
66.从背景图像数据集中随机选取背景图像，利用随机选取的背景图像通过公式(1)对旋转后标注图像的背景进行更换。
67.i
p
×
β i
m
×
(1
‑
β)(1)
68.其中，i
p
代表原始的物品图像，β代表物品实例标签图像，i
m
代表背景图像，在通过公式(1)融合原图像的同时，对应的可供性标签和物品实例标签，也进行相应的融合，并按对应位置再次改变xml文件中矩形框的位置。
69.该步骤中进行物品的随机旋转来扩大背景，进而把手工标注的少量标注图像扩充为背景复杂且数量较多的数据集图像和标签。
70.s6：改变背景更换后的标注图像的大小，获取改变大小后的背景更换后标注图像，从改变大小后的背景更换后标注图像中选取两幅图像进行融合，获得复杂背景标注图像。
71.在具体实施时，通过对背景更换后的标注图像进行扩大或放缩，改变背景更换后的标注图像的大小，获取改变大小后的背景更换后标注图像。
72.从改变大小后的背景更换后标注图像中随机选择两幅图像通过公式(1)进行融合，获得复杂背景标注图像。此时，公式(1)中的i
p
代表其中一幅改变大小后的背景更换后
标注图像，β代表物品实例标签图像，i
m
代表另一副改变大小后的背景更换后标注图像。
73.在通过公式(1)融合两幅改变大小后的背景更换后标注图像的同时，对应的可供性标签和物品实例标签，也进行相应的融合，并按对应位置再次改变xml文件中矩形框的位置。
74.利用复杂背景标注图像对物品识别数据行扩充，获取如图5所示的数据集，利用该数据集对深度学习网络进行训练，可以获取良好的训练效果。
75.此外，由于本实施例对物品图像进行了可供性标签标记，当应用该扩充后的数据集对深度学习网络进行训练后，能够用于物品的可供性识别与切割。
76.本实施例公开的一种用于深度学习的物品识别分割数据集扩充方法，首先利用realsense相机采集具有简单背景和含有一个物品的rgb物品图像，并用labelme软件根据可供性以及人类物品操作习惯，使用不同的颜色标记物品的功能区域，用于可供性分割，同时为了更好的区分实例物品，对物品进行实例分割，通过本公开的数据制作技术，对训练数据集进行扩充，从而可以将该数据集应用于网络训练，并应用到机器人实际操作。
77.实施例2
78.在该实施例中，公开了一种用于深度学习的物品识别数据集扩充系统，包括：
79.图像获取模块，用于获取背景图像和物品图像；
80.图像标记模块，用于对物品图像进行标记，获取标注图像；
81.背景更换后标注图像获取模块，用于对标注图像进行旋转，获取旋转后标注图像；利用背景图像对旋转后标注图像的背景进行更换，获得背景更换后标注图像；
82.复杂背景标注图像获取模块，用于改变背景更换后的标注图像的大小，获取改变大小后的背景更换后标注图像，从改变大小后的背景更换后标注图像中选取两幅图像进行融合，获得复杂背景标注图像；
83.数据集扩充模块，用于利用复杂背景标注图像对物品识别数据集进行扩充。
84.实施例3
85.在该实施例中，公开了一种电子设备，包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令，所述计算机指令被处理器运行时，完成实施例1公开的一种用于深度学习的物品识别数据集扩充方法所述的步骤。
86.实施例4
87.在该实施例中，公开了一种计算机可读存储介质，用于存储计算机指令，所述计算机指令被处理器执行时，完成实施例1公开的一种用于深度学习的物品识别数据集扩充方法所述的步骤。
88.本领域内的技术人员应明白，本技术的实施例可提供为方法、系统、或计算机程序产品。因此，本技术可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本技术可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd
‑
rom、光学存储器等)上实施的计算机程序产品的形式。
89.本技术是参照根据本技术实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序
指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
90.这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
91.这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
92.最后应当说明的是：以上实施例仅用以说明本发明的技术方案而非对其限制，尽管参照上述实施例对本发明进行了详细的说明，所属领域的普通技术人员应当理解：依然可以对本发明的具体实施方式进行修改或者等同替换，而未脱离本发明精神和范围的任何修改或者等同替换，其均应涵盖在本发明的权利要求保护范围之内。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：多媒体展示方法、装置、电子设备、服务器及存储介质与流程

一种用于深度学习的物品识别数据集扩充方法及系统与流程

相关文献

最热文献