一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

定位识别方法、装置、设备、系统及计算机存储介质与流程

2021-12-08 01:32:00 来源:中国专利 TAG:


1.本技术涉及人工智能技术,尤其涉及一种定位识别方法、装置、设备、系统及计算机存储介质。


背景技术:

2.近年来,随着深度学习的不断发展,对于图像处理中的定位识别任务,目标检测主流技术偏向于直接将一张图片送入神经网络,让其输出所有潜在物体所在的位置以及分类识别信息。这种方法适用于多尺度,多种类物体识别的场景,但是由于神经网络识别容易产生误识别、漏识别等问题,并且神经网络检测到的物体中心会由于背景的原因导致一定的偏移,因此,目前方法的定位精度较低,进而导致基于定位进行分类识别的精度较低,对于一些要求高精度,高准确性的场景,如机器人下棋等场景并不适用。


技术实现要素:

3.本技术实施例提供一种定位识别方法、装置、设备、系统及计算机存储介质,能够提高物体定位的精度。
4.本技术实施例的技术方案是这样实现的:
5.本技术实施例提供一种定位识别方法,包括:
6.获取至少一个物体对象在场景图像中对应的预设共性图像特征,生成匹配模板;
7.将所述匹配模板在所述场景图像中进行滑动,根据所述匹配模板与其在所述场景图像中至少一个预设滑动位置上对应图像部分的匹配度,得到所述至少一个物体对象对应的至少一个预测位置信息;
8.在所述场景图像中,对所述至少一个预测位置信息对应的至少一个预分类图像进行目标分类识别,得到所述至少一个物体对象的分类识别结果;所述至少一个物体对象属于至少一种对象类别。
9.上述方法中,所述将所述匹配模板在所述场景图像中进行滑动,根据所述匹配模板与其在所述场景图像中至少一个预设滑动位置上对应图像部分的匹配度,得到所述至少一个物体对象对应的至少一个预测位置信息,包括:
10.将所述匹配模板的中心位置与所述至少一个预设滑动位置一一对齐,得到所述匹配模板在每个预设滑动位置上对应的待匹配区域;
11.计算所述匹配模板与所述待匹配区域内的图像部分的匹配度,得到所述每个预设滑动位置对应的匹配分数;
12.根据预设匹配策略与所述匹配分数,从所述至少一个预设滑动位置中确定出所述至少一个预测位置信息。
13.上述方法中,所述在所述场景图像中,对所述至少一个预测位置信息对应的至少一个预分类图像进行目标分类识别,得到所述至少一个物体对象的分类识别结果,包括:
14.在所述至少一个预测位置信息上,根据预设区域尺寸,生成至少一个候选区域;
15.将所述至少一个候选区域内的图像部分作为所述至少一个预分类图像,对所述至少一个预分类图像中的每个预分类图像进行所述至少一种对象类别的分类预测,得到所述每个预分类图像对应每种对象类别的预测结果;
16.根据所述每个预分类图像对应每种对象类别的预测结果,得到所述至少一个物体对象的分类识别结果。
17.上述方法中,所述获取至少一个物体对象在场景图像中对应的预设共性图像特征,生成匹配模板,包括:
18.通过图像采集设备,从预设采集位置,对包含至少一个物体对象的场景进行图像采集,得到所述场景图像;
19.从所述场景图像中提取出单个物体对象对应的图像部分,作为模板图像;根据所述预设共性图像特征,对所述模板图像进行图像分割,得到所述匹配模板。
20.上述方法中,匹配度计算包括:
21.平方差匹配算法、相关匹配算法、标准匹配算法中的任意一种。
22.上述方法中,所述预设共性图像特征包括:
23.轮廓特征、图案特征、颜色特征、纹理特征中的至少一种。
24.本技术实施例提供一种定位识别装置,包括:。
25.生成模块,用于获取至少一个物体对象在场景图像中对应的预设共性图像特征,生成匹配模板;
26.定位模块,用于将所述匹配模板在所述场景图像中进行滑动,根据所述匹配模板与其在所述场景图像中至少一个预设滑动位置上对应图像部分的匹配度,得到所述至少一个物体对象对应的至少一个预测位置信息;
27.识别模块,用于在所述场景图像中,对所述至少一个预测位置信息对应的至少一个预分类图像进行目标分类识别,得到所述至少一个物体对象的分类识别结果;所述至少一个物体对象属于至少一种对象类别。
28.上述装置中,所述定位模块,还用于将所述匹配模板的中心位置与所述至少一个预设滑动位置一一对齐,得到所述匹配模板在每个预设滑动位置上对应的待匹配区域;计算所述匹配模板与所述待匹配区域内的图像部分的匹配度,得到所述每个预设滑动位置对应的匹配分数;根据预设匹配策略与所述匹配分数,从所述至少一个预设滑动位置中确定出所述至少一个预测位置信息。
29.上述装置中,所述识别模块,还用于在所述至少一个预测位置信息上,根据预设区域尺寸,生成至少一个候选区域;将所述至少一个候选区域内的图像部分作为所述至少一个预分类图像,对所述至少一个预分类图像中的每个预分类图像进行所述至少一种对象类别的分类预测,得到所述每个预分类图像对应每种对象类别的预测结果;根据所述每个预分类图像对应每种对象类别的预测结果,得到所述至少一个物体对象的分类识别结果。
30.上述装置中,所述生成模块,还用于通过图像采集设备,从预设采集位置,对包含至少一个物体对象的场景进行图像采集,得到所述场景图像;从所述场景图像中提取出单个物体对象对应的图像部分,作为模板图像;根据所述预设共性图像特征,对所述模板图像进行图像分割,得到所述匹配模板。
31.上述装置中,所述匹配度计算包括:
32.平方差匹配算法、相关匹配算法、标准匹配算法中的任意一种。
33.上述装置中,所述预设共性图像特征包括:
34.轮廓特征、图案特征、颜色特征、纹理特征中的至少一种。
35.本技术实施例提供一种定位识别系统,包括:
36.图像采集设备,用于从预设采集位置,对包含至少一个物体对象的场景进行图像采集,得到场景图像;
37.定位识别设备,用于从所述场景图像中提取出单个物体对象对应的模板图像,根据所述预设共性图像特征,对所述模板图像进行图像分割,得到匹配模板;将所述匹配模板在所述场景图像中进行滑动,根据所述匹配模板与其在所述场景图像中至少一个预设滑动位置上对应图像部分的匹配度,得到所述至少一个物体对象对应的至少一个预测位置信息;在所述场景图像中,对所述至少一个预测位置信息对应的至少一个预分类图像进行目标分类识别,得到所述至少一个物体对象的分类识别结果;所述至少一个物体对象属于至少一种对象类别;
38.控制设备,用于基于所述至少一个预测位置信息与所述至少一个物体对象的分类识别结果,生成对所述至少一个物体对象中的目标物体对象的操作指令;
39.执行设备,用于根据所述操作指令对所述目标对象进行操作。
40.本技术实施例提供一种定位识别设备,包括:
41.存储器,用于存储可执行指令;
42.处理器,用于执行所述存储器中存储的可执行指令时,实现本技术实施例提供的定位识别方法。
43.本技术实施例提供一种计算机存储介质,存储有可执行指令,用于引起处理器执行时,实现本技术实施例提供的定位识别方法。
44.本技术实施例具有以下有益效果:
45.本技术实施例中,根据至少一个物体对象的预设共性图像特征生成匹配模板,并通过模板匹配方法来得到至少一个物体对象在场景图像中的至少一个预测位置信息,能够提高物体定位的精度;并且,针对至少一个预测位置信息对应至少一个预分类图像进行目标分类识别,降低了无关信息对物体对象分类识别的干扰,提高了分类识别的准确性。
附图说明
46.图1是本技术实施例提供的定位识别系统架构的一个可选的结构示意图;
47.图2是本技术实施例提供的定位识别系统架构中图像采集设备的一个可选的位置示意图;
48.图3是本技术实施例提供的定位识别装置的一个可选的结构示意图;
49.图4是本技术实施例提供的定位识别方法的一个可选的流程示意图;
50.图5是本技术实施例提供的定位识别方法的一个可选的流程示意图;
51.图6是本技术实施例提供的中国象棋的棋盘场景图像一个可选的示意图;
52.图7是本技术实施例提供的棋子图像的一个可选的示意图;
53.图8是本技术实施例提供的从棋子图像中提取出的匹配模板的一个可选的示意图;
54.图9是本技术实施例提供的定位识别方法的一个可选的流程示意图;
55.图10是本技术实施例提供的匹配模板在场景图像上滑动的过程示意图;
56.图11是本技术实施例提供的定位识别方法的一个可选的流程示意图;
57.图12是本技术实施例提供的一种匹配分数分布的效果示意图;
58.图13是本技术实施例提供的生成至少一个候选区域的效果示意图;
59.图14是本技术实施例提供的至少一个待分类图像的分类识别结果示意图。
具体实施方式
60.为了使本技术的目的、技术方案和优点更加清楚,下面将结合附图对本技术作进一步地详细描述,所描述的实施例不应视为对本技术的限制,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本技术保护的范围。
61.在以下的描述中,涉及到“一些实施例”,其描述了所有可能实施例的子集,但是可以理解,“一些实施例”可以是所有可能实施例的相同子集或不同子集,并且可以在不冲突的情况下相互结合。
62.除非另有定义,本文所使用的所有的技术和科学术语与属于本技术的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本技术实施例的目的,不是旨在限制本技术。
63.对本技术实施例进行进一步详细说明之前,对本技术实施例中涉及的名词和术语进行说明,本技术实施例中涉及的名词和术语适用于如下的解释。
64.1)人工智能(artificial intelligence,ai)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
65.人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
66.2)计算机视觉技术(computer vision,cv)计算机视觉是一门研究如何使机器“看”的科学,更进一步的说,就是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉,并进一步做图形处理,使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科,计算机视觉研究相关的理论和技术,试图建立能够从图像或者多维数据中获取信息的人工智能系统。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、ocr、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3d技术、虚拟现实、增强现实、同步定位与地图构建等技术,还包括常见的人脸识别、指纹识别等生物特征识别技术。
67.3)机器学习(machine learning,ml)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机
器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。
68.4)机器人(robot)是自动执行工作的机器装置,一般由执行机构、驱动装置、检测装置和控制系统和复杂机械等组成。它既可以接受人类指挥,又可以运行预先编排的程序,也可以根据以人工智能技术制定的原则纲领行动。它的任务是协助或取代人类工作的工作。而下棋机器人是机器人在棋类博弈中一种具体的应用,能像人类一样,自主的完成下棋的整个过程。
69.随着人工智能技术研究和进步,人工智能技术在多个领域展开研究和应用,例如常见的智能家居、智能穿戴设备、虚拟助理、智能音箱、智能营销、无人驾驶、自动驾驶、无人机、机器人、智能医疗、智能客服等,相信随着技术的发展,人工智能技术将在更多的领域得到应用,并发挥越来越重要的价值。
70.本技术实施例提供的方案涉及人工智能的计算机视觉等技术,具体通过如下实施例进行说明:
71.目前,对于物体定位场景,常用的定位方法主要是通过神经网络获取物体在所采集的图片中的位置,然后利用深度摄像头进行测距,获取物体在摄像头中的空间三维位置,结合物体在图片中的位置,以及物体的空间三维位置,最终得到物体的三维空间位置。然而,神经网络识别容易产生误识别、漏识别等问题,同时神经网络检测到的物体中心会由于背景的原因导致一定的偏移。且深度摄像头测距也会存在非常大的误差,从而降低了物体定位的精度。尤其对于一些要求高精度,高准确性的场景,如机器人下棋等场景,定位效果非常差,进而影响了基于定位进行进一步图像识别的准确性。
72.本技术实施例提供一种定位识别方法、装置、设备、系统及计算机存储介质,能够提高定位识别的精度,下面说明本技术实施例提供的定位识别设备的示例性应用,本技术实施例提供的定位识别设备可以实施为笔记本电脑,平板电脑,台式计算机,机顶盒,移动设备(例如,移动电话,便携式音乐播放器,个人数字助理,专用消息设备,便携式游戏设备)等各种类型的用户终端,也可以实施为服务器。下面,将说明定位识别设备实施为服务器时示例性应用。
73.参见图1,图1是本技术实施例提供的定位识别系统100的一个可选的架构示意图,为实现支撑一个定位识别任务,如机器人下棋任务,图像采集设备400通过网络300连接服务器200,服务器200连接控制设备600,控制设备600连接执行设备500,网络300可以是广域网或者局域网,又或者是二者的组合。
74.采集设备400用于从预设采集位置,对包含至少一个物体对象的场景进行图像采集,得到场景图像,并将场景图像传输至服务器200。这里,对于机器人下棋任务至少一个物体对象可以是多个棋子,至少一个物体对象可以是多个棋子;场景图像可以是包含多个棋子图像的棋盘图像。在一些实施例中,预设采集位置可以是场景,如棋盘的正上方。
75.服务器200用于从场景图像中提取出单个物体对象对应的模板图像,根据预设共性图像特征,对模板图像进行图像分割,得到匹配模板;将匹配模板在场景图像中进行滑动,根据匹配模板与其在场景图像中至少一个预设滑动位置上对应图像部分的匹配度,得到至少一个物体对象对应的至少一个预测位置信息。这里,预设共性图像特征,可以是多个
棋子的共性特征,比如,象棋棋子的外型轮廓都是同样大小的圆形,则可以将象棋棋子的形状轮廓作为预设共性图像特征,生成棋子圆环的边框作为匹配模板。服务器200将至少一个预测位置信息与至少一个物体对象的分类识别结果传输至控制执行设备400,其中,服务器200与控制执行设备400之间可以通过网络连接,也可以通过其他设备连接方式进行连接,这里不作具体的限定。
76.控制设备600,用于基于至少一个预测位置信息与至少一个物体对象的分类识别结果,生成对至少一个物体对象中的目标物体对象的操作指令。这里,控制执行设备可以根据至少一个预测位置信息与至少一个物体对象的分类识别结果,得到棋盘上各类棋子所在的位置,进而根据预置的棋类规则与策略逻辑,生成对至少一个棋子中的目标棋子的操作指令,即将该目标棋子移动至棋盘上的目标位置。
77.执行设备500,用于根据操作指令对目标对象进行操作。这里,执行设备可以包括机器人的机械爪,机械爪可以根据上述操作指令,夹取目标棋子并放置至目标位置,从而完成一次机器人下棋操作。
78.在一些实施例中,服务器200可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、cdn、以及大数据和人工智能平台等基础云计算服务的云服务器。控制设备600可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表等,但并不局限于此。控制设备以及服务器可以通过有线或无线通信方式进行直接或间接地连接,本发明实施例中不做限制。
79.这里,需要说明的是,图1中图像采集设备400连接在执行设备500上,执行设备的默认起始位置即为图像采集设备400的预设采集位置,如棋盘正上方位置,以使图像采集设备400可以在预设采集位置上对棋盘进行图像采集,避免采集角度偏差引起采集的场景图像的畸变,影响定位精度。在一些实施例中,执行设备在每次移动并对目标对象进行操作之后,如每次抓取目标棋子移动至目标位置之后,可以回到其默认起始位置,以便下一次进行下棋操作时,图像采集设备可以位于预设采集位置进行图像采集。
80.在一些实施例中,图像采集设备也可以通过支撑部件固定在对场景进行采集的预设采集位置,图2示出了图像采集设备110通过支撑部件111固定在棋盘正上方的预设采集位置,对棋盘进行场景图像采集的示意图。
81.参见图3,图3是本技术实施例提供的服务器200的结构示意图,图3所示的服务器200包括:至少一个处理器210、存储器250、至少一个网络接口220和用户接口230。服务器200中的各个组件通过总线系统240耦合在一起。可理解,总线系统240用于实现这些组件之间的连接通信。总线系统240除包括数据总线之外,还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见,在图3中将各种总线都标为总线系统240。
82.处理器210可以是一种集成电路芯片,具有信号的处理能力,例如通用处理器、数字信号处理器(dsp,digital signal processor),或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等,其中,通用处理器可以是微处理器或者任何常规的处理器等。
83.用户接口230包括使得能够呈现媒体内容的一个或多个输出装置231,包括一个或多个扬声器和/或一个或多个视觉显示屏。用户接口230还包括一个或多个输入装置232,包
括有助于用户输入的用户接口部件,比如键盘、鼠标、麦克风、触屏显示屏、摄像头、其他输入按钮和控件。
84.存储器250可以是可移除的,不可移除的或其组合。示例性的硬件设备包括固态存储器,硬盘驱动器,光盘驱动器等。存储器250可选地包括在物理位置上远离处理器210的一个或多个存储设备。
85.存储器250包括易失性存储器或非易失性存储器,也可包括易失性和非易失性存储器两者。非易失性存储器可以是只读存储器(rom,read only me mory),易失性存储器可以是随机存取存储器(ram,random access memor y)。本技术实施例描述的存储器250旨在包括任意适合类型的存储器。
86.在一些实施例中,存储器250能够存储数据以支持各种操作,这些数据的示例包括程序、模块和数据结构或者其子集或超集,下面示例性说明。
87.操作系统251,包括用于处理各种基本系统服务和执行硬件相关任务的系统程序,例如框架层、核心库层、驱动层等,用于实现各种基础业务以及处理基于硬件的任务;
88.网络通信模块252,用于经由一个或多个(有线或无线)网络接口220到达其他计算设备,示例性的网络接口220包括:蓝牙、无线相容性认证(wifi)、和通用串行总线(usb,universal serial bus)等;
89.呈现模块253,用于经由一个或多个与用户接口230相关联的输出装置231(例如,显示屏、扬声器等)使得能够呈现信息(例如,用于操作外围设备和显示内容和信息的用户接口);
90.输入处理模块254,用于对一个或多个来自一个或多个输入装置232之一的一个或多个用户输入或互动进行检测以及翻译所检测的输入或互动。
91.在一些实施例中,本技术实施例提供的装置可以采用软件方式实现,图3示出了存储在存储器250中的定位识别装置255,其可以是程序和插件等形式的软件,包括以下软件模块:生成模块2551、定位模块2552和识别模块2553,这些模块是逻辑上的,因此根据所实现的功能可以进行任意的组合或进一步拆分。
92.将在下文中说明各个模块的功能。
93.在另一些实施例中,本技术实施例提供的装置可以采用硬件方式实现,作为示例,本技术实施例提供的装置可以是采用硬件译码处理器形式的处理器,其被编程以执行本技术实施例提供的定位识别方法,例如,硬件译码处理器形式的处理器可以采用一个或多个应用专用集成电路(asic,application specif ic integrated circuit)、dsp、可编程逻辑器件(pld,programmable logic de vice)、复杂可编程逻辑器件(cpld,complex programmable logic device)、现场可编程门阵列(fpga,field

programmable gate array)或其他电子元件。
94.将结合本技术实施例提供的服务器的示例性应用和实施,说明本技术实施例提供的定位识别方法。
95.参见图4,图4是本技术实施例提供的定位识别方法的一个可选的流程示意图,将结合图4示出的步骤进行说明。
96.s101、获取至少一个物体对象在场景图像中对应的预设共性图像特征,生成匹配模板。
97.本技术提供的定位识别方法适用于物体对象相对固定,但是定位精度和分类准确性要求极高的场景,比如流水线上外形固定但种类不同的物品,机器人下棋,或其他有共性稳定特征的物体定位识别场景。
98.本技术实施例中,定位识别装置获取包含至少一个物体对象的场景图像,进而根据至少一个物体对象在场景图像中对应的预设共性图像特征,生成匹配模板。
99.在一些实施例中,预设共性图像特征可以是基于对至少一个物体对象的先验知识,在至少一个物体在场景图像中所对应的至少一个物体图像中,所提取出的至少一个物体图像所共有的图像特征。预设共性图像特征也可以是基于人工智能的图像检测方法,通过将至少一个物体图像进行比对,从中提取出的至少一个物体图像所共有的图像特征。具体的根据实际情况进行选择,本技术实施例不作限定。
100.在一些实施例中,预设共性图像特征包括:轮廓特征、图案特征、颜色特征、纹理特征中的至少一种。
101.本技术实施例中,轮廓特征可以是至少一个物体图像共有的外型或形状特征;示例性地,对于象棋棋子,轮廓特征可以是圆形的棋子轮廓,图案特征可以是至少一个物体图像共有的标志性图案特征,示例性地,对于流水线上的产品,图案特征可以是产品上共有的图案标识。颜色特征可以是至少一个物体图像共有的颜色分布,颜色组成,以及颜色间相互关系等特征;纹理特征可以是至少一个物体图像的共有的图像纹理特征。
102.在一些实施例中,预设共性图像特征也可以是至少一个物体对象的其他类型的共性视觉特征,具体的根据实际情况进行选择,本技术实施例不作限定。
103.s102、将匹配模板在场景图像中进行滑动,根据匹配模板与其在场景图像中至少一个预设滑动位置上对应图像部分的匹配度,得到至少一个物体对象对应的至少一个预测位置信息。
104.本技术实施例中,场景图像中包含至少一个预设滑动位置,即预设滑动点坐标,定位识别装置可以使用匹配模板在场景图像中进行滑动,每到一个预设滑动位置,计算匹配模板与其所在的区域中图像部分的匹配度,遍历至少一个预设滑动位置,得到每个预设滑动位置对应的匹配度。
105.本技术实施例中,定位识别装置进而可以根据每个预设滑动位置对应的匹配度,从中确定出至少一个物体对象在场景图像中对应的至少一个预测位置信息。
106.在一些实施例中,定位识别装置可以将匹配度高的至少一个预设滑动位置作为至少一个预测位置信息。
107.s103、在场景图像中,对至少一个预测位置信息对应的至少一个预分类图像进行目标分类识别,得到至少一个物体对象的分类识别结果;至少一个物体对象属于至少一种对象类别。
108.本技术实施例中,定位识别装置得到至少一个预测位置信息时,即得到了至少一个物体对象在场景图像中的定位结果。定位识别装置可以基于至少一个预测位置信息,在场景图像中定位至至少一个物体对象对应的至少一个预测区域,进而针对至少一个预测区域内的图像,即至少一个预分类图像进行目标分类识别,而非对整张图像进行分类识别,这样有针对性的识别可以大大提高分类识别的精度。
109.本技术实施例中,定位识别装置将对至少一个预分类图像的分类识别结果,对应
作为至少一个物体对象的分类识别结果。
110.可以理解的是,本技术实施例中,根据至少一个物体对象的预设共性图像特征生成匹配模板,并通过模板匹配方法来得到至少一个物体对象在场景图像中的至少一个预测位置信息,能够提高物体定位的精度;并且,针对至少一个预测位置信息对应至少一个预分类图像进行目标分类识别,降低了无关信息对物体对象分类识别的干扰,提高了分类识别的准确性。
111.在一些实施例中,参见图5,图5是本技术实施例提供的定位识别方法的一个可选的流程示意图,基于图4,s101可以通过执行s1011

s1013来实现,
112.s1011、通过图像采集设备,从预设采集位置,对包含至少一个物体对象的场景进行图像采集,得到场景图像。
113.本技术实施例中,定位识别装置可以通过图像采集设备,如摄像头,相机、图像传感器等等,从预设采集位置,对需要进行定位识别的真实场景进行图像采集,得到场景图像。其中,真实场景图像包含至少一个物体对象。
114.s1012、从场景图像中提取出单个物体对象对应的图像部分,作为模板图像。
115.本技术实施例中,定位识别装置可以从场景图像中提取出单个物体对象所对应的图像部分,示例性地,从包含多个棋子图像的棋盘的场景图像中,提取出任意单个棋子的图像,作为模板图像。
116.在一些实施例中,对于如图6所示的棋盘的场景图像,定位识别装置可以从中提取一个棋子的图像,示例性地,提取棋子“士”的图像,作为模板图像,如图7所示。
117.s1013、根据预设共性图像特征,对模板图像进行图像分割,得到匹配模板。
118.本技术实施例中,定位识别装置可以根据至少一个物体对象预设共性图像特征,示例性地,当至少一个物体对象为象棋棋子时,其预设共性图像特征可以是棋子图像上的圆环,对模板图像进行图像分割,得到匹配模板。
119.在一些实施例中,对于如图7所示的模板图像,定位识别装置可以通过颜色分割的方法,对模板图像中进行图像分割,得到“士”字图案与圆环边框图案,定位识别装置根据预设共性图像特征,即圆环,将分割得到的圆环边框图案作为匹配模板,如图8所示。
120.在一些实施例中,定位识别装置对模板图像进行图像分割之后,还可以对分割得到的图像进行手动剔除噪声点等进一步处理,以提高图像清晰度,得到匹配模板。
121.可以理解的是,本技术实施例通过根据至少一个物体对象的预设共性图像特征,对单个物体对象的模板图像进行图像分割,得到匹配模板,使得可以通过包含预设共性图像特征的匹配模板,对场景图像中的至少一个物体对象进行定位,从而提高了定位精度。
122.在一些实施例中,参见图9,图9是本技术实施例提供的定位识别方法的一个可选的流程示意图,基于图4或图5,s102可以通过执行s1021

s1023来实现,将结合各步骤进行说明。
123.s1021、将匹配模板的中心位置与至少一个预设滑动位置一一对齐,得到匹配模板在每个预设滑动位置上对应的待匹配区域。
124.本技术实施例中,定位识别装置通过将匹配模板的中心位置与至少一个预设滑动位置一一对齐,得到匹配模板在每个预设滑动位置对应的待匹配区域。
125.在一些实施例中,至少一个预设滑动位置可以是场景图像中的每个像素点坐标,
定位识别装置可以以预设滑动轨迹,如在场景图像中从左到右,从上到下地滑动匹配模板,将匹配模板的中心位置与场景图像中的每个像素点坐标一一对齐,遍历整个场景图像,得到匹配模板在每个预设滑动位置对应的待匹配区域。如图10所示。
126.在一些实施例中,至少一个预设滑动位置也可以是在场景图像包含的全部像素点中预先指定,如在场景图像中预先指定一个或多个范围内的像素点作为至少一个预设滑动位置,或者,通过预设筛选策略筛选出的至少一个像素坐标点作为至少一个预设滑动位置,以减少定位识别装置在进行模板滑动匹配时的运算量,提高匹配速度。具体的根据实际情况进行选择,本技术实施例不作限定。
127.在一些实施例中,定位识别装置也可以以并行处理的方式,同时将匹配模板的中心位置与至少一个预设滑动位置一一对齐,得到匹配模板在每个预设滑动位置对应的待匹配区域。
128.s1022、计算匹配模板与待匹配区域内的图像部分的匹配度,得到每个预设滑动位置对应的匹配分数。
129.本技术实施例中,定位识别装置在每个滑动位置上,计算匹配模板与待匹配区域内的图像部分的匹配度,得到每个预设滑动位置对应的匹配分数。
130.在一些实施例中,定位识别装置可以通过平方差匹配,相关匹配,标准匹配等匹配度计算方法,对匹配模板与待匹配区域内的图像部分的图像匹配程度进行计算,得到每个预设滑动位置对应的匹配分数。
131.在一些实施例中,当使用相关匹配算法进行匹配度计算时,匹配分数可以是[

1,1]区间内的数值。其中,匹配分数为1表示完美匹配即正相关匹配,匹配分数为

1表示负相关匹配,匹配分数为0表示零相关匹配,即没有任何相关性。
[0132]
可以看出,匹配分数表征了待匹配区域内的图像部分与预设共性图像特征的匹配程度,当待匹配区域内的图像部分与预设共性图像特征的匹配程度相关性较高时,说明待匹配区域内的图像部分为物体对象所对应的图像的可能性也较高。
[0133]
s1023、根据预设匹配策略与匹配分数,从至少一个预设滑动位置中确定出至少一个预测位置信息。
[0134]
本技术实施例中,定位识别装置得到每个预设滑动位置对应的匹配分数时,可以根据预设匹配策略对匹配分数进行筛选,确定出满足预设匹配策略的至少一个目标匹配分数,将至少一个目标匹配分数对应的预设滑动位置作为至少一个预测位置信息,从而从至少一个预设滑动位置中确定出至少一个预测位置信息。
[0135]
本技术实施例中,预设匹配策略可以是根据至少一个物体对象的对象数量,将匹配度从高到低排序的前对象数量个匹配分数对应的预设滑动位置作为至少一个预测位置信息。也可以根据实际情况选择其他的预设匹配策略,具体的根据实际情况进行选择,本技术实施例不作限定。
[0136]
可以理解的是,本技术实施例通过使用匹配模板在场景图像中进行滑动匹配,可以从场景图像中准确定位出至少一个物体对象的位置,提高了物体定位的精度。
[0137]
在一些实施例中,参见图11,图11是本技术实施例提供的定位识别方法的一个可选的流程示意图,基于图4、图5或图9,s103可以通过执行s1031

s1033来实现,将结合各步骤进行说明。
[0138]
s1031、在至少一个预测位置信息上,根据预设区域尺寸,生成至少一个候选区域。
[0139]
本技术实施例中,定位识别装置可以在场景图像中的至少一个预测位置信息上,根据预设区域尺寸,生成至少一个候选区域。
[0140]
在一些实施例中,定位识别装置可以将至少一个预测位置信息中的每个预测位置信息作为中心点,根据预设区域尺寸,生成每个预测位置对应的候选区域,从而得到至少一个候选区域。
[0141]
在一些实施例中,对于象棋棋子定位场景,由于每个象棋棋子的尺寸是固定的,定位识别装置得到至少一个预测位置信息时,可以通过人工智能技术中的目标检测神经网络,将象棋棋子的尺寸作为预设区域尺寸,以每个预测位置信息为中心点,生成至少一个预设区域尺寸大小的候选框,作为至少一个候选区域。
[0142]
s1032、将至少一个候选区域内的图像部分作为至少一个预分类图像,对至少一个预分类图像中的每个预分类图像进行至少一种对象类别的分类预测,得到每个预分类图像对应每种对象类别的预测结果。
[0143]
本技术实施例中,定位识别装置可以将至少一个候选区域内的图像部分作为至少一个预分类图像,通过卷积神经网络对至少一个预分类图像进行分类识别,得到每个预分类图像属于每种对象类别的概率,作为每个预分类图像对应每种对象类别的预测结果。
[0144]
这里,卷积神经网络可以是多目标检测神经网络,用于输出每个预分类图像属于至少一种对象类别的概率。定位识别装置进而可以通过卷积神经网络所输出的每个预分类图像属于至少一种对象类别的概率,预测出每个预分类图像的对象类别,得到至少一个物体对象的识别结果。
[0145]
在一些实施例中,卷积神经网络可以是预先使用至少一个物体对象的样本图像集,经过机器学习方法对初始卷积神经网络模型进行训练得到的多目标分类识别网络模型。示例性地,定位识别装置可以采集每个棋子的图像并对每个棋子的图像对应标注其棋子类别,作为样本图像集;进而使用样本图像集训练得到多目标分类识别网络模型。
[0146]
在一些实施例中,多目标分类检测网络模型可以是只看一次(you only look once,yolo)模型,也可以是其他多目标检测模型,具体的根据实际情况进行性选择,本技术实施例不作限定。
[0147]
s1033、根据每个预分类图像对应每种对象类别的预测结果,得到至少一个物体对象的分类识别结果。
[0148]
本技术实施例中,分类识别装置可以根据每个预分类图像对应每种对象类别的预测结果,预测出每个预分类图像最终所属的对象类别,作为每个预分类图像所对应的物体对象所属的对象类别,从而识别出每个物体对象所属的对象类别,作为至少一个物体对象的分类识别结果。
[0149]
可以理解的是,本技术实施例通过对至少一个预测位置对应的至少一个预分类图像进行分类识别,可以缩小神经网络进行目标检测处理的范围,将其限定在每个预测位置上进行相关预分类图像的预测,减少了背景图像的干扰,从而提高了定位识别的精度。
[0150]
下面,以本技术实施例中的定位识别方法应用在机器人下象棋的定位识别场景为例,将说明本技术实施例的一个示例性应用。
[0151]
本技术实施例中,象棋场景主要包含棋盘和带有圆环的棋子组成。定位识别设备
首先通过悬挂在棋盘正上方的摄像头对象棋场景拍摄一张场景图像,在场景图像上,对单个棋子的棋子图片进行提取,得到棋子图片后,采用颜色分割,手动剔除噪声点的方法,获取到棋子圆环的边框作为匹配模板。
[0152]
本技术实施例中,定位识别设备在机器人每次执行下棋操作之前,通过摄像头采集一张当前场景图像,以获取棋盘上最近的棋子排布。定位识别设备可以采用模板匹配方法,将匹配模板在当前场景图像上从左到右,从上到下进行滑动,在当前场景图像的每个像素点上计算匹配模板与图片局部,即待匹配区域的匹配程度,得到图片上所有圆环位置。当遍历完全图后,即可得到一个匹配分数分布图,示例性地,定位识别设备对如图6所示的象棋场景进行模板匹配,得到的匹配分数分布图可以如图12所示,图12中,越接近白色的圆环说明匹配模板与待匹配区域的匹配程度越高。定位识别设备可以从匹配分数分布图中,根据象棋棋子数量,确定出分数较高的前32个匹配分数,将前32个匹配分数所对应的预设滑动位置作为至少一个预测位置,从而可以在当前场景图像中定位出每个棋子的棋子中心点。
[0153]
本技术实施例中,由于默认棋子尺寸固定,因此候选框尺寸固定,这里可以选用79*79作为预设候选框尺寸,即预设区域尺寸,在每个棋子中心点生成79*79大小的待分类候选框,作为至少一个候选区域,如图13中示出的方框区域。定位识别设备将包含多个待分类候选框的当前场景图像送入以resnet18为主干网络的卷积神经网络,进而通过全连接网络将resnet18主干网络输出的特征张量变换为一维向量,最终将每个待分类候选框中79*79*3维的预分类图像变换为一个1*14维的向量,向量每个维度对应一个象棋类别的置信度。这里,79*79*3维分别对应预分类图像的长、宽与rgb值的维度,1*14维向量中的每个维度对应一种对象类别。当至少一个物体对象为象棋时,1*14维向量对应的维度可以如图14所示,包括:w_chariot,对应白方“车”;w_horse,对应白方“马”;w_elepha,对应白方“象”;w_general,对应白方“将”;w_advisor,对应白方“士”;w_cannon,对应白方“炮”;w_soldier,对应白方“卒”;、r_soldier,对应红方“兵”;r_cannon,对应红方“炮”;r_chariot,对应红方“车”;r_horse,对应红方“马”;r_elepha,对应红方“相”;r_general,对应红方“帅”;r_advisor,对应红方“仕”;r_cannon,对应红方“炮”。对于每个待分类候选框对应的1*14维的向量,定位识别设备选取其中数值最高的维度作为该待分类候选框的对象类别,最终得到对应位置上的象棋类别,如图14所示。由此,定位识别设备实现了对一张棋盘原始的当前场景图像使用模板匹配得到预分类图像,然后使用神经网络得到每个预分类图像的对象类别,最终获取到棋盘图片上所有棋子的状态信息。
[0154]
在一些实施例中,由于下棋过程中棋子的状态是会发生变化的,因此定位识别装置可以每隔预设时间间隔对棋盘进行一次当前场景图像的采集,在最新得到的当前场景图像上应用本技术实施例中的方法。或者,定位识别装置也可以在棋类游戏中每次执子之前,对棋盘进行一次当前场景图像的采集,在最新得到的当前场景图像上应用本技术实施例中的方法。具体的根据实际情况进行选择,本技术实施例不作限定。
[0155]
可以理解的是,本技术实施例提供的中国象棋识别定位方法,可实现象棋的精确定位,从而为机器人下棋提供视觉支持,且无需对棋盘棋子进行改造,常见的带有圆环的象棋就可以满足需求。经过实验,本技术实施例应用于机器人下棋场景时,识别定位精度可达1mm,能够满足机械夹爪抓取的要求。
[0156]
下面继续说明本技术实施例提供的定位识别装置255实施为软件模块的示例性结构,在一些实施例中,如图3所示,存储在存储器250的定位识别装置255中的软件模块可以包括:
[0157]
生成模块2551,用于获取至少一个物体对象在场景图像中对应的预设共性图像特征,生成匹配模板;
[0158]
定位模块2552,用于将所述匹配模板在所述场景图像中进行滑动,根据所述匹配模板与其在所述场景图像中至少一个预设滑动位置上对应图像部分的匹配度,得到所述至少一个物体对象对应的至少一个预测位置信息;
[0159]
识别模块2553,用于在所述场景图像中,对所述至少一个预测位置信息对应的至少一个预分类图像进行目标分类识别,得到所述至少一个物体对象的分类识别结果;所述至少一个物体对象属于至少一种对象类别。
[0160]
在一些实施例中,所述定位模块2551,还用于将所述匹配模板的中心位置与所述至少一个预设滑动位置一一对齐,得到所述匹配模板在每个预设滑动位置上对应的待匹配区域;计算所述匹配模板与所述待匹配区域内的图像部分的匹配度,得到所述每个预设滑动位置对应的匹配分数;根据预设匹配策略与所述匹配分数,从所述至少一个预设滑动位置中确定出所述至少一个预测位置信息。
[0161]
在一些实施例中,所述识别模块2552,还用于在所述至少一个预测位置信息上,根据预设区域尺寸,生成至少一个候选区域;将所述至少一个候选区域内的图像部分作为所述至少一个预分类图像,对所述至少一个预分类图像中的每个预分类图像进行所述至少一种对象类别的分类预测,得到所述每个预分类图像对应每种对象类别的预测结果;根据所述每个预分类图像对应每种对象类别的预测结果,得到所述至少一个物体对象的分类识别结果。
[0162]
在一些实施例中,所述生成模块2553,还用于通过图像采集设备,从预设采集位置,对包含至少一个物体对象的场景进行图像采集,得到所述场景图像;从所述场景图像中提取出单个物体对象对应的图像部分,作为模板图像;根据所述预设共性图像特征,对所述模板图像进行图像分割,得到所述匹配模板。
[0163]
在一些实施例中,所述匹配度计算包括:
[0164]
平方差匹配算法、相关匹配算法、标准匹配算法中的任意一种。
[0165]
在一些实施例中,所述预设共性图像特征包括:
[0166]
轮廓特征、图案特征、颜色特征、纹理特征中的至少一种。
[0167]
需要说明的是,以上装置实施例的描述,与上述方法实施例的描述是类似的,具有同方法实施例相似的有益效果。对于本发明装置实施例中未披露的技术细节,请参照本发明方法实施例的描述而理解。
[0168]
本技术实施例提供一种存储有可执行指令的计算机存储介质,该计算机存储介质为计算机可读存储介质,其中存储有可执行指令,当可执行指令被处理器执行时,将引起处理器执行本技术实施例提供的方法,例如,如图4、5、9\11中示出的方法。
[0169]
在一些实施例中,计算机可读存储介质可以是fram、rom、prom、ep rom、eeprom、闪存、磁表面存储器、光盘、或cd

rom等存储器;也可以是包括上述存储器之一或任意组合的各种设备。
[0170]
在一些实施例中,可执行指令可以采用程序、软件、软件模块、脚本或代码的形式,按任意形式的编程语言(包括编译或解释语言,或者声明性或过程性语言)来编写,并且其可按任意形式部署,包括被部署为独立的程序或者被部署为模块、组件、子例程或者适合在计算环境中使用的其它单元。
[0171]
作为示例,可执行指令可以但不一定对应于文件系统中的文件,可以被存储在保存其它程序或数据的文件的一部分,例如,存储在超文本标记语言(ht ml,hyper text markup language)文档中的一个或多个脚本中,存储在专用于所讨论的程序的单个文件中,或者,存储在多个协同文件(例如,存储一个或多个模块、子程序或代码部分的文件)中。
[0172]
作为示例,可执行指令可被部署为在一个计算设备上执行,或者在位于一个地点的多个计算设备上执行,又或者,在分布在多个地点且通过通信网络互连的多个计算设备上执行。
[0173]
综上所述,通过本技术实施例根据至少一个物体对象的预设共性图像特征生成匹配模板,并通过模板匹配方法来得到至少一个物体对象在场景图像中的至少一个预测位置信息,能够提高物体定位的精度;并且,针对至少一个预测位置信息对应至少一个预分类图像进行目标分类识别,降低了无关信息对物体对象分类识别的干扰,提高了分类识别的准确性。本技术实施例中的定位识别方法不仅可以应用与机器人下棋的场景,对于其他有共性稳定特征的物体定位,如对流水线上的产品进行自动检测识别的场景等等,都有良好的定位识别效果。
[0174]
以上所述,仅为本技术的实施例而已,并非用于限定本技术的保护范围。凡在本技术的精神和范围之内所作的任何修改、等同替换和改进等,均包含在本技术的保护范围之内。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献