一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种显示设备及其目标检测的方法与流程

2023-02-10 17:22:05 来源:中国专利 TAG:


1.本发明涉及目标检测技术领域,特别涉及一种显示设备及其目标检测的方法。


背景技术:

2.人工智能技术经过多年的发展重新被业界开始重视和应用,随着摄像头在智能电视上的普及应用,结合摄像头的人工智能技术已经成为智能电视行业发展的一个新趋势。在现代深度学习算法研究中,骨干网(backbone) 特定任务的检测头(detection head)的模型结构,已经成为一种标准的设计模式。其中,骨干网络用于进行特征提取,不同的检测头用于检测、识别不同尺寸的物体。
3.目前电视厂商对摄像头拍摄的图像进行多目标检测时,需要利用各个检测头遍历图像中的同一个目标,最终获取所有检测头的检测结果,选择每个检测头对同一个目标的检测结果中置信度最高的,但是该方式下各个检测头需要对图像中的同一目标进行遍历检测,目标检测的计算量较大,需要占用大量的存储资源,检测速度较慢。


技术实现要素:

4.本发明提供一种显示设备及其目标检测的方法,用于根据图像中各个目标对象的深度信息确定与各个目标对象分别对应的检测头,利用对应的检测头对图像中各个目标对象提取的特征进行检测,从而更快速地检测出图像中各个目标对象的位置和类别。
5.第一方面,本发明实施例提供的一种显示设备,包括:
6.显示器,用于显示用户界面;
7.控制器,被配置为执行:
8.获取拍摄的包含各个目标对象的至少一帧图像;
9.对所述图像进行特征提取,得到各个所述目标对象的特征集合;
10.根据所述图像中各个所述目标对象的深度信息,确定与各个所述目标对象分别对应的检测头,其中不同的检测头用于检测所述图像中不同尺寸的目标对象;
11.利用各个所述检测头对所述特征集合中的特征进行检测,确定所述图像中各个所述目标对象的位置和类别。
12.本实施例提供的显示设备能够根据图像中各个目标对象的深度信息,为图像中不同尺寸的目标对象选择适合的检测头进行特征检测,从而更快速地检测出目标对象的位置和类别。
13.在一些实施例中,所述控制器具体被配置为执行:
14.根据各个所述目标对象的深度信息,确定各个所述目标对象和所述深度摄像头的距离;
15.根据各个所述目标对象和所述深度摄像头的距离,确定与各个所述目标对象分别对应的检测头。
16.本实施例可以根据深度信息确定的各个目标对象在拍摄场景下和深度摄像头的
距离,从而为不同距离的目标对象选择用于检测不同尺寸的检测头,提高目标检测的速度。
17.在一些实施例中,所述获取拍摄的包含各个所述目标对象的至少一帧图像之后,对所述图像进行特征提取之前,所述控制器还被配置为执行:
18.对所述图像进行裁剪,得到包含各个所述目标对象中的至少一个目标对象的裁剪图像。
19.本实施例在对图像进行特征提取之前,还通过对图像进行剪裁的方式,得到包含待测的目标对象的裁剪图像,从而对裁剪图像进行特征提取,避免了提取多余的非目标对象的特征,提高目标检测的准确率。
20.在一些实施例中,所述得到包含各个所述目标对象中的至少一个目标对象的裁剪图像之后,所述控制器具体被配置为执行:
21.对所述裁剪图像进行特征提取,得到各个所述目标对象的特征集合。
22.本实施例对图像进行裁剪后,能够对裁剪图像进行特征提取,避免了提取多余的非目标对象的特征,从而提高目标检测的准确率。
23.在一些实施例中,若获取拍摄的包含各个目标对象的多帧图像,则所述控制器具体被配置为执行:
24.针对所述多帧图像中除第一帧图像之后的每一帧图像,根据上一帧图像中检测到的各个所述目标对象的位置,确定所述本次帧图像中包含至少一个所述目标对象的裁剪位置;
25.根据所述裁剪位置以及预设尺寸,对所述本次帧图像进行裁剪,得到包含至少一个所述目标对象的裁剪图像。
26.本实施例可以根据上一帧图像中确定的目标对象在图像中的位置,来预测目标对象在本次帧图像中的位置,从而更准确地确定出裁剪位置进行裁剪,得到包含目标对象的裁剪图像。
27.在一些实施例中,所述控制器具体被配置为执行:
28.根据所述图像中包含的各个所述目标对象的深度信息,确定所述图像中包含的各个所述目标对象的裁剪位置和裁剪尺寸;
29.根据所述裁剪位置和所述裁剪尺寸,对所述图像进行裁剪,得到包含至少一个所述目标对象的裁剪图像。
30.本实施例还可以根据图像中各目标对象的深度信息,确定各目标对象的裁剪位置和裁剪尺寸,容易理解的是,目标对象和深度摄像头的距离越近,说明目标对象在所述图像中的尺寸越大,从而对应的裁剪尺寸越大,反之,目标对象和深度摄像头的距离越远,说明目标对象在所述图像中的尺寸越小,从而对应的裁剪尺寸越小。通过目标对象的深度信息,能够准确地裁剪出被测的目标对象的裁剪图像,提高检测的准确率。
31.在一些实施例中,所述控制器具体被配置为执行:
32.确定预设系数与所述目标对象的深度信息的乘积值;
33.将所述图像的原始尺寸与所述乘积值的差值,确定为所述目标对象的裁剪尺寸。
34.本实施例通过目标对象的深度信息,能够准确地裁剪出被测的目标对象的裁剪图像,提高检测的准确率。
35.第二方面,本发明实施例提供的一种目标检测的方法,包括:
36.获取拍摄的包含各个目标对象的至少一帧图像;
37.对所述图像进行特征提取,得到各个所述目标对象的特征集合;
38.根据所述图像中各个所述目标对象的深度信息,确定与各个所述目标对象分别对应的检测头,其中不同的检测头用于检测所述图像中不同尺寸的目标对象;
39.利用各个所述检测头对所述特征集合中的特征进行检测,确定所述图像中各个所述目标对象的位置和类别。
40.在一些实施例中,所述根据所述图像中各个所述目标对象的深度信息,确定与各个所述目标对象分别对应的检测头,包括:
41.根据所述图像中各个所述目标对象的深度信息,确定各个所述目标对象和所述深度摄像头的距离;
42.根据各个所述目标对象和所述深度摄像头的距离,确定与各个所述目标对象分别对应的检测头。
43.在一些实施例中,所述获取拍摄的包含各个目标对象的至少一帧图像之后,对所述图像进行特征提取之前,还包括:
44.对所述图像进行裁剪,得到包含各个所述目标对象中的至少一个目标对象的裁剪图像;
45.在一些实施例中,所述得到包含各个所述目标对象中的至少一个目标对象的裁剪图像之后,对所述图像进行特征提取,得到各个所述目标对象的特征集合,包括:
46.对所述裁剪图像进行特征提取,得到各个所述目标对象的特征集合。
47.在一些实施例中,若获取拍摄的包含各个目标对象的多帧图像,则所述对所述图像进行裁剪,得到包含各个所述目标对象中的至少一个目标对象的裁剪图像,包括:
48.针对所述多帧图像中除第一帧图像之后的每一帧图像,根据上一帧图像中检测到的各个所述目标对象的位置,确定所述本次帧图像中包含至少一个所述目标对象的裁剪位置;
49.根据所述裁剪位置以及预设尺寸,对所述本次帧图像进行裁剪,得到包含至少一个所述目标对象的裁剪图像。
50.在一些实施例中,所述对所述图像进行裁剪,得到包含各个所述目标对象中的至少一个目标对象的裁剪图像,包括:
51.根据所述图像中包含的各个所述目标对象的深度信息,确定所述图像中包含的各个所述目标对象的裁剪位置和裁剪尺寸;
52.根据所述裁剪位置和所述裁剪尺寸,对所述图像进行裁剪,得到包含至少一个所述目标对象的裁剪图像。
53.在一些实施例中,所述根据所述图像中包含的各个所述目标对象的深度信息,确定所述图像中包含的各个所述目标对象的裁剪尺寸,包括:
54.确定预设系数与所述目标对象的深度信息的乘积值;
55.将所述图像的原始尺寸与所述乘积值的差值,确定为所述目标对象的裁剪尺寸。
56.第三方面,本发明实施例还提供一种目标检测的装置,包括:
57.获取单元,用于获取拍摄的包含各个目标对象的至少一帧图像;
58.提取单元,用于对所述图像进行特征提取,得到各个所述目标对象的特征集合;
59.确定单元,用于根据所述图像中各个所述目标对象的深度信息,确定与各个所述目标对象分别对应的检测头,其中不同的检测头用于检测所述图像中不同尺寸的目标对象;
60.检测单元,用于利用各个所述检测头对所述特征集合中的特征进行检测,确定所述图像中各个所述目标对象的位置和类别。
61.第四方面,本发明实施例还提供计算机存储介质,其上存储有计算机程序,该程序被处理器执行时用于实现上述第一方面所述方法的步骤。
62.本技术的这些方面或其他方面在以下的实施例的描述中会更加简明易懂。
附图说明
63.为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简要介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
64.图1为本发明实施例提供的一种显示设备与控制装置之间操作场景的示意图;
65.图2为本发明实施例提供的一种控制装置100的配置框图;
66.图3为本发明实施例提供的一种显示设备200的硬件配置框图;
67.图4为本发明实施例提供的一种显示设备200中软件配置示意图;
68.图5为本发明实施例提供的一种显示设备200中应用程序的图标控件界面显示示意图;
69.图6为本发明实施例提供的一种显示设备的示意图;
70.图7a为本发明实施例提供的第一种裁剪示意图;
71.图7b为本发明实施例提供的第二种裁剪示意图;
72.图7c为本发明实施例提供的第三种裁剪示意图;
73.图7d为本发明实施例提供的第四种裁剪示意图;
74.图7e为本发明实施例提供的第五种裁剪示意图;
75.图7f为本发明实施例提供的第六种裁剪示意图;
76.图7g为本发明实施例提供的第七种裁剪示意图;
77.图8a为本发明实施例提供的第一种位置关系示意图;
78.图8b为本发明实施例提供的第二种位置关系示意图;
79.图8c为本发明实施例提供的第三种位置关系示意图;
80.图9为本发明实施例提供的一种显示设备进行目标检测的场景示意图;
81.图10为本发明实施例提供的一种详细的目标检测的方法流程图;
82.图11为本发明实施例提供的一种目标检测的方法实施流程图;
83.图12为本发明实施例提供的一种目标检测的设备示意图;
84.图13为本发明实施例提供的一种目标检测的装置示意图。
具体实施方式
85.为了使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作进
一步地详细描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
86.本发明实施例中术语“和/或”,描述关联对象的关联关系,表示可以存在三种关系,例如,a和/或b,可以表示:单独存在a,同时存在a和b,单独存在b这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。
87.本发明实施例描述的应用场景是为了更加清楚的说明本发明实施例的技术方案,并不构成对于本发明实施例提供的技术方案的限定,本领域普通技术人员可知,随着新应用场景的出现,本发明实施例提供的技术方案对于类似的技术问题,同样适用。其中,在本发明的描述中,除非另有说明,“多个”的含义是两个或两个以上。
88.人工智能技术经过多年的发展重新被业界开始重视和应用,随着摄像头在显示设备上的普及应用,结合摄像头的人工智能技术已经成为显示设备行业发展的一个新趋势。在现代深度学习算法研究中,骨干网(backbone) 特定任务的检测头(detection head)的模型结构,已经成为一种标准的设计模式。其中,骨干网络用于进行特征提取,本实施例中利用骨干网络提取拍摄的图像中各个目标对象的特征,不同的检测头用于检测、识别不同尺寸的物体。
89.需要说明的是,本实施例中的骨干网络具体是指深度学习模型中进行特征提取的卷积层结构,包括但不限于mobilenet、resnet等,主要用于对输入的图像进行特征提取。本实施例中的检测头具体是指深度学习模型中用于进行分类检测的卷积层,主要包括不同大小的卷积层、不同大小的深度可分离卷积层等,检测头中各个卷积层、深度可分离卷积层的结构连接关系可根据具体检测的目标对象而进行具体设计,本实施例对此不作过多限定。检测头主要用于从提取的特征中,检测出各个目标对象的位置和类别。检测头可理解为对图像进行遍历检测的检测框(anchor box),检测头检测得到的检测结果可理解为最终从各个检测框中确定的置信度最高的检测框,并根据该检测框的位置以及该检测框标注的类别,确定该检测框包含的目标对象的位置和类别。
90.目前电视厂商对摄像头拍摄的图像进行多目标检测时,需要利用每个检测头遍历图像中的各个目标,最终获取所有检测头的检测结果,获取检测结果中置信度最高的,若需要从图像中检测出的目标为汽车和行人,且同时使用多种不同的检测头(检测框)进行目标检测,则在具体检测时将图像平均划分成3
×
3个图像块,对于每一个图像块,都使用多种检测头进行检测,每个图像块都会输出多种检测头进行检测得到的多个检测框,抛弃概率值低的检测框,对每个目标分别使用nms算法得到最终的预测框,根据该预测框确定目标的位置和类别。
91.容易理解的是,目前进行目标检测的方式,每个检测头需要对图像中的各个目标进行检测,目标检测的计算量较大,需要占用大量的存储资源,检测速度较慢。为了解决目前检测速度较慢的问题,本实施例的核心思想是:利用深度摄像头拍摄的图像中包含的各个目标对象的深度信息,为各个目标对象选择最适合的检测头,利用不同的检测头对图像中不同尺寸的目标对象进行检测,从而更加快速地、更具针对性地检测出各个目标对象在所述图像中的位置和类别,有效提高了检测速度。
92.图1为根据本技术一个或多个实施例的显示设备与控制装置之间操作场景的示意
图,如图1所示,用户可通过移动终端300和控制装置100操作显示设备200。控制装置100可以是遥控器,遥控器和显示设备的通信包括红外协议通信、蓝牙协议通信,无线或其他有线方式来控制显示设备200。用户可以通过遥控器上按键,语音输入、控制面板输入等输入用户指令,来控制显示设备200。在一些实施例中,也可以使用移动终端、平板电脑、计算机、笔记本电脑、和其他智能设备以控制显示设备200。
93.在一些实施例中,移动终端300可与显示设备200安装软件应用,通过网络通信协议实现连接通信,实现一对一控制操作的和数据通信的目的。也可以将移动终端300上显示音视频内容传输到显示设备200上,实现同步显示功能显示设备200还与服务器400通过多种通信方式进行数据通信。可允许显示设备200通过局域网(lan)、无线局域网(wlan)和其他网络进行通信连接。服务器400可以向显示设备200提供各种内容和互动。显示设备200,可以液晶显示器、oled显示器、投影显示设备。显示设备200除了提供广播接收电视功能之外,还可以附加提供计算机支持功能的智能网络电视功能。
94.图2示例性示出了根据示例性实施例中控制装置100的配置框图。如图2所示,控制装置100包括控制器110、通信接口130、用户输入/输出接口140、存储器、供电电源。控制装置100可接收用户的输入操作指令,且将操作指令转换为显示设备200可识别和响应的指令,起用用户与显示设备200之间交互中介作用。通信接口130用于和外部通信,包含wifi芯片,蓝牙模块,nfc或可替代模块中的至少一种。用户输入/输出接口140包含麦克风,触摸板,传感器,按键或可替代模块中的至少一种。
95.图3示出了根据示例性实施例中显示设备200的硬件配置框图。如图3所示显示设备200包括调谐解调器210、通信器220、检测器230、外部装置接口240、控制器250、显示器260、音频输出接口270、存储器、供电电源、用户接口280中的至少一种。控制器包括中央处理器,视频处理器,音频处理器,图形处理器,ram,rom,用于输入/输出的第一接口至第n接口。显示器260可为液晶显示器、oled显示器、触控显示器以及投影显示器中的至少一种,还可以为一种投影装置和投影屏幕。调谐解调器210通过有线或无线接收方式接收广播电视信号,以及从多个无线或有线广播电视信号中解调出音视频信号,如以及epg数据信号。检测器230用于采集外部环境或与外部交互的信号。控制器250和调谐解调器210可以位于不同的分体设备中,即调谐解调器210也可在控制器250所在的主体设备的外置设备中,如外置机顶盒等。
96.在一些实施例中,控制器250,通过存储在存储器上中各种软件控制程序,来控制显示设备的工作和响应用户的操作。控制器250控制显示设备200的整体操作。用户可在显示器260上显示的图形用户界面(gui)输入用户命令,则用户输入接口通过图形用户界面(gui)接收用户输入命令。或者,用户可通过输入特定的声音或手势进行输入用户命令,则用户输入接口通过传感器识别出声音或手势,来接收用户输入命令。
97.在一些实施例中,“用户界面”,是应用程序或操作系统与用户之间进行交互和信息交换的介质接口,它实现信息的内部形式与用户可以接受形式之间的转换。用户界面常用的表现形式是图形用户界面(graphic user interface,gui),是指采用图形方式显示的与计算机操作相关的用户界面。它可以是在电子设备的显示屏中显示的一个图标、窗口、控件等界面元素,其中控件可以包括图标、按钮、菜单、选项卡、文本框、对话框、状态栏、导航栏、widget等可视的界面元素中的至少一种。
98.图4为根据本技术一个或多个实施例的显示设备200中软件配置示意图,如图4所示,将系统分为四层,从上至下分别为应用程序(applications)层(简称“应用层”),应用程序框架(application framework)层(简称“框架层”),安卓运行时(android runtime)和系统库层(简称“系统运行库层”),以及内核层。内核层至少包含以下驱动中的至少一种:音频驱动、显示驱动、蓝牙驱动、摄像头驱动、wifi驱动、usb驱动、hdmi驱动、传感器驱动(如指纹传感器,温度传感器,压力传感器等)、以及电源驱动等。
99.图5为根据本技术一个或多个实施例的显示设备200中应用程序的图标控件界面显示示意图,如图5中所示,应用程序层包含至少一个应用程序可以在显示器中显示对应的图标控件,如:直播电视应用程序图标控件、视频点播应用程序图标控件、媒体中心应用程序图标控件、应用程序中心图标控件、游戏应用图标控件等。直播电视应用程序,可以通过不同的信号源提供直播电视。视频点播应用程序,可以提供来自不同存储源的视频。不同于直播电视应用程序,视频点播提供来自某些存储源的视频显示。媒体中心应用程序,可以提供各种多媒体内容播放的应用程序。应用程序中心,可以提供储存各种应用程序。
100.如图6所示,本实施例提供的一种显示设备,包括:
101.显示器600,用于显示用户界面;
102.控制器601,被配置为执行:
103.获取拍摄的包含各个所述目标对象的至少一帧图像;对所述图像进行特征提取,得到各个所述目标对象的特征集合;根据各个所述目标对象的深度信息,确定与各个所述目标对象分别对应的检测头,其中不同的检测头用于检测所述图像中不同尺寸的目标对象;利用各个所述检测头对所述特征集合中的特征进行检测,确定所述图像中各个所述目标对象的位置和类别。
104.需要说明的是,本实施例中的显示设备利用深度摄像头拍摄的图像以及图像中各个目标对象的深度信息,对图像进行特征提取后,利用与每个目标对象匹配的检测头对提取后的特征进行检测,从而有针对性地,准确快速地检测出对应目标对象的位置和类别。其中目标对象的位置包括目标对象在图像中的尺寸大小。
105.在一些示例中,本实施例中涉及到的显示设备包括但不限于智能电视、智能平板、超大led屏、拼接屏等。目前显示设备大多具备高分辨率,对高分辨率的图像进行多目标检测时,由于并不知道各个目标的尺寸,因此需要利用各个检测头对同一个目标对象进行检测,使得目标检测的代价极大,不适用于高分辨率的显示设备的目标检测。而本技术中利用深度摄像头得到的各个目标对象的深度信息来筛选出与每个目标对象对应的检测头,由于不同的深度信息能够表示目标对象在实际场景中与深度摄像头之间的距离,而距离越近说明拍摄出的图像在显示设备的显示屏的占比越大,而由于占比越大导致分辨率越低,不同的分辨率所适用的检测头是不同的,也就是说,不同尺寸的目标对象所适用的检测头是不同的,在获取图像中目标对象的深度信息后,根据各个目标对象在图像中的尺寸(在屏幕中所占的比例),因此,本实施可以基于该特点利用不同检测头来分别对目标对象进行检测,无需各个检测头对同一个目标对象都进行检测,从而利用不同的检测头,检测不同的目标对象,提高目标检测的速度,能够更好的应用于显示设备,提高显示设备进行目标检测的检测速度。
106.需要说明的是,本实施例如果针对一个目标对象进行目标检测,由于根据图像中
该目标对象的深度信息,为该目标对象选择一个对应的检测头,因此在进行目标检测时,并不需要利用不同的检测头对该目标对象进行检测,而只需要利用一个对应的检测头进行检测,并且由于该检测头是根据目标对象的深度信息确定的,因此该检测头的选取是适用于该目标对象的合适的检测头,仅利用一个检测头就能实现对该目标对象准确的检测,有效提高了目标检测的效率。如果针对多个目标对象进行目标检测,基于相同的原理,只需要利用与每个目标对象分别对应的检测头进行检测,便能够准确地检测出各个目标。
107.在一些示例中,本实施例中的显示设备可内置深度摄像头,集成在显示设备上,还可以外接深度摄像头,本实施例对此不作过多限定,本实施例涉及的深度摄像头,能够拍摄包含各个目标对象的图像,并且能够获取图像中包含的各个目标对象的深度信息;
108.本实施例中的深度摄像头和普通摄像头的区别是,除了能够获取平面的图像以外还可以获得拍摄的目标对象的深度信息,也就是目标对象在图像中的三维的位置和尺寸信息,即深度信息包括但不限于三维位置和三维尺寸,从而使得控制器能够获取拍摄的图像中各个目标对象所处的环境情况和目标对象的三维立体数据(三维位置和三维尺寸),通过目标对象的三维位置确定目标对象在实际拍摄环境下与深度摄像头的距离,从而为图像中的各个目标对象选择匹配的检测头进行检测。
109.本实施例中的深度摄像头使用的技术包括但不限于如下任一种:
110.1)飞行时间(time of flight,tof)技术;
111.tof原理,是利用深度摄像头的传感器发出经调制的近红外光,遇目标对象后反射,通过计算光线发射和反射的时间差,或计算光线发射和反射的相位差,确定被拍摄的目标对象和深度摄像头的距离。
112.2)结构光(structured light)技术;
113.结构光技术,是将编码的光栅或线光源等投射到被测目标对象上,根据光栅或线光源产生的畸变来解调出被测目标对象的三维立体数据。
114.3)双目视觉技术;
115.双目视觉技术,是使用两个普通摄像头,通过视差的方式计算被测目标对象和深度摄像头的距离。
116.本实施例中通过使用不同的深度摄像头获取不同的深度信息,但不论获取的是哪种深度信息,都可以根据获取的深度信息确定出被测目标对象和深度摄像头的距离。
117.本实施例可以连续拍摄多帧包含至少一个目标对象的图像,利用对应的检测头对该目标对象进行检测,得到该目标对象的位置和类别,还可以拍摄一帧包含至少一个目标对象的图像,利用对应的检测头对该目标对象进行检测,得到该目标对象的位置和类别。本实施例可以同时对图像中的多个目标对象进行检测,并利用与各个目标对象分别对应的检测头进行目标检测,提高目标检测的速度,也可以对图像中的一个目标对象进行检测,利用与该目标对象对应的检测头进行目标检测,本实施例对此不作过多限定。
118.在一些实施例中,本实施例能够根据目标对象的深度信息确定对应的检测头,具体实施步骤如下:
119.步骤1)根据各个所述目标对象的深度信息,确定各个所述目标对象和所述深度摄像头的距离;
120.实施中,若深度信息包括三维位置和三维尺寸,则根据各个目标对象的三维位置
和三维尺寸,确定各个目标对象和深度摄像头的距离;或者根据深度信息中的距离信息,直接确定各个目标对象和深度摄像头的距离。具体根据深度信息确定距离的方式,通过深度摄像头使用的技术确定,本实施例对此不作过多限定。
121.步骤2)根据各个所述目标对象和所述深度摄像头的距离,确定与各个所述目标对象分别对应的检测头。
122.本实施例中不同的检测头用于检测所述图像中不同尺寸的目标对象,其中根据距离确定检测头的设计思想是,为和深度摄像头的距离较小的目标对象选择用于检测尺寸较大的目标对象,为和深度摄像头的距离较大的目标对象选择用于检测尺寸较小的目标对象。随着目标对象和深度摄像头的距离变小,对应的检测头用于检测的目标对象的尺寸变大。容易理解的是,若目标对象和深度摄像头的距离较小,则说明目标对象在实际拍摄场景中距深度摄像头较近,显然拍摄的目标对象在图像中的尺寸比距离大的目标对象大,反之,若目标对象和深度摄像头的距离较大,则说明目标对象在实际拍摄场景中距深度摄像头较远,显然拍摄的目标对象在图像中的尺寸比距离小的目标对象小。而对于同一帧图像而言,在图像中目标对象的尺寸大小不同,分辨率不同,若目标对象的尺寸较大,则分辨率较小,通过用于检测较大尺寸的检测头进行检测,若目标对象的尺寸较小,则分辨率较大,通过用于检测较小尺寸的检测头进行检测,本实施例通过为不同尺寸的目标对象设置不同的检测头进行检测,从而避免了利用所有的检测头对图像进行遍历,提高了检测速度。
123.在一些实施例中,为了提高检测的准确度,本实施例还提供一种裁剪图像的方法,用于在对图像进行特征提取之前,裁剪为包含被测的目标对象的图像,从而避免对背景等不必要的图像信息进行特征提取,从而尽可能的准确地提取关于被测的目标对象的特征,对目标对象进行检测,从而提高检测的准确度。
124.在一些实施例中,所述获取拍摄的包含各个所述目标对象的至少一帧图像之后,对所述图像进行特征提取之前,所述处理器还被配置为执行:
125.对所述图像进行裁剪,得到包含各个所述目标对象中的至少一个目标对象的裁剪图像。
126.实施中,以获取被测目标对象为原则,对图像进行裁剪,得到包含被测目标对象的裁剪图像。其中被测目标对象可以是一个或多个,对此本实施例不作过多限定。需要说明的是,如果被测目标对象包括多个,则确定出各个被测的目标对象在图像中的位置后,以包含所有的被测目标对象为裁剪原则,根据各个被测的目标对象的位置,对图像进行裁剪。
127.在一些实施例中,结合上述裁剪方法,本实施例还提供一种提高检测速度和准确度的目标检测方法,该方法实施的核心思想是:在对获取的包含各个目标对象的图像进行特征提取之后,对该图像进行裁剪以得到包含被测目标对象的图像,裁剪掉其他的非被测目标对象的以及无关的背景特征,从而在进行特征提取时,能够更多的获取到被测目标对象的特征信息,而去除非被测目标对象的干扰的特征,从而在后续对提取的特征进行分类检测的过程中,能够更加精准地识别检测出被测目标对象。
128.在具体实施中,本实施例在获取拍摄的包含各个所述目标对象的至少一帧图像之后,对各帧图像都进行裁剪,裁剪的目的是为了得到包含各个所述目标对象中的至少一个目标对象的裁剪图像,其中该至少一个目标对象可理解为用户感兴趣的被测目标对象。裁剪后,通过对裁剪图像进行特征提取,从而得到裁剪图像中各个所述目标对象的特征集合;
根据裁剪图像中各个所述目标对象的深度信息,确定与各个所述目标对象分别对应的检测头,其中,不同的检测头用于检测裁剪图像中不同尺寸的目标对象;从而利用各个检测头对特征集合中的各个特征进行针对性的检测,确定裁剪图像中各个所述目标对象的位置和类别。
129.在一些实施例中,本实施例提供如下任一种裁剪方法,具体包括:
130.方法1)利用上一帧图像中检测到的目标对象的位置,确定裁剪图像。
131.若获取拍摄的包含各个目标对象的多帧图像,则针对所述多帧图像中除第一帧图像之后的每一帧图像,通过如下方式进行裁剪确定裁剪图像:
132.1-1、根据上一帧图像中检测到的各个所述目标对象的位置,确定所述本次帧图像中包含至少一个所述目标对象的裁剪位置;
133.1-2、根据所述裁剪位置以及预设尺寸,对所述本次帧图像进行裁剪,得到包含至少一个所述目标对象的裁剪图像。
134.需要说明的是,该方法下,第一帧图像不进行裁剪,只对后续帧图像进行裁剪。如果被测目标对象为一个,则根据该被测目标对象的裁剪位置,以及预设尺寸,对本次帧图像进行裁剪,得到包含该被测目标对象的裁剪图像;如果被测目标对象为多个,则根据各个被测目标对象的裁剪位置,以及预设尺寸,其中预设尺寸能够保证包含各个被测目标对象,对本次帧图像进行裁剪,得到包含各个被测目标对象的裁剪图像。在该裁剪方式下,本实施例预先设定了裁剪的尺寸和形状,目标对象的裁剪位置用于表示该目标对象在图像中所形成的区域的中心坐标,根据预先设定的预设尺寸(裁剪尺寸),以上一帧图像中目标对象的裁剪位置为中心,按照该预设尺寸对本帧图像进行裁剪。
135.如图7a所示,如果上一帧图像中检测的目标对象的位置为左上角,则将该目标对象的裁剪位置(中心坐标)作为区域中心,按照预设区域的尺寸,将图像裁剪为以该区域中心为中心且区域大小为预设尺寸的区域1,从而利用裁剪得到的区域1的裁剪图像进行特征提取,对区域1中的目标对象进行目标检测;由于只提取区域1的特征,去除剩余区域中的特征,因此在后续对特征进行检测的过程中,能够更加准确地进行目标检测。
136.如图7b所示,如果上一帧图像中检测的目标对象的位置为右上角,则将该目标对象的裁剪位置(中心坐标)作为区域中心,按照预设区域的尺寸,将图像裁剪为以该区域中心为中心且区域大小为预设尺寸的区域2,从而利用裁剪得到的区域2的裁剪图像进行特征提取,对区域2中的目标对象进行目标检测;由于只提取区域2的特征,去除剩余区域中的特征,因此在后续对特征进行检测的过程中,能够更加准确地进行目标检测。
137.如图7c所示,如果上一帧图像中检测的目标对象的位置为下侧,则将该目标对象的裁剪位置(中心坐标)作为区域中心,按照预设区域的尺寸,将图像裁剪为以该区域中心为中心且区域大小为预设尺寸的区域3;从而利用裁剪得到的区域3的裁剪图像进行特征提取,对区域3中的目标对象进行目标检测;由于只提取区域3的特征,去除剩余区域中的特征,因此在后续对特征进行检测的过程中,能够更加准确地进行目标检测。
138.如图7d所示,如果上一帧图像中检测的目标对象的位置为上侧,则将该目标对象的裁剪位置(中心坐标)作为区域中心,按照预设区域的尺寸,将图像裁剪为以该区域中心为中心且区域大小为预设尺寸的区域4;从而利用裁剪得到的区域4的裁剪图像进行特征提取,对区域4中的目标对象进行目标检测;由于只提取区域4的特征,去除剩余区域中的特
征,因此在后续对特征进行检测的过程中,能够更加准确地进行目标检测。
139.如图7e所示,如果上一帧图像中检测的目标对象的位置为左下角,则将该目标对象的裁剪位置(中心坐标)作为区域中心,按照预设区域的尺寸,将图像裁剪为以该区域中心为中心且区域大小为预设尺寸的区域5;从而利用裁剪得到的区域5的裁剪图像进行特征提取,对区域5中的目标对象进行目标检测;由于只提取区域5的特征,去除剩余区域中的特征,因此在后续对特征进行检测的过程中,能够更加准确地进行目标检测。
140.如图7f所示,如果上一帧图像中检测的目标对象的位置为右下角,则将该目标对象的裁剪位置(中心坐标)作为区域中心,按照预设区域的尺寸,将图像裁剪为以该区域中心为中心且区域大小为预设尺寸的区域6;从而利用裁剪得到的区域4的裁剪图像进行特征提取,对区域4中的目标对象进行目标检测;由于只提取区域4的特征,去除剩余区域中的特征,因此在后续对特征进行检测的过程中,能够更加准确地进行目标检测。
141.如图7g所示,如果上一帧图像中检测的目标对象的位置为中部,则将该目标对象的裁剪位置(中心坐标)作为区域中心,按照预设区域的尺寸,将图像裁剪为以该区域中心为中心且区域大小为预设尺寸的区域7;从而利用裁剪得到的区域4的裁剪图像进行特征提取,对区域4中的目标对象进行目标检测;由于只提取区域4的特征,去除剩余区域中的特征,因此在后续对特征进行检测的过程中,能够更加准确地进行目标检测。
142.方法2)利用深度信息确定裁剪图像。
143.需要说明的是,该方法可针对包含各个目标对象的每一帧图像,通过深度信息确定各个目标对象的位置和尺寸,从而通过如下步骤确定裁剪图像:
144.2-1、根据所述图像中包含的各个所述目标对象的深度信息,确定所述图像中包含的各个所述目标对象的裁剪位置和裁剪尺寸;
145.实施中,各个目标对象的深度信息包括但不限于各个目标对象在图像中的三维位置和三维尺寸,根据各个目标对象的三维位置确定各个目标对象的裁剪位置,根据各个目标对象的三维尺寸确定各个目标对象的裁剪尺寸。
146.在一些实施例中,还可以通过如下方式确定裁剪尺寸:
147.确定预设系数lamda与所述目标对象的深度信息distance的乘积值;
148.将所述图像的原始尺寸与所述乘积值的差值,确定为所述目标对象的裁剪尺寸;其中,可通过如下公式(1)确定裁剪尺寸:
149.objectwidth=cropwidth-lamda*distance
ꢀꢀꢀ
公式(1);
150.其中,lamda表示预设系数,lamda大于零;objectwidth表示目标对象的裁剪尺寸,cropwidth表示图像的原始尺寸,distance用于表示深度信息。
151.2-2、根据所述裁剪位置和所述裁剪尺寸,对所述图像进行裁剪,得到包含至少一个所述目标对象的裁剪图像。
152.实施中,根据被测的目标对象的裁剪位置和裁剪尺寸,对所述图像进行裁剪,确定包含被测的目标对象的裁剪图像。其中被测的目标对象可以是一个或多个,此处不作过多限定。
153.在一些实施例中,本实施例以目标对象为人体和所述人体的手部为目标对象,提供一种进行人体和手势检测的方法,该方法的实施的核心思想是,利用深度摄像头拍摄包含人体和该人体的手部的至少一帧图像,并对获取的图像进行裁剪,以得到只包含人体和
该人体的手部的裁剪图像,以去掉非人体和手部的特征信息,从而提取图像中人体和手部的特征,得到人体和手部的特征集合;并且可以根据裁剪图像中人体和手部的深度信息,确定与人体和手部分别对应的检测头;从而利用与人体对于的检测头检测特征集合中与人体相关的特征,确定图像中人体的位置,以及利用与手部对应的检测头检测特征集合中与手部相关的特征,确定图像中手部的位置,从而能够有效地提高检测速度。
154.需要说明的是,拍摄的人体和手部、以及深度摄像头实际的位置关系包括但不限于如下任一种:
155.第1种、如图8a所示,此时手部和深度摄像头的距离比人体和深度摄像头的距离近,则根据和深度摄像头不同距离的手部和人体,分别确定对应的检测头,并且手部的检测头相比人体的检测头而言,用于检测目标对象的尺寸更大,从而利用不同的检测头,更快速地检测出手部和人体。
156.第2种、如图8b所示,此时手部和深度摄像头的距离相比人体和深度摄像头的距离接近,此时认为手部和人体对于深度摄像头来说处于同一平面,则根据人体到深度摄像头的距离确定人体的检测头,使用人体的检测头对手部进行检测,即对人体和手部使用相同的检测头进行检测。
157.第3种、如图8c所示,此时手部和深度摄像头的距离比人体和深度摄像头的距离远,则根据和深度摄像头不同距离的手部和人体,分别确定对应的检测头,并且手部的检测头相比人体的检测头而言,用于检测目标对象的尺寸更小,从而利用不同的检测头,更快速地检测出手部和人体。
158.在一些实施例中,如图9所示,本实施例提供一种显示设备进行目标检测的场景示意图,包括显示设备900、深度摄像头901,其中:
159.深度摄像头设置于该显示设备的中间,拍摄范围为以该深度摄像头为起始点,60
°
的夹角范围内。在该场景下,由于人体是活动的,而基于人体到显示设备的距离的不同,人体以及人体的手势在显示设备中所呈现的分辨率也是不相同的。例如,当人体距离显示设备为1米时,深度摄像头所能拍摄到的范围是1.15米,当人体距离显示设备为2米时,深度摄像头所能拍摄到的范围是2.31米,当人体距离显示设备为3米时,深度摄像头所能拍摄到的范围是3.47米,当人体距离显示设备为3.5米时,深度摄像头所能拍摄到的范围是4.04米,以此类推。该场景下一般针对家庭成员进行目标检测,包括家庭成员以及家庭成员的手势,而基于活动的人体和显示设备的距离的变化,进行人体和手势的检测所对应的合适的检测头是不相同的,例如只对人体进行检测时,当人体和深度摄像头的距离为1米,说明人体在屏幕上占的比例比较大,所以可以只选择适用于低分辨率的检测头进行检测;当人体和深度摄像头的距离为3米,说明人体在屏幕上占的比例比较小,所以可以只选择适用于高分辨率的检测头进行检测。而对于进行多目标检测时,同样只利用与各个目标对象分别对应的检测头进行检测,从而有效提高了检测速度。
160.在一些实施例中,如图10所示,本实施例提供一种详细的目标检测的方法流程,具体如下所示:
161.步骤1000、获取拍摄的包含各个所述目标对象的至少一帧图像;
162.步骤1001、根据所述图像中包含的各个所述目标对象的深度信息,确定所述图像中包含的各个所述目标对象的裁剪位置和裁剪尺寸;
163.步骤1002、根据所述裁剪位置和所述裁剪尺寸,对所述图像进行裁剪,得到包含至少一个所述目标对象的裁剪图像;
164.步骤1003、对所述裁剪图像进行特征提取,得到至少一个目标对象的特征集合;
165.步骤1004、根据至少一个目标对象的深度信息,确定至少一个目标对象和所述深度摄像头的距离;
166.步骤1005、根据至少一个目标对象和所述深度摄像头的距离,确定与至少一个目标对象对应的检测头;
167.步骤1006、利用各个所述检测头对所述特征集合中的特征进行检测,确定所述图像中各个所述目标对象的位置和类别。
168.基于相同的发明构思,本发明实施例还提供了一种目标检测的方法,由于该方法即是本发明实施例中的显示设备使用的方法,并且该方法解决问题的原理与该显示设备相似,因此该方法的实施可以参见显示设备的实施,重复之处不再赘述。
169.如图11所示,该方法的实施流程如下所示:
170.步骤1100、获取拍摄的包含各个目标对象的至少一帧图像;
171.步骤1101、对所述图像进行特征提取,得到各个所述目标对象的特征集合;
172.步骤1102、根据图像中各个目标对象的深度信息,确定与各个目标对象分别对应的检测头,其中不同的检测头用于检测图像中不同尺寸的目标对象;
173.步骤1103、利用各个所述检测头对所述特征集合中的特征进行检测,确定所述图像中各个所述目标对象的位置和类别。
174.在一些实施例中,所述根据所述图像中各个所述目标对象的深度信息,确定与各个所述目标对象分别对应的检测头,包括:
175.根据所述图像中各个所述目标对象的深度信息,确定各个所述目标对象和所述深度摄像头的距离;
176.根据各个所述目标对象和所述深度摄像头的距离,确定与各个所述目标对象分别对应的检测头。
177.在一些实施例中,所述获取拍摄的包含各个目标对象的至少一帧图像之后,对所述图像进行特征提取之前,还包括:
178.对所述图像进行裁剪,得到包含各个所述目标对象中的至少一个目标对象的裁剪图像;
179.在一些实施例中,所述得到包含各个所述目标对象中的至少一个目标对象的裁剪图像之后,对所述图像进行特征提取,得到各个所述目标对象的特征集合,包括:
180.对所述裁剪图像进行特征提取,得到各个所述目标对象的特征集合。
181.在一些实施例中,若获取拍摄的包含各个目标对象的多帧图像,则所述对所述图像进行裁剪,得到包含各个所述目标对象中的至少一个目标对象的裁剪图像,包括:
182.针对所述多帧图像中除第一帧图像之后的每一帧图像,根据上一帧图像中检测到的各个所述目标对象的位置,确定所述本次帧图像中包含至少一个所述目标对象的裁剪位置;
183.根据所述裁剪位置以及预设尺寸,对所述本次帧图像进行裁剪,得到包含至少一个所述目标对象的裁剪图像。
184.在一些实施例中,所述对所述图像进行裁剪,得到包含各个所述目标对象中的至少一个目标对象的裁剪图像,包括:
185.根据所述图像中包含的各个所述目标对象的深度信息,确定所述图像中包含的各个所述目标对象的裁剪位置和裁剪尺寸;
186.根据所述裁剪位置和所述裁剪尺寸,对所述图像进行裁剪,得到包含至少一个所述目标对象的裁剪图像。
187.在一些实施例中,所述根据所述图像中包含的各个所述目标对象的深度信息,确定所述图像中包含的各个所述目标对象的裁剪尺寸,包括:
188.确定预设系数与所述目标对象的深度信息的乘积值;
189.将所述图像的原始尺寸与所述乘积值的差值,确定为所述目标对象的裁剪尺寸。
190.基于相同的发明构思,本发明实施例还提供了一种目标检测的设备,由于该设备即是本发明实施例中的方法中的设备,并且该设备解决问题的原理与该方法相似,因此该设备的实施可以参见方法的实施,重复之处不再赘述。
191.如图12所示,该设备包括处理器1200和存储器1201,所述存储器1201用于存储所述处理器1200可执行的程序,所述处理器1200用于读取所述存储器1201中的程序并执行如下步骤:
192.获取拍摄的包含各个所述目标对象的至少一帧图像;
193.对所述图像进行特征提取,得到各个所述目标对象的特征集合;
194.根据所述图像中各个所述目标对象的深度信息,确定与各个所述目标对象分别对应的检测头,其中不同的检测头用于检测所述图像中不同尺寸的目标对象;
195.利用各个所述检测头对所述特征集合中的特征进行检测,确定所述图像中各个所述目标对象的位置和类别。
196.在一些实施例中,所述处理器1200具体被配置为执行:
197.根据所述图像中各个所述目标对象的深度信息,确定各个所述目标对象和所述深度摄像头的距离;
198.根据各个所述目标对象和所述深度摄像头的距离,确定与各个所述目标对象分别对应的检测头。
199.在一些实施例中,所述获取拍摄的包含各个所述目标对象的至少一帧图像之后,对所述图像进行特征提取之前,所述处理器1200还被配置为执行:
200.对所述图像进行裁剪,得到包含各个所述目标对象中的至少一个目标对象的裁剪图像。
201.在一些实施例中,所述得到包含各个所述目标对象中的至少一个目标对象的裁剪图像之后,所述处理器1200具体被配置为执行:
202.对所述裁剪图像进行特征提取,得到各个所述目标对象的特征集合。
203.在一些实施例中,若获取拍摄的包含各个目标对象的多帧图像,则所述处理器1200具体被配置为执行:
204.针对所述多帧图像中除第一帧图像之后的每一帧图像,根据上一帧图像中检测到的各个所述目标对象的位置,确定所述本次帧图像中包含至少一个所述目标对象的裁剪位置;
205.根据所述裁剪位置以及预设尺寸,对所述本次帧图像进行裁剪,得到包含至少一个所述目标对象的裁剪图像。
206.在一些实施例中,所述处理器1200具体被配置为执行:
207.根据所述图像中包含的各个所述目标对象的深度信息,确定所述图像中包含的各个所述目标对象的裁剪位置和裁剪尺寸;
208.根据所述裁剪位置和所述裁剪尺寸,对所述图像进行裁剪,得到包含至少一个所述目标对象的裁剪图像。
209.在一些实施例中,所述处理器1200具体被配置为执行:
210.确定预设系数与所述目标对象的深度信息的乘积值;
211.将所述图像的原始尺寸与所述乘积值的差值,确定为所述目标对象的裁剪尺寸。
212.基于相同的发明构思,本发明实施例还提供了一种目标检测的装置,由于该装置即是本发明实施例中的方法中的装置,并且该装置解决问题的原理与该方法相似,因此该装置的实施可以参见方法的实施,重复之处不再赘述。
213.如图13所示,该装置包括:
214.获取单元1300,用于获取拍摄的包含各个目标对象的至少一帧图像;
215.提取单元1301,用于对所述图像进行特征提取,得到各个所述目标对象的特征集合;
216.确定单元1302,用于根据所述图像中各个所述目标对象的深度信息,确定与各个所述目标对象分别对应的检测头,其中不同的检测头用于检测所述图像中不同尺寸的目标对象;
217.检测单元1303,用于利用各个所述检测头对所述特征集合中的特征进行检测,确定所述图像中各个所述目标对象的位置和类别。
218.在一些实施例中,本发明实施例还提供一种计算机存储介质,其上存储有计算机程序,该程序被处理器执行时实现如下步骤:
219.获取拍摄的包含各个所述目标对象的至少一帧图像;
220.对所述图像进行特征提取,得到各个所述目标对象的特征集合;
221.根据所述图像中各个所述目标对象的深度信息,确定与各个所述目标对象分别对应的检测头,其中不同的检测头用于检测所述图像中不同尺寸的目标对象;
222.利用各个所述检测头对所述特征集合中的特征进行检测,确定所述图像中各个所述目标对象的位置和类别。
223.本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。
224.本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产
生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的设备。
225.这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令设备的制造品,该指令设备实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
226.这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
227.显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。
再多了解一些

本文用于创业者技术爱好者查询,仅供学习研究,如用于商业用途,请联系技术所有人。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献