一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

人机交互方法、智能设备、存储介质及程序产品与流程

2022-02-20 20:57:57 来源:中国专利 TAG:


1.本技术实施例涉及智能设备技术领域,尤其涉及一种人机交互方法、智能设备、计算机存储介质及计算机程序产品。


背景技术:

2.随着aiot(artificial intelligence&internet of things,人工智能物联网)技术的发展,越来越多的智能设备被应用到人们的工作和生活中。其中,设置有图像采集功能的智能设备,如智能电视、智能大屏、智能眼镜等,是智能设备中的一种重要类型。
3.目前,大部分这一类型的智能设备通过对采集的图像中的手势进行识别,实现人机交互。在具体进行交互时,可通过用户佩戴类似于手环的硬件传感器来实现对用户的空中手势和接触式手势的检测和识别。
4.但是,这种方式因需要额外的硬件传感器,极大地增加了智能设备的实现成本,阻碍了智能设备的发展和大规模使用。


技术实现要素:

5.有鉴于此,本技术实施例提供一种人机交互方案,以至少部分解决上述问题。
6.根据本技术实施例的第一方面,提供了一种人机交互方法,包括:对实时采集的视频图像进行多目标检测,所述多目标检测至少包括人像检测和人手检测在内的多种目标类型的检测;根据所述多目标检测的检测结果确定目标人像和目标人手;根据对所述目标人像和所述目标人手的跟踪检测结果,获得所述目标人手的手势姿态信息;根据所述手势姿态信息,对智能设备进行交互控制。
7.根据本技术实施例的第二方面,提供了另一种人机交互方法,包括:通过设置于智能设备中的图像采集装置实时采集所述智能设备所在空间的视频图像;对实时采集的所述视频图像进行多目标检测,所述多目标检测至少包括人像检测和人手检测在内的多种目标类型的检测;根据所述多目标检测的检测结果确定目标人像和目标人手;根据对所述目标人像和所述目标人手的跟踪检测结果,获得所述目标人手的手势姿态信息;根据所述手势姿态信息,确定其对应的手势所针对的智能设备的显示屏上显示的目标内容,及针对所述目标内容的交互控制操作;对所述目标内容进行所述交互控制操作。
8.根据本技术实施例的第三方面,提供了一种智能设备,包括:图像采集装置、显示屏和处理器;其中,所述显示屏,用于从所述处理器获得待显示内容并进行显示;所述图像采集装置,用于实时采集所述智能设备所在空间的视频图像;所述处理器,用于对实时采集的所述视频图像进行多目标检测,所述多目标检测至少包括人像检测和人手检测在内的多种目标类型的检测;根据所述多目标检测的检测结果确定目标人像和目标人手;根据对所述目标人像和所述目标人手的跟踪检测结果,获得所述目标人手的手势姿态信息;根据所述手势姿态信息,确定其对应的手势所针对的所述显示屏上显示的目标内容,及针对所述目标内容的交互控制操作;对所述目标内容进行所述交互控制操作;所述显示屏,还用于显
示所述交互控制操作的结果。
9.根据本技术实施例的第四方面,提供了一种计算机存储介质,其上存储有计算机程序,该程序被处理器执行时实现如第一方面或第二方面所述的人机交互方法。
10.根据本技术实施例的第五方面,提供一种计算机程序产品,包括计算机指令,所述计算机指令指示计算设备执行如第一方面或第二方面所述的人机交互方法对应的操作。
11.根据本技术实施例提供的人机交互方案,基于视频图像进行相应的人像和人手跟踪检测,最终获得人手的手势姿态信息,根据该信息对应的手势姿态即可对智能设备进行交互控制。由此可见,一方面,无需为智能设备配置诸如手环之类的专用硬件传感器,智能设备只需具有相应的图像采集装置如摄像头等,即可通过视频图像获得手势姿态,从而大大降低了智能设备的实现成本,促进了智能设备的发展和大规模使用;另一方面,在基于视频图像进行检测时,先确定目标人像和目标人手,再进行针对目标人手的跟踪检测,基于针对目标人手的跟踪检测的检测结果来获得目标人手的手势姿态,从而大大降低了检测计算的能耗和时耗,提高了检测效率,进而也提高了针对智能设备的交互控制效率。
附图说明
12.为了更清楚地说明本技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本技术实施例中记载的一些实施例,对于本领域普通技术人员来讲,还可以根据这些附图获得其他的附图。
13.图1为适用本技术实施例的一种示例性系统的示意图;
14.图2为根据本技术实施例一的一种人机交互方法的步骤流程图;
15.图3a为根据本技术实施例二的一种人机交互方法的步骤流程图;
16.图3b为图3a所示实施例中的一种手势位置映射的示意图;
17.图4a为根据本技术实施例三的一种人机交互方法的步骤流程图;
18.图4b为图4a所示实施例中的一种跟踪检测过程的示意图;
19.图4c为图4a所示实施例中的一种手部关键点的示意图;
20.图5为根据本技术实施例四的一种人机交互方法的步骤流程图;
21.图6为根据本技术实施例五的一种智能设备的结构示意图。
具体实施方式
22.为了使本领域的人员更好地理解本技术实施例中的技术方案,下面将结合本技术实施例中的附图,对本技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本技术实施例一部分实施例,而不是全部的实施例。基于本技术实施例中的实施例,本领域普通技术人员所获得的所有其他实施例,都应当属于本技术实施例保护的范围。
23.图1示出了一种适用本技术实施例的示例性系统。如图1所示,该系统主要包括智能设备102,图1中示例为智能显示设备。
24.该智能设备102中设置有图像采集装置和显示屏,图1中将图像采集装置示例为设置于智能设备102中的摄像头,但本领域技术人员应当明了是,在某些情况下,图像采集装置也可以独立于智能设备102来设置,可通过无线或有线方式与智能设备102电连接即可。
25.智能设备102可通过显示屏显示相应的内容,显示的内容中至少有部分内容是可交互内容,也即,用户可通过对该部分内容的操作实现与智能设备102的交互。例如,显示屏上显示的内容中包括多个视频节目,则用户可通过手势操作来选择想要观看的视频节目等。但不限于此,用户也可以通过手势对智能设备102未能显示的内容进行交互控制,例如,用户可以通过相应的手势来调整智能设备102的音量等。其中,具体的手势与交互控制操作的对应关系可由本领域技术人员根据需求设置,本技术实施例对此不作限制。此外,智能设备102还可通过用户手势与用户进行其它形式的互动,例如,检测到用户摆出心形手势,则可在显示屏上显示心形图案的动画等等。
26.其中,用户的手势操作可通过智能设备102中的图像采集装置进行视频图像采集,由智能设备102中的处理器对采集到的视频图像进行检测处理后,获得相应的手势姿态信息及该手势姿态信息对应的交互控制操作的信息,以及该交互控制操作所针对的目标对象(如显示屏上显示的某些内容或未能显示但可调节的内容如音量、显示屏的亮度等),进而,可针对该目标对象执行该交互控制操作,如选择视频节目、调整频道、调整音量,等等。
27.基于上述系统,本技术实施例提供了一种人机交互方法,以下通过多个实施例进行说明。
28.实施例一
29.参照图2,示出了根据本技术实施例一的一种人机交互方法的步骤流程图。
30.本实施例的人机交互方法包括以下步骤:
31.步骤s202:对实时采集的视频图像进行多目标检测。
32.其中,所述多目标检测至少包括人像检测和人手检测在内的多种目标类型的检测。
33.对于智能设备尤其是智能显示设备来说,用户在需要与其交互时,通常会处于该智能设备中的图像采集装置所能够采集的空间范围内,进行相应的交互控制操作。在某些情况下,可能仅有一个用户与智能设备进行交互;但在另一些情况下,可能存在多个用户,其中的某个用户与智能设备进行交互。基于此,在智能设备实时采集的视频图像中可能存在一个或多个用户的人像,而对于每个人像来说,可能采集到其手部中的部分(如有遮挡情况下的单手)或全部,也可能采集不到其手部(双手均被遮挡住)。其中,所述图像采集装置可实现为单目传感器、双目传感器,或者rgbd传感器等。
34.具体到本实施例,多目标检测意指对视频图像进行既包括人像检测也包括人手的检测,在具有多个人像和/或多个人手的情况下,可同时检测出该多个人像和/或多个人手。也即,本技术实施例中的多目标检测既可以检测多种不同目标类型如人像和人手,但同时,针对其中的任一类型,还可进行同一类型的多个目标对象的检测,如检测多个人像和多个人手等。
35.需要说明的是,所述多目标检测的具体实现可由本领域技术人员根据实际需求采用任意适当方式实现,包括但不限于用于多目标检测的神经网络模型的形式等,本技术实施例对此不作限制。此外,本技术实施例中,若无特殊说明,“多个”、“多种”等与“多”有关的数量均意指两个及两个以上。
36.步骤s204:根据多目标检测的检测结果确定目标人像和目标人手。
37.其中,目标人像意指针对智能设备进行交互控制操作的用户对应的人像,例如,检
测到视频图像中某用户进行了“挥手”操作,这一操作可唤醒智能设备进行后续的跟踪检测和处理,则该用户对应的视频图像中的人像即为目标人像,该用户进行“挥手”的那只手即为视频图像中的目标人手。
38.多目标检测的检测结果中通常包含有人像定位框及人像对应的类别(用于指示人像是否在预设的空间范围内,如在远离智能设备的门口、在智能设备前等),以及人手定位框及人手对应的类别(用于指示人手的动作类别,如五指张开、握拳、挥动、ok手等),基于这些信息,可确定目标人像和目标人手。
39.步骤s206:根据对目标人像和目标人手的跟踪检测结果,获得目标人手的手势姿态信息。
40.因人手是人体的一部分,在视频图像中的人手部分也属于某个人像的一部分,虽然本实施例的最终目标是进行人手跟踪检测,但因人手与人体的关系,需要先对目标人像和目标人手均进行跟踪检测,基于人像区域进行人手区域的跟踪检测,再基于跟踪检测结果从中获得针对目标人手的信息,然后基于目标人手的信息,针对目标人手进行针对性的检测处理,以获得目标人手的手势姿态信息。
41.步骤s208:根据手势姿态信息,对智能设备进行交互控制。
42.其中,手势姿态信息可有效表征人手的姿态,包括但不限于具体的手势分类及人手位置的信息。
43.基于此,在一种可行方式中,可通过位置映射算法,将手势对应的交互位置或交互区域对应到智能设备的显示屏上所显示的显示区域中相应的位置或区域,确定该手势针对的目标内容,对该目标内容执行与该手势对应的交互控制操作。
44.在另一种可行方式中,对于对智能设备未通过显示屏显示的内容如音量等进行交互控制操作时,则可根据与该手势对应的交互控制操作,对智能设备执行该交互控制操作即可。
45.在再一种可行方式中,智能设备可根据手势与用户进行与设备显示内容或自身功能无关的交互操作。例如,用户做出一个心形手势,则智能设备可在显示屏上闪烁显示心形图案,以作为对用户手势的响应,等等。
46.通过本实施例,基于视频图像进行相应的人像和人手跟踪检测,最终获得人手的手势姿态信息,根据该信息对应的手势姿态即可对智能设备进行交互控制。由此可见,一方面,无需为智能设备配置诸如手环之类的专用硬件传感器,智能设备只需具有相应的图像采集装置如摄像头等,即可通过视频图像获得手势姿态,从而大大降低了智能设备的实现成本,促进了智能设备的发展和大规模使用;另一方面,在基于视频图像进行检测时,先确定目标人像和目标人手,再进行针对目标人手的跟踪检测,基于针对目标人手的跟踪检测的检测结果来获得目标人手的手势姿态,从而大大降低了检测计算的能耗和时耗,提高了检测效率,进而也提高了针对智能设备的交互控制效率。
47.实施例二
48.参照图3a,示出了根据本技术实施例二的一种人机交互方法的步骤流程图。
49.本实施例的人机交互方法包括以下步骤:
50.步骤s302:对智能设备进行系统初始化。
51.该系统初始化包括但不限于:对智能设备的图像采集装置如摄像头的相机角度、
焦距、分辨率、位置等进行初始化设定,以便进行有效的图像采集。例如,相机角度180度、焦距约3.67mm、分辨率1080p以上,摄像头位置处于用户可能处于的交互位置或交互区域前的约1-3米处,等等。
52.通过系统初始化,确保能通过智能设备获取到当前图像采集装置在当前设置下的视频流,以作为后续数据处理的输入。
53.步骤s304:通过智能设备的图像采集装置实时采集视频图像。
54.步骤s306:对实时采集的视频图像进行多目标检测。
55.其中,所述多目标检测至少包括人像检测和人手检测在内的多种目标类型的检测。
56.在一种可行方式中,可采用基于rgb时序序列的多目标检测。与传统的通过识别人体关键点、人手关键点进行目标检测不同,本技术实施例中基于rgb视频图像进行目标检测。相较于关键点检测,视频图像的rgb信息里包含有丰富的纹理等信息,可进行语义特征提取,以使得针对当前视频图像的处理获得的信息可有效传递给后续的视频图像跟踪检测过程,提高跟踪检测效率。
57.又因视频流中的视频图像为具有时序序列关系的图像,因此,基于连续的rgb视频图像进行多目标检测即可实现基于rgb时序序列的多目标检测。
58.步骤s308:根据多目标检测的检测结果确定目标人像和目标人手,并对目标人像和目标人手进行跟踪检测。
59.如前所述,目标人像意指针对智能设备进行交互控制操作的用户对应的人像,目标人手意指该用户进行了预设的智能设备唤醒操作的那只手。在跟踪检测中,对目标人手的检测基于其所属的目标人像区域进行,以减轻跟踪检测的数据处理负担,提高跟踪检测效率,并且,降低了对智能设备的硬件性能要求。
60.基于此,在一种可行方式中,本步骤可以实现为:从多目标检测的检测结果中获取人像信息和人手信息;根据其中的人手信息判断是否存在进行了预设的智能设备唤醒操作手势的人手;若存在,则将进行了智能设备唤醒操作手势的人手确定为目标人手,并将目标人手对应的人像确定为目标人像。本技术实施例中,为智能设备设置了唤醒操作手势,若某用户执行了该手势,则认为其需要唤醒智能设备,以与智能设备进行交互。通过设置唤醒操作手势的方式,可以高效且快速地确定出目标用户及该目标用户进行唤醒手势操作的那只手,反映在视频图像中即该目标用户对应的目标人像及目标人手。由此,无需在后续再对其它人像或人手进行跟踪及检测,大大提高了跟踪及检测的效率,进而提高了人机交互的效率。此外,为了提升人机交互的可交互性,在检测到唤醒操作手势后,还可通过智能设备的显示屏相应相应的提示信息,该提示信息可以是需要交互确认的信息,如“开始要与我交互了吗?”等,在用户进行了确认后进行后续处理;该提示信息也可以是不需要交互确认的信息,如“谢谢你来与我交互,让我们开始吧!”等等。
61.其中,所述人像信息包括但不限于:人像定位框及人像对应的类别的信息;人手信息包括但不限于:人手定位框及人手对应的类别的信息。
62.此外,为了进一步提高数据处理速度,减少处理时延,可选地,还可以为人像信息对应的人像和人手信息对应的人手分别设置对应的人像标识和人手标识;根据人像标识和人手标识对目标人像和目标人手进行跟踪检测。并且,可通过智能设备展示人像标识和/或
人手标识,其中,人像标识包括以下至少之一:人像对应的图标标识(如用户自行设置的头像、图标、logo等)、人像对应的id标识、人像对应的名称标识(如用户姓名或昵称等)、人像对应的角色标识(如用户在家庭中的角色如爸爸、妈妈、宝贝等);人手标识包括以下至少之一:人手对应的图标标识(如用户自行设置的图标、logo等)、人手对应的id标识、人手对应的名称标识(如左手、右手等)。当然,其它人像标识和人手标识的实现方式可同样适用于本技术实施例。
63.基于人像标识和人手标识对目标人像和目标人手进行跟踪检测时,可以根据人像标识和人手标识,对实时采集的视频图像进行多目标跟踪检测,该多目标跟踪检测包括目标人像跟踪检测和目标人手跟踪检测;基于多目标跟踪检测的检测结果,进行针对目标人手的单目标跟踪检测。通过这种方式,从多目标跟踪检测过渡到针对人手的单目标跟踪检测,大大降低了跟踪检测所需要处理的数据量,进而降低了对智能设备的硬件性能的要求,且提高了跟踪检测的速度和效率,减少了人机交互的时延。可选地,可采用基于rgb时序序列的检测方式,以获得更丰富的信息,提高检测准确性。
64.例如,针对一帧视频图像a,通过多目标跟踪检测,确定其中的人像定位框x及该人像定位框中的人手定位框x’,则可将该人手定位框x’的图像区域的信息交给后续的神经网络模型,以进行针对该人手定位框x’中的人手的跟踪检测。
65.而针对目标人像的跟踪检测则可实现为:根据人像标识,确定视频图像中的人像区域;基于人像区域、人像标识和人手标识对目标人像和目标人手进行跟踪检测。因对目标人像的跟踪检测仍处于多目标跟踪检测阶段,因此,需要基于相应的标识进行相应人像及该人像的人手的跟踪检测,以为后续针对人手的单目标跟踪检测提供有效且准确的依据。
66.此外,为了提高人机交互的交互性,在一种可行方式中,若多目标检测的检测结果指示视频图像中存在多个人像或多个人手,则通过智能设备的显示屏显示信息弹窗,以在信息弹窗中显示多个人像和多个人手的选项信息;根据对选项信息的选择操作,确定目标人像和目标人手。此种情况下,智能设备前的用户可能有多个,并且该多个用户中的至少两个用户可能进行了相同的唤醒手势操作,如同时进行了挥手。则,为了提高后续跟踪检测和交互的效率,可通过显示屏将同时进行了唤醒手势操作的多个用户的人像信息显示出来供用户选择,并将用户选择的人像信息对应的人像作为目标人像,该目标人像对应的进行了唤醒手势操作的人手作为目标人手。
67.需要说明的是,本技术实施例中,不管是多目标检测,还是后续的多目标跟踪检测和单目标跟踪检测,都可采用经过训练的具有相应功能的神经网络模型实现,本技术实施例对这些神经网络模型的具体训练过程和具体实现结构不作限制,只需能够实现相应功能即可。
68.步骤s310:根据对目标人像和目标人手的跟踪检测结果,获得目标人手的手势姿态信息。
69.基于针对目标人像和目标人手的跟踪检测,可获得相应的跟踪检测结果。本技术实施例中,所述跟踪检测结果中至少包括:目标人像的跟踪框及目标人像的类别、目标人手的跟踪框及目标人手的类别。为与前述非跟踪的多目标检测相区别,这里使用“跟踪框”与前述目标检测获得的“定位框”相区别。
70.如在步骤s308中所述,对目标人像和目标人手的跟踪检测可以采用从多目标跟踪
检测过渡到针对人手的单目标跟踪检测的方式,基于此,可获得目标人手对应的人手区域,基于该人手区域的图像进行手势姿态检测,可获得相应的手势姿态信息。此外,在对目标人手的跟踪检测过程中,还可以通过智能设备的显示屏实时显示目标人手的运动轨迹,以使用户更清楚地了解自己的手势映射在智能设备中的映射情况。
71.其中,所述手势姿态信息可有效表征人手的姿态,包括但不限于具体的手势分类及人手位置的信息。
72.步骤s312:根据手势姿态信息,对智能设备进行交互控制。
73.在一种可行方式中,若手势姿态信息对应的交互控制操作是针对智能设备的非显示内容,如音量等,则根据该手势姿态信息对应的手势,即可确定相对应的交互控制操作,进而对智能设备进行交互控制,如增大或减小音量。
74.在另一种可行方式中,若手势姿态信息对应的交互控制操作是针对智能设备显示屏上显示的内容的操作,则人手在真实物理空间中的操作,最终需映射至显示屏显示的内容上。例如,根据手势确定相对应的交互控制操作,进而根据人手的位置确定其映射至显示屏的显示区域上的位置,确定该手势针对的目标对象及对该目标对象进行的操作。为了提升操作的可呈现性,可在显示区域中也显示相应的指示图标如指示箭头等,以使用户清楚了解其手势操作的具体位置和操作信息。
75.但为了进一步提高用户的使用体验,在一种可行方式中,可以根据手势姿态信息,进行三维手势重建及手部位置映射,以将重建的三维手势映射在智能设备的显示屏上的与手部位置对应的位置。
76.在一个具体示例中,以手势操作为“挥手”为例,如图3b所示,通过跟踪检测可以基于多帧包含“挥手”手势的视频图像,获得多个“挥手”位置。进而,可以通过计算平均“挥手”位置得到一个初始手势框(设坐标为xmin,ymin,xmax,ymax)。通过简单计算,即可得到该初始手势框的宽度w和高度h。根据这个初始手势框的w,h,确定对应的手势控制框的大小为2w*2h,同时以初始手势框的中心点为中心做扩充。这样,在视频图像中,可以得到了此次手势操作的实际的有效交互区域。进一步地,假设显示屏的显示区域的大小为w_screen和h_screen,按照手势控制框区域的大小,做等比例映射,可完成了从手势操作的操作范围到屏幕坐标的转换。
77.在再一种可行方式中,在智能设备的显示屏上展示与手势姿态信息对应的交互操作选项;接收对交互操作选项的选择操作,并根据选择操作所选择的交互操作选项对智能设备进行交互控制。通过显示交互操作选项,可由用户更灵活地确定所需要的交互操作,并且,提高了人机交互的交互性。其中,交互操作选项可由本领域技术人员根据实际需求采用任意适当方式实现,如交互按钮、交互问题等等,通过小弹窗或者浮层等方式展示。
78.在又一种可行方式中,还可以根据手势姿态信息,在智能设备的显示屏上展示响应于手势姿态信息的交互响应动画或文字。例如,检测到用户摆出心形手势,则可在显示屏上显示心形图案的动画等等。
79.通过本实施例,基于视频图像进行相应的人像和人手跟踪检测,最终获得人手的手势姿态信息,根据该信息对应的手势姿态即可对智能设备进行交互控制。由此可见,一方面,无需为智能设备配置诸如手环之类的专用硬件传感器,智能设备只需具有相应的图像采集装置如摄像头等,即可通过视频图像获得手势姿态,从而大大降低了智能设备的实现
成本,促进了智能设备的发展和大规模使用;另一方面,在基于视频图像进行检测时,先确定目标人像和目标人手,再进行针对目标人手的跟踪检测,基于针对目标人手的跟踪检测的检测结果来获得目标人手的手势姿态,从而大大降低了检测计算的能耗和时耗,提高了检测效率,进而也提高了针对智能设备的交互控制效率。
80.实施例三
81.参照图4a,示出了根据本技术实施例三的一种人机交互方法的步骤流程图。
82.本实施例中,以通过多个神经网络模型结合实现人机交互为示例,对本实施例的人机交互方法进行说明。
83.本实施例的人机交互方法包括以下步骤:
84.步骤s402:对实时采集的视频图像进行多目标检测。
85.其中,所述多目标检测至少包括人像检测和人手检测在内的多种目标类型的检测。
86.本实施例中,可以通过具有多目标检测的神经网络模型实现对视频图像的多目标检测,如卷积神经网络模型等,可选地,可使用轻量级的卷积神经网络模型实现多目标检测。为便于描述,本实施例中将该神经网络模型称为第一神经网络模型。
87.需要说明的是,在本实施例中,若采集到的视频图像中包括多个人像,也即,可能有多个用户处于智能设备的图像采集装置的采集空间范围内时,则本步骤可以实现为:实时采集的视频图像进行多目标检测,获得多个候选对象对应的多个检测框;对多个检测框中,存在重叠的检测框或者检测框之间的距离在预设距离范围内的检测框进行合并;基于合并后的检测框再次进行多目标检测。其中,预设距离范围可由本领域技术人员根据实际情况适当设置,本技术实施例对此不作限制。通过这种方式,可以有效保证识别的效率与准确性。但不限于此,在实际应用中,采用传统的针对每个人像的检测的方式同样适用。
88.步骤s404:根据多目标检测的检测结果确定目标人像和目标人手。
89.通过第一神经网络模型的多目标检测,可以输出一个或多个人像定位框及人像对应的类别,以及一个或多个人手定位框及人手对应的类别。其中,通过人手对应的类别可以获得人手所对应的动作,由此来判断人手是否进行了针对智能设备的唤醒手势操作。若确定其中的某只人手进行了唤醒手势操作,则将该人手确定为目标人手,其对应的人像即为目标人像。
90.步骤s406:根据对目标人像和目标人手的跟踪检测结果,获得目标人手的手势姿态信息。
91.本实施例中,通过多目标跟踪网络模型对实时采集的视频图像进行针对目标人像和目标人手的多目标跟踪检测;从多目标跟踪检测的检测结果中,获得目标人手的检测结果;基于目标人手的检测结果,通过单目标跟踪网络模型对实时采集的视频图像进行针对目标人手的单目标跟踪检测;根据检测结果确定视频图像中的人手区域,并对人手区域进行基于人手关键点的手势姿态检测,根据手势姿态检测结果获得目标人手的手势姿态信息。
92.其中,多目标跟踪网络模型可采用与第一神经网络模型相同的轻量级网络模型结构,或者,也可以两者为相同的神经网络模型。此种情况下,该神经网络模型具有跟踪检测的功能,在使用其对实时采集的视频图像进行多目标检测时,仅使用其多目标检测功能即
可。
93.单目标跟踪网络模型连接于多目标跟踪网络模型之后,使用多目标跟踪网络模型输出的有关人手部分的检测结果,如目标人手在视频图像中的位置等来进行针对人手的单目标跟踪检测。该单目标跟踪检测的结果包括人手在视频图像中的较为准确的人手区域。进一步地,还可通过用于进行手势姿态检测的第二神经网络模型进行基于人手区域的手势姿态检测,以获得人手的手势姿态信息。
94.在一种可行方式中,单目标跟踪网络模型可实现为基于孪生网络的单目标跟踪网络模型的形式。因多目标跟踪网络模型可采用轻量级网络模型结构,可实现低算力的跟踪检测;再基于其跟踪检测获取的人手的人手标识,用一个基于孪生网络的单目标跟踪网络模型,可实现较为精确的人手跟踪检测,降低了对智能设备的硬件性能要求,减少了交互时延。
95.第二神经网络模型也可为轻量级的、可用于手势姿态检测的卷积神经网络模型。在一种可行方式中,该第二神经网络模型可实现为一个多目标回归网络模型,对检测出的人手进行同时21个关键点的手势3d关键点回归与手势分类。通过该种形式,该多目标回归网络模型可以在训练阶段通过关键点的回归以及手势分类互相协同训练,通过多任务的方式使得两方面的训练具有互相增强以及互相促进的作用。
96.此外,可选地,检测获得的手势姿态信息中包括人手在视频图像中的位置信息;则,所述对人手区域进行基于人手关键点的手势姿态检测可以包括:获得与当前视频图像相邻的前n帧视频图像中的人手的手势姿态信息;根据前n帧视频图像中的人手的手势姿态信息推测当前视频图像中的人手的手势姿态信息;以推测的所述手势姿态信息为辅助信息,对当前视频图像中的人手区域进行基于人手关键点的手势姿态检测,其中,n为正整数。在通过前述第二神经网络模型进行手势姿态检测时,则该第二神经网络模型输出的结果即视频图像中的人手的手势姿态信息可作为参考,基于当前视频图像的前n帧视频图像中的人手的手势姿态信息推测当前视频图像中的人手的手势姿态信息,并以推测的所述手势姿态信息为辅助信息,对模型检测出的中间检测结果(即当前视频图像中的手势姿态)进行修正,可使手势的位置更加稳定,并且,保证手势的位置的连续性。
97.示意性地,一种上述跟踪检测过程的示意如图4b所示,其中,detnet部分负责人手跟踪检测;根据detnet输出的人手的跟踪框bounding box从原视频图像中抠出人手区域作为keynet的输入图像;keynet负责从输入图像即人手区域的图像中检测出手势姿态,本示例中包括人手的每个关键点(一种手部关键点的示意如图4c所示)的2dheatmap(即位置坐标信息)和1d heatmap(即深度信息),该部分信息在后续会经过后处理后得到3d的人手关键点keypoints;将keypoint进行参数化(对人手进行三维重建所需要的参数,由本领域技术人员根据实际需求设置),最终重建出视频图像中的手势。同时,由图中可见,当对t 1时刻的图像进行检测时,以t时刻的人手的手势姿态信息和t-1时刻的人手的手势姿态信息推测t 1时刻的手势姿态信息;并将其作为辅助信息输入模型,以作为keynet的辅助信息输入,对模型对对t 1时刻检测获得的手势姿态信息进行修正。
98.步骤s408:根据手势姿态信息,对智能设备进行交互控制。
99.该步骤的具体实现可见前述实施例一或二中相关部分的描述,在此不再赘述。
100.步骤s410:展示交互控制的结果。
101.如,根据交互控制在智能设备的显示屏上显示音量调整的进度示意,或者,根据交互控制在显示屏上显示新的内容,或者,根据交互控制播放视频节目,等等。
102.通过本实施例,基于视频图像进行相应的人像和人手跟踪检测,最终获得人手的手势姿态信息,根据该信息对应的手势姿态即可对智能设备进行交互控制。由此可见,一方面,无需为智能设备配置诸如手环之类的专用硬件传感器,智能设备只需具有相应的图像采集装置如摄像头等,即可通过视频图像获得手势姿态,从而大大降低了智能设备的实现成本,促进了智能设备的发展和大规模使用;另一方面,在基于视频图像进行检测时,先确定目标人像和目标人手,再进行针对目标人手的跟踪检测,基于针对目标人手的跟踪检测的检测结果来获得目标人手的手势姿态,从而大大降低了检测计算的能耗和时耗,提高了检测效率,进而也提高了针对智能设备的交互控制效率。
103.实施例四
104.参照图5,示出了根据本技术实施例四的一种人机交互方法的步骤流程图。
105.本实施例中,以智能设备为智能显示设备,如智能电视或智能大屏或普通尺寸智能屏或智能小屏为示例,对本技术的人机交互方法进行说明。
106.本实施例的人机交互方法包括以下步骤:
107.步骤s502:通过设置于智能设备中的图像采集装置实时采集所述智能设备所在空间的视频图像。
108.其中,图像采集装置可以为摄像头,通过该摄像头对位于智能设备所在空间进行视频图像的实时采集。
109.步骤s504:对实时采集的视频图像进行多目标检测。
110.其中,所述多目标检测至少包括人像检测和人手检测在内的多种目标类型的检测。
111.步骤s506:根据多目标检测的检测结果确定目标人像和目标人手。
112.多目标检测的检测结果中包括有相应的人像信息和人手信息,例如,人像定位框及人像的类别信息、人手定位框及人手的类别信息。基于人手的类别信息可确定人手是否进行了针对智能设备的唤醒手势操作,若是,则将该人手确定为目标人手,该目标人手对应的人像确定为目标人像。
113.步骤s508:根据对目标人像和目标人手的跟踪检测结果,获得目标人手的手势姿态信息。
114.在确定了目标人像和目标人手后,可对实时采集的视频图像进行跟踪检测。具体过程可包括针对目标人像和目标人手的多目标跟踪检测,进而基于该检测结果确定目标人手的相关信息,如标识id和/或跟踪框的信息,从多目标跟踪检测过渡到针对人手的单目标跟踪检测;再基于单目标跟踪检测的结果确定人手区域,基于人手区域进行手势姿态识别,获得手势姿态信息。
115.步骤s510:根据手势姿态信息,确定其对应的手势所针对的智能设备的显示屏上显示的目标内容,及针对目标内容的交互控制操作。
116.本实施例中,设定用户的手势姿态用于对智能显示设备的显示屏上所显示的内容进行操作,因此,需要基于该手势姿态信息,确定其中的位置信息映射到显示屏的显示区域上的位置或区域,并且,确定该手势姿态所对应的交互控制操作(如点击某个视频节目、更
换显示页面等等)。由此,实现手势所针对的目标内容及交互控制操作的确定。
117.步骤s512:对目标内容进行所述交互控制操作。
118.通过本实施例,智能设备基于视频图像进行相应的人像和人手跟踪检测,最终获得人手的手势姿态信息,根据该信息对应的手势姿态即可对智能设备进行交互控制。由此可见,一方面,无需为智能设备配置诸如手环之类的专用硬件传感器,智能设备只需具有相应的图像采集装置如摄像头等,即可通过视频图像获得手势姿态,从而大大降低了智能设备的实现成本,促进了智能设备的发展和大规模使用;另一方面,智能设备在基于视频图像进行检测时,先确定目标人像和目标人手,再进行针对目标人手的跟踪检测,基于针对目标人手的跟踪检测的检测结果来获得目标人手的手势姿态,从而大大降低了检测计算的能耗和时耗,提高了检测效率,进而也提高了针对智能设备的交互控制效率。
119.此外需要说明的是,本实施例中部分步骤的实现为前述多个实施例中的步骤类似,因此描述较为简要,其对应的具体实现均可参照前述多个实施例中相关部分的描述。
120.实施例五
121.参照图6,示出了根据本技术实施例五的一种智能设备的结构示意图。
122.本实施例的智能设备包括:图像采集装置602、显示屏604和处理器606。
123.其中:
124.显示屏604,用于从处理器606获得待显示内容并进行显示。
125.图像采集装置602,用于实时采集智能设备所在空间的视频图像。
126.处理器606,用于实现前述多个实施例中任一实施例所描述的人机交互方法。例如,处理器606对实时采集的视频图像进行多目标检测,该多目标检测至少包括人像检测和人手检测在内的多种目标类型的检测;根据多目标检测的检测结果确定目标人像和目标人手;根据对目标人像和目标人手的跟踪检测结果,获得目标人手的手势姿态信息;根据手势姿态信息,确定其对应的手势所针对的显示屏604上显示的目标内容,及针对目标内容的交互控制操作;对目标内容进行所述交互控制操作。
127.显示屏604,还用于显示所述交互控制操作的结果。
128.本实施例的智能设备用于实现前述多个方法实施例中相应的人机交互方法,并具有相应的方法实施例的有益效果,在此不再赘述。此外,本实施例的智能设备中的各个模块的功能实现均可参照前述方法实施例中的相应部分的描述,在此亦不再赘述。
129.本技术实施例还提供了一种计算机程序产品,包括计算机指令,该计算机指令指示智能设备执行上述多个方法实施例中的任一人机交互方法对应的操作。
130.需要指出,根据实施的需要,可将本技术实施例中描述的各个部件/步骤拆分为更多部件/步骤,也可将两个或多个部件/步骤或者部件/步骤的部分操作组合成新的部件/步骤,以实现本技术实施例的目的。
131.上述根据本技术实施例的方法可在硬件、固件中实现,或者被实现为可存储在记录介质(诸如cd rom、ram、软盘、硬盘或磁光盘)中的软件或计算机代码,或者被实现通过网络下载的原始存储在远程记录介质或非暂时机器可读介质中并将被存储在本地记录介质中的计算机代码,从而在此描述的方法可被存储在使用通用计算机、专用处理器或者可编程或专用硬件(诸如asic或fpga)的记录介质上的这样的软件处理。可以理解,计算机、处理器、微处理器控制器或可编程硬件包括可存储或接收软件或计算机代码的存储组件(例如,
ram、rom、闪存等),当所述软件或计算机代码被计算机、处理器或硬件访问且执行时,实现在此描述的人机交互方法。此外,当通用计算机访问用于实现在此示出的人机交互方法的代码时,代码的执行将通用计算机转换为用于执行在此示出的人机交互方法的专用计算机。
132.本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及方法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本技术实施例的范围。
133.以上实施方式仅用于说明本技术实施例,而并非对本技术实施例的限制,有关技术领域的普通技术人员,在不脱离本技术实施例的精神和范围的情况下,还可以做出各种变化和变型,因此所有等同的技术方案也属于本技术实施例的范畴,本技术实施例的专利保护范围应由权利要求限定。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献