一种座舱内手势交互方法及装置与流程

2022-12-02 22:58:21 来源：中国专利 TAG：

1.本发明涉及计算机信息处理技术领域，尤其涉及一种座舱内手势交互方法及装置。

背景技术：

2.现有的座舱内手势识别通常包括两个阶段，第一阶段进行人体检测或手部检测，第二阶段利用手部关键点信息进行手势识别。在座舱内常见的多人场景中，往往需要对手部的位置信息进行较为复杂的空间关系建模，尤其是动态手势，人体和手部都会有一定程度的运动，不易区分手部与人体的对应关系，这样的识别方法可能会对车机造成了负担，降低了手势的实时识别效率，动态手势的实时识别效果较差。另外，现有的座舱内手势识别系统没有动作人的定位，对于同一手势，不同的座舱位置对应的功能是相同的，使得整个手势交互的丰富度大大降低。
3.在现有的座舱内手势识别系统中，通常直接采用单帧图像进行手势识别，但是通常座舱内的手势指令都具有一定的持续时间，因此现有的手势识别在未融合时间信息的情况下对于动态手势的识别效果较差。
4.现有的座舱内手势识别系统的摄像设备安装在座舱前排的左侧或右侧，考虑到效率问题以及识别准确度，往往检测离摄像设备最近的手的手势，即前排用户的手势，使得后排用户的手势交互体验大大降低。

技术实现要素：

5.鉴于上述，本发明旨在提供一种座舱内手势交互方法及装置，通过手势识别模型直接获得手势类别检测结果，避免两阶段手势识别导致的车机工作压力，并通过识别手势动作人所在的座舱位置，为不同座舱位置上的相同手势配置不同的功能，提高了手势交互的丰富度。
6.本发明采用的技术方案如下：第一方面，本发明提供了一种座舱内手势交互方法，包括：接收座舱内的实时图像；将实时图像输入手势识别模型，获得手势识别模型输出的第一手势类别检测结果和第一位置类别检测结果，第一手势类别检测结果指示第一手势的类型，第一位置类别检测结果指示第一手势的动作人所在的第一座舱位置；依据第一座舱位置上第一手势对应的控制指令控制座舱内的设备；其中，对于不同的第一座舱位置，相同的第一手势对应的控制指令不同。
7.在其中一种可能的实现方式中，在获得第一手势类别检测结果之后，利用当前帧和当前帧之前的连续第一预设数量帧的手势类别检测结果进行投票，确定当前帧的第一手势类别检测结果是否有效；若有效，则依据第一座舱位置上第一手势对应的控制指令控制座舱内的设备。
8.在其中一种可能的实现方式中，若当前帧的第一手势类别检测结果有效，则利用当前帧和当前帧之前的连续第二预设数量帧的位置类别检测结果进行投票，确定当前帧的第一位置类别检测结果是否有效；若当前帧的第一位置类别检测结果有效，则依据第一座舱位置上第一手势对应的控制指令控制座舱内的设备。
9.在其中一种可能的实现方式中，手势识别模型对实时图像进行处理，获得第一手势类别检测结果和第一位置类别检测结果，具体包括：对实时图像进行处理，获得第一手势分类结果、第一位置分类结果以及第一手势动作人的第一中心点；将第一手势分类结果作为第一手势类别检测结果并输出；判断第一中心点是否位于第一位置分类结果所指示的座舱位置所在的区域内；若是，则将第一位置分类结果作为第一位置类别检测结果并输出。
10.在其中一种可能的实现方式中，若第一中心点未位于第一位置分类结果所指示的座舱位置所在的区域内，则判定第一位置类别检测结果为未知区域并输出。
11.在其中一种可能的实现方式中，若第一位置类别检测结果为未知区域，则不对座舱内的设备做控制，或依据第一手势的类型对应的通用指令控制座舱内的设备。
12.在其中一种可能的实现方式中，手势识别模型包括第三预设数量的卷积层，每个卷积层输出时序特征和卷积结果；手势识别模型的输入数据为实时图像和第三预设数量的卷积层获得的当前帧的前一帧的所有时序特征。
13.在其中一种可能的实现方式中，获得第一位置分类结果之后，利用座舱内所有座舱位置的第一独热的调制向量对第一位置分类结果进行投票，确定第二位置分类结果；其中，第一独热的调制向量是依据实时图像的实际位置类别标签生成的；并且，若第一中心点位于第二位置分类结果所指示的座舱位置所在的区域内，则将第二位置分类结果作为第一位置类别检测结果并输出。
14.在其中一种可能的实现方式中，接收实时图像前，还包括：接收座舱内的光线强度信息；依据光线强度信息控制座舱内摄像设备使用可见光或近红外光进行拍摄。
15.在其中一种可能的实现方式中，对手势识别模型进行训练包括：将连续图像样本输入初始模型；获得连续图像样本经第三预设数量的卷积层后获得的手势卷积结果和位置卷积结果，每个卷积层依次包括时序偏移模块和卷积模块，时序偏移模块的输入数据为前一卷积层输出的时序特征；将手势卷积结果和位置卷积结果分别输入手势分类器和位置分类器，获得第二手势类别检测结果和第二位置类别检测结果；依据第二手势类别检测结果与连续图像样本的手势类别标签之间、第二位置类别检测结果与连续图像样本的实际位置类别标签之间的损失函数对初始模型进行迭代训练，获得手势识别模型。
16.在其中一种可能的实现方式中，位置分类器的输入数据为位置卷积结果和位置调
制器生成的第二独热的调制向量的点积，第二独热的调制向量是依据连续图像样本的实际位置类别标签生成的。
17.在其中一种可能的实现方式中，连续图像样本经第三预设数量的卷积层后还获得手势动作人的第二中心点；并且，还利用通过对连续图像样本的人体检测获得的手势动作人的第三中心点与第二中心点之间的损失函数对初始模型进行迭代训练。
18.在其中一种可能的实现方式中，座舱内摄像设备设置在座舱的顶灯或舱内后视镜处。
19.第二方面，本发明提供了一种座舱内手势交互装置，包括实时图像接收模块、手势识别模块以及控制模块；实时图像接收模块用于接收座舱内的实时图像；手势识别模块用于将实时图像输入手势识别模型，获得手势识别模型输出的第一手势类别检测结果和第一位置类别检测结果，第一手势类别检测结果指示第一手势的类型，第一位置类别检测结果指示第一手势的动作人所在的第一座舱位置；控制模块用于依据第一座舱位置上第一手势对应的控制指令控制座舱内的设备；其中，对于不同的第一座舱位置，相同的第一手势对应的控制指令不同。
20.在其中一种可能的实现方式中，手势识别模型包括处理模块、判断模块以及输出模块；处理模块用于对实时图像进行处理，获得第一手势分类结果、第一位置分类结果以及第一手势动作人的第一中心点；判断模块用于判断第一中心点是否位于第一位置分类结果所指示的座舱位置所在的区域内；输出模块用于在第一中心点位于第一位置分类结果所指示的座舱位置所在的区域内时将第一位置分类结果作为第一位置类别检测结果并输出，并且将第一手势分类结果作为第一手势类别检测结果并输出。
21.在其中一种可能的实现方式中，处理模块包括时序特征提取器，时序特征提取器包括偏移特征存储模块和第三预设数量的卷积层，每个卷积层依次包括时序偏移模块和卷积模块，时序偏移模块的输入数据为前一卷积层输出的时序特征，偏移特征存储模块只存储同一帧获得的第三预设数量的时序特征；时序特征提取器的输入数据为偏移特征存储模块内的所有时序特征和实时图像。
22.在其中一种可能的实现方式中，处理模块还包括位置调制器、投票模块以及与时序特征提取器的输出端连接的手势分类器和位置分类器；位置分类器输出第一位置分类结果，手势分类器输出第一手势分类结果，位置调制器输出座舱内所有座舱位置的第三独热的调制向量；投票模块用于利用座舱内所有座舱位置的第三独热的调制向量对第一位置分类结果进行投票，确定第二位置分类结果；其中，第三独热的调制向量是依据实时图像的实际位置类别标签生成的。
23.在其中一种可能的实现方式中，处理模块还包括位置回归器，位置回归器的输入数据为时序特征提取器的输出数据，位置回归器的输出数据为第一中心点。
24.在其中一种可能的实现方式中，在训练阶段，位置分类器的输入数据为卷积层输出的位置卷积结果和位置调制器生成的第四独热的调制向量的点积，第四独热的调制向量是依据连续图像样本的实际位置类别标签生成的。
25.本发明的构思在于，首先，通过手势识别模型直接获得手势类别检测结果，避免两阶段手势识别导致的车机工作压力，并通过识别手势动作人所在的座舱位置，为不同座舱位置上的相同手势配置不同的功能，提高了手势交互的丰富度。其次，手势识别模型对同一帧图像进行处理时生成不同的时序特征，并用于后续帧的手势识别，形成基于连续帧图像的手势识别，充分利用历史帧的时序信息，对动态手势具有更好的判别性，提高了动态手势的识别准确率。另外，通过调整摄像设备的位置，使得所有座舱位置的拍摄效果基本相同，大大提高了后排用户的手势识别效果，为提高手势交互的丰富度提供良好的基础。
附图说明
26.为使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明作进一步描述，其中：图1为本发明提供的座舱内手势交互方法的一个优选实施例的流程图；图2为本发明提供的获得所述第一手势类别检测结果和所述第一位置类别检测结果的一个实施例的流程图；图3为本发明提供的训练阶段的处理模块的一个实施例的结构示意图；图4为本发明提供的推理阶段的处理模块的一个实施例的结构示意图，其中省略了位置分类器、位置调制器以及位置回归器；图5为本发明提供的训练手势识别模型的一个实施例的流程图；图6为本发明提供的座舱内手势交互装置的一个实施例的结构示意图；图7为本发明提供的处理模块的一个实施例的结构示意图；图8为本发明提供的座舱内手势交互设备的一个实施例的结构示意图。
具体实施方式
27.下面详细描述本发明的实施例，实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本发明，而不能解释为对本发明的限制。
28.本发明的构思在于，首先，通过手势识别模型直接获得手势类别检测结果，避免两阶段手势识别导致的车机工作压力，并通过识别手势动作人所在的座舱位置，为不同座舱位置上的相同手势配置不同的功能，提高了手势交互的丰富度。其次，手势识别模型对同一帧图像进行处理时生成不同的时序特征，并用于后续帧的手势识别，形成基于连续帧图像的手势识别，充分利用历史帧的时序信息，对动态手势具有更好的判别性，提高了动态手势的识别准确率。另外，通过调整摄像设备的位置，使得所有座舱位置的拍摄效果基本相同，大大提高了后排用户的手势识别效果，为提高手势交互的丰富度提供良好的基础。
29.针对前述核心构思，本发明提供了至少一种座舱内手势交互方法的实施例，如图1所示，可以包括如下步骤：s110：接收座舱内的实时图像。
30.具体地，用户登录座舱的乘员监控系统（occupant monitoring system，oms）时，位于座舱内的摄像设备同步开启，对座舱内部进行图像采集。同时，本发明的座舱内手势交互装置（请见后续说明）同时开启。
31.摄像设备设置在座舱的顶灯或舱内后视镜处，使得摄像设备能清晰地采集到座舱内所有座舱位置，有助于所有座舱位置的手势的准确识别。
32.在一种可能的实现方式中，摄像设备可以是rgb相机、近红外相机等。
33.在一种优选的实现方式中，摄像设备为自适应光照相机，光线充足时采用可见光成像，光线不足时切换至近红外成像，确保座舱内成像质量满足条件。
34.用户在座舱内完成静态或动态手势动作时，摄像设备可以采集到座舱内的图像并传输给座舱内手势交互装置进行处理。其中，静态手势指手部不需要进行运动的手势，如点赞、比心等。动态手势指一些需要手部或手指运动的手指，如旋转手指、向左挥手等。
35.在此基础上，在一种优选的实现方式中，s110之前还包括接收座舱内的光线传感器采集的座舱内的光线强度信息，并依据光线强度信息控制座舱内摄像设备使用可见光或近红外光进行拍摄。
36.s120：将实时图像输入手势识别模型，获得手势识别模型输出的第一手势类别检测结果和第一位置类别检测结果，第一手势类别检测结果指示第一手势的类型，第一位置类别检测结果指示第一手势的动作人所在的第一座舱位置。
37.需要说明的是，输入手势识别模型的实时图像是摄像设备采集的视频流中的一帧图像，即当前帧图像。
38.在一种可能的实现方式中，手势识别模型通过内部神经网络获得第一手势分类结果、第一位置分类结果后，直接将第一手势分类结果和第一位置分类结果分别作为第一手势类别检测结果和第一位置类别检测结果并输出。
39.在一种优选的实现方式中，如图2所示，手势识别模型对实时图像进行处理，获得第一手势类别检测结果和第一位置类别检测结果，具体包括：s210：对实时图像进行处理，获得第一手势分类结果、第一位置分类结果以及第一手势动作人的第一中心点。
40.s220：将第一手势分类结果作为第一手势类别检测结果并输出。
41.s230：判断第一中心点是否位于第一位置分类结果所指示的座舱位置所在的区域内。若是，则执行s240；否则，执行s250。
42.s240：将第一位置分类结果作为第一位置类别检测结果并输出。
43.s250：判定第一位置类别检测结果为未知区域并输出。
44.在一种可能的实现方式中，若第一位置类别检测结果为未知区域，则不对座舱内的设备做控制。
45.在另一种可能的实现方式中，若第一位置类别检测结果为未知区域，则依据第一手势的类型对应的通用指令控制座舱内的设备。这里的通用指令指的是无论手势动作人的位置在哪里，识别到该手势类别时均执行统一的控制指令。
46.对于未知区域的处理方式可以根据上层应用的设置来确定，本发明不做限制。
47.可以理解地，上述s220与s250可以同时执行，也可以先执行s230-s240，再执行s220。
48.在一种优选的实施方式中，执行s230之前，还执行如下步骤：p1：利用座舱内所有座舱位置的第一独热的调制向量对第一位置分类结果进行投票，确定第二位置分类结果；其中，第一独热的调制向量是依据实时图像的实际位置类别标签生成的。利用第一独热的调制向量进行类别先验的特征增强，进而使得位置分类更加鲁棒。
49.p2：若第一中心点位于第二位置分类结果所指示的座舱位置所在的区域内，则将第二位置分类结果作为第一位置类别检测结果并输出。否则，执行s250。
50.s150：依据第一座舱位置上第一手势对应的控制指令控制座舱内的设备，并返回s110。其中，对于不同的第一座舱位置，相同的第一手势对应的控制指令不同。例如，当识别到不同座舱位置的手势动作人进行旋转手指的动作时，调节不同位置的车窗的打开和关闭程度。
51.如下对手势识别模型的训练过程进行说明。手势识别模型包括处理模块，图3示出了处理模块的结构示意图。
52.如图3所示，处理模块包括时序特征提取器、与时序特征提取器的输出端连接的手势分类器和位置分类器。处理模块是一种基于轻量化卷积神经网络的模型，时序特征提取器为卷积网络，时序特征提取器包括第三预设数量的卷积层，手势分类器和位置分类器为全连接网络。在轻量化卷积神经网络的基础上，本发明在每个卷积层的卷积模块的前端加入了一个时序偏移模块，时序偏移模块的输入数据为前一卷积层输出的时序特征，请参考图4。也就是说，每个卷积层的输出数据为一个时序特征、一个位置卷积结果和一个手势卷积结果，其后端的卷积层以该卷积层输出的时序特征、位置卷积结果和手势卷积结果作为输入数据。由此，每一个时序偏移模块在时间维度上移动了帧与帧之间的一些通道，因此使得帧间的信息得到了交换，也就是说每个卷积层都会融合历史的前一帧信息，在训练时模型可以融合历史帧的部分特征进行当前帧的预测。
53.在一种优选的实现方式中，考虑到手势动作都是短时动作，时序特征提取器设置十个卷积层，即在训练阶段，每一帧都会融合历史的十帧信息（相机采样帧率约十二帧），综合该十帧信息对当前行为状态进行预测。
54.需要说明的是，在训练阶段，每个样本包括多帧连续图像，每个样本最多只包含一类手势动作，每个训练样本最终预测出一个手势类别（无手势也属于其中一种手势类别）。并且，在将样本输入时序特征提取器之前，将不同时长的样本都均匀采样到相同帧数，固定网络的输入大小。
55.在一种优选的实现方式中，为增加时序上的多样性，采用多种时序增强策略如时序采样、时序裁剪、部分动作可逆手势加入了时序翻转，形成时序特征提取器的输入数据。
56.基于上述说明，如图5所示，对手势识别模型进行训练包括：s510：将连续图像样本输入初始模型。
57.s520：连续图像样本经第三预设数量的卷积层后获得的手势卷积结果和位置卷积结果。
58.s530：将手势卷积结果和位置卷积结果分别输入手势分类器和位置分类器，获得第二手势类别检测结果和第二位置类别检测结果。
59.s540：依据第二手势类别检测结果与连续图像样本的手势类别标签之间、第二位
置类别检测结果与连续图像样本的实际位置类别标签之间的损失函数对初始模型进行迭代训练，获得手势识别模型。
60.在一种优选的实现方式中，如图3所示，处理模块还包括位置调制器，位置调制器输出座舱内所有座舱位置的第二独热的调制向量。第二独热的调制向量是依据连续图像样本的实际位置类别标签（即连续图像样本中的手势动作人实际所在的座舱位置）生成的。具体地，如图3所示，位置调制器通过连续图像样本的实际位置类别标签生成一个独热的调制向量（1*n），经过可学习的特征映射层，生成与位置卷积结果相同长度的调制特征（1*c），并与位置卷积结果进行点积，将点积结果输入位置分类器，进行类别先验的特征增强，进而使得位置分类更加鲁棒。
61.基于位置调制器，在一种可能的实现方式中，在训练阶段，位置分类器的输入数据为位置卷积结果和位置调制器生成的第二独热的调制向量的点积。
62.需要说明的是，在训练阶段，位置调制器将第二独热的调制向量作为位置分类器的输入数据，但是在模型的使用阶段（即推理阶段），利用位置调制器的第一独热的调制向量对位置分类器的第一位置分类结果进行投票（请见上述步骤p1）。
63.在一种可能的实现方式中，位置分类器的结果包括所有座舱位置的第一位置分类结果，通过实时图像获得每个座舱位置的第一独热的调制向量。在此基础上，步骤p1中的投票具体为，计算每个座舱位置的第一位置分类结果与第一独热的调制向量的点积，将得分最高的座舱位置作为第二位置分类结果。
64.在另一种可能的实现方式中，位置分类器的结果只有一个座舱位置的第一位置分类结果，通过实时图像获得了所有座舱位置的第一独热的调制向量。在此基础上，步骤p1中的投票具体为，计算该第一位置分类结果与每个第一独热的调制向量的加权和，作为第二位置分类结果。
65.在推理阶段，由于位置调制器作用于位置分类器的输出端，且调制种类仅为车上的座舱位置总数量，计算量较小，对效率影响较小。
66.在一种优选的实现方式中，如图3所示，处理模块还包括位置回归器，位置回归器的输入数据为时序特征提取器的输出数据，位置回归器的输出数据为连续图像样本中的手势动作人的中心点，记为第二中心点。在训练过程中，通过离线人体检测模型对连续图像样本中每一帧进行人体检测，获得每一帧中手势动作人的中心点，然后将所有帧的中心点取平均，获得连续图像样本中的手势动作人的实际中心点，记为第三中心点，如图3中右下方的图像中方框中心的点。第三中心点作为监督信号进行损失计算。
67.基于位置回归器，在一种可能的实现方式中，在训练阶段，连续图像样本经第三预设数量的卷积层后还获得手势动作人的第二中心点；并且，还利用第三中心点与第二中心点之间的损失函数对初始模型进行迭代训练。可以理解地，在训练阶段，当连续图像样本中没有用户进行手势行为（即无手势）的时候，位置分类器输出的位置检测结果为“无位置
ꢀ”
，此时，位置回归器不参与损失计算。
68.因此，在该优选的实现方式中，损失函数分为两部分，一部分为位置分类监督，另一部分为手势动作人的位置中心点回归监督。
69.基于上述训练过程，在一种可能的实现方式中，如图4所示，训练后的处理模块还包括偏移特征存储模块。在推理阶段，时序特征提取器在处理每一帧图像时，每个卷积层输
出的时序特征均存储在偏移特征中，并且偏移特征存储模块只存储同一帧的所有时序特征，这些时序特征与下一帧实时图像同时输入时序特征提取器，随后擦除，为下一帧的时序特征的存储做好准备。在推理阶段，时序特征提取器将上一帧的时序特征作为当前帧的历史帧信息进行分析处理，由此实现了推理阶段的时序信息利用。
70.在一种优选的实现方式中，在推理阶段，座舱内手势交互方法还包括：s130：在获得第一手势类别检测结果（请见s120）之后，利用当前帧和当前帧之前的连续第一预设数量帧的手势类别检测结果进行投票，确定当前帧的第一手势类别检测结果是否有效。若有效，则执行s150；否则，返回s110。
71.在上述优选实现方式的基础上，在另一种优选的实现方式中，座舱内手势交互方法还包括：若当前帧的第一手势类别检测结果有效，则执行s140。
72.s140：利用当前帧和当前帧之前的连续第二预设数量帧的位置类别检测结果进行投票，确定当前帧的第一位置类别检测结果是否有效。若当前帧的第一位置类别检测结果有效，则执行s150；否则，返回s110。
73.在一种可能的实现方式中，如图4所示，训练完成的处理模块还包括时序结果存储模块，时序结果存储模块存储包括当前帧在内的连续第四预设数量（图4中示为t帧）的第一手势类别检测结果和第一位置类别检测结果。该时序结果存储模块采用先进先出的原则，动态进行维护，在系统中内存占用小，并且可以使手势的预测结果更加稳定，具有鲁棒性。
74.在此基础上，在确定当前帧的第一手势类别检测结果是否有效时，投票过程如下：通过计算该第四预设数量的第一手势类别检测结果的第一平均值，并判断第一平均值是否大于第一阈值。若第一平均值大于第一阈值，则当前帧的第一手势类别检测结果有效；否则，当前帧的第一手势类别检测结果无效。在确定当前帧的第一位置类别检测结果是否有效时，投票过程如下：通过计算该第四预设数量的第一位置类别检测结果的第二平均值，并判断第二平均值是否大于第二阈值。若第二平均值大于第二阈值，则当前帧的第一位置类别检测结果有效；否则，当前帧的第一位置类别检测结果无效。
75.可以理解地，可以采用其他方式对第一手势类别检测结果和第一位置类别检测结果进行投票。例如，当时间间隔较短的两帧获得的第一手势类别检测结果相同时，将二者合并，使手势类别的检测结果更加连续；当时间间隔较短的两帧获得的第一手势类别检测结果不同时，屏蔽在后的第一手势类别检测结果，确保输出的手势类别的精确性。
76.相应于上述各实施例及优选方案，本发明还提供了一种座舱内手势交互装置的实施例，如图6所示，具体可以包括实时图像接收模块610、手势识别模块620以及控制模块630。
77.实时图像接收模块610用于接收座舱内的实时图像。
78.手势识别模块620用于将实时图像输入手势识别模型，获得手势识别模型输出的第一手势类别检测结果和第一位置类别检测结果，第一手势类别检测结果指示第一手势的类型，第一位置类别检测结果指示第一手势的动作人所在的第一座舱位置。
79.控制模块630用于依据第一座舱位置上第一手势对应的控制指令控制座舱内的设备；其中，对于不同的第一座舱位置，相同的第一手势对应的控制指令不同。
80.在其中一种可能的实现方式中，手势识别模块620中的手势识别模型包括处理模
块6201、判断模块6202以及输出模块6203。
81.处理模块6201用于对实时图像进行处理，获得第一手势分类结果、第一位置分类结果以及第一手势动作人的第一中心点；判断模块6202用于判断第一中心点是否位于第一位置分类结果所指示的座舱位置所在的区域内。
82.输出模块6203用于在第一中心点位于第一位置分类结果所指示的座舱位置所在的区域内时将第一位置分类结果作为第一位置类别检测结果并输出，并且将第一手势分类结果作为第一手势类别检测结果并输出。
83.在其中一种可能的实现方式中，如图7所示，处理模块6201包括时序特征提取器710，时序特征提取器710包括偏移特征存储模块和第三预设数量的卷积层，每个卷积层依次包括时序偏移模块和卷积模块，时序偏移模块的输入数据为前一卷积层输出的时序特征，偏移特征存储模块只存储同一帧获得的第三预设数量的时序特征；时序特征提取器的输入数据为偏移特征存储模块内的所有时序特征和实时图像。
84.在其中一种可能的实现方式中，处理模块6201还包括位置调制器720、投票模块730以及与时序特征提取器710的输出端连接的手势分类器740和位置分类器750。
85.位置分类器750输出第一位置分类结果，手势分类器740输出第一手势分类结果，位置调制器720输出座舱内所有座舱位置的第三独热的调制向量。
86.投票模块730用于利用座舱内所有座舱位置的第三独热的调制向量对第一位置分类结果进行投票，确定第二位置分类结果。其中，第三独热的调制向量是依据实时图像的实际位置类别标签生成的。
87.在其中一种可能的实现方式中，处理模块6201还包括位置回归器760，位置回归器760的输入数据为时序特征提取器的输出数据，位置回归器760的输出数据为第一中心点。
88.在其中一种可能的实现方式中，在训练阶段，位置分类器750的输入数据为位置卷积结果和位置调制器720生成的第四独热的调制向量的点积，第四独热的调制向量是依据连续图像样本的实际位置类别标签生成的。
89.应理解以上图6-7所示的座舱内手势交互装置的各个部件的划分仅仅是一种逻辑功能的划分，实际实现时可以全部或部分集成到一个物理实体上，也可以物理上分开。且这些部件可以全部以软件通过处理元件调用的形式实现；也可以全部以硬件的形式实现；还可以部分部件以软件通过处理元件调用的形式实现，部分部件通过硬件的形式实现。例如，某个上述模块可以为单独设立的处理元件，也可以集成在电子设备的某一个芯片中实现。其它部件的实现与之类似。此外这些部件全部或部分可以集成在一起，也可以独立实现。在实现过程中，上述方法的各步骤或以上各个部件可以通过处理器元件中的硬件的集成逻辑电路或者软件形式的指令完成。
90.例如，以上这些部件可以是被配置成实施以上方法的一个或多个集成电路，例如：一个或多个特定集成电路（application specific integrated circuit；以下简称：asic），或，一个或多个微处理器（digital singnal processor；以下简称：dsp），或，一个或者多个现场可编程门阵列（field programmable gate array；以下简称：fpga）等。再如，这些部件可以集成在一起，以片上系统（system-on-a-chip；以下简称：soc）的形式实现。
91.综合上述各实施例及其优选方案，本领域技术人员可以理解的是，在实际操作中，
本发明适用于多种实施方式，本发明以下述载体作为示意性说明：（1）一种座舱内手势交互设备，其可以包括：一个或多个处理器、存储器以及一个或多个计算机程序，其中所述一个或多个计算机程序被存储在所述存储器中，所述一个或多个计算机程序包括指令，当所述指令被所述设备执行时，使得所述设备执行前述实施例或等效实施方式的步骤/功能。
92.图8为本发明座舱内手势交互设备的实施例的结构示意图，其中，该设备可以是电子设备也可以是内置于上述电子设备的电路设备。上述电子设备可以为无人机、智能（汽）车及车载设备等。本实施例对座舱内手势交互设备的具体形式不作限定。
93.具体如图8所示，座舱内手势交互设备900包括处理器910、存储器930、摄像头990和传感器901。其中，处理器910和存储器930之间可以通过内部连接通路互相通信，传递控制和/或数据信号，该存储器930用于存储计算机程序，该处理器910用于从该存储器930中调用并运行该计算机程序。上述处理器910可以和存储器930可以合成一个处理装置，更常见的是彼此独立的部件，处理器910用于执行存储器930中存储的程序代码来实现上述功能。具体实现时，该存储器930也可以集成在处理器910中，或者，独立于处理器910。
94.除此之外，为了使得座舱内手势交互设备900的功能更加完善，该设备900还可以包括输入单元960、显示单元970、音频电路980等中的一个或多个，所述音频电路还可以包括扬声器982、麦克风984等。其中，显示单元970可以包括显示屏。
95.进一步地，上述座舱内手势交互设备900还可以包括电源950，用于给该设备900中的各种器件或电路提供电能。
96.应理解，图8所示的座舱内手势交互设备900能够实现前述实施例提供的方法的各个过程。该设备900中的各个部件的操作和/或功能，可分别为了实现上述方法实施例中的相应流程。具体可参见前文中关于方法及装置等实施例的描述，为避免重复，此处适当省略详细描述。
97.应理解，图8所示的座舱内手势交互设备900中的处理器910可以是片上系统soc，该处理器910中可以包括中央处理器（central processing unit；以下简称：cpu），还可以进一步包括其他类型的处理器，例如：图像处理器（graphics processing unit；以下简称：gpu）等，具体在下文中再作介绍。
98.总之，处理器910内部的各部分处理器或处理单元可以共同配合实现之前的方法流程，且各部分处理器或处理单元相应的软件程序可存储在存储器930中。
99.（2）一种可读存储介质，在可读存储介质上存储有计算机程序或上述装置，当计算机程序或上述装置被执行时，使得计算机执行前述实施例或等效实施方式的步骤/功能。
100.在本发明所提供的几个实施例中，任一功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的某些技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以如下所述软件产品的形式体现出来。
101.（3）一种计算机程序产品（该产品可以包括上述装置），该计算机程序产品在终端设备上运行时，使终端设备执行前述实施例或等效实施方式的座舱内手势交互方法。
102.通过以上的实施方式的描述可知，本领域的技术人员可以清楚地了解到上述实施方法中的全部或部分步骤可借助软件加必需的通用硬件平台的方式来实现。基于这样的理
解，上述计算机程序产品可以包括但不限于是指app；接续前文，上述设备/终端可以是一台计算机设备（例如手机、pc终端、云平台、服务器、服务器集群或者诸如媒体网关等网络通信设备等)。并且，该计算机设备的硬件结构还可以具体包括：至少一个处理器，至少一个通信接口，至少一个存储器和至少一个通信总线；处理器、通信接口、存储器均可以通过通信总线完成相互间的通信。其中，处理器可能是一个中央处理器cpu、dsp、微控制器或数字信号处理器，还可包括gpu、嵌入式神经网络处理器（neural-network process units；以下简称：npu）和图像信号处理器（image signal processing；以下简称：isp），该处理器还可包括特定集成电路asic，或者是被配置成实施本发明实施例的一个或多个集成电路等，此外，处理器可以具有操作一个或多个软件程序的功能，软件程序可以存储在存储器等存储介质中；而前述的存储器/存储介质可以包括：非易失性存储器(non-volatile memory)，例如非可移动磁盘、u盘、移动硬盘、光盘等，以及只读存储器（read-only memory；以下简称：rom）、随机存取存储器（random access memory；以下简称：ram）等。
103.本发明实施例中，“至少一个”是指一个或者多个，“多个”是指两个或两个以上。“和/或”，描述关联对象的关联关系，表示可以存在三种关系，例如，a和/或b，可以表示单独存在a、同时存在a和b、单独存在b的情况。其中a，b可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。“以下至少一项”及其类似表达，是指的这些项中的任意组合，包括单项或复数项的任意组合。例如，a，b和c中的至少一项可以表示：a，b，c，a和b，a和c，b和c或a和b和c，其中a，b，c可以是单个，也可以是多个。
104.本领域技术人员可以意识到，本说明书中公开的实施例中描述的各模块、单元及方法步骤，能够以电子硬件、计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。本领域技术人员可以对每个特定的应用来使用不同方式来实现所描述的功能，但是这种实现不应认为超出本发明的范围。
105.以及，本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可。尤其，对于装置、设备等实施例而言，由于其基本相似于方法实施例，所以相关之处可参见方法实施例的部分说明即可。以上所描述的装置、设备等实施例仅仅是示意性的，其中作为分离部件说明的模块、单元等可以是或者也可以不是物理上分开的，即可以位于一个地方，或者也可以分布到多个地方，例如系统网络的节点上。具体可根据实际的需要选择其中的部分或者全部模块、单元来实现上述实施例方案的目的。本领域技术人员在不付出创造性劳动的情况下，即可以理解并实施。
106.以上依据图式所示的实施例详细说明了本发明的构造、特征及作用效果，但以上仅为本发明的较佳实施例，需要言明的是，上述实施例及其优选方式所涉及的技术特征，本领域技术人员可以在不脱离、不改变本发明的设计思路以及技术效果的前提下，合理地组合搭配成多种等效方案；因此，本发明不以图面所示限定实施范围，凡是依照本发明的构想所作的改变，或修改为等同变化的等效实施例，仍未超出说明书与图示所涵盖的精神时，均应在本发明的保护范围内。

再多了解一些

1/2 1 2 下一页尾页

本文用于创业者技术爱好者查询，仅供学习研究，如用于商业用途，请联系技术所有人。

上一篇：返回列表
下一篇：MIXBAS通用数字孪生可视化监控平台的制作方法

一种座舱内手势交互方法及装置与流程

相关文献

最热文献