一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

使用变分自动编码器神经网络算法的基于雷达的手势分类的制作方法

2023-02-19 09:07:09 来源:中国专利 TAG:

understanding intra-and inter-class objective for embedding learning”(arxiv abs/1908.01281(2020))
26.y.wen、k.zhang、z.li和y.qiao在2016年的“a discriminative feature learning approach for deep face recognition”(in european conference on computer vision.springer,499-515)
27.t.stadelmayer、m.stadelmayer、a.santra、r.weigel和f.lurz在2020年的“human activity classification using mm-wave fmcw radar by improved representation learning”(in proceedings of the 4th acm workshop on millimeter-wave networks and sensing systems(london,united kingdom)(mmnets’20).association for computing machinery,new york,ny,usa,article 1,6pages)
28.已经观察到,这样的基于使用已知技术的雷达测量的手势识别有时会表现出有限的精度。


技术实现要素:

29.因此,需要基于雷达测量的手势识别的先进技术。特别地,需要使用具有更高精度的雷达测量来进行手势识别。
30.这种需要通过独立权利要求的特征来满足。从属权利要求的特征定义了实施例。
31.在下文中,将公开促进基于雷达测量的手势识别的技术。神经网络算法的一种特定类型的架构(即,变分自动编码器神经网络算法)可以用于促进手势识别。公开了用于训练变分自动编码器神经网络算法的特定训练技术。本文中公开的这些技术促进稳健的手势识别,也适用于其中雷达信号暴露于噪声和/或其中遇到与各种手势相关联的运动模式的用户间可变性的场景。此外,未知运动模式——与任何预定义手势类无关——可以被可靠地检测并且拒绝。
32.一种计算机实现的方法包括获取场景的雷达测量的一个或多个位置时间谱图。场景包括对象。该计算机实现的方法还包括基于一个或多个位置时间谱图并且基于变分自动编码器神经网络算法的特征嵌入来预测由对象执行的手势的手势类。
33.一种计算机程序或计算机程序产品或计算机可读存储介质包括程序代码。该程序代码可以由处理器加载和执行。在执行程序代码时,处理器执行方法。计算机实现的方法包括获取场景的雷达测量的一个或多个位置时间谱图。场景包括对象。该计算机实现的方法还包括基于一个或多个位置时间谱图并且基于变分自动编码器神经网络算法的特征嵌入来预测由对象执行的手势的手势类。
34.一种设备包括处理器和存储器。处理器可以从存储器加载程序代码并且执行程序代码。在加载并且执行程序代码时,处理器被配置为获取场景的雷达测量的一个或多个位置时间谱图。场景包括对象。处理器还被配置为基于一个或多个位置时间谱图并且基于变分自动编码器神经网络算法的特征嵌入来预测由对象执行的手势的手势类。
35.一种训练变分自动编码器神经网络算法的计算机实现方法,该算法用于预测由场景的对象执行的手势的手势类,该手势类是从多个手势类中选择的,该方法包括获取包括对象的场景的雷达测量的一个或多个训练位置时间谱图的多个训练集合。多个训练集合中的每个训练集合与指示相应手势类的相应真实标签相关联。此外,该计算机实现的方法包
括基于多个训练集合和相关联的真实标签来训练变分自动编码器神经网络算法。
36.一种计算机程序或计算机程序产品或计算机可读存储介质包括程序代码。该程序代码可以由处理器加载和执行。在执行程序代码时,处理器执行训练变分自动编码器神经网络算法的方法,该算法用于预测由场景的对象执行的手势的手势类,该手势类是从多个手势类中选择的。该方法包括获取包括对象的场景的雷达测量的一个或多个训练位置时间谱图的多个训练集合。多个训练集合中的每个训练集合与指示相应手势类的相应真实标签相关联。此外,该计算机实现的方法包括基于多个训练集合和相关联的真实标签来训练变分自动编码器神经网络算法。
37.一种设备包括处理器和存储器。处理器可以从存储器加载程序代码并且执行程序代码。在加载并且执行程序代码时,处理器被配置为获取包括对象的场景的雷达测量的一个或多个训练位置时间谱图的多个训练集合。多个训练集合中的每个训练集合与指示由对象执行的手势的相应手势类的相应真实标签相关联,该手势类是从多个手势类中选择的。该计算机实现的方法还包括基于多个训练集合和相关联的真实标签来训练变分自动编码器神经网络算法。
38.应当理解,上述特征和下文将要解释的特征不仅可以以所指出的相应组合使用,而且可以以其他组合或单独使用,而不脱离本发明的范围。
附图说明
39.图1示意性地示出了根据各种示例的包括雷达传感器和处理设备的系统;
40.图2更详细地示意性地示出了根据各种示例的图1的雷达传感器;
41.图3示意性地示出了根据各种示例的多个手势和相关联的手势类;
42.图4示意性地示出了根据各种示例的用于使用变分自动编码器神经网络算法进行手势分类的处理流水线;
43.图5示意性地示出了根据各种示例的方法的流程图;
44.图6示意性地示出了根据各种示例的变分自动编码器神经网络算法的细节;
45.图7示意性地示出了根据各种示例的变分自动编码器神经网络算法的方面;
46.图8是根据各种示例的方法的流程图;
47.图9示意性地示出了根据各种示例的包括雷达测量数据的数据样本的数据帧;
48.图10示意性地示出了根据各种示例的在存在执行的手势的情况下从雷达测量数据中获取的距离估计的时间依赖性;
49.图11示意性地示出了根据各种示例的“顺时针”手势的原始和已滤波位置时间谱图;
50.图12示意性地示出了根据各种示例的“手指挥动”手势的原始和已滤波位置时间谱图;
51.图13示意性地示出了根据各种示例的用于确定位置时间谱图的处理流水线;
52.图14示意性地示出了根据各种示例的用于确定位置时间谱图的处理流水线;以及
53.图15示意性地示出了根据各种示例的用于训练变分自动编码器神经网络算法的处理流水线。
具体实施方式
54.本公开的一些示例通常提供多个电路或其他电气设备。对电路和其他电气设备以及由每个设备提供的功能的所有引用并不旨在限于仅包含本文中图示和描述的内容。尽管可以将特定标签分配给所公开的各种电路或其他电气设备,但这样的标签并非旨在限制电路和其他电气设备的操作范围。这样的电路和其他电气设备可以基于期望的特定类型的电气实现以任何方式彼此组合和/或分离。应当认识到,本文中公开的任何电路或其他电气设备可以包括任何数目的微控制器、图形处理器单元(gpu)、集成电路、存储器设备(例如,闪存、随机存取存储器(ram)、只读存储器(rom)、电可编程只读存储器(eprom)、电可擦除可编程只读存储器(eeprom)或其其他合适的变体)、以及相互协作以执行本文中公开的(多个)操作的软件。此外,电气设备中的任何一个或多个可以被配置为执行包含在非暂态计算机可读介质中的程序代码,该程序代码被编程为执行任何数目的所公开的功能。
55.在下文中,将参考附图详细描述本公开的示例。应当理解,以下对示例的描述不应当被理解为限制性的。本公开的访问不旨在由以下描述的示例或附图来限制,这些示例仅被认为是说明性的。
56.附图不应当被视为示意性表示,并且附图中所示的元件不一定按比例示出。相反,各种元件被表示为使得它们的功能和一般目的对于本领域技术人员来说变得很清楚。附图中示出或本文中描述的功能块、设备、组件或其他物理或功能单元之间的任何连接或耦合也可以通过间接连接或耦合来实现。组件之间的耦合也可以通过无线连接建立。功能块可以用硬件、固件、软件或其组合来实现。
57.本公开的各种示例通常涉及手势分类。特别地,使用本文中描述的技术,可以识别手部手势或手指手势或使用手持对象执行的手势。这样的对象可以在自由空间中执行手势。即,手势可以由对象的3-d运动来定义,例如,沿着轨迹和/或包括自旋转。还可以识别其他种类和类型的手势,例如身体姿势手势或面部表情手势。
58.具体地,手势分类可以用于预测手势的手势类。例如,可以有一组预定义手势类。然后,一旦这样的对象执行手势,就可以判断该手势是否是手势类中的一个的一部分。为此,可以判断手势的某些特征是否匹配与手势类相关联的相应特征距离。
59.在一些示例中,可选地,可以确定该手势不是任何一个手势类的一部分——例如,而是尚未定义的手势类的一部分或者对应于不像手势的一般对象运动。即,可以标识新的手势类。
60.可以设想各种手势类。用于手势分类的手势类集合的特定选择与本文中描述的技术的功能没有密切关系。尽管如此,在下文中,将针对可能的手势类给出一些示例:
61.[0062][0063]
表1:可以在相应预定义集合中使用以实现手势分类的各种手势类的示例。这些手势类定义了可以识别的手势。将结合图3解释关于这种手势类的进一步细节。
[0064]
基于手势分类,可以实现hmi。可以控制机器。例如,可以根据识别手势的手势类来触发不同动作。hmi可以促进用户对机器的控制。
[0065]
作为一般规则,本文中描述的技术不限于hmi的特定用例。示例用例包括:手势控制的可穿戴和移动设备、手势控制的智能电视、投影仪、手势控制的智能家居和智能设备、汽车信息娱乐系统、增强现实虚拟现实(ar-vr)、反馈系统。手势分类可以替代减轻hmi所需要的触摸和点击需求。
[0066]
本文中公开的各种技术采用包括对象(例如,手部或手指或诸如触控笔或信标等手持对象)的场景的雷达测量来获取可以在其上实现手势分类的数据。例如,可以实现短程雷达测量。这里,雷达啁啾可以用于测量场景中范围为几十厘米或米的一个或多个对象的位置。
[0067]
根据本文中公开的各种示例,毫米波雷达单元可以用于执行雷达测量;雷达单元作为调频连续波(fmcw)雷达操作,该fmcw雷达包括毫米波雷达传感器电路、一个或多个传输器和一个或多个接收器。毫米波雷达单元可以传输和接收20ghz至122ghz范围内的信号。备选地,也可以使用该距离之外的频率,诸如1ghz到20ghz之间的频率、或者122ghz到300ghz之间的频率。
[0068]
雷达单元可以向场景传输多个雷达脉冲,诸如啁啾。这是指脉冲操作。在一些实施例中,啁啾是线性啁啾,即,啁啾的瞬时频率随时间线性变化。
[0069]
多普勒频移可以用于确定目标的速度。因此,由雷达单元提供的测量数据可以指示场景中多个对象的深度位置。还可以指示速度。
[0070]
与基于相机的手势分类相比,基于雷达测量的手势分类具有一些优势,诸如:不受光照条件的影响;手部可见性遮挡;保护隐私;能够捕获细微的手部手势运动。
[0071]
本文中描述的各种技术采用机器学习算法来预测由对象执行的手势的手势类。这是基于从雷达测量中获取的测量数据。因此,机器学习算法可以称为分类算法或手势分类算法。
[0072]
ml算法的一个示例实现是神经网络算法(以下简称为神经网络nn)。nn通常包括可以布置在多个层中的多个节点。给定层的节点与后续层的一个或多个节点连接。非相邻层之间的跳过连接也是可能的。通常,连接也称为边。每个节点的输出可以基于连接到输入的一个或多个节点中的每个节点的值来计算。非线性计算是可能的。不同层可以执行不同变
换,例如池化、最大池化、加权或未加权求和、非线性激活、卷积等。nn可以包括布置在输入层与输出层之间的多个隐藏层。
[0073]
由节点执行的计算由与节点相关联的相应的权重设置。权重可以在nn的训练中确定。为此,可以使用数值优化来设置权重。可以在其当前训练中的nn的输出之间定义损失函数,然后可以最小化损失函数。为此,可以采用梯度下降技术,其中权重从nn的后到前进行调节。
[0074]
可以分别由一个或多个编码器分支和一个或多个解码器分支实现空间收缩和空间扩展。即,输入数据和输出数据的x-y分辨率可以沿着一个或多个编码器分支(解码器分支)逐层减小(增加)。编码器分支提供输入数据的收缩,而解码器分支提供扩展。
[0075]
同时,特征通道可以分别沿着一个或多个编码器分支和一个或多个解码器分支增加和减少。一个或多个编码器分支和一个或多个解码器分支经由瓶颈被连接。
[0076]
nn的一个特定实现是自动编码器nn。自动编码器神经网络通常包括依次布置并且经由瓶颈被连接的编码器分支和解码器分支。远离输入层和输出层,特别是在瓶颈处,潜在特征表示(特征嵌入)被获取。
[0077]
特征嵌入可以指定某些特征的存在或不存在。因此,特征嵌入可以被看作是输入的压缩形式。
[0078]
对于自动编码器nn,基于特征嵌入,使用解码器分支,目的是重构输入。因此,可以在自动编码器nn的训练期间定义损失函数,以惩罚输入与输出之间的差异。因此,可以使用无监督学习来训练自动编码器nn。
[0079]
ann的一个具体实现是变分自动编码器nn(vaenn)。vaenn可以用于本文中公开的各种示例中。vaenn具有以概率方式表示潜在特征的特征嵌入。具体地,可以确定特征嵌入的每个潜在特征的概率分布,通常是高斯分布。概率分布可以通过其均值和宽度来定义。vaenn通常是技术人员已知的,例如从kingma、diederik p.和max welling的“auto-encoding variational bayes”(arxiv preprint arxiv:1312.6114(2013))。
[0080]
本文中描述的各种技术涉及使用vaenn的手势类的推理/预测;本文中描述的其他技术与vaenn的适当训练有关。
[0081]
根据各种示例,可以使用vaenn来预测由场景的对象执行的手势的手势类。更具体地,预测可以基于vaenn的特征嵌入。这表示,可以考虑例如由vaenn的特征嵌入描述的每个潜在特征的相应概率分布的均值或宽度,以确定某个手势是否属于给定手势类。这里,特征空间可以被构造成区域——该区域与不同手势类相关联并且从vaenn的训练中获取——并且可以检查针对某些测量数据而获取的vaenn的特征嵌入的分布是否在这样的区域中的一个内。这些区域可以具有n维超球面,其中n是特征空间的维度。
[0082]
接下来,将描述关于提供给vaenn的输入数据的细节。作为一般规则,可以对从雷达传感器的模数转换器(adc)获取的原始数据样本进行预处理以获取输入数据。已经发现,某些类型的输入数据特别有助于促进准确的手势分类。
[0083]
作为一般规则,在本文中描述的各种示例中,一个或多个位置时间谱图——从雷达测量中获取的——可以用作vaenn的输入。
[0084]
一般而言,谱图可以对与原始数据中的位置可观察量的特定值相关联的相应贡献的强度进行编码。谱图可以是二维谱图,该二维谱图关联两个位置可观察量(例如,距离和
多普勒)、或位置可观察量和时间(例如,距离和时间)。
[0085]
位置时间谱图提供场景中对象的位置信息作为时间的函数。即,位置时间谱图说明了场景中对象的一个或多个位置自由度相对于雷达传感器(位置可观察量)随时间的变化。位置时间谱图是位置可观察量的时间依赖性的类似图像的表示。雷达传感器能够测量目标的径向距离、速度和到达角。这样的信息被编码在从雷达传感器获取的原始数据的频率中。为了揭示这些物理可观察量,对原始数据进行预处理,以产生物理可观察量随时间的类似图像的表示。
[0086]
从adc输出的原始数据的预处理可以包括数据帧的二维快速傅里叶变换(fft),该数据帧被结构化为快时间维度(fast-time dimension)、慢时间维度(slow-time dimension)和天线通道。数据帧包括多个雷达脉冲(特别是啁啾)在特定采样时间内的数据样本。慢时间从啁啾到啁啾递增;快时间针对后续样本而递增。二维fft可以沿着快时间和慢时间维度。这会产生距离多普勒图像(rdi)。然后可以在rdi中选择距离区间。基于rdi,然后可以提取各种位置可观察量。例如,可以提取均值或最大距离和/或均值或最大速度/多普勒频移。这会产生距离和速度(作为最大值的均值,或作为强度向量)作为与数据帧的采样时间相关联的某个时间点的位置可观察量。也可以应用波束成形来确定均值/最大仰角或方位角。这会产生仰角和方位角(作为均值或最大值,或作为强度向量)作为位置可观察量。可以聚合多个这样的位置可观察量以生成位置时间谱图。
[0087]
一般来说,位置时间谱图可以捕获各种位置可观察量。例如,可以提供关于例如距离、速度、方位角或仰角的位置信息。
[0088]
这种使用位置时间谱图与vaenn相结合来预测手势类的技术基于以下发现:使用雷达测量的手势分类可能对手势的用户特定变化、传感器噪声特性、背景环境和未知手势或背景运动敏感。与常规机器学习问题相比,使用雷达的手势分类在实际可行的解决方案中部署时需要解决若干主要挑战:例如,手势分类应当能够处理较大类间和较低类内手势差异。手势分类应当能够拒绝任意运动或未知手势。手势分类应当能够在所有外来背景环境下工作。
[0089]
据观察,通过使用基于位置时间谱图的vaenn,可以应对这样的挑战。
[0090]
特别地,例如,与最先进的深度度量学习方法相比,可以通过获取更多的判别类来提高分类精度,并且可以实现随机手势拒绝精度。
[0091]
特别地,使用这种方法,可以考虑干扰的影响。softmax分类器——在现有技术中经常使用——提供类的可分离性,但没有区分类边界。因此,很多背景运动或其他干扰被错误地预测为使用常规技术具有高置信度的已知类中的一个。因此,基于softmax分类器的手势分类参考技术在真实环境中表现不佳。使用vaenn可以克服这样的限制。
[0092]
此外,显著简化了训练。例如,不需要获取包括现实世界场景中可能出现的所有随机运动的训练数据集。这是因为特定类范围本质上是从vaenn获取的。vaenn使特征嵌入的特征空间连续并且隐含地使手势分类对错误检测和噪声杂散具有稳健性。
[0093]
根据各种示例,训练可以考虑一个或多个损失,该损失有助于将手势类分组到特征空间中的紧密结合的群集中,从而产生更好的区分特性,从而促进拒绝任意和随机运动。此外,群集可以是超球体,以允许使用简单的策略来拒绝任意运动图像。
[0094]
图1示意性地示出了系统65。系统65包括雷达传感器70和处理设备60。处理设备60
可以从雷达传感器70获取测量数据64。处理器62——例如通用处理器(中央处理单元cpu)、现场可编程门阵列(fpga)、专用集成电路(asic)——可以经由接口61接收测量数据64并且处理测量数据64。例如,测量数据64可以包括数据帧,包括adc转换器的样本。也可以在雷达传感器70处实现另外的预处理;例如,雷达传感器70可以输出二维谱图,诸如rdi或方位仰角谱图或距离时间谱图或多普勒时间谱图或方位角时间谱图或仰角时间谱图。
[0095]
处理器62可以从存储器63加载程序代码并且执行该程序代码。处理器62然后可以执行如本文中公开的技术,例如预处理测量数据64、基于测量数据64预测手势类、控制hmi等。关于这种处理的细节将在下文中更详细地解释;然而,首先将解释关于雷达传感器70的细节。
[0096]
图2示出了关于雷达传感器70的方面。雷达传感器70包括与存储器73耦合的处理器72(标记为数字信号处理器dsp)。基于存储在存储器73中的程序代码,处理器72可以执行关于使用传输天线(tx)77和数模转换器(dac)75传输雷达脉冲86的各种功能。一旦雷达脉冲86已经被场景80反射,就可以由处理器72使用adc76和多个接收天线(rx)78-1、78-2、78-3(例如,以一半波长距离以l形排序;参见图2的插图)检测相应反射雷达脉冲87。处理器72可以更大或更小程度地处理从adc 76获取的原始数据样本。例如,可以确定并且输出数据帧。此外,可以确定谱图。
[0097]
雷达测量可以实现为基本的调频连续波(fmcw)原理。可以使用频率啁啾来实现雷达脉冲86。啁啾的频率可以在57ghz到64ghz的频率范围之间调节。传输信号被反向散射,并且具有与由所有三个接收天线捕获的反射对象的距离相对应的时间延迟。然后将接收信号与传输信号混合,然后对接收信号进行低通滤波以获取中间信号。该信号的频率明显低于传输信号,因此adc 76的采样速率可以相应降低。adc可以以2mhz的采样频率和12位的精度工作。
[0098]
如图所示,场景80包括多个对象81-83。例如,对象81、82可以对应于背景,而对象83可以与用户的手部有关。基于雷达测量,可以识别由手部执行的手势。一些手势在图3中示出。
[0099]
图3示意性地示出了这样的手势501-510和手势类520的对应标签,但是其他手势也是可能的。根据本文中描述的技术,可以可靠并且准确地对手势501-510进行分类。关于这种手势分类的细节将结合图4进行解释。
[0100]
图4示意性地示出了用于实现手势分类的处理流水线。例如,这样的处理可以由处理器62在从存储器63加载程序代码时实现。
[0101]
作为一般规则,vaenn 111基于测量数据64执行手势分类。vaenn 111提供标签115作为输出,该标签115指示在位置时间谱图中识别的手势的特定手势类520。
[0102]
在输入vaenn 111之前,可以对测量数据64进行预处理。如图4所示,多个位置时间谱图101-104可以作为输入被提供给vaenn111。
[0103]
而在图4中,示出了四个位置时间谱图101-104的计数,作为一般规则,更少或更多位置时间谱图可以用作vaenn 111的输入。例如,可以使用选自以下各项的一个或多个位置时间谱图:距离时间谱图、速度时间谱图、方位角时间谱图或仰角时间谱图。
[0104]
作为一般规则,可以将原始位置时间谱图和/或已滤波位置时间谱图作为输入提供给vaenn 111。为了获取已滤波位置时间谱图,可以应用适当滤波器。可以应用平滑滤波
器。这种滤波可以通过使用无迹卡尔曼滤波器来实现,如稍后将更详细描述的。
[0105]
不同位置时间谱图101-104可以作为不同通道提供给vaenn111。
[0106]
接下来,将解释关于vaenn 111的细节。首先,将结合图5说明vaenn 111的训练和使用vaenn 111的推理。
[0107]
图5是根据各种示例的方法的流程图。该方法可以由至少一个处理器执行,例如,在从存储器加载程序代码时。例如,图4的方法可以由处理器72和/或处理器62(参见图1和图2)执行。
[0108]
图5的方法涉及诸如图4的vaenn 111等nn的操作和维护。
[0109]
在框3005,实现nn的训练。这里,设置nn的多个参数的值。这通常基于由相应损失函数定义的一个或多个损失。每个损失可以对应于损失函数的相应贡献。每个损失可以基于nn在其当前训练状态下的预测与对应基本事实(ground truth)之间的差异来确定。不同损失使用不同度量来量化这种差异和/或使用不同预测和/或输入。
[0110]
可以实现迭代优化。这里,训练集合的多个元素可以用于在多次迭代中调节权重。每次迭代可以包括反向传播训练算法,以从nn的输出层开始向输入层调节权重。
[0111]
一旦框3005的训练完成,就可以在框3010实现推理。这里,可以在不依赖对应基本事实的情况下进行场景手势的手势类的预测。使用在框3005的训练中确定的nn的权重。
[0112]
根据框3010的推理,可以实现一个或多个应用。例如,可以控制hmi。可以使用hmi来控制机器。
[0113]
图6示意性地示出了关于vaenn 111的方面。如图6所示,vaenn 111包括编码器分支(cnn)141和解码器分支142。解码器分支142对特征嵌入149进行操作,该特征嵌入149表示作为输入提供给编码器分支141的位置时间谱图101-104的潜在特征。
[0114]
作为一般规则,在框3010(参见图5)的推理期间可能不需要解码器分支142,而是仅在框3005的训练期间需要解码器分支142来计算相应重构损失。
[0115]
潜在特征由相应概率分布x的平均位置/均值144和宽度143(例如,标准差σ2)表示。概率分布由采样操作145采样并且相应采样点将输入提供给解码器分支142。解码器分支142输出位置时间谱图101-104的重构181-184。
[0116]
手势类520基于特征嵌入149来预测。因此,标识手势类520的标签115——例如“l-r swipe”——从特征嵌入149中提取。这将在接下来详细解释。
[0117]
详细地,对于多组位置时间谱图101-104中的每个位置时间谱图,可以确定潜在特征空间200中的相应数据点201-204。即,每个数据点201-204描述相应手势的相应观察。这些数据点201-204可以对应于均值144。更一般地,它们可以基于分布来确定,例如基于均值144和宽度143。
[0118]
然后,可以在特征空间200中定义预定义区域211-213,并且可以检查数据点201-204是否在这些预定义区域211-213中的一个内。
[0119]
这些预定义区域211-213可以从vaenn的训练中获取,这将在下面详细公开。
[0120]
图6中还示出了其中多个数据点204形成群集214的场景,群集214从预定义区域211-213中的任何一个偏移。可以使用这样的群集214来定义新的手势类,这也将在下面更详细地解释。
[0121]
作为一般规则,有很多选项可用于实现编码器分支141和解码器分支142。在图7中
示出了可能的示例以及相应维度。
[0122]
图7示出了关于vaenn 111的方面。图7示出了编码器分支141和解码器分支142的实现的具体示例。
[0123]
如图7所示,对于编码器分支141,输入总共四个位置时间谱图101-104作为通道维度,每个位置时间谱图具有60
×
32像素的维度。编码器分支141包括三个卷积层,使用滤波器大小(5
×
)、(3
×
3)和(3
×
3)、以及32、32和64个通道,随后是速率为0.5的脱离层(dropout layer)。为了减小数据大小,在前两个卷积层之后添加池化大小为(2,2)的两个最大池化层。之后,使用输出大小为32的全连接层将张量平坦化并且投影到特征空间200。
[0124]
解码器分支142通常对应于编码器分支141;这里,最大池化层被替换为上采样层,并且卷积层被替换为转置卷积层。
[0125]
vaenn 111不是使用单个全连接层(如用于自动编码器nn),而是并行使用两个全连接层。一个全连接层的输出被解释为特征嵌入149的高斯分布的均值144,而另一全连接层的输出被解释为高斯分布的宽度143。
[0126]
在训练期间(当解码器分支142处于活动状态时),从该分布中采样值并且将该值用于重构输入;这是采样操作145。
[0127]
由于这种生成行为,用于重构的解码器分支142的输入每次都不同,尽管输入样本和真实标签保持相同。变化被有效地添加到输入数据中。因此,vaenn 111学习由连续分布生成的嵌入式特征到相同滤波图像标签的映射。结果,特征空间200被强制为连续的并且邻近的嵌入式特征被重构为相同输出。因此,vaenn架构已经隐式地在特征空间200中强制执行紧密结合的类群集。由于架构的生成方面,获取了平滑和紧凑的类群集。因此,所提出的架构非常适合识别由背景运动产生的嵌入式特征。
[0128]
图8是根据各种示例的方法的流程图。图8的方法可以在从存储器加载程序代码时由处理器执行。例如,图8的方法可以由系统65执行。例如,图8的方法的至少部分可以由设备60的处理器62实现。该方法的至少一些部分也可以由雷达传感器70的dsp 72执行(参见图2)。
[0129]
图8的方法实现手势分类。基于雷达测量,可以对观察到的手势进行分类。因此,图8的方法可以实现根据图5的方法的框3010的推理。手势分类可以使用如上所述的vaenn 111来实现。
[0130]
图8的方法包括多个框3105、3110、3115和3120,它们一起实现以获取——框3140——用于在框3150执行手势分类的输入数据。
[0131]
作为一般规则,在框3140获取用于执行手势分类的输入数据可以在各种示例中不同地配置。例如,取决于输入数据的种类和类型,框3140可以不同地实现。为了说明,在一个简单场景中,可以预先获取输入数据并且将其存储在存储器中。预处理也可以由雷达传感器执行。在下文中,将结合框3105、3110、3115和3120来解释框3140的一个示例实现,但是其他实现也是可能的。将通过参考图8、以及图9至图14来描述该实现。下面将解释的实现促进基于一个或多个位置时间谱图来预测手势的手势类,如上面结合图4所解释的。
[0132]
最初,在框3105,通过雷达测量获取原始数据。这可以包括触发雷达啁啾的传输和读取从adc输出的数据样本(参见图2:adc 76)。
[0133]
数据样本49在图9中示出。
[0134]
图9示意性地示出了关于测量数据64的方面。图9示意性地示出了数据帧45形式的原始数据的结构。
[0135]
典型地,数据帧45是通过相对于快时间维度42和慢时间维度41布置从adc(如结合图2解释的)作为原始数据而获取的数据样本49来定义的(图9是示意性说明图;adc不是直接对接收信号进行采样,而是对通过将传输信号与接收信号混合而获取的已处理信号进行采样;这通常被称为频率调制连续波fmcw雷达测量)。对于来自adc的每个后续读数,沿着快时间维度42的位置递增(这在图9中的圆形插图中说明),而沿着慢时间维度41的位置相对于后续雷达啁啾48递增。可以存在附加维度,即,天线维度43(图9中未示出),该附加维度提供基于波束形成的角分辨率。例如,在图2中,已经讨论了具有三个接收通道的示例。
[0136]
数据帧45的持续时间通常由测量协议定义。例如,测量协议可以被配置为在数据帧45内使用32个啁啾。啁啾重复时间设置为t
prt
=0.39ms,这导致最大分辨多普勒速度v
max
=3.25ms-1
。啁啾的频率范围可以从f
min
=58ghz到f
max
=63ghz,并且因此覆盖b=5ghz的带宽。因此,距离分辨率为δr=3.0cm。每个啁啾以2mhz的采样频率被采样64次,导致总可观察距离为r
max
=0.96m。通常,帧重复频率可以设置为每秒30帧。
[0137]
因此,通常,数据帧45的持续时间远短于手势的持续时间(手势持续时间)。因此,聚合来自多个后续数据帧45的数据以确定被每个位置时间谱图101-103覆盖的持续时间会很有帮助。与这种聚合相关的方面在图10中示出。
[0138]
图10示意性地示出了对象83的测量距离251对时间的依赖性。如图所示,可以确定在其间执行手势501-510的持续时间250(手势持续时间)。详细地,如图10所示,在手势持续时间250期间,由雷达测量观察到的距离251作为时间的函数显著变化——即,以较大变化速率。另一方面,在手势持续时间250之前和之后,距离251是相当静态的。虽然图10为了说明的目的而示出了距离251作为雷达测量的可观察量的示例,但是其他可观察量(诸如速度或角度)也可以表现出这种定性行为。更一般地,手势持续时间250可以对应于在场景80中观察到的活动增加的持续时间。
[0139]
根据各种示例,可以执行手势检测以确定手势持续时间250。然后可以丢弃手势持续时间250之外的测量数据,或者至少不将其用于手势分类。
[0140]
因此,并且再次参考图8,在框3110,可以执行手势检测。手势检测——不同于在框3150实现的手势分类——不需要区分不同类型的手势,而是仅仅标识手势被执行。
[0141]
然后可以丢弃(例如,设置为零)手势持续时间250之外的数据,手势持续时间250定义正在执行的手势的开始时间和停止时间。这可以称为时间选通。
[0142]
作为一般规则,位置时间谱图可以通过基于一个或多个对应触发事件对雷达测量的测量数据进行时间选通来获取。这些一个或多个触发事件可以与手势检测相关联。
[0143]
有多种选项可用于实现这样的触发事件以促进手势检测。例如,可以实现测量数据的位置可观察量(例如,距离或速度或方位角或仰角)的变化速率与预定义阈值之间的比较(参见图10,在手势持续时间250的开始存在突然变化,并且在测量持续时间结束只有很小的变化/没有变化)。因此,可以针对距离或另一位置坐标(诸如速度或角度)的显著变化来定义手势持续时间250的开始时间。备选地或另外地,手势持续时间250的停止时间可以相对于距离或另一位置坐标(诸如速度或角度)下降到相应阈值以下的变化来定义。
[0144]
作为这种基于阈值的手势检测的替代或补充,可以使用手势检测算法。例如,可以
实现分别训练的nn,该nn检测手势的缺失或存在,例如,基于距离数据。
[0145]
在特定示例中,每个手势的手势持续时间250被预设或初始化为2秒。在这段时间内,测试人员必须执行手势。如滑动等一些手势在更短时间段内执行,并且因此,在记录之后,基于触发事件检测手势的开始和结束。因此,手势持续时间250被细化。细化后的手势持续时间250内的数据样本被保留,而剩余的数据样本被设置为零。如果例如与系列中的第一帧45的能量相比,10个帧45内的能量增加超过阈值,则检测到手势的开始。当检测到大于阈值的能量下降时,类似地检测到手势结束,作为触发事件。
[0146]
然后,在框3115可选地对测量数据进行预处理,以获取位置时间谱图。因此,在框3115,从测量数据64获取距离、多普勒(速度)、方位角和仰角的单独谱图。这样的谱图示出了相应物理可观察量的时间进展并且允许特定手势的唯一标识。
[0147]
图11和图12分别示出了距离、速度、方位角和仰角的位置时间谱图101-104、101*-104*。这是针对两个手势505、509。二维图像状表示的对比度编码相应位置可观察量的强度。
[0148]
详细地,图11和图12(上排)示出了未滤波位置时间谱图101-104;而图11和图12(下排)示出了已滤波位置时间谱图101*-104*(滤波将在下面详细解释)。
[0149]
由于雷达测量对径向距离和径向速度敏感,一些手势的距离和多普勒谱图(例如,左右、左右、向前和向后滑动)具有相似的特征(signatures)。然而,左右和右左滑动是沿着方位方向执行的,而向后和向前滑动是沿着仰角方向执行的。因此,估计方位角和仰角可以用于区分这些手势。因此,为了解决手势分类中的歧义,使用距离、速度、仰角和方位时间谱图会很有帮助。
[0150]
为了生成位置时间谱图,在第一步中生成每帧的距离多普勒图像(rdi)(参见图13:7005;图14:框7105、7110、7115)。这是通过对每个数据帧进行2d加窗,然后是如下定义的2-d fft来进行的:
[0151][0152]
其中w(m,n)是沿着快时间和慢时间的二维加权函数,s(m,n)是数据帧内的信号。指数n、m沿着快时间42和慢时间41扫描,而l、p分别沿着距离和多普勒轴扫描。n
st
和n
ft
分别是啁啾48的数目和每个啁啾48的样本49的数目(参见图9)。
[0153]
为了减少静态背景对象的影响,可以将指数加权移动平均(ewma)滤波器形式的移动目标指示(mti)应用于rdi(参见图13:7010)。
[0154]
ewma定义为:
[0155]
x
mti
=x
i-x
avg
[0156]
x
avg
=αxi (1-α)x
avg
ꢀꢀꢀꢀ
(2)其中x
mti
是mti已滤波rdi,x1是当前时间步的rdi,x
avg
是滤波器的平均rdi。
[0157]
从每个mti已滤波rdi,可以提取距离和多普勒向量(参见图13:7020和7025;图14:框7120和7125)。所选择的向量——在检测到手势501-510的手势持续时间250内——被聚合/级联并且分别形成距离和多普勒谱图。距离向量和对应多普勒向量是基于沿着每个轴的边缘化而选择的,该向量随时间被附加以分别生成距离谱图和多普勒谱图(参见图14:框
7130和7135)。
[0158]
对于每个mti已滤波rdi,选择具有最大能量的距离多普勒区间,在该区间上,在多个接收通道之上应用数字波束形成——即天线尺寸43——(参见图13:框7035;图14,框7140和7145)。这是通过将所选择的距离多普勒数据x与扫过视场的相移相乘来进行的,即:
[0159][0160]
其中xj是第j通道的复值选定距离多普勒区间,是以预定义角度步长扫过视场的估计角度。为了估计方位角,使用接收天线1和3的数据,而对于仰角,使用天线2和3的数据。
[0161]
同样,手势持续时间250内的每个数据帧45的这些向量的级联构成了相应时间角度谱图(参见图14:框7150)。
[0162]
在一些示例中,可以将滤波应用于(原始)位置时间谱图101-104,作为推理3010期间框3115处的预处理期间的另外的操作。可以解释无迹卡尔曼滤波器(将结合图15中的框7005解释细节)。图11和图12示出了相应已滤波位置时间谱图101*-104*。
[0163]
在框3115的预处理形成(已滤波)位置时间谱图101-104、101*-104*之后,可选地,在框3120,可以执行距离阈值设置。这里,可以丢弃捕获位于预定义距离阈值之外的对象的运动的这样的位置时间谱图。
[0164]
接下来,在框3150,可以基于位置时间谱图并且基于vaenn的特征嵌入149来预测由对象执行的手势的手势类。
[0165]
具体地,手势类可以基于位置时间谱图的特征嵌入149的分布的均值144与在特征嵌入149的特征空间200中定义的预定义区域211-213中的一个或多个的比较来预测(参见图6)。这些预定义区域211-213可以从vaenn的训练中获取(参见图5:框3005)。接下来,将描述关于训练的技术。
[0166]
图15示意性地示出了关于vaenn 111的训练的方面。图15示出了用于实现训练的处理流水线。处理流水线因此可以实现框3005。
[0167]
vaenn 111的训练基于训练位置时间谱图101-104、101*-104*的多个训练集合109和相关联的真实标签107。
[0168]
这些训练位置时间谱图101-104、101*-104*可以使用结合图8的方法的框3115而描述的预处理来获取;特别地,ukf可以用于获取已滤波位置时间谱图101*-104*。同样,如上所述,vaenn 111可以接收原始和已滤波位置时间谱图101-104、101*-104*作为输入(在图15中,只有原始谱图101-104示出为输入)。
[0169]
真实标签107表示由相应位置时间谱图101-103捕获的手势501-510的手势类520。
[0170]
然后可以将vaenn 111的输出181-184、115与相应基本事实进行比较。图15中示出了可以考虑的两个损失191、192。
[0171]
第一损失191(基于图像的重构损失)基于相应输入位置时间谱图101-104的重构181-184与与输入位置时间谱图101-104相关联的数据之间的差异。更具体地,在所示示例中,输入(原始)位置时间谱图101-104在框7005被滤波,例如,使用无迹卡尔曼滤波器,以获取相应已滤波位置时间谱图101*-104*(参见图11和图12)。然后将这些已滤波位置时间谱图101*-104*与重构181-184进行比较。例如,可以计算像素级差异(参见等式12)。因此,
vaenn 111被训练以重构已滤波位置时间谱图101*-104*。
[0172]
接下来,将解释关于框7005处的滤波的细节。作为一般规则,这种滤波有助于训练(参见图5:框3005)。可选地,滤波有时也可以用于推理(参见图5:框3010),并且然后作为预处理的一部分而执行(参见图8:框3115)。
[0173]
在图15的场景中,vaenn 111被训练以重构已滤波位置时间谱图101*-104*。然后,在推理期间,可能不需要实现滤波。在推理期间不必依赖于滤波(通过适当地训练vaenn 111)使得手势分类的实现快速且稳健。
[0174]
为了滤波(例如,平滑)位置时间谱图,可以将无迹卡尔曼滤波器(ukf)应用于位置时间谱图。这里,对于每个时间步长——例如,与基础数据帧45相关联的相应时间点——提取每个位置时间谱图的最大值,该最大值用作ukf的测量向量。由于滤波,异常值和测量误差得到缓解,但另一方面,也去除了“微观”特征。特别是对于手指挥动和手指摩擦手势,这些微特征可能很重要,因为手部保持静止并且只有很小的手指运动才能定义手势。
[0175]
参考图11和图12,一方面,可以看出,滤波强调手部的整体运动并且去除异常值(图11和图12:下排)。尤其是仅使用两个天线的角度估计的结果往往有很大差异。因此,滤波有助于去除异常值。另一方面,可以看出类特定(并且因此通常是可取的)“微”特征也可以被滤除。例如,当比较根据图11和图12的手势类“顺时针转圈”和“手指挥动”的已滤波仰角时间谱图104*时,这是很清楚的:两个谱图104*具有可比较的定性形状(峰值-高原-下降)——区分这些谱图104*的微特征由于滤波而被去除。
[0176]
作为一般规则,ukf中使用的无迹变换试图近似经历非线性变换的随机变量的分布。考虑均值为μ并且协方差为ω的高斯随机变量η,在执行非线性变换时,ψ=φ(η)也会导致另一高斯分布。在这种情况下,φ表示过程模型(.)和测量模型h(.)。无迹变换用于生成sigma点χ,使得ψ的分布可以通过如下定义的均值和协方差来近似:
[0177][0178][0179]
其中χ(i)是“sigma点”,wi是连续权重。总共生成了2nη 1个“sigma点”,其中nη是状态η的维度并且计算为:
[0180]
χ
(0)
=μ
[0181][0182][0183]
其中其中是的第i列,它是矩阵ω的cholesky分解。ukf的状态向量定义为其中r和v分别是径向位置和速度,θ和θ是方位角和仰角,和是相应角速度。ukf假定用于状态向量的分布的高斯随机变量。线性测量模型(.)说明了状态
向量到测量域的简单变换。h(.)仅从状态向量x中提取距离、速度、方位角和仰角。因此,测量向量定义为z=hx。过程模型定义到下一时间步的非线性状态转变或预测。x的过程模型变换可以定义为(其他运动模型也是可能的):
[0184]rp
=r δtυ 0.5δt2a
t
[0185]
υ
p
=υ δta
t
[0186][0187][0188][0189][0190]
其中a
θ
和a
φ
是从均值为零并且方差为π/180的正态分布中提取的随机角加速度。
[0191]
测量和过程噪声矩阵使用归一化创新平方检验来设置,并且确保卡方分布在95%的置信度得分内。
[0192]
ukf的输出是一系列已滤波状态向量。这些可以级联以获取相应已滤波位置时间谱图101*-104*。谱图中的每个向量是通过生成具有其对应ukf已滤波输出状态的均值和方差的高斯来构造的。
[0193]
然后可以使用这些已滤波训练位置时间谱图101*-104*来确定第一损失191。
[0194]
第二损失192基于手势类520的预测与相应真实标签107之间的差异。
[0195]
更一般地,可以考虑各种损失,并且下面将给出一些示例。
[0196]
第二损失192的一个示例是使类间距离最大化的三元组损失。三元组损失通常从ge、w.huang、d.dong和m.r.scott于2018年的“deep metric learning with hierarchical triplet loss”(corr abs/1810.06951(2018).arxiv:1810.06951)中已知。三元组损失的想法是将三个样本(即,位置时间谱图101-104的三个训练集合109)馈送到vaenn 111中。第一训练集合109是锚点,第二训练集合109是相同手势类的随机样本,第三训练集合109是另一手势类的随机样本。
[0197]
锚点样本与正样本或负样本之间的距离定义为:
[0198]
d(x1,x2)=(x
1-x2)
t
(x
1-x2)
ꢀꢀꢀꢀ
(7)
[0199]
其中x1是锚点,x2是正样本或负样本。
[0200]
当使用vaenn时,嵌入被建模为高斯分布,如上所述。因此,在一个示例中,可以使用:
[0201]
d(μ1,μ2)=(μ
1-μ2)
t

1-μ2)。
ꢀꢀꢀꢀ
(8)这里,μ1、μ2表示样本的相应分布的均值144。在一些示例中,除了使用分布的中心之间的距离,还可以考虑统计距离。例如,可以评估锚点分布与正分布或负分布的均值之间的mahalanobis距离。
[0202]
作为一般规则,除了mahalanobis距离,点与分布之间或两个分布之间的其他统计距离也是可能的,例如wasserstein度量或cramer von mises度量。
[0203]
基于mahalanobis距离的统计距离定义为:
[0204][0205]
其中μa和∑a是锚点分布xa的均值和协方差矩阵,μ2分别是正样本分布或负样本分布的均值。
[0206]
出于对统计距离的这种评估的目的,可以假定协方差矩阵∑a在其对角线上只有非零条目。
[0207]
三元组损失(基于等式8)和统计距离三元组损失(基于等式9)分别定义为:
[0208]
l
triplet
=max(d(μa,μ
p
)-d(μa,μn) α,0),
ꢀꢀꢀꢀ
(10)
[0209][0210]
其中μa和∑a定义锚点分布xa,μ
p
和μn分别是正样本和负样本的均值特征向量,α是超参数。三元组损失和统计三元组损失都可以在本文中公开的示例中使用。
[0211]
因此,三元组损失评估锚点、正和负的单个嵌入式特征向量之间的距离,而统计距离三元组损失对分布进行操作。
[0212]
换言之,统计三元组损失是基于针对锚点集合而获取的特征嵌入149的分布与分别针对正集合和负集合109而获取的分布的均值之间的统计距离来确定的。因此,它评估锚点分布与正样本和负样本的均值向量之间的距离。
[0213]
接下来,将描述重构损失191。
[0214]
重构损失191旨在使重构图像与标签图像之间的差异最小化,例如,已滤波位置时间谱图101*-104*。作为度量,均方误差定义为:
[0215][0216]
其中c是通道数,n和m是输入/输出图像的维度(这里是已滤波位置时间谱图101*-104*;以及相应重构181-184),y
rec
是重构181-184,y
lab
是标签图像(这里是已滤波位置时间谱图101*-104*)。
[0217]
接下来,将描述特定于vaenn架构的另外的损失。
[0218]
对于vaenn 111,输入样本的特征嵌入149被建模为多元高斯分布随机变量x。基础和未知分布由多元标准高斯分布近似。特征嵌入149的基础分布与多元标准高斯分布之间的差异使用如下定义的kullback-leibler(kl)分歧来评估:
[0219][0220]
其中k是随机变量x的维度,μ(x)k和∑(x)k是其第k维度的均值方差值。由此产生的分歧定义kl分歧损失。通过优化kl分歧,实现了变分下限的最大化。
[0221]
接下来,将描述第二损失192的另一示例。这是中心损失。
[0222]
中心损失使欧几里得类内距离最小化,并且因此导致更具辨别力的类。
[0223]
标准中心损失定义为:
[0224][0225]
其中c是所有类的集合,是类c的估计均值,xc是与类c相关联的集合109的嵌入式特征向量。
[0226]
由于vaenn 111使用特征空间200中的分布进行操作,因此可以将经典中心损失重新制定为基于统计距离的中心损失,从而根据其基础类分布使样本的传播最小化。
[0227]
作为一般规则,类分布由针对与给定类相关联的所有输入数据集而获取的vaenn 111的特征嵌入149的多个分布的组合来定义。
[0228]
在嵌入式分布是独立同分布的假定下(即,协方差矩阵在其对角线上只有非零项),类分布可以通过与同一类相关联的所有样本的嵌入式分布的均值/平均值来估计。
[0229]
因此,类分布的均值定义为方差定义为其中xc是属于类c的嵌入式特征分布的集合。协方差矩阵∑c定义为具有个项的对角矩阵。
[0230]
基于估计的类分布,mahalanobis距离(或其他统计距离)可以用于评估如下定义的统计距离中心损失:
[0231][0232]
其中c是所有类的集合,是类c的估计均值,是类c的估计协方差矩阵,xc是属于c类的样本的嵌入式均值。
[0233]
从等式15中可以看出,统计距离中心损失是基于每个手势类的类分布与针对与该手势类相关联的所有训练样本而获取的vaenn的特征嵌入的分布的相应均值之间的统计距离来确定的。
[0234]
在训练vaenn期间被最小化的总体损失可以由下式给出:
[0235][0236]
其中
∝1到
∝4是可以预定义的超参数。
[0237]
从等式16中可以看出,(统计)三元组损失有助于使类间距离最大化,而(统计距离)中心损失有助于使类内距离最小化。
[0238]
接下来,将说明如何促进基于特征嵌入149的手势分类。这是基于已训练vaenn 111的特征嵌入149的类分布。
[0239]
基于针对属于每个手势类的训练位置时间谱图101-104的训练集合109而获取的vaenn 111的特征嵌入149的类分布,可以确定在框3010的推理阶段在手势分类期间使用的特征空间200中的区域211-213。因此,每个区域211-213与相应手势类520相关联。
[0240]
例如,这些区域211-213可以以类分布的相应均值144为中心,并且具有根据标准差143而确定的大小。
[0241]
这些区域211-213可以与vaenn 111一起作为参数存储,并且然后在框3010的推理期间使用。可以确定特征嵌入的某个实例的均值144是在这样的区域211-213之内还是之
外。
[0242]
如将理解的,有时,可能发生如下场景,其中另外的手势——未被训练位置时间谱图的集合109的任何手势类覆盖——被执行多次。即,可以观察到另外的手势类。这在图6中通过群集214中包括的特征空间200中的数据点204来说明,群集214偏移到任何预训练区域211-213。
[0243]
在这种情况下,可能不需要重新训练vaenn 111,例如,使用结合等式16讨论的损失。相反,监测嵌入在预定义区域211-213之外的特征分布的相应均值144的群集形成可能就足够了。
[0244]
然后,基于对群集形成的这种监测,可以在特征空间200中确定另外的预定义区域以包围相应群集214。
[0245]
综上所述,公开了执行由诸如手部或手指等对象执行的手势的手势分类的技术。手势分类基于雷达测量。为了预测手势类,使用vaenn。通过使用vaenn,可以在训练期间向输入数据添加变化——使用采样操作——而无需增强输入数据。因此,增加了对噪声或杂波的稳健性。此外,可以捕获手势的用户特定变化。
[0246]
已经公开了训练vaenn的示例。具体地,已经公开了在确定相应损失时依赖于诸如mahalanobis距离等统计距离的技术。
[0247]
这是由通过分布而不是单个向量实现的vaenn架构的特征嵌入来推动的。因此,可以获取与特征嵌入的分布的距离更准确的结果,从而提高训练的精度。通过使用统计距离来确定整体损失,可以准确地学习数据的非线性特性,并且提高手势分类的精度。具体地,降低了手势分类的性能对训练策略的敏感性。可以创建紧密结合的嵌入群集。
[0248]
详细地说,可以确定类分布,例如,基于基本高斯分布的假定。这可以在假定手势类的样本的特征嵌入的分布是独立的并且在整个类中相同分布的情况下进行。因此,可以将类分布计算为针对特定手势类的所有训练集合而获取的特征嵌入的所有分布的平均值。
[0249]
尽管已经针对某些优选实施例示出和描述了本发明,但是本领域其他技术人员在阅读和理解说明书之后将能够想到等价物和修改。本发明包括所有这样的等价物和修改,并且仅受所附权利要求的范围的限制。
[0250]
为了说明,已经公开了多个示例,根据这些示例,多个位置时间谱图被用作vaenn的输入数据。作为一般规则,也可以只提供单个位置时间谱图——例如,距离谱图——作为vaenn的输入数据。
[0251]
为了进一步说明,已经在基于雷达的手势分类的框架中描述了各种技术。所提出的vaenn还可以应用于使用其他传感器(诸如视觉、超声波传感器、和能够接收手势反馈的任何其他传感器)实现稳健的手势分类。
[0252]
为了进一步说明,在一些公开的示例中,从雷达传感器获取的原始数据经历预处理步骤(参见例如框3115)以获取与手势分类目的相关的特征。尽管预处理方法特定于雷达传感器,但可以在适当的情况下为其他传感器执行类似的特定手势特征提取过程,诸如速度和距离信息。
[0253]
为了进一步说明,可能的手势分类不仅限于手部手势,而是几乎任何形式的手势反馈,诸如身体姿势或面部表情。
[0254]
为了更进一步说明,已经公开了各种示例,其中统计距离被确定并且在训练vaenn
的损失时被考虑。所公开的实施例不限于分布与点之间的统计距离(均值),还可以应用于两个分布之间的距离。
再多了解一些

本文用于创业者技术爱好者查询,仅供学习研究,如用于商业用途,请联系技术所有人。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献