一种带红外热成像辅助的人体运动姿态与运动意图的预测方法与流程

2022-03-04 23:46:02 来源：中国专利 TAG：

1.本技术涉及人体运动姿态预测技术领域，尤其是一种带红外热成像辅助的人体运动姿态与运动意图的预测方法。

背景技术：

2.目前人体运动姿态与运动意图的识别主要分为三个方向进行研究，基于搭载运动传感器的可穿戴设备人体运动姿态与运动意图的识别，基于图像的人体运动姿态与运动意图的识别等，基于运动传感器的人体运动姿态与运动意图的识别技术来源于语音和图像识别，常用信号有生物信号与非生物信号：非生物信号包括肢体位姿、关机角度、角速度、角加速度等；生物信号是利用肌电信号，脑电信号、眼电信号等。基于图像的人体运动姿态与运动意图的识别系统主要采用摄像头提取人体的运动信息，分析捕获人体特征图像序列，实现对目标的运动姿态与运动意图的识别。
3.基于运动传感器的人体运动姿态与运动意图的识别系统虽然在结果上有较高精度，但是由于信号采集需要各种穿戴式设备，使用时舒适度较低，影响正常运动，成本高，处理数据量大等问题，适用于实验室环境，推广价值低，而基于图像的人体运动姿态与运动意图的识别只是对当前的动作识别准确，很难做到对下一步的预测。因此，针对上述问题提出一种带红外热成像辅助的人体运动姿态与运动意图的预测方法。

技术实现要素：

4.在本实施例中提供了一种带红外热成像辅助的人体运动姿态与运动意图的预测方法用于解决基于运动传感器的人体运动姿态与运动意图的识别系统虽然在结果上有较高精度，但是由于信号采集需要各种穿戴式设备，使用时舒适度较低，影响正常运动，成本高，处理数据量大等问题，适用于实验室环境，推广价值低，而基于图像的人体运动姿态与运动意图的识别只是对当前的动作识别准确，很难做到对下一步的预测的问题。
5.根据本技术的一个方面，提供了一种带红外热成像辅助的人体运动姿态与运动意图的预测方法，所述预测方法包括如下步骤；
6.(1)将红外热成像转为灰度图并与ground truth相乘，结果称之为soft ground truth，作为训练标签。
7.(2)soft ground truth和摄像头采集的rgb图像称分别经过fcn网络取下采样最后一层输出作为图像特征序列，将得到的两种图像特征序列经过attention，以从rgb图像中抽取出和带有红外热成像信息的分割图有关的信息。
8.(3)将上一步得到的向量通过attention,以对抽取到的信息与所有历史图像时间的相关性进行建模。
9.(4)再将soft ground truth的图像特征序列和上一步得到的向量通过attention,以抽取当前带有红外热成像信息的分割图和历史图像的相关性。
10.(5)之后设置一个门控结构，以平衡历史信息与当前信息的比例。
11.(6)最后得到输出序列经过上采样恢复到原图大小并与下一个动作的soft ground truth进算loss，同时进行两个分类任务，得到当前动作意图分类和下一个动作意图分类。
12.进一步地，所述步骤(1)中soft ground truth和摄像头采集的历史rgb图像(pic t1、pic t2
…
pic tt)称分别经过fcn网络取下采样最后一层输出作为图像特征序列，记做fs，f1,f2
…
ft。
13.进一步地，所述步骤(1)中将上一步输出fs分别和f1,f2
…
ft通过attention进行计算，以从rgb图像中抽取出和当前带有红外热成像信息的分割图有关的信息,记为c1,c2
…
ct。attention的输入是查询向量q、键向量k、值向量v，这里的fs作为输入q，ft作为k和v，公式如下：
14.ct＝attention(fs,ft,ft)。
15.进一步地，所述步骤(3)中将上一步输出c1,c2
…
ct，按时间远近编码分别相加并concat在一起，进入多层attention，每层attention的输入是上一层的输出，最后经过ffn(fully connected feed-forward netword,全连接前馈网络)得到对抽取到的图片分割信息与所有历史图像时间的相关性信息，记为sh1-t。公式如下，其中mn是第n层输出,attention输入的q＝k＝v,te是时间编码：
16.mn＝ffn(attention(mn-1,mn-1,mn-1))
17.m0＝concat[c1 te1,c2 te2,
…
,ct tet]。
[0018]
进一步地，所述步骤(4)中将soft ground truth的图像特征序列fs和上一步得到的向量sh1-t通过attention,以抽取当前带有红外热成像信息的分割图和历史图像的相关性，计为ht，attention输入的q为fs,k和v是sh1-t，公式如下：
[0019]
ht＝attention(fs,sh1-t,sh1-t)。
[0020]
进一步地，所述步骤(7)中公式如图，其中wg是超参数：
[0021][0022][0023]
进一步地，所述步骤(3)中使用上一步得到gt经过一个线性层得到此时的特征输出表示，然后通过fcn网络的上采样过程，得到最终的输出表示，将这个输出接入到三个任务中，其中两个分类任务分别是预测当前动作意图和一下个动作意图，另一个任务是预测下一个动作分割图，最后经过fc-crf提升图像分割精度。
[0024]
进一步地，所述步骤(3)中为了更好捕捉历史图像信息。本方案分两个阶段进行训练，第一个阶段会额外添加一个辅助任务，预测上一个动作和下一个动作特征点是否进行更新，第二个阶段不使用这个辅助任务，模型预测使用第二阶段的结果。公式如下，其中wc、wp是超参数:
[0025][0026][0027]
通过本技术上述实施例，通过该种带红外热成像辅助的人体运动姿态与运动意图
的预测方法解决了基于运动传感器的人体运动姿态与运动意图的识别系统虽然在结果上有较高精度，但是由于信号采集需要各种穿戴式设备，使用时舒适度较低，影响正常运动，成本高，处理数据量大等问题，适用于实验室环境，推广价值低，而基于图像的人体运动姿态与运动意图的识别只是对当前的动作识别准确，很难做到对下一步的预测的问题。
附图说明
[0028]
为了更清楚地说明本技术实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本技术的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其它的附图。
[0029]
图1为本技术流程图。
具体实施方式
[0030]
为了使本技术领域的人员更好地理解本技术方案，下面将结合本技术实施例中的附图，对本技术实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本技术一部分的实施例，而不是全部的实施例。基于本技术中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本技术保护的范围。
[0031]
需要说明的是，本技术的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本技术的实施例。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
[0032]
在本技术中，术语“上”、“下”、“左”、“右”、“前”、“后”、“顶”、“底”、“内”、“外”、“中”、“竖直”、“水平”、“横向”、“纵向”等指示的方位或位置关系为基于附图所示的方位或位置关系。这些术语主要是为了更好地描述本技术及其实施例，并非用于限定所指示的装置、元件或组成部分必须具有特定方位，或以特定方位进行构造和操作。
[0033]
并且，上述部分术语除了可以用于表示方位或位置关系以外，还可能用于表示其他含义，例如术语“上”在某些情况下也可能用于表示某种依附关系或连接关系。对于本领域普通技术人员而言，可以根据具体情况理解这些术语在本技术中的具体含义。
[0034]
此外，术语“安装”、“设置”、“设有”、“连接”、“相连”、“套接”应做广义理解。例如，可以是固定连接，可拆卸连接，或整体式构造；可以是机械连接，或电连接；可以是直接相连，或者是通过中间媒介间接相连，又或者是两个装置、元件或组成部分之间内部的连通。对于本领域普通技术人员而言，可以根据具体情况理解上述术语在本技术中的具体含义。
[0035]
需要说明的是，在不冲突的情况下，本技术中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本技术。
[0036]
本实施例中的带红外热成像辅助的人体运动姿态与运动意图的预测方法，例如，在本实施例提供了如下一种带红外热成像辅助的人体运动姿态与运动意图的预测方法，本
实施例中的带红外热成像辅助的人体运动姿态与运动意图的预测方法可以适用于下列矫正系统使用。
[0037]
一种人体运动姿态校正系统，包括影像采集模块、影像标准库模块、影像对比模块、影像校正输出模块。
[0038]
所述的影像采集模块为kinect摄像头，获取的数据包括运动者人体的彩色图像及身体上各部位的三维空间深度信息，构建人体骨架数据和人体各关节点的三维数据，以得出人体运动姿态信息。
[0039]
影像标准库模块中存储有人体标准运动姿态数据。
[0040]
利用kinect摄像头作为影像采集模块，采集符合运动规范的系列运动数据，形成运动姿态标准数据库，并进行记录和保存。所述运动数据包括：符合规范的全套运动数字视频影像。
[0041]
影像采集模块需在符合特定环境场景下进行数据的采集，有足够的环境光照和亮度，能够清晰地获取运动影像。
[0042]
采用该影像采集模块获取的数据，同时获取运动者人体的彩色图像及身体上各点的三维空间深度信息。通过这些信息，可进一步计算并获得运动人体在三维空间中的肢体姿态信息。其中，普通彩色摄像头用于获取运动人体的彩色图像信息，红外发射器及接收器可获取人体各部位在三维空间中的深度信息。为保证标准数据采集的准确性，对每一符合标准的运动人，每个动作都需采集3次以上的姿态数据，共采集10个运动者的数据，对这些数据取平均值以生成运动姿态标准数据，并建立人体标准运动姿态数据库。
[0043]
无论是采集标准人体运动姿态数据，还是采集习练者的运动姿态数据，都需要计算主要关节点的运动数据，进而获得人体姿态的关键运动数据，才能用以对比和分析。计算步骤如下：
[0044]
1)获取人体骨骼信息：通过kinect摄像头这一影像采集模块分别获得关于人体的图像信息和深度信息，根据这些信息计算得到人体骨架信息，包括骨骼位置、关节的标识及三维坐标数据。根据这些信息生成的骨架图，是动作轨迹匹配与校正的基础。
[0045]
2)选取主要关节：为提高姿态信息及运动轨迹匹配的精确性及使用效率，选取颈、肩、肘、腕、髋、膝、踝关节，将这些关节作为姿态信息关键节点，分别记录各关节位置三维坐标数据，依据这些数据计算人体其他关节点的位置和姿态信息。
[0046]
影像对比模块：
[0047]
1)对于每个需匹配的关键动作节点，对获取的习练者的关节点的三维姿态数据与标准数据中对应关键节点的数据进行比对，计算出每个时间段内各动作的数据与标准动作数据间的误差，误差以两点间欧氏距离表示。欧氏距离(euclidean distance)也称欧几里得距离，它是一个通常采用的距离定义，它是在m维空间中两个点之间的真实距离。
[0048]
2)针对每段时间内动作，系统根据动作规范要求，计算出各动作各关键节点上不同的误差范围。
[0049]
3)将获取的使用者动作关键关节点上的三维数据标准数据进行比对，如误差超出规定范围，则判定使用者此时间段内动作未能达到标准；误差未超出规定范围，本例中误差范围限定为5％，则表示使用者当前时间段内的动作达到标准。
[0050]
人体运动姿态校正输出模块：
[0051]
本系统通过显示屏幕输出与语音提示两种方法提示使用者同时进行运动姿态的校正。
[0052]
右侧骨架为标准姿态骨架，左侧为对习练者取样生成的骨架。可以看到有突出显示的关节点，这些关节点就是动作不到位、不标准的图像提示。
[0053]
若使用者未达到标准动作，系统将对姿态未达标准的关节进行突出显示，并在屏幕上以方向箭头和文字提示应当如何进行调整，即某个部位应向哪个方向移动多少距离。同时，对未达标准的关节进行语音提示，通过音响设备输出相关语音，提示用户应当如何进行调整，即某个部位应向哪种方向移动多少距离。直到其姿态完全符合系统规定的动作标准。如果，这一动作习练者在当次经反复努力都不能完成，也可以选择跳过，进入下一个动作的校正。
[0054]
使用者达到标准的动作，或在经过校正调整后达到动作标准，可继续执行下一动作。
[0055]
当然本实施例也可以用于人体运动姿态与运动意图预测使用。在此不再一一赘述，下面对本技术实施例的带红外热成像辅助的人体运动姿态与运动意图的预测方法进行介绍。
[0056]
实施例一
[0057]
请参阅图1所示，一种带红外热成像辅助的人体运动姿态与运动意图的预测方法，所述方法包括如下步骤；
[0058]
(1)将红外热成像转为灰度图并与ground truth相乘，结果称之为soft ground truth，作为训练标签。
[0059]
(2)soft ground truth和摄像头采集的rgb图像称分别经过fcn网络取下采样最后一层输出作为图像特征序列，将得到的两种图像特征序列经过attention，以从rgb图像中抽取出和带有红外热成像信息的分割图有关的信息。
[0060]
(3)将上一步得到的向量通过attention,以对抽取到的信息与所有历史图像时间的相关性进行建模。
[0061]
(4)再将soft ground truth的图像特征序列和上一步得到的向量通过attention,以抽取当前带有红外热成像信息的分割图和历史图像的相关性。
[0062]
(5)之后设置一个门控结构，以平衡历史信息与当前信息的比例。
[0063]
(6)最后得到输出序列经过上采样恢复到原图大小并与下一个动作的soft ground truth进算loss，同时进行两个分类任务，得到当前动作意图分类和下一个动作意图分类。
[0064]
进一步地，所述步骤(1)中soft ground truth和摄像头采集的历史rgb图像(pic t1、pic t2
…
pic tt)称分别经过fcn网络取下采样最后一层输出作为图像特征序列，记做fs，f1,f2
…
ft。
[0065]
进一步地，所述步骤(1)中将上一步输出fs分别和f1,f2
…
ft通过attention进行计算，以从rgb图像中抽取出和当前带有红外热成像信息的分割图有关的信息,记为c1,c2
…
ct。attention的输入是查询向量q、键向量k、值向量v，这里的fs作为输入q，ft作为k和v，公式如下：
[0066]
ct＝attention(fs,ft,ft)。
[0067]
进一步地，所述步骤(3)中将上一步输出c1,c2
…
ct，按时间远近编码分别相加并concat在一起，进入多层attention，每层attention的输入是上一层的输出，最后经过ffn(fully connected feed-forward netword,全连接前馈网络)得到对抽取到的图片分割信息与所有历史图像时间的相关性信息，记为sh1-t。公式如下，其中mn是第n层输出,attention输入的q＝k＝v,te是时间编码：
[0068]
mn＝ffn(attention(mn-1,mn-1,mn-1))
[0069]
m0＝concat[c1 te1,c2 te2,
…
,ct tet]。
[0070]
进一步地，所述步骤(4)中将soft ground truth的图像特征序列fs和上一步得到的向量sh1-t通过attention,以抽取当前带有红外热成像信息的分割图和历史图像的相关性，计为ht，attention输入的q为fs,k和v是sh1-t，公式如下：
[0071]
ht＝attention(fs,sh1-t,sh1-t)。
[0072]
进一步地，所述步骤(7)中公式如图，其中wg是超参数：
[0073][0074][0075]
进一步地，所述步骤(3)中使用上一步得到gt经过一个线性层得到此时的特征输出表示，然后通过fcn网络的上采样过程，得到最终的输出表示，将这个输出接入到三个任务中，其中两个分类任务分别是预测当前动作意图和一下个动作意图，另一个任务是预测下一个动作分割图，最后经过fc-crf提升图像分割精度。
[0076]
进一步地，所述步骤(3)中为了更好捕捉历史图像信息。本方案分两个阶段进行训练，第一个阶段会额外添加一个辅助任务，预测上一个动作和下一个动作特征点是否进行更新，第二个阶段不使用这个辅助任务，模型预测使用第二阶段的结果。公式如下，其中wc、wp是超参数:
[0077][0078][0079]
上述方法能够解决基于运动传感器的人体运动姿态与运动意图的识别系统虽然在结果上有较高精度，但是由于信号采集需要各种穿戴式设备，使用时舒适度较低，影响正常运动，成本高，处理数据量大等问题，适用于实验室环境，推广价值低，而基于图像的人体运动姿态与运动意图的识别只是对当前的动作识别准确，很难做到对下一步的预测的问题。
[0080]
实施例二
[0081]
请参阅图1所示，一种带红外热成像辅助的人体运动姿态与运动意图的预测方法，所述方法包括如下步骤；
[0082]
(1)将红外热成像转为灰度图并与ground truth相乘，结果称之为soft ground truth，作为训练标签。
[0083]
(2)soft ground truth和摄像头采集的rgb图像称分别经过fcn网络取下采样最后一层输出作为图像特征序列，将得到的两种图像特征序列经过attention，以从rgb图像中抽取出和带有红外热成像信息的分割图有关的信息。
[0084]
(3)将上一步得到的向量通过attention,以对抽取到的信息与所有历史图像时间的相关性进行建模。
[0085]
(4)再将soft ground truth的图像特征序列和上一步得到的向量通过attention,以抽取当前带有红外热成像信息的分割图和历史图像的相关性。
[0086]
(5)之后设置一个门控结构，以平衡历史信息与当前信息的比例。
[0087]
(6)最后得到输出序列经过上采样恢复到原图大小并与下一个动作的soft ground truth进算loss，同时进行两个分类任务，得到当前动作意图分类和下一个动作意图分类。
[0088]
进一步地，所述步骤(1)中soft ground truth和摄像头采集的历史rgb图像(pic t1、pic t2
…
pic tt)称分别经过fcn网络取下采样最后一层输出作为图像特征序列，记做fs，f1,f2
…
ft。
[0089]
进一步地，所述步骤(1)中将上一步输出fs分别和f1,f2
…
ft通过attention进行计算，以从rgb图像中抽取出和当前带有红外热成像信息的分割图有关的信息,记为c1,c2
…
ct。attention的输入是查询向量q、键向量k、值向量v，这里的fs作为输入q，ft作为k和v，公式如下：
[0090]
ct＝attention(fs,ft,ft)。
[0091]
进一步地，所述步骤(3)中将上一步输出c1,c2
…
ct，按时间远近编码分别相加并concat在一起，进入多层attention，每层attention的输入是上一层的输出，最后经过ffn(fully connected feed-forward netword,全连接前馈网络)得到对抽取到的图片分割信息与所有历史图像时间的相关性信息，记为sh1-t。公式如下，其中mn是第n层输出,attention输入的q＝k＝v,te是时间编码：
[0092]
mn＝ffn(attention(mn-1,mn-1,mn-1))
[0093]
m0＝concat[c1 te1,c2 te2,
…
,ct tet]。
[0094]
进一步地，所述步骤(4)中将soft ground truth的图像特征序列fs和上一步得到的向量sh1-t通过attention,以抽取当前带有红外热成像信息的分割图和历史图像的相关性，计为ht，attention输入的q为fs,k和v是sh1-t，公式如下：
[0095]
ht＝attention(fs,sh1-t,sh1-t)。
[0096]
进一步地，所述步骤(7)中公式如图，其中wg是超参数：
[0097][0098][0099]
进一步地，所述步骤(3)中使用上一步得到gt经过一个线性层得到此时的特征输出表示，然后通过fcn网络的上采样过程，得到最终的输出表示，将这个输出接入到三个任务中，其中两个分类任务分别是预测当前动作意图和一下个动作意图，另一个任务是预测下一个动作分割图，最后经过fc-crf提升图像分割精度。
[0100]
进一步地，所述步骤(3)中为了更好捕捉历史图像信息。本方案分两个阶段进行训练，第一个阶段会额外添加一个辅助任务，预测上一个动作和下一个动作特征点是否进行更新，第二个阶段不使用这个辅助任务，模型预测使用第二阶段的结果。公式如下，其中wc、wp是超参数:
[0101][0102][0103]
上述方法，使用红外热成像图像作为下一个动作预测的辅助信号，摄像机图像作为当前动作特征，结合历史所有的信息，可以对当前运动姿态与运动意图进行识别，并可以对未来的运动姿态与运动意图进行预测。
[0104]
本技术的有益之处在于：
[0105]
本发明通过通过该种带红外热成像辅助的人体运动姿态与运动意图的预测方法使用红外热成像图像作为下一个动作预测的辅助信号，摄像机图像作为当前动作特征，结合历史所有的信息，可以对当前运动姿态与运动意图进行识别，并可以对未来的运动姿态与运动意图进行预测。
[0106]
以上所述仅为本技术的优选实施例而已，并不用于限制本技术，对于本领域的技术人员来说，本技术可以有各种更改和变化。凡在本技术的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本技术的保护范围之内。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：数据处理方法、装置、电子设备和存储介质与流程

一种带红外热成像辅助的人体运动姿态与运动意图的预测方法与流程

相关文献

最热文献