运动识别方法、运动识别程序及信息处理装置与流程

2022-05-18 13:44:08 来源：中国专利 TAG：

1.本发明涉及运动识别方法、运动识别程序及信息处理装置。

背景技术：

2.在体操、医疗等广泛的领域中，使用选手、患者等人物的骨骼信息来自动识别人物的动作。例如，体操比赛中的当前的打分方法通过多个裁判的目视来进行，但由于器械的进化、训练方法的改善，伴随着运动的复杂化的行为的高度化进展，出现裁判对行为的识别变得困难的情况。其结果，选手的打分结果按照每个裁判而不同等打分的公平性、准确性的维持中产生了担忧。
3.因此，近年来，利用了使用选手的三维骨骼坐标(以后，有时记载为“骨骼信息”)的自动打分技术。例如，通过3d(three-dimensional：三维)激光传感器取得选手的三维点组数据，使用三维点组数据计算选手的骨骼信息。然后，根据骨骼信息的时间序列信息来自动识别所实施的“行为”，将自动打分结果提供给裁判，由此确保打分的公平性、准确性。
4.当以体操比赛的鞍马为例说明这样的行为的自动识别时，预先按照每个区域对设置有作为鞍马的器械之一的鞍环的周边进行分类。例如，将鞍环1的左侧分类为区域1，将鞍环1的上方分类为区域2，将鞍环1与鞍环2之间分类为区域3，将鞍环2的上方分类为区域4，将鞍环2的右侧分类为区域5。
5.然后，根据骨骼信息识别表演者的骨骼，根据从骨骼识别结果得到的左右的手腕的位置位于哪个区域来估计手腕的支承位置。然后，使用根据时间序列的骨骼信息生成的时间序列的骨骼识别结果和估计出的手腕的支承位置，按照行为的规则对行为的识别、行为的精度等进行评价，执行自动打分。
6.现有技术文献
7.专利文献
8.专利文献1：国际公开第2018/070414号

技术实现要素：

9.发明要解决的课题
10.但是，在上述技术中，使用了感测结果的骨骼识别处理的精度由于在3d激光传感器的感测中包含噪声的情况或将多个感测结果合并时的偏差等而下降，难以保证各关节的位置的估计精度。
11.另一方面，有时要求在识别运动的基础上，准确地识别存在于现实世界中的物体与被摄体的部位的位置关系。例如，存在最终的运动识别结果根据在鞍马的区域a中存在表演者的手腕、还是在鞍马的区域b中存在表演者的手腕而发生变化的情况等。即，即使运动本身相同，也存在当手支承区域a时识别为行为t、当手支承区域b时识别为行为s的情况等。
12.在上述技术中，直接使用从骨骼识别结果得到的部位的位置来对位于物体上的哪个区域进行了分类。但是，在骨骼识别结果有误差的情况下，所分配的区域有时不准确。例
如，虽然在鞍马中，在骨骼识别结果所表示的手腕虽然被分配给区域1，但是存在本来手放在区域2等的情况。当发生这样的状况时，其结果，将行为s识别为行为t等运动的识别结果有时会发生错误。
13.因此，本发明在一个侧面中，其目的在于提供一种通过提高针对被摄体的特定部位与存在于现实世界的物体中的多个区域的位置关系的估计精度来提高使用该位置关系的运动的识别精度的运动识别方法、运动识别系统以及信息处理装置。
14.用于解决问题的手段
15.在第1方案中，在运动识别方法中，计算机执行以下处理：按时间序列取得基于包含进行运动的被摄体的特定关节的多个关节各自的位置信息的骨骼信息。在运动识别方法中，计算机执行以下处理：用所述时间序列的骨骼信息各自所包含的所述多个关节的位置信息来估计对在所述运动中所使用的物体的区域进行分割而得到的多个区域中的、特定关节所在的区域。在运动识别方法中，计算机执行以下处理：使用所述时间序列的骨骼信息和估计出的所述特定关节的位置来识别所述被摄体的运动，输出识别结果。
16.发明效果
17.在一个侧面中，能够提高使用被摄体的特定部位与存在于现实世界的物体中的多个区域的位置关系的运动的识别精度。
附图说明
18.图1是示出实施例1的系统的整体结构例的图。
19.图2是示出实施例1的学习装置的功能结构的功能框图。
20.图3是说明距离图像的图。
21.图4是说明骨骼定义的图。
22.图5是说明骨骼数据的图。
23.图6是说明与鞍马相关的骨骼信息的图。
24.图7是说明类别分类的图。
25.图8是说明由于横向回旋时的支承位置引起的关节动作的差异的图。
26.图9是说明由于表演俄罗斯回旋时的支承位置引起的关节动作的差异的图。
27.图10是说明由于支承位置引起的脚踝的z值的变化的图。
28.图11是说明学习数据的生成的图。
29.图12是说明学习数据的整形的图。
30.图13是说明类别分类模型的学习的图。
31.图14是说明要学习的特征量的例子的图。
32.图15是示出实施例1的识别装置的功能结构的功能框图。
33.图16是说明类别分类处理的图。
34.图17是说明时间序列的类别分类结果的图。
35.图18是示出实施例1的打分装置的功能结构的功能框图。
36.图19是示出学习处理的流程的流程图。
37.图20是示出自动打分处理的流程的流程图。
38.图21是示出类别分类处理的流程的流程图。
39.图22是说明硬件结构例的图。
具体实施方式
40.以下，根据附图详细地说明本发明的运动识别方法、运动识别程序以及信息处理装置的实施例。另外，本发明不受该实施例限定。此外，各实施例能够在不矛盾的范围内适当地组合。
41.实施例1
42.[整体结构]
[0043]
图1是示出实施例1的系统的整体结构例的图。如图1所示，该系统具有3d(three-dimensional：三维)激光传感器5、学习装置10、识别装置50、打分装置90，是拍摄作为被摄体的表演者1的三维数据并识别骨骼等来进行准确的行为的打分的系统。另外，在本实施例中，作为一例，以识别体操比赛中的表演者的骨骼信息的例子进行说明。
[0044]
通常，体操比赛中的当前的打分方法是由多个打分者通过目视来进行的，但随着行为的高度化，通过打分者的目视难以打分的情况增加。近年来，已知有使用了3d激光传感器的打分比赛的自动打分系统、打分辅助系统。例如，在这些系统中，由3d激光传感器取得作为选手的三维数据的距离图像，根据距离图像来识别作为选手的各关节的朝向、各关节的角度等的骨骼。而且，在打分辅助系统中，通过利用3d模型显示骨骼识别的结果，打分者通过确认表演者的细节的状况等，对实施更准确的打分进行辅助。此外，在自动打分系统中，根据骨骼识别的结果来识别所表演的行为等，并参考打分规则进行打分。
[0045]
在此，使用了感测结果的骨骼识别处理的精度由于在3d激光传感器的感测中包含噪声的情况等而下降，有时难以保证关节位置的估计精度。但是，在自动打分系统中，由于关节位置的估计精度下降会导致系统的可靠性的下降，因此减小噪声的影响，抑制估计精度的下降的努力较重要。
[0046]
因此，在实施例1的自动打分系统中，学习装置10学习类别分类模型，识别装置50使用学习完毕的类别分类模型来执行表演者1的关节位置的估计、行为识别，由此提高体操比赛中的关节位置的估计精度、行为的识别精度。其结果，实现打分装置90的使用准确的识别结果的准确的自动打分。
[0047]
即，通过在表演者1的关节位置的估计中导入ai(artificial intelligence：人工智能)技术，减小噪声的影响，提高针对表演者1的关节位置与存在于现实世界的鞍马上的各区域的位置关系的估计精度。
[0048]
在此，类别分类模型是将鞍马上的位置预先分类为多个类别、将按时间序列取得的多个骨骼信息设为说明变量、将表演者的特定关节所在的类别设为目标变量进行学习而得到的神经网络。即，类别分类模型通过将表演者的骨骼信息的时间序列的变化作为特征进行学习，根据表演者1的身体整体的关节位置来估计特定关节的位置，而不是根据骨骼识别结果来直接确定表演者的特定关节的位置。
[0049]
识别装置50通过使用这样的类别分类模型，即使在3d激光传感器的感测中疑似混入噪声的情况下，也能够准确地估计关节位置，提高表演者1的表演中的行为的识别精度。其结果，能够抑制自动打分系统的可靠性的下降。
[0050]
[功能结构]
[0051]
接着，对图1所示的系统所具有的各装置的功能结构进行说明。另外，在此，分别对学习装置10、识别装置50、打分装置90进行说明。
[0052]
(学习装置10的结构)
[0053]
图2是示出实施例1的学习装置10的功能结构的功能框图。如图2所示，学习装置10具有通信部11、存储部12和控制部20。
[0054]
通信部11是对与其他装置之间的通信进行控制的处理部，例如是通信接口等。例如，通信部11接收由3d激光传感器5拍摄到的表演者1的距离图像，从管理者终端等接收各种数据、指示，向识别装置50发送学习完毕的类别分类模型。
[0055]
存储部12是存储数据、控制部20所执行的程序等的存储装置，例如是存储器、处理器等。该存储部12存储距离图像13、骨骼定义14、骨骼数据15、类别分类模型16。
[0056]
距离图像13是由3d激光传感器5拍摄的表演者1的距离图像。图3是说明距离图像13的图。如图3所示，距离图像13是包含从3d激光传感器5到像素的距离的数据，到3d激光传感器5的距离越近，则以越浓的颜色显示。另外，距离图像13是在表演者1的表演中随时拍摄的。
[0057]
骨骼定义14是用于确定骨骼模型上的各关节的定义信息。在此存储的定义信息可以通过3d激光传感器的3d感测针对每个表演者进行测量，也可以使用一般体系的骨骼模型进行定义。
[0058]
图4是说明骨骼定义14的图。如图4所示，骨骼定义14存储对由公知的骨骼模型确定的各关节进行了编号的18个(0号至17号)定义信息。例如，如图4所示，对右肩关节(shoulder_right)赋予7号，对左肘关节(elbow_left)赋予5号，对左膝关节(knee_left)赋予11号，对右股关节(hip_right)赋予14号。在此，在实施例中，有时将7号的右肩关节的x坐标记作x7、y坐标记作y7、z坐标记作z7。另外，例如，z轴可以定义为从3d激光传感器5朝向对象的距离方向，y轴可以定义为与z轴垂直的高度方向，x轴可以定义为水平方向。
[0059]
骨骼数据15是包含与使用各距离图像而生成的骨骼相关的信息在内的数据。具体而言，骨骼数据15包含使用距离图像而取得的、骨骼定义14所定义的各关节的位置。图5是说明骨骼数据15的图。如图5所示，骨骼数据15是将“帧、图像信息、骨骼信息”建立对应而得到的信息。
[0060]
在此，“帧”是识别由3d激光传感器5拍摄的各帧的识别符，“图像信息”是关节等位置已知的距离图像的数据。“骨骼信息”是骨骼的三维位置信息，是与图4所示的18个各关节对应的关节位置(三维坐标)。在图5的例子中，示出了如下内容：在作为距离图像的“图像数据a1”中，包含头(head)的坐标“x3、y3、z3”等的18个关节的位置是已知的。另外，关节位置例如是预先学习而得到的学习模型，也能够使用从距离图像中提取各关节位置的学习模型等来提取。
[0061]
在此，在本实施例中作为对象的鞍马的表演中，也可以使用18个关节，但也可以仅使用与鞍马的表演特别相关的关节。图6是说明与鞍马相关的骨骼信息的图。如图6所示，作为与鞍马的表演较大相关的骨骼信息(关节)，可举出头、右肩、左肩、脊柱、右肘、左肘、腰、右膝、左膝、右脚踝、左脚踝。
[0062]
头表示将头抬起或低下的动作。肩表示躯干与手臂的位置关系。脊柱表示身体的弯曲，表示体操中的屈体、伸展。肘表示手臂的弯曲、发力方式。手腕表示抓住物体的位置
等。腰表示身体的大致重心。膝表示躯干与腿的关系，能够确定分腿与合腿的差异。脚踝表示步行状态、跑步状态、鞍马旋转运动的轨迹。
[0063]
关于鞍马的比赛，混合存在在用手抓住鞍环的状态下进行的表演和在将手放在马背上的状态下进行的表演，即使进行了相同的动作，行为、难易度也会根据手的位置而发生变化。另一方面，由于鞍环存在于马背上，因此难以仅通过一系列的表演行为中的、手的位置自动判定是鞍环、还是马背。因此，在实施例1中，根据图6所示的关节整体的动作，特别是考虑脚踝的提起幅度等来估计手的位置，由此提高关节位置的估计精度。
[0064]
类别分类模型16是根据时间序列的骨骼信息来估计表演者1的手腕位置的学习模型，是使用由后述的学习部23学习的神经网络等的学习模型。例如，类别分类模型16将鞍马上的位置预先分类为多个类别，将表演者的骨骼信息的时间序列的变化作为特征量进行学习，由此估计表演者1的手腕的支承位置。
[0065]
图7是说明类别分类的图。如图7所示，在实施例1中，作为一例，说明将区域分割为从类别0到类别5的6个类别的例子。具体而言，类别1(a1)是马端a与鞍环1之间的马背的区域，类别2(a2)是鞍环1上的区域。类别3(a3)是鞍环1与鞍环2之间的马背的区域，类别4(a4)是鞍环2上的区域。类别5是鞍环2与马端b之间的马背的区域，类别0(a0)是从类别1到类别5以外的区域。
[0066]
控制部20是负责整个学习装置10的处理部，例如是处理器等。控制部20具有取得部21、学习数据生成部22和学习部23，执行类别分类模型16的学习。另外，取得部21、学习数据生成部22和学习部23是处理器等电子电路的一例、处理器等所具有的进程的一例。
[0067]
取得部21是取得各种数据的处理部。例如，取得部21从3d激光传感器5取得距离图像并存储到存储部12中。此外，取得部21从管理者终端等取得骨骼数据并存储到存储部12中。
[0068]
学习数据生成部22是生成类别分类模型16的学习所使用的学习数据的处理部。具体而言，学习数据生成部22生成将时间序列的骨骼信息设为说明变量、将手腕的支承位置(类别)设为目标变量的学习数据并存储到存储部12中，输出到学习部23。
[0069]
在此，作为将时间序列的骨骼信息作为特征量进行学习的理由，说明由于支承位置引起的关节动作的差异。图8是说明由于横向回旋时的支承位置引起的关节动作的差异的图，图9是说明由于表演俄罗斯回旋(russian twist)时的支承位置引起的关节动作的差异的图。
[0070]
如图8所示，纵向回旋是按照正面支承、背面支承、正面支承的顺序回旋的动作。如行为号13所示，在手腕的支承位置为马背位置的纵向回旋中，在背面支承中将脚抬起得较高以避开鞍环，在之后的正面支承中脚因在背面支承中抬起脚的反作用而容易下降。另一方面，如行为号14所示，在手腕的支承位置为鞍环的纵向回旋中，在背面支承中上身无需升高鞍环的量，因此不需要将脚抬起得较高，即使在之后的正面支承中，也能够以与背面支承大致相同的高度回旋。即，脚踝的z值的变化量根据手腕的支承位置而发生变化。
[0071]
此外，如图9所示，俄罗斯回旋是在向下支承中配合回旋而相应地改变朝向的动作。如行为号104至106所示，手腕的支承位置为马背位置的俄罗斯回旋以放在马背上的手为轴进行回旋，因此脚的位置为比马背低的位置。如行为号110至112所示，由于手腕的支承位置为鞍环的俄罗斯回旋以放置在鞍环上的手为轴进行回旋，因此与手腕的支承位置为马
背位置的俄罗斯回旋相比，脚的位置为更高的位置。即，脚踝的z值的变化量根据手腕的支承位置而发生变化。
[0072]
接着，具体说明脚踝的z值的变化。图10是说明由于支承位置引起的脚踝的z值的变化的图。在图10中，示出了依次表演鞍环的纵向回旋(行为号14)、鞍环的俄罗斯回旋(行为号110)、马背的纵向回旋(行为号13)、马背的俄罗斯回旋(行为号104)时的脚踝的z值。如图10所示，将鞍环设为支承位置的情况下的脚踝的z值的变化(振幅)较小，将马背设为支承位置的情况下的脚踝的z值的变化较大。即，通过学习z值的变化，能够认为支承位置的估计精度提高。
[0073]
由此，学习数据生成部22生成将时间序列的骨骼信息设为说明变量、将手腕的支承位置(类别)设为目标变量的学习数据。图11是说明学习数据的生成的图。如图11所示，学习数据生成部22参考骨骼数据15的骨骼信息，对各帧的骨骼信息赋予表示右手的支承位置的坐标的“wr”和表示左手的支承位置的坐标的“wl”，作为双手的支承位置信息。
[0074]
例如，学习数据生成部22针对time＝0的帧的骨骼信息(j0)，从骨骼信息取得右手腕(关节位置＝9号)的坐标值(r0)和左手腕(关节位置＝6号)的坐标值(l0)。然后，学习数据生成部22对右手腕的坐标值(r0)和左手腕的坐标值(l0)与属于预先设定的鞍马的各类别的坐标值进行比较，设定右手类别(类别2)和左手类别(类别4)。
[0075]
同样地，学习数据生成部22针对time＝1的帧的骨骼信息(j1)，从骨骼信息取得右手腕的坐标值(r1)和左手腕的坐标值(l1)。然后，学习数据生成部22对右手腕的坐标值(r1)和左手腕的坐标值(l1)与属于各类别的坐标值进行比较，设定右手类别(类别2)和左手类别(类别4)。
[0076]
这样，学习数据生成部22对按时间序列取得的各帧的骨骼信息赋予作为正解信息的右手类别和左手类别。另外，在图11中，为了简化说明，将骨骼信息记载为j0等，但实际上，按每18关节设定x、y、z值的坐标(合计18
×
3＝54个)。
[0077]
学习部23是使用由学习数据生成部22生成的学习数据来执行类别分类模型16的学习的处理部。具体而言，学习部23通过使用学习数据的有训练学习来优化类别分类模型16的参数，将学习完毕的类别分类模型16存储到存储部12中，发送给识别装置50。另外，结束学习的定时能够任意地设定为使用规定数量以上的学习数据的学习已完成的时刻、复原误差小于阈值的时刻等。
[0078]
这样的学习部23例如将30帧作为1个输入数据输入到类别分类模型16中作为时间序列的骨骼信息，因此通过填充等来执行学习数据的整形。图12是说明学习数据的整形的图。如图12所示，在从存在从time＝0的帧0到time＝t的帧t为止的t个骨骼信息的原始数据中每次错开1个而每次取得规定数量作为学习数据的情况下，为了使各学习数据的数量一致，复制起始帧的数据的数据，并且复制最终帧的数据，从而增加学习数据的数量。
[0079]
例如，学习部23将帧0的数据“骨骼信息(j0)、支持位置信息“wr(r0)、wl(l0)”复制到帧0之前，生成帧(-1)、帧(-2)等。同样地，学习部23将帧t的数据“骨骼信息(jt)、支持位置信息“wr(rt)、wl(lt)”复制到帧t之后，生成帧(t 1)、帧(t 2)等。另外，填充数量是学习所使用的帧数(length)的一半等。
[0080]
这样，学习部23在执行学习数据的整形的基础上执行类别分类模型16的学习。图13是说明类别分类模型16的学习的图。如图13所示，学习部23取得l个时间序列的骨骼信息
的学习数据作为说明变量，取得位于中间的学习数据的“右手类别、左手类别”作为目标变量。然后，学习部23将l个学习数据输入到类别分类模型16，通过基于类别分类模型16的输出结果与目标变量“右手类别、左手类别”的误差的误差反向传播法等，以输出结果与目标变量一致的方式进行学习类别分类模型16。
[0081]
例如，学习部23取得将帧n设为中间的帧(n-15)到帧(n-14)的30个帧的骨骼信息作为说明变量，并且取得帧n的“右手类别(类别2)、左手类别(类别4)”作为目标变量。然后，学习部23将所取得的30个帧作为1个输入数据输入到类别分类模型16，取得右手类别对应于各类别的概率(似然度)和左手类别对应于各类别的概率(似然度)，作为类别分类模型16的输出结果。
[0082]
然后，学习部23以右手类别的概率中的、作为目标变量的类别2的概率最高并且左手类别的概率中的、作为目标变量的类别4的概率最高的方式学习类别分类模型16。
[0083]
这样，学习部23通过使用将学习数据各错开1帧而得到的学习数据来进行学习，将骨骼信息的变化作为1个特征量进行学习。图14是说明要学习的特征量的例子的图。在图14中，横轴是帧号(时间)，纵轴是坐标值(x轴、y轴、z轴)，表示18个关节的坐标值的时间序列的变化。例如，在将范围设为
±
10帧，识别第1280帧的类别分类的情况下，输入从1270到1290帧之间的“20
×
(18个关节
×
3个轴(x、y、z)＝54)＝1080”的骨骼信息，学习类别分类模型16。此外，在识别第1310帧的类别分类的情况下，输入从1300到1320帧之间的“20
×
(18个关节
×
3个轴(x、y、z)＝54)＝1080”的骨骼信息，学习类别分类模型16。
[0084]
(识别装置50的结构)
[0085]
图15是示出实施例1的识别装置50的功能结构的功能框图。如图15所示，识别装置50具有通信部51、存储部52和控制部60。
[0086]
通信部51是对与其他装置之间的通信进行控制的处理部，例如是通信接口等。例如，通信部51接收由3d激光传感器5拍摄的表演者1的距离图像，从学习装置10接收学习完毕的类别分类模型，并向打分装置发送各种识别结果。
[0087]
存储部52是存储数据、控制部60所执行的程序等的存储装置，例如是存储器、处理器等。该存储部52存储距离图像53、骨骼定义54、骨骼数据55和学习完毕的类别分类模型56。
[0088]
距离图像53是由3d激光传感器5拍摄的表演者1的距离图像，例如是拍摄打分对象的表演者的表演而得到的距离图像。骨骼定义54是用于确定骨骼模型上的各关节的定义信息。另外，由于骨骼定义54与图4相同，因此省略详细说明。
[0089]
骨骼数据55是包含与由后述的数据生成部62按照每个帧生成的骨骼相关的信息的数据。具体而言，与图5同样，骨骼数据55是将“帧、图像信息、骨骼信息”建立对应而得到的信息。
[0090]
学习完毕的类别分类模型56是由学习装置10学习的类别分类模型。该学习完毕的类别分类模型56是根据时间序列的骨骼信息来估计表演者1的手腕的位置的学习模型。
[0091]
控制部60是负责整个识别装置50的处理部，例如是处理器等。制御部60具有取得部61、数据生成部62、估计部63和行为识别部64，执行手腕的位置的估计、表演者1所表演的行为的识别。另外，取得部61、数据生成部62、估计部63和行为识别部64是处理器等电子电路的一例、处理器等所具有的进程的一例。
[0092]
取得部61是取得各种数据、各种指示的处理部。例如，取得部61取得基于3d激光传感器5的测量结果(三维点组数据)的距离图像，存储到存储部52中。此外，取得部61从学习装置10等取得学习完毕的类别分类模型56，存储到存储部52中。
[0093]
数据生成部62是根据各距离图像生成包含18个关节的位置的骨骼信息的处理部。例如，数据生成部62使用根据距离图像来识别骨骼信息的学习完毕的模型来生成确定了18个关节位置的骨骼信息。然后，数据生成部62将对与距离图像对应的帧的编号、距离图像和骨骼信息建立对应而得到的骨骼数据55存储到存储部52中。此外，学习装置10的骨骼数据15中的骨骼信息也能够通过相同方法来生成。
[0094]
估计部63是使用表演者1的时间序列的骨骼信息和学习完毕的类别分类模型56来估计表演者1的手腕的支承位置的处理部。具体而言，估计部63将与学习时相同的帧数作为1个输入数据输入到学习完毕的类别分类模型56，根据学习完毕的类别分类模型56的输出结果，估计表演者1的手腕的支承位置，将估计结果输出到行为识别部64、打分装置90。
[0095]
图16是说明类别分类处理的图。如图16所示，估计部63将由数据生成部62生成的骨骼信息作为原始数据，通过与图12相同的方法进行数据填充，生成填充数据。然后，估计部63从起始起取得30帧，并输入到学习完毕的类别分类模型56。
[0096]
然后，估计部62从学习完毕的类别分类模型56的输出结果取得右手类别的概率中的、概率最高的“类别2”和左手类别的概率中的、概率最高的“类别3”。然后，估计部62将“右手＝类别2，左手＝类别3”估计为表演者1的手腕的支承位置。这样，估计部62通过将帧各错开1个而输入，估计表演中的各状态的手腕的支承位置。
[0097]
图17是说明时间序列的类别分类结果的图。在图17中，示出了估计部62对双手腕的支承位置的估计结果。如图17所示，通过使用多个关节位置的时间序列信息来识别作为识别对象的关节(手腕)位置，提高精度。即使在时刻t4的定时手腕的位置由于噪声而从类别4(a4)偏移到被判定为类别3(a3)的位置，也能够进行分类，使得根据肩、腰的连续动作来识别为类别4(a4)。
[0098]
返回图15，行为识别部64是使用估计部62的估计结果、由数据生成部62生成的骨骼数据55来自动识别表演者1所表演的各行为的处理部。例如，行为识别部64使用国际公开第2018/070414号所公开的方法来执行表演者1的躯干的位置、行为与行为的划分的姿势的检测、正面支承或落地位置的确定、分节点的判断、使用分节点间的信息的基本运动的判定等，自动识别表演者1所表演的各行为，并发送给打分装置90。
[0099]
例如，行为识别部64使用各帧的骨骼信息来计算表示各关节间的朝向的矢量数据，计算确定身体的朝向、运动的特征量。然后，行为识别部64将计算出的特征量与预先确定的行为识别的规则进行比较来识别行为。例如，行为识别部64根据各分节间的骨骼信息，计算特征量a、特征量b，通过特征量a和特征量b的组合来识别为行为a。
[0100]
此外，行为识别部64使用估计部62对手腕的支承位置的估计结果来将支承位置发生了变化的场所确定为分节点，确定行为的划分。另外，行为识别部64也能够使用将时间序列的骨骼信息作为输入而输出行为名称的学习模型等来执行行为识别。
[0101]
(打分装置90的结构)
[0102]
图18是示出实施例1的打分装置90的功能结构的功能框图。如图18所示，打分装置90具有通信部91、存储部92和控制部94。通信部91从识别装置50接收行为的识别结果、手腕
的支承位置的估计结果、表演者的骨骼信息(三维骨骼位置信息)等。
[0103]
存储部92是存储数据、控制部94所执行的程序等的存储装置的一例，例如是存储器、硬盘等。该存储部92存储行为信息93。行为信息93是将行为的名称、难易度、得分、各关节的位置、关节的角度、打分规则等建立对应而得到的信息。此外，行为信息93中包含打分所使用的其他各种各样的信息。
[0104]
控制部94是负责整个打分装置90的处理部，例如是处理器等。该控制部94具有打分部95和输出控制部96，按照从识别装置50输入的信息，进行表演者的打分等。
[0105]
打分部95是执行表演者的行为的打分、表演者的表演的打分的处理部。具体而言，打分部95对根据从识别装置50随时发送的行为的识别结果、手腕的支承位置的估计结果、表演者的骨骼信息等与行为信息93进行比较，执行表演者1所表演的行为、表演的打分。例如，打分部95计算d得分、e得分。然后，打分部95将打分结果输出到输出控制部96。另外，打分部95也能够执行使用了所广泛利用的打分规则的打分。
[0106]
输出控制部96是将打分部95的打分结果等显示到显示器等的处理部。例如，输出控制部96从识别装置50取得由各3d激光传感器拍摄到的距离图像、三维骨骼信息、表演者1正在表演的各图像数据、打分结果等各种信息，并显示到规定的画面。
[0107]
[学习处理]
[0108]
图19是示出学习处理的流程的流程图。如图19所示，学习装置10的学习数据生成部22取得各骨骼数据15中包含的各骨骼信息(s101)，执行生成双手腕的支承位置的正解信息的注释(s102)。
[0109]
接着，学习数据生成部22执行学习数据的整形，在该学习数据的整形中，分割为进行固定区间的帧，或者执行填充(s103)。然后，学习数据生成部22将学习数据分割为用于训练的学习用数据(训练数据)和用于评价的评价用数据(s104)。
[0110]
然后，学习数据生成部22执行包含按照鞍马的每个器械坐标轴的旋转或反转、随机噪声的添加、支承位置的正解值的分布调整等在内的学习数据的扩展(s105)。接着，学习数据生成部22执行包含归一化、标准化等的尺度调整(s106)。
[0111]
然后，学习部23决定类别分类模型16的算法、网络、超参数等，使用学习数据来执行类别分类模型16的学习(s107)。此时，学习部23针对每1个纪元，使用评价用数据来评价学习中的类别分类模型16的学习精度(评价误差)。
[0112]
然后，学习部23在满足学习次数超过阈值或者评价误差为固定值以下等规定条件时，结束学习(s108)。然后，学习部23选择评价误差为最小时的类别分类模型16(s109)。
[0113]
[自动打分处理]
[0114]
图20是示出自动打分处理的流程的流程图。如图20所示，识别装置50利用将帧号加上1而得到的值对处理对象的帧数进行更新(s201)。
[0115]
接着，识别装置50参考预先设定的信息，判定表演中的项目是否是对应于类别分类的处理的项目(s202)。在此，在如鞍马、平行木等那样对应于类别分类的项目的情况下(s202：是)，识别装置50读入骨骼数据55(s203)，执行类别分类处理(s204)。另一方面，在如吊环、跳马等那样不对应于类别分类的项目的情况下(s202：否)，识别装置50读入骨骼数据55(s205)。
[0116]
然后，识别装置50使用类别分类结果、骨骼数据55内的骨骼信息等来检测表演者
的躯干的位置、姿势(s206)，执行正面支承标志或落地标志的设定、分节点的判断、基本运动的判定等，执行表演者1所表演的行为的确定(s207)。
[0117]
然后，打分装置90使用所确定的行为等来判定难易度(s208)，评价表演实施点来计算e得分(s209)。然后，在表演继续的期间内(s210：否)，重复s201以后。
[0118]
另一方面，当表演结束时(s210：是)，打分装置90执行打分中所使用的各种标志、计数的复位(s211)，根据表演整体来执行行为难度的合计，计算d得分和e得分(s212)。然后，打分装置90将评价结果等存储到存储部92中，或者显示到显示器等显示装置(s213)。
[0119]
(类别分类处理)
[0120]
图21是示出类别分类处理的流程的流程图。另外，该处理是在图20的s204中执行的。
[0121]
如图21所示，与学习时同样，识别装置50的数据生成部62执行分类对象的数据整形，在该分类对象的数据整形中，分割为固定区间的帧，或者执行填充(s301)。接着，数据生成部62执行包含归一化、标准化等的尺度调整(s302)。
[0122]
然后，识别装置50的估计部63使用学习完毕的类别分类模型56来实施时间序列的骨骼信息的类别分类(s303)。然后，估计部63根据分类结果，确定双手(双手腕)的支承位置(s304)。
[0123]
[效果]
[0124]
如上所述，识别装置50能够使用类别分类器来决定支承位置，该类别分类器不仅将如表演鞍马时的手腕那样作为识别对象的关节的位置信息，还将头、肩、脊柱、肘、腰、膝、脚踝这样的与人的运动相关的关节位置的时间序列信息作为输入。
[0125]
此外，在体操比赛中的鞍马中，即使是相同的动作，所识别的行为也根据支承区域而不同，其结果，存在难易度改变的情况。但是，在实施例1的识别装置50中，在由于传感器数据中的噪声而对支承区域进行错误判定的情况下，不仅包含与支承相关的部位，还包含反映了运动自身所具有的特征的部位的运动来识别支承位置，由此能够实现更稳健的行为识别。
[0126]
因此，在自动打分系统中，能够使用表演者1的骨骼信息、准确的支承位置来识别表演，能够提高识别精度。此外，通过提高识别精度，能够将准确的自动打分结果提供给裁判，能够确保打分的公平性、准确性。
[0127]
实施例2
[0128]
另外，至此对本发明的实施例进行了说明，但本发明除了上述的实施例以外，也可以以各种不同的方式实施。
[0129]
[应用例]
[0130]
在上述实施例中，以体操比赛为例进行了说明，但不限于此，也能够应用于选手进行一系列行为而由裁判打分的其他比赛。作为其他比赛的一例，具有花样滑冰、艺术体操、啦啦操、跳水、空手道、滑雪等。此外，在上述实施例中，说明了估计双手的手腕的支承位置的例子，但不限于此，也能够应用于18个关节中的任意一个的关节位置、关节间的位置等的估计。
[0131]
[3d激光传感器]
[0132]
3d激光传感器5是摄影装置的一例，也可以使用摄像机等。在使用摄像机的情况
下，距离图像13和距离图像53为rgb图像。作为从rgb图像得到骨骼信息的手段，也可以使用openpose等公知的技术。
[0133]
[骨骼信息]
[0134]
此外，在上述实施例中，说明了进行使用18个各关节的位置的学习、识别的例子，但不限于此，也能够指定1个以上的关节来执行学习等。此外，在上述实施例中，例示各关节的位置作为骨骼信息的一例来进行了说明，但不限于此，能够采用各关节间的朝向(矢量)、各关节的角度、手脚的朝向、脸部的朝向等。
[0135]
[数值等]
[0136]
上述实施例中所使用的数值等仅为一例，不限于实施例，也能够任意地进行设定变更。此外，帧的数量、类别的数量等也是一例，能够任意地进行设定变更。此外，模型不限于神经网络，也能够使用各种机器学习、深层学习。
[0137]
[类别分类]
[0138]
在上述实施例中，说明了使用应用神经网络等机器学习的类别分类模型来估计特定关节的支承位置的例子，但不限于此。例如，也能够使用将作为估计对象的双手腕的位置与剩余的16个关节位置建立对应而得到的规则来估计双手腕的位置。也就是说，不仅使用与估计对象的双手腕的位置对应的骨骼信息，还能够使用人的关节整体的位置信息来估计双手腕的位置。
[0139]
[帧数]
[0140]
在上述实施例中，使用30等预先设定的帧数作为时间序列的帧数来执行了类别分类模型的学习、基于类别分类模型的估计，但不限于此。例如，能够使用表演、行为等规定的动作单位的帧数来执行类别分类模型的学习、基于类别分类模型的估计。
[0141]
[系统]
[0142]
除非另外指定，否则可以任意地变更上述文档中、附图中所示的处理过程、控制过程、具体名称、包含各种数据或参数的信息。
[0143]
此外，图示的各装置的各结构要素是功能概念性的各结构要素，不一定需要如物理上所图示地构成。即，各装置的分散、合并的具体方式不限于图示的内容。也就是说，能够根据各种负荷、使用状况等，以任意的单位在功能或物理上分散/合并而构成其全部或一部分。此外，各3d激光传感器可以内置于各装置，也可以作为各装置的外部装置通过通信等连接。
[0144]
例如，行为识别和组合评价也能够通过不同的装置来安装。此外，学习装置10、识别装置50和打分装置90也能够通过任意地组合起来的装置来实现。另外，取得部61是取得部的一例，估计部63是估计部的一例，行为识别部64是识别部的一例。
[0145]
并且，在各装置中进行的各处理功能能够通过cpu和由该cpu分析执行的程序来实现其全部或任意的一部分，或者作为基于有线逻辑的硬件来实现。
[0146]
[硬件]
[0147]
接着，对学习装置10、识别装置50、打分装置90等计算机的硬件结构进行说明。另外，各装置具有相同的结构，因此，此处作为计算机100进行说明，关于具体例子，例示识别装置50。
[0148]
图22是说明硬件结构例的图。如图22所示，计算机100具有通信装置100a、hdd
(hard disk drive：硬盘驱动器)100b、存储器100c和处理器100d。此外，图22所示的各部件通过总线等相互地连接。另外，hdd可以使用ssd(solid state drive：固态驱动器)等存储装置。
[0149]
通信装置100a是网络接口卡等，与其他服务器进行通信。hdd 100b存储使图15等所示的功能工作的程序、db。
[0150]
处理器100d通过从hdd 100b等中读出执行与图15所示的各处理部相同的处理的程序并展开到存储器100c中，使执行图15等中所说明的各功能的进程工作。即，该进程执行与识别装置50所具有的各处理部相同的功能。具体而言，当以识别装置50为例时，处理器100d从hdd 100b等读出具有与取得部61、数据生成部62、估计部63、行为识别部67等相同的功能的程序。然后，处理器100d执行如下进程：执行与取得部61、数据生成部62、估计部63、行为识别部67等相同的处理。
[0151]
这样，计算机100作为通过读出程序并执行来执行识别方法的信息处理装置工作。此外，计算机100通过介质读取装置从记录介质读出上述程序，并执行所读出的上述程序，由此也能够实现与上述实施例相同的功能。另外，其他实施例中所说的程序不限于由计算机100执行。例如，在其他计算机或服务器执行程序的情况或者如这些计算机或服务器协作地执行程序的情况下，也能够同样地应用本发明。
[0152]
标号说明
[0153]
10：学习装置；
[0154]
11：通信部；
[0155]
12：存储部；
[0156]
13：距离图像；
[0157]
14：骨骼定义；
[0158]
15：骨骼数据；
[0159]
16：类别分类模型；
[0160]
20：控制部；
[0161]
21：取得部；
[0162]
22：学习数据生成部；
[0163]
23：学习部；
[0164]
50：识别装置；
[0165]
51：通信部；
[0166]
52：存储部；
[0167]
53：距离图像；
[0168]
54：骨骼定义；
[0169]
55：骨骼数据；
[0170]
56：学习完毕的类别分类模型；
[0171]
60：控制部；
[0172]
61：取得部；
[0173]
62：数据生成部；
[0174]
63：估计部；
[0175]
64：行为识别部。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：一种基于改进支持向量机和光流法相结合的猪的采食行为识别方法

运动识别方法、运动识别程序及信息处理装置与流程

相关文献

最热文献