一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

事件及视频融合的动作识别方法及装置

2022-05-27 01:59:35 来源:中国专利 TAG:


1.本技术涉及计算机视觉及动作识别技术领域,特别涉及一种事件及视频融合的动作识别方法及装置。


背景技术:

2.目前,动作识别是一种通过视频序列来判断人体动作的任务,在智能监控、行为检测等领域得到广泛研究和应用。相关技术中,为解决基于视频序列的大多数动作识别方法资源耗用较大、隐私问题难以解决等问题,近年来事件相机和事件数据的处理方法开始得到研究。相较于传统相机,事件相机仅在光强变化时记录数据,大幅降低了数据的冗余度,提高了被观测用户的隐私性。
3.然而,相关技术中,相较于视频帧数据的稠密、同步,事件数据的稀疏、异步特性使得当前以深度学习为基础的卷积神经网络难以直接应用于事件数据的特征提取。另一方面,由于事件数据仅包含光强变化信息,仅利用事件数据难以实现包括动作识别在内的复杂推理。
4.申请内容
5.本技术提供一种事件及视频融合的动作识别方法及装置,以解决相关技术中,由于事件数据的稀疏、异步特性使得以深度学习为基础的卷积神经网络难以直接应用于事件数据的特征提取,且事件数据包含信息单一,难以实现包括动作识别在内的复杂推理,使得动作识别难以兼顾被观测用户的隐私性与数据获取的准确性等问题。
6.本技术第一方面实施例提供一种事件及视频融合的动作识别方法,包括以下步骤:追踪事件数据,产生事件流,并基于所述事件流获取连续的事件轨迹;在所述事件轨迹上等时长间隔采样,累加得到事件帧;在输入视频上均匀采样,得到二维图像,并基于所述二维图像获得锐化后的二维图像;将所述事件帧和所述锐化后的二维图像输入预设的关键点预测网络,得到二维关键点坐标;通过坐标转换方法将所述二维关键点坐标转换为三维关键点坐标;以及将所述三维关键点坐标输入预设的动作识别网络,得到动作类别。
7.可选地,在本技术的一个实施例中,所述在所述事件轨迹上等时长间隔采样,累加得到事件帧,包括:以所述等时长间隔对所述事件轨迹进行切割,划分得到多个事件轨迹区域;对所述多个事件轨迹区域内的事件数据进行累加,获得大于预设帧率的所述事件帧。
8.可选地,在本技术的一个实施例中,在基于所述二维图像获得锐化后的二维图像之前,还包括:利用图像锐化公式对所述二维图像进行锐化,其中,所述图像锐化公式为:
[0009][0010]
其中,l(tk)为时间间隔[tk,t
k 1
]内得到的所述锐化后的二维图像,i(k)为第k张所述二维图像,t为相机的曝光时间,e(t)为所述事件帧。
[0011]
可选地,在本技术的一个实施例中,所述将所述事件帧和所述锐化后的二维图像输入预设的关键点预测网络,得到二维关键点坐标,包括:将所述事件帧输入所述关键点预
测网络的前端框架,获得所述事件帧的特征向量;将所述锐化后的二维图像输入所述关键点预测网络的前端框架,获得所述锐化后的二维图像的特征向量;拼接所述事件帧的特征向量和所述锐化后的二维图像的特征向量,构成全局特征向量;将所述全局特征向量输入所述关键点预测网络的后端框架,得到关键点热图,并基于所述关键点热图预测所述二维关键点坐标。
[0012]
可选地,在本技术的一个实施例中,所述通过坐标转换方法将所述二维关键点坐标转换为三维关键点坐标,包括:使用坐标转换方法,将所述二维关键点坐标转换为世界坐标系下的初始三维关键点坐标;计算所述初始三维关键点坐标的平均值,得到最优的所述三维关键点坐标。
[0013]
可选地,在本技术的一个实施例中,所述将所述三维关键点坐标输入预设的动作识别网络,得到动作类别,包括:根据所述最优的三维关键点坐标及视频帧所在的时间获取所述最优的三维关键点坐标的速度信息和姿态信息;将所述最优的三维关键点坐标的速度信息和姿态信息输入所述动作识别网络,获得所有候选动作的置信度;选取所有候选动作的置信度最大者,识别得到所述动作类别。
[0014]
本技术第二方面实施例提供一种事件及视频融合的动作识别装置,包括:拟合模块,用于追踪事件数据,产生事件流,并基于所述事件流获取连续的事件轨迹;采样模块,用于在所述事件轨迹上等时长间隔采样,累加得到事件帧;锐化模块,用于在输入视频上均匀采样,得到二维图像,并基于所述二维图像获得锐化后的二维图像;二维关键点预测模块,用于将所述事件帧和所述锐化后的二维图像输入预设的关键点预测网络,得到二维关键点坐标;三维关键点预测模块,用于通过坐标转换方法将所述二维关键点坐标转换为三维关键点坐标;以及识别模块,用于将所述三维关键点坐标输入预设的动作识别网络,得到动作类别。
[0015]
可选地,在本技术的一个实施例中,所述采样模块,包括:分区单元,用于以所述等时长间隔对所述事件轨迹进行切割,划分得到多个事件轨迹区域;累加单元,用于对所述多个事件轨迹区域内的事件数据进行累加,获得大于预设帧率的所述事件帧。
[0016]
可选地,在本技术的一个实施例中,所述锐化模块进一步用于,利用图像锐化公式对所述二维图像进行锐化,其中,所述图像锐化公式为:
[0017][0018]
其中,l(tk)为时间间隔[tk,t
k 1
]内得到的所述锐化后的二维图像,i(k)为第k张所述二维图像,t为相机的曝光时间,e(t)为所述事件帧。
[0019]
可选地,在本技术的一个实施例中,所述二维关键点预测模块,包括:第一获取单元,用于将所述事件帧输入所述关键点预测网络的前端框架,获得所述事件帧的特征向量;第二获取单元,用于将所述锐化后的二维图像输入所述关键点预测网络的前端框架,获得所述锐化后的二维图像的特征向量;拼接单元,用于拼接所述事件帧的特征向量和所述锐化后的二维图像的特征向量,构成全局特征向量;预测单元,用于将所述全局特征向量输入所述关键点预测网络的后端框架,得到关键点热图,并基于所述关键点热图预测所述二维关键点坐标。
[0020]
可选地,在本技术的一个实施例中,所述三维关键点预测模块,包括:转换单元,用
于使用坐标转换方法,将所述二维关键点坐标转换为世界坐标系下的初始三维关键点坐标;计算单元,用于计算所述初始三维关键点坐标的平均值,得到最优的所述三维关键点坐标。
[0021]
可选地,在本技术的一个实施例中,识别模块,包括:第三获取单元,用于根据所述最优的三维关键点坐标及视频帧所在的时间获取所述最优的三维关键点坐标的速度信息和姿态信息;输入单元,用于将所述最优的三维关键点坐标的速度信息和姿态信息输入所述动作识别网络,获得所有候选动作的置信度;识别单元,用于选取所有候选动作的置信度最大者,识别得到所述动作类别。
[0022]
本技术第三方面实施例提供一种电子设备,包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述程序,以实现如上述实施例所述的事件及视频融合的动作识别方法。
[0023]
本技术第四方面实施例提供一种计算机可读存储介质,所述计算机可读存储介质存储计算机指令,所述计算机指令用于使所述计算机执行如上述实施例所述的事件及视频融合的动作识别方法。
[0024]
本技术实施例通过提取事件数据特征,并对提取数据进行特征变换,以获得动作类别,实现将事件数据与视频数据相融合共同进行动作识别,能够充分利用事件数据和视频数据的内在信息,并将两种数据进行互补融合,不仅能实现高精度、低能耗的人体动作识别,还能保证被观测用户的隐私性。由此,解决了相关技术中,由于事件数据的稀疏、异步特性使得以深度学习为基础的卷积神经网络难以直接应用于事件数据的特征提取,且事件数据包含信息单一,难以实现包括动作识别在内的复杂推理,使得动作识别难以兼顾被观测用户的隐私性与数据获取的准确性等问题。
[0025]
本技术附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本技术的实践了解到。
附图说明
[0026]
本技术上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
[0027]
图1为根据本技术实施例提供的一种事件及视频融合的动作识别方法的流程图;
[0028]
图2为根据本技术一个具体实施例的事件及视频融合的动作识别方法的原理示意图;
[0029]
图3为根据本技术实施例提供的一种事件及视频融合的动作识别装置的结构示意图;
[0030]
图4为根据本技术实施例提供的电子设备的结构示意图。
具体实施方式
[0031]
下面详细描述本技术的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本技术,而不能理解为对本技术的限制。
[0032]
下面参考附图描述本技术实施例的事件及视频融合的动作识别方法及装置。针对
上述背景技术中心提到的相关技术中,由于事件数据的稀疏、异步特性使得以深度学习为基础的卷积神经网络难以直接应用于事件数据的特征提取,且事件数据包含信息单一,难以实现包括动作识别在内的复杂推理,使得动作识别难以兼顾被观测用户的隐私性与数据获取的准确性的问题,本技术提供了一种事件及视频融合的动作识别方法,在该方法中,通过提取事件数据特征,并对提取数据进行特征变换,以获得动作类别,实现将事件数据与视频数据相融合共同进行动作识别,能够充分利用事件数据和视频数据的内在信息,并将两种数据进行互补融合,不仅能实现高精度、低能耗的人体动作识别,还能保证被观测用户的隐私性。由此,解决了相关技术中,由于事件数据的稀疏、异步特性使得以深度学习为基础的卷积神经网络难以直接应用于事件数据的特征提取,且事件数据包含信息单一,难以实现包括动作识别在内的复杂推理,使得动作识别难以兼顾被观测用户的隐私性与数据获取的准确性等问题。
[0033]
具体而言,图1为本技术实施例所提供的一种事件及视频融合的动作识别方法的流程示意图。
[0034]
如图1所示,该事件及视频融合的动作识别方法包括以下步骤:
[0035]
在步骤s101中,追踪事件数据,产生事件流,并基于事件流获取连续的事件轨迹;在事件轨迹上等时长间隔采样,累加得到事件帧。
[0036]
具体地,本技术实施例可以使用事件追踪算法追踪事件数据,产生事件流,使用拟合算法得到连续的事件轨迹,并在事件轨迹上等时长间隔采样,累加得到高帧率的事件帧,进而提高获取的事件信息的准确性,使得后续的动作识别判断结果更为精确。
[0037]
其中,事件追踪算法为一种基于异步光度特征的事件跟踪算法,拟合算法为一种基于b样条曲线的拟合算法,事件轨迹为反映每一个事件点运动的曲线集合,本技术实施例在事件轨迹上的采样时长间隔,可以由本领域技术人员根据实际情况进行适应性调整,在此不做具体限制。
[0038]
可选地,在本技术的一个实施例中,在事件轨迹上等时长间隔采样,累加得到事件帧,包括:以等时长间隔对事件轨迹进行切割,划分得到多个事件轨迹区域;对多个事件轨迹区域内的事件数据进行累加,获得大于预设帧率的事件帧。
[0039]
可以理解的是,本技术实施例可以以等时长间隔对事件轨迹进行切割,进而划分得到多个事件轨迹区域,将事件轨迹区域内的事件数据进行累加,从而得到高帧率的事件帧,其中,本技术实施例的事件帧可以为一种二维的类图像特征表示,能够作为主流卷积神经网络的输入,进而避免了异步数据难以处理的难题。
[0040]
在步骤s102中,在输入视频上均匀采样,得到二维图像,并基于二维图像获得锐化后的二维图像。
[0041]
具体地,本技术实施例可以在输入视频上均匀采样获得的一组二维图像,如可以通过图像锐化算法,进一步获得锐化后的二维图像,通过图像锐化算法获得的二维图像,能够使得人体动作更加清晰,为后续动作识别及判断的准确性打下基础。本技术实施例将事件数据与视频数据相融合共同进行动作识别,能够充分利用事件数据和视频数据的内在信息,并将两种数据进行互补融合,从而实现高精度、低能耗的人体动作识别。
[0042]
可选地,在本技术的一个实施例中,在基于二维图像获得锐化后的二维图像之前,还包括:利用图像锐化公式对二维图像进行锐化,其中,图像锐化公式为:
[0043][0044]
其中,l(tk)为时间间隔[tk,t
k 1
]内得到的所述锐化后的二维图像,i(k)为第k张所述二维图像,t为相机的曝光时间,e(t)为所述事件帧。
[0045]
本领域技术人员应该理解到的是,本技术实施例的图像锐化算法可以为一种消除图像模糊的算法,不作具体限制,进而通过图像锐化公式对二维图像进行锐化;其中图像锐化公式可以为:
[0046][0047]
其中,l(tk)为时间间隔[tk,t
k 1
]内得到的所述锐化后的二维图像,i(k)为第k张所述二维图像,t为相机的曝光时间,e(t)为所述事件帧。
[0048]
在步骤s103中,将事件帧和锐化后的二维图像输入预设的关键点预测网络,得到二维关键点坐标。
[0049]
作为一种可能实现的方式,本技术实施例中的关键点预测网络为一种卷积神经网络,该卷积神经网络包括:关键点预测网络的前端框架以及关键点预测网络的后端框架。
[0050]
其中,关键点预测网络的前端框架具体包括:卷积层、池化层和激活层;关键点预测网络的后端框架输出关键点热图具体包括:转置卷积层和激活层。
[0051]
可选地,在本技术的一个实施例中,将事件帧和锐化后的二维图像输入预设的关键点预测网络,得到二维关键点坐标,包括:将事件帧输入关键点预测网络的前端框架,获得事件帧的特征向量;将锐化后的二维图像输入关键点预测网络的前端框架,获得锐化后的二维图像的特征向量;拼接事件帧的特征向量和锐化后的二维图像的特征向量,构成全局特征向量;将全局特征向量输入关键点预测网络的后端框架,得到关键点热图,并基于关键点热图预测二维关键点坐标。
[0052]
以下列举实施例,示意性说明:首先,本技术实施例可以将事件帧输入关键点预测网络的前端框架,进而获得事件帧的特征向量;其次,本技术实施例可以将锐化后的二维图像输入关键点预测网络的前端框架,进而获得锐化后的二维图像的特征向量;再次,本技术实施例拼接已获得的事件帧的特征向量和锐化后的二维图像的特征向量,进而构成全局特征向量;最后,本技术实施例将全局特征向量输入关键点预测网络的后端框架,得到关键点热图,进而获得预测的所述二维关键点坐标。进一步的,本技术实施例通过将事件帧的特征向量和二维图像的特征向量进行拼接,构成全局特征向量,保证了事件数据和视频数据的互补融合。
[0053]
在步骤s104中,通过坐标转换方法将二维关键点坐标转换为三维关键点坐标;以及将三维关键点坐标输入预设的动作识别网络,得到动作类别。
[0054]
可以理解的是,本技术实施例可以通过坐标转换方法,将二维关键点坐标转换为三维关键点坐标,并将经过转换得到的三维关键点坐标输入动作识别网络,进而得到动作类别。本技术实施例通过将二维关键点转换为三维关键点,将获取的数据信息从平面转为立体,更便于动作判定。
[0055]
可选地,在本技术的一个实施例中,通过坐标转换方法将二维关键点坐标转换为
三维关键点坐标,包括:使用坐标转换方法,将二维关键点坐标转换为世界坐标系下的初始三维关键点坐标;计算初始三维关键点坐标的平均值,得到最优的三维关键点坐标。
[0056]
举例而言,本技术实施例的使用坐标转换方法,可以将所述二维关键点坐标转换为世界坐标系下的三维关键点坐标,并将计算出的三维关键点坐标的平均值,作为最优三维关键点坐标。
[0057]
可选地,在本技术的一个实施例中,将三维关键点坐标输入预设的动作识别网络,得到动作类别,包括:根据最优的三维关键点坐标及视频帧所在的时间获取最优的三维关键点坐标的速度信息和姿态信息;将最优的三维关键点坐标的速度信息和姿态信息输入动作识别网络,获得所有候选动作的置信度;选取所有候选动作的置信度最大者,识别得到动作类别。
[0058]
本技术实施例可以根据计算得出的最优三维关键点坐标,以及视频帧所在的时间,获得最优三维关键点坐标的速度信息和姿态信息,并将最优三维关键点坐标的速度信息和姿态信息输入动作识别网络,进而获得所有候选动作的置信度,并从所有候选动作中选择置信度最大的候选动作进行动作类别判定。本技术实施例通过最优的三维关键点坐标及其速度信息和姿态信息,获得并选取置信度最大的候选动作,使得最终的动作识别结果更具准确性。
[0059]
下面结合图2,对本技术的一个具体的实施例的事件及视频融合的动作识别方法的原理进行详细阐述。
[0060]
如图2所示,本技术实施例包括以下步骤:
[0061]
步骤s201:事件轨迹拟合。本技术实施例通过拟合模块,使用事件追踪算法追踪事件数据,产生事件流,并使用拟合算法得到连续的事件轨迹。其中,事件追踪算法为一种基于异步光度特征的事件跟踪算法;拟合算法为一种基于b样条曲线的拟合算法;事件轨迹为反映每一个事件点运动的曲线集合。
[0062]
步骤s202:事件帧采样。在本技术实施例通过采样模块,获取的事件轨迹上等时长间隔采样,累加得到高帧率的事件帧。具体地,本技术实施例以等时长间隔对事件轨迹进行切割,划分得到一系列事件轨迹区域,并对事件轨迹区域内的事件数据进行累加,从而获得高帧率的所述事件帧。其中,事件帧为一种二维的类图像特征表示。本技术实施例在输入视频上均匀采样获得的一组二维图像,可以通过图像锐化算法,进一步获得锐化后的二维图像,通过图像锐化算法获得的二维图像,其事件动作更加清晰,为后续动作识别及判断的准确性打下基础。
[0063]
步骤s203:视频采样与处理。本技术实施例通过锐化模块,在输入视频上均匀采样得到一组二维图像后,使用图像锐化算法,获得一组锐化后的二维图像。其中,本技术实施例使用的图像锐化算法为一种消除图像模糊的算法,通过图像锐化公式对所述二维图像进行锐化,图像锐化公式为:
[0064][0065]
其中,l(tk)为时间间隔[tk,t
k 1
]内得到的所述锐化后的二维图像,i(k)为第k张所述二维图像,t为相机的曝光时间,e(t)为所述事件帧。本技术实施例将事件数据与视频数
据相融合共同进行动作识别,能够充分利用事件数据和视频数据的内在信息,并将两种数据进行互补融合,从而实现高精度、低能耗的人体动作识别。
[0066]
步骤s204:二维关键点预测。将本技术实施例通过二维关键点预测模块,将获得的事件帧和锐化后的二维图像输入关键点预测网络,并得到二维关键点坐标。具体地,本技术实施例使用的关键点预测网络为一种卷积神经网络,具体包括:关键点预测网络的前端框架以及关键点预测网络的后端框架。其中,关键点预测网络的前端框架具体包括:卷积层、池化层和激活层;关键点预测网络的后端框架输出关键点热图具体包括:转置卷积层和激活层。
[0067]
进一步地,本技术实施例的二维关键点预测模块,首先将事件帧输入关键点预测网络的前端框架,获得事件帧的特征向量,其次将锐化后的二维图像输入关键点预测网络的前端框架,获得锐化后的二维图像的特征向量,再次拼接事件帧的特征向量和锐化后的二维图像的特征向量,构成全局特征向量,最后将全局特征向量输入关键点预测网络的后端框架,得到关键点热图,进而获得预测的二维关键点坐标。本技术实施例通过将事件帧中的特征向量进行拼接,构成全局特征向量,保证了事件数据和视频数据的互补融合。
[0068]
步骤s205:三维关键点预测。本技术实施例的三维关键点预测模块,通过坐标转换方法将二维关键点坐标转换为三维关键点坐标,具体地,本技术实施例使用坐标转换方法,将所述二维关键点坐标转换为世界坐标系下的三维关键点坐标,并计算所述三维关键点坐标的平均值,作为最优三维关键点坐标。本技术实施例将二维关键点转换为三维关键点,将获取的数据信息从平面转为立体,更便于动作判定。
[0069]
步骤s206:动作类别判断。本技术实施例的识别模块,根据最优三维关键点坐标,以及视频帧所在的时间,获取最优三维关键点坐标的速度信息和姿态信息,并将最优三维关键点坐标的速度信息和姿态信息输入动作识别网络,获得所有候选动作的置信度,选取所有候选动作的所述置信度最大者,得到识别的所述动作类别。通过最优的三维关键点坐标及其速度信息和姿态信息,获得并选取置信度最大的候选动作,使得最终的动作识别结果更具准确性。
[0070]
根据本技术实施例提出的事件及视频融合的动作识别方法,通过提取事件数据特征,并对提取数据进行特征变换,以获得动作类别,实现将事件数据与视频数据相融合共同进行动作识别,能够充分利用事件数据和视频数据的内在信息,并将两种数据进行互补融合,不仅能实现高精度、低能耗的人体动作识别,还能保证被观测用户的隐私性。由此,解决了相关技术中,由于事件数据的稀疏、异步特性使得以深度学习为基础的卷积神经网络难以直接应用于事件数据的特征提取,且事件数据包含信息单一,难以实现包括动作识别在内的复杂推理,使得动作识别难以兼顾被观测用户的隐私性与数据获取的准确性等问题。
[0071]
其次参照附图描述根据本技术实施例提出的事件及视频融合的动作识别装置。
[0072]
图3是本技术实施例的事件及视频融合的动作识别装置的方框示意图。
[0073]
如图3所示,该事件及视频融合的动作识别装置10包括:拟合模块100、采样模块200、锐化模块300、二维关键点预测模块400、三维关键点预测模块500和识别模块600。
[0074]
具体地,拟合模块100,用于追踪事件数据,产生事件流,并基于事件流获取连续的事件轨迹。
[0075]
采样模块200,用于在事件轨迹上等时长间隔采样,累加得到事件帧。
[0076]
锐化模块300,用于在输入视频上均匀采样,得到二维图像,并基于二维图像获得锐化后的二维图像。
[0077]
二维关键点预测模块400,用于将事件帧和锐化后的二维图像输入预设的关键点预测网络,得到二维关键点坐标。
[0078]
三维关键点预测模块500,用于通过坐标转换方法将二维关键点坐标转换为三维关键点坐标。
[0079]
识别模块600,用于将三维关键点坐标输入预设的动作识别网络,得到动作类别。
[0080]
可选地,在本技术的一个实施例中,采样模块200,包括:分区单元和累加单元。
[0081]
其中,分区单元,用于以等时长间隔对事件轨迹进行切割,划分得到多个事件轨迹区域。
[0082]
累加单元,用于对多个事件轨迹区域内的事件数据进行累加,获得大于预设帧率的事件帧。
[0083]
可选地,在本技术的一个实施例中,锐化模块300进一步用于,利用图像锐化公式对二维图像进行锐化,其中,图像锐化公式为:
[0084][0085]
其中,l(tk)为时间间隔[tk,t
k 1
]内得到的所述锐化后的二维图像,i(k)为第k张所述二维图像,t为相机的曝光时间,e(t)为所述事件帧。
[0086]
可选地,在本技术的一个实施例中,二维关键点预测400模块包括:第一获取单元、第二获取单元、拼接单元和预测单元。
[0087]
其中,第一获取单元,用于将事件帧输入关键点预测网络的前端框架,获得事件帧的特征向量。
[0088]
第二获取单元,用于将锐化后的二维图像输入关键点预测网络的前端框架,获得锐化后的二维图像的特征向量。
[0089]
拼接单元,用于拼接事件帧的特征向量和锐化后的二维图像的特征向量,构成全局特征向量。
[0090]
预测单元,用于将全局特征向量输入关键点预测网络的后端框架,得到关键点热图,并基于关键点热图预测二维关键点坐标。
[0091]
可选地,在本技术的一个实施例中,三维关键点预测模块500包括:转换单元和计算单元。
[0092]
其中,转换单元,用于使用坐标转换方法,将二维关键点坐标转换为世界坐标系下的初始三维关键点坐标。
[0093]
计算单元,用于计算初始三维关键点坐标的平均值,得到最优的三维关键点坐标。
[0094]
可选地,在本技术的一个实施例中,识别模块600包括:第三获取单元、输入单元和识别单元。
[0095]
其中,第三获取单元,用于根据最优的三维关键点坐标及视频帧所在的时间获取最优的三维关键点坐标的速度信息和姿态信息。
[0096]
输入单元,用于将最优的三维关键点坐标的速度信息和姿态信息输入动作识别网络,获得所有候选动作的置信度。
[0097]
识别单元,用于选取所有候选动作的置信度最大者,识别得到动作类别。
[0098]
需要说明的是,前述对事件及视频融合的动作识别方法实施例的解释说明也适用于该实施例的事件及视频融合的动作识别装置,此处不再赘述。
[0099]
根据本技术实施例提出的事件及视频融合的动作识别装置,通过提取事件数据特征,并对提取数据进行特征变换,以获得动作类别,实现将事件数据与视频数据相融合共同进行动作识别,能够充分利用事件数据和视频数据的内在信息,并将两种数据进行互补融合,不仅能实现高精度、低能耗的人体动作识别,还能保证被观测用户的隐私性。由此,解决了相关技术中,由于事件数据的稀疏、异步特性使得以深度学习为基础的卷积神经网络难以直接应用于事件数据的特征提取,且事件数据包含信息单一,难以实现包括动作识别在内的复杂推理,使得动作识别难以兼顾被观测用户的隐私性与数据获取的准确性等问题。
[0100]
图4为本技术实施例提供的电子设备的结构示意图。该电子设备可以包括:
[0101]
存储器401、处理器402及存储在存储器401上并可在处理器402上运行的计算机程序。
[0102]
处理器402执行程序时实现上述实施例中提供的事件及视频融合的动作识别方法。
[0103]
进一步地,电子设备还包括:
[0104]
通信接口403,用于存储器401和处理器402之间的通信。
[0105]
存储器401,用于存放可在处理器402上运行的计算机程序。
[0106]
存储器401可能包含高速ram存储器,也可能还包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。
[0107]
如果存储器401、处理器402和通信接口403独立实现,则通信接口403、存储器401和处理器402可以通过总线相互连接并完成相互间的通信。总线可以是工业标准体系结构(industry standard architecture,简称为isa)总线、外部设备互连(peripheral component,简称为pci)总线或扩展工业标准体系结构(extended industry standard architecture,简称为eisa)总线等。总线可以分为地址总线、数据总线、控制总线等。为便于表示,图4中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
[0108]
可选地,在具体实现上,如果存储器401、处理器402及通信接口403,集成在一块芯片上实现,则存储器401、处理器402及通信接口403可以通过内部接口完成相互间的通信。
[0109]
处理器402可能是一个中央处理器(central processing unit,简称为cpu),或者是特定集成电路(application specific integrated circuit,简称为asic),或者是被配置成实施本技术实施例的一个或多个集成电路。
[0110]
本实施例还提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如上的事件及视频融合的动作识别方法。
[0111]
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本技术的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或n个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结
合和组合。
[0112]
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本技术的描述中,“n个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
[0113]
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更n个用于实现定制逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本技术的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本技术的实施例所属技术领域的技术人员所理解。
[0114]
在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用,或结合这些指令执行系统、装置或设备而使用。就本说明书而言,"计算机可读介质"可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下:具有一个或n个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(ram),只读存储器(rom),可擦除可编辑只读存储器(eprom或闪速存储器),光纤装置,以及便携式光盘只读存储器(cdrom)。另外,计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序,然后将其存储在计算机存储器中。
[0115]
应当理解,本技术的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,n个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。如,如果用硬件来实现和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(pga),现场可编程门阵列(fpga)等。
[0116]
本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。
[0117]
此外,在本技术各个实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。
[0118]
上述提到的存储介质可以是只读存储器,磁盘或光盘等。尽管上面已经示出和描述了本技术的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本技术的限制,本领域的普通技术人员在本技术的范围内可以对上述实施例进行变化、修改、替换和变型。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献