一种行为动作识别方法、系统、设备及存储介质与流程

2022-06-05 18:29:11 来源：中国专利 TAG：

1.本发明主要涉及到行为动作识别技术领域，特别涉及一种行为动作识别方法、系统、设备及存储介质。

背景技术：

2.如今的行为动作识别，因为硬件设备限制(显存大小等)，输入都是连续的几十帧图像(大约2s长度)，然后去进行行为动作分类。但是这种很有局限性，对于一些持续时间长、跨度大的动作，如一个人把一个东西交给另外一个人，可能持续时间很长，而一般输入的长度也就2s左右，不能很好识别这种长时间跨度视频的人人交互或者人物交互动作。

技术实现要素：

3.为此，本发明实施例提供了一种行为动作识别方法、系统、设备及存储介质，解决如何识别长时间跨度视频的人人交互或者人物交互动作的技术问题。
4.为了实现上述目的，本发明实施例提供如下技术方案：
5.第一方面，本发明提供了一种行为动作识别方法，所述方法包括：
6.获取输入视频；
7.对所述输入视频进行逐帧图片目标检测，得到主目标检测框；
8.基于第一预设时长划分所述输入视频，得到多个视频片段；
9.利用所述主目标检测框，对各个视频片段进行目标特征提取，得到各个视频片段对应的第一目标特征并存储至记忆特征池；
10.基于所述记忆特征池建立各个视频片段的上下文关系；
11.根据所述上下文关系对各个视频片段进行动作识别并分类。
12.进一步地，将所述第一目标特征存储至记忆特征池，包括：
13.根据各个视频片段在所述输入视频中的时间段信息，生成对应第一目标特征的时间标签；
14.利用所述时间标签和所述第一目标特征建立第一对应关系；及
15.将所述第一目标特征、所述时间标签和所述第一对应关系存储至所述记忆特征池。
16.进一步地，基于所述记忆特征池建立各个视频片段的上下文关系，包括：
17.以当前预识别的视频片段作为基准片段；
18.利用所述时间标签，选取所述基准片段前、后第二预设时长内的多个视频片段作为参考片段；
19.基于所述第一对应关系，提取各个参考片段对应的第一目标特征；
20.将所述基准片段和各个参考片段的第一目标特征进行两两组合，计算两者的第一目标特征相似度；
21.判断第一目标特征相似度是否达到预设阈值；
22.如果所述第一目标特征相似度达到预设阈值，则对相应的视频片段标记一次，否则不对相应的视频片段进行标记；
23.记录所述基准片段和各个参考片段的标记次数。
24.进一步地，根据所述上下文关系对各个视频片段进行动作识别并分类，包括：
25.统计所述基准片段和各个参考片段的标记次数；
26.选取标记次数最多的基准片段或参考片段对应的第一目标特征，对所述视频片段进行动作识别并分类。
27.优选地，所述方法还包括：
28.对所述输入视频进行逐帧图片目标检测，得到参考目标检测框；
29.利用所述参考目标检测框，对各个视频片段进行目标特征提取，得到各个视频片段对应的第二目标特征并存储至记忆特征池；
30.其中，所述参考目标检测框对应的检测目标与所述主目标检测框对应的检测目标之间存在动作交互关系或动作对应关系。
31.优选地，将所述第二目标特征存储至记忆特征池，包括：
32.根据各个视频片段在所述输入视频中的时间段信息，生成对应第二目标特征的时间标签，所述第二目标特征的时间标签与所述第一目标特征的时间标签相同；
33.利用所述时间标签和所述第二目标特征建立第二对应关系；及
34.将所述第二目标特征、所述时间标签和所述第二对应关系存储至所述记忆特征池。
35.优选地，基于所述记忆特征池建立各个视频片段的上下文关系，包括：
36.以当前预识别的视频片段作为基准片段；
37.利用所述时间标签，选取所述基准片段前、后第二预设时长内的多个视频片段作为参考片段；
38.基于所述第一对应关系和所述第二对应关系，提取各个参考片段对应的第一目标特征和第二目标特征；
39.将所述基准片段和各个参考片段的第一目标特征和第二目标特征分别进行两两组合，并计算两者的第一目标特征相似度和第二目标特征相似度；
40.判断所述第一目标特征相似度和所述第二目标特征相似度是否达到预设阈值；
41.如果所述第一目标特征相似度和/或所述第二目标特征相似度达到预设阈值，则对相应的视频片段标记一次，否则不对相应的视频片段进行标记；
42.记录所述基准片段和各个参考片段的标记次数。
43.第二方面，本发明提供一种行为动作识别系统，所述系统包括：
44.视频输入模块，用于获取输入视频；
45.目标检测模块，用于对所述输入视频进行逐帧图片目标检测，得到主目标检测框；
46.视频片段划分模块，用于基于第一预设时长划分所述输入视频，得到多个视频片段；
47.目标特征提取模块，用于利用所述主目标检测框，对各个视频片段进行目标特征提取，得到各个视频片段对应的第一目标特征并存储至记忆特征池；
48.上下文关联模块，用于基于所述记忆特征池建立各个视频片段的上下文关系；
49.分类模块，用于根据所述上下文关系对各个视频片段进行动作识别并分类。
50.进一步地，将所述第一目标特征存储至记忆特征池，包括：
51.根据各个视频片段在所述输入视频中的时间段信息，生成对应第一目标特征的时间标签；
52.利用所述时间标签和所述第一目标特征建立第一对应关系；及
53.将所述第一目标特征、所述时间标签和所述第一对应关系存储至所述记忆特征池。
54.进一步地，基于所述记忆特征池建立各个视频片段的上下文关系，包括：
55.以当前预识别的视频片段作为基准片段；
56.利用所述时间标签，选取所述基准片段前、后第二预设时长内的多个视频片段作为参考片段；
57.基于所述第一对应关系，提取各个参考片段对应的第一目标特征；
58.将所述基准片段和各个参考片段的第一目标特征进行两两组合，计算两者的第一目标特征相似度；
59.判断第一目标特征相似度是否达到预设阈值；
60.如果所述第一目标特征相似度达到预设阈值，则对相应的视频片段标记一次，否则不对相应的视频片段进行标记；
61.记录所述基准片段和各个参考片段的标记次数。
62.进一步地，根据所述上下文关系对各个视频片段进行动作识别并分类，包括：
63.统计所述基准片段和各个参考片段的标记次数；
64.选取标记次数最多的基准片段或参考片段对应的第一目标特征，对所述视频片段进行动作识别并分类。
65.优选地，所述目标检测模块还用于对所述输入视频进行逐帧图片目标检测，得到参考目标检测框；
66.目标特征提取模块还用于利用所述参考目标检测框，对各个视频片段进行目标特征提取，得到各个视频片段对应的第二目标特征并存储至记忆特征池；
67.其中，所述参考目标检测框对应的检测目标与所述主目标检测框对应的检测目标之间存在动作交互关系或动作对应关系。
68.优选地，将所述第二目标特征存储至记忆特征池，包括：
69.根据各个视频片段在所述输入视频中的时间段信息，生成对应第二目标特征的时间标签，所述第二目标特征的时间标签与所述第一目标特征的时间标签相同；
70.利用所述时间标签和所述第二目标特征建立第二对应关系；及
71.将所述第二目标特征、所述时间标签和所述第二对应关系存储至所述记忆特征池。
72.优选地，基于所述记忆特征池建立各个视频片段的上下文关系，包括：
73.以当前预识别的视频片段作为基准片段；
74.利用所述时间标签，选取所述基准片段前、后第二预设时长内的多个视频片段作为参考片段；
75.基于所述第一对应关系和所述第二对应关系，提取各个参考片段对应的第一目标
特征和第二目标特征；
76.将所述基准片段和各个参考片段的第一目标特征和第二目标特征分别进行两两组合，并计算两者的第一目标特征相似度和第二目标特征相似度；
77.判断所述第一目标特征相似度和所述第二目标特征相似度是否达到预设阈值；
78.如果所述第一目标特征相似度和/或所述第二目标特征相似度达到预设阈值，则对相应的视频片段标记一次，否则不对相应的视频片段进行标记；
79.记录所述基准片段和各个参考片段的标记次数。
80.第三方面，本发明实施例提供一种行为动作识别设备，包括：
81.存储器，用于存储计算机程序；
82.处理器，用于执行所述计算机程序时实现如上任一项所述一种行为动作识别方法的步骤。
83.第四方面，一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如上任一项所述一种行为动作识别方法的步骤。
84.本发明实施例提供一种行为动作识别方法、系统、设备及存储介质，基于划分长视频为视频片段进而进行动作识别，突破了硬件设备的限制。而建立每个视频片段的上下文关系再进行目标特征相似度计算，最终识别出整个长视频的行为动作类型，大大提高了可量化程度以及识别的精准性。
附图说明
85.为了更清楚地说明本发明的实施方式或现有技术中的技术方案，下面将对实施方式或现有技术描述中所需要使用的附图作简单地介绍。显而易见地，下面描述中的附图仅仅是示例性的，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图引申获得其它的实施附图。
86.本说明书所绘示的结构、比例、大小等，均仅用以配合说明书所揭示的内容，以供熟悉此技术的人士了解与阅读，并非用以限定本发明可实施的限定条件，故不具技术上的实质意义，任何结构的修饰、比例关系的改变或大小的调整，在不影响本发明所能产生的功效及所能达成的目的下，均应仍落在本发明所揭示的技术内容得能涵盖的范围内。
87.图1为本发明实施例提供的一种行为动作识别系统的逻辑结构示意图；
88.图2为本发明一个实施例提供的一种行为动作识别方法的流程示意图；
89.图3为本发明另一个实施例提供的一种行为动作识别方法的流程示意图。
具体实施方式
90.以下由特定的具体实施例说明本发明的实施方式，熟悉此技术的人士可由本说明书所揭露的内容轻易地了解本发明的其他优点及功效，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。
91.为了克服现有技术的缺陷，本发明实施例提供一种行为动作识别方法、系统、设备及存储介质，通过建立记忆特征池，存储整个视频的人物特征，然后建立关系型网络，考虑
长期人物特征之间的关系，以提高行为动作识别准确度。
92.参考图1，为本发明实施例提供了一种行为动作识别系统，其具体包括：视频输入模块01、目标检测模块02、视频片段划分模块03、目标特征提取模块04、上下文关联模块05、分类模块06。
93.具体地，视频输入模块01用于获取输入视频；目标检测模块02用于对所述输入视频进行逐帧图片目标检测，得到主目标检测框；视频片段划分模块03用于基于第一预设时长划分所述输入视频，得到多个视频片段，其中，第一预设时长可以选取2s；目标特征提取模块04用于利用所述主目标检测框，对各个视频片段进行目标特征提取，得到各个视频片段对应的第一目标特征并存储至记忆特征池；上下文关联模块05用于基于所述记忆特征池建立各个视频片段的上下文关系；分类模块06用于根据所述上下文关系对各个视频片段进行动作识别并分类。
94.本发明实施例基于划分长视频为视频片段进而进行动作识别，突破了硬件设备的限制。而建立每个视频片段的上下文关系再进行目标特征相似度计算，最终识别出整个长视频的行为动作类型，大大提高了可量化程度以及识别的精准性。
95.优选地，目标检测模块02还用于对所述输入视频进行逐帧图片目标检测，得到参考目标检测框；目标特征提取模块03还用于利用参考目标检测框，对各个视频片段进行目标特征提取，得到各个视频片段对应的第二目标特征并存储至记忆特征池；其中，参考目标检测框对应的检测目标与主目标检测框对应的检测目标之间存在动作交互关系或动作对应关系。
96.本发明实施例在进行持续时间长、跨度大的动作进行识别时，不仅考虑了主目标的特征检测，还结合参考目标的特征检测，以存在动作交互关系或动作对应关系的人或物作为参考目标，对主目标进行动作识别，进一步提高了长视频动作识别的精准性。
97.与上述公开的一种行为动作识别系统相对应，本发明实施例还公开了一种行为动作识别方法。以下结合上述描述的一种行为动作识别系统详细介绍本发明实施例中公开的一种行为动作识别方法。
98.参考图2，本发明一个实施例提供了一种行为动作识别方法，其具体包括：通过视频输入模块01获取输入视频并转送至目标检测模块02；通过目标检测模块02对所述输入视频进行逐帧图片目标检测，得到主目标检测框；通过视频片段划分模块03基于第一预设时长划分所述输入视频，得到多个视频片段，其中，第一预设时长可以选取2s；通过目标特征提取模块04利用所述主目标检测框，对各个视频片段进行目标特征提取，得到各个视频片段对应的第一目标特征并存储至记忆特征池；通过上下文关联模块05基于所述记忆特征池建立各个视频片段的上下文关系；通过分类模块06根据所述上下文关系对各个视频片段进行动作识别并分类。
99.进一步地，将所述第一目标特征存储至记忆特征池，包括：根据各个视频片段在所述输入视频中的时间段信息，生成对应第一目标特征的时间标签；利用所述时间标签和所述第一目标特征建立第一对应关系；及将所述第一目标特征、所述时间标签和所述第一对应关系存储至所述记忆特征池。
100.进一步地，基于所述记忆特征池建立各个视频片段的上下文关系，包括：以当前预识别的视频片段作为基准片段；利用所述时间标签，选取所述基准片段前、后第二预设时长
内的多个视频片段作为参考片段，其中，第二预设时长可以选取30s；基于所述第一对应关系，提取各个参考片段对应的第一目标特征；将所述基准片段和各个参考片段的第一目标特征进行两两组合，计算两者的第一目标特征相似度；判断第一目标特征相似度是否达到预设阈值；如果所述第一目标特征相似度达到预设阈值，则对相应的视频片段标记一次，否则不对相应的视频片段进行标记；记录所述基准片段和各个参考片段的标记次数。
101.进一步地，根据所述上下文关系对各个视频片段进行动作识别并分类，包括：统计所述基准片段和各个参考片段的标记次数；选取标记次数最多的基准片段或参考片段对应的第一目标特征，对所述视频片段进行动作识别并分类。
102.本发明实施例基于划分长视频为视频片段进而进行动作识别，突破了硬件设备的限制。而建立每个视频片段的上下文关系再进行目标特征相似度计算，最终识别出整个长视频的行为动作类型，大大提高了可量化程度以及识别的精准性。
103.另外，本发明另一个实施例还提供的一种行为动作识别方法，与上述实施例相比，优选地，本发明实施例中，目标检测模块02还用于对所述输入视频进行逐帧图片目标检测，得到参考目标检测框；目标特征提取模块03还用于利用参考目标检测框，对各个视频片段进行目标特征提取，得到各个视频片段对应的第二目标特征并存储至记忆特征池；其中，参考目标检测框对应的检测目标与主目标检测框对应的检测目标之间存在动作交互关系或动作对应关系。
104.具体地，参考图3，本发明另一个实施例提供的一种行为动作识别方法包括：通过视频输入模块01获取输入视频并转送至目标检测模块02；通过目标检测模块02对所述输入视频进行逐帧图片目标检测，得到主目标检测框和参考目标检测框；通过视频片段划分模块03基于第一预设时长划分所述输入视频，得到多个视频片段，其中，第一预设时长可以选取2s；通过目标特征提取模块04利用所述主目标检测框和所述参考目标检测框，对各个视频片段分别进行目标特征提取，得到各个视频片段对应的第一目标特征和第二目标特征并存储至记忆特征池；通过上下文关联模块05基于所述记忆特征池建立各个视频片段的上下文关系；通过分类模块06根据所述上下文关系对各个视频片段进行动作识别并分类。
105.进一步地，将所述第二目标特征存储至记忆特征池，包括：根据各个视频片段在所述输入视频中的时间段信息，生成对应第二目标特征的时间标签，所述第二目标特征的时间标签与所述第一目标特征的时间标签相同；利用所述时间标签和所述第二目标特征建立第二对应关系；及将所述第二目标特征、所述时间标签和所述第二对应关系存储至所述记忆特征池。
106.进一步，基于所述记忆特征池建立各个视频片段的上下文关系，包括：以当前预识别的视频片段作为基准片段；利用所述时间标签，选取所述基准片段前、后第二预设时长内的多个视频片段作为参考片段，其中，第二预设时长可以选取30s；基于所述第一对应关系和所述第二对应关系，提取各个参考片段对应的第一目标特征和第二目标特征；将所述基准片段和各个参考片段的第一目标特征和第二目标特征分别进行两两组合，并计算两者的第一目标特征相似度和第二目标特征相似度；判断所述第一目标特征相似度和所述第二目标特征相似度是否达到预设阈值；如果所述第一目标特征相似度和/或所述第二目标特征相似度达到预设阈值，则对相应的视频片段标记一次，否则不对相应的视频片段进行标记；记录所述基准片段和各个参考片段的标记次数。
107.进一步地，根据所述上下文关系对各个视频片段进行动作识别并分类，包括：统计所述基准片段和各个参考片段的标记次数；选取标记次数最多的基准片段或参考片段对应的第一目标特征，对所述视频片段进行动作识别并分类。
108.本发明实施例在进行持续时间长、跨度大的动作进行识别时，不仅考虑了主目标的特征检测，还结合参考目标的特征检测，以存在动作交互关系或动作对应关系的人或物作为参考目标，对主目标进行动作识别，进一步提高了长视频动作识别的精准性。
109.本发明实施例还提供了一种多模式仿真交互实现设备，所述设备包括：处理器和存储器；所述存储器用于存储一个或多个程序指令；所述处理器，用于运行一个或多个程序指令，用以执行如上任一项所述的一种多模式仿真交互实现方法的步骤。
110.本发明实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如上任一项所述一种多模式仿真交互实现方法的步骤。
111.在本发明实施例中，处理器可以是一种集成电路芯片，具有信号的处理能力。处理器可以是通用处理器、数字信号处理器(digital signal processor，简称dsp)、专用集成电路(application specific integrated circuit，简称asic)、现场可编程门阵列(fieldprogrammable gate array，简称fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
112.可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本发明实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器，闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。处理器读取存储介质中的信息，结合其硬件完成上述方法的步骤。
113.存储介质可以是存储器，例如可以是易失性存储器或非易失性存储器，或可包括易失性和非易失性存储器两者。
114.其中，非易失性存储器可以是只读存储器(read-only memory，简称rom)、可编程只读存储器(programmable rom，简称prom)、可擦除可编程只读存储器(erasable prom，简称eprom)、电可擦除可编程只读存储器(electrically eprom，简称eeprom)或闪存。
115.易失性存储器可以是随机存取存储器(random access memory，简称ram)，其用作外部高速缓存。通过示例性但不是限制性说明，许多形式的ram可用，例如静态随机存取存储器(static ram，简称sram)、动态随机存取存储器(dynamic ram，简称dram)、同步动态随机存取存储器(synchronous dram，简称sdram)、双倍数据速率同步动态随机存取存储器(double data ratesdram，简称ddrsdram)、增强型同步动态随机存取存储器(enhanced sdram，简称esdram)、同步连接动态随机存取存储器(synchlink dram，简称sldram)和直接内存总线随机存取存储器(directrambus ram，简称drram)。
116.本发明实施例描述的存储介质旨在包括但不限于这些和任意其它适合类型的存储器。
117.本领域技术人员应该可以意识到，在上述一个或多个示例中，本发明所描述的功能可以用硬件与软件组合来实现。当应用软件时，可以将相应功能存储在计算机可读介质
中或者作为计算机可读介质上的一个或多个指令或代码进行传输。计算机可读介质包括计算机存储介质和通信介质，其中通信介质包括便于从一个地方向另一个地方传送计算机程序的任何介质。存储介质可以是通用或专用计算机能够存取的任何可用介质。
118.虽然，上文中已经用一般性说明及具体实施例对本发明作了详尽的描述，但在本发明基础上，可以对之作一些修改或改进，这对本领域技术人员而言是显而易见的。因此，在不偏离本发明精神的基础上所做的这些修改或改进，均属于本发明要求保护的范围。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：权限配置方法、装置以及电子设备与流程

一种行为动作识别方法、系统、设备及存储介质与流程

相关文献

最热文献