一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

基于投票机制的行为识别方法、装置设备及存储介质与流程

2022-06-18 05:54:06 来源:中国专利 TAG:


1.本发明涉及人工智能技术,尤其涉及一种基于投票机制的行为识别的方法、装置、电子设备及计算机可读存储介质。


背景技术:

2.目前,针对视频的行为识别主要是指对时域预先分割后的序列判定其所述行为动作的类型,即“读懂行为”。现有的行为识别在具体应用中面临着较大的挑战,其主要的难点在于如何从一段长视频中准确且严格的切割出行为的起始至终止的片段;此外,由于视频的长度不一,而且开放环境下视频中存在多尺度、多目标、摄像机移动等众多因素的影响,导致行为识别的准确度差,实用性不佳等问题。
3.例如,在现有的智慧城市建设中,垃圾分类成为其中的一个关键性环节,如何自动监督倒垃圾的行为是否规范,就涉及到视频行为识别的应用,由于在垃圾桶附近区域的人可能涉及到多种行为,进而需要提取出与倒垃圾相关的行为进行分类判别,传统的行为识别算法效果不佳,导致行为识别的准确度低,实用性差。


技术实现要素:

4.本发明提供一种基于投票机制的行为识别方法、装置、电子设备及计算机可读存储介质,其主要目的在于提高行为识别的准确度。
5.为实现上述目的,本发明提供的一种基于投票机制的行为识别方法,包括:获取带有样本行为的目标视频的第一时域段;
6.基于所述第一时域段,获取与所述目标视频相对应的扩增视频段;
7.将所述扩增视频段分别输入预设的神经网络模型中进行训练,直至所述神经网络模型训练成行为识别模型;
8.基于所述行为识别模型对待识别视频中的行为进行行为识别,并获取对应的识别结果;
9.对所述识别结果进行投票,并基于所述投票的结果,确定所述待识别视频的最终行为结果。
10.可选地,所述获取带有样本行为的目标视频的第一时域段的步骤包括:
11.基于预设检测模型获取所述样本行为的行人框以及目标物体的物体框;
12.获取所述行人框的第一位置坐标信息,以及所述物体框的第二位置坐标信息;
13.基于所述第一位置坐标信息和所述第二位置坐标信息之间的距离,确定所述第一时域段。
14.可选地,所述获取带有样本行为的目标视频的第一时域段的步骤还包括:
15.基于预设关键点识别模型,获取样本行为的行人关键点,以及目标物体的物体关键点;
16.分别获取所述行人关键点与预设个数的所述物体关键点的中心位置之间的目标
距离;
17.当所述目标距离小于指定阈值时,确定与当前距离对应的当前帧图片所对应的时间作为所述样本行为的起始时刻,当所述目标距离大于所述指定阈值时,确定与当前距离对应的当前帧图片对应的时间为终止时刻;
18.基于所述起始时刻和所述终止时刻,确定所述第一时域段。
19.可选地,所述基于所述第一时域段,获取与所述目标视频相对应的扩增视频段的步骤,包括:
20.基于所述第一时域段,确定所述第一时域段内的视频的视频帧数;
21.基于所述视频帧数,以所述第一时域段的视频为基准,向前和向后分别扩展预设个数的视频段;
22.基于向前和向后扩展后的视频段和所述第一时域段的视频,确定所述扩增视频段。
23.可选地,将所述扩增视频段分别输入预设的神经网络模型中进行训练,直至所述神经网络模型形成行为识别模型的步骤包括:
24.对所述扩增视频段进行预处理,获取输入数据;
25.将所述输入数据输入所述神经网络模型的输入层,并迭代训练所述神经网络模型,直至收敛在预设范围内,形成所述行为识别模型。
26.可选地,所述对所述扩增视频段进行预处理,获取输入数据的步骤包括:
27.对所述扩增视频段分别进行等距截帧处理,获取对应的序列图片;
28.获取相邻两序列图片之间的帧差图;
29.对各扩增视频的所述帧差图分别进行拼接,获取与扩增视频分别对应的拼接后的图像数据;
30.基于所述各扩增视频的图像数据,确定所述输入数据。
31.可选地,所述对所述识别结果进行投票,并基于所述投票的结果,确定所述待识别视频的最终行为结果的步骤包括:
32.获取所述待识别视频的各扩增视频段的识别结果;
33.基于预设权重匹配规则,对各识别结果赋予对应的投票权重;
34.基于所述投票权重及识别结果,确定所述各识别结果的投票得分,并基于所述投票得分的最高分,确定所述最终行为结果。
35.为了解决上述问题,本发明还提供一种基于投票机制的行为识别装置,所述装置包括:
36.时域段获取单元,用于获取带有样本行为的目标视频的第一时域段;
37.视频扩增单元,用于基于所述第一时域段,获取与所述目标视频相对应的扩增视频段;
38.模型训练单元,用于将所述扩增视频段分别输入预设的神经网络模型中进行训练,直至所述神经网络模型训练成行为识别模型;
39.结果识别单元,用于基于所述行为识别模型对待识别视频中的行为进行行为识别,并获取对应的识别结果;
40.行为确定单元,用于对所述识别结果进行投票,并基于所述投票的结果,确定所述
待识别视频的最终行为结果。
41.为了解决上述问题,本发明还提供一种电子设备,所述电子设备包括:
42.存储器,存储至少一个指令;及
43.处理器,执行所述存储器中存储的指令以实现上述所述的基于投票机制的行为识别方法。
44.为了解决上述问题,本发明还提供一种计算机可读存储介质,所述计算机可读存储介质中存储有至少一个指令,所述至少一个指令被电子设备中的处理器执行以实现上述所述的基于投票机制的行为识别方法。
45.本发明实施例通过获取带有样本行为的目标视频的时域段,然后基于第一时域段,获取与目标视频相对应的扩增视频段,能够能够通过粗定位的方式,过滤掉大部分与目标行为不相关的行为,并据此训练行为识别模型;基于行为识别模型对待识别视频中的行为进行行为识别,并获取对应的识别结果;然后,基于投票机制对识别结果进行投票,确定待识别视频的最终行为结果,识别结果更加准确。
附图说明
46.图1为本发明一实施例提供的基于投票机制的行为识别方法的流程图;
47.图2为本发明一实施例提供的glou值获取原理图;
48.图3为本发明一实施例提供的基于投票机制的行为识别装置的模块图;
49.图4为本发明一实施例提供的实现基于投票机制的行为识别方法的电子设备的内部结构示意图;
50.本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
51.应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
52.本发明提供一种基于投票机制的行为识别方法。参照图1所示,为本发明一实施例提供的基于投票机制的行为识别方法的流程示意图。该方法可以由一个装置执行,该装置可以由软件和/或硬件实现。
53.在本实施例中,基于投票机制的行为识别方法包括:
54.s100:获取带有样本行为的目标视频的第一时域段。
55.其中,目标视频可通过指定场所安装的监控设备进行获取,或者从存储数据库中直接进行视频调取,视频中的样本行主要指目标行为,其为可包括吸烟行为、扔垃圾行为、驾驶行为等多种类型的目标行为,样本行为主要是指正常发生该行为时的行为,并不包括特殊情况下的其他无关行为,例如,针对扔垃圾的样本行为,主要是从用户进入垃圾桶一定区域内发生的扔垃圾行为,而环卫工人的正常作业,以及在垃圾桶附近发生的谈话等,均不属于目标行为。此外,对应的第一时域段为该样本行为自起始至结束的一个粗略的时域段,针对该时域段内的视频进行分析,行为的识别准确度更高,此外能够避免对所有视频段进行识别,可以减少计算压力。
56.其中,该步骤中获取第一时域段可进一步包括:
57.s110:基于检测模型获取所述样本行为的行人框以及目标物体的物体框;
58.s120:获取所述行人框的第一位置坐标信息,以及所述物体框的第二位置坐标信息;
59.s130:基于所述第一位置坐标信息和所述第二位置坐标信息,确定所述第一时域段。
60.其中,确定行人框的第一位置坐标信息以及物体框的第二位置坐标信息之后,可以根据坐标信息判断二者之间的距离是否足以触发相应的样本行为,如果二者之间的坐标信息距离较远,则可确认没有发生样本行为的可能,直至二者的坐标信息达到一定的要求,此时视频对应的时间点可以认定为第一时域段的起始时间,同理,当二者之间的距离又超过距离要求时,可据此确定第一时域段的终止时间。
61.作为具体示例,可采用giou(geberalized intersection over union,联合体上几何化交叉)来确定样本行为的初始值结束的粗略范围,采用glou可以避免视频摄像头远近和高低的影响,同时能够较好的反映出行人和目标物体之间的位置关系。
62.具体地,如下图2所述,左下角框a表示行人框,右上角框b表示物体框,在获取giou时,首先找到一个能够包住行人框和物体框的最小方框c(黑色),然后计算c\(a∪b)的面积与c的面积的比值,其中c\(a∪b)的面积为c的面积减去a∪b的面积。再用a、b的iou值减去这个比值得到最终的giou,其中,giou的公式可表示为:
[0063][0064]
可知,图2中的最大矩形框表示c,通过获取giou结果,能够表示行人和物体之间的接近程度,这个值越高表示二者越接近,在具体应用过程中,如果一个人进行倒垃圾的行为,需要人和垃圾桶接近到一定程度才认为可能发生倒垃圾的行为,否则,可表示为路过的人或不想干的人,从而不触发后续的行为识别。
[0065]
在根据giou确定第一时域段时,当giou大于0.5时对应的时刻可记为行为起始时刻t1,当giou不大于0.5对应的时刻可记为终止时刻t2,对应的粗略的第一时域段可标记为(t1,t2)。
[0066]
在另一实施例中,还可以通过行人的关键点和目标物体的关键点之间的点位交互信息来切割获取第一时域段,其中,获取第一时域段的过程还可以包括以下步骤:
[0067]
s140:基于预设关键点识别模型,获取样本行为的行人关键点,以及目标物体的物体关键点;
[0068]
s150:分别获取所述行人关键点与预设个数的所述物体关键点的中心位置之间的目标距离;
[0069]
其中,行人关键带点可包括行人的左手腕和右手腕等处的关键点,物体关键点的中心位置,可采用预设个数,例如4个预设位置处的物体关键点的中心位置,然后获取行人关键点和中心位置之间的目标距离即可;
[0070]
s160:当所述目标距离小于指定阈值时,确定当前帧图片所对应的时间作为所述样本行为的起始时刻;当所述目标距离大于所述指定阈值时,确定当前帧图片对应的时间为终止时刻;
[0071]
s170:基于所述起始时刻和所述终止时刻,确定所述第一时域段。
[0072]
其中,当样本行为为扔垃圾行为时,目标物体即为垃圾桶,物体关键点可理解为目标物体在预设位置的若干个点的信息,例如垃圾桶的预设位置可设置为垃圾桶上方的四个角部位置,进而获取行人关键点与四个角部位置的中心位置(即垃圾桶的上端面的中心位置)之间的距离,根据该距离信息也可粗略的确定第一时域段。
[0073]
可知,在获取第一时域段的过程中,可根据具体的应用场景或者需求,对获取方式进行灵活调整。
[0074]
s200:基于所述第一时域段,获取与所述目标视频相对应的扩增视频段。
[0075]
在实例性的实施例中,步骤s200还可以进一步包括:
[0076]
步骤s210:基于所述第一时域段,确定第一时域段内的视频的视频帧数;
[0077]
步骤s220:基于所述视频帧数,以所述第一时域段的视频为基准,向前和向后分别扩展预设个数的视频段;
[0078]
步骤s230:基于向前和向后扩展后的视频段和所述第一时域段的视频,确定所述扩增视频段。
[0079]
具体地,假设t1时刻对应的帧号计为frame1,t2对应的帧号计为frame2,该第一时域段所包含的视频s0的帧数为m=frame2-frame1 1。以预设个数为5作为示例,以所述第一时域段的视频为基准,向前扩展5个视频段,向后扩展5个段视段,扩展后的10个视频段可分别表示为:
[0080]
s1=(frame1-m//5,frame2-m//5)
[0081]
s2=(frame1-m//6,frame2-m//6)
[0082]
.......
[0083]
s5=(frame1-m//9,frame2-m//9)
[0084]
s6=(frame1 m//5,frame2 m//5)
[0085]
........
[0086]
s10=(frame1 m//9,frame2 m//9)
[0087]
其中,上述//表示做除法处理后取整,此外,视频段扩展的预设个数可根据具体的应用场景或者识别精度要求进行灵活设置。
[0088]
s300:将所述扩增视频段分别输入预设的神经网络模型中进行训练,直至所述神经网络模型训练成行为识别模型。
[0089]
其中,该步骤可进一步包括:
[0090]
s310:对所述扩增视频段进行预处理,获取输入数据;
[0091]
s320:将所述输入数据输入所述神经网络模型的输入层,并迭代训练所述神经网络模型,直至收敛在预设范围内,形成所述行为识别模型。
[0092]
具体地,上述对所述扩增视频段进行预处理的过程,可进一步包括:
[0093]
s311:对所述扩增视频段分别进行等距截帧处理,获取对应的序列图片;
[0094]
s312:获取相邻两序列图片之间的帧差图;
[0095]
s313:对各扩增视频的所述帧差图分别进行拼接,获取与扩增视频分别对应的拼接后的图像数据;
[0096]
s314:基于所述各扩增视频的图像数据,确定所述输入数据。
[0097]
作为示例,如果输入神经网络模型的扩增视频包括11段视频,则对应的神经网络
模型会输出11个判别结果,每个结果分别与对应段的扩增视频相对应,其中,首先对输入神经网络模型的扩增视频按照等距截帧,截取20张序列图片,然后对这20张序列图进行帧差处理,即每相邻两序列图片之间做差,获取对应的10张差帧图,每张rgb图像的维度放缩为128*96*3,然后将10张差帧图进行concate,输入神经网络模型的图像数据的实际大小为128*96*30。
[0098]
在神经网络模型的搭建过程中,可选用轻量级的卷积神经网络mobilenet-v3,以4种行为类别为例,具体的神经网络的结构可如下表所示:
[0099]
inputoperator128*96*30conv2d,3x364*48*60bneck,3x364*48*60bneck,3x332*24*120bneck,5x532*24*120bneck,5x532*24*120bneck,5x516*12*196bneck,5x516*12*196conv2d,1x18*6*256pool,7x71*1*4conv2d,1x1
[0100]
s400:基于所述行为识别模型对待识别视频中的行为进行行为识别,并获取对应的识别结果。
[0101]
其中,由于输入的目标视频通过处理及扩展后,是以多个输入数据的形式输入行为识别模型中的,对应的识别结果也存在多种可能,要获取最准确的识别结果,还需要进一步的对多个识别进行分析判断,以确定最终识别出的行为结果。
[0102]
具体地,行为识别模型可包括编码器网络和解码器网络,其中,待识别视频经过编码器网络后,首先通过自注意力层的处理然后输入add&norm层,其中add表示残差连接(residual connection)用于防止网络退化,norm表示layer normalization,用于对每一层的激活值进行归一化,最后通过前馈模块和另一add&norm层输出至解码器网络中,最终通过解码器网路的add&norm层输出至全连接层,获取待识别视频的行为识别结果。
[0103]
此外,行为识别模型的结构也可进行灵活设置,并不限于编码器网络和解码器网络的具体结构。
[0104]
s500:对所述识别结果进行投票,并基于所述投票的结果,确定所述待识别视频的最终行为结果。
[0105]
其中,对所述识别结果进行投票时,可设置加权投票策略,即添加权重的投票策略。例如,在对第一时域段内的视频进行扩展处理后,获取10个视频段,另外加上原始的第一时域段的视频,共计11段视频,将该11段视频段分别输入行为识别模型进行推理后,可分别获取一个判别结果,进而可对这些结果进行加权投票计算。
[0106]
可知,该步骤s500可进一步包括:
[0107]
s510:获取所述待识别视频的各扩增视频段的识别结果;
[0108]
其中,扩增视频段包括待识别视频和在待识别视频基础上进行扩展的扩展视频,
具体扩展视频的获取方式可参考行为识别模型训练阶段的方式。
[0109]
s520:基于预设权重匹配规则,对各识别结果赋予对应的投票权重;
[0110]
其中,所述预设权重匹配规则包括:将发生行为的视频段(即待识别视频)的权重设置为大于扩展视频段的权重,以及按照与发生行为的视频段之间的距离,逐渐减小远离该发生行为的视频段的其他扩展视频段的权重。
[0111]
s530:基于所述投票权重及识别结果,确定所述各识别结果的投票得分,并基于所述投票得分的最高分,确定所述最终行为结果。
[0112]
作为具体示例,假设在一个场景中,包含三种行为(a,b,c),除此之外都计为其他行为(d),获取的待识别视频的11个视频段分别表示为s0至s10,s0至s10的识别结果分别为(b,a,a,b,c,b,a,a,b,a,b),因为,s0更大概率对应的是发生行为的片段,所以应该赋予更大的权重,而s1至s5表示依次靠近s0片段的视频片段,所以对应的权重应该依次递增,s6到s10片段的权重同理。
[0113]
因此,视频段s0至s10的权重可分别设置为:(1,0.3,0.4,0.5,0.6,0.7,0.3,0.4,0.5,0.6,0.7)。
[0114]
然后,根据预设的权重及识别结果,确定各行为的加权投票结果,计算每个行为最终投票分数结果:b:1 0.5 0.7 0.5 0.7=3.4,a:0.3 0.4 0.3 0.4 0.6=2,c:0.6。d:0.0所以根据加权投票原则,最终判别该行为的最终识别结果为b行为。
[0115]
可知,用该算法匹配行为结果的好处是,能够更加客观的描述不同视频段对行为判别的贡献程度,并且能尽可能的避免某两个行为投票个数一致情况下的筛选问题。
[0116]
利用上述本发明的基于投票机制的行为片段切割和识别策略,能够通过粗定位的方式,过滤掉大部分与目标行为不相关的行为,例如,在扔垃圾行为识别过程中,可过滤掉聊天、环卫工人作业等非相关行为,这类行为会对识别结果造成大量的误判,能够为识别模型节省计算量,并降低误判率;此外,由于现有的视频切割策略不成熟,很难准确切割出行为片段,为此,本发明通过前后扩帧策略形成多个扩增视频片段,最后基于多片段输入行为识别模型输出的类别结果,进行权重投票最终生成行为类别,更客观准确的反馈该视频中行为的类别。
[0117]
如图3所示,是本发明基于投票机制的行为识别装置的功能模块图。
[0118]
本发明所述基于投票机制的行为识别装置100可以安装于电子设备中。根据实现的功能,所述基于投票机制的行为识别装置可以包括时域段获取单元101、视频扩增单元102、模型训练单元103、结果识别单元104和行为确定单元105。本发所述单元也可以称之为模块,是指一种能够被电子设备处理器所执行,并且能够完成固定功能的一系列计算机程序段,其存储在电子设备的存储器中。
[0119]
在本实施例中,关于各模块/单元的功能如下:
[0120]
时域段获取单元101,用于获取带有样本行为的目标视频的第一时域段。
[0121]
其中,目标视频可通过指定场所安装的监控设备进行获取,或者从存储数据库中直接进行视频调取,视频中的样本行主要指目标行为,其为可包括吸烟行为、扔垃圾行为、驾驶行为等多种类型的目标行为,样本行为主要是指正常发生该行为时的行为,并不包括特殊情况下的其他无关行为,例如,针对扔垃圾的样本行为,主要是从用户进入垃圾桶一定区域内发生的扔垃圾行为,而环卫工人的正常作业,以及在垃圾桶附近发生的谈话等,均不
属于目标行为。此外,对应的第一时域段为该样本行为自起始至结束的一个粗略的时域段,针对该时域段内的视频进行分析,行为的识别准确度更高,此外能够避免对所有视频段进行识别,可以减少计算压力。
[0122]
其中,时域段获取单元101可进一步包括:
[0123]
目标确定模块,用于基于检测模型获取所述样本行为的行人框以及目标物体的物体框;
[0124]
坐标获取模块,用于获取所述行人框的第一位置坐标信息,以及所述物体框的第二位置坐标信息;
[0125]
第一时域段确定模块,用于基于所述第一位置坐标信息和所述第二位置坐标信息,确定所述第一时域段。
[0126]
其中,确定行人框的第一位置坐标信息以及物体框的第二位置坐标信息之后,可以根据坐标信息判断二者之间的距离是否足以触发相应的样本行为,如果二者之间的坐标信息距离较远,则可确认没有发生样本行为的可能,直至二者的坐标信息达到一定的要求,此时视频对应的时间点可以认定为第一时域段的起始时间,同理,当二者之间的距离又超过距离要求时,可据此确定第一时域段的终止时间。
[0127]
作为具体示例,可采用giou(geberalized intersection over union,联合体上几何化交叉)来确定样本行为的初始值结束的粗略范围,采用giou可以避免视频摄像头远近和高低的影响,同时能够较好的反映出行人和目标物体之间的位置关系。
[0128]
具体地,如下图2所述,左下角框a表示行人框,右上角框b表示物体框,在获取glou时,首先找到一个能够包住行人框和物体框的最小方框c(黑色),然后计算c\(a∪b)的面积与c的面积的比值,其中c\(a∪b)的面积为c的面积减去a∪b的面积。再用a、b的iou值减去这个比值得到最终的giou,其中,giou的公式可表示为:
[0129][0130]
可知,图2中的最大矩形框表示c,通过获取giou结果,能够表示行人和物体之间的接近程度,这个值越高表示二者越接近,在具体应用过程中,如果一个人进行倒垃圾的行为,需要人和垃圾桶接近到一定程度才认为可能发生倒垃圾的行为,否则,可表示为路过的人或不想干的人,从而不触发后续的行为识别。
[0131]
在根据giou确定第一时域段时,当giou大于0.5时对应的时刻可记为行为起始时刻t1,当giou不大于0.5对应的时刻可记为终止时刻t2,对应的粗略的第一时域段可标记为(t1,t2)。
[0132]
在另一实施例中,还可以通过行人的关键点和目标物体的关键点之间的点位交互信息来切割获取第一时域段,其中,时域段获取单元101可进一步包括:
[0133]
关键点获取模块,用于基于预设关键点识别模型,获取样本行为的行人关键点,以及目标物体的物体关键点;
[0134]
距离获取模块,用于分别获取所述行人关键点与预设个数的所述物体关键点的中心位置之间的目标距离;
[0135]
其中,行人关键带点可包括行人的左手腕和右手腕等处的关键点,物体关键点的
中心位置,可采用预设个数,例如4个预设位置处的物体关键点的中心位置,然后获取行人关键点和中心位置之间的目标距离即可;
[0136]
起止时间确定模块,用于当所述目标距离小于指定阈值时,确定当前帧图片所对应的时间作为所述样本行为的起始时刻;当所述目标距离大于所述指定阈值时,确定当前帧图片对应的时间为终止时刻;
[0137]
第一时域段确定模块,用于基于所述起始时刻和所述终止时刻,确定所述第一时域段。
[0138]
其中,当样本行为为扔垃圾行为时,目标物体即为垃圾桶,物体关键点可理解为目标物体在预设位置的若干个点的信息,例如垃圾桶的预设位置可设置为垃圾桶上方的四个角部位置,进而获取行人关键点与四个角部位置的中心位置(即垃圾桶的上端面的中心位置)之间的距离,根据该距离信息也可粗略的确定第一时域段。
[0139]
可知,在获取第一时域段的过程中,可根据具体的应用场景或者需求,对获取方式进行灵活调整。
[0140]
视频扩增单元102,用于基于所述第一时域段,获取与所述目标视频相对应的扩增视频段。
[0141]
该单元可进一步包括:
[0142]
视频帧数确定模块,用于基于所述第一时域段,确定第一时域段内的视频的视频帧数;
[0143]
扩展模块,用于基于所述视频帧数,以所述第一时域段的视频为基准,向前和向后分别扩展预设个数的视频段;
[0144]
扩增视频段确定模块,用于基于向前和向后扩展后的视频段和所述第一时域段的视频,确定所述扩增视频段。
[0145]
具体地,假设t1时刻对应的帧号计为frame1,t2对应的帧号计为frame2,该第一时域段所包含的视频s0的帧数为m=frame2-frame1 1。以预设个数为5作为示例,以所述第一时域段的视频为基准,向前扩展5个视频段,向后扩展5个段视段,扩展后的10个视频段可分别表示为:
[0146]
s1=(frame1-m//5,frame2-m//5)
[0147]
s2=(frame1-m//6,frame2-m//6)
[0148]
.......
[0149]
s5=(frame1-m//9,frame2-m//9)
[0150]
s6=(frame1 m//5,frame2 m//5)
[0151]
........
[0152]
s10=(frame1 m//9,frame2 m//9)
[0153]
其中,上述//表示做除法处理后取整,此外,视频段扩展的预设个数可根据具体的应用场景或者识别精度要求进行灵活设置。
[0154]
模型训练单元103,用于将所述扩增视频段分别输入预设的神经网络模型中进行训练,直至所述神经网络模型训练成行为识别模型。
[0155]
具体地,该单元可进一步包括:
[0156]
模块一,用于对所述扩增视频段进行预处理,获取输入数据;
[0157]
模块二,用于将所述输入数据输入所述神经网络模型的输入层,并迭代训练所述神经网络模型,直至收敛在预设范围内,形成所述行为识别模型。
[0158]
进一步地,上述模块一可包括:
[0159]
对所述扩增视频段分别进行等距截帧处理,获取对应的序列图片;
[0160]
帧差图获取模块,用于获取相邻两序列图片之间的帧差图;
[0161]
图像数据获取模块,用于对各扩增视频的所述帧差图分别进行拼接,获取与扩增视频分别对应的拼接后的图像数据;
[0162]
输入数据确定模块,用于基于所述各扩增视频的图像数据,确定所述输入数据。
[0163]
作为示例,如果输入神经网络模型的扩增视频包括11段视频,则对应的神经网络模型会输出11个判别结果,每个结果分别与对应段的扩增视频相对应,其中,首先对输入神经网络模型的扩增视频按照等距截帧,截取20张序列图片,然后对这20张序列图进行帧差处理,即每相邻两序列图片之间做差,获取对应的10张差帧图,每张rgb图像的维度放缩为128*96*3,然后将10张差帧图进行concate,输入神经网络模型的图像数据的实际大小为128*96*30。
[0164]
结果识别单元104,用于基于所述行为识别模型对待识别视频中的行为进行行为识别,并获取对应的识别结果。
[0165]
其中,由于输入的目标视频通过处理及扩展后,是以多个输入数据的形式输入行为识别模型中的,对应的识别结果也存在多种可能,要获取最准确的识别结果,还需要进一步的对多个识别进行分析判断,以确定最终识别出的行为结果。
[0166]
具体地,行为识别模型可包括编码器网络和解码器网络,其中,待识别视频经过编码器网络后,首先通过自注意力层的处理然后输入add&norm层,其中add表示残差连接(residual connection)用于防止网络退化,norm表示layer normalization,用于对每一层的激活值进行归一化,最后通过前馈模块和另一add&norm层输出至解码器网络中,最终通过解码器网路的add&norm层输出至全连接层,获取待识别视频的行为识别结果。
[0167]
此外,行为识别模型的结构也可进行灵活设置,并不限于编码器网络和解码器网络的具体结构。
[0168]
行为确定单元105,用于对所述识别结果进行投票,并基于所述投票的结果,确定所述待识别视频的最终行为结果。
[0169]
其中,对所述识别结果进行投票时,可设置加权投票策略,即添加权重的投票策略。例如,在对第一时域段内的视频进行扩展处理后,获取10个视频段,另外加上原始的第一时域段的视频,共计11段视频,将该11段视频段分别输入行为识别模型进行推理后,可分别获取一个判别结果,进而可对这些结果进行加权投票计算。
[0170]
具体地,行为确定单元105可进一步包括:
[0171]
识别结果获取模块,用于获取待识别视频的各扩增视频段的识别结果;
[0172]
其中,扩增视频段包括待识别视频和在待识别视频基础上进行扩展的扩展视频,具体扩展视频的获取方式可参考行为识别模型训练阶段的方式。
[0173]
投票权重赋予模块,用于基于预设权重匹配规则,对各识别结果赋予对应的投票权重;
[0174]
其中,所述预设权重匹配规则包括:将发生行为的视频段(即待识别视频)的权重
设置为大于扩展视频段的权重,以及按照与发生行为的视频段之间的距离,逐渐减小远离该发生行为的视频段的其他扩展视频段的权重。
[0175]
行为结果确定模块,用于基于所述投票权重及识别结果,确定所述各识别结果的投票得分,并基于所述投票得分的最高分,确定所述最终行为结果。
[0176]
作为具体示例,假设在一个场景中,包含三种行为(a,b,c),除此之外都计为其他行为(d),获取的待识别视频的11个视频段分别表示为s0至s10,s0至s10的识别结果分别为(b,a,a,b,c,b,a,a,b,a,b),因为,s0更大概率对应的是发生行为的片段,所以应该赋予更大的权重,而s1至s5表示依次靠近s0片段的视频片段,所以对应的权重应该依次递增,s6到s10片段的权重同理。
[0177]
因此,视频段s0至s10的权重可分别设置为:(1,0.3,0.4,0.5,0.6,0.7,0.3,0.4,0.5,0.6,0.7)。
[0178]
然后,根据预设的权重及识别结果,确定各行为的加权投票结果,计算每个行为最终投票分数结果:b:1 0.5 0.7 0.5 0.7=3.4,a:0.3 0.4 0.3 0.4 0.6=2,c:0.6。d:0.0所以根据加权投票原则,最终判别该行为的最终识别结果为b行为。
[0179]
可知,用该算法匹配行为结果的好处是,能够更加客观的描述不同视频段对行为判别的贡献程度,并且能尽可能的避免某两个行为投票个数一致情况下的筛选问题。
[0180]
如图4所示,是本发明实现基于投票机制的行为识别方法的电子设备的结构示意图。
[0181]
所述电子设备1可以包括处理器10、存储器11和总线,还可以包括存储在所述存储器11中并可在所述处理器10上运行的计算机程序,如基于投票机制的行为识别程序12。
[0182]
其中,所述存储器11至少包括一种类型的可读存储介质,所述可读存储介质包括闪存、移动硬盘、多媒体卡、卡型存储器(例如:sd或dx存储器等)、磁性存储器、磁盘、光盘等。所述存储器11在一些实施例中可以是电子设备1的内部存储单元,例如该电子设备1的移动硬盘。所述存储器11在另一些实施例中也可以是电子设备1的外部存储设备,例如电子设备1上配备的插接式移动硬盘、智能存储卡(smart media card,smc)、安全数字(secure digital,sd)卡、闪存卡(flash card)等。进一步地,所述存储器11还可以既包括电子设备1的内部存储单元也包括外部存储设备。所述存储器11不仅可以用于存储安装于电子设备1的应用软件及各类数据,例如基于投票机制的行为识别程序的代码等,还可以用于暂时地存储已经输出或者将要输出的数据。
[0183]
所述处理器10在一些实施例中可以由集成电路组成,例如可以由单个封装的集成电路所组成,也可以是由多个相同功能或不同功能封装的集成电路所组成,包括一个或者多个中央处理器(central processing unit,cpu)、微处理器、数字处理芯片、图形处理器及各种控制芯片的组合等。所述处理器10是所述电子设备的控制核心(control unit),利用各种接口和线路连接整个电子设备的各个部件,通过运行或执行存储在所述存储器11内的程序或者模块(例如基于投票机制的行为识别程序等),以及调用存储在所述存储器11内的数据,以执行电子设备1的各种功能和处理数据。
[0184]
所述总线可以是外设部件互连标准(peripheral component interconnect,简称pci)总线或扩展工业标准结构(extended industry standard architecture,简称eisa)总线等。该总线可以分为地址总线、数据总线、控制总线等。所述总线被设置为实现所述存
储器11以及至少一个处理器10等之间的连接通信。
[0185]
图4仅示出了具有部件的电子设备,本领域技术人员可以理解的是,图4示出的结构并不构成对所述电子设备1的限定,可以包括比图示更少或者更多的部件,或者组合某些部件,或者不同的部件布置。
[0186]
例如,尽管未示出,所述电子设备1还可以包括给各个部件供电的电源(比如电池),优选地,电源可以通过电源管理装置与所述至少一个处理器10逻辑相连,从而通过电源管理装置实现充电管理、放电管理、以及功耗管理等功能。电源还可以包括一个或一个以上的直流或交流电源、再充电装置、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。所述电子设备1还可以包括多种传感器、蓝牙模块、wi-fi模块等,在此不再赘述。
[0187]
进一步地,所述电子设备1还可以包括网络接口,可选地,所述网络接口可以包括有线接口和/或无线接口(如wi-fi接口、蓝牙接口等),通常用于在该电子设备1与其他电子设备之间建立通信连接。
[0188]
可选地,该电子设备1还可以包括用户接口,用户接口可以是显示器(display)、输入单元(比如键盘(keyboard)),可选地,用户接口还可以是标准的有线接口、无线接口。可选地,在一些实施例中,显示器可以是led显示器、液晶显示器、触控式液晶显示器以及oled(organic light-emitting diode,有机发光二极管)触摸器等。其中,显示器也可以适当的称为显示屏或显示单元,用于显示在电子设备1中处理的信息以及用于显示可视化的用户界面。
[0189]
应该了解,所述实施例仅为说明之用,在专利申请范围上并不受此结构的限制。
[0190]
所述电子设备1中的所述存储器11存储的基于投票机制的行为识别程序12是多个指令的组合,在所述处理器10中运行时,可以实现:
[0191]
获取带有样本行为的目标视频的第一时域段;
[0192]
基于所述第一时域段,获取与所述目标视频相对应的扩增视频段;
[0193]
将所述扩增视频段分别输入预设的神经网络模型中进行训练,直至所述神经网络模型训练成行为识别模型;
[0194]
基于所述行为识别模型对待识别视频中的行为进行行为识别,并获取对应的识别结果;
[0195]
对所述识别结果进行投票,并基于所述投票的结果,确定所述待识别视频的最终行为结果。
[0196]
可选地,所述获取带有样本行为的目标视频的第一时域段的步骤包括:
[0197]
基于预设检测模型获取所述样本行为的行人框以及目标物体的物体框;
[0198]
获取所述行人框的第一位置坐标信息,以及所述物体框的第二位置坐标信息;
[0199]
基于所述第一位置坐标信息和所述第二位置坐标信息之间的距离,确定所述第一时域段。
[0200]
可选地,所述获取带有样本行为的目标视频的第一时域段的步骤还包括:
[0201]
基于预设关键点识别模型,获取样本行为的行人关键点,以及目标物体的物体关键点;
[0202]
分别获取所述行人关键点与预设个数的所述物体关键点的中心位置之间的目标
距离;
[0203]
当所述目标距离小于指定阈值时,确定与当前距离对应的当前帧图片所对应的时间作为所述样本行为的起始时刻,当所述目标距离大于所述指定阈值时,确定与当前距离对应的当前帧图片对应的时间为终止时刻;
[0204]
基于所述起始时刻和所述终止时刻,确定所述第一时域段。
[0205]
可选地,所述基于所述第一时域段,获取与所述目标视频相对应的扩增视频段的步骤,包括:
[0206]
基于所述第一时域段,确定所述第一时域段内的视频的视频帧数;
[0207]
基于所述视频帧数,以所述第一时域段的视频为基准,向前和向后分别扩展预设个数的视频段;
[0208]
基于向前和向后扩展后的视频段和所述第一时域段的视频,确定所述扩增视频段。
[0209]
可选地,将所述扩增视频段分别输入预设的神经网络模型中进行训练,直至所述神经网络模型形成行为识别模型的步骤包括:
[0210]
对所述扩增视频段进行预处理,获取输入数据;
[0211]
将所述输入数据输入所述神经网络模型的输入层,并迭代训练所述神经网络模型,直至收敛在预设范围内,形成所述行为识别模型。
[0212]
可选地,所述对所述扩增视频段进行预处理,获取输入数据的步骤包括:
[0213]
对所述扩增视频段分别进行等距截帧处理,获取对应的序列图片;
[0214]
获取相邻两序列图片之间的帧差图;
[0215]
对各扩增视频的所述帧差图分别进行拼接,获取与扩增视频分别对应的拼接后的图像数据;
[0216]
基于所述各扩增视频的图像数据,确定所述输入数据。
[0217]
可选地,所述对所述识别结果进行投票,并基于所述投票的结果,确定所述待识别视频的最终行为结果的步骤包括:
[0218]
获取所述待识别视频的各扩增视频段的识别结果;
[0219]
基于预设权重匹配规则,对各识别结果赋予对应的投票权重;
[0220]
基于所述投票权重及识别结果,确定所述各识别结果的投票得分,并基于所述投票得分的最高分,确定所述最终行为结果。
[0221]
具体地,所述处理器10对上述指令的具体实现方法可参考图1对应实施例中相关步骤的描述,在此不赘述。
[0222]
进一步地,所述电子设备1集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、u盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(rom,read-only memory)。
[0223]
在本发明所提供的几个实施例中,应该理解到,所揭露的设备,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。
[0224]
所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显
示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
[0225]
另外,在本发明各个实施例中的各功能模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能模块的形式实现。
[0226]
对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。
[0227]
因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明内。不应将权利要求中的任何附关联图标记视为限制所涉及的权利要求。
[0228]
此外,显然“包括”一词不排除其他单元或步骤,单数不排除复数。系统权利要求中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第二等词语用来表示名称,而并不表示任何特定的顺序。
[0229]
最后应说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或等同替换,而不脱离本发明技术方案的精神和范围。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献