一种基于多线索融合的动物行为识别方法

2022-07-14 00:46:10 来源：中国专利 TAG：

1.本发明属于计算机视觉领域，具体涉及一种基于多线索融合的动物行为识别方法。

背景技术：

2.动物行为识别是一种通过分析视频等数据，对动物行为进行识别分析的技木，其广泛应用于智能监控、行为预警、医疗健康等领域。
3.目前，己经公开的行为识别方法可以分为两类：基于手工设计特征的万法和基于深度学习的方法。基于手工设计特征的方法常采用模板匹配方式，将运动图像序列转化为一个或一组静态的模板，通过待识别样本的模板与己知的模板进行匹配获得识别结果。其主要方法包括：运动能量图像(med和运动历史图像(mhi)，基于轮廓的平均运动形状(mms)和基于运动前景的平均运动能量 (ame)等。基于深度学习的万法，一般通过卷积神经网络提取每一帧的行为表观特征，然后将多帧信息进行融合得到识别结果，如基于双流卷积神经网络，利用静态支路从rgb视频帧中提取行为的表观特征，利用动态支路从视频光流帧中提取动态信息，然后将两个支路的行为预测进行融合，获得分类结果。如将卷积神经网络与长短期记匕网络级联起来，构成一个循环卷积结构。在每一步，卷积神经网络提取每一帧的特征，然后送入到长短期记忆网络建模行为的时序动态信息。如基于3d卷积神经网络的方法直接采用3维的卷积核沿着视频的时空维度进行卷积运算，获得行为的时空信息。如artnet提出的smartblock，基于二维卷积运算提取行为表观特征，结合二维卷积运算提取行为的时序特征得到行为的时至信息。
4.一般，手工设计的特征算法受复杂背景影响较大，在有限的种类，受限的场景，小规模数据集上效果较好，但是不能处理大规模现实场景数据集，同时手工设计的特征具有较高的计算复杂度，不利于做到实时处理。而基于深度学习方法难以有效的捕捉到行为的动态信息，并且不能采用有效的方法引导卷积神经网络提取到与行为相关的区域。通过神经网络提取rgb帧的卷积层特征、对行为特征迭代优化处理后得到光流特征，将光流特征输入至分类器进行分类以识别动物行为，可以一定程度解决上述问题，然而在物体快速移动、遮挡、模糊等导致的动态特征复杂时，该方法识别结果的准确性会大幅下降。
5.基于双流模型结构的基本原理是计算视频序列中每两帧的密集光流，得到时间信息。然后对cnn模型进行视频图像、空间和时间的训练，利用网络的两个分支分别判断动作类别。最后将两个网络的训练结果直接融合得到最终的分类结果。双流卷积网络结构的优点是精度高，但速度慢。
6.feichtenhofer等人遵循双流卷积网络结构。为了更好地利用双流模型中的时空信息，笔者改进了时空网络融合策略。他提出了五种不同的时空网络融合方案和三种时间网络融合方法。wang等人列举了几种最新的cnn网络结构下双流网络的准确性。熊军等发现，以往的研究成果只能处理短期动作，对长期动作的时间结构认识不足，训练样本较小。为此，作者采用了稀疏时间采样策略和视频监控策略。视频在时域上进行分段，用随机选取
的分段弥补第一个不足，用交叉训练、正则化和数据扩展弥补第二个不足，网络结构命名为时态分段网络(tsn)。由于最近残差网络(resnet)在深度学习中的成功应用，feichtenhofer等提出了一种新的结合resnet和双流模型的时空残差网络模型。行为的时间和空间特征是通过空间和时间流之间的残差联系分层学习的。
7.在特征提取初期，本发明采用双流网络，结合rgb图像和光流图像。其目的是利用两种线索的优势互补进行小鼠行为识别，进一步提高预测的准确性。特征融合后，将双流网络转化为单流网络，可有效控制计算开销和参数数量，提高识别性能。
8.在许多工作中，不同模态特征的融合是提高精度的重要途径。结合不同模态的特征，利用它们的互补性，可以取得更好的识别效果。沙拉维等人提出了一种将二维形状人体姿态估计与骨骼特征相结合的方法。融合有效的2d轮廓和3d骨骼特征可以获得具有较高判别价值的视觉特征，并利用轮廓提供的附加判别数据提高人体动作识别误差的鲁棒性。sanchez-riera等人将rgb特征与深度特征相结合进行手势识别和一般物体识别，评价了早期和晚期两种融合方案。li等人提出了一种多特征稀疏融合模型，分别从骨骼和深度数据中提取人体部位的多个特征。当采用稀疏正则化技术自动识别关键部位特征结构时，学习的加权特征对多任务分类更具判别性。chen等人基于深度摄像机、惯性体传感器分别提取了人体动作的深度图像特征和rgb视频特征，评价了特征级融合和决策级融合两种识别框架。
9.小鼠广泛存在于生物医学科学中，其对疾病或治疗的反应经常通过测量其行为模式来检测。在大多数情况下，视频都是人工记录和标记的。由于手动标注动物行为是一项艰巨的工作，因此需要有一个可靠、自动化的行为识别系统，通过计算机完成任务。通过一个高性能的系统，可以解决人工标注的问题，提高标注效率。在许多关于动物行为识别的研究中，提出了一些动物行为识别系统。这些系统主要分为两种：基于手工特征提取的传统方法和采用神经网络的深度学习方法。手工特征表达的基础上构建复杂模型的方法已经不能适应高精度和高速的要求，所以深度学习技术为动物行为识别带来了新的发展方向。
10.针对现有技术对动物行为识别精度不够高，不能在动物快速移动、遮挡、模糊等条件下进行有效地、自动地动物行为分类的问题，本发明提出一种基于多线索融合的动物行为识别方法。

技术实现要素：

11.为了克服上述现有技术存在的不足，本发明提供了一种基于多线索融合的动物行为识别方法，以解决现有识别方法在动物快速移动、遮挡或成像模糊等情况下，识别结果不准确的问题，使网络能够直接学习如何对不同模态的特征进行过滤，从而只保留对组合有用的信息。在每个空间位置上，不同模态的特征被自适应地融合，有些特征可能因为在该位置上存在冲突信息而被过滤掉，而另一些特征可能占据主导地位。
12.为了实现上述目的，本发明提供如下技术方案：
13.一种基于多线索融合的动物行为识别方法，包括以下步骤：
14.获取动物行为视频数据，从视频中提取rgb帧；
15.对rgb帧进行光流提取，得到动物运动的光流帧；
16.将rgb帧和光流帧输入到多线索融合网络构建的动物行为识别模型中对动物行为
进行识别，识别步骤包括：
17.用双流的特征提取网络对rgb帧和光流帧进行特征提取，得到动物行为的表观特征和运动特征；
18.将表观特征和运动特征输入到多线索特征交换模块mfsm，进行多线索特征交换，如果特征映射的尺度因子小于设定阈值，则该特征映射将被相同位置的其他线索替换；
19.将多线索特征交换模块的输出结果输入到自适应特征融合模块affm，对特征交换后的表观特征和光流特征进行自适应特征融合，得到运动信息增强的表观特征；
20.将自适应特征融合模块的输出结果输入到主干网络中，通过分类器得到最终的行为预测结果；
21.根据行为预测结果和行为类别，通过交叉熵损失函数计算损失值，将损失进行误差反向传播，迭代更新网络参数，直至动物行为识别模型收敛，以基于收敛后的动物行为识别模型进行行为识别，获得识别结果。
22.优选地，所述多线索特征交换模块mfsm引入批量归一化层，使用x
m,c
表示第m个特征网络中的第c个特征映射，在批量归一化层中，x
m,c
执行仿射变换如下：
[0023][0024]
其中，μ
m,c
和σ
m,c
分别表示特征映射c在第m个特征网络中所有像素位置的均值和均值标准差；γ
m,c
和β
m,c
是可训练的尺度因子和偏移量；ε为常数；x
′
m,c
表示x
m,c
执行仿射变换后得到的值；
[0025]
其中，x
m,c
的输入是表观特征和运动特征的不同特征映射的张量值，m表示不同的输入特征，包括表观特征和运动特征；c表示的则是不同的特征映射；
[0026]
表观特征和运动特征输入到多线索特征交换模块mfsm中，分别先进行批量归一化，得到这两种特征的不同γ
m,c
，γ
m,c
的作用是评估x
m,c
和x
′
m,c
的相关性，然后再判断是否要进行特征交换。
[0027]
优选地，采用公式(2)判断是否要进行特征交换：
[0028][0029]
其中，x
m,c
的输入是表观特征和运动特征的不同特征映射的张量值，m表示不同的输入特征，包括表观特征和运动特征；c表示的则是不同的特征映射，m' 表示另外一种输入特征，m表示输入特征的数量；
[0030]
如果该特征映射c的尺度因子γ
m,c
大于阈值θ，则x
′
m,c
是x
m,c
执行仿射变换后得到的值；如果该特征映射c的尺度因子γ
m,c
小于阈值θ，则使用其他特征网络的特征映射c的平均值替换掉当前特征映射c，由于输入特征只有表观特征和运动特征，则只需要使用别的特
征网络的特征映射进行替换，实现多线索特征的交换。
[0031]
优选地，所述自适应特征融合模块affm的融合方法如下：
[0032][0033]
其中，y
ij
是位置(i,j)处的输入特征经过权重计算后(i,j)的张量；α
ij
和β
ij
是通过网络自适应学习获得的针对不同线索的两个空间重要性权重；α
ij
和β
ij
在特征映射之间共享；定义α
ij
β
ij
＝1，并且根据以下公式α
ij
,β
ij
∈[0,1]，
[0034][0035]
其中，α
ij
和β
ij
分别用和作为softmax函数的控制参数；
[0036]
使用1
×
1卷积层和softmax函数计算从x1、x2中的权重映射α
ij
、β
ij
，通过网络进行自适应学习；
[0037]
在网络中，和的输入分别是特征交换后的表观特征和光流特征；
[0038]
和通过1
×
1卷积计算得到和将和进行拼接后再次通过1
×
1卷积计算改变通道数，再使用softmax函数计算出权重映射参数α
ij
和β
ij
；
[0039]
表观特征和光流特征的特征图在每个位置(i,j)与各自的权重映射参数α
ij
和β
ij
的(i,j)处相乘再相加得到最后的融合结果。
[0040]
优选地，所述主干网络为inceptionv3，其包括：
[0041]
第一部分为输入层，有两个输入的流，分别是rgb帧和光流帧；输入层由六个2d卷积块和两个最大池化层和一个自适应特征融合模块组成；其中2d卷积块一层卷积层、一层激活层、一层批量归一化层和多线索特征交换层组成，通过批量归一化层得到多线索特征交换层需要的参数后进行多线索交换；多线索交换的输出将作为下一层的输入；
[0042]
第二部分为融合层，由三个inceptiona块、一个inceptionc块、四个inceptionb块、1个inceptiond块和两个inceptione块组成；这些inception块的输入是自适应融合模块的输出，融合层的最后会将这些inception块进行拼接，输入到下一层；
[0043]
第三部分为输出层，由平均池化层和全连接层组成，得到最终的分类结果。
[0044]
本发明提供的基于多线索融合的动物行为识别方法具有以下有益效果：
[0045]
(1)本发明在少量增加计算成本和参数量的情况下，很大程度提高了识别准确率，可以很有效地自动完成对动物行为的分类。
[0046]
(2)本发明提出的新的多线索交换模块可以将对最终结果失去影响的特征图替换为其他线索的特征图。
[0047]
(3)本发明提出的自适应的特征融合模块可以将特征交换后的特征进行自适应融合。
[0048]
(4)本发明提出了用于动物行为识别的多线索融合网络，网络使用了多线索交换模块和自适应特征融合模块。
[0049]
(5)本发明使用rgb和光流图像作为输入，使用双流网络并进行早期融合，可以在少量增加计算量的前提下有效地提升识别精度。通过本发明的模型可以可靠、自动化、高效的完成对动物行为识别，可以很大程度上解决人工标注所带来的问题。
附图说明
[0050]
为了更清楚地说明本发明实施例及其设计方案，下面将对本实施例所需的附图作简单地介绍。下面描述中的附图仅仅是本发明的部分实施例，对于本领域普通技术人员来说，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。
[0051]
图1为本发明的基于多线索融合的动物行为识别方法的流程图；
[0052]
图2为多线索融合策略示意图；
[0053]
图3为多线索融合网络基于inceptionv3的总体架构图；
[0054]
图4为本发明实施例的实验图；
[0055]
图5为jiang数据集各行为帧数的分布图；
[0056]
图6为jhuang数据集各行为帧数的分布图。
具体实施方式
[0057]
为了使本领域技术人员更好的理解本发明的技术方案并能予以实施，下面结合附图和具体实施例对本发明进行详细说明。以下实施例仅用于更加清楚地说明本发明的技术方案，而不能以此来限制本发明的保护范围。
[0058]
实施例1
[0059]
本发明提供了一种基于多线索融合的动物行为识别方法，具体如图1所示，包括：
[0060]
步骤1、获取动物行为视频数据，从视频中提取rgb帧；
[0061]
步骤2、使用光流提取的方法对rgb帧进行光流提取，得到动物运动的光流帧；
[0062]
步骤3、将rgb帧和光流帧输入到多线索融合网络构建的动物行为识别模型中对动物行为进行识别，识别步骤包括：
[0063]
步骤3.1、用双流的特征提取网络对rgb帧和光流帧进行特征提取，得到动物行为的表观特征和运动特征；
[0064]
步骤3.2、将表观特征和运动特征输入到多线索特征交换模块mfsm，进行多线索特征交换，如果特征映射的尺度因子小于设定阈值，则该特征映射将被相同位置的其他线索替换，多线索特征交换模块的目的在于舍弃掉对最终结果失去影响的特征图；
[0065]
步骤3.3、将多线索特征交换模块的输出结果输入到自适应特征融合模块 affm，对特征交换后的表观特征和光流特征进行自适应特征融合，得到运动信息增强的表观特征；
[0066]
步骤3.4、将自适应特征融合模块的输出结果输入到主干网络中，通过分类器得到最终的行为预测结果；
[0067]
步骤3.5、根据行为预测结果和行为类别，通过交叉熵损失函数计算损失值，将损失进行误差反向传播，迭代更新网络参数，直至动物行为识别模型收敛，以基于收敛后的动物行为识别模型进行行为识别，获得识别结果。
[0068]
由于多线索特征交换模块需要使用bn层，本发明首先引入bn层。bn层的功能在于
增强泛化能力，加快网络训练和收敛速度。
[0069]
具体的，本实施例中，多线索特征交换模块mfsm引入批量归一化层，使用x
m,c
表示第m个特征网络中的第c个特征映射，在批量归一化层中，x
m,c
执行仿射变换如下：
[0070][0071]
其中，μ
m,c
和σ
m,c
分别表示特征映射c在第m个特征网络中所有像素位置的均值和均值标准差；γ
m,c
和β
m,c
是可训练的尺度因子和偏移量；ε为常数，可以防止零除法；x
′
m,c
表示x
m,c
执行仿射变换后得到的值。
[0072]
其中，x
m,c
的输入是表观特征和运动特征的不同特征映射的张量值，m表示不同的输入特征，包括表观特征和运动特征；c表示的则是不同的特征映射。
[0073]
表观特征和运动特征输入到多线索特征交换模块mfsm中，分别先进行批量归一化，得到这两种特征的不同γ
m,c
，γ
m,c
的作用是评估x
m,c
和x
′
m,c
的相关性，然后再判断是否要进行特征交换。
[0074]
因子γ
m,c
的作用是评价训练中x
′
m，c
与x
m，
c的相关性。如果γ
m，c
→
0，损耗梯度x
m,c
将趋近于零，这意味着x
m,c
将失去对结果的影响，因此x
m,c
将变得冗余。
[0075]
因此，这促使本发明将γ
m,c
较小的特征图替换为其他特征网络的特征图，因为这些特征图将失去对结果的影响，成为冗余的特征图。本发明提出下面的公式(2)来解决这个问题，
[0076]
采用公式(2)判断是否要进行特征交换：
[0077][0078]
其中，x
m,c
的输入是表观特征和运动特征的不同特征映射的张量值，m表示不同的输入特征，包括表观特征和运动特征；c表示的则是不同的特征映射，m' 表示另外一种输入特征，m表示输入特征的数量；
[0079]
如果该特征映射c的尺度因子γ
m,c
大于阈值θ，则x
′
m,c
是x
m,c
执行仿射变换后得到的值；如果该特征映射c的尺度因子γ
m,c
小于阈值θ，则使用其他特征网络的特征映射c的平均值替换掉当前特征映射c，由于输入特征只有表观特征和运动特征，则只需要使用别的特征网络的特征映射进行替换，实现多线索特征的交换。
[0080]
在公式(2)中如果特征映射c的缩放因子γ
m，c
小于阈值θ，则将当前特征映射c替换为其他特征网络特征映射c的平均值。也就是说，如果线索的一个特征映射对结果失去影响，则用其他特征网络特征映射的平均值代替。在本发明的实现中，本发明将上述公式应用到特征提取过程中，并对卷积和非线性激活后的每一个线索切换特征映射。本发明将需要切换的比例因子表示为γ
′
m，c
，并对γ
′
m，c
施加稀疏约束以避免不必要的切换。这样不仅使
无用的特征映射得以替换，而且避免了无用切换的发生，多线索融合策略如图2所示。对缩放因子的稀疏性约束应用于不同线索的不相交区域。如果特征映射的尺度因子小于某一阈值，则该特征映射将被相同位置的其他线索替换。
[0081]
本发明提出自适应特征融合模块(affm)与以往基于元素求和或拼接的多级特征融合方法不同，本发明的核心思想是在每个尺度上自适应地学习特征图融合的空间权重。设为第m个特征网络中位置(i，j)处的特征向量。本发明提出的特征融合方法如下：
[0082]
自适应特征融合模块affm的融合方法如下：
[0083][0084]
其中，y
ij
是位置(i,j)处的输入特征经过权重计算后(i,j)的张量；α
ij
和β
ij
是通过网络自适应学习获得的针对不同线索的两个空间重要性权重；α
ij
和β
ij
在特征映射之间共享，它们不是简单的标量变量。本发明强制定义α
ij
β
ij
＝1，并且根据以下公式α
ij
,β
ij
∈[0,1]，
[0085][0086]
其中，α
ij
和β
ij
分别用和作为softmax函数的控制参数。
[0087]
本发明使用1
×
1卷积层和softmax函数计算从x1、x2中的权重映射α
ij
、β
ij
，这样就可以通过网络进行自适应学习。
[0088]
在网络中，和的输入分别是特征交换后的表观特征和光流特征；
[0089]
和通过1
×
1卷积计算得到和将和进行拼接后再次通过1
×
1卷积计算改变通道数，再使用softmax函数计算出权重映射参数α
ij
和β
ij
；
[0090]
表观特征和光流特征的特征图在每个位置(i,j)与各自的权重映射参数α
ij
和β
ij
的(i,j)处相乘再相加得到最后的融合结果。
[0091]
多线索融合网络利用mfsm和affm进行特征图交换，并对两种线索的特征进行自适应融合，使两种线索的互补优势得到充分发挥。采用网络对输出特征进行识别。这样就可以从时空角度、信道相互依赖关系和运动感知信息来看待gsm的输出，图2显示了用于inceptionv3的多线索融合网络结构。
[0092]
在本实施例中，采用inceptionv3作为主干网络，其由以下部分组成：
[0093]
第一部分为输入层，有两个输入的流，分别是rgb帧和光流帧；输入层由六个2d卷积块和两个最大池化层和一个自适应特征融合模块组成；其中2d卷积块一层卷积层、一层激活层、一层批量归一化层和多线索特征交换层组成，通过批量归一化层得到多线索特征交换层需要的参数后进行多线索交换，具体顺序由表2可见，多线索交换的输出将作为下一层的输入。
[0094]
第二部分为融合层，由三个inceptiona块、一个inceptionc块、四个inceptionb块、1个inceptiond块和两个inceptione块组成，这些inception块的具体顺序由表2可见。
这些inception块的输入是自适应融合模块的输出，融合层的最后会将这些inception块进行拼接，输入到下一层；
[0095]
第三部分为输出层，由平均池化层和全连接层组成，得到最终的分类结果，具体顺序由表2可见。
[0096]
其中卷积层的卷积核多、间隔和输出的张量尺寸在表2详细说明。
[0097]
基于以上的卷积神经网络结构，对其进行训练得到识别模型，可以提高模型的识别能力，具有更强的鲁棒性，同时，可以减小计算量和存储空间的要求。
[0098]
示例性的，采用了两个jiang dataset和jhuang dataset两个动物行为数据集，具体帧数分布由图4和图5可见。
[0099]
本实例采用的归一化方法为批量归一化。
[0100]
本发明使用tsn作为行为识别的参考架构，tsn使用c2d骨干来执行帧级特征的时间池。本发明选择使用bn-inception和inceptionv3作为tsn的主干选项，但本发明对主干前面的特征提取部分做了一些修改。本发明将输入改为rgb和光流两流输入，并插上mfsm和affm。之后本发明把gsm插到了主干网络。在所有实验中，本发明使用16帧作为输入。所有程序均采用pytorch实现，并在配备两台nvidia tesla t4 gpu的pc上运行。
[0101]
如图4所示，本实施例以小鼠作为对象，使用了两个数据集，即jhuang d ataset的“剪辑数据库”和jiang dataset。“剪辑数据库”包括8个行为类别：d rink(从供水处饮用)、eat(取食物)、groom(小鼠梳理其皮毛)、hang(小鼠挂在笼子的顶部)、head(四肢或头部轻微运动)、rear(站立位前肢离地)、rest(小鼠保持稳定或睡眠)、walk(小鼠在笼中行走或跑步)。除上述公开数据集外，还使用jiang数据集，其中包括6个行为类别：dig(用前肢或头抬起木屑)、eat(小鼠从食物盒中获取食物)、groom(前肢扫过脸部或躯干)、rear(站立，前肢离地)、head(四肢或头部轻微活动)、walk(移动)。jiang数据集和jhuang数据库的样本视频帧分别如图5和图6所示。
[0102]
表1本发明的方法在jiang数据集与其他最先进方法精度的比较
[0103][0104]
表2采用inceptionv3架构实现多线索融合网络
[0105][0106][0107]
表1展示了在jiang数据集上多线索融合网络与最先进方法的性能比较，精度最好的是采用inceptionv3为主干网络的mgsn(ours)方法，其次是采用b n-inception为主干网络的mgsn(ours)方法，tdn(cvpr2021)的精度排在第三。本发明在实验中使用了16帧作为输入。该表列出了最先进的方法和本发明的方法之间的比较，并列出了使用不同主干的准确性。表2是采用inceptionv3架构实现多线索融合网络。所有卷积块里依次是卷积层、relu非线性、bn 层和多线索特征交换层。c是数据集中的类数。表2显示了inceptionv3体系结构。在使用gsm之前，本发明在每个conv中插入mfsm，并对rgb和光流模式进行特征自适应融
合。
[0108]
从表1可以看出，多线索融合网络在基线gsm上的最大绝对增益为5.41％ (83.11％vs 77.70％)。在相同的情况下，骨干网具有不同程度的增益。表中识别准确率前三位的是使用不同模块的多线索融合网络。实验还表明，采用比 bn-inception大的inceptionv3识别准确率达到83.11％。使用主干作为resnet50 网络的有tdn、pan、action-net和tam方法，tdn取得了较好的识别精度。resnet-101可以使用的tdn达到之前的最高精度，达到81.31％，高于基于bn-inception的gsm的精度80.79％。然而，基于bn-inception的mgsn(本发明的)的准确率超过了以往所有方法，准确率达到82.70％。基于inceptionv3 的mgsn(本发明的)识别准确率进一步提高，超过目前所有方法的83.11％。
[0109]
以上所述实施例仅为本发明较佳的具体实施方式，本发明的保护范围不限于此，任何熟悉本领域的技术人员在本发明披露的技术范围内，可显而易见地得到的技术方案的简单变化或等效替换，均属于本发明的保护范围。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：一种基于生长演化模型的多层级电网规划方法

一种基于多线索融合的动物行为识别方法

相关文献

最热文献