异常行为检测与定位方法、系统、终端设备及可读存储介质与流程

2021-10-30 01:48:00 来源：中国专利 TAG：终端设备可读异常定位视觉

1.本发明属于计算机视觉技术领域，特别涉及一种异常行为检测与定位方法、系统、终端设备及可读存储介质。

背景技术：

2.异常行为的检测与定位是指在监控场景下及时发现并预警异常行为，同时指出异常行为发生在场景的空间位置。异常行为的检测与定位任务拥有很多具有现实性意义的应用场景，比如：交通场景下如车祸、抛锚等异常情况的实时监测；无人驾驶机动车对于前方未知场景中异常行为的预警；高铁、机场等公共场景的违法犯罪检测；像森林火灾、山体滑坡、实验室火灾等突发事件的及时预警等。
3.目前的异常行为检测方法存在以下两方面的问题：
4.(1)监控视频中的场景几乎都是固定的，且异常行为通常发生在场景的局部区域，现有方法没有合理的利用这些特性，使得检测效率低下。
5.(2)异常行为发生的低频率与多样性，使得现有检测方法缺少对异常行为的特征限定，使得误检率较高。
6.综上，亟需一种能够充分利用相关特性且能够对异常行为进行限定的异常行为检测与定位方法。

技术实现要素：

7.本发明的目的在于提供一种异常行为检测与定位方法、系统、终端设备及可读存储介质，以解决上述存在的一个或多个技术问题。本发明能够提高检测效率，可以实现异常样本的空间定位。
8.为达到上述目的，本发明采用以下技术方案：
9.本发明的一种异常行为检测与定位方法，包括以下步骤：
10.(1)获取原始的待测样本视频帧的光流运动信息特征；
11.(2)将获取的待测样本视频帧的光流运动信息特征输入预训练好的双流记忆增强网络模型，通过双流记忆增强网络模型获得重构的待测样本视频帧以及预测的待测样本视频帧的光流运动信息特征；
12.(3)根据原始的待测样本视频帧与步骤(2)重构的待测样本视频帧，以及步骤(1)获取的待测样本视频帧的光流运动信息特征与步骤(2)预测的待测样本视频帧的光流运动信息特征，计算像素级的差异，获得待测样本视频帧的误差图和待测样本视频帧的光流运动信息特征的误差图；
13.(4)基于步骤(3)获得的误差图确定异常行为并获得异常行为的定位图；
14.其中，所述双流记忆增强网络模型包括：
15.编码器模块，用于获取输入视频帧的编码特征；
16.记忆网络模块，用于基于自身存储的正常行为特征以及编码器模块获取的编码特
征，获得重新整合的编码特征；
17.外观信息解码器模块，用于基于所述重新整合的编码特征获得重构的视频帧；
18.运动信息解码器模块，用于基于所述重新整合的编码特征获得预测的视频帧的光流运动信息特征。
19.本发明的进一步改进在于，步骤(1)具体包括：
20.将原始的待测样本视频帧的集合进行分组，获得分组后的视频帧对；其中，分组方式为将相邻两帧进行组合；
21.将分组后的视频帧对作为光流提取网络的输入，获取原始的待测样本视频帧的光流运动信息特征。
22.本发明的进一步改进在于，步骤(2)中，所述预训练好的双流记忆增强网络模型的获取步骤包括：
23.使用编码器模块获取的编码特征与记忆网络模块重新整合的编码特征、外观信息解码器模块重构的训练样本视频帧与双流记忆增强网络模型输入的训练样本视频帧以及运动信息解码器模块预测的训练样本视频帧的光流运动信息特征与双流记忆增强网络模型输入的训练样本视频帧的光流运动信息特征构建损失函数；
24.采用构建的损失函数对双流记忆增强网络模型进行迭代优化；达到预定的迭代次数或收敛条件后，获得训练好的双流记忆增强网络模型。
25.本发明的进一步改进在于，步骤(2)中，所述损失函数包括：外观特征重构损失、运动特征重构损失、特征空间稀疏权重损失以及特征空间重新整合损失；
26.所述外观特征重构损失采用l2损失；
27.所述运动特征重构损失采用l1损失；
28.所述特征空间稀疏权重损失利用降低特征重建信息熵的思想；
29.所述特征空间重新整合损失函数获得的具体步骤包括：将获取的编码特征与重新整合的编码特征进行相似度的计算；将计算获得相似度减去一个预设margin值，同时对计算获得的相似度为负值的进行抑制，获得基于margin的特征空间重新整合损失函数。
30.本发明的进一步改进在于，所述特征空间重新整合损失函数的表达式为：
[0031][0032]
式中，特征相似度计算函数；z为编码特征；为重新整合的编码特征；margin为阈值超参数；
[0033][0034]
式中，x，y为待计算相似度的两个特征向量。
[0035]
本发明的进一步改进在于，步骤(2)中，所述双流记忆增强网络模型输入的训练样本视频帧的光流运动信息特征中，所述训练样本视频帧的光流运动信息特征的获取步骤包括：
[0036]
将训练样本视频帧的集合进行分组，获得分组后的视频帧对；其中，分组方式为将相邻两帧进行组合；
[0037]
将分组后的视频帧对作为光流提取网络的输入，获取训练样本视频帧的光流运动
信息特征。
[0038]
本发明的进一步改进在于，步骤(4)具体包括：
[0039]
基于获得的待测样本视频帧的误差图和待测样本视频帧的光流运动信息特征的误差图，在各自的误差图上进行基于分块的步长卷积操作，获得各分块的平均误差分数；对各分块的平均误差分数进行排序，选择最高响应的分块作为待测样本视频帧的异常分数；
[0040]
若待测样本视频帧的异常分数超出预定判别阈值，则将该待测视频帧标记为异常帧；
[0041]
将标记为异常帧中的各个响应分块进行排序，将高于预定阈值的分块的响应分数置1，作为异常行为的定位候选区域，低于预定阈值的分块响应分数置0，获得异常行为的定位图。
[0042]
本发明的一种异常行为检测与定位系统，包括：
[0043]
光流运动信息特征获取模块，用于获取原始的待测样本视频帧的光流运动信息特征；
[0044]
重构和预测模块，用于将获取的待测样本视频帧的光流运动信息特征输入预训练好的双流记忆增强网络模型，通过双流记忆增强网络模型获得重构的待测样本视频帧以及预测的待测样本视频帧的光流运动信息特征；
[0045]
误差图获取模块，用于根据原始的待测样本视频帧与重构的待测样本视频帧，以及光流运动信息特征获取模块获取的待测样本视频帧的光流运动信息特征与重构和预测模块预测的待测样本视频帧的光流运动信息特征，计算像素级的差异，获得待测样本视频帧的误差图和待测样本视频帧的光流运动信息特征的误差图；
[0046]
定位图获取模块，用于基于误差图获取模块获得的误差图确定异常行为并进一步确定异常行为的定位图；
[0047]
其中，所述双流记忆增强网络模型包括：
[0048]
编码器模块，用于获取输入视频帧的编码特征；
[0049]
记忆网络模块，用于基于自身存储的正常行为特征以及编码器模块获取的编码特征，获得重新整合的编码特征；
[0050]
外观信息解码器模块，用于基于所述重新整合的编码特征获得重构的视频帧；
[0051]
运动信息解码器模块，用于基于所述重新整合的编码特征获得预测的视频帧的光流运动信息特征。
[0052]
本发明的一种终端设备，包括：处理器；存储器，用于存储计算机程序指令；所述计算机程序指令由所述处理器加载并运行时，所述处理器执行本发明任一项上述的异常行为检测与定位方法。
[0053]
本发明的一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序指令，所述计算机程序指令被处理器加载并运行时，所述处理器执行本发明任一项上述的异常行为检测与定位方法。
[0054]
与现有技术相比，本发明具有以下有益效果：
[0055]
本发明针对现有方法在特征提取过程中忽略运动信息特征且未能很好的限定异常行为样本的技术问题，提出了基于双流记忆增强网络的异常行为检测与定位方法，能够增大两类样本的分类边界从而提高检测效率，同时可以实现异常样本的空间定位功能。
[0056]
本发明中，构建了一种基于margin的特征重建损失函数，并在改进的双流网络中引入记忆网络模块，使得优化后的网络模型能够低质量重建场景中的异常行为区域，从而更好的进行异常行为的检测与定位工作。本发明使用基于margin的特征重建损失函数，变相增大了不同样本之间的分类间距；同时也为异常描述工作奠定了基础。
[0057]
本发明的系统，针对目前异常行为检测问题中忽略对异常行为进行特征限定的问题，引入了基于记忆网络的特征重建方法，通过设计损失函数，有效增大不同样本之间的分类间距；使用基于分块的样本判别与定位方案，能够提升检测的质量与定位的准度。
附图说明
[0058]
为了更清楚地说明本发明实施例或现有技术中的技术方案，下面对实施例或现有技术描述中所需要使用的附图做简单的介绍；显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来说，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。
[0059]
图1是本发明实施例的一种基于双流记忆增强网络的异常行为检测与定位方法的流程示意图；
[0060]
图2是本发明实施例中，记忆网络的特征重建过程示意图；
[0061]
图3是本发明实施例中，基于margin的特征重建损失的示意图；
[0062]
图4是本发明实施例中，基于分块的异常行为检测与定位过程示意图；
[0063]
图5是本发明实施例中，在ucsd ped2数据集上的部分结果示意图；其中，图5中(a)为异常检测的结果示意图，图5中(b)为异常行为定位的结果示意图；
[0064]
图6是本发明实施例中，在cuhk avenue数据集上的部分结果示意图；其中，图6中(a)为异常检测的结果示意图，图6中(b)为异常行为定位的结果示意图；
[0065]
图7是本发明实施例中，在shanghaitech数据集上的部分结果示意图；其中，图7中(a)为异常检测的结果示意图，图7中(b)为异常行为定位的结果示意图。
具体实施方式
[0066]
为使本发明实施例的目的、技术效果及技术方案更加清楚，下面结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述；显然，所描述的实施例是本发明一部分实施例。基于本发明公开的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的其它实施例，都应属于本发明保护的范围。
[0067]
本发明实施例的一种监控视频下异常行为的检测与定位方法，适用于在公共场所或重点区域监控视频场景下辅助或代替相关工作人员及时预警异常行为的发生。
[0068]
请参阅图1，本发明实施例的方法是一种基于双流记忆增强网络的异常行为检测与定位方法，包括以下步骤：
[0069]
步骤1，将训练样本视频帧的集合进行分组，分组方式为将相邻两帧进行组合(示例性的，第一帧与第二帧组合，第二帧与第三帧组合，
…
，第t帧与第t 1帧组合，
…
，以此类推)，使用分组后的视频帧对作为光流提取网络的输入，从而获取训练样本视频帧的光流运动信息特征；
[0070]
步骤2，使用训练样本视频帧及提取的训练样本视频帧的光流运动信息特征对预
构建的双流记忆增强网络模型进行训练优化；预构建的双流记忆增强网络模型包含四个模块，分别为编码器模块、记忆网络模块、外观信息解码器模块及运动信息解码器模块。
[0071]
首先，将训练样本视频帧送入模型中的编码器提取特征，获取编码特征后，记忆网络模块使用编码特征作为查询向量利用自身存储的正常行为特征重新整合编码特征，重新整合的编码特征之后被送入模型的外观解码器和运动解码器模块，用以获取重构的训练样本视频帧和预测的训练样本视频帧的光流运动信息特征。
[0072]
在此过程中，使用编码特征与重新整合的编码特征、重构的训练样本视频帧与模型输入的训练样本视频帧，以及预测的训练样本视频帧的光流运动信息特征与步骤1中提取的训练样本视频帧的光流运动信息特征分别构建损失函数，对构建的双流记忆增强网络模型进行迭代优化；达到一定的迭代次数后，获得优化后的双流记忆增强网络模型，该模型可以实现对于给定样本视频帧的重构和样本视频帧的光流运动信息特征的预测；其中，所述损失函数包括外观特征重构损失、运动特征重构损失、特征空间稀疏权重损失、以及特征空间重新整合损失；所述外观特征重构损失采用l2损失；所述运动特征重构损失采用l1损失；所述特征空间稀疏权重损失利用降低特征重建信息熵的思想；所述特征空间重新整合损失函数获得的具体步骤包括：将获取的编码特征与重新整合的编码特征进行相似度的计算，之后将相似度减去一个预设margin值，同时对相似度为负值的进行抑制，获得基于margin的特征空间重新整合损失。
[0073]
步骤3，将待测样本视频帧的集合进行分组，分组方式为将相邻两帧进行组合，使用分组的视频帧对作为光流提取网络的输入，从而获取待测样本视频帧的光流运动信息特征；
[0074]
步骤4，将待测样本视频帧送入训练好的双流记忆增强网络模型，获得重构的待测样本视频帧以及预测的待测样本视频帧的光流运动信息特征。同时，根据待测样本视频帧与重构的待测样本视频帧，以及步骤3中提取的待测样本视频帧的光流运动信息特征与预测的待测样本视频帧的光流运动信息特征，计算像素级的差异，获得待测样本视频帧的误差图和待测样本视频帧的光流运动信息特征的误差图。之后在各自的误差图上进行基于分块的步长卷积操作，获得各分块的平均误差分数；对各分块误差分数进行排序，选择最高响应分块作为该待测样本视频帧的异常分数，若超出给定判别阈值，则将该待测视频帧标记为异常帧；同时，将标记为异常帧中的各个响应分块进行排序，将高于定位阈值的分块的响应分数置1，作为异常行为的定位候选区域，低于阈值的分块响应分数置0，获得异常行为的定位图。
[0075]
请参阅图2，本发明实施例中，步骤2中，模型结构设计具体包括：
[0076]
步骤2.1，双流结构不再是并行的两个编码分支，而是将两个分支共用一个编码器，来进行底层的特征信息交互；
[0077]
步骤2.2，双分支解码器结构一致的基础上，在网络结构的最后增加了额外的卷积层，用以对特征输出维度进行调整，保证输入输出维度的一致。
[0078]
请参阅图3，本发明实施例中，步骤2中，特征空间的重新整合损失函数具体步骤包括：
[0079]
步骤2.1，计算编码特征与重新整合特征的余弦相似度，得到相似度分数；
[0080]
步骤2.2，将步骤3.1中获得的相似度分数手动减去一个margin值，获得对应的相
似度分数；
[0081]
步骤2.3，将步骤3.2中获得的相似度分数进行负值抑制，获得非正即0的损失函数值。
[0082]
请参阅图4，本发明实施例中，步骤4中，基于分块的步长卷积具体步骤包括：
[0083]
步骤4.1，初始化全1的卷积核，卷积核的输入维度为样本特征维度，输出维度为1，卷积核大小由场景中行人占场景的比例确定；
[0084]
步骤4.2，在两个分支的误差图上分别进行基于步长的卷积，步长范围为[5，10]，同时记录各分块的空间位置；
[0085]
步骤4.3，对于步骤4.2中获取的双分支各分块平均误差进行加权重构，权重按照各自的量级确定；
[0086]
步骤4.4，从步骤4.3中合并的分块分数选择最大的异常分数分块作为判定异常帧的标准；
[0087]
步骤4.5，将步骤4.4中确定的异常帧中的所有分块得分按照降序排序，手工设定定位阈值，将低于该阈值的分块分数置0，高于阈值的分块分数置1，获得目标帧的定位图。
[0088]
本发明实施例中，步骤3中，所述特征空间重建损失函数的表达式为：
[0089][0090]
式中，特征相似度计算函数；z为编码特征；为重新整合的编码特征；margin为阈值超参数；
[0091]
其中，
[0092][0093]
式中，x，y为待计算相似度的两个特征向量。
[0094]
本发明实施例的一种基于双流记忆增强网络的异常行为检测与定位系统，包括：
[0095]
运动特征获取模块，用于提取训练样本视频帧中的相邻视频帧对；根据视频帧对获得相对应的运动特征；
[0096]
训练模块，用以将训练样本视频帧输入预构建的双流记忆增强卷积神经网络模型中，获得重构的训练样本视频帧及训练样本视频帧的光流运动信息特征；并使用编码特征与重新整合的编码特征、重构的训练样本视频帧与训练样本视频帧、及预测的训练样本视频帧的光流运动信息特征与提取的训练样本视频帧的光流运动信息特征构建损失函数，对预构建的模型进行迭代优化；达到预设的迭代次数后，获得优化后的双流记忆增强网络，用以实现训练样本视频帧的重构及训练样本视频帧的光流运动信息的预测；其中，所述损失函数包括外观特征重构损失、运动特征重构损失、特征空间稀疏权重损失、以及特征空间重新整合损失；所述外观特征重构损失采用l2损失；所述运动特征重构损失采用l1损失；所述特征空间稀疏权重损失利用降低特征重建信息熵的思想；所述特征空间重新整合损失函数获得的具体步骤包括：将获取的编码特征与重新整合的编码特征进行相似度的计算，之后将相似度减去一个预设margin值，同时对相似度为负值的进行抑制，获得基于margin的特征空间重新整合损失。
[0097]
样本判定与定位模块，用以对未知分类的样本进行分类，并对判定为异常的视频
帧进行异常行为空间定位；使用待测视频帧与重构的目标视频帧以及待测视频帧的光流运动信息特征与预测的待测视频帧的光流运动信息特征，计算像素级的差异，获得待测样本视频帧的误差图和待测样本视频帧的光流运动信息特征的误差图。之后在各自的误差图上进行基于分块的步长卷积操作，获得各分块的平均误差分数；对各分块误差分数进行排序，选择最高响应分块作为该待测样本视频帧的异常分数，若超出给定判别阈值，则将该待测视频帧标记为异常帧；同时，将标记为异常帧中的各个响应分块进行排序，将高于定位阈值的分块的响应分数置1，作为异常行为的定位候选区域，低于阈值的分块响应分数置0，获得异常行为的定位图。
[0098]
本发明实施例的一种基于双流记忆增强网络的异常行为检测与定位电子设备，包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述计算机程序被所述处理器执行：
[0099]
采集训练样本视频帧的相邻视频帧对；根据视频帧对提取对应运动信息特征；
[0100]
将训练样本视频帧输入预构建的双流记忆增强网络模型中，获得重构的训练样本视频帧及预测的训练样本视频帧的光流运动信息特征；基于重新整合的编码特征与编码特征、重构的训练样本视频帧与训练样本视频帧，及预测的训练样本视频帧的运动信息特征与提取的训练样本视频帧的光流运动信息特征构建损失函数，对预构建的双流记忆增强网络模型进行迭代优化；达到预设的迭代次数后，获得优化后的双流记忆增强网络，用以实现训练样本视频帧的重构及训练样本视频帧的光流运动信息特征的预测；其中，所述损失函数包括外观特征重构损失、运动特征重构损失、特征空间稀疏权重损失、以及特征空间重新整合损失；所述外观特征重构损失采用l2损失；所述运动特征重构损失采用l1损失；所述特征空间稀疏权重损失利用降低特征重建信息熵的思想；所述特征空间重新整合损失函数获得的具体步骤包括：将获取的编码特征与重新整合的编码特征进行相似度的计算，之后将相似度减去一个预设margin值，同时对相似度为负值的进行抑制，获得基于margin的特征空间重新整合损失。
[0101]
使用待测视频帧与重构的待测视频帧以及待测视频帧的光流运动信息特征与预测的待测视频帧的光流运动信息分别计算各自的像素级误差图；在各自的误差图上进行基于分块的步长卷积操作，获得各分块的平均误差分数；对各分块误差分数进行排序，选择最高响应分块作为该待测样本视频帧的异常分数，若超出给定判别阈值，则将该待测视频帧标记为异常帧；同时，将标记为异常帧中的各个响应分块进行排序，将高于定位阈值的分块的响应分数置1，作为异常行为的定位候选区域，低于阈值的分块响应分数置0，获得异常行为的定位图。
[0102]
针对现有方法没有合理利用异常行为特性，从而使得没有对其进行限定，造成检测效率和性能不佳的问题，本发明实施例提供了一种基于双流记忆增强的异常行为检测与定位方法，构建了一种基于特征重新整合损失函数，并构建了双流记忆增强网络模型，使得优化后的网络模型能够更加关注于异常行为发生的区域，从而更好的进行异常行为的检测与定位工作。本发明使用特征重新整合损失函数，变相增大了不同样本之间的分类间距；同时也为异常描述工作奠定了基础。综上，本发明针对目前异常行为检测问题中忽略对异常行为进行特征限定的问题，引入了基于记忆网络的特征重新整合方法，通过合理的设计损失函数，有效增大不同样本之间的分类间距；使用基于分块的样本判别与定位方案，进一步
提升检测的质量与定位的准度。
[0103]
实施例1
[0104]
本发明实施例的一种基于双流记忆增强网络的异常行为检测与定位方法，包括如下步骤：
[0105]
步骤1，对训练样本视频帧的光流运动信息特征进行提取：
[0106]
1)将训练样本视频帧的集合进行分组，分组方式为将相邻两帧进行组合；
[0107]
2)将步骤1)中获得的视频帧对作为光流提取网络flownet2的输入，抽取对应的光流运动信息，获取训练样本视频帧的光流运动信息特征；
[0108]
步骤2，训练双流记忆增强网络模型：
[0109]
1)构建双流记忆增强网络模型；
[0110]
2)组织输入网络模型的数据；
[0111]
3)利用双流记忆增强卷积神经网络模型生成重构的训练样本视频帧及预测的训练样本视频帧的光流运动信息特征，同时获取的还有编码特征与重新整合的编码特征及编码特征与记忆网络的相似度权值矩阵。
[0112]
4)特征重新整合损失介绍；
[0113]
5)其他损失函数；
[0114]
6)根据所提的损失函数对网络参数进行迭代优化；
[0115]
7)当达到预定的迭代次数后，用双流记忆增强网络实现训练样本视频帧的重构及训练样本视频帧的光流信息特征的预测。
[0116]
步骤3，对待测样本视频帧的光流运动信息特征进行提取：
[0117]
1)将待测样本视频帧的集合进行分组，分组方式为将相邻两帧进行组合；
[0118]
2)将步骤1)中获得的视频帧对作为光流提取网络flownet2的输入，抽取对应的光流运动信息，获取待测样本视频帧的光流运动信息特征；
[0119]
步骤4，实现待测样本视频帧的异常行为的检测与定位：
[0120]
1)将待测样本视频帧送入训练好的双流记忆增强网络，并获得重构的待测样本视频帧与预测的待测样本视频帧的光流运动信息特征；
[0121]
2)根据步骤3中获取的待测样本视频帧的光流运动信息特征与预测的待测样本视频帧的光流运动信息特征，与待测样本视频帧与重构的待测样本视频帧进行像素级的相似度计算，获得各自的像素级误差图；
[0122]
3)使用基于分块的步长卷积方案对各误差图进行卷积并获得各分块的平均误差分数，同时保存各分块的空间位置坐标；
[0123]
4)将两个分支同一个空间位置的分块进行加权合并；
[0124]
5)取最大响应分块作为待测样本视频帧的异常分数，同时在确定该帧属于异常帧后，将所有分块得分逆序排序，手动设定定位阈值获得该帧的异常定位图。
[0125]
本发明实施例的一种基于双流记忆增强网络的异常行为检测与定位方法，针对现有方案忽略对异常行为进行特征限定的问题，在改进的双流网络中引入记忆网络模块，并通过精心设计的特征重建损失有效的扩大了不同样本之间的分类边界，驱使网络能够根据不同样本生成不同质量的重构结果。
[0126]
实施例2
[0127]
请参阅图1，本发明实施例的一种基于双流记忆增强网络的异常行为检测与定位方法，步骤如下：
[0128]
步骤1：对训练样本视频帧的光流运动信息特征进行提取：
[0129]
1)将训练样本视频帧的集合进行分组，分组方式为将相邻两帧进行组合，假定单个视频v中含有t帧，分组标准被定义为：
[0130]
pair
i
＝(v
i
，v
i 1
)，i＝1，2，...，t
‑
1.
[0131]
式中：pair
i
为光流特征提取输入对，从而得到视频帧的分组；
[0132]
2)将步骤1)中获得的帧分组中的每个视频帧调整分辨率至(1920，1080)，之后送入光流特征提取网络flownet2，抽取对应的光流运动信息后再次调整分辨率至原输入大小，作为帧分组中前一帧的光流运动特征信息；
[0133]
步骤2，训练双流记忆增强网络模型：
[0134]
1)构建双流记忆增强网络模型；
[0135]“anomaly detection in video sequence with appearance
‑
motion correspondence”在异常行为检测任务上取得了较好的效果，这里借鉴该篇论文里面的网络结构作为主干网络，此双流网络使用公有的编码器对样本进行特征提取，并在解码阶段分别重构样本外观与动作特征，本发明移除了判别器模块，并在网络的深度上进行了加深。此外，“memorizing normality to detect anomaly:memory
‑
augmented deep autoencoder for unsupervised anomaly detection”中的记忆网络模块在增加不同样本分类间距上效果明显，也取得了不错的检测效果，因此本发明也将其中的记忆网络模块加入了模型，从而构建了双流记忆增强网络模型。
[0136]
2)组织输入网络模型的数据；
[0137]
输入网络的数据分为两个部分，一个部分是训练样本视频帧，另一个部分是训练样本视频帧的光流运动信息特征，该特征作为监督信息在模型训练阶段约束网络的光流特征预测输出。
[0138]
3)利用双流记忆增强卷积神经网络模型生成重构的训练样本视频帧及预测的训练样本视频帧的光流运动信息特征，同时获取的还有编码特征与重新整合的编码特征及编码特征与记忆网络的相似度权值矩阵。
[0139]
模型的公共编码器模块输出编码特征，记忆网络模块输出重新整合的编码特征，同时包括重新整合过程中用到的相似度权重参数矩阵，外观与运动解码器模块分别输出的重构的训练样本视频帧及训练样本视频帧的光流运动信息特征。
[0140]
4)特征重新整合损失介绍；
[0141]
经过实验发现，随着训练样本视频帧重构质量的提升，检测效果呈现先升后降的趋势，分析可能的原因是正常行为与异常行为样本拥有着相似的性状，在对某类样本的重构逐渐到达一个极限值时，也会使得另一类样本重构质量的提升。为此提出了基于margin的特征重新整合损失，允许重新整合的编码特征与编码特征存在一定程度上的差异，具体形式定义为：
[0142][0143]
5)其他损失函数；
[0144]
外观特征重构损失函数和运动特征重构损失函数分别使用l2、l1损失，还包括特征
空间稀疏权重损失函数。
[0145]
6)根据所提的损失函数对网络参数进行迭代优化；
[0146]
使用adam优化器迭代50次，其中β1＝0.9，β2＝0.999。
[0147]
7)当达到预定的迭代次数后，用双流记忆增强网络实现训练样本视频帧的重构及训练样本视频帧的光流信息特征的预测。
[0148]
步骤3：对待测样本视频帧的光流运动信息特征进行提取：
[0149]
1)将待测样本视频帧的集合进行分组，分组方式为将相邻两帧进行组合，假定单个视频v中含有t帧，分组标准被定义为：
[0150]
pair
i
＝(v
i
，v
i 1
)，i＝1，2，...，t
‑
1.
[0151]
式中：pair
i
为光流特征提取输入对，从而得到视频帧的分组；
[0152]
2)将步骤1)中获得的帧分组中的每个视频帧调整分辨率至(1920，1080)，之后送入光流特征提取网络flownet2，抽取对应的光流运动信息后再次调整分辨率至原输入大小，作为帧分组中前一帧的光流运动特征信息；
[0153]
步骤4，实现待测样本视频帧的异常行为的检测与定位：
[0154]
1)将待测样本视频帧送入训练好的双流记忆增强网络，并获得重构的待测样本视频帧与预测的待测样本视频帧的光流运动信息特征；
[0155]
2)根据步骤1)中获取的待测样本视频帧的光流运动信息特征与预测的待测样本视频帧的光流运动信息特征，与待测样本视频帧与重构的待测样本视频帧进行像素级的相似度计算，获得各自的像素级误差图；
[0156]
像素级相似度计算方式与相对应损失函数的计算方法保持一致；
[0157]
3)使用基于分块的步长卷积方案对各误差图进行卷积并获得各分块的平均误差分数，同时保存各分块的空间位置坐标；
[0158]
使用基于分块的步长卷积方案，能够将误差图分块，从而获得各分块的误差分数，由于卷积核参数不参与训练，参数均为1，因而可以获得分块内所有像素点的平均分数。
[0159]
4)将两个分支同一个空间位置的分块进行加权合并；
[0160]
5)取最大响应分块作为待测样本视频帧的异常分数，同时在确定该帧属于异常帧后，将所有分块得分逆序排序，手动设定定位阈值获得该帧的异常定位图。
[0161]
首先选择响应最大的分块的误差得分作为该视频帧的异常分数，由于异常行为通常只发生在目标场景的局部区域，因此选用局部区域最高得分作为视频帧的异常分数是很合理的。如果一个视频帧内最高得分误差仍不满足异常样本的分类得分，则该视频帧将被分类为正常，反之就是异常。
[0162]
在确定某帧属于异常帧后，将该帧内所有分块得分进行排序，将超出得分阈值的分块所有像素值设置为1，其他分块均设置为0，就可以获得归一化的异常行为定位图，图中，像素值为1的部分组成了候选异常区域，其他为0的区域为正常区域。
[0163]
综上，本发明的方法针对现实监控场景下的视频，引入双流记忆增强网络作为异常检测的主干网络；首先对监控下的视频提取光流运动特征信息；分别通过计算模型重构输出的视频帧与原始视频帧、预测光流运动信息特征与提取的光流运动信息特征、编码特征与重新整合的编码特征之间的差异；最后利用该损失函数与其他损失函数联合优化网络参数，实现对于训练样本的高质量重构。该方法与现有方法进行定性和定量的对比实验分
析，在ucsd ped2、cuhk avenue和shanghaitech三个公开数据集上验证该方法的有效性。
[0164]
表1为本发明的定量实验结果，分别对比了在ucsd ped2、cuhk avenue和shanghaitech数据集下该方法的实验结果。
[0165]
表1.在三个数据集下该方法的实验结果
[0166][0167]
对比的性能标准为auc，是衡量二分类问题最常用的指标，数值越大代表检测性能越好。此外，fps用来衡量算法运行的效率，即每秒钟算法能够处理的视频帧的数目。可以看到，在前两个数据集中，本发明的方法性能达到了最高，在第三个数据集中，由于数据集本身的复杂性，性能也达到了第一梯队。不仅如此，本发明方法的运行效率是已知最高的。因此，从定量结果上看，本发明基于双流记忆增强网络的异常行为检测方法能够达到更高的效率和质量。
[0168]
请参阅图5至图7，图5、图6、图7分别为本发明的定性的实验结果：
[0169]
(1)图5为在ucsd ped2数据集下本发明对于异常行为检测与定位的结果，其中，图5(a)为异常检测的结果，可以看到当异常行为汽车出现在场景中时，帧级得分迅速下降，与正常行为形成鲜明的对比；图5(b)为异常行为定位的结果，其中，绿色区域为真实的异常区域，红色区域为本发明定位的异常区域，黄色区域为重叠部分，可以看到，本发明的方法能够很好的定位异常行为。
[0170]
(2)图6为在cuhk avenue数据集下本发明对于异常行为检测与定位的结果，其中，图6(a)为异常检测的结果，可以看到当异常行为扔书包的人出现在场景中时，帧级得分迅速下降，与正常行为形成鲜明的对比；图6(b)为异常行为定位的结果，其中，绿色区域为真实的异常区域，红色区域为本发明定位的异常区域，黄色区域为重叠部分，可以看到，本发明的方法能够很好的定位异常行为。
[0171]
(3)图7为在shanghaitech数据集下本发明对于异常行为检测与定位的结果，其中，图7(a)为异常检测的结果，可以看到当异常行为汽车出现在场景中时，帧级得分迅速下降，与正常行为形成鲜明的对比；图7(b)为异常行为定位的结果，其中，绿色区域为真实的异常区域，红色区域为本发明定位的异常区域，黄色区域为重叠部分，可以看到，本发明的
方法能够很好的定位异常行为。因此，从定性结果上看，本发明的基于双流记忆增强网络的异常行为检测与定位方法可以高效率、高质量的对异常行为进行检测和定位。
[0172]
综上所述，本发明公开了一种基于双流记忆增强网络的异常行为检测与定位方法、系统及电子设备，属于计算机视觉领域，本发明针对现实监控场景下对于异常行为的检测与定位；所述方法包括以下步骤：步骤1，抽取视频的运动信息特征；步骤2，将原始视频帧送入预构建的双流记忆增强网络模型中，获得模型重构的视频帧和光流信息特征图；步骤3，基于步骤2获得的编码特征与重建特征、重构视频帧与模型输入视频帧及重构光流运动特征与步骤1中提取的光流运动信息特征分别构建损失函数，对构建的双流记忆增强网络模型进行迭代优化；达到一定的迭代次数后，获得优化后的双流记忆增强网络结构的卷积神经网络，用于实现对目标视频帧及对应光流信息特征的重构；步骤4，测试阶段，通过测试视频帧与重构视频帧以及测试视频帧运动信息与重构运动信息分别计算对应的误差图；在各自的误差图上进行基于分块的步长卷积操作，获得各分块的平均误差分数；对各分块误差分数进行合并并排序，选择最高响应分块作为检测异常的标准；选择异常帧中超过阈值的响应分块作为异常行为的定位候选区域，低于阈值的分块响应分数置0，获得异常行为的定位图。本发明引入卷积神经网络作为监控视频重构的主干网络；通过计算重构视频帧与原始帧的差异，进而使用重建损失、特征空间权重稀疏损失、外观及运动特征重构损失驱动网络训练，实现高质量的视频帧的重构；本发明能够实现对于异常行为的高效率检测和定位。
[0173]
本领域内的技术人员应明白，本技术的实施例可提供为方法、系统、或计算机程序产品。因此，本技术可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本技术可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd
‑
rom、光学存储器等)上实施的计算机程序产品的形式。
[0174]
本技术是参照根据本技术实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
[0175]
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
[0176]
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
[0177]
以上实施例仅用以说明本发明的技术方案而非对其限制，尽管参照上述实施例对本发明进行了详细的说明，所属领域的普通技术人员依然可以对本发明的具体实施方式进
行修改或者等同替换，这些未脱离本发明精神和范围的任何修改或者等同替换，均在申请待批的本发明的权利要求保护范围之内。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：基于对偶关系网络的时序动作定位方法、系统、设备及介质与流程

异常行为检测与定位方法、系统、终端设备及可读存储介质与流程

相关文献

最热文献