异常事件处理方法和装置、电子设备及可读存储介质与流程

2023-02-10 17:59:27 来源：中国专利 TAG：

1.本发明涉及异常事件监测领域，尤其涉及一种异常事件处理方法和装置、电子设备及可读存储介质。

背景技术：

2.现有的异常事件监控预警方法为：采用背景建模的混合高斯算法提取前景目标，然后使用金字塔迭代的l-k特征点跟踪算法得到前景的光流运动信息，并通过分析前景的面积比例、速度方差、整体熵判断视频中是否有异常事件的发生。但是，该方法只对监控的视频画面信息进行了利用，完全抛弃了安防监控的声音信息，监测信息来源单一。由于光线传播的特性导致监控视频画面存在比较多的盲区，而且容易受到光线环境以及遮挡物的影响。诸如夜晚、雨天、雾天一类的场景会对视频监控采集到的信息造成极大的不良影响。这些因素都会直接导致异常监测质量的下降，影响预警效果。

技术实现要素：

3.本发明提供一种异常事件处理方法和装置、电子设备及可读存储介质，用以解决现有技术中存在的技术缺陷。
4.本发明提供一种异常事件处理方法，包括：
5.获取监控信息，所述监控信息包括声音信息和图像信息；
6.对所述声音信息进行预处理，将预处理后的声音信息转换为语谱图；对所述图像信息进行处理，得到相邻两帧图像的差；
7.将所述语谱图和相邻两帧图像的差分别输入至异常事件监控模型中，输出所述监控的信息中的事件分类结果；
8.其中，所述异常事件监控模型是基于语谱图样本和图像差分图样本以及预先确定的事件属性标签进行训练后得到。
9.根据本发明所述的异常事件处理方法，所述获取监控信息，包括：
10.获取视频信息，从所述视频信息中提取出声音信息和图像信息。
11.根据本发明所述的异常事件处理方法，所述获取监控信息，还包括：
12.获取音频信息，从所述音频信息中提取出声音信息。
13.根据本发明所述的异常事件处理方法，所述获取视频信息和音频信息，包括：
14.获取t-t1时刻到t时刻的视频信息和音频信息，其中t1表示获取信息时长，t表示当前时刻。
15.根据本发明所述的异常事件处理方法，所述对所述声音信息进行预处理，包括：
16.通过滤波、预加重、分帧、加窗对所述声音信息进行预处理。
17.根据本发明所述的异常事件处理方法，所述异常事件监控模型包括特征提取子模型以及分析子模型，所述将所述语谱图和相邻两帧图像的差分别输入至异常事件监控模型中，输出所述监控的信息中的事件分类结果，包括：
18.将所述语谱图和所述相邻两帧图像的差分别输入至所述特征提取子模型，得到语谱图特征、差特征相融合后的融合信息；
19.将所述融合信息输入至所述分析子模型中，输出所述监控的信息中的事件分类结果。
20.根据本发明所述的异常事件处理方法，所述异常事件监控模型采用以下损失函数进行训练：
[0021][0022]
其中，l是损失函数，为预先确定的事件属性标签，pc(d)为输出的事件分类结果，t为语谱图样本和图像差分图样本，d表示t中的一个样本，n为异常事件分类类别的总数，c表示从1至n的变量，c为正整数。
[0023]
本发明还提供了一种异常事件处理装置，包括：
[0024]
监控信息获取模块，用于获取监控信息，所述监控信息包括声音信息和图像信息；
[0025]
预处理模块，用于对所述声音信息进行预处理，将预处理后的声音信息转换为语谱图；对所述图像信息进行处理，得到相邻两帧图像的差；
[0026]
事件监控模块，用于将所述语谱图和相邻两帧图像的差分别输入至异常事件监控模型中，输出所述监控的信息中的事件分类结果；
[0027]
其中，所述异常事件监控模型是基于语谱图样本和图像差分图样本以及预先确定的事件属性标签进行训练后得到。
[0028]
本发明还提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述任一种所述异常事件处理方法的步骤。
[0029]
本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如上述任一种所述异常事件处理方法的步骤。
[0030]
本发明提供的异常事件处理方法和装置、电子设备及可读存储介质，通过将所述语谱图和相邻两帧图像的差分别输入至异常事件监控模型中，输出所述监控的信息中的事件分类结果，实现了视频监控中图像信息与声音信息的融合，通过深度学习模型对视频监控的图像信息和声音信息进行了提取和分析，实现了对异常事件的监测，可以与现有的公共监控结合轻量化的用于城市安全预警，可以有效减少人力和物力的开销，同时也可以有效减少人工提取特征对异常事件判别的影响。
附图说明
[0031]
为了更清楚地说明本发明或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。
[0032]
图1是本发明提供的异常事件处理方法的流程示意图；
[0033]
图2是本发明提供的异常事件处理装置的结构示意图；
[0034]
图3是本发明提供的电子设备的结构示意图。
具体实施方式
[0035]
为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明中的附图，对本发明中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。
[0036]
下面结合图1描述本发明的一种异常事件处理方法，该方法包括：
[0037]
s1、获取监控信息，所述监控信息包括声音信息和图像信息；
[0038]
图像信息可以采用视觉接收器采集，声音信息可以采用音频接收器采集，视觉接收器和音频接收器也可以是一体设置的摄像头等设备。
[0039]
s2、对所述声音信息进行预处理，将预处理后的声音信息转换为语谱图；对所述图像信息进行处理，得到相邻两帧图像的差；
[0040]
对所述声音信息进行预处理以及对所述图像信息进行处理可以采用gpu、cpu、硬盘等计算单元与存储单元这些信息处理模块。
[0041]
相邻两帧图像的差可以是每相邻两帧图像的差，也可以是间隔一帧两图像的差、或间隔两帧两图像的差、或间隔多帧两图像的差均可，可以根据实际应用场景进行设置。
[0042]
s3、将所述语谱图和相邻两帧图像的差分别输入至异常事件监控模型中，输出所述监控的信息中的事件分类结果；
[0043]
输出的监控的信息中的事件分类结果可以包括该监控的信息中不存在异常事件、监控的信息中的存在异常事件的分类类别等，也就是，一方面可以检测出监控的信息中的是否包含异常事件，另一方面可以当包含异常事件时，可以进一步检测出监控的信息中的存在异常事件的分类类别。其中，异常事件可以包括爆炸、玻璃破碎、尖叫等。
[0044]
其中，所述异常事件监控模型是基于语谱图样本和图像差分图样本以及预先确定的事件属性标签进行训练后得到。
[0045]
本发明通过将所述语谱图和相邻两帧图像的差分别输入至异常事件监控模型中，输出所述监控的信息中的事件分类结果，实现了视频监控中图像信息与声音信息的融合，通过深度学习模型对视频监控的图像信息和声音信息进行了提取和分析，实现了对异常事件的监测，可以与现有的公共监控结合轻量化的用于城市安全预警，可以有效减少人力和物力的开销，同时也可以有效减少人工提取特征对异常事件判别的影响。
[0046]
优选的，还可以包含信息发布及预警模块，信息发布及预警模块用于在监测到异常事件后进行事件的预警和发布。
[0047]
根据本发明所述的异常事件处理方法，所述获取监控信息，包括：
[0048]
获取视频信息，从所述视频信息中提取出声音信息和图像信息。提取的过程包含对视频进行抽帧等，通过视频信息可以同时获取声音信息和图像信息。
[0049]
根据本发明所述的异常事件处理方法，所述获取监控信息，还包括：
[0050]
获取音频信息，从所述音频信息中提取出声音信息。也可以独立获取音频信息，音频信息中包含声音信息。
[0051]
根据本发明所述的异常事件处理方法，所述获取视频信息和音频信息，包括：
[0052]
获取t-t1时刻到t时刻的视频信息和音频信息，其中t1表示获取信息时长，t表示当前时刻。获取一定时长的视频信息和音频信息，以监测该时长内的异常事件。
[0053]
根据本发明所述的异常事件处理方法，所述对所述声音信息进行预处理，包括：
[0054]
通过滤波、预加重、分帧、加窗对所述声音信息进行预处理。
[0055]
根据本发明所述的异常事件处理方法，所述异常事件监控模型包括特征提取子模型以及分析子模型，所述将所述语谱图和相邻两帧图像的差分别输入至异常事件监控模型中，输出所述监控的信息中的事件分类结果，包括：
[0056]
将所述语谱图和所述相邻两帧图像的差分别输入至所述特征提取子模型，得到语谱图特征、差特征相融合后的融合信息；
[0057]
将所述融合信息输入至所述分析子模型中，输出所述监控的信息中的事件分类结果。特征提取子模型以及分析子模型是协同训练的，也就是将特征提取子模型以及分析子模型作为一个总体的异常事件监控模型，利用语谱图样本和图像差分图样本以及预先确定的事件属性标签进行训练进行优化的。
[0058]
对于图像信息，本发明使用cnn，也就是卷积神经网络(convolutional neural networks，以下简称cnn)网络对相邻视频帧间的差分图进行特征提取；同时对音频信息，同样使用cnn网络对其对应的音频信息的语谱图进行特征提取。最后将两个网络的全连接层所得到的特征信息进行拼接，实现图像信息与声音信息的融合。
[0059]
cnn是最为成功的dnn特例之一。cnn广泛的应用于图像识别，当然现在也应用于nlp等其他领域。
[0060]
其中，特征提取子模型以及分析子模型可以是任何神经网络结构，包括但不限于vgg、resnet、googlenet等结构。
[0061]
根据本发明所述的异常事件处理方法，所述异常事件监控模型采用以下损失函数进行训练：
[0062][0063]
其中，l是损失函数，为预先确定的事件属性标签，pc(d)为输出的事件分类结果，t为语谱图样本和图像差分图样本，d表示t中的一个样本，n为异常事件分类类别的总数，c表示从1至n的变量，c为正整数。
[0064]
为了进一步说明本发明的异常事件处理，下面提供了一个具体实施例，该实施例包括一下步骤：
[0065]
s1-1，设定用于截取监控音视频时长t1，设当前时刻为t，可以得到t-t1时刻到t时刻视觉接收器和音频接收器获取的视频和音频信息。这t1秒的视频段和音频段分别送入进行图像预处理和声音预处理。
[0066]
视频信息(包含图像信息)可以采用视觉接收器采集，音频信息(包含声音信息)可以采用音频接收器采集，视觉接收器和音频接收器也可以是一体设置的摄像头等设备，s1-1中，也可以仅采集视频信息，因为视频信息中可以提取出图像信息和声音信息。
[0067]
s1-2，首先通过滤波、预加重、分帧、加窗对原始的声音信号进行处理，然后将预处理后的声音信号转换为语谱图；在图像预处理模块中，首先将视频段进行抽帧，然后计算相
邻两帧图像的差。
[0068]
相邻两帧图像的差可以是每相邻两帧图像的差，也可以是间隔一帧两图像的差、或间隔两帧两图像的差、或间隔多帧两图像的差均可，可以根据实际应用场景进行设置。
[0069]
s1-3，将s1-2中得到的语谱图和相邻两帧图像的差融合作为网络模型的输入，构建一个端到端的深度学习网络，分别利用两个深度网络取某时刻视频和音频的特征，然后将两个通道的特征相融合送入分析子模型，也就是lstm(long short-term memory)网络中，lstm是长短期记忆网络，是一种时间递归神经网络，适合于处理和预测时间序列中间隔和延迟相对较长的重要事件。其方法如下：
[0070]
对于图像信息，本发明使用cnn网络对相邻视频帧间的差分图进行特征提取；同时对音频信息，同样使用cnn网络对其对应的音频信息的语谱图进行特征提取。最后，将每个时刻的两类特征融合，送入lstm网络中，对时序信息进行建模，进而判断在该片段中是否存在异常事件，以及确定异常事件的分类类别。cnn网络是一个端到端的神经网络。
[0071]
lstm网络是基于两类特征融合的样本以及预先确定的事件属性标签进行训练后得到。
[0072]
lstm已经在科技领域有了多种应用。基于lstm的系统可以学习翻译语言、控制机器人、图像分析、文档摘要、语音识别图像识别、手写识别、控制聊天机器人、预测疾病、点击率和股票、合成音乐等等任务。lstm区别于rnn的地方，主要就在于它在算法中加入了一个判断信息有用与否的"处理器"，这个处理器作用的结构被称为cell。
[0073]
一个cell当中被放置了三扇门，分别叫做输入门、遗忘门和输出门。一个信息进入lstm的网络当中，可以根据规则来判断是否有用。只有符合算法认证的信息才会留下，不符的信息则通过遗忘门被遗忘。
[0074]
采用的是一进二出的工作原理，却可以在反复运算下解决神经网络中长期存在的大问题。目前已经证明，lstm是解决长序依赖问题的有效技术，并且这种技术的普适性非常高，导致带来的可能性变化非常多。
[0075]
参见图2，下面对本发明提供的异常事件处理装置进行描述，下文描述的异常事件处理装置与上文描述的异常事件处理方法可相互对应参照，所述异常事件处理装置包括：
[0076]
监控信息获取模块10，用于获取监控信息，所述监控信息包括声音信息和图像信息；
[0077]
图像信息可以采用视觉接收器采集，声音信息可以采用音频接收器采集，视觉接收器和音频接收器也可以是一体设置的摄像头等设备。
[0078]
预处理模块20，用于对所述声音信息进行预处理，将预处理后的声音信息转换为语谱图；对所述图像信息进行处理，得到相邻两帧图像的差；
[0079]
对所述声音信息进行预处理以及对所述图像信息进行处理可以采用gpu、cpu、硬盘等计算单元与存储单元这些信息处理模块。
[0080]
相邻两帧图像的差可以是每相邻两帧图像的差，也可以是间隔一帧两图像的差、或间隔两帧两图像的差、或间隔多帧两图像的差均可，可以根据实际应用场景进行设置。
[0081]
事件监控模块30，用于将所述语谱图和相邻两帧图像的差分别输入至异常事件监控模型中，输出所述监控的信息中的事件分类结果；
[0082]
输出的监控的信息中的事件分类结果可以包括该监控的信息中不存在异常事件、
监控的信息中的存在异常事件的分类类别等，也就是，一方面可以检测出监控的信息中的是否包含异常事件，另一方面可以当包含异常事件时，可以进一步检测出监控的信息中的存在异常事件的分类类别。其中，异常事件可以包括爆炸、玻璃破碎、尖叫等。
[0083]
其中，所述异常事件监控模型是基于语谱图样本和图像差分图样本以及预先确定的事件属性标签进行训练后得到。
[0084]
优选的，还可以包含信息发布及预警模块，信息发布及预警模块用于在监测到异常事件后进行事件的预警和发布。
[0085]
根据本发明所述的异常事件处理装置，所述获取监控信息，包括：
[0086]
获取视频信息，从所述视频信息中提取出声音信息和图像信息。提取的过程包含对视频进行抽帧等，通过视频信息可以同时获取声音信息和图像信息。
[0087]
根据本发明所述的异常事件处理装置，所述获取监控信息，还包括：
[0088]
获取音频信息，从所述音频信息中提取出声音信息。也可以独立获取音频信息，音频信息中包含声音信息。
[0089]
根据本发明所述的异常事件处理装置，所述获取视频信息和音频信息，包括：
[0090]
获取t-t1时刻到t时刻的视频信息和音频信息，其中t1表示获取信息时长，t表示当前时刻。获取一定时长的视频信息和音频信息，以监测该时长内的异常事件。
[0091]
根据本发明所述的异常事件处理装置，所述对所述声音信息进行预处理，包括：
[0092]
通过滤波、预加重、分帧、加窗对所述声音信息进行预处理。
[0093]
根据本发明所述的异常事件处理装置，所述异常事件监控模型包括特征提取子模型以及分析子模型，所述将所述语谱图和相邻两帧图像的差分别输入至异常事件监控模型中，输出所述监控的信息中的事件分类结果，包括：
[0094]
将所述语谱图和所述相邻两帧图像的差分别输入至所述特征提取子模型，得到语谱图特征、差特征相融合后的融合信息；
[0095]
将所述融合信息输入至所述分析子模型中，输出所述监控的信息中的事件分类结果。特征提取子模型以及分析子模型是协同训练的，也就是将特征提取子模型以及分析子模型作为一个总体的异常事件监控模型，利用语谱图样本和图像差分图样本以及预先确定的事件属性标签进行训练进行优化的。
[0096]
对于图像信息，本发明使用cnn网络对相邻视频帧间的差分图进行特征提取；同时对音频信息，同样使用cnn网络对其对应的音频信息的语谱图进行特征提取。最后将两个网络的全连接层所得到的特征信息进行拼接，实现图像信息与声音信息的融合。
[0097]
其中，特征提取子模型以及分析子模型可以是任何神经网络结构，包括但不限于vgg、resnet、googlenet等结构。
[0098]
根据本发明所述的异常事件处理装置，所述异常事件监控模型采用以下损失函数进行训练：
[0099][0100]
其中，l是损失函数，为预先确定的事件属性标签，pc(d)为输出的事件分类结果，t为语谱图样本和图像差分图样本，d表示t中的一个样本，n为异常事件分类类别的总
数，c表示从1至n的变量，c为正整数。
[0101]
本发明通过将所述语谱图和相邻两帧图像的差分别输入至异常事件监控模型中，输出所述监控的信息中的事件分类结果，实现了视频监控中图像信息与声音信息的融合，通过深度学习模型对视频监控的图像信息和声音信息进行了提取和分析，实现了对异常事件的监测，可以与现有的公共监控结合轻量化的用于城市安全预警，可以有效减少人力和物力的开销，同时也可以有效减少人工提取特征对异常事件判别的影响。
[0102]
图3示例了一种电子设备的实体结构示意图，该电子设备可以包括：处理器(processor)310、通信接口(communications interface)320、存储器(memory)330和通信总线340，其中，处理器310，通信接口320，存储器330通过通信总线340完成相互间的通信。处理器310可以调用存储器330中的逻辑指令，以执行异常事件处理方法，该方法包括：
[0103]
s1、获取监控信息，所述监控信息包括声音信息和图像信息；
[0104]
s2、对所述声音信息进行预处理，将预处理后的声音信息转换为语谱图；对所述图像信息进行处理，得到相邻两帧图像的差；
[0105]
s3、将所述语谱图和相邻两帧图像的差分别输入至异常事件监控模型中，输出所述监控的信息中的事件分类结果；
[0106]
其中，所述异常事件监控模型是基于语谱图样本和图像差分图样本以及预先确定的事件属性标签进行训练后得到。
[0107]
此外，上述的存储器330中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：u盘、移动硬盘、只读存储器(rom，read-only memory)、随机存取存储器(ram，random access memory)、磁碟或者光盘等各种可以存储程序代码的介质。
[0108]
另一方面，本发明还提供一种计算机程序产品，所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，计算机能够执行上述各方法所提供的异常事件处理方法，该方法包括：
[0109]
s1、获取监控信息，所述监控信息包括声音信息和图像信息；
[0110]
s2、对所述声音信息进行预处理，将预处理后的声音信息转换为语谱图；对所述图像信息进行处理，得到相邻两帧图像的差；
[0111]
s3、将所述语谱图和相邻两帧图像的差分别输入至异常事件监控模型中，输出所述监控的信息中的事件分类结果；
[0112]
其中，所述异常事件监控模型是基于语谱图样本和图像差分图样本以及预先确定的事件属性标签进行训练后得到。
[0113]
又一方面，本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各提供的异常事件处理方法，该方法包括：
[0114]
s1、获取监控信息，所述监控信息包括声音信息和图像信息；
[0115]
s2、对所述声音信息进行预处理，将预处理后的声音信息转换为语谱图；对所述图像信息进行处理，得到相邻两帧图像的差；
[0116]
s3、将所述语谱图和相邻两帧图像的差分别输入至异常事件监控模型中，输出所述监控的信息中的事件分类结果；
[0117]
其中，所述异常事件监控模型是基于语谱图样本和图像差分图样本以及预先确定的事件属性标签进行训练后得到。
[0118]
以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。
[0119]
通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如rom/ram、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
[0120]
最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

再多了解一些

1/2 1 2 下一页尾页

本文用于创业者技术爱好者查询，仅供学习研究，如用于商业用途，请联系技术所有人。

上一篇：返回列表
下一篇：认证方法、可读介质和电子设备与流程

异常事件处理方法和装置、电子设备及可读存储介质与流程

相关文献

最热文献