一种基于神经网络的音视频联合行人意外跌倒监控方法与流程

2022-02-19 09:48:23 来源：中国专利 TAG：

1.本发明涉及计算机视觉技术领域，尤其涉及一种基于神经网络的音视频联合行人意外跌倒监控方法。

背景技术：

2.老年人的健康受到广泛关注。由于生理功能的退化、心理状态的改变和社会功能的弱化，老年人日常生活中极易出现跌倒险情。2015年中国死因调查结果显示，65岁以上老年人伤害致死原因中跌倒占比最大，跌倒是导致老年人残疾和死亡的重要祸首。
3.目前跌倒识别主要研究都集中在室内环境中的跌倒识别，而对室外环境下跌倒识别的研究却仍然开展的不多。在中国，老年人在户外跌倒发生意外因无人及时发现送医而受伤甚至身亡的事件并不少见，为了保障老年人的生命安全，通过技术手段及时检测到公共环境中老年人是否发生摔倒险情并做出反应是十分有必要的。
4.至2020年，我国对重点公共区域的监控覆盖率已达到100％。在此大背景下，如果能利用现有的公共安全摄像头资源，结合老年人健康问题设计一种结构复杂度相对不高的跌倒行人识别系统，该过程积累的技术经验势必为将来进一步的基于监控的公共安全行为分析提供助力。因此，使用计算机视觉技术方法来利用公共音视频监控数据进行行人的跌倒意外实时监控是非常有必要的。

技术实现要素：

5.为解决上述技术问题，本发明提出了一种基于神经网络的音视频联合行人意外跌倒监控方法。
6.本发明解决上述技术问题的技术方案如下：
7.一种基于神经网络的音视频联合行人意外跌倒监控方法，包括以下步骤：
8.步骤s1.构建训练集和测试集；
9.步骤s2.构建视频分类器，输出视频分类结果；
10.步骤s21.构建行人目标检测模型；
11.将mobilenet特征提取网络作为faster
‑
rcnn的基础特征提取网络，同时在faster
‑
rcnn中添加fpn网络模块，训练后，输出行人目标检测模型；
12.步骤s22.使用帧重组方法，对行人目标检测模型输出的行人目标数据进行时序上的分类重组，获取重组视频帧数据；
13.步骤s23.构建动作识别分类网络模型，训练后，得到视频分类器，输出视频分类结果；
14.在c3d网络上并行添加小尺度的动作识别支路，构建双路c3d跌倒动作识别网络模型；训练后，得到视频分类器，输出分类结果；
15.步骤s3.构建呼救声音分类网络模型，作为音频分类器，输出音频分类结果；
16.以bigru作为声音分类网络搭建基础，使用三层卷积神经网络作为特征提取模块，
构建呼救声音分类网络模型；训练后，得到音频分类器，输出分类结果；
17.步骤s4.利用d
‑
s证据理论对视频、音频分类结果进行联合判决；
18.步骤s5.判决结果综合输出。
19.进一步地，所述步骤s1包括以下步骤：
20.步骤s11.收集公共环境行人声音和视频样本，得到初始样本数据集；
21.步骤s12.对初始样本数据集进行数据扩充，得到样本数据集；
22.步骤s13.将得到的样本数据集划分为训练集和测试集。
23.更进一步地，所述步骤s13包括以下步骤：
24.步骤s131.构建行人目标检测训练集和测试集，视频样本数据集进行剪裁，人工标注，将标注后的数据作为行人目标检测模型的训练及测试样本数据集；
25.步骤s132.呼救声音训练集和测试集，将采集的公共环境声音数据进行时间长度上的标准化裁剪；将裁减后数据作为呼救声音分类网络模型的训练与测试数据集。
26.进一步地，所述步骤s21包括如下步骤：
27.步骤s211.搭建mobilenet特征提取网络，所述mobilenet特征提取网络包括12个深度级可分类卷积层；
28.步骤s212.搭建faster
‑
rcnn网络预测模型，所述faster
‑
rcnn网络预测模型包括区域建议模块和池化模块，用以输出目标类别预测和位置边界预测，并设置每层参数；
29.步骤s213.搭建一个5层fpn网络，用以对mobilenet特征提取网络各层提取的不同尺度特征进行整合输出，并将输出连接至faster
‑
rcnn的区域生成网络，得到基于fpn的faster
‑
rcnn网络预测模型；
30.步骤s214.将基于fpn的faster
‑
rcnn网络预测模型进行参数初始化，并依据各模块之间的通道连接关系进行输入输出维度间的匹配，得到改进后的faster
‑
rcnn网络预测模型；
31.步骤s215.训练改进后的faster
‑
rcnn网络预测模型，保持输入端的底层网络参数不变，调整输出端顶层全连接层与softmax层，在行人目标检测训练集和测试集上进行增强训练，得到行人检测网络模型；
32.步骤s216.将待测的视频数据输入到行人检测网络模型，输出行人目标检测结果。
33.进一步地，步骤s22包括如下步骤：
34.步骤s221.将一个随机行人看作是一个正方形，为左上顶点的坐标，为左下顶点的坐标，将其绝对坐标位置表示为据此计算出行人目标的中心点坐标；
35.步骤s222.根据行人中心绝对坐标计算出相邻两帧间的行人最小坐标距离；
36.步骤s223.根据坐标距离进行相邻帧间行人帧的目标重组与排列。
37.进一步地，步骤s23包括如下步骤：
38.步骤s231.数据预处理，
39.添加数据预处理层，用于对输入的图片进行尺寸筛选和归一化处理，并对不规则尺寸的输入图像进行调整；
40.步骤s232.构建双路c3d网络，
41.在c3d网络大图像支路的基础上并行添加一路小尺度的动作识别支路；两路网络均使用全卷积神经网络模块连接，大图像支路由五层卷积构成，小尺度动作识别支路由四层卷积构成，两路网络通道数相同；
42.步骤s233.训练双路c3d动作识别网络模型；
43.使用公共视频动作数据集，对两路c3d动作识别网络分别进行预训练获得两组初始化网络权重，使用重组视频帧数据进行二次训练进行二次训练，得到双路c3d动作识别网络模型，作为视频分类器；
44.步骤s234.将待测的视频数据输入到视频分类器，得到视频分类结果。
45.进一步地，步骤s3包括如下步骤：
46.步骤s31.使用mfcc方法提取声音浅层特征；
47.步骤s32.声音隐藏特征提取，
48.构建一个三层卷积神经网络作为特征提取模块，用以进行声音数据的隐藏特征提取；
49.步骤s33.深层特征提取，
50.步骤s331.使用bigru网络进行两次堆叠构建一个两层声音信息前后语义特征提取模块进行深层特征提取，输出提取的深层特征；
51.步骤s332.将所述提取的深层特征通过两层全连接层网络连接至softmax分类器进行声音数据分类识别；
52.步骤s34.训练bigru呼救声音分类网络模型，作为音频分类器；
53.步骤s341.进行呼救声音分类网络预训练，以获得初始化网络权重模型；
54.步骤s342.使用呼救声音训练集和测试集对呼救声音分类网络进行二次增强训练，保持网络卷积层参数不变，调整全连接层和softmax层参数，将softmax层修改为二分类分类器，获取呼救声音分类网络模型，作为音频分类器；
55.步骤s345.将待测的音频数据输入到音频分类器，得到音频分类结果。
56.进一步地，所述步骤s4包括如下步骤：
57.步骤s41.获取视频分类器和音频分类器的预测输出结果，同时获取视频预测最大值和音频预测最大值；
58.步骤s42.将视频分类器和音频分类器的预测输出结果分别结合基本置信函数，获取视频d
‑
s证据融合结果和音频d
‑
s证据融合结果；
59.步骤s43.视频d
‑
s证据融合结果结合视频预测最大值，获取视频融合置信函数；音频d
‑
s证据融合结果结合音频预测最大值，获取音频融合置信函数；
60.步骤s44.视频最大预制值结合视频融合置信函数，获得视频初步预判结果；
61.音频最大预制值结合音频融合置信函数，获得音频初步预判结果；
62.步骤s45.对音频初步预判结果和视频初步预判结果进行加权融合，获取最终判决结果，加权计算公式如下：
[0063][0064]
其中，p
v
表示视频分类器预测的报警概率，p
a
表示声音分类器预测的报警概率。
[0065]
与现有技术相比，本发明的有益效果是：
[0066]
(1)针对原始faster
‑
rcnn网络计算速度难以满足实时性要求和小目标识别效果较差的问题，将faster
‑
rcnn基础特征提取网络更换为mobilenet，mobilenet特征提取网络相对深度残差网络计算量小，利用mobilenet特征提取网络结构对faster
‑
rcnn网络结构进行了针对性的轻量化改进，因而网络模型测试时的运算速度也得到了极大的提升；然后又在此基础上添加了多尺度特征融合的fpn特征金字塔网络，增加的fpn特征金字塔网络用以增强对不同尺度目标的检测精度，将高层特征图的语义信息与低层特征图的细节信息相融合，大大提高了检测精度；构建的行人目标检测模型，保证精度要求的同时降低网络的计算量，满足多视频实时分类的测试要求，提高了网络的目标检测精度，同时大大缩短了网络的计算时间；
[0067]
(2)在动作识别过程中，针对多目标动作识别过程中不同维度数据同一网络识别所造成的资源浪费和计算速度较慢的问题，在原有c3d动作识别网络基础上提出了基于改进的双路c3d动作识别网络，搭建了专注于小图像识别的压缩c3d网络支路，节省了计算资源的同时，提高了多目标识别时的计算效率；
[0068]
(3)针对监控盲区问题和视频动作识别由于遮挡等原因导致的识别稳定性问题，提出了一种基于bigru的意外声音快速识别网络作为视频识别网络的补充以缓解视频动作识别网络应用的局限性；该模块首先对声音信号进行mfcc声音特征提取，然后将提取后特征利用卷积神经网络获取隐藏特征，最后对具有时序性的特征利用bigru双向循环门控单元网络进行意外呼救声音识别。
附图说明
[0069]
图1为本发明的方法流程图；
[0070]
图2为构建视频分类器方法流程图；
[0071]
图3为帧重组方法进行数据重构实现方法流程图；
[0072]
图4为训练bigru呼救声音分类网络模型步骤流程图；
[0073]
图5为mfcc步骤流程图。
具体实施方式
[0074]
以下结合附图对本发明的原理和特征进行描述，所举实例只用于解释本发明，并非用于限定本发明的范围。
[0075]
本发明提供了一种基于神经网络的音视频联合行人意外跌倒监控方法，为使本发明能够更明显易懂，下面结合附图和具体实施例对本发明进一步详细的说明。
[0076]
下面对本公开实施例中所涉概念进行介绍，faster rcnn是在r
‑
cnn和fast rcnn的基础上的改进，faster rcnn框架主要包含基础特征提取网络、区域建议网络和fast rcnn这三个部分，其中区域建议网络和fast rcnn共享卷积特征提取网络，可以大大减少计算时间。faster rcnn算法是先使用rpn(region proposal network，区域生成网络)生成候选区域，再对该区域进行分类与回归位置，是一种基于分类思想的目标检测算法，这样的算法往往存在样本不平衡的问题，会导致检测模型降低训练效率和检测精度。
[0077]
mobilenet是通过使用深度可分离的卷积来构建轻量级的深度神经网络，mobilenet基本单元是深度级可分离卷积(depthwise separable convolution)，
mobilenet网络拥有更小的体积，更少的计算量，更高的精度，在轻量级神经网络中拥有极大的优势。
[0078]
fpn(feature pyramid networks，特征金字塔网络)是一个特征金字塔，具有很好的泛化能力。
[0079]
c3d(3
‑
dimensional convolution)网络作为一种深度学习行为识别算法，c3d网络可以用来提取视频的空间时间特征。
[0080]
图1为本发明一种基于神经网络的音视频联合行人意外跌倒监控方法的流程图，本发明的一种基于神经网络的音视频联合行人意外跌倒监控方法，包括以下步骤：
[0081]
步骤s1.构建训练集和测试集；
[0082]
具体实施例中，包括以下步骤：
[0083]
步骤s11.收集公共环境行人声音和视频样本，得到初始样本数据集；
[0084]
步骤s12.使用剪切、旋转、缩放等图像预处理方法，对初始样本数据集进行数据扩充，得到样本数据集；
[0085]
步骤s13.将得到的样本数据集划分为训练集和测试集；
[0086]
在具体实施例中，步骤s13具体包括以下步骤：
[0087]
步骤s131.输入公共环境行人声音和视频样本数据集；
[0088]
步骤s132.构建行人目标检测训练集和测试集，视频样本数据集进行剪裁，人工标注，将标注后的数据作为行人目标检测模型的训练及测试样本数据集；
[0089]
在具体实施例中，将采集的视频样本数据集按90帧长度进行分帧裁剪，并对裁剪后的视频帧序列数据进行整体标签标注，人工处理划分日常动作和意外动作两大类，其中又细分为行走、站立、坐、跌倒及其他共计五个子类，对其中的行人进行人工位置标注，将标注后的数据作为行人目标检测模型的训练及测试样本数据集；
[0090]
步骤s133.构建呼救声音训练集和测试集，将采集的公共环境声音数据进行时间长度上的裁剪，并将公共环境行人声音数据集划分为遇险呼救声和背景声两类；将裁减后数据作为呼救声音分类网络模型的训练与测试数据集。
[0091]
步骤s2.参照图2，构建视频分类器，输出视频分类结果；
[0092]
步骤s21.构建行人目标检测模型，将mobilenet特征提取网络作为faster
‑
rcnn的基础特征提取网络，同时在faster
‑
rcnn中添加fpn网络模块，用以增强对不同尺度目标的检测精度，输出行人目标检测模型；
[0093]
具体实施例中，包括以下步骤：
[0094]
步骤s211.搭建mobilenet特征提取网络，所述mobilenet特征提取网络包括12个深度级可分类卷积层，并设置每层参数，具体网络模型配置如表1所示，表一为mobilenet特征提取网络结构配置表；网络共包含6大卷积层，所有卷积层均为深度级可分离网络，每个大层内的卷积通道数一致，所有卷积层均使用relu(线性修正单元)进行非线性激活；
[0095]
表1 mobilenet特征提取网络结构配置表
objects in context)数据集进行预训练，训练之后获得初始化网络模型，然后保持输入端的底层网络参数不变，调整输出端顶层全连接层与softmax层；在行人目标检测训练集和测试集上进行增强训练；设置学习率为0.005，对1500张图片按2：1随机划分训练集进行100epoch的训练，训练时交并比阈值设置为0.75以获取行人检测网络模型；
[0104]
步骤s216.将待测的视频数据输入到行人检测网络模型，输出行人目标检测结果。
[0105]
步骤s22.使用帧重组方法对行人目标检测模型输出的行人目标进行时序上的分类重组，获取重组后的重组视频帧数据；具体步骤为：
[0106]
步骤s221.将一个随机行人看作是一个正方形，为左上顶点的坐标，为左下顶点的坐标，将其绝对坐标位置表示为据此计算出行人目标的中心点坐标；
[0107]
步骤s222.根据行人中心绝对坐标计算出相邻两帧间的行人最小坐标距离；
[0108]
步骤s223.根据坐标距离进行相邻帧间行人帧的目标重组与排列。
[0109]
具体实施例中，帧间行人目标重组分割子帧流按照最小坐标距离进行相邻帧内同一目标组合；相邻帧内距离最小的两个中心点所代表的行人目标是为在此两帧中的同一行人目标，化为一个子帧流内，时间维度排列与帧流输入顺序相同；
[0110]
步骤s224.获取重组后的重组视频帧数据。
[0111]
步骤s23.构建动作识别分类网络模型，作为视频分类器，输出视频分类结果；
[0112]
参见图3，在c3d网络上并行添加小尺度的动作识别支路，构建双路c3d跌倒动作识别网络模型；训练后，得到视频分类器，输出分类结果；
[0113]
步骤s231.数据预处理，
[0114]
添加数据预处理层，用于对输入的图片进行尺寸筛选和归一化处理，并对不规则尺寸的输入图像进行调整；对于输入维度超过阈值尺寸的图片进行缩放处理，对于输入维度小于阈值尺寸的图片使用黑色背景填充以满足输入要求；
[0115]
步骤s232.构建双路c3d网络，
[0116]
在c3d网络大图像支路的基础上并行添加一路小尺度动作识别支路；两路网络均使用全卷积神经网络模块连接，大图像支路由五层卷积构成，小尺度动作识别支路由四层卷积构成，两路网络通道数相同，网络具体结构见图3，图3为帧重组方法进行数据重构实现方法流程图；
[0117]
步骤s233.训练双路c3d动作识别网络模型，作为视频分类器；
[0118]
具体实施例中，使用ucf101公共视频动作数据集来对两路c3d动作识别网络分别进行预训练获得两组初始化网络权重，使用重组视频帧数据对网络二次训练，数据训练集与测试集比例划分为7：3，初始学习率为0.01，50epoch后学习率修改为0.001，总训练次数为80epoch，遗忘参数为0.1，得到双路c3d动作识别网络模型，作为视频分类器；
[0119]
步骤s234.将待测的视频数据输入到视频分类器，得到视频分类结果。
[0120]
步骤s3.构建呼救声音分类网络模型，作为音频分类器，输出音频分类结果；
[0121]
以bigru作为声音分类网络搭建基础，使用三层卷积神经网络作为特征提取模块，构建呼救声音分类网络模型，训练后，得到音频分类器，输出分类结果；其中，三层卷积神经网络包括输入层、卷积层，relu层、池化(pooling)层和全连接层；
[0122]
步骤s31.使用mfcc(mel
‑
frequency cepstral coefficients，梅尔倒谱系数)方法提取声音浅层特征，mfcc方法的具体步骤如图5所示；对于音频输入数据进行预加重、分帧、加窗、fft快速傅里叶变换、mel梅尔滤波、取对数、dct离散余弦变换，输出动态特征向量；
[0123]
步骤s32.声音隐藏特征提取，
[0124]
构建一个三层卷积神经网络作为特征提取模块，用以进行声音数据的隐藏特征提取；
[0125]
步骤s33.深层特征提取，该部分参数设置如表2所示；
[0126]
步骤s331.使用bigru(bidirectional gating recurrent uni，双向门控制循单元)网络进行两次堆叠构建一个两层声音信息前后语义特征提取模块进行深层特征提取，输出提取的深层特征；
[0127]
步骤s332.将所述提取的深层特征通过两层全连接层网络连接至softmax分类器进行声音数据分类识别；
[0128]
步骤s34.训练bigru呼救声音分类网络模型，作为音频分类器；
[0129]
步骤s341.使用esc
‑
50数据集，选用adam分类器，进行呼救声音分类网络预训练以获得初始化网络权重模型；设置训练200epoch，学习率为0.01，dropout遗忘参数设置为0.1；所述esc
‑
50数据集带有标签的2000个环境记录集；
[0130]
步骤s342.使用呼救声音训练集和测试集对呼救声音分类网络进行二次增强训练，保持网络卷积层参数不变，调整全连接层和softmax层参数，将softmax层修改为二分类分类器，训练数据集按3：1进行划分，学习率设置为0.01，学习20epoch后下降为0.005，50epoch后下降为0.001，遗忘参数为0.1，总计训练100epoch以获取较高精度的呼救声音分类网络模型，获取呼救声音分类网络模型；
[0131]
表2 c3d网络模型各层参数设置表
[0132][0133]
[0134]
步骤s35.将待测的音频数据输入到音频分类器，得到音频分类结果。
[0135]
步骤s4.利用d
‑
s证据理论对视频、音频分类结果进行联合判决，参见图4；
[0136]
步骤s41.获取视频分类器和音频分类器的预测输出结果，同时获取视频预测最大值和音频预测最大值；
[0137]
步骤s42.将视频分类器和音频分类器的预测输出结果分别结合基本置信函数，获取视频d
‑
s证据融合结果和音频d
‑
s证据融合结果；
[0138]
步骤s43.视频d
‑
s证据融合结果结合视频预测最大值，获取视频融合置信函数；音频d
‑
s证据融合结果结合音频预测最大值，获取音频融合置信函数；
[0139]
步骤s44.视频最大预制值结合视频融合置信函数，获得视频初步预判结果；
[0140]
音频最大预制值结合音频融合置信函数，获得音频初步预判结果；
[0141]
步骤s45.对音频初步预判结果和视频初步预判结果进行加权融合，获取最终判决结果，加权计算公式如下：
[0142][0143]
其中，p
v
表示视频分类器预测的报警概率，p
a
表示音频分类器预测的报警概率。
[0144]
在具体实施例中，单路视频融合的最大预测概率上限设置为1，最终预测结果大于0.6则上报；考虑到单音频分类器最大预警概率情况，所以在此判决规则基础上加设一个音频0.9阈值越级报警判断条件，当预测概率大于0.9时直接进行报警。
[0145]
步骤s5.判决结果综合输出。
[0146]
对实施例中一些数据集进行说明，其中，voc数据集是目标检测经常用的一个数据集，coco是微软团队提供的一个可以用来进行图像识别的数据集；ucf101是从youtube收集的具有101个操作类别的逼真动作视频的动作识别数据集，具有50个操作类别；esc
‑
50是带有标签的2000个环境记录集。
[0147]
本发明，在行人目标检测过程中，针对原始faster
‑
rcnn网络计算速度难以满足实时性要求和小目标识别效果较差的问题，将faster
‑
rcnn基础特征提取网络更换为mobilenet，mobilenet通过使用深度可分离的卷积来构建轻量级的深度神经网络，mobilenet特征提取网络相对深度残差网络计算量小，利用mobilenet特征提取网络结构对faster
‑
rcnn网络结构进行了针对性的轻量化改进，因而网络模型测试时的运算速度也得到了极大的提升；然后又在此基础上添加的多尺度特征融合的fpn，fpn是一个特征金字塔，具有很好的泛化能力，增加的fpn特征金字塔网络用以增强对不同尺度目标的检测精度，将高层特征图的语义信息与低层特征图的细节信息相融合，大大提高了检测精度；构建的行人目标检测模型，保证精度要求的同时降低网络的计算量，满足多视频实时分类的测试要求，提高了网络的目标检测精度，同时大大缩短了网络的计算时间。
[0148]
在动作识别分类过程中，针对多目标动作识别过程中不同维度数据同一网络识别所造成的资源浪费和计算速度较慢的问题，使用3d卷积网络学习时空特征，在原有c3d动作识别网络基础上提出了基于改进的双路c3d动作识别网络，搭建了专注于小图像识别的压缩c3d网络支路，节省了计算资源的同时，提高了多目标识别时的计算效率。
[0149]
在呼救声音分类过程中，针对监控盲区问题和视频动作识别由于遮挡等原因导致的识别稳定性问题，首先对声音信号进行mfcc声音特征提取，然后将提取后特征利用卷积
神经网络获取隐藏特征，最后对具有时序性的特征利用bigru双向循环门控单元网络进行意外呼救声音识别。
[0150]
在判决结果时，使用d
‑
s证据融合、置信函数等联合判决方式降低漏检概率，同时使用权值调控的方法降低网络的误检概率。
[0151]
以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：基于KM算法的派单方法、装置、设备及介质与流程

一种基于神经网络的音视频联合行人意外跌倒监控方法与流程

相关文献

最热文献