一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种基于深度学习的大型会场座席定位方法

2022-05-21 02:35:10 来源:中国专利 TAG:


1.本发明属于计算机视觉领域,具体涉及一种基于深度学习的大型会场座席定位方法。


背景技术:

2.科学的会场数据统计方法和智慧化的会场秩序维护方法是会议管理工业现代化必不可少的环节。大型会场是大型讲座、演艺演出活动及常规大型会议等多种活动举办的场所。对演艺演出活动来说,票房数据是收益统计的重要标准,是艺术活动是否成功的直观的表示;对讲座、演讲活动来说,真实的上座率、演出过程中的观众状态如离席次数等数据,是从更多维度评价观众体验的重要依据,为策划方对表演节奏的把控和场馆提供方提供更好的活动环境提供了重要参考;维护良好的会场秩序,是场馆提供方应尽的责任与义务,智慧化的会场秩序维护对活动版权保护、各类灾情预防等方面具有重要意义。
3.会场座椅定位是大型会场数据收集的重要环节,传统的基于专家系统的大型会场座椅定位高度依赖于人工预设,由于座椅数量庞大,手动输入信息十分耗时,且预设信息难以适应摄像机的机位变化,维护成本高。随着计算机视觉技术的不断发展,尤其是深度学习在目标检测领域的出色表现,已经实现了在智慧医疗及自动驾驶等多领域的广泛应用,基于深度卷积神经网络的座椅定位方法具有易于部署、便于迁移及定位精确等多重优势,然而,目标检测方法大多数不具有倾斜目标框定能力,且对大小、尺度等属性高度多样的会场座椅目标表现不佳,需要对目标检测方法进行改进。


技术实现要素:

4.为解决上述问题,提供一种大型会场座席视频管理中的座席精准定位方法,本发明采用了如下技术方案:
5.本发明提供了一种基于深度学习的大型会场座席定位方法,用于对大型会场视频流中不同尺度比例的座椅实现定位,其特征在于,包括以下步骤:步骤s1,获取待测会场的俯视角度的视频流;步骤s2,采用resnet50和fpn结合的网络作为backbone,连接至fam模块和odm模块以构建初始卷积神经网络;步骤s3,基于随机梯度下降法和最小化损失函数对初始卷积神经网络进行训练得到大型会场座席检测模型;步骤s4,采用大型会场座席检测模型对视频流中每隔设定帧的图像进行座席检测,并输出待测会场的所有座椅对应的定位检测结果。
6.本发明提供的一种基于深度学习的大型会场座席定位方法,还可以具有这样的技术特征,其中,步骤s3包括以下子步骤:步骤s3-1,获取大型会场俯视角度的实时视频流,从视频流中截取无人场景下的图像帧;步骤s3-2,采用打好标签的图像帧构建数据集,并将数据集分为训练集、验证集以及测试集;步骤s3-3,将训练集中的图像帧依次输入至初始卷积神经网络进行训练以对模型参数进行迭代;步骤s3-4,在每次迭代后,根据初始卷积神经网络最后一层的模型参数计算损失误差,利用损失误差反向传播,采用随机梯度下降算法进
行模型参数的优化;步骤s3-5,重复步骤s3-3至步骤s3-4直至各层的模型参数收敛后完成训练,得到大型会场座席检测模型。
7.本发明提供的一种基于深度学习的大型会场座席定位方法,还可以具有这样的技术特征,其中,resnet50包括4个残差模块,每个残差模块至少由卷积运算conv、线性整流函数relu和批归一化bn依次组成,fam模块包括arn子模块和acl子模块,arn子模块由两个卷积block堆叠而成的分类分支和回归分支组成,用于基于输入的特征生成高质量的可倾斜的锚点推荐,odm模块包括一组动态旋转卷积层和两个预测分支,动态旋转卷积层提取得到具有角度不变性的特征,两个预测分支分别为分类分支以及回归分支。
8.本发明提供的一种基于深度学习的大型会场座席定位方法,还可以具有这样的技术特征,其中,最小化损失函数为fam模块的损失函数与odm模块的损失函数之和,公式如下:
[0009][0010]
式中,i为锚点索引,nf和no分别为fam模块和odm模块中的正例数量,c
if
和x
if
分别为fam模块关于锚点的预测类别和位置,c
io
和x
io
分别为odm模块关于锚点的预测类别和位置,l
i*
和g
i*
分别为锚点相关联的真实边框的类别和位置,lc和lr分别为focal loss和smooth l1 loss表示的类别损失函数和位置损失函数。
[0011]
本发明提供的一种基于深度学习的大型会场座席定位方法,还可以具有这样的技术特征,其中,定位检测结果包括分类结果与回归结果,分类结果表示该区域被分类为座椅的概率得分,回归结果为座椅区域的维数信息,该维数分别表示座椅区域的中心点横坐标、中心点纵坐标、区域宽度、区域高度及区域倾斜角度。
[0012]
发明作用与效果
[0013]
大型会场高清摄像机机位多变,俯视角大目标密度大,目标尺寸小,且角度和比例具有较大的多样性。根据本发明的一种基于深度学习的大型会场座席定位方法,采用了有别于传统的目标检测策略,基于resnet50网络和fpn结合的backbone构建了大型会场座席检测模型,实现了检测目标的尺度无关性。由于该检测模型中还加入了fam模块,因此解决了现有大多数倾斜目标检测算法存在的分类、回归特征不对称问题。由于检测模型还加入了odm模块,因此实现了本方法对大型会场座席目标的分类角度无关性与边框预测的角度高敏感性。因此,本发明的一种基于深度学习的大型会场座席定位方法,能够在复杂的摄像环境下针对多样化的座椅目标实现的定位,具有高精度和强泛化性优势,同时,通对于传统的专家系统策略的人工座椅定位输入,实现了大型会场座席的半自动化定位,具有部署、迁移高效性的优势。
附图说明
[0014]
图1是本发明实施例中基于深度学习的大型会场座席定位方法的流程图;
[0015]
图2是本发明实施例中训练初始卷积神经网络模型的流程图。
具体实施方式
[0016]
为了使本发明实现的技术手段、创作特征、达成目的与功效易于明白了解,以下结合实施例及附图对本发明的一种基于深度学习的大型会场座席定位方法作具体阐述。
[0017]
《实施例》
[0018]
本实施例的基于深度学习的大型会场座席定位方法通过一台计算机运行,该计算机需要至少一张显卡进行gpu加速从而完成模型的训练过程,训练完成的座椅识别方法的模型以及图像识别过程以可执行代码的形式存储在计算机中,计算机可以通过可执行代码调用该模型并同时批量处理多个场景下的图像数据帧,得到并输出每个场景下的座椅定位结果。
[0019]
图1是本发明实施例中基于深度学习的大型会场座席定位方法的流程图。
[0020]
如图1所示,基于深度学习的大型会场座席定位方法包括以下步骤:
[0021]
步骤s1,获取待测会场在无人场景下的俯视角度的视频流。
[0022]
步骤s2,采用resnet50和fpn结合的网络作为backbone,连接至fam模块和odm模块以构建初始卷积神经网络。
[0023]
本实施例中,backbone由残差模块、池化层、激活层、批量归一化层及跳跃连接模块组成。该backbone将残差网络resnet50模型与fpn结合,利用现有的深度学习框架pytorch完成初始模型的搭建。采用残差模块来加深网络层数,能够表达图像中的高层特征,因此在目标检测任务上有着优异的表现,结合特征金字塔结构使得模型依据多个不同尺度的特征图提出预测,因此对多尺度的目标有着良好的兼容性。其中,残差网络resnet50包括4个残差模块,每个残差模块至少由卷积运算conv、线性整流函数relu和批归一化bn依次组成。
[0024]
本实施例中,还以fam模块和odm模块协同对backbone提取获得的特征图进行处理,利用现有的深度学习框架pytorch完成模型搭建。其中,fam模块由arn子模块和acl子模块组成,arn子模块是一个由两个卷积block堆叠而成的分类和回归两个并联分支的轻量网络,负责基于输入的特征生成高质量的可倾斜的锚点推荐。odm子模块包括一组动态旋转卷积层以及两个预测分支,通过动态旋转卷积层进一步提取得到具有角度不变性的特征,由分类、回归两个分支得到预测结果,这两个分支的结构与fam模块中的分支结构相同。本实施例的各模块由动态旋转卷积模块,对称卷积模块、池化层、激活层及批量归一化层组成。
[0025]
步骤s3,基于随机梯度下降法和最小化损失函数对初始卷积神经网络进行训练得到大型会场座席检测模型。
[0026]
图2是本发明实施例中训练初始卷积神经网络模型的流程图。
[0027]
如图2所示,本步骤s3包括以下子步骤:
[0028]
步骤s3-1,获取大型会场俯视角度的实时视频流,从视频流中截取无人场景下的图像帧。
[0029]
本实施例中,对会场俯视角无人场景下的实时视频流进行的预处理包括尺寸调整、中心裁剪以及标准化操作,并截取图像帧作为训练数据准备。
[0030]
步骤s3-2,采用打好标签的图像帧构建数据集,并将数据集分为训练集、验证集以
及测试集。
[0031]
本实施例中,采用的数据集为影院提供的若干大型会场高清摄像机俯视角视频数据,通过视频取帧及手工座椅标注得到。其中,训练集为高清视频中抽取得到的数据帧裁剪得到的512x512分辨率图像,共计1200张;验证集为高清视频中抽取得到的数据帧,为1920x1080分辨率图像,共计34张,作为模型训练的泛化性对照;测试集为高清视频中抽取得到的数据帧,为1920x1080分辨率图像,共计34张,用于检验模型的训练效果。
[0032]
步骤s3-3,将训练集中的图像帧分批次依次输入至初始卷积神经网络进行训练以对模型参数进行迭代。
[0033]
本实施例中,每次输入至初始卷积神经网络的训练图像批次大小为32,一共迭代训练100次。
[0034]
步骤s3-4,在每次迭代后,根据初始卷积神经网络最后一层的模型参数计算损失误差,利用损失误差反向传播,采用随机梯度下降算法以及最小化损失函数进行模型参数的优化。
[0035]
本实施例中,每次迭代(即训练图像通过模型)后,由fam模块和odm模块的最后一层会分别计算出分类回归损失(即smooth l1 loss及focal loss),然后将计算得到的损失误差反向传播,采用随机梯度下降算法进行参数优化,学习率为0.001,从而更新模型参数。另外,模型训练的训练完成条件与常规的卷积神经网络模型相同,即各层的模型参数收敛后就完成训练。
[0036]
其中,最小化损失函数为fam模块的损失函数与odm模块的损失函数之和,公式如下:
[0037][0038]
式中,i为锚点索引,nf和no分别为fam模块和odm模块中的正例数量,c
if
和x
if
分别为fam模块关于锚点的预测类别和位置,c
io
和x
io
分别为odm模块关于锚点的预测类别和位置,l
i*
和g
i*
分别为锚点相关联的真实边框的类别和位置,lc和lr分别为focal loss和smooth l1 loss表示的类别损失函数和位置损失函数。
[0039]
步骤s3-5,重复步骤s3-3至步骤s3-4直至各层的模型参数收敛后完成训练,得到大型会场座席检测模型。
[0040]
本实施例中,将验证集输入至训练得到的大型会场座席检测模型中进行验证,实验结果显示,对于34张俯视角场景下的大型会场图像,大型会场座席检测模型的识别ap达到95.3%,召回率达到98%,即模型能够近乎完全正确地定位几乎所有大型会场座席。
[0041]
步骤s4,采用大型会场座席检测模型对实时视频流中每隔设定帧的图像进行座席检测,得到待测会场的所有座椅的对应位置信息。
[0042]
本实施例中,大型会场座席检测模型的输出由分类结果和回归结果两部分组成,其中,分类结果表示该预测目标被分类为座椅的概率得分,若该概率得分大于0.5,则认为
该预测目标为座椅,回归结果的维数为五维,分别表示该座椅的中心点横坐标x、中心点纵坐标y、目标宽度w、目标高度h及目标倾斜角度θ。
[0043]
实施例作用与效果
[0044]
根据本实施例提供的一种基于深度学习的大型会场座席定位方法,能够通过训练得到的大型会场座席检测模型高效地识别由不同机位拍摄得到的不同色彩模式如室内灯光和夜市红外光下的尺度、角度、比例多样的座椅目标,具有强泛化和高精度的优势。
[0045]
实施例中,由于大型会场座席检测模型基于深度卷积神经网络resnet50构建,因此能够表达图像的高层特征,有利于目标检测任务。同时,由于大型会场座席检测模型除骨干网络外都采用轻量化网络搭建,因此模型结构简单,不需要使用模型混合、多任务训练以及度量学习等方法就能够完成高精度的倾斜目标检测任务,所以,本实施例的模型构建快速方便,训练集也不需要过多数据就能够实现训练,因此训练过程可以快速完成,且训练消耗的计算资源也较少,易于迁移和维护工作。
[0046]
上述实施例仅用于举例说明本发明的具体实施方式,而本发明不限于上述实施例的描述范围。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献