一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种视频目标检测最佳级联配置的快速搜索方法及系统

2022-06-01 13:40:06 来源:中国专利 TAG:


1.本发明涉及目标检测领域,尤其涉及一种视频目标检测最佳级联配置的快速搜索方法及系统。


背景技术:

2.目前,随着计算机视觉技术的发展,基于深度神经网络的目标检测模型结果日益精确。但是,将其用于大规模的视频数据集面临巨大挑战。主要是因为执行视频目标检测任务的多为摄像机等可移动设备,无法承担高昂的计算成本。因此,研究如何在满足检测精度的要求下减少计算成本有重要意义。


技术实现要素:

3.为了解决上述技术问题,本发明的目的是提供一种视频目标检测最佳级联配置的快速搜索方法及系统,能够根据视频场景自动、高效获取最佳级联方案,完成目标检测。
4.本发明所采用的第一技术方案是:一种视频目标检测最佳级联配置的快速搜索方法,包括以下步骤:
5.获取视频数据集并对视频数据集进行特征计算,得到场景特征组合;
6.基于帧间相似度对视频数据集执行帧过滤操作,得到滤去冗余帧的视频数据集;
7.基于优化的配置搜索算法,获取视频数据集中达到精度要求且成本最低的最佳级联配置方案,并结合场景特征组合构建得到带标签的训练集;
8.基于训练集训练级联方案映射器,得到训练完成的级联方案映射器;
9.获取待测视频并基于训练完成的级联方案映射器搜索最佳配置,完成目标检测任务。
10.进一步,所述获取视频数据集并对视频数据集进行特征计算,得到场景特征值这一步骤之前,还包括:
11.统计所有配置方案的运行成本。
12.进一步,所述获取视频数据集并对视频数据集进行特征计算,得到场景特征组合这一步骤,其具体包括:
13.获取视频数据集,所述视频数据集包括检测数据集、网络视频和拍摄视频;
14.对视频数据集进行场景分析,计算视频数据集中每帧图片的特征并进行预处理,提取得到场景特征组合;
15.所述场景特征组合包括检测目标数量、检测目标速度、检测目标位移、场景偏移量和cnn特征。
16.进一步,所述预处理包括采用0-1标准化方法进行归一化处理和去除极端异常值处理。
17.进一步,所述基于帧间相似度对视频数据集执行帧过滤操作,得到滤去冗余帧的视频数据集这一步骤,其具体包括:
18.获取帧间差异算法;
19.比较帧间差异算法的计算成本、场景的适应性和过滤阈值区间;
20.选择帧间差异算法计算帧间相似度,并对视频帧进行过滤,得到过滤后的视频帧数据。
21.进一步,所述基于优化的配置搜索算法,获取视频数据集中达到精度要求且成本最低的最佳级联配置方案,并结合场景特征组合构建得到带标签的训练集这一步骤,其具体包括:
22.将视频数据集中的视频按顺序划分为预设长度,得到片段集;
23.对片段集中每个片段进行过滤策略和级联配置分析,得到对应的组合方案;
24.根据视频数据集对应的场景特征组合和组合方案生成带标签的视频数据,并构建得到带标签的训练集。
25.进一步,所述基于训练集训练级联方案映射器,得到训练完成的级联方案映射器这一步骤,其具体包括:
26.基于训练集,以场景特征组合为输入,组合方案为输出训练级联方案映射器;
27.绘制训练过程中的准确率变化曲线并对级联方案映射器进行调试直至判断到准确率达到预设值,得到训练完成的级联方案映射器。
28.进一步,所述获取待测视频并基于训练完成的级联方案映射器搜索最佳配置,完成目标检测任务这一步骤,其具体包括:
29.将训练完成的级联方案映射器搭建并运行于ncnn上;
30.在线输入待测视频,对待测视频进行特征提取处理,得到待测场景特征;
31.根据待测场景特征输出最佳组合,所述最佳组合包括级联配置和过滤策略;
32.根据最佳组合对待测视频进行过滤,结合级联配置完成视频目标检测任务。
33.本发明所采用的第二技术方案是:一种视频目标检测最佳级联配置的快速搜索系统,包括:
34.特征计算模块,用于获取视频数据集并对视频数据集进行特征计算,得到场景特征组合;
35.过滤模块,基于帧间相似度对视频数据集执行帧过滤操作,得到滤去冗余帧的视频数据集;
36.搜索模块,基于优化的配置搜索算法,获取视频数据集中达到精度要求且成本最低的最佳级联配置方案,并结合场景特征组合构建得到带标签的训练集;
37.训练模块,基于训练集训练级联方案映射器,得到训练完成的级联方案映射器;
38.检测模块,用于获取待测视频并基于训练完成的级联方案映射器搜索最佳配置,完成目标检测任务。
39.本发明方法及系统的有益效果是:本发明能够根据场景特征,高效选择有效的过滤策略和级联配置。通过对帧过滤后,再从当前场景的级联配置中优先考虑轻量配置,如不达到要求,才考虑高精度配置,进而实现整个目标检测流程高效、精度高、成本最低。
附图说明
40.图1是本发明一种视频目标检测最佳级联配置的快速搜索方法的步骤流程图;
41.图2是本发明一种视频目标检测最佳级联配置的快速搜索系统的结构框图。
具体实施方式
42.下面结合附图和具体实施例对本发明做进一步的详细说明。对于以下实施例中的步骤编号,其仅为了便于阐述说明而设置,对步骤之间的顺序不做任何限定,实施例中的各步骤的执行顺序均可根据本领域技术人员的理解来进行适应性调整。
43.如图1所示,本发明提供了一种视频目标检测最佳级联配置的快速搜索方法,该方法包括以下步骤:
44.s0、统计所有配置方案的运行成本。
45.s1、获取视频数据集并对视频数据集进行特征计算,得到场景特征组合;
46.s1.1、获取视频数据集,所述视频数据集包括检测数据集、网络视频和拍摄视频;
47.具体地,可以通过下载主流的目标检测数据集(如kitti、voc、coco等)、网络视频或者自行拍摄视频等渠道获取涵盖大量常见目标检测任务场景的数据。
48.s1.2、对视频数据集进行场景分析,计算视频数据集中每帧图片的特征并进行预处理,提取得到场景特征组合;
49.所述场景特征组合包括检测目标数量、检测目标速度、检测目标位移、场景偏移量和cnn特征,所述预处理包括采用0-1标准化方法进行归一化处理和去除极端异常值处理。
50.具体地,经过归一化处理的数据符合标准正态分布,即均值为0,标准差为1,可有效去除不同特征值之间的量纲影响。
51.s2、基于帧间相似度对视频数据集执行帧过滤操作,得到滤去冗余帧的视频数据集;
52.s2.1、获取帧间差异算法;
53.s2.2、比较帧间差异算法的计算成本、场景的适应性和过滤阈值区间;
54.具体地,调研业界帧过滤策略中常用的衡量帧间差异的计算方法,比如均方误差(mse)、平均绝对误差(mae)、峰值信噪比(psnr)、结构相似性(ssim)等,比较不同差异算法的计算成本以及对场景的适应性,并确定不同的帧间差异计算方法的过滤阈值区间。
55.s2.3、选择帧间差异算法对视频帧进行过滤,得到过滤后的视频帧数据。
56.s3、基于优化的配置搜索算法,获取视频数据集中达到精度要求且成本最低的最佳级联配置方案,并结合场景特征组合构建得到带标签的训练集;
57.具体地,由于后续训练神经网络属于监督学习,其前提条件是获得高质量的带标签数据,所以采用优化的搜索方式,将搜索级联空间的时间复杂度由指数级o(m^n)降低到o(m*n),高效获取大量场景下的最佳级联方案,为后续基于神经网络训练级联方案映射器产生高质量带标签的训练数据。
58.s3.1、将视频数据集中的视频按顺序划分为预设长度,得到片段集;
59.具体地,将视频数据按顺序划分为长度为16s的片段集(称为window)。每一个窗口window又划分为长度为4s的小型片段(称为segment)。
60.s3.2、对片段集中每个片段进行过滤策略和级联配置分析,得到对应的组合方案;
61.具体地,针对每个window中的第一个segment进行全面的过滤策略以及级联配置分析,从中获取最佳的组合方案,并记录top k过滤策略与级联配置的组合(即满足精度要
求的,计算开销最小的k组方案:过滤策略 二级级联配置)。
62.针对属于同一window的所剩下的每一个segemt,不执行全面的组合方案分析,仅从top k方案中分析出最佳级联配置以及过滤策略,大幅降低组合搜索空间,获取该segment的最佳过滤策略和级联二级配置。
63.另外,若无法从前方segment传播的topk组合中获取满足精度要求的最佳组合,说明场景发生大幅变化,此时需要重新分析,更新topk组合。
64.s3.3、根据视频数据集对应的场景特征组合和组合方案生成带标签的视频数据,并构建得到训练集。
65.s4、基于训练集训练级联方案映射器,得到训练完成的级联方案映射器;
66.s4.1、基于训练集,以场景特征组合为输入,组合方案为输出训练级联方案映射器;
67.另外,还可以构建测试集用于验证。
68.s4.2、绘制训练过程中的准确率变化曲线并对级联方案映射器进行调试直至判断到准确率达到预设值,得到训练完成的级联方案映射器。
69.具体地,调试操作有:变化学习率,观察目标函数值和验证集准确率的收敛曲线,从中选择合适的学习率;变化隐藏层的数量以及每层的隐藏单元数量,观察每次变化过程中的准确率变化,从中选择合适的层数和单元数;边变化训练轮数,边观察训练集准确率变化曲线和验证集准确率变化曲线,记录最合适的训练轮数。
70.s5、获取待测视频并基于训练完成的级联方案映射器搜索最佳配置,完成目标检测任务。
71.s5.1、将训练完成的级联方案映射器搭建并运行于ncnn上;
72.具体地,ncnn是为可移动设备极致优化的高性能神经网络前向计算框架,可以高效完成视频目标检测任务。其可以在计算资源有限的可移动设备上,对大规模的视频数据集使用基于深度神经网络的目标检测模型,降低计算开销。
73.s5.2、在线输入待测视频,对待测视频进行特征提取处理,得到待测场景特征;
74.s5.3、根据待测场景特征输出最佳组合,所述最佳组合包括级联配置和过滤策略;
75.s5.4、根据最佳组合对待测视频进行过滤,结合级联配置完成视频目标检测任务。
76.具体地,输入视频数据,计算提取出的可描述场景变化情况的特征。由于所选择的特征是关键的视觉特征,可以很快被计算出来的。将特征值输入组合映射器,获得输出:最佳组合,即最佳级联配置以及最佳过滤策略。依据所选择的最佳组合,执行对应的帧过滤策略,差异程度低可直接过滤帧(复用前帧结果、避免模型调度)。之后,从级联的二级配置中获取最佳配置:先考虑轻量级配置,精度不达标才考虑重量级配置。接着使用最佳配置,按照参数值:帧率、分辨率和目标检测模型,完成视频目标检测任务。
77.本发明优化了主流的基于神经网络的视频目标检测流程。其能够适应场景变化,周期性调整用于完成目标检测的最佳级联组合方案,保证精度与计算成本的平衡。主要通过分析场景变化、计算场景特征,将特征输入至经过基于神经网络训练的级联组合映射器后,直接输出最优级联组合,高效地从巨大的级联组合空间中选择达到精度要求的最低开销的级联组合。帧过滤模型将依据场景自动选择合适的过滤策略与阈值,并能够根据场景特征类型、查询精度和视频内容之间的时变相关性动态调整过滤决策。此外,选用的衡量帧
间差异的方法计算速度快,帧过滤模型不会带来高额的开销。级联配置也将根据场景动态调整。
78.离线阶段通过运用优化的搜索算法,将级联组合搜索空间大幅减少,高效地为利用神经网络训练级联组合映射器获得高质量的带标签数据。由于采用优化的搜索方案,搜索速度很快。这一步骤离线进行,防止分析最佳级联组合的成本抵消切换级联组合带来的收益。此外,通过搭建神经网络,学习了场景与最优级联组合之间的关系,可以适配现实生活中的绝大部分场景。在线阶段,通过输入场景特征信息,完成视频目标检测最优级联组合的快速搜索,提高了预测精度,显著降低当前视频检测的资源消耗,达到了低成本高效率高准确性的效果。
79.如图2所示,一种视频目标检测最佳级联配置的快速搜索系统,包括:
80.特征计算模块,用于获取视频数据集并对视频数据集进行特征计算,得到场景特征组合;
81.过滤模块,基于帧间相似度对视频数据集执行帧过滤操作,得到滤去冗余帧的视频数据集;
82.搜索模块,基于优化的配置搜索算法,获取视频数据集中达到精度要求且成本最低的最佳级联配置方案,并结合场景特征组合构建得到带标签的训练集;
83.训练模块,基于训练集训练级联方案映射器,得到训练完成的级联方案映射器;
84.检测模块,用于获取待测视频并基于训练完成的级联方案映射器搜索最佳配置,完成目标检测任务。
85.进一步作为优选实施例,还包括:
86.预计算模块,用于统计所有配置方案的运行成本。
87.上述方法实施例中的内容均适用于本系统实施例中,本系统实施例所具体实现的功能与上述方法实施例相同,并且达到的有益效果与上述方法实施例所达到的有益效果也相同。
88.一种视频目标检测最佳级联配置的快速搜索装置:
89.至少一个处理器;
90.至少一个存储器,用于存储至少一个程序;
91.当所述至少一个程序被所述至少一个处理器执行,使得所述至少一个处理器实现如上所述一种视频目标检测最佳级联配置的快速搜索方法。
92.上述方法实施例中的内容均适用于本装置实施例中,本装置实施例所具体实现的功能与上述方法实施例相同,并且达到的有益效果与上述方法实施例所达到的有益效果也相同。
93.一种存储介质,其中存储有处理器可执行的指令,其特征在于:所述处理器可执行的指令在由处理器执行时用于实现如上所述一种视频目标检测最佳级联配置的快速搜索方法。
94.上述方法实施例中的内容均适用于本存储介质实施例中,本存储介质实施例所具体实现的功能与上述方法实施例相同,并且达到的有益效果与上述方法实施例所达到的有益效果也相同。
95.以上是对本发明的较佳实施进行了具体说明,但本发明创造并不限于所述实施
例,熟悉本领域的技术人员在不违背本发明精神的前提下还可做作出种种的等同变形或替换,这些等同的变形或替换均包含在本技术权利要求所限定的范围内。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献