一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种基于DeepLearning的视频识别技术的系统的制作方法

2022-06-01 07:03:18 来源:中国专利 TAG:

一种基于deep learning的视频识别技术的系统
技术领域
1.本发明涉及视频识别技术领域,具体为一种基于deeplearning的视频识别技术的系统。


背景技术:

2.视频识别主要包括前端视频信息的采集及传输、中间的视频检测和后端的分析处理三个环节。视频识别需要前端视频采集摄像机提供清晰稳定的视频信号,视频信号质量将直接影响到视频识别的效果;再通过中间嵌入的智能分析模块,对视频画面进行识别、检测、分析,滤除干扰,对视频画面中的异常情况做目标和轨迹标记。其中智能视频分析模块是基于人工智能和模式识别原理的算法。
3.深度学习是机器学习领域中一个新的研究方向,它被引入机器学习使其更接近于最初的目标——人工智能。深度学习是学习样本数据的内在规律和表示层次,这些学习过程中获得的信息对诸如文字,图像和声音等数据的解释有很大的帮助。它的最终目标是让机器能够像人一样具有分析学习能力,能够识别文字、图像和声音等数据。
4.现有的基于深度学习的视频行为识别方法主要分成两类:基于双流架构的方法和基于3d卷积神经网络的方法。虽然视频的帧率很高,但是视频中的内容变化相对较慢,临近的视频帧信息存在大量的冗余,如何能更加高效的从视频中采样图像帧也是非常重要的。


技术实现要素:

5.本发明的目的在于提供一种基于deeplearning的视频识别技术的系统,以解决上述背景技术中提出的问题。
6.为实现上述目的,本发明提供如下技术方案:一种基于deeplearning的视频识别技术的系统,包括图像采样器、时序分段处理器和分支处理器,所述时序分段处理器连接于图像采样器的输出端,所述分支处理器连接于时序分段处理器的输出端,所述分支处理器的输出端连接有帧信息处理器。
7.优选的,所述帧信息处理器通过对每帧视频的清晰度进行对比,将所有帧视频分为正确数据,冗余数据和错误数据,正确数据指清晰度较高的视频帧数,冗余数据指清晰度较低的视频帧数,错误数据指不清晰的视频帧数。
8.优选的,所述帧信息处理器的输出端连接有新数据库,所述新数据库具备分支结果预测功能,所述时序分段处理器具有特征融合功能,所述融合后的特征向量作为视频的分量。
9.优选的,所述时序分段处理器的输出端连接有优化器,所述优化器采用 3d卷积,低秩近似模型和vgg算法对视频的分量进行建模。
10.优选的,基于deeplearning的视频识别方法,包括以下步骤:
11.s1:图像采样器将采集到的视频信息传递给时序分段处理器,时序分段处理器将一个视频分为多个小段,每段均匀的采集一帧图像与多帧光流。
12.s2:时序分段处理器多小段的视频传递给帧信息处理器,帧信息处理器根据视频的清晰度分为正确数据,冗余数据和错误数据,正确的数据直接传输到新数据库中,帧信息处理器会对冗余数据进行重新标定,随后导入临近时间帧数的图像,再对临近时间帧数的图像进行筛选,留下清晰度最高的一帧视频导入到新数据库中,对于错误数据,帧信息处理器会通知管理员介入,管理员对错误数据进行判断,若临近时间帧数的图像均不清晰,管理员会将该帧数图像进行删除,若临近时间帧数有清晰的图像,则将临近时间帧数清晰的图像导入到新数据库中。
13.s3:所有帧数的视频图像在新数据库中集合,然后传递给分支处理器,分支处理器利用双流法,每视频小段获取图像分支与光流分支的特征后,融合所有的特征作为整个视频的特征向量进行处理,时序分段网络对于不同段之间的特征向量直接进行平均融合处理,在针对不同的分支进行分类预测。
14.s4:预测的结果结合视频的时序信息进行vlad融合,对一个视频的各个帧特征进行聚类得到多个聚类中心,将所有的特征分配到指定的聚类中心中,对于每个聚类区域中的特征向量取平均,最终合并所有的聚类区域的特征向量作为整个视频的特征向量。
15.s5:s4中的特征向量利用优化器直接使用3d卷积构建网络,利用低秩近似模型实现参数量的减少,最后利用vgg算法进行建模,建模后的结果即为视频识别结果。
16.与现有技术相比,本发明的有益效果是:
17.1.该基于deeplearning的视频识别技术的系统,帧信息处理器对冗余数据进行重新标定,随后导入临近时间帧数的图像,再对临近时间帧数的图像进行筛选,留下清晰度最高的一帧视频导入到新数据库中,对于错误数据,帧信息处理器会通知管理员介入,管理员对错误数据进行判断,若临近时间帧数有清晰的图像,则将临近时间帧数清晰的图像导入到新数据库中,去除了临近的视频帧信息存在的大量冗余,可以更加高效的从视频中采样图像。
18.2.该基于deeplearning的视频识别技术的系统,在处理完冗余视频帧信息后,利用3d卷积的低秩近似实现参数量的减少,降低了3d卷积的难度,提高了识别的精度。
附图说明
19.为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
20.图1为本发明的分量获取流程图;
21.图2为本发明的分量建模流程图;
22.图3为本发明的双支分流法流程图;
23.图4为本发明的视频帧信息处理流程图。
具体实施方式
24.下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于
本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
25.在本发明中,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”、“固定”等术语应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或成一体;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通或两个元件的相互作用关系。对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本发明中的具体含义。
26.请参阅图1-4,本发明提供一种技术方案:一种基于deeplearning的视频识别技术的系统,包括图像采样器、时序分段处理器和分支处理器,时序分段处理器连接于图像采样器的输出端,分支处理器连接于时序分段处理器的输出端,分支处理器的输出端连接有帧信息处理器,帧信息处理器通过对每帧视频的清晰度进行对比,将所有帧视频分为正确数据,冗余数据和错误数据,正确数据指清晰度较高的视频帧数,冗余数据指清晰度较低的视频帧数,错误数据指不清晰的视频帧数,帧信息处理器的输出端连接有新数据库,新数据库具备分支结果预测功能,时序分段处理器具有特征融合功能,融合后的特征向量作为视频的分量,时序分段处理器的输出端连接有优化器,优化器采用3d卷积,低秩近似模型和vgg算法对视频的分量进行建模。
27.基于deeplearning的视频识别方法,包括以下步骤:
28.s1:图像采样器将采集到的视频信息传递给时序分段处理器,时序分段处理器将一个视频分为多个小段,每段均匀的采集一帧图像与多帧光流。
29.s2:时序分段处理器多小段的视频传递给帧信息处理器,帧信息处理器根据视频的清晰度分为正确数据,冗余数据和错误数据,正确的数据直接传输到新数据库中,帧信息处理器会对冗余数据进行重新标定,随后导入临近时间帧数的图像,再对临近时间帧数的图像进行筛选,留下清晰度最高的一帧视频导入到新数据库中,对于错误数据,帧信息处理器会通知管理员介入,管理员对错误数据进行判断,若临近时间帧数的图像均不清晰,管理员会将该帧数图像进行删除,若临近时间帧数有清晰的图像,则将临近时间帧数清晰的图像导入到新数据库中。
30.s3:所有帧数的视频图像在新数据库中集合,然后传递给分支处理器,分支处理器利用双流法,每视频小段获取图像分支与光流分支的特征后,融合所有的特征作为整个视频的特征向量进行处理,时序分段网络对于不同段之间的特征向量直接进行平均融合处理,在针对不同的分支进行分类预测。
31.s4:预测的结果结合视频的时序信息进行vlad融合,对一个视频的各个帧特征进行聚类得到多个聚类中心,将所有的特征分配到指定的聚类中心中,对于每个聚类区域中的特征向量取平均,最终合并所有的聚类区域的特征向量作为整个视频的特征向量。
32.s5:s4中的特征向量利用优化器直接使用3d卷积构建网络,利用低秩近似模型实现参数量的减少,最后利用vgg算法进行建模,建模后的结果即为视频识别结果。
33.双流法基本方案就是两个网络分支,一个为图像分支提取视频帧的特征向量,另一个为光流分支,利用多帧之间的光流图提取光流特征,利用图像分支与光流分支特征向量的融合进行分类预测。
34.vlad是一种新的特征融合策略,首先对一个视频的各个帧特征进行聚类得到多个
聚类中心,将所有的特征分配到指定的聚类中心中,对于每个聚类区域中的特征向量取平均,最终合并所有的聚类区域的特征向量作为整个视频的特征向量;把所有帧的特征向量聚类到一个中心点,而vlad将所有帧的特征向量聚类到多个中心点,通过所有特征向量的堆叠,能够获得更加丰富的特征,丢失更少的信息。
35.利用3d卷积的低秩近似实现参数量的减少,对于2d卷积7
×
7的核,可以用1
×
7与7
×
1近似替代,同样3d卷积,3
×3×
3的核可以用1
×3×
3与 3
×1×
1近似替代。
36.ltc(长距离时序卷积)将输入视频帧数增加,实验发现60帧58
×
58的输入与16帧112
×
112的输入计算量相差不大,但精度更好;利用3d卷积的低秩近似实现参数量的减少,将视频分成多个包含16帧的片段作为网络的输入(维数为3
×
16
×
128
×
171),池化层的卷积核的尺寸是d
×k×
k,第一个池化层d=1,是为了保证时间域的信息不要过早地被融合,接下来的池化层的 d=2,有所卷积层的卷积核大小为3
×3×
3,相对其他尺寸的卷积核,达到了精度最优,计算性能最佳,这个是学习长度为16帧(采样后)视频片段的基础网络结构,对于一个完整的视频,会被分割成互相覆盖8帧的多个16帧的片段,分别提取他们的特征,然后进行一个简单平均获得一个4096维的向量作为整个视频的特征,通过可视化最后一个卷积层对一个连续帧序列的特征表达,可以发现,在特征开始着重表达了画面的信息,在特征的后面着重表达的是运动信息,即在运动处有相对显著的特征,和单帧图特征在视频测试集上进行对比,3d卷积有更强的区分度让卷积核扩展到时域,卷积在空域和时域同时进行,输出仍然是有机的图像集合。
37.需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个......”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
38.尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献