一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

红外移动对象目标部位的检测方法、装置及系统

2022-04-16 16:24:46 来源:中国专利 TAG:


1.本发明涉及目标跟踪检测技术领域,更具体地,涉及一种红外移动对象目标部位的高精度低延时检测方法、装置及系统。


背景技术:

2.红外移动对象目标部位检测是计算机视觉领域的一个难题,而且有着非常广泛的应用场景。例如,有很多无人机爱好者热衷于在晚上航拍城市夜景,当无人机在机场上空飞行时,容易与客机相撞,可能会引发严重的空难事故。因此对目标检测算法的要求也越来越高,一旦发现空中移动对象出现,探测系统要能立刻进行检测并锁定位置,通过后台确认是否为违法飞行,判断要不要对其进行威肋消除,从而大幅加强对空域的有效管控,极大地减少一些难以预测的空中安全事故。
3.在对红外移动对象目标部位进行检测时,往往会遇到非常多的困难。实际应用中,探测器与移动对象的距离往往非常遥远,因此移动对象的分辨率往往都很低,而且由于大气干扰,光学散射和衍射等因素的影响,导致红外目标和背景之间的对比度不够明显,在检测红外移动对象很容易将背景错误检测为红外目标,因此虚警率很高。由于红外移动对象太小,缺乏形状信息、纹理特征信息,实际检测时很容易被各种随机噪声浸没。远距离实现对红外移动对象目标部位的检测是一项非常困难的任务。
4.现阶段,我们国家红外小目标检测技术和一些发达国家(例如德国、美国等)相比,还有很大的差距。随着以深度学习为代表的人工智能技术的迅猛发展,深度学习已经在人脸识别、车辆识别等其他目标检测领域展现出优异的性能,卷积神经网络作为深度学习的典型算法,是现有使用较多的目标检测算法,具备强大的非线性表达能力和泛化能力,能够快速、准确完成对图像中指定类型的识别。
5.但是,红外移动对象目标部位检测具有独特的应用场景。首先,红外移动对象通常都在高速移动且距离遥远,其在图像上通常都较小且清晰度不高;其次,实际应用中要求对红外移动对象的检测帧率高、识别率高、检测精度高,现有的目标检测算法无法满足这些要求,因此迫切需要一种适用于红外移动对象目标部位的高精度、低延时检测方法及系统。
6.总而言之,在检测红外移动对象时需要克服的难点众多,现阶段的目标检测算法在对红外移动对象目标部位检测时存在识别率低、虚警率高以及检测精度低的缺陷,而且现有目标检测算法的模型参数量多,对内存的要求高,需要占用更多的硬件开销,对于高速移动的空中红外目标无法做到实时检测。此外,目标检测算法通过构造维度更高的运算核去提取目标特征,因此运算量很大,算法模型硬件实现非常困难,用常规的硬件实现的话存在体积大、功耗高、性能低、可靠性差的缺陷。


技术实现要素:

7.针对现有技术的缺陷,本发明提出了一种红外移动对象目标部位的高精度、低延时检测方法、装置及系统,以解决现有检测方法对红外移动对象目标部位检测速度慢、检测
精度低、对像素值要求高的技术难题。
8.为了解决上述问题,第一方面,本技术提供了一种红外移动对象目标部位的高精度低延时检测方法,包含以下步骤:
9.s1、在获取移动对象图片后,使用数据增强方法增加图片数量;
10.s2、标注图片中的移动对象目标部位,生成数据集,并将所述数据集按照一定比例随机划分为训练集和测试集;
11.s3、安装conda环境管理系统,搭建pytorch深度学习框架,其中模型的配置利用yolov5模型完成;
12.s4、对yolov5模型的多尺度检测结构、主干特征提取网络结构、空间金字塔结构以及特征融合网络结构进行改进;
13.s5、对损失函数进行优化,在位置损失函数中引入宽高比一致性惩罚项;
14.s6、将nms非极大抑制算法进行优化为soft-nms算法;
15.s7、对特征融合网络结构输出的特征层利用二分类交叉损失熵函数进行分类,得到初步检测模型;
16.s8、利用所述训练集对所述初步检测模型进行训练,得到最终检测模型;
17.s9、将所述测试集输入所述最终训练模型,获得检测结果。
18.可选的,所述步骤s1中的数据增强方法包括:旋转变换、翻转变换、缩放变换、平移变换、尺度变换、噪声扰动变换和对比度变换。
19.可选的,所述步骤s2中标注图片中的移动对象目标部位具体包括:
20.使用图像标注工具labelimg用矩形框标注数据集中每一张图片,每张图片对应一个xml格式的标签文件;其中,所述标签文件包含cabin、engine两个类别,以及矩形框的左上角和右下角坐标。
21.可选的,所述步骤s4具体包括以下处理:
22.在多尺度检测结构上增加一个用于检测极小目标的特征检测层,利用低层特征分辨率高的特点,在移动对象所占像素较少的情况下检测到目标部位;
23.在主干特征提取网络结构的重要组成部分bottleneckcsp的末端增加squeeze-and-excitation networks,赋予特征层的不同通道能够自动学习的权重;
24.在空间金字塔结构的末端增加coordattention协同注意力机制,赋予特征层跨通道信息、方向感知和位置感知信息,使网络模型更加精准地定位移动对象目标部位;
25.优化bifpn结构并替换panet特征融合网络结构。
26.可选的,所述步骤s5中位置损失函数定义为:
[0027][0028][0029][0030]
其中,iou表示预测框与真实框的交并比,b表示预测框中心点,b
gt
表示目标框中心
点,ρ表示欧式距离,c表示相交的预测框与目标框之间所构成外接最小矩形的对角线距离,α是一个权重系数,v代表长宽比一致性的参数,w为预测框的宽度,w
gt
为真实框的宽度,h为预测框的高度,h
gt
为真实框的高度。
[0031]
可选的,所述步骤s6中nms算法定义为:
[0032][0033]
soft-nm算法定义为:
[0034][0035]
其中,s是预测框的集合,m是s中得分最高的预测框,bi是s中除去m外剩余的预测框,n
t
是一个阈值,si是预测框bi的得分,iou为预测框与真实框的交并比;当某个预测框与得分最高的预测框的交并比较大时,该预测框能被正确检测出。
[0036]
第二方面,本技术提供了一种红外移动对象目标部位的高精度低延时检测装置,包括:
[0037]
图片数据增强模块,用于在获取移动对象图片后,使用数据增强方法增加图片数量;
[0038]
数据集生成模块,用于标注图片中的移动对象目标部位,生成数据集,并将所述数据集按照一定比例随机划分为训练集和测试集;
[0039]
深度学习框架搭建模块,用于安装conda环境管理系统,搭建pytorch深度学习框架,其中模型的配置利用yolov5模型完成;
[0040]
模型结构改进模块,用于对yolov5模型的多尺度检测结构、主干特征提取网络结构、空间金字塔结构以及特征融合网络结构进行改进;
[0041]
函数优化模块,用于对损失函数进行优化,在位置损失函数中引入宽高比一致性惩罚项;
[0042]
算法优化模块,用于将nms非极大抑制算法进行优化为soft-nms算法;
[0043]
初步检测模型获取模块,用于对特征融合网络结构输出的特征层利用二分类交叉损失熵函数进行分类,得到初步检测模型;
[0044]
最终检测模型获取模块,用于利用所述训练集对所述初步检测模型进行训练,得到最终检测模型;
[0045]
检测结果获取模块,用于将所述测试集输入至所述最终训练模型,获得检测结果。
[0046]
可选的,所述图片数据增强模块采用的数据增强方法包括:旋转变换、翻转变换、缩放变换、平移变换、尺度变换、噪声扰动变换和对比度变换。
[0047]
可选的,所述数据集生成模块标注图片中的移动对象目标部位具体包括:
[0048]
使用图像标注工具labelimg用矩形框标注数据集中每一张图片,每张图片对应一个xml格式的标签文件;其中,所述标签文件包含cabin、engine两个类别,以及矩形框的左上角和右下角坐标。
[0049]
可选的,所述模型结构改进模块,包括:
[0050]
多尺度检测结构改进单元,用于在多尺度检测结构上增加一个用于检测极小目标的特征检测层,利用低层特征分辨率高的特点,在移动对象所占像素较少的情况下检测到
目标部位;
[0051]
主干特征提取网络结构改进单元,用于在主干特征提取网络结构的重要组成部分bottleneckcsp的末端增加squeeze-and-excitation networks,赋予特征层的不同通道能够自动学习的权重;
[0052]
空间金字塔结构改进单元,用于在空间金字塔结构的末端增加coordattention协同注意力机制,赋予特征层跨通道信息、方向感知和位置感知信息,使网络模型更加精准地定位移动对象目标部位;
[0053]
特征融合网络结构改进单元,用于优化bifpn结构并替换panet特征融合网络结构。
[0054]
第三方面,本技术还提供了一种红外移动对象目标部位的高精度低延时检测系统,包括:微型红外导引头系统和用于实现上述第一方面所述的红外移动对象目标部位的高精度低延时检测方法的ai电路系统;
[0055]
所述微型红外导引头系统,包括:红外热像组件、陀螺伺服跟踪电路组件、微型伺服稳定平台组件和二次电源组件;其中,所述红外热像组件用于向所述陀螺伺服跟踪电路组件提供清晰的图像;所述陀螺伺服跟踪电路组件用于驱动所述伺服稳定平台稳定跟踪目标;所述微型伺服稳定平台用于实现所述导引头系统光轴在惯性空间中的稳定,以及实现目标角度预置、搜索和跟踪;所述二次电源组件用于提供所述导引头系统内部各组成部分所需的电源;
[0056]
所述ai电路系统,包括:供电组件、智能信息处理组件、与所述智能信息处理组件和所述陀螺伺服跟踪电路组件相连的数据交互组件;其中:
[0057]
所述数据交互组件用于接收从所述红外热像组件输出的红外图像数据,并输出至所述智能信息处理组件;所述智能信息处理组件用于对所述红外图像数据进行目标检测算法处理,计算出目标相关信息,并输出回所述数据交互组件;所述数据交互组件还用于将所述目标相关信息传输至所述陀螺伺服跟踪电路组件;所述供电组件用于提供所述ai电路系统内部各组成部分所需的电源。
[0058]
可选的,所述红外热像组件由光学系统、调制器、探测器和后续电路组成。
[0059]
总体而言,通过实施本技术技术方案,至少能够取得以下技术效果:
[0060]
(1)相较于现有多采用tensorflow网络结构的方案,本技术方案支持采用pytorch网络框架,更加简单,操作更方便。
[0061]
(2)本技术方案从多方面对yolov5模型做了改进和优化工作,在多尺度检测结构上增加了极小目标检测层,因此模型能够从更远的距离、更小的目标像素面积检测到移动对象目标部位,而且的识别率相较于yolov5也有大幅度提升;在bottleneckcsp的末端增加squeeze-and-excitation networks,赋予特征层的不同通道能够自动学习的权重;在空间金字塔结构的末端增加coordattention协同注意力机制,赋予特征层跨通道信息、方向感知和位置感知信息,使网络模型更加精准地定位移动对象目标部位;优化bifpn结构并替换panet特征融合网络结构,赋予特征层更多的语义信息和高分辨信息,因此对于任意尺寸的移动对象,模型始终保持优异的性能。
[0062]
(3)本技术方案的检测方法对应的模型在检测精度不变的情况下参数量、计算量大幅减少,便于部署到硬件系统上,能做到对高速运动的移动对象目标部位的高精度、低延
时检测。
[0063]
(4)本技术方案的硬件实现系统具有小型化、低功耗、高性能、高可靠性的优点。其中,微型红外导引头系统提升了红外图像的成像质量和分辨率;ai电路系统克服了传统多个fpga集群系统架构功耗高、占用空间面积大以及可靠性低的缺点。
附图说明
[0064]
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其它的附图。
[0065]
图1为本发明实施例提供的一种红外移动对象目标部位的高精度低延时检测方法的流程图;
[0066]
图2为本发明实施例提供的yolov5模型整体结构示意图;
[0067]
图3为本发明实施例提供的yolov5模型各子模块结构示意图;
[0068]
图4为本发明实施例提供的对yolov5模型改进后的整体结构示意图;
[0069]
图5为本发明实施例提供的对yolov5模型改进后的各子模块结构示意图;
[0070]
图6为本发明实施例提供的coordattention协同注意力机制结构示意图;
[0071]
图7为本发明实施例提供的squeeze-and-excitation networks结构示意图;
[0072]
图8为本发明实施例提供的yolov5模型的precision-recall曲线图;
[0073]
图9为本发明实施例提供的改进的yolov5模型的precision-recall曲线图;
[0074]
图10为本发明实施例提供的一种红外移动对象目标部位的高精度低延时检测装置的结构示意图;
[0075]
图11为本发明实施例提供的一种红外移动对象目标部位的高精度低延时检测系统的结构示意图;
[0076]
图12为本发明实施例提供的另一种红外移动对象目标部位的高精度低延时检测系统的结构示意图。
具体实施方式
[0077]
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对照附图说明本发明的具体实施方式。显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图,并获得其它的实施方式。
[0078]
为使图面简洁,各图中只示意性地表示出了与本发明相关的部分,它们并不代表其作为产品的实际结构。另外,以使图面简洁便于理解,在有些图中具有相同结构或功能的部件,仅示意性地绘示了其中的一个,或仅标出了其中的一个。在本文中,“一个”不仅表示“仅此一个”,也可以表示“多于一个”的情形。
[0079]
下面以具体实施例详细介绍本发明的技术方案。
[0080]
实施例一
[0081]
请参考图1,本发明实施例提供了一种红外移动对象目标部位的高精度低延时检
测方法,包含以下步骤:
[0082]
s1、在获取移动对象图片后,使用数据增强方法增加图片数量;具体的,所述数据增强方法包括:旋转变换、翻转变换、缩放变换、平移变换、尺度变换、噪声扰动变换和对比度变换。
[0083]
s2、标注图片中的移动对象目标部位,生成数据集,并将所述数据集按照一定比例随机划分为训练集和测试集;
[0084]
s3、安装conda环境管理系统,搭建pytorch深度学习框架,其中模型的配置利用yolov5模型完成;
[0085]
s4、对yolov5模型的多尺度检测结构、主干特征提取网络结构、空间金字塔结构以及特征融合网络结构进行改进;
[0086]
s5、对损失函数进行优化,在位置损失函数中引入宽高比一致性惩罚项;
[0087]
s6、将nms非极大抑制算法进行优化为soft-nms算法;
[0088]
s7、对特征融合网络结构输出的特征层利用二分类交叉损失熵函数进行分类,得到初步检测模型;
[0089]
s8、利用执行步骤s2获得的训练集对所述初步检测模型进行训练,得到最终检测模型;
[0090]
s9、将执行步骤s2获得的测试集输入所述最终训练模型,获得检测结果。
[0091]
在具体实施过程中,所述步骤s2中标注图片中的移动对象目标部位具体包括:使用图像标注工具labelimg用矩形框标注数据集中每一张图片,每张图片对应一个xml格式的标签文件;其中,所述标签文件包含cabin、engine两个类别,以及矩形框的左上角和右下角坐标。
[0092]
在具体实施过程中,所述步骤s4具体包括以下处理:
[0093]
(1)在多尺度检测结构上增加一个用于检测极小目标的特征检测层,利用低层特征分辨率高的特点,在移动对象所占像素较少的情况下检测到目标部位;
[0094]
(2)在主干特征提取网络结构的重要组成部分bottleneckcsp的末端增加squeeze-and-excitation networks,赋予特征层的不同通道能够自动学习的权重;
[0095]
(3)在空间金字塔结构的末端增加coordattention协同注意力机制,赋予特征层跨通道信息、方向感知和位置感知信息,使网络模型更加精准地定位移动对象目标部位;
[0096]
(4)优化bifpn结构并替换panet特征融合网络结构。
[0097]
在具体实施过程中,所述步骤s5中位置损失函数定义为:
[0098][0099][0100][0101]
其中,iou表示预测框与真实框的交并比,b表示预测框中心点,b
gt
表示目标框中心点,p表示欧式距离,c表示相交的预测框与目标框之间所构成外接最小矩形的对角线距离,
α是一个权重系数,v代表长宽比一致性的参数,w为预测框的宽度,w
gt
为真实框的宽度,h为预测框的高度,h
gt
为真实框的高度。
[0102]
损失函数(loss function),又称为代价函数(cost function),是神经网络设计中的一个重要部分。损失函数用来表征模型的预测值与真实类标之间的误差,深度学习模型的训练就是使用基于梯度的方法使损失函数最小化的过程。目标检测一般分为两个过程:训练过程和检测过程。损失函数属于训练过程,yolov5模型中有数百万参数,训练模型时,输入已知、输出已知,求输入和输出的函数关系式f(x),类似于用直线y=ax b拟合坐标平面上的点,损失函数的作用就是使得系数a、b最逼近真实值。
[0103]
所述步骤s6中nms算法定义为:
[0104][0105]
soft-nm算法定义为:
[0106][0107]
其中,s是预测框的集合,m是s中得分最高的预测框,bi是s中除去m外剩余的预测框,n
t
是一个阈值,si是预测框bi的得分,当某个预测框与得分最高的预测框的交并比iou较大时,该预测框能被正确检测出。
[0108]
上述已提及目标检测一般包括训练过程和检测过程。nms属于检测过程,是检测过程的最后一步。图片输入到训练好的yolov5模型,会输出许多预测框,需要对预测框进行筛选,nms负责对预测框进行筛选,筛选后的框才是最终的检测结果。soft-nms算法是对nms算法的改进,对密集物体检测的检测效果比nms好,nms算法的做法是将预测框按得分排序,然后保留得分最高的框,同时删除与该框重叠面积大于一定比例的其它框。
[0109]
在一具体实施方式中,完整执行本技术方案描述如下:
[0110]
在获取移动对象图片后,使用labelimg标注工具用矩形框标注数据集中每一张图片,会生成一个和标注图片同名的标签文件,每张图片对应一个xml格式的标签,标签文件包含有图片的名称、类别的名称以及标注矩形框左上角与右下角的坐标,类别的名称有cabin、engine两个类别,使用python格式转换脚本将xml格式的标签转换为txt格式的标签,txt格式标签有5列,第一列表示目标所属的类别,第二、第三列分别为归一化后中心点的横坐标、纵坐标,第四、第五列列是归一化后目标的宽度、高度。
[0111]
使用python程序将上述移动对象关键数据集按照一定比例(如8:2的比例)随机划分为训练集train和测试集test,训练集train和测试集test目录下均包含2个子文件夹,分别命名为images和labels,images存放图片,labels存放标签。
[0112]
将上述训练集train和测试集test放在基于pytorch深度学习框架的yolov5模型,模型如图2和图3所示,yolov5提取多特征层进行目标检测,一共提取三个特征层,对三个提取特征层进行解码操作,会得到三个有效特征层,每一个有效特征层将整个图片分成与其长宽对应的网格,每一个网格点都具有三个先验框,因为只检测2个类别,所以每个先验框中包含有7个元素,分别为所属类别、预测框中心点坐标、宽度、高度、以及2个类别的置信度得分,其中,有效特征层20
×
20
×
21用来检测图像中的大目标,40
×
40
×
21用来检测图像中的中等目标,80
×
80
×
21用来检测图像中的小目标,bottleneckcsp是主干特征提取网络特
征提取单元,spp是空间金字塔池化。但是yolov5对红外移动对象目标部位的检测效果并不好。其中,图2中基本模块:spp模块是空间金字塔池化,作用是融合了局部特征与全局特征;focus模块的作用是将原图像的宽、高信息转移到通道空间,在不丢失原图像信息的情况下实现下采样,可以把特征图的宽度和高度的大小减小为原来的1/2;bottleneck(true)、bottleneck(false)模块的作用是减少网络模型的参数量、计算量;bcspn(true)、bcspn(false)模块的作用是对输入到网络的图像进行特征提取;上采样模块的作用是放大原图像,可以把特征图的宽度和高度的大小放大为原来的2倍;detect模块的作用是计算出预测框的中心坐标和高宽。图3中基本模块:conv0是普通的卷积运算,作用是提取输入图像的特征;bn是批标准化,作用是解决网络模型训练过程中梯度消失的问题;hardswish、leakyrelu是两种不同的激活函数,可以使得网络具有非线性映射的能力;add表示对特征图进行加法运算,concat叫做堆叠,两者作用都是进行特征融合;slice是分支结构,在focus模块中代表切片操作,切片操作的作用是将原图像的宽、高信息转移到通道维度;在spp模块中代表最大池化操作,最大池化的作用是压缩图像,减少网络模型参数量;conv1是由conv0、bn、hardswish组成的模块,步长为1,conv2和conv1结构完全相同,区别在于它的步长为2;conv1、conv2模块的作用都是提取输入图像的不同特征。
[0113]
现对yolov5模型进行改进,如图4至图7所示,对主干特征提取网络的特征提取单元bottleneckcsp(简称bcsp)进行改进,在其末端增加squeeze-and-excitation networks(简称senet),赋予特征层的不同通道能够自动学习的权重;对空间池化金字塔进行改进,在其末端增加coordattention(简称ca)协同注意力机制,赋予特征层跨通道信息、方向感知和位置感知信息,使网络模型更加精准地定位移动对象目标部位;舍弃原有的panet特征融合网络,替换为改进后的bifpn双向特征金字塔网络,此时特征层在进行concat操作时有3路输入,输出特征层包含更多的语义信息和高分辨率信息。其中,图4中基本模块功能同图2中基本模块。图5中基本模块功能同图3中基本模块。图6中基本模块:coordattention(简称ca)是一种协同注意力机制,它具有以下的作用:(1)它不仅仅能捕获跨通道的信息,还能捕获方向感知和位置感知的信息,这能帮助模型更加精准地定位和识别感兴趣的目标;(2)coordattention是一种轻量级的网络,可以非常便利地插入到经典模块中,并通过强化信息表示的方法增强特征;coordattention由以下步骤构成:首先,将输入的特征图经过residual模块,得到大小为cxhxw的特征图a;接着沿着水平坐标方向和竖直坐标方向进行平均池化操作,分别得到cxhx1和cx1xw的特征图,将上述两个特征图进行特征聚合,然后经过卷积运算、批标准化、非线性激活函数操作,此时特征图的通道数变为原来的1/r;然后沿着水平坐标方向和竖直坐标方向分解成2个特征图,对这两个特征图分别进行卷积运算、sigmoid激活函数的操作得到权重b、c;最后将特征图a与权重b、c相乘得到输出结果。图7中基本模块:senet是一种通道注意力机制,作用是为特征通道赋予能够自动更新的权重,它由以下步骤构成:首先,将输入的特征图经过residual模块,得到大小为cxhxw的特征图,再进行全局平均池化(global pooling)操作,得到长度为c的实数序列,使得每个通道上的特征图都有一个全局感受野,全局感受野较小的浅层特征图可以使用全局信息提高网络的特征提取能力,获得更丰富的图像语义信息;接着,将长度为c的实数序列输入全连接层(fc),全连接层将序列维度降为原来的1/r(r为缩放系数〉,再使用relu激活函数实现非线性拟合,再将长度为c/r的实数序列输入全连接层(fc),全连接层将序列维度恢复为c,再使用
sigmoid激活函数计算通道的权重系数;然后将权重系数乘以对应的特征通道来更新特征图;最后,将更新后的特征图与输入的特征图相加,得到输出结果。
[0114]
使用上述数据集训练改进后的yolov5模型,图8和图9分别为yolov5和改进的yolov5模型的precision-recall曲线图,曲线下的面积表示的是检测精度,从图中可以看出,原来的yolov5模型平均检测精度map=81.0%,而改进后的yolov5算法平均检测精度map=87.3%,平均检测精度提高了6.3%。
[0115]
从训练结果中找到map最大的权重文件best.pt,使用deepstream将其部署到nvidia jetson agx xavier module。首先使用git指令克隆tensorrtx项目,将tensorrtx/yolov5/gen_wts.py复制到yolov5项目根目录下,执行命令生成.wts文件;在nvidia jetson agx xavier module上也克隆一个tensorrtx项目,将上述.wts文件放到tensorrtx/yolov5/下,修改tensorrtx/yolov5/yololayer.h,将类型数量改为2类,在tensorrtx/yolov5/目录下编译代码,将.wts文件转为.engine文件;安装deepstream,使用git指令克隆yolov5-in-deepstream-5.0项目,将上述.engine文件放到目录下,修改deepstream处理流程配置文件,执行命令运行deepstream,即可以在nvidia jetson agx xavier module上进行目标检测。
[0116]
总体而言,通过实施本技术技术方案,至少能够取得以下技术效果:
[0117]
(1)相较于现有采用tensorflow网络结构的方案,本技术方案支持采用pytorch网络框架,更加简单,操作更方便。
[0118]
(2)本技术方案从多方面对yolov5模型做了改进和优化工作,在多尺度检测结构上增加了极小目标检测层,因此模型能够从更远的距离、更小的目标像素面积检测到移动对象目标部位,而且的识别率相较于yolov5也有大幅度提升;在bottleneckcsp的末端增加squeeze-and-excitation networks,赋予特征层的不同通道能够自动学习的权重;在空间金字塔结构的末端增加coordattention协同注意力机制,赋予特征层跨通道信息、方向感知和位置感知信息,使网络模型更加精准地定位移动对象目标部位;优化bifpn结构并替换panet特征融合网络结构,赋予特征层更多的语义信息和高分辨信息,因此对于任意尺寸的移动对象,模型始终保持优异的性能。
[0119]
(3)本技术方案的检测方法对应的模型在检测精度不变的情况下参数量、计算量大幅减少,便于部署到硬件系统上,能做到对高速运动的移动对象目标部位的高精度、低延时检测。
[0120]
实施例二
[0121]
请参考图10,基于同一发明构思,本技术实施例提供了一种红外移动对象目标部位的高精度低延时检测装置,包括:
[0122]
图片数据增强模块1,用于在获取移动对象图片后,使用数据增强方法增加图片数量;
[0123]
数据集生成模块2,用于标注图片中的移动对象目标部位,生成数据集,并将所述数据集按照一定比例随机划分为训练集和测试集;
[0124]
深度学习框架搭建模块3,用于安装conda环境管理系统,搭建pytorch深度学习框架,其中模型的配置利用yolov5模型完成;
[0125]
模型结构改进模块4,用于对yolov5模型的多尺度检测结构、主干特征提取网络结
构、空间金字塔结构以及特征融合网络结构进行改进;
[0126]
函数优化模块5,用于对损失函数进行优化,在位置损失函数中引入宽高比一致性惩罚项;
[0127]
算法优化模块6,用于将nms非极大抑制算法进行优化为soft-nms算法;
[0128]
初步检测模型获取模块7,用于对特征融合网络结构输出的特征层利用二分类交叉损失熵函数进行分类,得到初步检测模型;
[0129]
最终检测模型获取模块8,用于利用所述训练集对所述初步检测模型进行训练,得到最终检测模型;
[0130]
检测结果获取模块9,用于将所述测试集输入至所述最终训练模型,获得检测结果。
[0131]
在具体实施过程中,图片数据增强模块1采用的数据增强方法包括:旋转变换、翻转变换、缩放变换、平移变换、尺度变换、噪声扰动变换和对比度变换。
[0132]
进一步,数据集生成模块2标注图片中的移动对象目标部位具体包括:
[0133]
使用图像标注工具labelimg用矩形框标注数据集中每一张图片,每张图片对应一个xml格式的标签文件;其中,所述标签文件包含cabin、engine两个类别,以及矩形框的左上角和右下角坐标。
[0134]
在具体实施过程中,模型结构改进模块4,包括:
[0135]
多尺度检测结构改进单元,用于在多尺度检测结构上增加一个用于检测极小目标的特征检测层,利用低层特征分辨率高的特点,在移动对象所占像素较少的情况下检测到目标部位;
[0136]
主干特征提取网络结构改进单元,用于在主干特征提取网络结构的重要组成部分bottleneckcsp的末端增加squeeze-and-excitation networks,赋予特征层的不同通道能够自动学习的权重;
[0137]
空间金字塔结构改进单元,用于在空间金字塔结构的末端增加coordattention协同注意力机制,赋予特征层跨通道信息、方向感知和位置感知信息,使网络模型更加精准地定位移动对象目标部位;
[0138]
特征融合网络结构改进单元,用于优化bifpn结构并替换panet特征融合网络结构。
[0139]
在具体实施过程中,所述位置损失函数定义为:
[0140][0141][0142][0143]
其中,iou表示预测框与真实框的交并比,b表示预测框中心点,b
gt
表示目标框中心点,ρ表示欧式距离,c表示相交的预测框与目标框之间所构成外接最小矩形的对角线距离,α是一个权重系数,v代表长宽比一致性的参数,w为预测框的宽度,w
gt
为真实框的宽度,h为
预测框的高度,h
gt
为真实框的高度。
[0144]
所述nms算法定义为:
[0145][0146]
soft-nm算法定义为:
[0147][0148]
其中,s是预测框的集合,m是s中得分最高的预测框,bi是s中除去m外剩余的预测框,n
t
是一个阈值,si是预测框bi的得分,当某个预测框与得分最高的预测框的交并比iou较大时,该预测框能被正确检测出。
[0149]
上述红外移动对象目标部位的高精度低延时检测装置用于实现上述红外移动对象目标部位的高精度低延时检测方法,所以,该装置与上述方法的一个或多个实施例一致,在此就不再一一赘述了。
[0150]
实施例三
[0151]
请参考图11,本技术实施例提供了一种红外移动对象目标部位的高精度低延时检测系统,作为硬件平台搭载本技术实施例一中的方法,以实现工程应用。所述检测系统包括:微型红外导引头系统10和ai电路系统20;
[0152]
微型红外导引头系统10,包括:红外热像组件101、陀螺伺服跟踪电路组件102、微型伺服稳定平台组件103和二次电源组件104;其中,二次电源组件104用于提供所述导引头系统内部各组成部分所需的电源,同时满足电源适应性相关要求;红外热像组件101用于向陀螺伺服跟踪电路组件102提供清晰的图像,以便所述导引头系统能够对目标进行有效检测、识别与跟踪;陀螺伺服跟踪电路组件102用于实现对目标的位置解算,驱动微型伺服稳定平台组件103稳定跟踪目标,其主要包含视频采集、目标跟踪、视频输出、导引信息输出等模块。微型伺服稳定平台组件103依据陀螺仪给出的角速率信息,实现导引头光轴在惯性空间中的稳定,并具有角度预置、搜索、跟踪等功能。该组件设计时与测角传感器进行集成设计,能够在保障平台伺服性能的条件下缩小导引头体积。
[0153]
ai电路系统20,包括:供电组件201,智能信息处理组件202,与智能信息处理组件202和陀螺伺服跟踪电路组件102相连的数据交互组件203;其中:
[0154]
数据交互组件203用于接收从红外热像组件101输出的红外图像数据,并输出至智能信息处理组件202;智能信息处理组件202用于对所述红外图像数据进行目标检测算法处理,计算出目标相关信息,并输出回数据交互组件203;数据交互组件203还用于将所述目标相关信息传输至陀螺伺服跟踪电路组件102;供电组件201用于提供ai电路系统20内部各组成部分所需的电源。
[0155]
在具体实施过程中,仍请参考图11,红外热像组件101由光学系统1011、调制器1012、探测器1013和后续电路1014组成。微型红外热像组件101对光学系统1011、调制器1012、探测器1013和后续电路1014进行一体化设计,极大地减小了需要占用的空间和面积,提高空间利用率。
[0156]
为了确保图像目标检测的实时性,在传统的方法下,图像检测算法处理平台大多
采用多个高性能fpga集群的方案作为处理平台的计算核心,但是这种方法存在研发难度大、周期长、平台功耗高等诸多不足之处。因此,针对本发明提出的一种红外移动对象目标部位的高精度、低延时检测方法,设计了一种小型化、高性能的ai电路系统20,它是基于一片fpga和一片集成高性能神经网络核心的soc搭建的适用于神经网络高效硬件实现的ai电路系统。
[0157]
在具体实施过程中,请参考图12,数据交互组件203的核心拟采用fpga,智能信息处理组件202的核心拟采用jetson agx xavier芯片,二者均受时钟信号控制,且设置多种通信接口,与外部电路进行数据交互。其中,jetson agx xavier芯片性能非常强大,其主要实现的功能包括:(1)通过视频接口接收数据交互组件203发送的图像数据;(2)运行智能目标检测和识别算法,计算出目标的相关信息;(3)通过串口输出目标相关信息给数据交互组件203。数据交互组件203从陀螺伺服跟踪电路组件102的视频采集模块接收图像数据,并将其通过视频接口发送给智能信息处理组件202中的jetson agx xavier,再将智能信息处理组件202输出的目标相关信息发送给陀螺伺服跟踪电路组件102。进一步由陀螺伺服跟踪电路组件102驱动微型伺服稳定平台稳定跟踪红外移动对象的目标部位。
[0158]
总而言之,本技术实施例的硬件实现系统具有小型化、低功耗、高性能、高可靠性的优点。其中,微型红外导引头系统10提升了红外图像的成像质量和分辨率;ai电路系统20克服了传统多个fpga集群系统架构功耗高、占用空间面积大以及可靠性低的缺点。
[0159]
尽管已描述了本发明的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。
[0160]
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献