一种轻量级多任务视频流实时推理方法及系统

2023-02-02 01:59:37 来源：中国专利 TAG：

技术特征：
1.一种轻量级多任务视频流实时推理方法，其特征在于，包括：步骤1、获取包含驾驶场景的视频数据集，该视频数据集中包括多个视频流，视频流中视频帧具有标签文件，该标签文件包括目标锚框类别标签、行驶区域标签以及物体跟踪标签；步骤2、获取具有主干网络和特征金字塔网络的原目标检测模型，在该特征金字塔网络的目标检测头网络增加两个分支网络，分别作为分割行驶区域头网络和物体跟踪头网络，得到多任务检测模型；步骤3、以该视频数据集作为训练数据输入该多任务检测模型，并基于该多任务检测模型输出的目标锚框类别、行驶区域和物体跟踪结果，和该标签文件构建损失函数，以训练该多任务检测模型，得到教师模型，对该教师模型进行级联知识蒸馏的端到端结构化迭代剪枝处理，得到学生模型；步骤4、将车辆行驶时采集的待识别的实时驾驶场景视频流输入该学生模型，得到包含目标检测结果、可行驶区域和目标跟踪结果的推理结果；根据该推理结果，控制该车辆执行辅助驾驶相关的控制任务。2.如权利要求1所述的轻量级多任务视频流实时推理方法，其特征在于，该目标锚框类别标签包括类别、锚框中心点坐标、锚框宽度以及锚框高度；该行驶区域标签包括可行驶区域和不可行驶区域；该物体跟踪标签包括视频流的帧位、锚框编号、锚框中心点坐标、锚框宽度、锚框高度、锚框包含物体的置信度。3.如权利要求1所述的轻量级多任务视频流实时推理方法，其特征在于，该步骤3中训练该多任务检测模型具体包括：多任务检测模型通过该主干网络对视频帧进行特征提取，得到不同尺度的特征图，通过该特征金字塔网络对不同尺度的特征图进行融合，通过不同任务的头网络进行解码得到输出并与标签计算损失函数binary-cross-entropy和ciou loss，所述binary-cross-entropy具体为：l
bce
(y
′
i
,y
i
)＝-w
i
[y
i
*logy
′
i
(1-y
i
)*log(1-y
′
i
)]所述ciou loss的公式具体为：oss的公式具体为：oss的公式具体为：oss的公式具体为：其中l
bce
为binary-cross-entropy公式计算出的损失值，n为样本总数，a为预测输出，y为真实输出；l
ciou
为ciou loss公式计算出的损失值，iou为预测框a和标签框b的交并集，b
gt
为标签框中心点位置，b为预测框中心点位置，ρ2(b,b
gt
)为预测框a和标注框b中心点之间的欧几里得距离，c为预测框a和标注框b之间最小外接矩形测对角线的长度，α为权重，为预测
框a和标注框b之间长宽比的距离；a为预测框，b为标注框；w
gt
为标注框的宽，h
gt
为标注框的长，w为预测框的宽，h为预测框的长；当总损失值达到预设标准时，得到目标模型，所述目标模型用于获取待识别视频帧并输出所述目标模型识别出的检测目标标签和可行驶区域分割标签，其中检测目标标签作为该物体跟踪头网络的输入；该物体跟踪头网络采用马氏距离与余弦距离度量跟踪目标与检测目标之间的损失函数；其中，马氏距离关联度为：该余弦距离关联度量：综合马氏距离和余弦关联度量的损失函数如下：c
i,j
＝λd
(1)
(i,j) (1-λ)d
(2)
(i,j)其中，d
j
表示检测锚框的位置，y
i
表示对目标的预测位置，s
i
表示d
j
与y
i
之间的协方差矩阵，r
j
表示检测目标的特征向量，表示跟踪目标的特征向量，λ表示马氏距离度量的权重；当损失c
i,j
达到预设标准时，得到该教师网络。4.如权利要求3所述的轻量级多任务视频流实时推理方法，其特征在于，该步骤3中剪枝处理包括：对于该多任务检测模型的训练过程，在损失函数l
bce
(y'
i
,y
i
)中添加惩罚因子，对卷积层的权重和bn层的缩放系数进行约束，约束项λr(w)采用l1范数，对于卷积核和bn层缩放系数的约束公式如下：r(w)＝|α|训练上述端到端该多任务检测模型至损失函数收敛后，对滤波器的绝对值进行求和，然后结合缩放系数和滤波器的绝对值之和做计算重要性函数，再根据预设剪枝率对重要性进行升序排序，通过预设剪枝率计算剪枝阈值，将低于阈值的滤波器剪枝；其中，滤波器绝对值求和公式、重要性判断函数和剪枝阈值计算公式如下：m
i
＝α
i
*e
i
θ＝sort
p
(m)将剪枝前的网络作为教师网络，将剪枝后的网络作为该学生网络。5.一种轻量级多任务视频流实时推理系统，其特征在于，包括：模块1、获取包含驾驶场景的视频数据集，该视频数据集中包括多个视频流，视频流中视频帧具有标签文件，该标签文件包括目标锚框类别标签、行驶区域标签以及物体跟踪标签；模块2、获取具有主干网络和特征金字塔网络的原目标检测模型，在该特征金字塔网络
的目标检测头网络增加两个分支网络，分别作为分割行驶区域头网络和物体跟踪头网络，得到多任务检测模型；模块3、以该视频数据集作为训练数据输入该多任务检测模型，并基于该多任务检测模型输出的目标锚框类别、行驶区域和物体跟踪结果，和该标签文件构建损失函数，以训练该多任务检测模型，得到教师模型，对该教师模型进行级联知识蒸馏的端到端结构化迭代剪枝处理，得到学生模型；模块4、将车辆行驶时采集的待识别的实时驾驶场景视频流输入该学生模型，得到包含目标检测结果、可行驶区域和目标跟踪结果的推理结果；根据该推理结果，控制该车辆执行辅助驾驶相关的控制任务。6.如权利要求5所述的轻量级多任务视频流实时推理系统，其特征在于，该目标锚框类别标签包括类别、锚框中心点坐标、锚框宽度以及锚框高度；该行驶区域标签包括可行驶区域和不可行驶区域；该物体跟踪标签包括视频流的帧位、锚框编号、锚框中心点坐标、锚框宽度、锚框高度、锚框包含物体的置信度。7.如权利要求5所述的轻量级多任务视频流实时推理系统，其特征在于，该模块3中训练该多任务检测模型具体包括：多任务检测模型通过该主干网络对视频帧进行特征提取，得到不同尺度的特征图，通过该特征金字塔网络对不同尺度的特征图进行融合，通过不同任务的头网络进行解码得到输出并与标签计算损失函数binary-cross-entropy和ciou loss，所述binary-cross-entropy具体为：l
bce
(y
′
i
),y
i
)＝-w
i
[y
i
*logy
′
i
(1-y
i
)*log(1-y
′
i
)]所述ciou loss的公式具体为：oss的公式具体为：oss的公式具体为：oss的公式具体为：其中l
bce
为binary-cross-entropy公式计算出的损失值，n为样本总数，a为预测输出，y为真实输出；l
ciou
为ciou loss公式计算出的损失值，iou为预测框a和标签框b的交并集，b
gt
为标签框中心点位置，b为预测框中心点位置，ρ2(b,b
gt
)为预测框a和标注框b中心点之间的欧几里得距离，c为预测框a和标注框b之间最小外接矩形测对角线的长度，α为权重，为预测框a和标注框b之间长宽比的距离；a为预测框，b为标注框；w
gt
为标注框的宽，h
gt
为标注框的长，w为预测框的宽，h为预测框的长；当总损失值达到预设标准时，得到目标模型，所述目标模型用于获取待识别视频帧并输出所述目标模型识别出的检测目标标签和可行驶区域分割标签，其中检测目标标签作为该物体跟踪头网络的输入；该物体跟踪头网络采用马氏距离与余弦距离度量跟踪目标与检
测目标之间的损失函数；其中，马氏距离关联度为：该余弦距离关联度量：综合马氏距离和余弦关联度量的损失函数如下：c
i,j
＝λd
(1)
(i,j) (1-λ)d
(2)
(i,j)其中，d
j
表示检测锚框的位置，y
i
表示对目标的预测位置，s
i
表示d
j
与y
i
之间的协方差矩阵，r
j
表示检测目标的特征向量，表示跟踪目标的特征向量，λ表示马氏距离度量的权重；当损失c
i,j
达到预设标准时，得到该教师网络。8.如权利要求7所述的轻量级多任务视频流实时推理系统，其特征在于，该模块3中剪枝处理包括：对于该多任务检测模型的训练过程，在损失函数l
bce
(y'
i
,y
i
)中添加惩罚因子，对卷积层的权重和bn层的缩放系数进行约束，约束项λr(w)采用l1范数，对于卷积核和bn层缩放系数的约束公式如下：r(w)＝|α|训练上述端到端该多任务检测模型至损失函数收敛后，对滤波器的绝对值进行求和，然后结合缩放系数和滤波器的绝对值之和做计算重要性函数，再根据预设剪枝率对重要性进行升序排序，通过预设剪枝率计算剪枝阈值，将低于阈值的滤波器剪枝；其中，滤波器绝对值求和公式、重要性判断函数和剪枝阈值计算公式如下：m
i
＝α
i
*e
i
θ＝sort
p
(m)将剪枝前的网络作为教师网络，将剪枝后的网络作为该学生网络。9.一种存储介质，用于存储执行如权利要求1到4所述任意一种轻量级多任务视频流实时推理方法的程序。10.一种客户端，用于权利要求5或8所述的任意一种轻量级多任务视频流实时推理系统。

技术总结
本发明提出一种轻量级多任务视频流实时推理方法及系统，采用推理效率更高的目标检测模型作为检测基准模型，在其基础上增加可行驶区域分割头网络和多物体跟踪头网络来分别完成可行驶区域分割任务和多物体跟踪任务，通过共享主干网络和特征金字塔网络的方式减少参数量和计算量的冗余，通过级联知识蒸馏的端到端结构化迭代剪枝算法，进一步降低模型的计算量，有效提高了模型在边缘芯片硬件上的加速比，最终模型能够保证精度的同时在边缘端做到实时推理。实时推理。实时推理。

技术研发人员：戴凌飞刁博宇李超宫禄齐徐勇军
受保护的技术使用者：中国科学院计算技术研究所
技术研发日：2022.10.31
技术公布日：2023/1/31

再多了解一些

2/2 首页上一页 1 2

本文用于创业者技术爱好者查询，仅供学习研究，如用于商业用途，请联系技术所有人。

上一篇：返回列表
下一篇：一种图像异物识别方法、装置、设备及存储介质与流程

一种轻量级多任务视频流实时推理方法及系统

相关文献

最热文献