一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种提高目标识别跟踪准确度的方法与流程

2022-08-24 02:58:12 来源:中国专利 TAG:


1.本发明涉及目标自动识别跟踪技术领域,特别涉及一种提高目标识别跟踪准确度的方法。


背景技术:

2.采集的视频图像用于对人物进行识别跟踪已是现代追踪技术中非常利于发展的项目,人物的识别通过深度神经网络已能良好的实现,但当视频图像中存在多个人物目标,并且目标容易发生较大运动偏移、相互遮挡等情况时,比如商场、广场、车站等人流量大的场景中,导致目标跟踪性能受限,出现目标检测框跳动的问题,使得目标跟踪精度降低。因此,针对视频图像中的目标识别跟踪技术还得进一步提高。


技术实现要素:

3.本发明的目的在于针对视频图像中多个目标对象的像素特征,确定该目标对象的检测框,以快速跟踪定位该目标对象,提供一种提高目标识别跟踪准确度的方法。
4.为了实现上述发明目的,本发明实施例提供了以下技术方案:一种提高目标识别跟踪准确度的方法,包括以下步骤:步骤s1,将视频图像输入目标识别模块,目标识别模块提取视频图像中所有目标检测框的像素特征,通过像素特征确定目标对象;步骤s2,目标跟踪模块定位目标对象,在二维的图像帧中确定目标对象所面对的方向,面对的方向以360
°
的角度范围表示;步骤s3,目标跟踪模块根据目标对象所面对的角度,预测目标对象在下一帧图像中的移动轨迹。
5.在上述方案中,获取图像中目标检测框的像素特征,通过像素特征确定目标检测框的下一帧走向,避免因视频图像中因人多发生相互遮挡等情况时,目标检测框频繁跳动的问题,只要确定了一个目标对象的检测框,即使有遮挡或较大运动偏移,都能快速跟踪定位该目标对象。
6.所述目标识别模块提取视频图像中所有目标检测框的像素特征的步骤,包括:所述目标识别模块包括色度提取单元、深度卷积神经网络、特征融合层;所述色度提取单元针对当前帧图像中目标检测框的像素点,提取像素点的四个色度值,分别表示第i个目标检测框中第j个像素点的红色色度值、绿色色度值、蓝色色度值、透明色度值;所述深度卷积神经网络分别对四个色度值进行特征提取,获得四个色度值对应的色度特征;所述特征融合层通过softmax将四个色度特征进行融合,得到该像素点的像素特征。
7.所述深度卷积神经网络具有四个,每个深度卷积神经网络分别针对一个色度值进行特征提取;每个所述深度卷积神经网络包括平均池化层、二维可形变卷积层、第一线性层、第二线性层、第一批标准化层、第二批标准化层、第一非线性激活层、第二非线性激活层、全连接层;将任一色度值输入平均池化层编码输入特征,所述输入特征经过二维可形变卷积层后得到位置特征和纹理特征;将位置特征依次输入第一线性层、第一批标准化层、第一非线性激活层,得到位置特征的权重向量;将纹理特征依次输入第二线性层、第二批标准化层、第二非线性激活层,得到纹理特征的权重向量;最后位置特征的权重向量和纹理特征的权重向量经过全连接层进行加权处理,得到该色度值对应的色度特征。
8.在上述方案中,改进深度卷积神经网络的结构,将其分为位置特征提取和纹理特征提取两个分支。位置特征是指像素点在目标检测框中的位置,比如第j个像素点的位置为(x,y),当目标对象移动时,可以保证第j个像素点始终在目标检测框中(x,y)的位置上,这样可以尽量避免目标检测框跳动。纹理特征是指因人体穿着等外部的特征,比如衣服褶皱时,会使得同一光线下同一颜色的衣服也会出现不同的灰度表示,因此纹理特征可以弥补色度特征的确定。
9.所述特征融合层通过softmax将四个色度特征进行融合,得到该像素点的像素特征的步骤,包括:其中,o
i,j
表示第i个目标检测框中第j个像素点的像素特征;、、、分别表示第i个目标检测框中第j个像素点的红色色度特征、绿色色度特征、蓝色色度特征、透明色度特征;、、、分别表示红色色度特征的权重、绿色色度特征的权重、蓝色色度特征的权重、透明色度特征的权重。
10.所述目标跟踪模块根据目标对象所面对的角度,预测目标对象在下一帧图像中的移动轨迹的步骤,包括:通过损失函数l
center
回归目标检测框的中心点位置,以约束下一帧图像中预测的目标检测框与真实的目标检测框之间的距离:其中,xi表示输入的第i个目标检测框中属于目标对象的像素,yi表示输入的第i个目标检测框属于背景的像素;表示目标对象像素集合,表示背景像素集合;表示平
衡参数,,;表示目标检测框的中心偏移量;表示预测的目标对象所面对的方向角度,,表示真实的目标对象所面对的方向角度,);r表示余弦边界;表示预测目标对象所面对的方向角度的余弦函数,表示真实目标对象所面对的方向角度的余弦函数;表示中心权重;表示比例参数。
11.与现有技术相比,本发明的有益效果:本发明通过深度卷积神经网络确定目标检测框中各个像素点的色度特征,从而根据像素点的像素特征确定目标检测框,即便出现现场人流量大时的大运动偏移和相互遮挡的情况,只要按照目标对象的像素特征,便能快速跟踪定位该目标对象,以提高目标识别跟踪的准确度。
附图说明
12.为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
13.图1为本发明方法流程图;图2为本发明实施例目标识别模块结构示意图;图3为本发明实施例深度卷积神经网络结构示意图;图4为本发明实施例二维图像帧中确定目标对象所面对方向的示意图。
具体实施方式
14.下面将结合本发明实施例中附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的选定实施例。基于本发明的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
15.应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。同时,在本发明的描述中,术语“第一”、“第二”等仅用于区分描述,而不能理解为指示或暗示相对重要性,或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。
16.实施例:本发明通过下述技术方案实现,如图1所示,一种提高目标识别跟踪准确度的方法,包括以下步骤:步骤s1,将视频图像输入目标识别模块,目标识别模块提取视频图像中所有目标
检测框的像素特征,通过像素特征确定目标对象。
17.视频图像是以视频的形式展示,但最终都是多帧图像形成的视频,因此本方案针对单帧图像进行说明。请参见图2,所述目标识别模块包括色度提取单元、深度卷积神经网络、特征融合层。由于对图像中人物的识别已是成熟的现有技术,故不对如何获得人物的目标检测框进行赘述,参见各现有技术即可。
18.由于图像都是由一个一个像素点构成的,并且每个像素点由四个字节构成,这四个字节代表的含义为:第一个字节表示红色色度值,第二个字节表示绿色色度值,第三个字节表示蓝色色度值,第四个字节表示透明色度值。红绿蓝是三基色,自然界的其他颜色都是由它们的不同比例混合而成。
19.色度提取单元针对当前帧图像中目标检测框的像素点,提取像素点的四个色度值,表示第i个目标检测框中第j个像素点的红色色度值,表示第i个目标检测框中第j个像素点的绿色色度值,表示第i个目标检测框中第j个像素点的蓝色色度值,表示第i个目标检测框中第j个像素点的透明色度值。
20.深度卷积神经网络分别对四个色度值进行特征提取,获得四个色度值对应的色度特征。请参见图2,所述深度卷积神经网络具有四个,且结构均相同,每个深度卷积神经网络分别针对一个色度值进行特征提取。
21.请参见图3,每个所述深度卷积神经网络包括平均池化层、二维可形变卷积层、第一线性层、第二线性层、第一批标准化层、第二批标准化层、第一非线性激活层、第二非线性激活层、全连接层。
22.此处以红色色度值为例进行说明,将红色色度值输入平均池化层编码输入特征,所述输入特征经过二维可形变卷积层后得到位置特征和纹理特征;将位置特征依次输入第一线性层、第一批标准化层、第一非线性激活层,得到位置特征的权重向量;将纹理特征依次输入第二线性层、第二批标准化层、第二非线性激活层,得到纹理特征的权重向量;最后位置特征的权重向量和纹理特征的权重向量经过全连接层进行加权处理,得到红色色度特征。其他色度值输入深度卷积神经网络后,经过同样的处理得到对应的色度特征。
23.最后特征融合层通过softmax将四个色度特征进行融合,得到第j个像素点的像素特征:其中,o
i,j
表示第i个目标检测框中第j个像素点的像素特征;、、、分别表示第i个目标检测框中第j个像素点的红色色度特征、绿色色度特征、蓝色色度特征、透明色度特征;、、、分别表示红色色度特征的权重、绿色色度特征的权重、蓝色色度特征的权重、透明色度特征的权重。
24.步骤s2,目标跟踪模块定位目标对象,在二维的图像帧中确定目标对象所面对的
方向,面对的方向以360
°
的角度范围表示。
25.由于拍摄的视频图像实际是三维空间,但只能显示为二维图像,如果以人体的正上方或正下方观察时,人体所面对的方向是等比例的,比如人体旋转β度,那么在二维图像中就会显示β度旋转。但是拍摄的视频图像不会是人体的正上方或正下方,所以实际人体旋转β度时,在二维图像中不会显示为β度。所以需要进行拟合,以人体的头部或其他某个部位作为圆心,一帧图像是固定不动的,请参见图4,设计该帧图像的坐标系,人体在不同位置时与坐标系原点的距离也不同,从而拟合人体实际旋转角度与二维图像中旋转角度的线性关系。比如人体由b点旋转至b`点时,实际旋转角度是β`度,但在如图4所示的坐标系中通过线性拟合为β度,故β与β`是具有线性关系的。
26.步骤s3,目标跟踪模块根据目标对象所面对的角度,预测目标对象在下一帧图像中的移动轨迹。
27.通过损失函数l
center
回归目标检测框的中心点位置,以约束下一帧图像中预测的目标检测框与真实的目标检测框之间的距离,使得预测的精度不断提高:其中,xi表示输入的第i个目标检测框中属于目标对象的像素,yi表示输入的第i个目标检测框属于背景的像素;表示目标对象像素集合,表示背景像素集合;表示平衡参数,,;表示目标检测框的中心偏移量;表示预测的目标对象所面对的方向角度,,表示真实的目标对象所面对的方向角度,);r表示余弦边界;表示预测目标对象所面对的方向角度的余弦函数,表示真实目标对象所面对的方向角度的余弦函数;表示中心权重;表示比例参数。
28.以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应所述以权利要求的保护范围为准。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献