一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种基于视觉的行人召车行为识别方法与流程

2022-02-22 03:58:51 来源:中国专利 TAG:


1.本发明属于车辆智能化领域,尤其涉及一种自动驾驶出租车识别行人行为意图的方法。


背景技术:

2.交通场景中的车辆识别行人的行为属于车辆智能化的范畴。准确有效的识别行人的召车意图可以帮助自动驾驶出租车在道路上快速寻找到有召车意图的行人,这对提高行人的出行效率和提高自动驾驶出租车的使用效率,避免交通拥堵具有重要意义。
3.行人召车行为识别是指利用计算机视觉的方法对交通场景中的行人进行分析,寻找具有召车意图的行人。交通场景具有高度的复杂性,交通参与者(包括行人、车辆、骑行者等)的数目和种类远高于其他应用场景,这增加了行为识别的难度。召车的行为与行人的其他行为(走路、跑步、骑行等)相比具有明显的随机性和瞬时性特点:首先,当前场景中的任何一个行人在任何时间都有可能转化成一个具有召车意图的人;另外,召车行为具有明显的瞬时的特性,司机判断一个人是否具有召车意图仅仅需要单独的一张图像就可以实现,而不需要考虑这张图像的前后连续几帧图像的信息。基于上述两个特点,传统的基于3dcnn(3d convolutional neural network)和lstm(long short term memory network)的行为识别算法不能适用于具有瞬时特性的召车意图推理。行人的手势是表达行人意图的关键信息,而目前的大多数手势识别算法主要应用于室内的场景,且基于视觉的手势识别算法对图像中手部轮廓的分辨率要求较高,但智能车搭载的车载相机无法实现在复杂的交通场景中生成如此高质量的图像。


技术实现要素:

4.为解决现有技术存在的上述问题,本发明要设计一种环境适应性强、识别精度高且基于视觉的行人召车行为识别方法,能够通过处理车载相机采集的图像,实时对图像中有召车意图行人的准确识别,从而帮助自动驾驶出租车更高效的发现乘客。
5.为了实现上述目的,本发明的技术方案如下:一种基于视觉的行人召车行为识别方法,包括以下步骤:
6.a、图像预处理
7.采用目标检测算法和人体关键点提取算法实现对图像的预处理,得到行人的检测框d以及每个检测框内所对应的行人的关键点参数k,在召车行为推理的过程中,人体的面部注意力是判断其是否具有召车意图的关键线索,在真实的场景中,行人召车的过程,行人将会对出租车具有高度的注意力。对面部注意力的推理,从两个方面进行,首先利用人体关键点检测中所检测到的面部关键点进行推理,以左耳关键点和右耳关键点的横坐标之差h
p
为基准,以σ为放大系数,形成一个边长为σh
p
的正方形框s作为面部区域;当左耳关键点和鼻关键点的横向距离hf大于h
p
,意味着行人的面部以相对侧面的角度正对出租车,即行人对车辆的注意力较小;当hf小于h
p
,将面部区域s输入到面部注意力深度网络中计算行人的面
部注意力概率;面部注意力深度网络包括前部网络和后部网络,前部网络为特征提取网络,采用resnet50作为基准网络,提取面部特征;后部网络为由全连接层组成的特征连接网络,实现将前部网络所提取的面部特征连接,得到全局特征,输出为面部注意力概率ρf;
8.b、意图推理
9.采用随机森林算法和图卷积网络相结合进行行人的意图推理,具体步骤如下:
10.b1、采用随机森林算法推理人体关键点之间的连接角度和行人意图的关系,随机森林的输入是人体关键点的连接角度,为了防止出现过拟合的现象,选取一些与行人召车关系较强的关键点角度作为随机森林的输入,包括以颈关键点、左肩关键点、右肩关键点、左肘关键点、右肘关键点为顶点的连接角度,随机森林的输出为行人具有召车意图的概率ρr。
11.b2、采用图卷积网络推理人体关键点位置与行人意图的关系,图卷积网络的输入为人体图模型g(v,e),其中,v为人体图模型的节点,即人体关键点,节点特征为关键点的坐标,e为人体图模型的边,即节点之间的连接。由于目标检测所获取的检测框d的尺寸不固定,为了降低检测框尺寸对意图推理的影响,采用坐标转换实现将人体关键点的图像坐标转化为以人体颈部关键点为原点的关联坐标:
[0012][0013]
其中,x
inew
和y
inew
为第i个人体关键点转换后的横坐标和纵坐标;ui与vi为第i个人体关键点的转换前的横坐标和纵坐标;u1与v1为颈部关键点的横坐标和纵坐标。
[0014]
图卷积网络的过程为:
[0015][0016][0017]
其中,a是人体图模型的邻接矩阵;是人体图模型的度矩阵;h
(l)
是第l层图卷积的输出特征,h
(l 1)
为第l 1层图卷积的输出特征;w
(l)
为第l层图卷积的参数矩阵;是激活函数;z是图卷积网络的输出,即行人具有召车意图的概率ρg;h
(z)
是最后一层图卷积的特征矩阵;w
(z)
是最后一层图卷积的参数矩阵;readout(
·
)是由全连接层组成的图读出网络,实现将人体图模型中的所有节点特征聚合连接。
[0018]
b3、算法融合
[0019]
通过随机森林和图卷积网络,分别得到行人具有召车意图的概率随机森林输出概率ρr和图卷积网络输出概率ρg,为了得到更稳定准确的意图推理,提出一套具有逻辑上可解释的融合规则实现将随机森林和图卷积网络融合,融合规则如下:
[0020][0021]
其中,p是融合后行人具有召车意图的概率。当pg>0.5且pr>0.5或者pg<0.5且pr<0.5时,意味着随机森林算法和图卷积网络算法具有相同的推理结果,则融合概率p为当pg>0.5且pr<0.5时,则意味着随机森林算法和图卷积网络算法具有不同的推理结果,图卷积网络的推理结果为行人具有召车意图,随机森林的推理结果为行人没有召车意图,为了得到一个更准确的推理结果,面部注意力概率pf作为动态权重对pg和pr实现动态加权平均,即,当pf>0.5,意味着行人具有较高的召车概率,则赋予图卷积网络的输出一个更高的权重,而随机森林的输出赋予一个较低的权重;当pf<0.5时,则赋予随机森林的输出一个更高的权重,而赋予图卷积网络的输出一个更低的权重;当pg<0.5且pr>0.5时,则意味着另一种随机森林算法和图卷积网络算法具有不同的推理结果的情况,图卷积网络的推理结果为行人没有召车意图,而随机森林的推理结果为行人具有召车意图,当pf>0.5时,意味着随机森林的推理结果有更高的概率为正确的结果,则随机森林的输出赋予更高的权重,而图卷积网络的输出赋予更低的权重;反之,当pf<0.5时,则图卷积网络的输出赋予更高的权重,而随机森林的输出赋予更低的权重。
[0022]
与现有技术相比,本发明的有益效果和益处如下:
[0023]
1、本发明采用计算机视觉的方法从图像中准确高效的识别出具有召车行为的行人,实现自动驾驶出租车更高效的发现乘客,提高了自动驾驶出租车的使用效率,也提高了乘客的出行效率。
[0024]
2、本发明采用了空间推理网络实现对行人召车行为的推理,减少了对时间维度信息的依赖,与传统的行为识别算法相比,减少了时间特征提取的过程,能够简化网络,提高行为推理的实时性。
[0025]
3、本发明采用了一套具有逻辑上可解释的融合规则,实现随机森林和图卷积网络的融合,逻辑上可解释的特性能够提高算法的环境适应性和行为识别的精度,实现融合算法对行人召车意图更稳定准确的推理。
附图说明
[0026]
图1是本发明的流程示意图。
[0027]
图2是openpose提取的人体关键点示意图。
[0028]
图3是面部注意力深度网络示意图。
[0029]
图4是随机森林示意图。
[0030]
图5是图卷积网络示意图。
具体实施方式
[0031]
下面结合附图对本发明进行进一步的描述,如图1所示,一种基于视觉的行人召车
行为识别方法,包括以下步骤:
[0032]
a、图像预处理
[0033]
采用yolov5作为目标检测方法和人体关键点提取算法openpose实现对图像的预处理,得到行人的检测框d以及每个检测框内所对应的行人的关键点参数k,其中,关键点的参数如图2所示,关键点的序列与人体部位的对应关系为:
[0034][0035]
目标检测所提供的检测框可以提高人体关键点提取的精度。在召车意图推理的过程中,人体的面部注意力是判断其是否具有召车意图的关键线索,在真实的场景中,行人召车的过程,行人将会对出租车具有高度的注意力。对面部注意力的推理,本发明主要从两个方面进行,首先利用人体关键点检测中所检测到的面部关键点进行推理,以关键点16和关键点17的横坐标之差h
p
为基准,以σ=1.2为放大系数,形成一个边长为σh
p
的正方形框s作为面部区域,当关键点16和关键点0之间的横向距离hf大于h
p
,意味着行人的面部以相对侧面的角度正对出租车,即行人对车辆的注意力较小,设置面部注意力概率ρf=0.1,当hf小于h
p
,则很难通过上述判断行人是否注意到车辆,因此,将面部区域s输入到面部注意力深度网络中计算其面部注意力概率,面部注意力深度网络示意图如图3所示,主要有两部分组成,前部分为特征提取网络,采用resnet50作为基准网络,提取面部特征,后部分为由全连接层组成的特征连接网络,将前部分所提取的特征连接,得到全局特征,输出为面部注意力概率ρf。
[0036]
b、意图推理
[0037]
通过步骤a可以得到行人的目标检测框d,目标检测框内行人的人体关键点k以及对应行人的面部注意力概率ρf。本发明采用随机森林算法和图卷积网络相结合进行行人的意图推理。
[0038]
b1、随机森林主要推理人体关键点之间的连接角度和行人意图的关系。因此,随机森林的输入是人体关键点的连接角度,为了防止出现过拟合的现象,本发明中,选取一些与行人召车关系较强的关键点角度作为随机森林的输入,包括以关键点1、关键点2、关键点3、关键点5和关键点6为顶点的连接角度,随机森林的输出为行人具有召车意图的概率为ρr,所输入的关键点连接角度为以关键点1为顶点的∠318、∠6111、∠418、∠7111、∠618、∠
617;以关键点2为顶点的∠123、∠124;以关键点5为顶点的∠156、∠157;以关键点3为顶点的∠234、∠438、∠134;以关键点6为顶点的∠567、∠7611、∠167。
[0039]
随机森林的示意图如图4所示,随机森林是由n个独立的决策树组成,其中,n=55,使用不同的数据集来训练不同的决策树,得到包含训练参数的相应的模型。每棵决策树都是一个特定的分类器,并根据输入数据做出独立的决策。决策聚合的过程采用多数投票法,输出为决策是召车意图的决策树的数目与决策树总数的比值,即行人具有召车意图的概率ρr。
[0040]
b2、图卷积网络主要推理人体关键点位置与行人意图的关系,因此,图卷积网络的输入为人体图模型g(v,e),其中,v为人体图模型的节点,即人体关键点,节点特征为关键点的坐标,e为人体图模型的边,即节点之间的连接。由于目标检测所获取的检测框d的尺寸不固定,为了降低检测框尺寸对意图推理的影响,采用坐标转换实现将人体关键点的图像坐标转化为以关键点1为原点的关联坐标:
[0041][0042]
其中,x
inew
、y
inew
为第i个人体关键点的转换后的横坐标和纵坐标,ui与vi为第i个人体关键点的转换前的横坐标和纵坐标;u1与v1为关键点1的横坐标和纵坐标。
[0043]
图卷积网络的示意图如图5所示,将人体图模型输入到图卷积网络中,人体的每个节点特征沿节点之间的边将节点特征传递到相邻的节点中,而每个节点也聚合来自相邻节点所传递的特征,实现节点特征沿边的传递和聚合,为增强模型的表达能力,在每一层图卷积后,采用激活函数relu实现节点特征非线性映射,最后,采用全连层组成的图读出网络实现将所有节点特征的聚合连接,得到最终的分类结果。
[0044]
图卷积网络的过程可以总结为:
[0045][0046][0047]
其中,a是人体图模型的邻接矩阵;是人体图模型的度矩阵;h
(l)
是第l层图卷积的输出特征,h
(l 1)
为第l 1层图卷积的输出特征;w
(l)
为第l层图卷积的参数矩阵;是激活函数relu;z是图卷积网络的输出,即行人具有召车意图的概率ρg;h
(z)
是最后一层图卷积的特征矩阵;w
(z)
是最后一层图卷积的参数矩阵;readout(
·
)是由全连接层组成的图读出网络,能够实现将人体图模型中的所有节点特征聚合连接。
[0048]
b3、算法融合
[0049]
通过随机森林和图卷积网络,分别得到行人具有召车意图的概率ρr和ρg,为了能够得到更稳定准确的意图推理,本发明提出一套具有逻辑上可解释的融合规则实现将随机森林和图卷积网络融合,融合规则如下:
[0050][0051]
其中,p是融合后行人具有召车意图的概率。当pg>0.5且pr>0.5或者pg<0.5且pr<0.5时,意味着随机森林算法和图卷积网络算法具有相同的推理结果,则融合概率p为当pg>0.5且pr<0.5时,则意味着随机森林算法和图卷积网络算法具有不同的推理结果,图卷积网络的推理结果为行人具有召车意图,随机森林的推理结果为行人没有召车意图,为了得到一个更准确的推理结果,面部注意力pf作为动态权重对pg和pr实现动态加权平均,即,当pf>0.5,意味着行人具有较高的召车概率,则赋予图卷积网络的输出一个更高的权重,而随机森林的输出赋予一个较低的权重;当pf<0.5时,则赋予随机森林的输出一个更高的权重,而赋予图卷积网络的输出一个更低的权重;当pg<0.5且pr>0.5时,则意味着另一种随机森林算法和图卷积网络算法具有不同的推理结果的情况,图卷积网络的推理结果为行人没有召车意图,而随机森林的推理结果为行人具有召车意图,当pf>0.5时,意味着随机森林的推理结果有更高的概率为正确的结果,则随机森林的输出赋予更高的权重,而图卷积网络的输出赋予更低的权重;反之,当pf<0.5时,则图卷积网络的输出赋予更高的权重,而随机森林的输出赋予更低的权重。
[0052]
本发明不局限于本实施例,任何在本发明披露的技术范围内的等同构思或者改变,均列为本发明的保护范围。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献