一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种目标重识别方法、装置和计算机可读存储介质与流程

2022-03-23 00:12:42 来源:中国专利 TAG:


1.本技术涉及计算机视觉技术领域,具体涉及一种目标重识别方法、装置和计算机可读存储介质。


背景技术:

2.目标重识别是图像检索的子问题,着眼于在目标被遮挡、模糊或损坏的情况下,在跨摄像头场景中检索出特定的目标;例如,以车辆重识别为例,车辆重识别在交通管理或智能监控等方面具有重要的实际应用,然而由于车辆外观在不同的环境、视角、分辨率以及光照条件下差异很大,且不同的车辆可能因具有相同的品牌、型号和颜色而表现出相似的外观,给车辆重识别任务带来了困难,导致识别效果不佳或者识别模型的复杂度较高。


技术实现要素:

3.本技术提供一种目标重识别方法、装置和计算机可读存储介质,能够提升目标重识别的性能。
4.为解决上述技术问题,本技术采用的技术方案是:提供一种目标重识别方法,该方法包括:获取待识别图像与搜索数据集,待识别图像包括待识别目标,搜索数据集包括多个搜索图像;基于目标重识别模型分别对待识别图像与搜索数据集进行处理,得到重识别结果,重识别结果包括搜索数据集中与待识别目标匹配的搜索图像;其中,目标重识别模型是基于训练数据训练的,训练数据包括多个样本图像,目标重识别模型包括主干网络与至少两个分支网络,主干网络用于获取样本图像中的特征,得到样本特征;分支网络用于对样本特征进行处理得到特征图,并对特征图进行分类得到分类结果;目标重识别模型的损失值由第一损失值与第二损失值确定,第一损失值为对所有分支网络输出的特征图进行解耦处理得到的损失,第二损失值为每个分类结果的损失。
5.为解决上述技术问题,本技术采用的另一技术方案是:提供一种目标重识别装置,该目标重识别装置包括互相连接的存储器和处理器,其中,存储器用于存储计算机程序,计算机程序在被处理器执行时,用于实现上述技术方案中的目标重识别方法。
6.为解决上述技术问题,本技术采用的另一技术方案是:提供一种计算机可读存储介质,该计算机可读存储介质用于存储计算机程序,计算机程序在被处理器执行时,用于实现上述技术方案中的目标重识别方法。
7.通过上述方案,本技术的有益效果是:本技术所提供的目标重识别模型包括主干网络以及至少两个分支网络;在训练目标重识别模型时,采用主干网络对样本图像进行处理,生成样本特征;分支网络可对样本特征进行处理得到特征图,通过对所有分支网络输出的特征图进行解耦处理,便可得到第一损失值;同时,每个分支网络还输出分类结果,每个分类结果对应一个第二损失值;通过对第一损失值与所有第二损失值进行处理,便可生成每次训练的损失值;在实际使用中,采用训练完的目标重识别模型对待识别图像与搜索数据集进行处理,便可得到重识别结果;由于在目标重识别模型中同时训练多种信息,因此能
够获取到多种分类结果,提高了模型的泛化性能;而且,由于对所有特征图进行了解耦操作,使得各种特征能够区分开,有助于提升重识别的准确性。
附图说明
8.为了更清楚地说明本技术实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。其中:
9.图1是本技术提供的目标重识别方法一实施例的流程示意图;
10.图2是本技术提供的目标重识别模型的结构示意图;
11.图3是本技术提供的目标重识别方法另一实施例的流程示意图;
12.图4是本技术提供的训练目标重识别模型的流程示意图;
13.图5是本技术提供的目标重识别模型的另一结构示意图;
14.图6是本技术提供的目标重识别装置一实施例的结构示意图;
15.图7是本技术提供的计算机可读存储介质一实施例的结构示意图。
具体实施方式
16.下面结合附图和实施例,对本技术作进一步的详细描述。特别指出的是,以下实施例仅用于说明本技术,但不对本技术的范围进行限定。同样的,以下实施例仅为本技术的部分实施例而非全部实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本技术保护的范围。
17.在本技术中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本技术的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。
18.需要说明的是,本技术中的术语“第一”、“第二”、“第三”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”、“第三”的特征可以明示或者隐含地包括至少一个该特征。本技术的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。此外,术语“包括”和“具有”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可选地还包括没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。
19.请参阅图1,图1是本技术提供的目标重识别方法一实施例的流程示意图,该方法包括:
20.s11:获取待识别图像与搜索数据集。
21.待识别图像包括待识别目标,待识别目标为关注的目标,其可以为车辆、船、行人或行李等;搜索数据集包括多个搜索图像,搜索图像为可能包括待识别目标的图像;可从图像数据库中获取待识别图像以及搜索图像,或者利用多个摄像设备对监控场景进行拍摄,
生成待识别图像以及搜索图像。
22.s12:基于目标重识别模型分别对待识别图像与搜索数据集进行处理,得到重识别结果。
23.可预先采用训练数据对目标重识别模型进行训练,生成训练完的目标重识别模型,即目标重识别模型是基于训练数据训练的,该训练数据包括多个样本图像,目标重识别模型包括主干网络与至少两个分支网络,主干网络用于获取样本图像中的特征,得到样本特征;分支网络用于对样本特征进行处理得到特征图,并对特征图进行分类得到分类结果;目标重识别模型的损失值由第一损失值与第二损失值确定,第一损失值为对所有分支网络输出的特征图进行解耦处理得到的损失,第二损失值为每个分类结果的损失。
24.在一具体的实施例中,如图2所示,目标识别模型包括分支网络1-3,训练数据包括与样本图像对应的标签1-3,分支网络1可输出特征图1与分类结果1,分支网络2可输出特征图2与分类结果2,分支网络3可输出特征图3与分类结果3,通过对特征图1、特征图2以及特征图3进行解耦处理,得到第一损失值l1;计算分类结果1与标签1之间的损失值,得到第二损失值l21;计算分类结果2与标签2之间的损失值,得到第二损失值l22;计算分类结果3与标签3之间的损失值,得到第二损失值l23;通过对第一损失值l1、第二损失值l21、第二损失值l22以及第二损失值l23进行处理,能够得到此次训练的损失值。可以理解地,对模型进行训练的具体过程与相关技术类似,在此不再赘述。
25.在获取到训练完的目标重识别模型后,将待识别图像与搜索图像输入训练完的目标重识别模型,生成重识别结果,该重识别结果包括搜索数据集中与待识别目标匹配的搜索图像,从而实现了将不同摄像设备拍摄到的待识别目标搜索出来。
26.本实施例提供了一种基于特征解耦的目标重识别方法,在训练目标重识别模型时,对所有分支网络输出的特征图进行解耦处理,生成第一损失值;同时,每个分支网络对应一个第二损失值;通过对第一损失值与所有第二损失值进行处理,生成损失值,可利用该损失值确定是否继续训练,最终得到训练完的目标重识别模型;由于在目标重识别模型中同时训练多种分类,提高了模型的泛化性能;而且,由于对特征图进行了解耦,使得各种特征能够区分开,有助于提升识别的准确性。
27.请参阅图3,图3是本技术提供的目标重识别方法另一实施例的流程示意图,该方法包括:
28.s31:获取目标重识别模型。
29.目标重识别模型中的至少两个分支网络包括第一分支网络与第二分支网络,如图4所示,目标重识别模型的训练包括以下步骤:
30.s41:从训练数据中选择一个样本图像,并采用主干网络对样本图像进行特征提取处理,得到样本特征。
31.训练数据包括多个样本图像,该样本图像包括待训练目标,该训练目标的种类与待识别目标的种类相同;在对目标重识别模型进行训练时,可先从所有样本图像中选取一张样本图像,然后将该样本图像输入待训练的目标识别模型中;具体地,以样本图像为车辆的图像为例,如图5所示,可以使用resnet50(deep residual network,深度残差网络)的前四个模块conv1~conv4作为主干网络。
32.s42:采用第一分支网络对样本特征进行处理,生成第一特征图。
33.主干网络输出的样本特征被输入第一分支网络,第一分支网络对该样本特征处理后得到第一特征图。
34.s43:采用第二分支网络对样本特征进行处理,生成第二特征图。
35.主干网络输出的样本特征被输入第二分支网络,第二分支网络对该样本特征处理后得到第二特征图。
36.在一具体的实施例中,如图5所示,第一分支网络为车辆分支,第二分支网络为摄像头分支,这两个分支网络的网络结构相同;具体地,第一分支网络与第二分支网络均包括依次连接的卷积层(比如:resnet50的conv5模块)、批量归一化层以及池化层,卷积层用于对样本特征进行卷积,批量归一化层用于对卷积层输出的特征进行批量归一化,池化层用于对批量归一化层输出的特征进行池化,该池化层可以为全局平均池化层;第一特征图为第一分支网络中的批量归一化层输出的特征,第二特征图为第二分支网络中的批量归一化层输出的特征;第一特征图为与待训练目标的身份对应的特征,第二特征图为与待训练目标所属的摄像头对应的特征。
37.s44:对第一特征图与第二特征图进行解耦处理,生成第一损失值。
38.第一特征图包括多个第一特征子图,第二特征图包括多个第二特征子图,采用第一权重矩阵对所有第一特征子图进行加权求和,生成第三特征图;采用第二权重矩阵对所有第二特征子图进行加权求和,生成第四特征图;基于第三特征图与第四特征图,生成第一损失值。
39.进一步地,对第三特征图进行激活处理,得到第五特征图;对第四特征图进行激活处理,得到第六特征图;计算第五特征图与第六特征图的哈达玛积,得到第七特征图;计算第七特征图中所有值的和,得到第一损失值。
40.s45:对第一损失值与所有第二损失值进行处理,生成损失值。
41.对第一损失值、第一分支网络对应的第二损失值以及第二分支网络对应的第二损失值进行加权求和,得到损失值。
42.s46:判断目标重识别模型是否满足预设训练终止条件。
43.预设停止条件包括:损失值收敛,即上一损失值与当前计算出的损失值的差值小于设定值;判定损失值是否小于预设损失值,该预设损失值为预先设置的损失阈值,若损失值小于预设损失值,则确定达到预设停止条件;训练次数达到设定值(例如:训练10000次);或者使用测试集进行测试时获得的准确率达到设定条件(比如:超过预设准确率)等。
44.s47:若目标重识别模型满足预设训练终止条件,则得到训练完的目标重识别模型。
45.若目标重识别模型不满足预设训练终止条件,则返回从训练数据中选择一个样本图像的步骤(即返回s41),直至目标重识别模型满足预设训练终止条件,得到训练完的目标重识别模型。
46.在一具体的实施例中,如图5所示,以待训练目标为车辆为例,可对样本图像中车辆的身份以及摄像头进行标注,生成车辆身份标签和摄像头标签;为了使提取到的车辆特征更关注输入的图像中车辆的信息,而摄像头感知特征更关注图像中的背景、风格以及光照信息,使用以下方法对车辆特征与摄像头感知特征进行解耦:
47.样本图像经过主干网络和两个分支网络中的conv5模块以及批量归一化层后,得
到车辆特征图f(即第一特征图)和摄像头感知特征图m(即第二特征图),车辆特征图f和摄像头感知特征图m的大小和通道数相等。
48.假设样本图像的车辆身份标签记作t,摄像头标签记作c,在用于车辆分类的全连接权重矩阵w中,与类别t对应的权重向量为w
t
;在用于摄像头分类的全连接权重矩阵p中,与类别c对应的权重向量为pc。
49.对于车辆分类分支(即第一分支网络)来说,使用权重向量w
t
对车辆特征图f中相应通道的特征图进行加权求和,以得到类别t的激活区域图(即第五特征图)a
t
,即采用如下公式进行计算:
[0050][0051]
其中,在公式(1)中,fi(x,y)为车辆特征图f中位置(x,y)处第i个通道的元素值,d为车辆特征图f的通道数量,w
t,i
为w
t
的第i个元素值。
[0052]
同样地,对于摄像头分类分支(即第二分支网络)来说,使用权重向量pc对摄像头感知特征图m中相应通道的特征图进行加权求和,以得到类别c的激活区域图(即第六特征图)bc,即采用如下公式进行计算:
[0053][0054]
其中,在公式(2)中,mi(x,y)为摄像头感知特征图m中位置(x,y)处第i个通道的元素值,d为摄像头感知特征图m的通道数量,p
c,i
为p
t
的第i个元素值。
[0055]
激活区域图反映了模型是根据图像的哪些区域来确定目标类别的,即在激活区域图上,数值越高的区域对类别得分的贡献程度越大。由于车辆特征图f和摄像头感知特征图m的大小是相同的,所以得到的激活区域图a
t
和bc的大小也是一致的。
[0056]
然后,使用sigmoid激活函数分别对激活区域图a
t
和bc的每个元素进行变换,得到a和b,a和b中每个元素值的范围为(0,1)。为了解耦车辆特征和摄像头感知特征,使它们关注不同的区域,采用如下公式计算第一损失值:
[0057][0058]
其中,在公式(3)中,表示矩阵中的元素对应相乘。
[0059]
通过第一分支网络与第二分支网络的处理,可输出对应的车辆特征和摄像头感知特征,这些特征用于训练过程中的损失计算或实际应用过程中的特征检索。
[0060]
因此,目标重识别模型的训练损失包括三部分:车辆身份分类损失(即第一分网络的第二损失值)、摄像头类别分类损失(即第二分网络的第二损失值)以及特征解耦损失(即第一损失值),将这三个损失求和之后进行反向传播,并使用优化算法更新模型参数以减小损失值,从而在不断的训练过程中使模型学习到更好的特征表达。可以理解地,采用反向传播以及优化算法对模型进行训练的方法与相关技术中相同,在此不再赘述。
[0061]
本实施例将训练数据中的样本图像输入目标重识别模型,经过主干网络和两个分支网络的处理后,输出提取到的车辆特征和摄像头感知特征;然后将这两个特征输入不同的全连接层和激活层(该激活层可采用softmax激活函数),分别进行车辆身份的分类和摄像头类别的分类,能够得到相应的类别预测概率,即车辆类别预测概率与摄像头类别预测概率,车辆类别预测概率用于表示车辆的身份属于某一类的概率,摄像头类别预测概率用
于表示拍摄样本图像所使用的摄像头属于某一类的概率;同时,对车辆身份标签和摄像头标签分别进行标签平滑操作(比如:采用独热编码),生成相应的编码值;最后根据类别预测概率和编码值计算交叉熵损失,分别得到车辆身份分类损失和摄像头类别分类损失。本实施例利用车辆身份标签和摄像头标签训练模型,不需要使用额外的模型,仅仅增加一个分支(即第二分支网络),与现有模型相比,复杂度较低;在不使用额外模型和过多分支的条件下,能够从输入的图像提取出具有区分性的语义特征,从而提升车辆重识别的识别性能;且使用了特征解耦损失,使得车辆特征更关注输入图像中的车辆信息,而摄像头感知特征更关注图像中的背景、风格以及光照信息,有助于提升识别的性能。
[0062]
s32:获取待识别图像与搜索数据集。
[0063]
s32与上述实施例中s11相同,在此不再赘述。
[0064]
s33:采用目标重识别模型对待识别图像进行识别处理,得到第一输出特征。
[0065]
将待识别图像输入目标重识别模型中,以使得目标重识别模型对该待识别图像进行处理,生成第一输出特征。
[0066]
s34:采用目标重识别模型对搜索图像进行识别处理,得到第二输出特征。
[0067]
将搜索图像输入目标重识别模型中,以使得目标重识别模型对该搜索图像进行处理,生成第二输出特征。
[0068]
s35:基于第一输出特征与第二输出特征,生成重识别结果。
[0069]
第一输出特征包括待识别图像的第一分类特征与待识别图像的第二分类特征,第二输出特征包括搜索图像的第一分类特征与搜索图像的第二分类特征;可先计算待识别图像的第一分类特征与搜索图像的第一分类特征之间的相似度,得到第一相似度,比如:通过计算余弦距离或欧式距离,来得到第一相似度;然后计算待识别图像的第二分类特征与搜索图像的第二分类特征之间的相似度,得到第二相似度;然后基于第一相似度与第二相似度,生成重识别结果。
[0070]
进一步地,先对第一相似度与第二相似度进行加权求和,得到第三相似度;然后基于第三相似度,对搜索数据集中的所有搜索图像进行筛选处理,得到重识别结果。例如,以采用余弦距离来计算相似度为例,最终的距离(即第三相似度)=车辆特征距离(即第一相似度)-λ
×
摄像头感知特征距离(即第二相似度),λ可根据具体应用需求进行设置。
[0071]
在一具体的实施例中,可以按照第三相似度由大到小的顺序,对搜索数据集中的所有搜索图像进行排序,得到排序集合;从排序集合中选择第三相似度最大的预设数量个搜索图像,得到重识别结果。可以理解地,预设数量可根据具体应用需要或经验进行设置;例如,假设搜索图像集包括1000张搜索图像,预设数量为80,则最终从这1000张搜索图像中筛选出80张搜索图像组成重识别结果。
[0072]
在另一具体的实施例中,可以判断搜索图像集中搜索图像的第三相似度是否大于预设相似度;若搜索图像集中搜索图像的第三相似度大于预设相似度(比如:0.5),则将搜索图像放入重识别结果。
[0073]
在一实施方式中,以待识别目标为车辆为例,先将待识别图像和搜索图像集中的图像输入上述训练完成的目标重识别模型中,经过主干网络和两个分支网络的处理后,得到车辆特征和摄像头感知特征;然后计算每个待识别图像的车辆特征与搜索图像集中每个图像的车辆特征的余弦距离,同时计算每个待识别图像的摄像头感知特征与搜索图像集中
每个图像的摄像头感知特征的余弦距离;再对这两个余弦距离进行融合得到最终的距离;最后按照距离由小到大的排序方式对搜索图像集中的图像进行排序,得到对应的重识别结果。
[0074]
本实施例在对车辆特征和摄像头感知特征进行解耦时,通过约束车辆辆分类和摄像头分类的激活区域图实现,由于对车辆特征距离和摄像头感知特征距离进行了融合,减轻了背景环境对重识别结果的影响,提高了识别性能。
[0075]
可以理解地,还可构建一个待识别图像集,该待识别图像集包括至少一个待识别图像,采用上述实施例中的方法对所有待识别图像进行处理,生成相应的重识别结果。
[0076]
本实施例在训练目标重识别模型时,不需要使用额外的模型,仅仅增加一个分支,模型的复杂度较低;同时训练车辆身份分类和摄像头分类,提高了模型的泛化性能,且能够减轻背景环境对重识别结果的影响,提升模型的识别准确率。
[0077]
请参阅图6,图6是本技术提供的目标重识别装置一实施例的结构示意图,目标重识别装置60包括互相连接的存储器61和处理器62,存储器61用于存储计算机程序,计算机程序在被处理器62执行时,用于实现上述实施例中的目标重识别方法。
[0078]
本实施例采用的方案先构建基于特征解耦的目标重识别模型;然后使用训练数据中的图像和标签训练目标重识别模型;然后将待识别图像集和搜索图像集中的图像输入训练完成的目标重识别模型,得到车辆特征和摄像头感知特征;根据这两个特征分别计算待识别图像和搜索图像集中每个图像的距离,分别得到车辆特征距离和摄像头感知特征距离;对这两个距离融合后,按照距离由小到大的顺序排序,便可得到待识别图像的检索结果,能够提升识别的性能。
[0079]
请参阅图7,图7是本技术提供的计算机可读存储介质一实施例的结构示意图,计算机可读存储介质70用于存储计算机程序71,计算机程序71在被处理器执行时,用于实现上述实施例中的目标重识别方法。
[0080]
计算机可读存储介质70可以是服务端、u盘、移动硬盘、只读存储器(rom,read-only memory)、随机存取存储器(ram,random access memory)、磁碟或者光盘等各种可以存储程序代码的介质。
[0081]
在本技术所提供的几个实施方式中,应该理解到,所揭露的方法以及设备,可以通过其它的方式实现。例如,以上所描述的设备实施方式仅仅是示意性的,例如,模块或单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。
[0082]
作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施方式方案的目的。
[0083]
另外,在本技术各个实施方式中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
[0084]
以上所述仅为本技术的实施例,并非因此限制本技术的专利范围,凡是利用本技术说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技
术领域,均同理包括在本技术的专利保护范围内。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献