一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

利用文本描述生成图像进行行人搜索的方法与流程

2022-04-16 18:03:52 来源:中国专利 TAG:

技术特征:
1.利用文本描述生成图像进行行人搜索的方法,其特征在于包括如下步骤:s1、构造用于实现文本描述到行人图像转化的转化生成模型;s2、重复将指向目标行人的文本描述输入至转化生成模型中,加入随机噪声,生成k个对应目标行人文本描述的行人图像,记为查询图像,k个查询图像构成查询图像组,k≥1;s3、将查询图像组中的查询图像分别输入基于图像的行人搜索模型,获得k个对应的目标行人搜索结果序列,每个目标行人搜索结果序列中包括若干候选行人;s4、将k个目标行人搜索结果序列中的候选行人进行加权重排,将所有候选行人按照最终排序位次进行排序,获得文本描述的目标行人搜索结果。2.根据权利要求1所述的利用文本描述生成图像进行行人搜索的方法,其特征在于步骤s1中的转化生成模型包括lstm文本特征提取子模块、标准正态分布随机噪声引入子模块、dcgan网络模型;lstm文本特征提取子模块,使用已预训练好的lstm长短期记忆网络,接受对于目标查询行人的文本描述作为输入,输出n维的文本特征向量;标准正态分布随机噪声引入子模块,依据标准正态分布,生成均值为0,方差为1的m维随机噪声,将lstm文本特征提取子模块输出的n维文本特征向量与生成的m维标准正态分布随机噪声进行拼接,得到n m维文本特征向量发送给dcgan网络模型;dcgan网络模型,根据n m维文本特征向量,生成对应目标行人文本描述的行人图像。3.根据权利要求1所述的利用文本描述生成图像进行行人搜索的方法,其特征在于所述dcgan网络模型通过具有文本描述的行人图像数据集对转化生成模型进行训练得到。4.根据权利要求3所述的利用文本描述生成图像进行行人搜索的方法,其特征在于所述具有文本描述的行人图像数据集采用cuhk-pedes数据集。5.根据权利要求1所述的利用文本描述生成图像进行行人搜索的方法,其特征在于步骤s3中,所述基于图像的行人搜索模型采用基于faster r-cnn框架的已经训练好的在线实例匹配oim行人搜索模型。6.根据权利要求1所述的利用文本描述生成图像进行行人搜索的方法,其特征在于步骤s4中候选行人x
i
最终排序位次rank的计算公式如下:式中,k为查询图像组包含的图像数,也即排序结果列表的数量,为查询图像组中第i个查询图像对应的目标行人搜索结果序列中候选行人x的位次为x
i
时的权重系数,若该候选行人未在查询图像组中第i个查询图像对应的目标行人搜索结果序列中出现,则x
i
取0。7.根据权利要求6所述的利用文本描述生成图像进行行人搜索的方法,其特征在于对于某个给定的目标行人搜索结果序列中,目标行人搜索结果序列的候选行人x在搜索结果序列的位次x
i
的权重系数的权重系数
其中,ξ为系数超参数,取值范围为0~1,e为自然指数,n
i
为第i个查询图像对应的目标行人搜索结果序列长度,τ为平滑系数超参数,大于1,取值范围为1~10,当x
i
为时,对应的位次权重将最小,而越靠前或靠后,位次权重将越大,i∈[1,k]。

技术总结
本发明涉及利用文本描述生成图像进行行人搜索的方法,属于计算机视觉技术领域,该方法包括如下步骤:S1、构造用于实现文本描述到行人图像转化的转化生成模型;S2、重复将指向目标行人的文本描述输入至转化生成模型中,加入随机噪声,生成K个对应目标行人文本描述的行人图像,记为查询图像,K个查询图像构成查询图像组,K≥1;S3、将查询图像组中的查询图像分别输入基于图像的行人搜索模型,获得K个对应的目标行人搜索结果序列,每个目标行人搜索结果序列中包括若干候选行人;S4、将K个目标行人搜索结果序列中的候选行人进行加权重排,将所有候选行人按照最终排序位次进行排序,获得文本描述的目标行人搜索结果。本描述的目标行人搜索结果。本描述的目标行人搜索结果。


技术研发人员:辛宁 任术波 李久超 曾骏杰 李丽楠
受保护的技术使用者:中国空间技术研究院
技术研发日:2021.11.18
技术公布日:2022/4/15
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献